Folien.pdf (8790 KB)

66
Sind wir bereit für Linked Data? Datenqualität – keine leichte Aufgabe! Francesca Schulze Michael Büchner Deutsche Digitale Bibliothek Technische Koordination 104. Bibliothekartag Bibliotheken – von Anfang an Zukunft Nürnberg, 27. Mai 2015

Transcript of Folien.pdf (8790 KB)

Page 1: Folien.pdf (8790 KB)

Sind wir bereit für Linked Data?Datenqualität –keine leichte Aufgabe!

Francesca SchulzeMichael BüchnerDeutsche Digitale BibliothekTechnische Koordination

104. BibliothekartagBibliotheken – von Anfang an ZukunftNürnberg, 27. Mai 2015

Page 2: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

1. Datenlieferung2. Datenmodell3. Normdaten4. Persistente Identifikatoren

Übersicht

Page 3: Folien.pdf (8790 KB)

Datenlieferung

Page 4: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

denkXWeb

Lieferformate für die DDB

Mediatheken BibliothekenDenkmalpflegeDublin Core

EAD LIDOArchive

METS/MODS MARCXML

Film Bild Open Access Repositorien

Museen Mediatheken Forschung

Bild

Ton

Kunstgeschichte

Bibliotheken

Digitalisierte Drucke

Bibliotheken… weitere Formate folgen

Page 5: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Ursachen• Schema wurde erweitert/verändert • Falsche oder fehlende Deklarierung von Namensräumen• Falsche Anwendung von Namensräumen• Fehlende Pflichtelemente bzw. Werte in Pflichtelementen

Problem: Lieferdaten passen nicht zum Schema

• Beispiele

• Lösung: • Validierung (XML-Syntax, Schema)• Versionierung & Dokumentation von Schema-Änderungen

Page 6: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Ursachen• Schema wurde erweitert/verändert • Falsche oder fehlende Deklarierung von Namensräumen• Falsche Anwendung von Namensräumen• Fehlende Pflichtelemente bzw. Werte in Pflichtelementen

Problem: Lieferdaten passen nicht zum Schema

• Beispiele

• Lösung: • Validierung (XML-Syntax, Schema)• Versionierung & Dokumentation von Schema-Änderungen

Page 7: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

In den Lieferdaten kommen alle möglichen Zeichenkodierungen vor!z. B. ASCII, ISO8859-1/-15, UTF-8 oder undefinierte Kodierungen (mit Steuerzeichen)

• UTF-8• kanonische Dekomposition (NFD)• kanonischen Komposition (NFC)

• NFD: ʿAqiva Ben-Moše Êger –cabf417169cc827661cc822042656e2d4d6f73cc8c652045cc82676572

• NFC: ʿAqîvâ Ben-Moše Êger –cabf4171c3ae76c3a22042656e2d4d6fc5a16520c38a676572

• ASCII: Aqiva Ben-Mose Eger –41716976612042656e2d4d6f73652045676572

Problem: Zeichenkodierung

Lösung: Einigung auf eine einheitliche Zeichenkodierung: UTF-8 (NFD)!?

Page 8: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 15% (Stand Mai 2014) unserer Daten beinhalten verstecktesund zum Teil unsicheres HTML• <b>, <em>, <i>, <strong>, <u>, <br>, <p> usw.

• Woher kommt das?• … zum Teil aus einem fehlerhaften Mapping• … zum Teil aus den Lieferdaten

Problem: Verstecktes HTML in den Lieferdaten

Lösung: HTML muss unbedingt herausgefiltert werden –Sensibilisierung und Validierung

Page 9: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 15% (Stand Mai 2014) unserer Daten beinhalten verstecktesund zum Teil unsicheres HTML• <b>, <em>, <i>, <strong>, <u>, <br>, <p> usw.

• Woher kommt das?• … zum Teil aus einem fehlerhaften Mapping• … zum Teil aus den Lieferdaten

Problem: Verstecktes HTML in den Lieferdaten

Lösung: HTML muss unbedingt herausgefiltert werden –Sensibilisierung und Validierung

Page 10: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 15% (Stand Mai 2014) unserer Daten beinhalten verstecktesund zum Teil unsicheres HTML• <b>, <em>, <i>, <strong>, <u>, <br>, <p> usw.

• Woher kommt das?• … zum Teil aus einem fehlerhaften Mapping• … zum Teil aus den Lieferdaten

Problem: Verstecktes HTML in den Lieferdaten

Lösung: HTML muss unbedingt herausgefiltert werden –Sensibilisierung und Validierung

Page 11: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping

Problem: Verlust durch flache Lieferformate

<dc:subject>Druckgrafik</dc:subject> <dc:subject>Druck</dc:subject> <dc:subject>Druckgrafik</dc:subject> <dc:subject>Fotografie</dc:subject> <dc:subject>Fotos</dc:subject><dc:subject>Ortskatalog zur Kunstund Architektur</dc:subject>

Lösung: Einführung komplexerer Formate (hier: LIDO)

Page 12: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping

Problem: Verlust durch flache Lieferformate

?

Lösung: Einführung komplexerer Formate (hier: LIDO)

Page 13: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping

Problem: Verlust durch flache Lieferformate

<dc:creator>Friedrich, Caspar David</dc:creator>

Lösung: Einführung komplexerer Formate (hier: LIDO)

Page 14: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping

Problem: Verlust durch flache Lieferformate

<dc:coverage>Staatliche Kunstsammlungen Dresden (SKD)</dc:coverage> <dc:coverage>Dresden</dc:coverage>

Lösung: Einführung komplexerer Formate (hier: LIDO)

Page 15: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• 10 unserer Datengeber nutzen Dublin Core-Profile für Datenlieferung• ~ 1.3 Mio. Objekte vornehmlich aus Sparte Mediathek• Informationen und logische Zusammenhänge gehen verloren• z.T. falsche Zuordnungen der Elemente beim Mapping

Problem: Verlust durch flache Lieferformate

<dc:description>Friedrich, Caspar David, Die Frau mit dem Raben am Abgrund</dc:description>

Lösung: Einführung komplexerer Formate (hier: LIDO)

Page 16: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• z.B. fehlende oder falsche Verknüpfungen bei hierarchischen Objekten in komplexen Formaten (EAD, METS/MODS, MARCXML)

Problem: Logische Inkonsistenzen

Bsp. EAD Tektonik

FindbuchWichtig für alle Lieferdaten:• Analyse (maschinell/intellektuell)• Validierung (Syntax, Schema, ggf.

regelbasiert mit Schematron)• Rückmeldung an Datengeber

Page 17: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

In der validierten XML-Datei konnten insgesamt 20.090 mal Abweichungen zum MODS AP 2.1 festgestellt werden.

Ausschnitt aus einem Analyse-Report METS/MODS für ZVDD

Kritische Fehler'mods:title', das Kindelement von 'mods:titleInfo', ist nicht vorhanden.- Vorkommnisse: 24- Beispiel: identifier 'http://nbn-resolving.de/urn/[…]' ,mets:dmdSec[@ID='DMDLOG_0000']

Warnung

mods:titleInfo[not(mods:title)]

menschenlesbar maschinelle Regel

Hinweise

'mods:title' 'Berliner Adreßbuch 1914' ist eventuell keine Titelangabe, sondern besteht nur aus einer ArtBandbezeichnung.- Vorkommnisse: 1- Beispiel: identifier 'urn:nbn:de:[…]' , mets:dmdSec[@ID='DMDLOG_0001']

mets:structMap[@TYPE='LOGICAL'][//mets:div[parent::mets:div[mets:mptr]]][preceding-sibling::mets:dmdSec[@ID=$DMDID_sub]//mods:titleInfo/mods:title/text()[string-length(.)<3]]

Page 18: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Austauschformate ausreichend spezifiziert, aber: • semantisch viel Interpretationsspielraum für Datengeber• generell und nicht für spezielle Anwendungen entwickelt• LIDO: kaum Vorgaben für Element- und Attributinhalte,

die Aussage über Datenstruktur machen

Problem: Anwendung der Metadatenformate

Empfehlungen für strukturierende LIDO-Elemente/Attribute• Deutscher Museumsbund und DDB entwickeln „LIDO-Terminologie“:

Wertelisten, Verwendungshinweise und Praxisbeispiele

Anwendungsprofile für Datenaustausch• Für DDB: EAD(DDB), DDB-LIDO, METS-MODS zvdd-DDB• Für Materialarten im DFG-Viewer: METS/MODS digitalisierte

Drucke und ASR2 METS/MODS digitalisierter Ton

Praxisnahe Dokumentationen mit Anwendungsbeispielen

https://www.deutsche-digitale-bibliothek.de/item/BAW6UAU6LVIIO7J3V4MGDOBZPZSKPJJJ

Page 19: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Erfassung

Problem: Verschiedene DatenworkflowsKleine Auswahl von Systemen & Werkzeugen

Mapping & Datenmangement Digitalisierungsmanagement

Verbundkatalogisierung

Data Preparation ToolMINT

Vokabularmanagement

digiCULT.meta

digiCULT.web

digiCULT.xTree

Page 20: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

1) Analyse/Optimierung von Workflows & Werkzeugen• Festlegung sparten-/formatspezifischer Anforderungen• Datenaufbereitung durch Fachstellen und Aggregatoren

2) Zusammenarbeit mit Systemanbietern• Umfrage unter Anbietern von Erfassungssystemen• Langfristiges Ziel: Hinwirken auf Umsetzung von DDB

Anforderungen & Empfehlungen

3) Nachnutzung von Community Tools & Services• LoCloud Services, APEX Data Preperation Tool, MINT…

4) Stärkung der Rolle von Aggregatoren für DDB• Leistungskatalog • Aggregatoren als gesonderte Vertragspartner• Arbeit von DINI: Zertifikat für Digitale Sammlungen

Lösungswege Workflows & Werkzeuge

https://www.deutsche-digitale-bibliothek.de/item/G2QO6424CRSPVRAEKSRO63UVDDRPY6BA

Erfolgsbeispiel: Import von GND-URIs seit Goobi v2.0, aber aufwendige Altdatenbearbeitung nötig bis zur Auslieferung in METS/MODS

Page 21: Folien.pdf (8790 KB)

Datenmodell

Page 22: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Archival Information Packet – [AIP]

Metadatenformate der DDB

<view>

Daten für Objektansicht im DDB-Frontend

<provider>

Daten des Datengebers

<binaries>

Links zu Derivaten

<index-profile>

Indexierungsprofil

… und einiges mehr

<metadata-record>Wrapper für Lieferformat

<edm>

Daten im Europeana Data Model-Format

LinkedDataLinkedData

Page 23: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• DDB-eigenes Datenformat cortex• XML-basierter Wrapper

Metadatenformate der DDB

Page 24: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

RDF & EDM

Goethe schrieb Rede bey Eröffnung...

Resource Description Framework„Die Welt als ein Graph von Subjekt-Prädikat-Objekt-Tripeln“

EDM = Europeana Data Model

RDF/XML Serialisierung (Ausschnitt):<edm:Event xmlns:edm="http://www.europeana.eu/schemas/edm/" rdf:about=„GIXI2PMQLJOVJ5I5WSF4AXX4WMK6OJIO">

<edm:hasType rdf:resource="http://terminology.lido-schema.org/lido0001"/><crm:P11_had_participant xmlns:crm="http://www.cidoc-crm.org/rdfs/cidoc_crm_v5.0.2_english_label.rdfs#"/> <rdf:resource="http://d-nb.info/gnd/118540238"/>

</edm:Event><edm:Agent xmlns:edm="http://www.europeana.eu/schemas/edm/" rdf:about="http://d-nb.info/gnd/118540238">

<skos:prefLabel xmlns:skos="http://www.w3.org/2004/02/skos/ core#">Goethe, Johann Wolfgang</skos:prefLabel><edm:wasPresentAtrdf:resource="GIXI2PMQLJOVJ5I5WSF4AXX4WMK6OJIO"/>

</edm:Agent>

edm:ProvidedCHO

dc:title

Rede bey Eröffnung des neuen Bergbaus zu Ilmenau: Den 24sten Februar 1784

edm:hasMet

edm:hasType

Goethe, Johann Wolfgang von

skos:prefLabel

crmP11_had_participant

edm:EventGIXI2PMQLJOVJ5I5WSF4AXX4

WMK6OJIO

edm:Agenthttp://d-

nb.info/gnd/118540238

Geistige Schöpfunghttp://terminology.lido-schema.org/lido00012

http://www.deutsche-digitale-bibliothek.de/item/NDFGYMI3THLFPE

V5AVZW2X36CGEITCGS

Page 25: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

DDB-EDM Graph: GND-URI als Knoten

edm:Agenthttp://d-

nb.info/gnd/118614940edm:hasMetedm:hasMet

edm:ProvidedCHOhttp://www.deutsche-digitale-

bibliothek.de/item/VQYKLT44YBK7ZLRRXFN4K3CUF5JYCQVG

edm:ProvidedCHOhttp://www.deutsche-digitale-

bibliothek.de/item/OJ3BV6DKYH5UJXGQUJMU6CLUS4D5LQBY

edm:hasTypeedm:hasType

crmP11_had_participant

edm:EventHULFFBHQLTLXXSF6Y2V5GJN6SII5

3SSS

Herstellunghttp://terminology.lido-schema.org/lido00007

Herstellunghttp://terminology.lido-schema.org/lido00007

crm:P11_had_participant

edm:EventXZW5V6AG27PEQBRYPDQESAH3S

IKOTEMY

edm:ProvidedCHOhttp://www.deutsche-digitale-

bibliothek.de/item/YBC3Q5QLS765XJDYOPQ4AJMKJNUZZNXN

dcterms:subject

Page 26: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• DDB-EDM = eigenes Profil von Europeana-EDM• Verluste durch Mapping zu DDB-Objektansichten• „Redundanzen“ durch Mapping zu Europeana-EDM• Zusätzliche Lösungen für DDB

Problem: EDM für verschiedene Anwendungen

http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation

Machbarkeitsanalyse EDM als primäres DDB-DatenformatMachbarkeitsanalyse EDM als primäres DDB-Datenformat

Entwicklung von EDM-Anwendungsprofilen

Andere Projekte: DM2E, DPLA, Europeana Fashion, …

Entwicklung von EDM-Anwendungsprofilen • Europeana: EDM for Sound, Hierarchical Objects, Collections• Andere Projekte: DM2E, DPLA, Europeana Fashion, …

• Bsp. Goethe als Thema Europeana

DDB

Page 27: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• DDB-EDM = eigenes Profil von Europeana-EDM• Verluste durch Mapping zu DDB-Objektansichten• „Redundanzen“ durch Mapping zu Europeana-EDM• Zusätzliche Lösungen für DDB

Problem: EDM für verschiedene Anwendungen

http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation

Machbarkeitsanalyse EDM als primäres DDB-DatenformatMachbarkeitsanalyse EDM als primäres DDB-Datenformat

Entwicklung von EDM-Anwendungsprofilen

Andere Projekte: DM2E, DPLA, Europeana Fashion, …

Entwicklung von EDM-Anwendungsprofilen • Europeana: EDM for Sound, Hierarchical Objects, Collections• Andere Projekte: DM2E, DPLA, Europeana Fashion, …

• Bsp. LithographieDDB <view>

DDB <edm> -

Page 28: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• DDB-EDM = eigenes Profil von Europeana-EDM• Verluste durch Mapping zu DDB-Objektansichten• „Redundanzen“ durch Mapping zu Europeana-EDM• Zusätzliche Lösungen für DDB

Problem: EDM für verschiedene Anwendungen

http://pro.europeana.eu/share-your-data/data-guidelines/edm-documentation

Machbarkeitsanalyse EDM als primäres DDB-DatenformatMachbarkeitsanalyse EDM als primäres DDB-Datenformat

Entwicklung von EDM-Anwendungsprofilen Entwicklung von EDM-Anwendungsprofilen • Europeana: EDM for Sound, Hierarchical Objects, Collections• Andere Projekte: DM2E, DPLA, Europeana Fashion, …

• Bsp. Hierarchien

Page 29: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Mapping zu DDB-Formaten = intellektueller & technischer Prozess• Regelmäßig Anpassungen nötig

• Lieferungen neuer Datengeber, Entwicklungen der DDB, tlw. auch bei Updates

• Aufwendige Fehleranalyse • nicht für gesamte Lieferung möglich• bezieht sich oft nur auf sichtbare Daten im DDB-Frontend• unterschiedliche Kenntnisse der DDB-Formate

Problem: Qualitätsverluste beim Mapping

Intellektuell: Testpläne, praxisnahe Dokumentationen, SchulungenIntellektuell: Testpläne, praxisnahe Dokumentationen, Schulungen

Validierung als Hilfsmittel für Fehleranalyse:• Prüfung, ob Pflichtelemente vorhanden• Prüfung best. Elementinhalte (kontrollierte Werte, Syntax-Check u.s.w.)• Regelbasiert, z.B. wenn Element a vorh. => dann muss auch Element b vorh. sein• Fehlerkategorisierung nach Schweregrad• Report an Fachstelle & Datengeber

https://www.deutsche-digitale-bibliothek.de/item/UGMRLXCGTYGVXXOAO

7G52UG7RDLP7IDX

Generell: Ob Elementinhalte semantisch richtig zugeordnet sind, kann nur intellektuell geprüft werden

Page 30: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Wir reichern Daten nur bedingt an• Bei Mapping und Transformation

Zuordnung von URIs (z.B. Lizenzen/Kennzeichnungen) regelbasierte Normalisierung (Zeitwerte, Sprache,

Medientyp …)

• Tests: Erkennung von GND-Entitäten auf Basis von Objekt-Metadaten

• Asynchrone Indexanreicherung

Anreicherung und Normierung

• Strukturanalyse: Ziffern werden zu # 1ste Hälfte 20. Jh. #Hälfte ## Jh.

• Regeln für häufig verkommene Muster• Normierung zu internem Standard• Umwandlung in Zeitwerte

1. Hälfte 20. Jahrhundert 1901/1950

• Normalisierung Zeitwerte

Allerdings nur intern: Zeitstempel in DDB-Daten

Je eher Daten geprüft, normiert und angereichert werden, desto besser!

Page 31: Folien.pdf (8790 KB)

Normdaten

Page 32: Folien.pdf (8790 KB)

Allgemeines Vorgehen in der DDB

Page 33: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Standardisierte Knotenpunkte• normierter Aufbau Ontologie• Zusammenführung von Informationen kontrollierte Vokabulare• Erleichterung der Datenanreicherung• Verbesserung der Austauschbarkeit und Wiederverwendung• Verbesserung der Auffindbarkeit für Mensch und Maschine

• vielfältige Suchmöglichkeiten: Unscharfe Suchen, alternative Begriffe usw.• alternative Sucheinstiege

Kurz: „Normdaten sind der Feenstaub in den Metadaten!“

Wozu brauchen wir Normdaten?

Page 34: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Wird haben vielfältige Normdaten in unseren Lieferdaten!• Gemeinsame Normdatei (GND)• Getty (Art & Architecture Thesaurus usw.)• Oberbegriffsdatei (OBG) • Iconclass• ISIL usw.

• … unser derzeitiges Vorgehen: GND als gemeinsamer Normdatenhub• wichtige Voraussetzungen:

• Öffnung der GND für alle Sparten• Akzeptanz der GND in anderen Sparten• Kooperative Projekte wie IN2N sind wichtig!

• ABER: Wir sind unsicher, ob das die Lösung ist!

Normdaten in der DDB

GND

B

CD

Page 35: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• DDB-Entitäten bekommen ein festes Vokabular• Personen: GND• Körperschaften: ISIL, GND … ?• Orte: GND, Geonames … ?• Objektarten: AAT, DDB-Voc … ?

ggfs. weitere Klassifizierungen für grundlegende Objekteigenschaften• Werke: GND, CONA … ?• Sachschlagworte: DDC, DNB-Sachgruppen, GND, Spartenvokabulare … ?

• Wir brauchen Cross-Konkordanzenzwischen Normdatenvokabularen!• teilweise schon vorhanden• teilweise nicht vorhanden• teilweise nicht möglich

GND als Normdatenhub?

GND

B

CD

Page 36: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• z. B. Mapping von spartenspezifischen Vokabularen zur GND• Tool: xTreeConnect von Digicult• Crosskonkordanzen: Anreicherung der GND!?

Gemeinsame Werkzeuge und Dienste

Matching-Station(automatisierter Vergleich)

Mapping-Station(intellektuelle Zuordnung)

Page 37: Folien.pdf (8790 KB)

Personenseiten in der DDB

Page 38: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Suchfeld

Suchbereich

Suchergebnis in den Objekten

Suchergebnis bei Personen

Normdaten

Filterfacetten

Page 39: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Page 40: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Personen in den Facetten der DDB

Page 41: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Körperschaften in Facetten der DDB

Page 42: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Das ist um Klassen besser – dank der Normdaten der GND!

Berufe der Personen in den Facetten der DDB

Page 43: Folien.pdf (8790 KB)

HerausforderungenEine kleine Auswahl!

Page 44: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Wer (falsche) Daten zugänglich macht ist dafür „verantwortlich“!

• … für die Normdaten aus der GND• Fall 1: Lieferdaten haben falsche Zuordnungen• Fall 2: Daten in der GND sind nicht korrekt oder verletzten Rechte

• … die DDB erreichen: Anfragen, Hinweise und Verbesserungen• … für ihre Lieferdaten• … für ihre Normdaten

• Wir brauchen hier sparten- undinstitutionsübergreifende Workflows!• Idee: Korrekturformular in DDB Durchsicht durch

Servicestelle DDB und ??? Aktualisierung

• …als (semi-) automatischer Vorgang?

„Shoot the messenger!“

Page 45: Folien.pdf (8790 KB)

Entity Facts

Page 46: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• leichtgewichtiger Normdatendienst auf Basis der GND• maschinenlesbare Faktenblätter für Entitäten der

Gemeinsamen Normdatei (GND)• einfach zu benutzender Normdatenservice• aktueller Umfang: Personen

• Entwicklung und Service der Deutschen Nationalbibliothek• Ziele

• Bereitstellung von Informationen zu GND-Entitäten• einfache Integration in andere Anwendungen• Verknüpfungen mit anderen Datenquellen• Anreicherung mit Informationen aus anderen Datenquellen

Entity Facts

Page 47: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

JSONLD-Antwort von Entity Facts

{"@context":"http://hub.culturegraph.org/entityfacts/context/v1/entityfacts.jsonld","valid":"2014-04-09T12:48:36+0200","license":"http://cre

ativecommons.org/publicdomain/zero/1.0/legalcode","@id":"http://d-nb.info/gnd/118540238","person":{"preferredName":"Johann Wolfgang von Goet

he","surname":"Goethe","prefix":"von","forename":"Johann Wolfgang","placeOfBirth":{"@id":"http://d-nb.info/gnd/4018118-2","@value":"Frankfur

t am Main"},"placeOfDeath":{"@id":"http://d-nb.info/gnd/4065105-8","@value":"Weimar"},"variantName":["Johann Wolfgang v. Goethe","Johann Wol

fgang Goethe","Johann W. von Goethe","Johann W. Goethe","Johan Wolfgang von Goethe","Joh. Wolfg. v. Goethe","J. Wolfgang Goethe","J. W. von

Goethe","J. W. v. Goethe","J. W. Goethe","Ioannes W. Goethe","Iohan Wolphgang Goethe","Jan Wolfgang Goethe","Jean Wolfgang von Goethe","Joã

o Wolfgang von Goethe","Juan W. Goethe","Juan Wolfgang von Goethe","Volfango Goethe","Volfgango Goethe","Wolfgang von Goethe","Wolfgang Goe

the","Wolfango Goethe","Wolfgango Goethe","... Goethe","... Goethius","Johann Wolfgang von Göthe","J. W. von Göthe","Giov. Volfango Göthe","

Iogann V. Göte","... Göte","... Gede","... Gēte","... Gě'ṭe","... Gete","Iogann W. Gete","Iogann Volʹfgang Gete","J. V. Gete","Iogann Vol'f

gang Gete","Iohan Volfgang Gete","I. V. Gete","Johan Volfgang Gete","Johans Volfgangs Géte","Johann Volʹfgang Gete","Jogann Vol'fgang fon

Gete","Volʹfgang Gete","Yogann Volʹfgang Gete","Yôhân Wôlfgang fôn Gete","Yôhan Wolfgang Gête","Yohann Volfqanq Gete","Y. W. Gêtê","Yohan Ṿ

olfgang fon Geteh","... Gkaite","Giochan Bolphnkannk phon Gkaite","Giochan B. phon Gkaite","... Gót","... G'ote","Jochan Volfgang G'ote",".

.. Goet'e","Iohan Volp'gang Goet'e","Yūhān Wulfgāng fun Gūta","Yūhān Wulfgāng fūn Gūta","... Gūta","Yūhān Vūlfġanġ fūn Ġūtih","Yohan Wolfga

ng Gyot'e","Ehan Vol'fhanh Hete","Johann-Vol'fhanh Hete","... Koet'e","Yohan Polp'ŭgang p'on Koet'e","Johanas Volfgangas Gėtė","Iohann

Volfqanq Höte","Johann Wolfgang von Goethe","괴테, 요한 볼프강 폰","歌德","約翰・沃爾夫岡・馮・歌德","约翰・沃尔夫冈・冯・歌德","ゲーテ, ヨハン・ヴォルフガ

ング・フォン"," ","]יוהן וולפגנג פון גתה dateOfBirth":"28. August 1749","dateOfDeath":"22. März 1832","professionOrOccupation":[{"@id":"http://d-nb.info/gnd/4053309-8","@value":"Schriftsteller"},{"@id":"http://d-nb.info/gnd/4176310-5","@value":"Publizist"},{"@id":"http://d-nb.info/gn

d/4046517-2","@value":"Politiker"},{"@id":"http://d-nb.info/gnd/4029050-5","@value":"Jurist"},{"@id":"http://d-nb.info/gnd/4041423-1","@val

ue":"Naturwissenschaftler"},{"@id":"http://d-nb.info/gnd/4185044-0","@value":"Theaterintendant"},{"@id":"http://d-nb.info/gnd/4037215-7",„

@value":"Maler"},{"@id":"http://d-nb.info/gnd/4200345-3","@value":"Zeichner"}],"gender":{"@id":"http://d-nb.info/gnd/standards/vocab/gnd/ge

nder#male","@value":"Mann"},"relatedPerson":[{"@id":"http://d-nb.info/gnd/118617222","relationship":"Freundin","preferredName":"Charlotte v

on Stein"},{"@id":"http://d-nb.info/gnd/118633252","relationship":"Freundin","preferredName":"Marianne von Willemer"},{"@id":"http://d-nb.i

nfo/gnd/118638076","relationship":"Freundin","preferredName":"Charlotte Buff"},{"@id":"http://d-nb.info/gnd/119277387","relationship":"Freu

ndin","preferredName":"Minna Herzlieb"}],"familialRelationship":[{"@id":"http://d-nb.info/gnd/118695940","relationship":"Vater","preferredN

ame":"Johann Caspar Goethe"},{"@id":"http://d-nb.info/gnd/118540246","relationship":"Mutter","preferredName":"Katharina Elisabeth Goethe"},

{"@id":"http://d-nb.info/gnd/11871791X","relationship":"Schwester","preferredName":"Cornelia Goethe"},{"@id":"http://d-nb.info/gnd/11879516

3","relationship":"Schwager","preferredName":"Johann Georg Schlosser"},{"@id":"http://d-nb.info/gnd/118628011","relationship":"Ehefrau","pre

ferredName":"Christiane von Goethe"},{"@id":"http://d-nb.info/gnd/11854022X","relationship":"Sohn","preferredName":"August von Goethe"},{"

@id":"http://d-nb.info/gnd/118540254","relationship":"Schwiegertochter","preferredName":"Ottilie von Goethe"},{"@id":"http://d-nb.info/gnd/

11687256X","relationship":"Tante","preferredName":"Johanna Maria Melber"}],"depiction":{"image":"http://upload.wikimedia.org/wikipedia/comm

ons/0/0e/Goethe_(Stieler_1828).jpg","thumbnail":"http://upload.wikimedia.org/wikipedia/commons/thumb/0/0e/Goethe_(Stieler_1828).jpg/270px-

Goethe_(Stieler_1828).jpg","url":"http://commons.wikimedia.org/wiki/File:Goethe_(Stieler_1828).jpg?uselang=de"}},"sameAs":[{"@id":"http://t

oolserver.org/~authoritycontrol/redirect/gnd/de/118540238","publisher":{"abbr":"WKPDE","name":"Wikipedia (Deutsch)","icon":"http://de.wikip

Page 48: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

JSONLD-Antwort von Entity Facts

"person" : {"preferredName" : "Johann Wolfgang von Goethe","placeOfBirth" : {"@id" : "http://d-nb.info/gnd/4018118-2","@value" : "Frankfurt am Main"

},

"placeOfDeath" : {"@id" : "http://d-nb.info/gnd/4065105-8","@value" : "Weimar"

},

"dateOfBirth" : "28. August 1749","dateOfDeath" : "22. März 1832","professionOrOccupation" : [ {"@id" : "http://d-nb.info/gnd/4053309-8","@value" : "Schriftsteller"

},

... ]

"variantName" : [ "Yohann Volfqanq Gete", ... ],

"depiction" : {"image" : ...,

"thumbnail" : ...,"url" : ...

}

}

"sameAs" : [{"@id" : "http://en.wikipedia.org/wiki/Johann_Wolfgang_von_Goethe",

"publisher" : {"abbr" : "WKP","name" : "Wikipedia (Englisch)","icon" : "http://en.wikipedia.org/favicon.ico"

},

...

}]

Page 49: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Mittwoch, 27. Mai 2015 (heute), 16:00 – 18:00Raum Stockholm

Neuerungen rund um die GND: „Entity Facts – Aufbereitung von Informationen aus der GND“

Mehr Informationen zu Entity Facts?

Page 50: Folien.pdf (8790 KB)

Persistente Identifikatoren

Page 51: Folien.pdf (8790 KB)

Probleme in der DDB

Page 52: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Datengeber können zum Teil keine persistente Identifikatorenzur Verfügung stellen• … keine lokalen stabilen Identifikatoren• … und schon gar keine globalen stabilen Identifikatoren

• Probleme in der DDB bei …• Rückverlinkung vom Portal bzw. Nachweissystem auf Webdarstellung

der liefernden Einrichtung• Aktualisierung von bereits gelieferten Datensätzen auf dem Portal bzw. im

Nachweissystem

Keine PI in den Lieferdaten!

Page 53: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Datenlieferung an ein Portal (z. B. die DDB)

Titel: Johann Jakob Fugger

Datum: 19.11.1752

Titel: Johann Jakob Fugger

Datum: 19.11.1752

ID: 123ID: 123

11 Titel: Johann Jakob Fugger

Datum: 19.11.1752

Titel: Johann Jakob Fugger

Datum: 19.11.1752

ID: 123ID: 123

Page 54: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Nutzung als Nachweissystem

Titel: Johann Jakob Fugger

Datum: 19.11.1752

Titel: Johann Jakob Fugger

Datum: 19.11.1752

ID: 123ID: 123

11 Titel: Johann Jakob Fugger

Datum: 19.11.1752

Titel: Johann Jakob Fugger

Datum: 19.11.1752

ID: 123ID: 123

ID: 123ID: 123

Page 55: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Suche im Portal …

Page 56: Folien.pdf (8790 KB)

… führt zu Treffern, Detailansichten und …

Page 57: Folien.pdf (8790 KB)

… der Objektansicht beim Datengeber

Page 58: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Veränderung Identifier und URLs

Titel: Johann Jakob Fugger

Datum: 19.11.1752

Titel: Johann Jakob Fugger

Datum: 19.11.1752

ID: 123ID: 123

11

22

Titel: Johann Jakob Fugger

Datum: 19.11.1752

Titel: Johann Jakob Fugger

Datum: 19.11.1752

ID: 456ID: 456

Titel: Johann Jakob Fugger

Datum: 19.11.1752

Titel: Johann Jakob Fugger

Datum: 19.11.1752

ID: 123ID: 123

ID: 123ID: 123

Page 59: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Suche im Portal …

Page 60: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

… führt noch zu Treffern und Detailansichten …

Page 61: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

… aber nicht mehr zum Datengeber

Page 62: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Weitere Folgen: Duplikate im Portal

Page 63: Folien.pdf (8790 KB)

Lösungen?

Page 64: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

1. Datengeber müssen mindestens stabile lokale Identifikatoren liefern2. … viel besser: Datengeber liefern stabile globale Identifikatoren

• z. B. URN oder URI• auch: CHE (…)

• Trotzdem gibt es viele Gründe, warum das nicht möglich ist …• fehlende Sensibilisierung für die Problematik• mangelnde Ressourcen• eingesetzte Softwarelösungen unterstützen dies nicht

• kein Export von lokalen Identifikatoren• keine Übernehme bei Migrationsprozessen

• uvm.

Datenqualität: Stabile Identifikatoren

Page 65: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

• Fachkonzept für einen neuartigen PI-Dienst• Zusammenarbeit von Deutsche Nationalbibliothek, Deutsche Digitale Bibliothek,

Bundesarchiv, Landesarchiv Baden-Württemberg• … und in diesem Jahr: Einbeziehung der Sparten Museum & Mediathek

• Ziel ist ein PI-Dienst• Vergabe für physische und logische Ressourcen • offen für alle Kultursparten

• „Webschaufenster“ sind digitale Stellvertreter für logische oderphysische Ressourcen auf dieder PI über eine URL aufgelöst

CHE – Persistent Identifiers for Cultural Heritage Entities

Page 66: Folien.pdf (8790 KB)

Deutsche Digitale Bibliothek – „Datenqualität – keine leichte Aufgabe!“ – Bibliothekartag – 27. Mai 2015

Vielen Dank für Ihre Aufmerksamkeit!Haben Sie Fragen?

Herzlichen Dank!