Datenqualität im Kontext der Deutschen Digitalen...

19
Datenqualität im Kontext der Deutschen Digitalen Bibliothek Session: Datenqualität und Standards DDBforum Berlin, 04. Juni 2018 Francesca Schulze [email protected] +49 (0) 69 1525-1763

Transcript of Datenqualität im Kontext der Deutschen Digitalen...

Page 1: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

Datenqualität im Kontext der Deutschen Digitalen Bibliothek

Session: Datenqualität und Standards

DDBforumBerlin, 04. Juni 2018

Francesca [email protected]

+49 (0) 69 1525-1763

Page 2: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

2

Metadatenstandards sind Voraussetzung für einheitliche Erfassung und Austausch von strukturierten Kulturerbe-Daten

Page 3: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

„… if we have standards, then‚ why isthe data so craped at the end?‘“ (Valentine Charles 2015)

Page 4: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

4

• Zusammenführen von heterogenen Metadaten massenweise: > 24 Millionen Datensätze zu Kulturobjekten jeglicher Art

unterschiedlicher Herkunft: 369 Einrichtungen aus sechs Kultursparten (Archiv, Bibliothek, Denkmalpflege, Forschungseinrichtung, Mediathek, Museum)

• Metadaten sind … in verschiedenen Anwendungen entstanden

… für unterschiedliche Zielgruppen entstanden

… über verschiedene Workflows an DDB geliefert worden

• Metadatenstandards werden unterschiedlich angewendet Regelwerke: sparten-/domänenspezifisch, hausintern oder gar keine

Austauschformate: 7 Standardformate (Dublin Core, EAD, EDM, ESE, LIDO, MARCXML,

METS/MODS), plus diverse Anwendungsprofile und proprietäre Formate

Kontrollierte Vokabulare: anwendungsspezifisch vs. anwendungs-übergreifend, domänenspezifisch vs. domänenübergreifend, teils gar keine

Herausforderungen der DDB

Page 5: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

5

• Allgemeine Kriterien menschen- und maschinenlesbar, vertrauenswürdig, sichtbar/auffindbar,

standardisiert, aussagekräftig, nachnutzbar, konsistent

vgl. Europeana Metadata Quality Task Force Report 2015

• Abhängig von Anforderungen seitens Anwendungen (lokal vs. domänenspezifisch vs. domänenübergreifend)

Nutzer (wissenschaftliche Nutzung vs. „Kulturtourist“)

Zeitfaktor (alt vs. neu)

• Metadaten im anwendungsübergreifenden Kontext Finden – Identifizieren – Explorieren/Navigieren – Zugreifen

vgl. bspw. User Tasks im IFLA Library Reference Model 2017, S. 15

Metadatenqualität

Page 6: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

„What metadata quality is and what itmeans is therefore context-dependant.“(Valentine Charles 2015)

Page 7: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

7

Explorieren?

„Wenn Sie an eine tolle Sammlung von Kulturerbe denken und Ihre erste Anlaufstelle ein Suchfeld ist, ist das einfach nur tragisch.“ (George Oates 2015)

Page 8: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

8

Finden: Freitextsuche

“Should I look under violin or fiddle or both?” (Michael Buckland 2017, S. 92)

Page 9: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

9

Finden: kontrollierte Vokabulare

von insgesamt 2.692 Ergebnissen bei Freitextsuche nach „violine“

Informationsverlust: Mangelnde Vollständigkeit durch fehlende Synonymkontrolle

Page 10: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

10

Finden: kontrollierte Vokabulare

Informationsballast: Mangelnde Genauigkeit durch fehlende Homonymkontrolle

mit nur 13 Ergebnissen zu Fidel als Musikinstrument

Page 11: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

11

Identifizieren: aussagekräftige Titel/Objektnamen

mangelnde Unterscheidbarkeit ähnlicher Objekte

Page 12: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

12

Identifizieren: kontextunabhängige Beschreibung

https://www.deutsche-digitale-bibliothek.de/item/LR7HC4TWPMIK23OKRELA7P4YPE3IXSQ5

Page 13: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

13

Navigieren: Normdaten

https://www.deutsche-digitale-bibliothek.de/entity/118584588

GND-URI

?

?

Page 14: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

14

Rechte

Standort

?

Zugreifen

Direkter Link

https://www.deutsche-digitale-bibliothek.de/item/CFGRZE4FA6VLDQMBMJROO4IAOGLZXUYX

Page 15: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

„As the data travels through different channels its quality deteriorates.”(Valentine Charles 2015)

Page 16: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

16

Der „lange Weg“ der Metadaten

Erzeugung unterschiedliche

Erschließungspraktiken und Use Cases

Weitergabedurch den

Datengeber

Vorverarbeitungdurch Fachstellen/

Aggregatoren

Aufbereitung/Bearbeitungfür DDB und

andere Anwendungen

einrichtungs-/spartenspezifisch spartenübergreifend kontextabhängig

Erfassungs-/ Verbundsysteme

Internes Datenformat z.B. OAI-DC, EAD(DDB),

ESE, EDM, DDB-LIDO, METS/MODS-Profil,

MARCXML

DDB-LieferformatExportformat

z.B. CSV, XML, OAI-DC, EAD, EDM, ESE, LIDO, METS/MODS,

MARCXML

Export-schnittstellen

DDB-Metadatenformatz.B. EDM RDF/XML

DDB-View (Objektseite)

z.B. FTP, OAI-PMH

DDB-Systemkomponentenz.B. Mapping Library,

DDBDash

DigitalisierungErschließungRegelwerkeVokabulare

Analyse

Validierung

Mapping

Bereinigung

Anreicherung

D

D

B

A

P

I

Analyse

Validierung

Mapping

Bereinigung

Anreicherung

Werkzeugez.B. Data Preparation

Tool, MINT, OpenRefine

Nutzungin verschiedenen

Anwendungen

Page 17: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

„All metadata is dirty, but you can do something about it“ (Seth van Hooland and Ruben Verborg 2014)

Page 18: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

18

Buckland, Michael (2017): Information and Society. Cambridge, Massachusetts: The MIT Press.

Charles, Valentine (2015): We want better data quality: NOW!. Europeana Foundation. – URL: https://pro.europeana.eu/page/data-quality-etech15-roundtables.

Claire-Dangerfield, Marie; Karlshoven, Lisette (2013-2015): Report and Recommendations from the Task Force on Metadata Quality. Europeana. – URL: https://pro.europeana.eu/post/metadata-quality-task-force-report.

Pekel, Joris (2015): Finden ohne Suche: Ein Interview mit George Oates. – URL: https://www.deutsche-digitale-bibliothek.de/content/ueber-uns/aktuelles/finden-ohne-suche-ein-interview-mit-george-oates.

Riley, Jenn; Becker, Davin (2009-2010): Seeing Standards: A Visualization of the Metadata Universe. –URL: http://jennriley.com/metadatamap/.

Riva, Pat; Le Boeuf, Patrick; Zumer, Maja (August 2017): IFLA Library Reference Model. Hrsg. International Federation of Library Associations and Institutions. – URL: https://www.ifla.org/files/assets/cataloguing/frbr-lrm/ifla-lrm-august-2017_rev201712.pdf.

Van Hooland, Seth; Verborgh, Ruben (2014): Linked Data for Libraries, Archives and Museums. How toclean, link and publish your metadata. London: Facet Publishing.

Quellen

Page 19: Datenqualität im Kontext der Deutschen Digitalen Bibliothekcms.deutsche-digitale-bibliothek.de/sites/default/files/... · 2018. 6. 18. · 4 • Zusammenführen von heterogenen Metadaten

19

Vielen Dank!

Francesca [email protected]

Twitter: https://twitter.com/ddbkultur

http://www.deutsche-digitale-bibliothek.de/

DDBpro: https://pro.deutsche-digitale-bibliothek.de/

Foliensatz: CC-BY 4.0. Das gilt nicht für einzelne Abbildungen.

http://creativecommons.org/licenses/by/4.0/

Facebook: https://twitter.com/ddbkultur