Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

26
Die ZBW ist Mitglied der Leibniz-Gemeinschaft Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Webservices mit Semantic Web- Technologie Dr. Timo Borst IT-Entwicklung Deutsche Zentralbibliothek für Wirtschaftswissenschaften / Leibniz-Informationszentrum Wirtschaft Kiel/Hamburg I-KNOW Praxisforum 1.-3. September 2010 in Graz

Transcript of Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Page 1: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Die ZBW ist Mitglied der Leibniz-Gemeinschaft

Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Webservices mit Semantic Web-Technologie Dr. Timo Borst

IT-EntwicklungDeutsche Zentralbibliothek für Wirtschaftswissenschaften /Leibniz-Informationszentrum WirtschaftKiel/Hamburg

I-KNOW Praxisforum1.-3. September 2010 in Graz

Page 2: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 2

Übersicht1. Ausgangslage: Verteiltes Datenmanagement in

Bibliotheksanswendungen

2. Bisherige Ansätze zur Aggregierung und Homogenisierung

3. Integration und Aggregation von Normdaten auf der Basis von Semantic Web-Technologien

a) Grundideeb) Anwendungsfall_1: Verschlagwortungc) Anwendungsfall_2: Suched) Anwendungsfall_3: Erfassung von Autoren

4. “Leichtgewichtige” Integration in bestehende Systeme

5. Zusammenfassung und Fazit

Page 3: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 3

Ausgangslage• Klassische Bibliotheksanwendungen erzeugen und verwalten

jeweils idiosynkratische (Meta-)Datenbestände (“Datensilos”)…

• …die dann im Web über jeweils eigene Frontends verfügbargemacht werden

• Wie können hinsichtlich

• Formate• Schemata• Vokabulare zur Erschließung• Erschließungsregeln• Vollständigkeit (Abstract ja/nein)• Herkunft

prinzipiell heterogene Metadaten zueinander in Beziehunggesetzt werden?

Page 4: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 4

Ausgangslage

Beispiel Repositorien und ihre Vernetzung

• Repositorien sind allgemein genutzte Erfassungs-/Retrieval-/Verbreitungssysteme („Data Provider“), zumeist OSS und Community-getrieben

• Zahlreiche Installationen an Hochschulen, Bibliotheken, Rechenzentren

• Vernetzungsinitiativen, z.B. OA-Netzwerk

• „OA-Netzwerk stellt Dienste auf der Basis von aggregierten Daten der DINI-zertifizierten Repositorien bereit […] u.a. vorgesehen: Aggregation, Harmonisierung und Ähnlichkeitsanalyse“http://www.dini.de/fileadmin/workshops/oa-statistik-was-zaehlt/02_gerlach-oas.pdf

• Einschlägige OSS-Repositoriensoftware (DSpace, EPrints, OPUS) unterstützt derzeit noch nicht die Integration extern kontrollierter Normdaten

Page 5: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 5

Ausgangslage

„The major difficulty we have found is with DSpace’s handling of metadata. While we feel that the number of fields in Dublin Core isadequate for most if not all uses (DCMI Usage Board 2006), we aretroubled by the lack of authority control when completing its fields. Without some control over uniform titles, authors and subjectsaccessing the items in the future will very problematic.“

S. Chabot (http://subjectobject.net/2006/11/09/the-dspace-digital-repository-a-project-analysis/)

„Neither the standards nor the software unterlyinginstitutional repositories anticipated performing namingauthority control on widely disparate metadata fromhighly unreliable sources.“

D. Salo (http://minds.wisconsin.edu/handle/1793/31735)

Page 6: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 6

Ausgangslage

Typische Mängel• Daten (Autorennamen, beschreibende Schlagwörter, Herausgeber,

Dokumenttypen etc.) werden ohne semantische und syntaktische Anleitungen und Restriktionen teilweise im Freitext erfasst

• (Syntaktische) Suchen liefern nur eingeschränkte oder uneindeutige Ergebnisse, erfordern ggf. aus Anwendersicht subtilere Suchkenntnisse (Trunkierung etc.) (Suche nach „Abbott, Philip“ liefert nur Treffer für Nr. 2/3)

• Namensänderungen sind praktisch nicht nachvollziehbar• Selbst wenn syntaktische und semantische Eindeutigkeit in einem

Repository lokal erzielt werden können, erneuert und verschärft sich das Problem auf Seiten der Aggregatoren

Page 7: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 7

Bisherige Ansätze zur Aggregierung & Homogenisierung

http://www.economistsonline.org/publications?page=3&q=thys-clement&lang=de

Page 8: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 8

Bisherige Ansätze zur Aggregierung & Homogenisierung

Page 9: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 9

Bisherige Lösungsansätze zur Aggregierung & HomogenisierungHomogenisierung im Vorhinein• Festlegung eines relativ granularen Metadatenschemas• Möglichst verbindliches und explizites Regelwerk, das auch von allen

Beteiligten konsequent befolgt wird• Verwendung einheitlicher Namen + Vokabulare• Lokale Anpassungen• Zentrales Harvesting bei minimierter Datenaufbereitung

Homogenisierung im Nachhinein• Beibehaltung der lokalen Ausprägungen bei kleinstem gemeinsamen

Nenner (etwa “Dublin Core”-Elemente)• Nachträgliche Maßnahmen zur Homogenisierung, u.a. “Name

Disambiguation”• Zentrales Harvesting bei aufwändiger DatenaufbereitungBeide Ansätze sind nicht optimal!

Page 10: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 10

Integration und Aggregation von Normdaten -Grundidee

Page 11: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 11

Integration und Aggregation von Normdaten -IdeeBeispieldaten und -anfragen (zu Personen und Themen):

http://zbw.eu/beta/stw-ws/suggest?query=finanzkr…liefert alle Terme, die mit “finanzkr” beginnen

http://zbw.eu/beta/stw-ws/stw-ws-wrapper.php?service=labels&concept=http://zbw.eu/stw/descriptor/19664-4&lang=en…liefert alle englischen Synonyme zu “Finanzkrise:

Page 12: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 12

Anwendungsfall_1: Verschlagwortung mitNormdaten• DER Anwendungsfall für Bibliothekarinnen und Bibliothekare

• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen (?) + BibliotheksnutzerInnen (?)

• Vorgang: Eingabe von beschreibenden Metadaten, die häufig aus einem kontrollierten Vokabular stammen

• Crosskonkordanzen herstellen zwischen verschiedenen kontrollierten Vokabularen

• Bestandteil von Open Access relevanten Vorgängen wie das „self-publishing“, das „self-archiving“ oder das „social tagging“

• Zielstellung: Den Vorgang der Verschlagwortung mit Hilfe von kontrollierten Vokabularen und Webservices unterstützen, so dass man einerseits zu „besseren“ im Sinne von normierten Metadaten kommt, die andererseits aber auch Flexibilität im Rahmen eines KOS erlauben („Lokalisierung“):• Alternative Schreibweisen bei Namen• Synonyme sowie Ober-/Unterbegriffe bei Schlagworten

Page 13: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 13

Anwendungsfall_1: Verschlagwortung

Erfassungsmaske unter https://econstor.eu

Page 14: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 14

Anwendungsfall_1: Verschlagwortung

Erfassungsmaske unter https://econstor.eu

Page 15: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 15

Anwendungsfall_2: Suche

• Der häufigste Anwendungsfall in Bibliotheksanwendungen

• Nutzergruppen: Bibliothekarinnen und Bibliothekare + WissenschaftlerInnen + BibliotheksnutzerInnen

• Vorgang: Zumeist einfache Volltextsuche über Metadatenfelder (Titel/Abstract) und/oder Volltexte (soweit letztere verfügbar sind und im Suchmaschinenindex liegen)

• Zielstellung: Den Vorgang der Suche mit Hilfe von kontrollierten Vokabularen und Webservices unterstützen, so so dass man zu besseren Suchergebnissen gelangt (Erhöhung von Recall + Precision)

Page 16: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 16

Anwendungsfall_2: Suche

Erweiterte Suche unter http://econstor.eu nach „Finanzkrise“

Page 17: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 17

Anwendungsfall_2: Suche

Page 18: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 18

Anwendungsfall_2: Suche

Page 19: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 19

“Leichtgewichtige” Integration in bestehende Systeme

Page 20: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 20

“Leichtgewichtige” Integration in bestehende Systeme

Vorteile• „Leichtgewichtige“ Erweiterungen bestehender (Alt-)Systeme

• Strategie des „minimalen Eingriffs“

• Keine Änderungen am Systemkern, minimale Änderungen am Datenmodell nötig (Erweiterung um eine Spalte für den Authority-Key)

• Typen von (Web-)Bibliotheksanwendungen, die sich auf diese Weise zwanglos erweitern ließen:• Repositorien (zumeist OSS, Plugin-Architektur)• Kataloge (zumeist proprietäre SW und monolithisch)• Portale (zumeist OSS, heterogene Inhalte hinsichtlich Art und Herkunft) ->

WebService zur Verbesserung des Retrievals und zur Erzeugung von Mash-Ups

• …sowie alle offenen Systeme mit kollaborativ-verteilter Verschlagwortung(z.B. Academic Linkshare)

Page 21: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 21

Zusammenfassung und Fazit

• Bibliotheksanwendungen erzeugen und verwalten jeweils eigene idiosynkratische Datenbestände.

• Dies erschwert die Pflege, den Austausch, die Aggregation und die Homogenisierung der (Meta-)Daten für erweiterte Dienste.

• Vorgelagerte Webservices als Teil einer übergreifenden Normdaten-Infrastruktur können frühzeitig zur Homogenisierung der Metadaten beitragen (bei gleichzeitiger Lokalisierung).

• Wenn diese Webservices verbreitet entstehen und genutzt werden, besteht die Chance zu einer weitergehenden Vernetzung lokal gepflegter Metadaten bei gleichzeitiger Verbesserung der datenbasierten Services.

• Die Möglichkeit zur „leichtgewichtigen Integration“ ist ein Angebot an Betreiber von Bibliotheksanwendungen, diese Webservices mit möglichst minimalem Aufwand in ihre Anwendungen zu integrieren.

Page 22: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 22

Dr. Timo BorstDeutsche Zentralbibliothek für Wirtschaftswissenschaften / Leibniz-Informationszentrum Wirtschaft (ZBW)

[email protected]

Vielen Dank!

Page 23: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 23

Anwendungsfall_3: Erfassung von Autoren

•Der Normalfall in Katalogen - in anderen Erfassungssystemen bisher der Ausnahmefall•Nutzergruppen: BibliothekarInnen + WissenschaftlerInnen (?) + BibliotheksnutzerInnen (?)•Vorgang: Eingabe von AutorInnen-Namen•Zielstellung: Den Vorgang der Autorenerfassung mit Hilfe von Normdaten zu verbessern, die durch Webservices bereit gestellt werden

Page 24: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 24

Anwendungsfall_3: Erfassung von Autoren•Erfassungsmaske unter http://87.106.250.18/beta/econstor/

Page 25: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 25

Bisherige Lösungsansätze zur Aggregierung & Homogenisierung

•Metadatensuche durch Aggregatoren• Parallele Abfrage entfernt-verteilter Systeme• Rückgabe und Aufbereitung des Suchergebnisses als

zusammengesetzte Trefferliste•Harvesting• Regelmäßiges Einsammeln von entfernt-verteilten

Metadaten• Homogenisierung ex ante oder ex post•Föderierte Suche

•…

Page 26: Integration von Normdaten in Bibliotheksanwendungen auf der Basis von Semantic Webservices

Seite 26

Literatur•[1] http://wiki.dspace.org/index.php/Authority_Control_of_Metadata_Values•[2] http://minds.wisconsin.edu/handle/1793/31735•[3] http://dsug09.ub.gu.se/index.php/dsug/dsug09/paper/view/22/3•[4] http://subjectobject.net/2006/11/09/the-dspace-digital-repository-a-project-analysis/•[5] http://code.google.com/p/dspace-agrisap/wiki/ThesaurusAddOn•[6] http://edoc.hu-berlin.de/conferences/dc-2008/subirats-imma-199/PDF/subirats.pdf•[7] http://www.jisc.ac.uk/media/documents/programmes/sharedservices/names-phase-one-final-report,.pdf•[8] http://idea.library.drexel.edu/bitstream/1860/3173/1/20070051011.pdf•[9] http://ptsefton.com/blog/2006/06/06/the_affiliation_issue_in_institutional_repository_software/•[10] http://library.ust.hk/info/nac/nac-technical.html•[11] http://www.seco.tkk.fi/publications/2009/kurki-hyvonen-onki-people-2009.pdf•[12] http://journals.sfu.ca/archivar/index.php/archivaria/article/download/11883/12836•[13] http://www.dini.de/fileadmin/workshops/oa-netzwerk-juni2009/vernetzungstage_2009_malitz.pdf