Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und Prägung von...

download Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und Prägung von Identifiern in Resource URI's

If you can't read please download the document

description

Vortrag beim Arbeitstreffen Linked Open Data im hbz am 12.5.2010, in dem die Möglichkeit untersucht wird, in wieweit sich bei der Prägung von Identifiern im LOD-Bereich die IDs der OpenLibrary verwenden lassen.

Transcript of Linked Open Data und die Open Library - Möglichkeiten der Zusammenarbeit und Prägung von...

  • 1. Linked Open Dataund die Open Library
      • Mglichkeiten der Zusammenarbeit und Prgung von Identifiern in Resource URI's
    Oliver Flimm Arbeitstreffen Linked Open Data, hbz Kln 12.5.2010

2. Die Open Library

  • Seit November 2007 Teilprojekt des Internet-Archivs
  • Ziel: Weltweiter Gesamtnachweis aller Bcher One web page for every book
  • Verffentlichung als Open Data ber Feeds (editions.json, authors.json)
  • Umfang (Stand 02/2010):
    • 19.8 Mio. Titel, 5.4 Mio. Personen

3. Technik

  • Eigenentwicklung
    • Open Source
    • Infobase (DB) + Infogami (Wiki, Plugins)
    • Versionierung (Resource-History) !!!
    • ffentliche ID vs. Interne ID
    • RESTful API (Content, Query, Modify, Add?)
    • Bulk-Upload mglich
      • Einspielung mit Match-Algorithmen durch OL
      • Einladeformat ist MARC mit Fremd-Id Information

4. OL liefert Open Data

  • Groe Datenbasis fr lokale Anreicherung
    • lccn, lc_classifications, oclc_numbers, dewey_decimal_class, isbn_10, isbn_13, subjects, subject_place, languages, ocaid
  • Cover, Inhaltsverzeichnisse, elektr. Volltexte (DAISY)
  • Zusammenfassung zu Werken mit eigenem URI
  • Rudimentre Kategorien, aber erweiterbar

5. Daten eines Beispieltitel in OL

    • {" subtitle ": "ein Vorstoss zu den Grenzen von Berechenbarkeit und Erkenntnis : Quantenmechanik, Relativittstheorie, Gravitation, Kosmologie, Chaostheorie, Prdikatenlogik", " lc_classifications ": ["Q175 .K475 1999"], " id ": 222492, " title ": "Bedeutende Theorien des 20. Jahrhunderts", " languages ": [{"key": "/l/ger"}], " subjects ": ["Science -- Philosophy.", "Science -- Methodology."], " publish_country ": "gw ", " by_statement ": "Werner Kinnebrock.", " oclc_numbers ": ["40364931"], " type ": {"key": "/type/edition"}, " revision ": 1, " other_titles ": ["Bedeutende Theorien des zwanzigsten Jahrhunderts"], " publishers ": ["Oldenbourg"], " last_modified ": {"type": "/type/datetime", "value": "2008-04-01 03:28:50.625462"}," key ": "/b/OL134029M"," authors ": [{"key": "/a/OL88369A"}], " publish_places " : ["Mnchen"], " pagination ": "ix, 201 p. :ill. ;", " dewey_decimal_class ": ["501"], " notes ": {"type": "/type/text", "value": "Includes bibliographical refe rences (p. [203]-205)."}, " number_of_pages ": 201, " lccn ": ["99514096"], " isbn_10 ": ["3486247069"], " publish_date ": "1999"}

6. Beispiele REST API

  • Content
    • curl http://openlibrary.org/books/OL1M.json
  • Query
    • curl 'http://openlibrary.org/query.json?type=/type/edition&authors=/authors/OL1A'
  • History
    • curl http://openlibrary.org/books/OL1M.json?m=history
  • Sowie: Save (via PUT), Login, Recent

7. Prgung von Identifiern

  • Erzeugung vondurchguten (!!!) Matchkey-Algorithmus
  • Nachnutzung eines bestehendenexternenIdentifiers als
  • Erzeugung und Vergabe neuereigenerIdentifier als

ala http://globallinkeddata.org/resource/title/ 8. Nachnutzung bestehender & Erzeugung neuer Identifier

  • Anforderungen
    • Identifier selbst mssen vollstndig offen und frei verwendbar sein (Offene Daten mit proprietren Identifiern sind ein Widerspruch in sich!)
    • Bibliographische Daten zu den Identifiern mssen fr dielokale Anreicherungvollstndig als Open Data vorliegen
    • Offenes System zur (ad-hoc) Generierung neuer Identifier

9. Identifier der OL bereits als URI konzipiert

    • [...]Open Library also gives people a URI for a work, an edition or author or other book-ish resource that can be used as a pointer and connector for information about books; a Uniform Resource Identifier indeed.
    • aus: Open Library FAQ: What is Open Library

10. Nachnutzung von Identifiern der OL

  • Identifier-Automat
    • Lookup mit konkreten bibliogr. Daten
    • Vorhanden?
      • key als Identifier verwenden
    • Nicht vorhanden?
      • Bibliogr. Daten in die OL eintragen
      • Dafr vergebenen neuen key als Identifier verwenden
  • Vereinfacht durch freie Datenverfgbarkeit

11. Vorteile

  • Anforderungen durch OL erfllt
  • Ankopplung an etabliertes globales Projekt und keine Insellsung USB/Klnhbz/NRWDNB/Deutschland
  • Perfekte Symbiose zum Vorteil von Open Data OL und unsere offenen Daten profitieren gleichermaen trotz Koexistenz
  • Strkung der OL als freie Alternative zum WorldCat, OL als zentraler Aggregator

12. Noch zu lsende Probleme

  • RAK vs. AACR2
    • Kompatibilitt der erfassten Daten mit OL bei Lookup oder Upload, z.B. pagination
    • Zersplitterung durch hierarchische Struktur
  • Match-Algorithmus fr Lookup in OL, ad-hoc Erzeugung neuer Katalogeintrge via REST-API
  • Dubletten, Datenqualitt
  • (Noch) keine Bestandsnachweise in OL

13. berdeckungsgrad der OL

  • Abschtzung allein anhand der ISBN
  • Verschiedene Szenarien
    • KUG allgemein
    • Katalog mit vielen modernen Titeln: Institut fr Informatik
    • Katalog mit viel Altbestand: USB Kln
  • Nchster Schritt: Verwendung anderer Identifikatoren bzw. Match-Algorithmus

14. Zahlen: KUG gesamt

  • Titelaufnahmen insgesamt: 9.6 Mio., teilweise dublett (!!!)
  • Versch. ISBN's insgesamt: 1.316.641
  • Davon in Open Library: 874.373
  • berdeckungsquote ISBN's:66 Prozent

15. Zahlen: Institut fr Informatik

  • Titelaufnahmen insgesamt: 8.594
  • Versch. ISBN's insgesamt: 7.074
  • Davon in Open Library: 4.345
  • berdeckungsquote ISBN's:61.4 Prozent
  • berdeckungsquote gesamt:50.5 Prozent

16. Zahlen: USB Kln

  • Titelaufnahmen insgesamt: 3.084.269
  • Versch. ISBN's insgesamt: 708.704
  • Davon in Open Library: 482.807
  • berdeckungsquote ISBN's:68.1 Prozent
  • berdeckungsquote gesamt:15.7 Prozent

17. Fazit

  • Open Library bietet als globaler Kooperationspartner viele Vorteile
  • berdeckungsquote via ISBN vielversprechend
  • Nchste Schritte mssten folgen
    • Match-Algorithmus fr Lookup
    • Upload einzelner Titel
  • Alternative: eigener Identifier-Automat und Zusammenarbeit mit OL jenseits Identifier

18. Fragen? 19. Vielen Dank fr Ihre Aufmerksamkeit

  • Quellen:
  • Open Library (OL) -http://openlibrary.org/
  • OL FAQ - http://openlibrary.org/help/faq
  • OL Technik -http://openlibrary.org/about/tech
  • OL REST API -http://openlibrary.org/dev/docs/restful_api
  • OL Upload - http://openlibrary.org/data
  • OL Feeds - http://www.archive.org/details/oldumps/