- 1. Linked Open Dataund die Open Library
-
- Mglichkeiten der Zusammenarbeit und Prgung von Identifiern in
Resource URI's
Oliver Flimm Arbeitstreffen Linked Open Data, hbz Kln
12.5.2010
2. Die Open Library
- Seit November 2007 Teilprojekt des Internet-Archivs
- Ziel: Weltweiter Gesamtnachweis aller Bcher One web page for
every book
- Verffentlichung als Open Data ber Feeds (editions.json,
authors.json)
-
- 19.8 Mio. Titel, 5.4 Mio. Personen
3. Technik
-
- Infobase (DB) + Infogami (Wiki, Plugins)
-
- Versionierung (Resource-History) !!!
-
- ffentliche ID vs. Interne ID
-
- RESTful API (Content, Query, Modify, Add?)
-
-
- Einspielung mit Match-Algorithmen durch OL
-
-
- Einladeformat ist MARC mit Fremd-Id Information
4. OL liefert Open Data
- Groe Datenbasis fr lokale Anreicherung
-
- lccn, lc_classifications, oclc_numbers, dewey_decimal_class,
isbn_10, isbn_13, subjects, subject_place, languages, ocaid
- Cover, Inhaltsverzeichnisse, elektr. Volltexte (DAISY)
- Zusammenfassung zu Werken mit eigenem URI
- Rudimentre Kategorien, aber erweiterbar
5. Daten eines Beispieltitel in OL
-
- {" subtitle ": "ein Vorstoss zu den Grenzen von Berechenbarkeit
und Erkenntnis : Quantenmechanik, Relativittstheorie, Gravitation,
Kosmologie, Chaostheorie, Prdikatenlogik", " lc_classifications ":
["Q175 .K475 1999"], " id ": 222492, " title ": "Bedeutende
Theorien des 20. Jahrhunderts", " languages ": [{"key": "/l/ger"}],
" subjects ": ["Science -- Philosophy.", "Science --
Methodology."], " publish_country ": "gw ", " by_statement ":
"Werner Kinnebrock.", " oclc_numbers ": ["40364931"], " type ":
{"key": "/type/edition"}, " revision ": 1, " other_titles ":
["Bedeutende Theorien des zwanzigsten Jahrhunderts"], " publishers
": ["Oldenbourg"], " last_modified ": {"type": "/type/datetime",
"value": "2008-04-01 03:28:50.625462"}," key ": "/b/OL134029M","
authors ": [{"key": "/a/OL88369A"}], " publish_places " :
["Mnchen"], " pagination ": "ix, 201 p. :ill. ;", "
dewey_decimal_class ": ["501"], " notes ": {"type": "/type/text",
"value": "Includes bibliographical refe rences (p. [203]-205)."}, "
number_of_pages ": 201, " lccn ": ["99514096"], " isbn_10 ":
["3486247069"], " publish_date ": "1999"}
6. Beispiele REST API
-
- curl http://openlibrary.org/books/OL1M.json
-
- curl
'http://openlibrary.org/query.json?type=/type/edition&authors=/authors/OL1A'
-
- curl http://openlibrary.org/books/OL1M.json?m=history
- Sowie: Save (via PUT), Login, Recent
7. Prgung von Identifiern
- Erzeugung vondurchguten (!!!) Matchkey-Algorithmus
- Nachnutzung eines bestehendenexternenIdentifiers als
- Erzeugung und Vergabe neuereigenerIdentifier als
ala http://globallinkeddata.org/resource/title/ 8. Nachnutzung
bestehender & Erzeugung neuer Identifier
-
- Identifier selbst mssen vollstndig offen und frei verwendbar
sein (Offene Daten mit proprietren Identifiern sind ein Widerspruch
in sich!)
-
- Bibliographische Daten zu den Identifiern mssen fr dielokale
Anreicherungvollstndig als Open Data vorliegen
-
- Offenes System zur (ad-hoc) Generierung neuer Identifier
9. Identifier der OL bereits als URI konzipiert
-
- [...]Open Library also gives people a URI for a work, an
edition or author or other book-ish resource that can be used as a
pointer and connector for information about books; a Uniform
Resource Identifier indeed.
-
- aus: Open Library FAQ: What is Open Library
10. Nachnutzung von Identifiern der OL
-
- Lookup mit konkreten bibliogr. Daten
-
-
- key als Identifier verwenden
-
-
- Bibliogr. Daten in die OL eintragen
-
-
- Dafr vergebenen neuen key als Identifier verwenden
- Vereinfacht durch freie Datenverfgbarkeit
11. Vorteile
- Anforderungen durch OL erfllt
- Ankopplung an etabliertes globales Projekt und keine Insellsung
USB/Klnhbz/NRWDNB/Deutschland
- Perfekte Symbiose zum Vorteil von Open Data OL und unsere
offenen Daten profitieren gleichermaen trotz Koexistenz
- Strkung der OL als freie Alternative zum WorldCat, OL als
zentraler Aggregator
12. Noch zu lsende Probleme
-
- Kompatibilitt der erfassten Daten mit OL bei Lookup oder
Upload, z.B. pagination
-
- Zersplitterung durch hierarchische Struktur
- Match-Algorithmus fr Lookup in OL, ad-hoc Erzeugung neuer
Katalogeintrge via REST-API
- (Noch) keine Bestandsnachweise in OL
13. berdeckungsgrad der OL
- Abschtzung allein anhand der ISBN
-
- Katalog mit vielen modernen Titeln: Institut fr Informatik
-
- Katalog mit viel Altbestand: USB Kln
- Nchster Schritt: Verwendung anderer Identifikatoren bzw.
Match-Algorithmus
14. Zahlen: KUG gesamt
- Titelaufnahmen insgesamt: 9.6 Mio., teilweise dublett
(!!!)
- Versch. ISBN's insgesamt: 1.316.641
- Davon in Open Library: 874.373
- berdeckungsquote ISBN's:66 Prozent
15. Zahlen: Institut fr Informatik
- Titelaufnahmen insgesamt: 8.594
- Versch. ISBN's insgesamt: 7.074
- Davon in Open Library: 4.345
- berdeckungsquote ISBN's:61.4 Prozent
- berdeckungsquote gesamt:50.5 Prozent
16. Zahlen: USB Kln
- Titelaufnahmen insgesamt: 3.084.269
- Versch. ISBN's insgesamt: 708.704
- Davon in Open Library: 482.807
- berdeckungsquote ISBN's:68.1 Prozent
- berdeckungsquote gesamt:15.7 Prozent
17. Fazit
- Open Library bietet als globaler Kooperationspartner viele
Vorteile
- berdeckungsquote via ISBN vielversprechend
- Nchste Schritte mssten folgen
-
- Match-Algorithmus fr Lookup
- Alternative: eigener Identifier-Automat und Zusammenarbeit mit
OL jenseits Identifier
18. Fragen? 19. Vielen Dank fr Ihre Aufmerksamkeit
- Open Library (OL) -http://openlibrary.org/
- OL FAQ - http://openlibrary.org/help/faq
- OL Technik -http://openlibrary.org/about/tech
- OL REST API -http://openlibrary.org/dev/docs/restful_api
- OL Upload - http://openlibrary.org/data
- OL Feeds - http://www.archive.org/details/oldumps/