Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen

27
Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen Prof. Magnus Pfeffer Hochschule der Medien, Stuttgart [email protected]

description

Vortrag im Workshop on Classification and Subject Indexing in Library and Information Science (LIS'2012) im Rahmen der Jahrestagung der Deutschen Gesellschaft für Klassifikation vom 1. bis 3. August 2012 in Hildesheim.

Transcript of Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über Verbundgrenzen

Page 1: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen über

Verbundgrenzen

Prof. Magnus PfefferHochschule der Medien, [email protected]

Page 2: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 2

Ausgangslage

Ansatz

Erste Projektphase

Zweite Projektphase

Ausblick

Überblick

Page 3: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 3

Ausgangslage

Page 4: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 4

Retroklassifikation Freihandbestand UB Mannheim Seit 2001 5 große Bibliotheksbereiche statt 11 kleine

Bereichsbibliotheken RVK als einheitliche Klassifikation Wunsch nach mehr Fremddaten

2004: Weniger als 50% der Titel mit RVK

Anlass

Page 5: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 5

Aus einem deutschen Verbundkatalog Herzfeld, Hans: Der erste Weltkrieg

18 Titelsätze davon 11 mit RSWK, 8 mit RVK

Friedell, Egon: Kulturgeschichte der Neuzeit 31 Titelsätze davon 21 mit RSWK, 17 mit RVK

Tanenbaum, Andrew S.: Computer Networks 44 Titelsätze davon 19 Deutsch, 15 Englisch, 1 Chinesisch davon 38 mit RSWK, 31 mit RVK

Inkonsistente Erschließung

Page 6: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 6

Tanenbaum, Andrew S.: Computer Networks

RVK Notationen ST 200: 31 Titel

Informatik-Monografien-Vernetzung, verteilte Systeme-Allgemeines, Netzmanagement

ST 205: 3 Titel Informatik-Monografien-Vernetzung, verteilte Systeme-Internet

allgemein

QH 500: 2 Titel Wirtschaftswissenschaften-Mathematik. Statistik. Ökonometrie.

Unternehmensforschung-Wirtschaftsinformatik. Datenverarbeitung

MS 7965: 1 Titel Soziologie-Spezielle Soziologien-Soziologie der

Massenkommunikation und öffentlichen Meinung, Mediensoziologie-Internet, neue Medien

Inkonsistente Erschließung

Page 7: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 7

Ansatz

Page 8: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 8

Übernahme von RSWK und RVK aus Vor- und Folgeauflagen Parallelausgaben Übersetzungen

Annahmen Titelgleichheit über Auflagen und Ausgaben Mindestens ein Autor/Herausgeber bleibt bei

Neuauflage

Grundidee

Page 9: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 9

Grobes Matching Ausgangsdaten: MAB2

Nur monografische Titel

Vergleich auf Basis von Einheitssachtitel

Feld 304_

Titel und Untertitel Felder 331_, 335_

Autoren und Urheber Felder 100_, 104a, 108a, 200_, 204a, 208a

beteiligte Personen und Körperschaften Felder 100b, 104b, 108b, 200b, 204b, 208b

Match beiidentischem (Einheitsach-)Titel UND einer Übereinstimmung

bei Person/Körperschaft

Page 10: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 10

Konsolidierung der Erschließung Clustering

Basis: Matching-Ergebnisse Ergebnis: Inhaltlich konsistente Cluster

„Werksebene“

Verarbeitung innerhalb der Cluster Sammeln der Erschließungsinformationen Verteilen auf alle Elemente des Clusters

Page 11: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 11

Erste Projektphase

Page 12: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 12

Projektzeitraum: 2010-2011 Ausgangsdaten: Verbunddatenbanken

Katalog des Südwestdeutschen Bibliotheksverbundes (SWB)

12.777.191 Monografien 3.979.796 (31,1%) mit RSWK-Schlagwörtern 3.235.958 (25,3%) mit RVK-Notationen

Katalog des Hessischen Bibliotheks- und Informationssystems (HeBIS)

8.844.188 Monografien 2.237.659 (25,3%) mit RSWK-Schlagwörtern 1.933.081 (21,8%) mit RVK-Notationen

Page 13: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 13

Algorithmus Berechne für alle Titel

Wenn Feld 304_ vorhanden Suche Titel mit identischem Feld 304_ Vergleiche Autoren, Urheber und beteiligte

MATCH, wenn eine Übereinstimmung vorhanden Sonst (nur Feld 331_ und 335_ vorhanden)

Suche Titel mit identischen Feldern 331_ und 335_ Vergleiche Autoren, Urheber und beteiligte

MATCH, wenn eine Übereinstimmung vorhanden

Technische Umsetzung Perl / Linux Indexstrukturen im Hauptspeicher (>4GB)

Umsetzung

Page 14: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 14

5.809.349 Titel mit mindestens einem Match Davon

3.269.340 ohne RSWK 3.627.017 ohne RVK

Anreicherung durch Übernahme möglich bei 636.462 mit RSWK 959.419 mit RVK

Ergebnisse: SWB

Page 15: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 15

4.535.618 Titel mit mindestens einem Match Davon

3.068.968 ohne RSWK 3.071.022 ohne RVK

Anreicherung durch Übernahme möglich bei 1.179.133 mit RSWK 992.046 mit RVK

Ergebnisse: Hebis

Page 16: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 16

Daten zum Download Textformat, bz2-Archiv Titel-ID und gefundene Matches

Linked Open Data RDF-Tripel der Form ID-equalsForClassification-ID http://data.bib.uni-mannheim.de

Daten an die Verbundzentralen Titel und gefundene SWD-IDs und RVK-Notationen

Bereitstellung der Ergebnisse

Page 17: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 17

Evaluation Online im Linked-Data Web

Verbünde erlaubten Titeldarstellung Matches untereinander verlinkt Wer: Externe Interessierte

Testdatenbanken der Verbünde Einspielung der gelieferten Daten in Auszügen Stichproben und Recherchen möglich Wer: Sacherschließer und interessierte Verbundnutzer

→ Hohe Qualität der Ergebnisse bestätigt

Page 18: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 18

Nutzung Beispiel RVK UB Mannheim

Bibliotheksbereich A5, Sozialwissenschaften 63.300 Titel zu bearbeiten 44.991 Titel mit RVK-Notationen im SWB 45.610 Titel mit Übernahme aus SWB und Hebis 48.454 Titel mit Übernahme aus SWB, Hebis, BVB

(Nur experimentell; Suchen der Titel über den BVB-Verbundkatalog)

Page 19: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 19

Zweite Projektphase

Page 20: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 20

Projektzeitraum: 2012 Aggregation möglichst vieler Fremddaten

Daten SWB

Katalog des Südwestdeutschen Bibliotheksverbundes

Hebis Katalog des Hessischen Bibliotheks- und Informationssystems

HBZ Katalog des Hochschulbibliothekszentrum des Landes Nordrhein-

Westfalen

B3Kat Gemeinsamer Verbundkatalog von Bibliotheksverbund Bayern

und dem Kooperativen Bibliotheksverbund Berlin-Brandenburg

Page 21: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 21

Ergebnisse

Katalog Monografien Anteil RVK

Anteil RSWK

Zuwachs RVK

Zuwachs RSWK

SWB 13.330.743 4.217.226 4.083.113 581.780 957.275

Hebis 8.844.188 1.933.081 2.237.659 1.097.992 1.308.581

HBZ 13.271.840 1.018.298 3.322.100 2.272.558 1.080.162

B3Kat 22.685.738 5.750.295 6.055.164 2.969.381 2.765.967

Update 21.09.2012:Korrekte Zahlen für B3Kat

(vorher: Copy-Paste Fehler mit Zahlen von Hebis)

Page 22: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 22

Ausblick

Page 23: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 23

Mehr... Mehr Titeldaten

Gemeinsamer Bibliotheksverbund (GBV) Deutsche Nationalbibliothek (DNB) Schweizer und Österreichische Katalogdaten Open Data aus anderen (Verbund-)Katalogen

Mehr Klassifikationssysteme LCC LCSH DDC / UDC

Page 24: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 24

… und nachhaltiger Probleme

Eigenentwicklung ist weder wartbar noch portabel Datenmengen wachsen rapide

>100 Mio. Titeldatensätze als Open Data verfügbar

Vielzahl von Statistiken / Clusteringmethoden für unterschiedlichste Anwendungen

→ Aufbau einer offenen Infrastruktur für die Analyse von Metadaten

Page 25: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 25

Culturegraph.org Initiative von DNB und HBZ

Ziel: Zusammenführen von bibliografischen Informationen, die als Linked Open Data zur Verfügung stehen

Open Source Infrastruktur Parametrisierbare Metadatenverarbeitung Erweiterbar (Java) Skalierbar (Hadoop) http://sourceforge.net/projects/culturegraph/

Page 26: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 26

Weitere Anwendungen Konkordanzen zwischen Erschließungssystemen

Analyse der Nutzung von Erschließungssystemen Statistiken Doppelstellen / Unscharfe Klassentrennung

Verknüpfungen und Anreicherungen Explizite Beziehungen zwischen Titeln Nicht-bibliografische Ontologien

z.B. Ortsnamen

→ Ihre Ideen sind gefragt!

Page 27: Abgleich von Titeldaten zur Übernahme von Sacherschließungsinformationen  über Verbundgrenzen

2. August 2012 GfKl 2012 Hildesheim - LIS Workshop 27

Danke für Ihre Aufmerksamkeit!

Folien online unterhttp://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.