Automatisches Generieren von Konkordanzen

Post on 18-Dec-2014

322 views 1 download

description

Vortrag im Rahmen des Workshops "Anwendung von Clustering-Verfahren zur Verbesserung und Analyse von Katalogdaten" auf dem 5. Kongress Bibliothek und Information Deutschland vom 11. bis 14. März 2013 in Leipzig.

Transcript of Automatisches Generieren von Konkordanzen

Automatisches Generieren von Konkordanzen

Prof. Magnus PfefferHochschule der Medien, Stuttgartpfeffer@hdm-stuttgart.de

13. März 2013 5. Kongress Bibliothek und Information

Grundidee

Optimierung durch Clustering

Projekt: Konkordanz RVK ↔ DDC

Überblick

13. März 2013 5. Kongress Bibliothek und Information

Grundidee

13. März 2013 5. Kongress Bibliothek und Information

Instanzbasierter Vergleich Datenbasis:

Mehrfach erschlossene Einträge in Katalogen

13. März 2013 5. Kongress Bibliothek und Information

Instanzbasierter Vergleich Annahmen

Inhaltlich überlappende Klassen treten zusammen auf Häufigkeit des Auftretens ist ein Indiz für die Stärke des

Zusammenhangs

Aufbereitung Extraktion aller Paare aus zwei Erschließungssystemen Aufsummieren der vorkommenden Paare

13. März 2013 5. Kongress Bibliothek und Information

Beispiel

13. März 2013 5. Kongress Bibliothek und Information

Beispiel Titel 1

DDC: 179.9 RVK: CC 7200 RVK: CC 7250

Titel 2 DDC: 179.9 RVK: CC 7200

Paare 179.9 / CC 7200 179.9 / CC 7250 179.9 / CC 7200

13. März 2013 5. Kongress Bibliothek und Information

Instanzbasierter Vergleich Auswertung

am Beispiel zweier Klassifikationen A und B Zwei Klassen treten ausschließlich als Paar auf

1:1 Zuordnung = exakte Übereinstimmung

Klasse aus A hat immer denselben Partner aus B, der hat aber auch andere Partner aus A

N:1 Zuordnung = Klasse aus A ist engeres Konzept

Klasse aus A tritt mit mehreren Partnern auf 1:N Zuordnung = Klasse aus A ist weiter gefasstes Konzept

Aber: Klasse tritt nicht auf Keine Folgerung möglich

13. März 2013 5. Kongress Bibliothek und Information

Beispiel Auswertung für DDC

2 mal 179.9 / CC 7200 1 mal 179.9 / CC 7250

Ergebnis 179.9 narrowMatch CC 7200 179.9 narrowMatch CC 7250

13. März 2013 5. Kongress Bibliothek und Information

Beispiel Auswertung für RVK

2 mal CC 7200 / 179.9 1 mal CC 7250 / 179.9

Ergebnis CC 7200 broadMatch 179.9 CC 7250 broadMatch 179.9

13. März 2013 5. Kongress Bibliothek und Information

Optimierung durch Clustering

13. März 2013 5. Kongress Bibliothek und Information

Titeldaten sind anders Mehrere Auflagen

Mehrere Ausgaben

13. März 2013 5. Kongress Bibliothek und Information

Titeldaten Mehrere Ausgaben und Auflagen verfälschen die

Statistik Paare werden mehrfach erfasst Keine Vergleichbarkeit der absoluten Häufigkeiten

Lösung: Auswertung der Cluster anstelle der einzelnen Titel Häufigkeiten werden direkt vergleichbar „Stärke“ der Korrelationen können ermittelt werden „Ausreißer“ können sicher erkannt und entfernt werden

13. März 2013 5. Kongress Bibliothek und Information

Projekt:Konkordanz RVK ↔ DDC

13. März 2013 5. Kongress Bibliothek und Information

Datenbasis Alle deutschen Verbundkataloge

SWB BVB GBV HeBIS HBZ

DNB

13. März 2013 5. Kongress Bibliothek und Information

Umsetzung Metafactory

Aufbereiten von MAB2 und MARC21 Daten Clustering auf Werksebene

Keygenerierung für Matching-Prozess Matching und Clusterbildung (transitive Hülle) Sammeln der Erschließungsinformationen im Cluster

Statistik Auszählen des gemeinsamen Auftretens von Klassen

Ausgabe Mappings einzelner Klassen Beide Richtungen

13. März 2013 5. Kongress Bibliothek und Information

Offene Fragen Enthalten die Titeldaten nach dem Clustering

genügend auswertbare Erschließungen?

Macht es Sinn, einen globalen Cut-Off zu verwenden, um Ausreißer zu verwerfen? Oder ist es besser, jede Klasse gesondert

auszuwerten?

Wie kann eine effiziente Qualitätssicherung betrieben werden?

13. März 2013 5. Kongress Bibliothek und Information

Danke für Ihre Aufmerksamkeit!

Folien online unterhttp://www.slideshare.net/MagnusPfeffer/

Dieses Werk bzw. Inhalt steht unter einerCreative Commons Namensnennung - Weitergabe unter gleichen Bedingungen 3.0 Unported Lizenz.