Der RDA-Umstieg in Deutschland - hdm-stuttgart.de · Text (Buch, PDF -Dokument) unbewegtes Bild...

39
Prof. Heidrun Wiesenmüller Hochschule der Medien 5. Dezember 2014 BI-Fachsymposium Folie 1 Der RDA-Umstieg in Deutschland Herausforderungen für das Metadatenmanagement

Transcript of Der RDA-Umstieg in Deutschland - hdm-stuttgart.de · Text (Buch, PDF -Dokument) unbewegtes Bild...

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 1

Der RDA-Umstieg in Deutschland

Herausforderungen für das Metadatenmanagement

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 2

Agenda

1. Vorüberlegungen 2. Ressourcenbeschreibung 3. Beziehungen zu Personen 4. Normdaten 5. Fazit und Ausblick

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 3

Agenda

1. Vorüberlegungen 2. Ressourcenbeschreibung 3. Beziehungen zu Personen 4. Normdaten 5. Fazit und Ausblick

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 4

Ende 2015: Voll-Umstieg auf RDA • Millionen von Datensätzen werden zu „Altdaten“

Beispiel SWB: ca. 20 Mio. Titeldatensätze • Kein Katalogbruch

alte und neue Daten koexistieren im selben Datenpool

• Teilweise kann man einfach einen Schnitt machen bis Zeitpunkt X nach RAK, danach nach RDA − funktioniert bei Normdaten und fortlaufenden

Ressourcen nur sehr bedingt − auch bei Monografien nicht so einfach, wie man denkt

• Betrachtet werden nur maschinelle Änderungen Grundproblem: In RDA oft inhaltlich-intellektuelle Ent-scheidungen, wo nach RAK formale Kriterien angelegt wurden (z.B. Haupteintragung unter Körperschaft)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 5

Heterogenität im Katalog • Nehmen BenutzerInnen Unterschiede wahr?

vermutlich nicht bzw. nicht für wichtig erachtet • Kataloge sind schon jetzt heterogen

früherer RAK-Stand

amerikanische Fremddaten

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 6

Upgrade – ja oder nein? • Nicht an allen Stellen von gleicher Bedeutung

wichtig vor allem dort, wo es die Recherche tangiert (z.B. auch bei Informationen, die in Facetten ausgewertet werden sollen)

• Hybride oder stringente Datensätze? − Regelwerks-Mischung in Kauf nehmen? − oder lieber Datensätze, die nach einem veralteten

Regelwerk erstellt, jedoch in sich konsistent sind?

• Fehlerquote beim Upgrade bei vielen maschinellen Umsetzungen muss mit einer gewissen Fehlerrate gerechnet werden

es muss jeweils abgewogen werden, ob man die Umsetzung trotzdem macht

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 7

Agenda

1. Vorüberlegungen 2. Ressourcenbeschreibung 3. Beziehungen zu Personen 4. Normdaten 5. Fazit und Ausblick

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 8

Take what you see! • RDA-Grundprinzip bei zu übertragenden Elementen

keine Abkürzungen, Normierungen oder Weglassungen • Beispiel: Ausgabebezeichnungen

Zweite, vollständig überarbeitete Auflage

RDA: Zweite, vollständig überarbeitete Auflage RAK: 2., vollst. überarb. Aufl.

Ergebnis: 2., vollständig überarbeitete Auflage

• Mögliche Umsetzungsregel: Auflösen häufiger Abkürzungen nach fester Liste, z.B. „vollst.“ wird „vollständig“, „Aufl.“ wird „Auflage“

Korrektur erfolgreich (außer Zahlwort)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 9

• Fehlerbeispiel (selten):

2. Auflage, ergänzt und überarbeitet

RDA: 2. Auflage, ergänzt und überarbeitet RAK: 2. Aufl., erg. und überarb. Ergebnis: 2. Auflage, ergänzte und überarbeitete

Christoph Lorey / John L. Plews / Caroline L. Rieger (Hrsg.)

RDA: Christoph Lorey/John L. Plews/Caroline L. Rieger (Hrsg.)

• Beispiel: Verantwortlichkeitsangaben

pauschales Auflösen von Abkürzungen hier problematisch; führt zu Fehlern

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 10

• Nicht erfasste Informationen können nachträglich kaum ergänzt werden

RAK: Christoph Lorey … (Hrsg.)

• Mögliche Lösung: Abgleich mit AACR2-Daten

LC-Katalog

funktioniert aber nicht in allen Fällen (auch in AACR2 wurde gekürzt, z.B. bei mehr als drei Verfassern)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 11

Inhaltstyp (content type)

• Beispiel für ein neues Element in RDA gibt den Charakter der vorliegenden Expression an: wie wird die Ressource vom Benutzer wahrgenommen?

• Kontrollierte Liste, u.a. (mit Beispielen) Text (Buch, PDF-Dokument) unbewegtes Bild (Druckgrafik, Bildband) zweidimensionales bewegtes Bild (Film, Videospiel) gesprochenes Wort (Hörbuch) aufgeführte Musik (Musik-CD) kartografisches Bild (Landkarte, Atlas) kartografische dreidimensionale Form (Globus)

z.B. für Verwendung in Facette (muss dann auch in Altdaten vorhanden sein)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 12

• Beispiel: „kartografisches Bild“ Wie gut kann die Angabe aus anderen Informationen in SWB-Datensätzen erschlossen werden?

• Feld 1140 in Pica (Veröffentlichungsart und -inhalt) Code „kart“ im SWB derzeit ca. 250.000mal belegt

etwas zu weit (umfasst z.B. auch Globen)

• In der Theorie: Zuspielen von „kartografisches Bild“ an alle Datensätze mit „kart“ sollte Problem weitgehend lösen

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 13

Einzelkarten: „kart“ i.d.R. erfasst

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 14

• Atlanten: meistens kein „kart“ erfasst • Titelstichwort „Atlas“ als Kriterium nicht brauchbar

würde sehr viel falsche Zuordnungen ergeben

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 15

• Andere Informationen mit einbeziehen zusätzlich Illustrationsangabe auswerten

Mögliche Regel: Bei „überw. Kt.“ oder „zahlr. Kt.“ wird der Inhaltstyp „kartografisches Bild“ zugespielt

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 16

„Kt.“: kein Zuspielen von „karto-grafisches Bild“ (sonst wären auch alle Bücher dabei, die nur einige wenige Karten enthalten)

• Problem: Illustrationsangabe oft nicht korrekt erfasst (häufig nur „Kt.“, was „einige Karten“ bedeutet)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 17

• Weitere Ergänzung nötig Einbezug der Sacherschließung (RSWK, LCSH, RVK…)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 18

Zwischenfazit • Viele Aspekte müssen einzeln betrachtet werden

dazu sind gute Regelwerkskenntnisse und genaue Datenanalysen nötig; die Methoden müssen jeweils vorab getestet werden

• Oft müssen mehrere Schritte vollzogen werden um zu einer einigermaßen befriedigenden Umsetzung zu kommen; dabei muss trotzdem mit einer gewissen Fehlerrate gerechnet werden

• Schlechte Ausgangsdaten erschweren Umsetzungen problematisch sind die große Inkonsistenz und die vielen Fehler, die beim Katalogisieren gemacht werden

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 19

Agenda

1. Vorüberlegungen 2. Ressourcenbeschreibung 3. Beziehungen zu Personen 4. Normdaten 5. Fazit und Ausblick

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 20

Viele Änderungen Beispiel „geistiger Schöpfer“ • Sachtitelwerke werden zu Verfasserwerken, z.B.:

− Bildbände − Im Team erarbeitete Werke von mehr als drei

Verfassern − Im Team erarbeitete Werke mit sichtbar getrennten

Textanteilen

• Keine Sonderregeln für Nichtbuchmaterialien bei den Beziehungen (Eintragungen) gelten unter RDA dieselben Prinzipien für alle Materialarten

ein Roman hat immer denselben geistigen Schöpfer, egal ob gedruckt oder als Hörbuch

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 21

RAK-WB: Personen erhalten nur Nebeneintragungen

RDA: beide Personen sind geistige Schöpfer (der erste davon entspricht der Haupteintragung)

identische Beziehungen, aber unterschiedliche „Wertigkeit“ ist an sich unproblematisch

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 22

Problem • RDA definiert Werk über ersten geistigen Schöpfer

in Kombination mit dem bevorzugten Titel des Werks • Kann zu Inkonsistenzen führen, z.B.

− ältere Auflage (nach RAK) und jüngere Auflage (nach RDA) gehören gemäß der Logik von RDA nicht zum selben Werk

− ältere Hörbuch-Ausgaben gehören nicht zum selben Werk wie zugehörige Druckausgaben und nach RDA katalogisierte Hörbuch-Ausgaben

für die Benutzer muss es trotzdem möglich sein, alle Ausgaben des Werks zu sehen

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 23

Christie, Agatha, 1890-1976. Murder at the vicarage

• RDA: geistige Schöpferin in beiden Fällen identisch; damit ist auch das Werk identisch

Druckausgabe Hörbuch-Ausgabe

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 24

RAK-WB: Haupteintragung unter Christie

RAK-NBM: Haupteintragung unter Sachtitel

Christie, Agatha, 1890-1976. Murder at the vicarage

• Werk bei Druckausgabe

Murder at the vicarage

• Werk bei Hörbuch-Ausgabe

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 25

3000 !PPN!Christie, Agatha*1890-1976* 3010 !PPN!Brender, Irmela*1935-*[Übers.] 3211 Murder at the vicarage <dt.>

• Druckausgabe in Pica (Ausschnitt):

• Hörbuch-Ausgabe in Pica (Ausschnitt) enthält noch Sprecher und Regisseur

3010 !PPN!Christie, Agatha*1890-1976* 3010 !PPN!Brender, Irmela*1935-* 3010 !PPN!Loibl, Thomas*1969-* 3010 !PPN!Böttcher, Kirsten 3211 Murder at the vicarage <dt.>

entscheidender Unterschied ist die Kategorie, in der Agatha Christie erfasst ist

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 26

Lösungsansatz • Clustern der Ausgaben mit „Methode Pfeffer“

entscheidend ist, dass außer dem Titel noch eine Person identisch ist (egal in welcher Kategorie sie erfasst ist)

• Option 1: Altdaten bleiben unverändert Information, zu welchem Werk eine Ausgabe gehört, wird im Datensatz gespeichert (z.B. als Nummer) und kann für die Recherche und Anzeige ausgewertet werden

• Option 2: Altdaten werden angepasst ist 3000 nicht belegt, so wird die entsprechende Angabe aus anderen zum Cluster gehörigen Datensätzen über-nommen (d.h. bei Hörbüchern wird der Autor automatisiert von 3010 nach 3000 umgesetzt)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 27

Agenda

1. Vorüberlegungen 2. Ressourcenbeschreibung 3. Beziehungen zu Personen 4. Normdaten 5. Fazit und Ausblick

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 28

Normdaten • Mit GND bereits weitgehend an RDA angepasst

aber es gibt immer noch Abweichungen, z.B. bei untergeordneten Körperschaften

• Beispiel: Universitätsinstitute bisher grundsätzlich selbständige Ansetzung, z.B. Institut für Informatik (Heidelberg)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 29

RDA: meistens unselbständige Ansetzung • Fall 1: Name des Instituts benennt nur ein Fach

unselbständig: Universität Heidelberg. Institut für Informatik

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 30

• Fall 2: Name der Universität ist Teil des Institutsnamens

unselbständig

• Fall 3: Institut hat einen spezifischen Namen

selbständig

Universität Bonn. Geographi- sches Institut

Kirchhoff-Institut für Physik

Achtung: „Kirchhoff-Institut für Physik an der Universi-tät Heidelberg“ wäre unselbständig gewesen (Fall 2)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 31

Optionen für ein RDA-Upgrade • Option 1: „Methode Brechstange“

alle Uni-Institute (soweit erkennbar) werden maschinell auf unselbständig geändert

bei relativ geringem Aufwand wird eine hohe Rate RDA-gerechter Ansetzungen erzeugt (falsch wäre aber der Typ „Kirchhoff-Institut …“)

besseres Ergebnis, aber bei deutlich höherem Aufwand

• Option 2: Fehler bei Umsetzung verringern − z.B. Fälle vom Typ „…-Institut“ ausnehmen (aber

auch da gibt es Fälle, die unselbständig sind) − evtl. zusätzlicher Abgleich mit LC Authorities

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 32

Abweichungen bei Entitäten Beispiel Pseudonyme: • Deutsche Tradition

generell nur ein einziger Normdatensatz, der alle Namen enthält

• Angloamerikanische Tradition in bestimmten Fällen „getrennte bibliografische Identitä-ten“, d.h. mehrere Normdatensätze

• RDA: Prinzip wird noch verstärkt immer mehrere Identitäten, wenn jemand sowohl unter seinem eigenen Namen als auch unter Pseudonym bzw. unter mehreren Pseudonymen schreibt

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 33

GND: ein Datensatz

„pip“: Kennung für Pseudo-nymfälle (mit GND einge-führt)

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 34

LC Authorities: vier Datensätze

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 35

Arbeitsschritte: • Fragliche Fälle erkennen

anhand Codes relativ zuverlässig selektierbar • Auseinanderziehen der Datensätze

wohl nur intellektuell möglich (dabei auch Prüfung, ob wirklich getrennte Identitäten vorliegen)

• Zuordnung der Titel zum richtigen Normdatensatz hier ist eine maschinelle Unterstützung denkbar − 1. Schritt: Clustern von Werken − 2. Schritt: Auswerten von Verantwortlichkeitsangaben − 3. Schritt: Zuordnen der Cluster

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 36

Alle Ausgaben von „The cuckoo's calling“ müssten dem neuen Norm-datensatz „Galbraith, Robert“ zuge-ordnet werden

• Beispiel: Rowling vs. Galbraith

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 37

Agenda

1. Vorüberlegungen 2. Ressourcenbeschreibung 3. Beziehungen zu Personen 4. Normdaten 5. Fazit und Ausblick

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 38

Fazit und Ausblick • RDA-Upgrades sind möglich, aber nicht trivial

es gibt nicht „die eine Lösung“, sondern es sind viele einzelne Schritte nötig

• Organisatorische Rahmenbedingungen

müssen diskutiert werden: − kooperative Lösung möglich?

(Verteilen der Aufgaben, Nachnutzbarkeit von Regeln für das Processing der Daten)

− geeignete Tools für das Processing? (sollten auch von „normalen“ Bibliothekaren ange-wendet werden können, nicht nur von IT-Mitarbeitern)

denkbar als iterativer Prozess, der über einen längeren Zeitraum abläuft

Pro

f. H

eidr

un W

iese

nmül

ler

Hoc

hsch

ule

der M

edie

n

5. Dezember 2014 BI-Fachsymposium Folie 39

Vielen Dank für Ihre Aufmerksamkeit!

[email protected]