Was Wissenschaftler wirklich Wollen

Post on 11-May-2015

1.270 views 0 download

description

Goobi Präsentation auf dem BibTag 2010 in Leipzig

Transcript of Was Wissenschaftler wirklich Wollen

Was Wissenschaftlerwirklich wollen

Such- und Metadatenstrategien für digitale Repositorien am Beispiel von "Goobi"

Seien wir ehrlich:

WIR WISSEN ES NICHT.

Endnutzer – wer ist das?

• Wissenschaftler

• Schüler/Studierende

• Laien

• Google (und andere Dienste)

Nutzungsarten• Suche / Retrieval

– Das einzelne Objekt als Ziel

• Semantische / qualitative Analysen– Themenkarrieren– Netzwerke (Personen)– Die Summe der Objekte - das Repository - als Werkzeug

und Untersuchungsgegenstand

• Text- und Editionsarbeit– Virtuelle Forschungsumgebungen– Teilobjekte (Abschnitte, Sätze, Worte) als erweiterbare und

kombinierbare Einheiten

Dimensionen der DigitalisierungDimensionen der Digitalisierung

ZENDEF

ZENDEF• Zitierbar• Erreichbar• (nach)Nutzbar• Durchsuchbar• Erweiterbar• Findbar

ZENDEF• Zitierbar

– Persistente Identifier Struktur (PID)

• Erreichbar

– Digitalisiert, Stabilität, Performance

• (nach)Nutzbar

– Qualität, flexible Datenformate

• Durchsuchbar

– Metadaten (Bibl. & Struktur), Volltexte

• Erweiterbar

– Virtuelle Forschungsumgebungen

• Findbar

– OPAC, Google & co

• Erreichbar / Nutzbar– Massendigitalisierung mit Scanrobotern– Kristina Lippold, Dresden

• Durchsuchbar / Findbar– OCR Renderfarmen und TEI– Christian Mahnke, Göttingen

• Nachnutzbar– Standards für Datenformate und -übertragung– Sebastian Meyer, Dresden

• Durchsuchbar / Findbar– Strukturmetadatengenerierung– Ralf Stockmann, Göttingen

• Nachnutzbar– Das Digitalisat im Netz - Werkzeuge für die Nutzer– Sebastian Meyer, Dresden

• Zusammenfassung und Fazit– Ralf Stockmann, Göttingen

Strukturmetadatengenerierung

Erschließungstiefe

Bibliographische MetadatenBibliographische Metadaten

Struktur- MetadatenStruktur- Metadaten

VolltexteVolltexte

Manuelle Erschließung

Manuelle Erschließung

Bibliotheken Wissenschaftler

Beispiel Strukturmetadaten

Strukturmetadaten = digitales Inhaltsverzeichnis navigier- und durchsuchbar machen

Der Aufwand

1. Paginierungssequenzen erstellenVerhältnis von gescannter zu aufgedruckter Seite

2. Abstrakte Strukturen aufbauenDas Kapitel liegt in Ebene drei und reicht von Seite x bis xx

3. Das einzelne Strukturelement mit konkreten Metadaten füllenDas Kapitel hat den Titel X und den Autor XX

Paginierungssequenzen

17

OCR gestützte Anreicherung

Der Aufwand

• Derzeit: für viele Materialien nur händische Verfahren sinnvoll

• Bei Antiqua und begrenzt jüngerer Fraktur OCR-gestützte, Halbautomatiken denkbar

Aufwand je ProjektVD18

Rezensionszeitschriften DigiZeitschriften

Mathematik

RusDML – worst case

Typische Laufzeiten im Produktionsprozess

300 Seiten Band (Mathematik)

• Arbeitsvorbereitungen (25 Min.)– Ausheben– Digitale Uraufnahme

• Digitalisierung (40 Minuten)• Qualitätskontrolle (10 Minuten)• Imageoptimierung (10 Minuten)• Strukturdatengenerierung (40 Minuten)• Import (5 Minuten)

600 Seiten Band (DigiZeitschriften)

• Arbeitsvorbereitungen (25 Min.)– Ausheben– Digitale Uraufnahme

• Digitalisierung (70 Minuten)• Qualitätskontrolle (18 Minuten)• Imageoptimierung (10 Minuten)• Strukturdatengenerierung (8 Stunden)• Import (10 Minuten)

Lohnt der ganze Aufwand

Und was können wir durch Volltexte subsumieren?

Projekt: eAqua• Kooperation:

– Institut für Informatik - Computerlinguistik, Leipzig (Büchler, Eckart, Heyer, Baumgardt)

– SUB Göttingen (Stockmann, Kothe, Mahnke)

• Konkreter Vergleich: semantische Graphen zwischen Strukturdaten und Volltexten

Semantische Suche „Sozialismus“ auf Strukturdaten

Semantische Suche „Mephisto“ auf Strukturdaten

Semantische Suche „Mephisto“ auf Volltexten

Ergebnisse

• Strukturmetadaten unentbehrlich für das Aufbauen digitaler Inhaltsverzeichnisse (Navigation)

• Im Bereich der Suche werden (OCR) Volltexte mittelfristig bessere Ergebnisse liefern

• Semantische Relevanz von Strukturmetadaten schwankt extrem mit der Beschaffenheit des Materials

Die Zukunft

• Projekt: Europeana Connect

• Visualisierung von Daten interaktiv in Raum und Zeit („4D“)

• Kooperation von – SUB Göttingen (Mahnke / Stockmann)– Institut für Informatik (Scheuermann /

Jänicke)

29

Goethe

Semantische / qualitative Analysen

30

GoetheSchiller

Ausblick und Fazit

Goobi Verbreitung

www.goobi.org

Goobi Homepage

www.goobi.org

Goobi Blog

www.goobi.org/blog

Goobi Forum

in Kürze über Homepage zu erreichen

Wir wissen vielleicht nicht, was Wissenschaftler

wollen...

...aber wir können relativ genau sagen, was sie NICHT wollen

Überwindung der Provinienz

• Es interessiert keinen Wissenschaftler, in welcher Bibliothek seine Forschungsliteratur steht.

• Noch viel weniger interessiert ihn, in welchem Repository er die digitale Fassung gefunden hat.

• Digitale Werkzeuge MÜSSEN system- und applikationsübergreifend funktionieren:– Bookmarking– Vernetzung– Kommentierung– Kollaboration

ACHTUNG!

• Wir versündigen uns an einer ganzen Generation von Wissenschaftlern, wenn wir Produktkonkurrenz auf dem Rücken der Forscher austragen

• Wir brauchen keinen Wettbewerb um lokal implementierte Features, sondern einen Wettbewerb um die beste Implementierung offener Standards

• Im Zweifelsfall werden die Wissenschaftler in Zukunft dahin gehen wo Vernetzung funktioniert (Google)