Fundament für die Forschung von morgen - blog.crossasia.org · Fundament für die Forschung von...

Post on 16-Sep-2019

2 views 0 download

Transcript of Fundament für die Forschung von morgen - blog.crossasia.org · Fundament für die Forschung von...

Fundament für die Forschung von morgen CrossAsia Integriertes Textrepositorium (ITR) zur

Archivierung und Bereitstellung von Objekten und Daten

für die Asienwissenschaften

Dr. Martina Siebert

Staatsbibliothek zu Berlin – Ostasienabteilung

Fedora 4(Datenspeicher)

Rechteverwaltung / Zugriffsteuerung

Versionierung Identifier

Bearbeitung Metadaten /

Inhalte / Collections

Hinzufügen nutzergenerierter

Inhalte

Einspielen neuer Collections

Identifier

VerwaltungsoberflächeV

erw

altu

ngso

berfläch

e

Ad

min

zugr

iff

SucheSchnittstellen-

zugriffe

Systemzugriffe

Pilot:

Local Gazetteer Projekt

MPI Wissenschaftsgeschichte

Archivierung

Bereitstellung

Oxford

Praha

Turku

Paris

Ghent Leuven

Wien

Torino

Zürich

Leiden

Tokyo

Blauer Leihverkehr

CrossAsia

Krakau

1951-2015 SSG 6,25

“Sondersammelgebiet Ost- und Südostasien” (DFG)

2005-

Virtuelle Fachbibliothek CrossAsia

CrossAsia – Fachinformationsdienst Asien Projektlaufzeit: 1.2016 bis 12.2018

Content Management: Forschung und Entwicklung (Aktionsfeld 4)

Infrastruktur für Metadaten und Volltexte (ITR)

Archivierung und Bereitstellung von digitalen Objekten und Daten (für und aus der

Forschung) über Webseiten und definierte Schnittstellen

> Vorbereitung auf zukünftige Anforderungen im Kontext Digitaler Geistes- und Sozialwissenschaften

Archivierung Bereitstellung

CrossAsia 2005-

Virtuelle Fachbibliothek CrossAsia

o Akquise bzw. Extraktion der Content- und Metadaten

o Entwicklung von Ingest-Routinen und Metadaten-Mappings

Archivierung …

> … lizenzierter Materialien, für die Rechte für Hosting und Indexierung sowie u.U. weitere

Rechte bestehen, die im Rahmen der Digitalen Wissenschaften erforderlich sind

(text mining, caching = „non-consumptive use“ etc.)

Fedora 4(Datenspeicher)

Rechteverwaltung / Zugriffsteuerung

Versionierung Identifier

Bearbeitung Metadaten /

Inhalte / Collections

Hinzufügen nutzergenerierter

Inhalte

Einspielen neuer Collections

Identifier

VerwaltungsoberflächeV

erw

altu

ngso

berflä

che

Ad

min

zug

riff

SucheSchnittstellen-

zugriffe

Systemzugriffe

Fedora 4(Datenspeicher)

Rechteverwaltung / Zugriffsteuerung

Versionierung Identifier

Bearbeitung Metadaten /

Inhalte / Collections

Hinzufügen nutzergenerierter

Inhalte

Einspielen neuer Collections

Identifier

VerwaltungsoberflächeV

erw

altu

ngso

be

rfläch

e

Ad

min

zug

riff

SucheSchnittstellen-

zugriffe

Systemzugriffe

Adam Matthews Digital • 12.500 bibliographische Einheiten / XML + 1,3 Mio Img

(Foreign Office Files China, Meiji Japan, China Trade&

Culture, China, America, Pacific)

Diaolong databases

• 續修 SKQS (5412 Buchtitel / ca. 3 Mio

Seiten (Metadaten/img/XML)

• Daozang jiyao, Qingdai shiliao, SKQS

(weitere rd. 5000 Titel)

• Weitere Diaolong Ressourcen

• Asian Studies eBook

2007-2017 (ca. 11 T Titel)

• Liz. Airiti Titel

> Metadaten/PDF mit Volltext)

Brill eBooks

Airiti eBooks

People‘s Daily 人民日报

(1946-2012) • ca. 2 Mio Artikel (TXT)

Local Gazetteers

地方志

• 2000 Titel

(195 T Kapitel,

2,5 Mio Seiten)

> Metadaten/XML

Volltext von

Printbüchern SCAN > IMG > OCR

Bildnachlässe IMG <

Metadaten <

Projektarbeit <

pro

batch

Fedora-Struktur: Beispieldatenmodell (Diaolong)

Datenlieferung

XML und Images

• Extraktion

Titel-Metadaten

Struktur 1: Buch und Seiten

• Generierung

Einzelseitenobjekte mit

• Verknüpfung mit Titel

• sowie Image in ITR

• Link auf Datenbank

• Markierung von

„Nonsense“- Seiten für

späteres Handschriften

OCR bzw.

Nutzerprojekte/crowd

sourcing

vom Volltexttreffer

> zu den Buch-Metadaten

und (authentifiziert)

> zur Seite in der Datenbank

Struktur 1: Buch und Seiten

Datenlieferung

Metadaten und

Volltext-PDF

• Metadaten transformieren

• Text seitenweise extrahieren

Seite

Buch

Struktur 2: Buch, Kapitel,

Seiten Extraktion aus Datenbank

Metadaten und Text

• Metadaten transformieren

• Text seitenweise extrahieren,

• Kapitel identifizieren

(letzteres Projektarbeit MPIWG)

Seite

Buch

Kapitel

Bereitstellung …

> … Schnittstellen zur Nutzung und Datenübertragung (SRU)

Entwicklung und Evaluierung prototypischer Volltextrecherchen („explorativ“ vs „geführt“)

und Einbindung in die CrossAsia Suche (Ajax-Solr)

Fedora 4(Datenspeicher)

Rechteverwaltung / Zugriffsteuerung

Versionierung Identifier

Bearbeitung Metadaten /

Inhalte / Collections

Hinzufügen nutzergenerierter

Inhalte

Einspielen neuer Collections

Identifier

VerwaltungsoberflächeV

erw

altu

ngso

berfläch

e

Ad

min

zug

riff

SucheSchnittstellen-

zugriffe

Systemzugriffe

„geführte“ Volltextsuche

Recherche-

anfrage xA

Suche

Ergebnis

Volltexttreffer

1. Liste der Bücher

mit Treffern nach score

2. Anzeige Einzeltreffer

im jeweiligen Titel

(Snippets)

Rechte-

managem.

Volltext

in DB

Objekt

aus ITR

Recherche-

anfrage xA

Suche

Ergebnis

Volltexttreffer

A. Einzeltreffer (score)

kontrollierbar über Facetten

und weitergehenden

Suchanfragen

„explorative“ Volltextsuche

B. Einzeltreffer

gruppiert zu Treffern

aufeinanderfolgender Seiten

Rechte-

managem.

Volltext

in DB

Objekt

aus ITR

Ostasien OPAC (crossasia.stabikat.de)

CrossAsia Suche (crossasia.org)

CrossAsia Datenbankportal

Titelimport

Schnittstellen zu externen Ressourcen (CiNii, DBpia,

Duxiu); Solr Indexe mit regelmäßig geharvesteten

Daten (NDL, CRL); PDA Titel (Lieferung)

CrossAsia ITR • weitere Titel-Metadaten

• Strukturdaten

• Volltexte aus

Datenbanken

Volltext

Aufbrechen der Grenze gedruckt vs. elektronisch

Erweiterte Metadatensuche (inkl TOC) > „Volltextsuche“ im Druckbestand

Weg 1: Matching StaBi-Bestand mit Titeln, die in Duxiu im Volltext indexiert wurden

> Abfrage über vereinbarte Schnittstelle

Aufbrechen der Grenze gedruckt vs. elektronisch

Volltext-Suche

Probeseiten

online

Papier

ausleihen

> Snippet

Weg 2: Scannen und OCR-Verarbeitung von Erwerbungen > Aufbau Solr-Index

Danke!