Fundament für die Forschung von morgen - blog.crossasia.org · Fundament für die Forschung von...

Fundament für die Forschung von morgen CrossAsia Integriertes Textrepositorium (ITR) zur

Archivierung und Bereitstellung von Objekten und Daten

für die Asienwissenschaften

Dr. Martina Siebert

Staatsbibliothek zu Berlin – Ostasienabteilung

Fedora 4(Datenspeicher)

Rechteverwaltung / Zugriffsteuerung

Versionierung Identifier

Bearbeitung Metadaten /

Inhalte / Collections

Hinzufügen nutzergenerierter

Inhalte

Einspielen neuer Collections

Identifier

VerwaltungsoberflächeV

berfläch

SucheSchnittstellen-

zugriffe

Systemzugriffe

Pilot:

Local Gazetteer Projekt

MPI Wissenschaftsgeschichte

Archivierung

Bereitstellung

Oxford

Ghent Leuven

Torino

Zürich

Leiden

Blauer Leihverkehr

CrossAsia

Krakau

1951-2015 SSG 6,25

“Sondersammelgebiet Ost- und Südostasien” (DFG)

Virtuelle Fachbibliothek CrossAsia

CrossAsia – Fachinformationsdienst Asien Projektlaufzeit: 1.2016 bis 12.2018

Content Management: Forschung und Entwicklung (Aktionsfeld 4)

Infrastruktur für Metadaten und Volltexte (ITR)

Archivierung und Bereitstellung von digitalen Objekten und Daten (für und aus der

Forschung) über Webseiten und definierte Schnittstellen

> Vorbereitung auf zukünftige Anforderungen im Kontext Digitaler Geistes- und Sozialwissenschaften

Archivierung Bereitstellung

CrossAsia 2005-

Virtuelle Fachbibliothek CrossAsia

o Akquise bzw. Extraktion der Content- und Metadaten

o Entwicklung von Ingest-Routinen und Metadaten-Mappings

Archivierung …

> … lizenzierter Materialien, für die Rechte für Hosting und Indexierung sowie u.U. weitere

Rechte bestehen, die im Rahmen der Digitalen Wissenschaften erforderlich sind

(text mining, caching = „non-consumptive use“ etc.)

Inhalte

Identifier

berflä

zugriffe

Systemzugriffe

Inhalte

Identifier

rfläch

zugriffe

Systemzugriffe

Adam Matthews Digital • 12.500 bibliographische Einheiten / XML + 1,3 Mio Img

(Foreign Office Files China, Meiji Japan, China Trade&

Culture, China, America, Pacific)

Diaolong databases

• 續修 SKQS (5412 Buchtitel / ca. 3 Mio

Seiten (Metadaten/img/XML)

• Daozang jiyao, Qingdai shiliao, SKQS

(weitere rd. 5000 Titel)

• Weitere Diaolong Ressourcen

• Asian Studies eBook

2007-2017 (ca. 11 T Titel)

• Liz. Airiti Titel

> Metadaten/PDF mit Volltext)

Brill eBooks

Airiti eBooks

People‘s Daily 人民日报

(1946-2012) • ca. 2 Mio Artikel (TXT)

Local Gazetteers

地方志

• 2000 Titel

(195 T Kapitel,

2,5 Mio Seiten)

> Metadaten/XML

Volltext von

Printbüchern SCAN > IMG > OCR

Bildnachlässe IMG <

Metadaten <

Projektarbeit <

Fedora-Struktur: Beispieldatenmodell (Diaolong)

Datenlieferung

XML und Images

• Extraktion

Titel-Metadaten

Struktur 1: Buch und Seiten

• Generierung

Einzelseitenobjekte mit

• Verknüpfung mit Titel

• sowie Image in ITR

• Link auf Datenbank

• Markierung von

„Nonsense“- Seiten für

späteres Handschriften

OCR bzw.

Nutzerprojekte/crowd

sourcing

vom Volltexttreffer

> zu den Buch-Metadaten

und (authentifiziert)

> zur Seite in der Datenbank

Struktur 1: Buch und Seiten

Datenlieferung

Metadaten und

Volltext-PDF

• Metadaten transformieren

• Text seitenweise extrahieren

Struktur 2: Buch, Kapitel,

Seiten Extraktion aus Datenbank

Metadaten und Text

• Metadaten transformieren

• Text seitenweise extrahieren,

• Kapitel identifizieren

(letzteres Projektarbeit MPIWG)

Kapitel

Bereitstellung …

> … Schnittstellen zur Nutzung und Datenübertragung (SRU)

Entwicklung und Evaluierung prototypischer Volltextrecherchen („explorativ“ vs „geführt“)

und Einbindung in die CrossAsia Suche (Ajax-Solr)

Inhalte

Identifier

berfläch

zugriffe

Systemzugriffe

„geführte“ Volltextsuche

Recherche-

anfrage xA

Ergebnis

Volltexttreffer

1. Liste der Bücher

mit Treffern nach score

2. Anzeige Einzeltreffer

im jeweiligen Titel

(Snippets)

Rechte-

managem.

Volltext

Objekt

aus ITR

Recherche-

anfrage xA

Ergebnis

Volltexttreffer

A. Einzeltreffer (score)

kontrollierbar über Facetten

und weitergehenden

Suchanfragen

„explorative“ Volltextsuche

B. Einzeltreffer

gruppiert zu Treffern

aufeinanderfolgender Seiten

Rechte-

managem.

Volltext

Objekt

aus ITR

Ostasien OPAC (crossasia.stabikat.de)

CrossAsia Suche (crossasia.org)

CrossAsia Datenbankportal

Titelimport

Schnittstellen zu externen Ressourcen (CiNii, DBpia,

Duxiu); Solr Indexe mit regelmäßig geharvesteten

Daten (NDL, CRL); PDA Titel (Lieferung)

CrossAsia ITR • weitere Titel-Metadaten

• Strukturdaten

• Volltexte aus

Datenbanken

Volltext

Aufbrechen der Grenze gedruckt vs. elektronisch

Erweiterte Metadatensuche (inkl TOC) > „Volltextsuche“ im Druckbestand

Weg 1: Matching StaBi-Bestand mit Titeln, die in Duxiu im Volltext indexiert wurden

> Abfrage über vereinbarte Schnittstelle

Aufbrechen der Grenze gedruckt vs. elektronisch

Volltext-Suche

Probeseiten

online

Papier

ausleihen

> Snippet

Weg 2: Scannen und OCR-Verarbeitung von Erwerbungen > Aufbau Solr-Index

Danke!

Fundament für die Forschung von morgen - blog.crossasia.org · Fundament für die Forschung von...

Documents

Transcript of Fundament für die Forschung von morgen - blog.crossasia.org · Fundament für die Forschung von...

Erziehung in der Gnade: Das Fundament in uns.. Blinde Flecken.

Industrie 4.0 - Innovationen für die Produktion von morgen · 2 Kommunikationssysteme und IT-Sicherheit 56 Forschung zur industriellen Kommunikation der Zukunft für Industrie 4.0

Das Feste Fundament - Zeitschrift für neutestamentliches … · 2020. 2. 21. · Das Feste Fundament - Zeitschrift für neutestamentliches Christentum ... 5 *,!-*

Klinisches Studienzentrum der MUW von Morgen - gpmed.at · Fbme 13-14 0123 BT?4 Zentum rneúzilische Vorklinik Forschung Neurcx.hiru Ebene 4 Forschung 31621 BTC8 BT18 . ooper eiobank

„Krisenintervention mit 24-h-Notfall-Hotline als Fundament ...€¦ · „Prix Courage“ im November 2012 „Krisenintervention mit 24-h-Notfall-Hotline als Fundament des Konzepts

Wasserstoff als ein Fundament der Energiewende

DIE LAGE RZE IT U NG VOM BAOST 2015 WWW BA O ST DE...2015/07/26 · Morgen (by Ivo Robic) Morgen Morgen uuuuuuuuuuu Morgen, Morgen lacht uns wieder das Glück gestern, gestern liegt

Technologien von Morgen Sensible Detektivebys007/ssc/forum-forschung/2001/pdf/15nienhaus.pdf · sind, d.h. dass sie chemische Energie an den Metallober-flächen freisetzen. Bis heute

Freiwilliges Engagement und Ehrenamt: Das Fundament der Gesellschaft und des Sports.

Frauen in der digitalen Arbeitswelt von morgen in der digitalen... · 2019-01-30 · Frauen in Karriere ‒ Fokus Forschung und Entwicklung 3 Inhalt Vorwort Dr. Kira Marrs und Anja

Felskeilstabilität im Fundament einer Bogenstaumauer bei Erdbeben

Wie arbeiten Konzerne und Start-ups zusammen?€¦ · 1907 Abfüllen von Persil Verpacken im Jahre 2020+ … und morgen. 13 ... Methode 2000/2001 Forschung ... Stufen des Innovationsprozesses

„Gedanken zum Fundament des Informatikturms“ Jürg Nievergelt, ETH Zürich, 1995

Baugrund und Fundament - Ein Ratgeber von RWE Power.pdf

Sei Gesund….!!. Guten morgen….! Kinder Guten morgen.

Allgemeine Montageanleitung Steck-Schraubsystem · Steck-Schraubsystem Kontroll-Nummer: 2 1. Fundament 1. Fundament / Foundation / Fondation 2. Vorbereitung der Einzelteile / Preparation

Frauen in der digitalen Arbeitswelt von morgen...Frauen in Karriere ‒ Fokus Forschung und Entwicklung 3 Inhalt Vorwort Dr. Kira Marrs und Anja Bultemeier 4 Grußwort Prof. Dr. Johanna

Impressum Technik und Ideen für morgen · 2018. 2. 26. · Title: Kampagnenflyer der Initiative „BIOTechnikum: Erlebnis Forschung – Gesundheit, Ernährung, Umwelt“ des Bundesministeriums

Fundament einer nachhaltigen Energieversorgung

Karl Fischer: Biodiversität - Fundament für Lebensmittelsicherung

Das Feste Fundament - Zeitschrift für neutestamentliches … · 2020. 2. 21. · Das Feste Fundament - Zeitschrift für neutestamentliches Christentum ... 5 ,!-