Die Erstellung von Handschriften-Editionen mit TRANSKRIBUS · 2016-12-01 · truth”...

Post on 18-Jul-2020

0 views 0 download

Transcript of Die Erstellung von Handschriften-Editionen mit TRANSKRIBUS · 2016-12-01 · truth”...

Die Erstellung von Handschriften-Editionen mit

TRANSKRIBUS

Barbara Denicolò

Universität Innsbruck

DEA (Digitalisierung u. Elektronische Archivierung)

Editionen heute

• Editionen als “Kerngeschäft” von Historikern undPhilologen

•Massendigitalisierung als neue Aufgabe von Bibliothekenund Archiven

•Der “digital turn” in den Geisteswissenschaften wirdebenfalls durch “digitale Editionen” eingeläutet• Patrick Sahle: “Digitale Editionsformen” (3 Bde.)• Catalogue of Scholarly Digital Editions: mehr als 300 digitale

Editionen• Magazin für digitale Editionswissenschaften (Erlangen, seit 2015)• Ride - A review journal for digital editions and resources (Köln,

seit 2014)

Konkrete Hürden

•Wie bearbeite ich diese Fülle an Material?

•Riesige Speichermengen

•Können mehrere Personen gleichzeitig arbeiten?

•Wie bringe ich ihre Arbeitsleistung zusammen?

•Welches Format, welche etablierten Codierungenverwenden (Nachhaltigkeit)?

•Wie umgehen mit Worttrennungen, Streichungen,Einfügungen, Marginalien?

•Was tun mit Abkürzungen?

Konkrete Hürden

•Wie kann ich sog. “Named Entities” (Namen vonPersonen, Völkern, geographischen Orten) undFachtermini markieren?

•Wie gehe ich mit unterschiedlichen Schreibweisenvon Eigennamen um? (Normalisierung)

•Wie präsentiere ich das Material? Digital odergedruckt?

•Gibt es eine Suchfunktion?

•…

Eine Lösung?

• Software • Forschungsplattform (Research Infrastructure)

Ausgangslage

• “Neural Networks are taking over.” (Ray Smith,Google)

Ausgangslage

•Archive beginnen damit, ihre Bestände zudigitalisieren.

• Viel Potenzial für Neuentdeckungen und neueForschungsfragen

Ausgangslage

• “Digital Humanities are (big) data driven.” (GünterMühlberger)

Ausgangslage

•Freiwillige aus der breiten Öffentlichkeit möchtensich an wissenschaftlichen Projekten und an derErhaltung von Kulturerbe beteiligen.

GEISTES-WISSEN-

SCHAFTLER

ARCHIVE - BIBLIOTHEKEN

COMPUTER-WISSEN-

SCHAFTLER&

FIRMEN

ÖFFENTLICHKEIT„EHRENAMTLICHE“

TRANS-KRIBUS

Stellen Images und Metadaten

bereit

DOKUMENTE IN DER CLOUD

Arbeiten mitden Dokumenten

ExportierenTEI, PDF, etc.

EXPERTEN & LAIEN

INTERFACES

Verbesserte Algorithmen &

Tools

Erhalten Referenz-daten

HTR, DIA KWS, NLP,

AWI, HPC …

Profitiert von erweiterten Suchmöglichkeiten

WEBSEITE

Arbeitet mit (Crowd-Sourcing)

Angereicherte Digitale Objekte

READ (2016-2019)

•Recognition and Enrichment of Archival Documents• EU-Call: Virtual Research Environments

• Universität Innsbruck (Koordination), 14 Partner, darunter Universitätenaus Valencia, Wien, Rostock, Leipzig, London, Lausanne, das Xerox European Research Centre und vier Archive

• Über 20 MoU Partner (National- und Unibibliotheken, Staatsarchive usw.)

• 8,2 Mill. EUR Förderung (Horizon 2020 e-infrastructure)

• Ziel• Forschungsinfrastruktur schaffen, die einerseits

Grundlagenforschung in den Computerwissenschaftenbefördert, andererseits für Archive, Bibliotheken, Geisteswissenschaftler und die Öffentlichkeit die Technologienutzbar macht.

Homepage http://read.transkribus.eu/

Transkribus

Der Wolpertinger

• Hybrides Wesen aus verschiedenen Tieren

• Mit vielen verschiedenen Fähigkeiten

• wandelbar

TRANSKRIBUS

=

Plattform + Programm

(expert client)

(Webinterface)

Das Programm

•Installieren

•Importieren (Dokumente)

•Transkribieren, Formatieren, Markieren

•Trainieren (automatische Texterkennung HTR)

•Exportieren (Verwertung, Weiternutzung)

1. Installieren

Registrierung und Download auf: https://transkribus.eu/Transkribus/

2. Importieren

Dokumente und Dateien in Transkribus

•Privat (geschützt)

• Lokal

•Remote (Zentralserver, Cloud)

•Uploadmöglichkeiten• HTTP• PDF• FTP• METS Link• Direkt aus Repositorien

2. Importieren

2. Importieren

2. Importieren

• Direkt aus Repositorien/Datenbanken (Archive, Bibthekenusw.)

=> mit nur EINEM KLICK!

• über Goobi Viewer by Intranda

• „Quellen- bzw. Datenshopping“

• Import unterschiedlicher Dokumente aus versch.Repositorien/Datenbanken in die persönliche Transkribus-Collection

• DFG-Viewer

• METS-Format

2. Importieren

Automatisierte Übernahme

3. Transkribieren

•Ziel = wissenschaftliche Transkription

• Zuverlässig, sicher, standardisiert und maschinell lesbar

•Trainingsdaten für die HTR-Software

• 30-50 Seiten (mit ausreichend Text)

Segmentieren

Segmentieren

Transkribieren

Formatieren

Markieren (Tagging)

4. Training

Fertig?

..schreiben Sie uns eine Mail!

Dann führen wir für Sie den Trainingsprozess durch, und Sie können Ihre weiteren Seiten automatisch transkribieren lassen. Sie müssen nur mehr korrigieren und taggen.

HTR-Funktion

HTR = Handwritten Textrecognition

Was tun?

…mit dem automatisch gelesenen Text?

• Fehlerraten ermitteln und vergleichen

• Text korrigieren, formatieren und markieren

• Volltextsuche durchführen

• Dritte zum Transkribieren und Mitarbeiten einladen(Crowdsourcing-Projekte)

Fehlerquote

Fehlerquote

• Character Error Rates:

• > 20% Korrektur dauert gleich lang wie händische Transkription, Personenmit Schwierigkeiten können aber profitieren.

• = 10% Korrektur schneller, erfahrene Personen transkribieren lieber selbst.

• < 10% Korrektur viel schneller, auch geübte LeserInnen ziehen das Korrigieren dem Transkribieren vor.

• Durschnittliche Fehlerquote bei 10% CER

• Unter experimentellen Bedingungen bereits deutlich niedrigere Wertemöglich

Beispiel

Hs 115, fol. 116v, Stadtarchiv Bozen HTR-Output aus den „Bozner Ratsprotokollen“ (1792)

Solle nach dem Vortrag des H:.

Referenten mit Beÿlegung

des von den erwähntnPartheÿn

eingestellten Erklärens dem

löbl. Kreisamt Bericht erstattet,

und der Ausweis über den wird neüer-

lichnNachtrag der rekticfizirten

Kriegssteuer pr179 f 1 XrtnRF

unter einem angeschlossen werden

welches am 19 tnd. M. hatlautkreisämtl.

quittungauch wirklich geschehen ist.

5. Exportieren (Nutzung)

•Durchsuchen

•Exportieren in versch. Formaten

•Vernetzen

•Digitale Editionen erstellen

Volltextsuche

•Suche beschränkt sich auf jene Collections, auf dieSie Zugriff haben

• => alle anderen sind geschützt.

•Facettierte Suche

•Verschiedene Suchoptionen: Tags, Namen, Orte,Unklare Stellen usw.

Volltextsuche

•Durchsuchen

•Exportieren in versch. Formaten

•Vernetzen

•Digitale Editionen erstellen

Volltextsuche

Volltextsuche

ExportierenMögliche Formate:• XML (PAGE)

• METS (Metadata Encoding and Transmission Standard –LoC)

• ALTO (Analyzed Layout and Text Object – LoC)

• DOCX

• TEI (Text Encoding Initiative)

• PDF

• Excel

•…

Vernetzen

Teilen Sie Ihre Dokumente

mit Ihren KollegInnen, Arbeitsgruppen, Studierenden und freiwilligen MitarbeiterInnen…

Vernetzen

Digitale Editionen

Digitale Editionen

Jane Austen‘s Fiction Manuscripts

Korrespondenz A. W. Schlegel

Workflow – Dokumente für HTR vorbereiten

Transkribus-

Account

anlegen

Transkribus

herunterladen

Betreffende Dokumente in

Collection hochladen

Mind. 30 Seiten “ground

truth” Trainings-daten:

1. Segmentieren

2. Transkribieren

Das Transkribus-Team

ein HTR-Modell für die

eigenen Daten erstellen

lassen

Mit diesem Modell die

restlichen Seiten des

Dokuments

transkribieren lassen

HTR-Ergebnisse

korrigieren

Transkriptionen

exportieren (PDF, XML,

TEI, RTF etc.)

Praxisbeispiel

Crowdsourcingprojekt “Bozner Ratsprotokolletranskribiert“

•Zusammenarbeit mit dem Stadtarchiv Bozen (Bohisto)

•Freiwillige bearbeiten über Transkribus die Ratsprotokolle

• Training der HTR (READ)

•Digitale Datenbank im Sinne der Escher-Edition (Bohisto)

Coming soon…

•Table editor (Tabellen und Verzeichnisse)

•eLearning Interface

•Web-interface zur einfachen Transkription(crowd-sourcing)

•Text2Image matching tool

•ScanApp

Table Editor

eLearning Interface

Individuelles Übungs-/Lernmaterial

Selbstevaluierung durch Fehlerzählung (Statistik)

Web-Interface

Leicht zu bedienen, über eine Website zugänglich

Besonders geeignet für Crowdsourcing-Projekte

Line-by-line Transkription

Txt2img Tool

“Text to Image”-Tool:

Vorhandene Transkriptionen/Editionen(Print/digital) • für Training nutzen• in das Programm aufnehmen, mit Scan

verbinden und weiter bearbeiten.

ScanApp

Scannen/fotografieren viaSmartphone oder Tablet

Bilder gehen direkt in dieprivate Collection

Archive profitieren

Interesse…?

•Transkribus und alle weiteren Services sindkostenlos (Open Source/Access)

•Wir unterstützen Sie gerne bei der Erstellung von Testprojekten

•Und mit einem “Memorandum of Understanding” sind Sie mit im Boot.

•Kontaktieren Sie uns einfach!

Credits

Hubert Alisade Hilde Boe Laurant Bolli Max Bryan Elaine CharwatVincent Christlein Sebastian Colutto Hervé Déjean BarbaraDenicolo Markus Diem Felix Dietrich Reko Etelävuori Stefan FielBasilis Gatos Beat Gnädinger Tobias Grüning Vili HaukkovaaraGerhard Heyer Tobias Hodel Frederic Kaplan Maria Kallio IstvanKecskemeti Florian Kleber Roger Labahn Eva Lang Sören LaubeGundram Leifert Georgios Louloudis Philip Kahle Rory McNichollJean-Luc Meunier Johannes Michael Hannes Obermair MoisesPastor Nathanael Philipp Hannelore Putz George Retsinas VeronicaRomero Joan Andreu Sanchez Robert Sablatnig Christian SieberGiorgos Sfikas Philip Schofield Louise Seaward NikolaosStamatopolous Tobias Strauss Melissa Terras Alejandro HectorToselli Enrique Vidal Mauricio Villegas Max Weidemann WelfWustlich Herbert Wurster and many, many more!

Vielen Dank für Ihre Aufmerksamkeit!

•Für weitere Informationen

• http://read.transkribus.eu/

• http://transkribus.eu/

• http://transkribus.eu/wiki/

This project has received funding from the European Union’sHorizon 2020 research and innovation programme undergrant agreement No 674943.