DFG Expertenworkshop - Workflow Volltextgenerierung über OCR
OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität...
Transcript of OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität...
OCR Volltexte als Forschungsdaten:
Standards und Interoperabilität
Dr. Alexander Geyken
Deutsches Textarchiv und Digitales Wörterbuch
www.deutschestextarchiv.de , www.dwds.de
Berlin-Brandenburgische Akademie der Wissenschaften
Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“,
Bonn, 13.3.2014
Gliederung
1. OCR, Standardisierung und Interoperabilität
2. Nachnutzung in CLARIN
3. Von OCR nach TEI: Erfahrungen aus dem „Grenzboten“
a. Textkorrektur
b. Strukturkorrektur
c. Annotation (Normalisierung; Eigennamen; Zitate)
2
1. OCR, Standardisierung und Interoperabilität
OCR: METS/ALTO -> TEI
XML/TEI-P5 mittlerweile weitverbreitet, aber:
TEI-P5 (all) unterspezifiziert; Notwendigkeit der Schaffung eines für viele Projekte kompatiblen interoperablen Basisformats
Auszug aus dem DTA-Basisformat
1. OCR, Standardisierung und Interoperabilität
Definition einer geeigneten Untermenge von TEI-P5 für die Strukturierung von historischen gedruckten Texten
Ziel: Interoperabilität (Unsworth 2011) gewährleisten
• establish high quality transcription of the text
• provide high quality metadata
• focus on non-controversial aspects of the text, thus providing unambiguous solutions for text annotation
4
1. OCR, Standardisierung und Interoperabilität
DTA-Basisformat (DTABf):
enthält vier Kategorien von Elementen (ca. 80 Elemente)
1. Obligatorisch: div, pb, formula, note, castList …
2. Empfohlen: hi, salute, dateline (beides für Briefe), choice(bei Normalisierungen) ...
3. Zulässig: persName, s (satzende), w (wort) …
4. Unzulässig: div1, div2, stattdessen div
1. OCR, Standardisierung und Interoperabilität
Ausführliche Dokumentation mit Fallbeispielen auf der Grundlage des „DTA-Referenzkorpus“
Auszug aus dem DTA-Basisformat
http://www.deutschestextarchiv.de/doku/basisformat
http://www.deutschestextarchiv.de/doku/basisformat-kompakt
C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de
ODD und Schema
ODD
Dokumentation
RelaxNG-Schema
„Best Practices“
• BBAW Neue Rheinische Zeitung, Berliner Klassik, A. v. Humboldt
(Unselbständige Schriften), Magazin zur Erfahrungsseelenkunde alle gemäß TEI-DTAB
• Andere Akademien Leichenpredigten (Mainz): ca. 20.000 Seiten
Blumenbach (Göttingen): 100 Monographien + ca. 700 Aufsätze
• DFG-Projekte Dinglers Polytechnisches Journal (HU Berlin): 250.000 Seiten
Sandrart (Uni Frankfurt): ~7 Mill. Tokens
Die Grenzboten (170.000 Seiten)
Insgesamt: 15 Textkorpora
Entwicklung des DTA-Basisformats
2007: Beginn der Entwicklung des DTA-Basisformats (DTABf)
2012: CLARIN-D: DTABf wird „Best Practice-Format“ für historische Texte (Benutzerhandbuch, http://de.clarin.eu/de/)
2013: IDS und BBAW sind Koordinator für die Erstellung der Richtlinien für geschriebene Korpora (Rundgespräch des Fachkollegiums 104, Sprachwissenschaft, Nov. 2013)
2014: DTA Partner im Projekt „TEI Simple“ des TEI Consortiums (u.a. Sebastian Rahtz, Martin Mueller, Pytlig-Zillig)
9
Gliederung
1. OCR, Standardisierung und Interoperabilität
2. Nachnutzung in CLARIN
3. Von OCR nach TEI: Erfahrungen aus dem „Grenzboten“
a. Textkorrektur
b. Strukturkorrektur
c. Annotation (Normalisierung; Eigennamen; Zitate)
10
C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de
Das Deutsche Textarchiv: Projektziele
• Servicezentren (Repositorien; verteilte Architektur; PIDs, OAI-PMH)
• Bündelung der Metadaten
• Data Mining mit IT-Werkzeugen: WebLicht (Verarbeitungskette)
• 9 Facharbeitsgruppen (Historiker, Politikwiss., Germanistik…)
• Standards (TEI) und „Best Practices“
DTABf und WebLicht
• Texte in interoperablen DTABf automatisch konvertierbar in Input-Format von WebLicht
• WebLicht: ca. 60 Services, die zu Prozessketten zusammengeschaltet werden können
– Linguistische Annotation (Lemmatisierung, POS, Syntax; Eigennamen);
– Text-Mining Werkzeuge; Statistiken, Geo-Lokalisierer …
Gliederung
1. OCR und Standardisierung
2. Interoperabilität und Nachnutzung (CLARIN)
3. Ein Plädoyer für OCR Nachkorrektur von Texten des 19. Jh.: Erfahrungen aus dem „Grenzboten“
a. Textkorrektur
b. Strukturkorrektur
c. Annotation (Normalisierung; Eigennamen; Zitate)
13
Erfahrungen aus dem Grenzboten
• Beispiel: DFG-Projekt Grenzbote
– Nationalliberale Zeitschrift (1841-1922)
– 270 Bände, 187 000 Seiten, ca. 450 Mill. Zeichen
– Phase 1: 2011-2013 Digitalisierung
– Phase 2: Seit 08/2013 Text- und Strukturkorrektur
Partner: Univ. Bremen; DTA (für Phase 2)
• Zwei Ebenen der Qualitätskontrolle:
– Textkorrektur (SuUB-Bremen) (von 98%99,5%)
– Strukturkorrektur (BBAW)
– Korrekturen erfolgen parallel (Unifizierung erfolgt über die Koordinaten des Images
www.deutschestextarchiv.de/files/ error-hl_nn_charaktere01_1848.html
Basis der Evaluierung: • 20 Textseiten • ca. 59700 Zeichen • 663 fehlerhafte Stellen = ca. 98.89 % korrekte
Erkennungsrate ⌀ 33,15 Fehler pro
Textseite
Korrektheit OCR: 98,89 %
ABBYY-OCR-Zonen (<block/>-Tags)
Probleme:
• Überschrift
• Schmuckinitiale
• Falsche Grenzen
• Fußnotenerkennung
Lösungen (automatische Erkennung + manuelle Nachkorrektur):
• Überschrift (d1)
• Absatzgrenzen (p)
• Schmuckinitiale
• Markup semantischer Funktionen von Zonen (pb, column title, initial vs. figure, footnote)
<p>…</p>
<p>…</p>
<p>…</p>
<p>…</p>
Zonenkorrektur(DTA)
http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/179570
Weitere Beispiele aus dem Grenzboten
FineReader-Ausgabe
(rot = falsche Zonen)
Ergebnis nach manuellem Zoning
Etiketten = semantische Zuordnung
Probleme der Zuordnung Sprecher/Bühnenanweisung
http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/111648
http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/179469
http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/179580
http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/179447
http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/179570
Aufwandsabschätzung
• Script mit Fuzzy-rules + handgeschriebenen Regeln
– Aufwand: 4 Wochen
– Seitenzahlen, Fußnoten, Überschriften
• Nachbearbeitung (manuelles Zonen)
– Erstkorrektur: 90 Min. pro Band
– Zweitkorrektur 30 Minuten
– Gesamt (270 Bände, 170000 Seiten): 540 Std.
• Konvertierung in DTABf
• Crowdsourcing: verteilte Korrekturumgebung DTAQ sowie Wikisource
DTAQ: Kollaborative Qualitätssicherung
• Webbasiert
• Nutzerbeteiligung:
– Fehler melden
– Textkorrekturen
– Strukturkorrekturen (xml)
• Versionierung (GIT)
• 400 Nutzer, 50.000 korrigierte Fehler
www.deutschestextarchiv.de/dtaq/
24
DTAQ: Text in Leseansicht
4/8/2014
DTAQ : Text in XML/TEI
4/8/2014
DTAQ: linguistische Ansicht (CAB)
4/8/2014
Weiß: es existiert synchrone Form, grün: Ausnahmelexikon, blau: historische
Form mit Regel; violett: unsicher; rot=Eigenname
http://www.deutschestextarchiv.de/doku/software#cab
Desiderata
1. OCR Volltext als Forschungsdaten: Text- & Strukturkorrektur
2. Strukturen müssen auf interoperablen Standards basieren (TEI subset, Serialisierung)!
3. 19. Jh. ist nicht gelöst für OCR, bitte einbeziehen
4. OCR Vergleich auf Basis von ~ground truth Daten (DTA/HAB?/BSB?...) Zu lösen: Alignment OCR mit
TEI, Masterimages von den Bibliotheken oder jpg?
5. orthographieüber-greifende Abfrage OCR anders als Trans-
kripte (z.B. n/u, s/f…)
Lexika, angepasst an Textsorte, Region, Zeit
N grams vs. schreibweisentolerante Suche
Hol(t)zweg im DTA (Erstbeleg 1602)
29
Hol(t)zweg ngram (Erstbeleg 1760, nachgeschlagen am
12.3.14)
N grams vs. schreibweisentolerante Suche
30
Hol(t)zweg im DTA (Erstbeleg 1602)
Hol(t)zweg ngram (Erstbeleg 1760, nachgeschlagen am
12.3.14)
Desiderata
1. OCR Volltext als Forschungsdaten: Text- & Strukturkorrektur
2. Strukturen müssen auf interoperablen Standards basieren (TEI subset, Serialisierung)!
3. OCR Vergleich auf Basis von ~ground truth Daten der DTA-Texte
4. 19. Jh. ist nicht gelöst für OCR, bitte einbeziehen
5. OCR Vergleich auf Basis von ~ground truth Daten (DTA/HAB/BSB?...) Zu lösen: Alignment OCR mit
TEI, Masterimages von den Bibliotheken;
6. Orthographieüber-greifende Abfrage OCR anders als Trans-
kripte (z.B. n/u, s/f…)
Lexika, angepasst an Textsorte, Region, Zeit