OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität...

30
OCR Volltexte als Forschungsdaten: Standards und Interoperabilität Dr. Alexander Geyken Deutsches Textarchiv und Digitales Wörterbuch www.deutschestextarchiv.de , www.dwds.de Berlin-Brandenburgische Akademie der Wissenschaften Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“, Bonn, 13.3.2014

Transcript of OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität...

Page 1: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

OCR Volltexte als Forschungsdaten:

Standards und Interoperabilität

Dr. Alexander Geyken

Deutsches Textarchiv und Digitales Wörterbuch

www.deutschestextarchiv.de , www.dwds.de

Berlin-Brandenburgische Akademie der Wissenschaften

Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“,

Bonn, 13.3.2014

Page 2: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Gliederung

1. OCR, Standardisierung und Interoperabilität

2. Nachnutzung in CLARIN

3. Von OCR nach TEI: Erfahrungen aus dem „Grenzboten“

a. Textkorrektur

b. Strukturkorrektur

c. Annotation (Normalisierung; Eigennamen; Zitate)

2

Page 3: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

1. OCR, Standardisierung und Interoperabilität

OCR: METS/ALTO -> TEI

XML/TEI-P5 mittlerweile weitverbreitet, aber:

TEI-P5 (all) unterspezifiziert; Notwendigkeit der Schaffung eines für viele Projekte kompatiblen interoperablen Basisformats

Auszug aus dem DTA-Basisformat

Page 4: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

1. OCR, Standardisierung und Interoperabilität

Definition einer geeigneten Untermenge von TEI-P5 für die Strukturierung von historischen gedruckten Texten

Ziel: Interoperabilität (Unsworth 2011) gewährleisten

• establish high quality transcription of the text

• provide high quality metadata

• focus on non-controversial aspects of the text, thus providing unambiguous solutions for text annotation

4

Page 5: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

1. OCR, Standardisierung und Interoperabilität

DTA-Basisformat (DTABf):

enthält vier Kategorien von Elementen (ca. 80 Elemente)

1. Obligatorisch: div, pb, formula, note, castList …

2. Empfohlen: hi, salute, dateline (beides für Briefe), choice(bei Normalisierungen) ...

3. Zulässig: persName, s (satzende), w (wort) …

4. Unzulässig: div1, div2, stattdessen div

Page 6: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

1. OCR, Standardisierung und Interoperabilität

Ausführliche Dokumentation mit Fallbeispielen auf der Grundlage des „DTA-Referenzkorpus“

Auszug aus dem DTA-Basisformat

http://www.deutschestextarchiv.de/doku/basisformat

http://www.deutschestextarchiv.de/doku/basisformat-kompakt

Page 7: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de

ODD und Schema

ODD

Dokumentation

RelaxNG-Schema

Page 8: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

„Best Practices“

• BBAW Neue Rheinische Zeitung, Berliner Klassik, A. v. Humboldt

(Unselbständige Schriften), Magazin zur Erfahrungsseelenkunde alle gemäß TEI-DTAB

• Andere Akademien Leichenpredigten (Mainz): ca. 20.000 Seiten

Blumenbach (Göttingen): 100 Monographien + ca. 700 Aufsätze

• DFG-Projekte Dinglers Polytechnisches Journal (HU Berlin): 250.000 Seiten

Sandrart (Uni Frankfurt): ~7 Mill. Tokens

Die Grenzboten (170.000 Seiten)

Insgesamt: 15 Textkorpora

Page 9: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Entwicklung des DTA-Basisformats

2007: Beginn der Entwicklung des DTA-Basisformats (DTABf)

2012: CLARIN-D: DTABf wird „Best Practice-Format“ für historische Texte (Benutzerhandbuch, http://de.clarin.eu/de/)

2013: IDS und BBAW sind Koordinator für die Erstellung der Richtlinien für geschriebene Korpora (Rundgespräch des Fachkollegiums 104, Sprachwissenschaft, Nov. 2013)

2014: DTA Partner im Projekt „TEI Simple“ des TEI Consortiums (u.a. Sebastian Rahtz, Martin Mueller, Pytlig-Zillig)

9

Page 10: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Gliederung

1. OCR, Standardisierung und Interoperabilität

2. Nachnutzung in CLARIN

3. Von OCR nach TEI: Erfahrungen aus dem „Grenzboten“

a. Textkorrektur

b. Strukturkorrektur

c. Annotation (Normalisierung; Eigennamen; Zitate)

10

Page 11: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

C. Thomas: Optimierung und Nutzung des "Grenzboten" mit Werkzeugen des DTA www.bbaw.de, thomas @bbaw.de

Das Deutsche Textarchiv: Projektziele

• Servicezentren (Repositorien; verteilte Architektur; PIDs, OAI-PMH)

• Bündelung der Metadaten

• Data Mining mit IT-Werkzeugen: WebLicht (Verarbeitungskette)

• 9 Facharbeitsgruppen (Historiker, Politikwiss., Germanistik…)

• Standards (TEI) und „Best Practices“

Page 12: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

DTABf und WebLicht

• Texte in interoperablen DTABf automatisch konvertierbar in Input-Format von WebLicht

• WebLicht: ca. 60 Services, die zu Prozessketten zusammengeschaltet werden können

– Linguistische Annotation (Lemmatisierung, POS, Syntax; Eigennamen);

– Text-Mining Werkzeuge; Statistiken, Geo-Lokalisierer …

Page 13: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Gliederung

1. OCR und Standardisierung

2. Interoperabilität und Nachnutzung (CLARIN)

3. Ein Plädoyer für OCR Nachkorrektur von Texten des 19. Jh.: Erfahrungen aus dem „Grenzboten“

a. Textkorrektur

b. Strukturkorrektur

c. Annotation (Normalisierung; Eigennamen; Zitate)

13

Page 14: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Erfahrungen aus dem Grenzboten

• Beispiel: DFG-Projekt Grenzbote

– Nationalliberale Zeitschrift (1841-1922)

– 270 Bände, 187 000 Seiten, ca. 450 Mill. Zeichen

– Phase 1: 2011-2013 Digitalisierung

– Phase 2: Seit 08/2013 Text- und Strukturkorrektur

Partner: Univ. Bremen; DTA (für Phase 2)

• Zwei Ebenen der Qualitätskontrolle:

– Textkorrektur (SuUB-Bremen) (von 98%99,5%)

– Strukturkorrektur (BBAW)

– Korrekturen erfolgen parallel (Unifizierung erfolgt über die Koordinaten des Images

Page 15: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

www.deutschestextarchiv.de/files/ error-hl_nn_charaktere01_1848.html

Basis der Evaluierung: • 20 Textseiten • ca. 59700 Zeichen • 663 fehlerhafte Stellen = ca. 98.89 % korrekte

Erkennungsrate ⌀ 33,15 Fehler pro

Textseite

Korrektheit OCR: 98,89 %

Page 16: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

ABBYY-OCR-Zonen (<block/>-Tags)

Probleme:

• Überschrift

• Schmuckinitiale

• Falsche Grenzen

• Fußnotenerkennung

Page 17: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Lösungen (automatische Erkennung + manuelle Nachkorrektur):

• Überschrift (d1)

• Absatzgrenzen (p)

• Schmuckinitiale

• Markup semantischer Funktionen von Zonen (pb, column title, initial vs. figure, footnote)

<p>…</p>

<p>…</p>

<p>…</p>

<p>…</p>

Zonenkorrektur(DTA)

Page 18: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

http://brema.suub.uni-bremen.de/grenzboten/periodical/pageview/179570

Weitere Beispiele aus dem Grenzboten

FineReader-Ausgabe

(rot = falsche Zonen)

Ergebnis nach manuellem Zoning

Etiketten = semantische Zuordnung

Probleme der Zuordnung Sprecher/Bühnenanweisung

Page 22: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Aufwandsabschätzung

• Script mit Fuzzy-rules + handgeschriebenen Regeln

– Aufwand: 4 Wochen

– Seitenzahlen, Fußnoten, Überschriften

• Nachbearbeitung (manuelles Zonen)

– Erstkorrektur: 90 Min. pro Band

– Zweitkorrektur 30 Minuten

– Gesamt (270 Bände, 170000 Seiten): 540 Std.

• Konvertierung in DTABf

• Crowdsourcing: verteilte Korrekturumgebung DTAQ sowie Wikisource

Page 23: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

DTAQ: Kollaborative Qualitätssicherung

• Webbasiert

• Nutzerbeteiligung:

– Fehler melden

– Textkorrekturen

– Strukturkorrekturen (xml)

• Versionierung (GIT)

• 400 Nutzer, 50.000 korrigierte Fehler

www.deutschestextarchiv.de/dtaq/

24

Page 24: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

DTAQ: Text in Leseansicht

4/8/2014

Page 25: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

DTAQ : Text in XML/TEI

4/8/2014

Page 26: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

DTAQ: linguistische Ansicht (CAB)

4/8/2014

Weiß: es existiert synchrone Form, grün: Ausnahmelexikon, blau: historische

Form mit Regel; violett: unsicher; rot=Eigenname

http://www.deutschestextarchiv.de/doku/software#cab

Page 27: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Desiderata

1. OCR Volltext als Forschungsdaten: Text- & Strukturkorrektur

2. Strukturen müssen auf interoperablen Standards basieren (TEI subset, Serialisierung)!

3. 19. Jh. ist nicht gelöst für OCR, bitte einbeziehen

4. OCR Vergleich auf Basis von ~ground truth Daten (DTA/HAB?/BSB?...) Zu lösen: Alignment OCR mit

TEI, Masterimages von den Bibliotheken oder jpg?

5. orthographieüber-greifende Abfrage OCR anders als Trans-

kripte (z.B. n/u, s/f…)

Lexika, angepasst an Textsorte, Region, Zeit

Page 28: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

N grams vs. schreibweisentolerante Suche

Hol(t)zweg im DTA (Erstbeleg 1602)

29

Hol(t)zweg ngram (Erstbeleg 1760, nachgeschlagen am

12.3.14)

Page 29: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

N grams vs. schreibweisentolerante Suche

30

Hol(t)zweg im DTA (Erstbeleg 1602)

Hol(t)zweg ngram (Erstbeleg 1760, nachgeschlagen am

12.3.14)

Page 30: OCR Volltexte als Forschungsdaten: Standards und ...1. OCR, Standardisierung und Interoperabilität OCR: METS/ALTO -> TEI XML/TEI-P5 mittlerweile weitverbreitet, aber: TEI-P5 (all)

Desiderata

1. OCR Volltext als Forschungsdaten: Text- & Strukturkorrektur

2. Strukturen müssen auf interoperablen Standards basieren (TEI subset, Serialisierung)!

3. OCR Vergleich auf Basis von ~ground truth Daten der DTA-Texte

4. 19. Jh. ist nicht gelöst für OCR, bitte einbeziehen

5. OCR Vergleich auf Basis von ~ground truth Daten (DTA/HAB/BSB?...) Zu lösen: Alignment OCR mit

TEI, Masterimages von den Bibliotheken;

6. Orthographieüber-greifende Abfrage OCR anders als Trans-

kripte (z.B. n/u, s/f…)

Lexika, angepasst an Textsorte, Region, Zeit