Automatische Texterkennung (OCR) und …...2011/01/20  · – BSB, Göttingen: TEI Format für OCR...

Post on 10-Aug-2020

4 views 0 download

Transcript of Automatische Texterkennung (OCR) und …...2011/01/20  · – BSB, Göttingen: TEI Format für OCR...

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Automatische Texterkennung (OCR) und

Langzeitarchivierung

Günter Mühlberger

Abteilung für Digitalisierung und

elektronische Archivierung

Universitäts- und Landesbibliothek Tirol

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Agenda

Grundsätzliches zur Texterkennung

Kollaborative Korrektur als spezielles Problem

OCR und Langzeitarchivierung

ALTO Format

Abschließende Bemerkungen

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR und Digitalisierung

OCR ändert alles!

Workflow muss an allen Ecken und Enden angepasst werden

– Vorbereitung

– Imagebearbeitung

– Scannen

– Qualitätskontrolle

– Speicherung und Archivierung

– Korrektur

– Volltextsuche

– Webinterfaces

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Warum OCR?

Volltextsuche

– Paradigmenwechsel im Vergleich zu Metadatensuche

– Unbeliebt in Bibliotheken - Beliebt bei Benutzern

– Unübersichtlichkeit der Suchergebnisse bei großen Mengen: z.B. Google Book Search

– Volltext als Grundlage für Facettierung

Korrektur – Edition

– Unbeliebt bei Digitalisierungsmanagern “Fass ohne Boden” - Beliebt bei

Geisteswissenschaftlern, die sich Abtippen nicht leisten können

Website

– Display des Volltextes: Cut & Paste, Exportfunktionen (Reports)

– Benutzertraining “Achtung, es handelt sich um fehlerhaften Text!”

– Indexierung durch Google “Site Map”

date footertext 4

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Warum OCR?

Kollaborative Korrektur

– Fehlerhafter Text löst Zwangshandlung aus – Korrektur!

– Einfach zu realisieren: Z.b. Kärtchenkatalog, Australische Nationalbibliothek,..

– Neue Technologien: CONCERT Tool von IBM, Post-Correction Tool von LMU

– Beitrag durch Nutzer und Stärkung der Nutzerbindung

Strukturanalyse

– Automatische Erkennung von Seitenzahlen, Kolumnentitel, Inhaltsverzeichnissen,

Fußnoten, Überschriften, Zeitungsartikeln, Lexikonartikeln, etc.

Text Mining und semantisches Parsen

– Eigentliche Zukunft digitaler Bibliotheken

– Term, named entities extraction: semantische Indexierung statt “Keyword-Indexierung”

– Deep semantic Parsing

– Maschinelle Übersetzung

5

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Wie gut muss OCR sein?

Wortgenauigkeit vs. Zeichengenauigkeit

– Moderne Texte des 20. Jahrhunderts: Jenseits von 90% Wortgenauigkeit

– Ältere Texte des 19. Jahrhunderts: zwischen 70 und 80%

Das menschliche Auge ist der schärfste Richter!

– Ein Fehler auf 10 Seiten in einer wissenschaftlichen Monographie führt zur Bewertung: “schlampig”. Automatische Erkennung kann dies niemals erreichen

– Manuelle Korrektur eines Textes zu einer 99,999% Genauigkeit: Hier wird hoheGenauigkeit durch OCR benötigt

Maschinen sind geduldiger!

– Volltextsuche, Indexierung durch Google, kollaborative Korrektur, Display, automatische Strukturerkennung, morphologische und semantische Analyse: Wortgenauigkeiten ab 70% und sogar darunter sind ausreichend um sinnvolleErgebnisse zu erreichen!

Schluss: OCR ist eine sine qua non Bedingung moderner Textdigitalisierung und somit auch ein Problem der Langzeitarchivierung

6

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Wie funktioniert OCR?

7

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Output von OCR

TXT

– Schlank, sauber, klein – aber keine Koordinaten

PDF

– Text über dem Bild / Text unter dem Bild / PDF/A

– Praktisch, von Benutzern geliebt, aber für das Web nur bedingt geeignet

– Benötigt wesentlich mehr Speicherplatz, da auch die Images enthalten sind

DOC

– Mit und ohne markierte unsichere Zeichen, diverse Darstellungen

– Guter Ausgangspunkt für Korrektur

XML

– Für maschinelle Weiterverarbeitung gedacht (nicht in Desktopversion enthalten)

– Image – XML (V1 von FineReader, inzwischen V2)

– Benötigt relativ hohen Speicherplatz, da hohe Redundanz8

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Kollaborative Korrektur

Bis vor kurzem als völlig absurd zurückgewiesen worden, aber:

– Crowd sourcing

– Neue Technologien

Crowd sourcing

– Zahlen aus Australien: 450.000 korrigierte Zeilen durch ehrenamtliche

Mitarbeiter z.B. für Monat Dezember 2008 (= ca. 400-1000

Zeitungsseiten)

– Insg. in ca. 2 Jahren um 200.000 EUR Korrekturarbeiten

Neue Technologien

– IBM: CONCERT Tool, LMU: PostCorrection Tool

– Erhöhung der Produktivität um mehrfachen Faktor

9

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Kollaborative Korrektur im Life-Cycle

Grundsätzliches Problem

– Image und Text mittels Koordinaten aufeinander beziehen und trotz aller Korrekturen

diese Verbindung beibehalten

– Ist nicht notwendig, wenn der korrigierte Text das Image völlig ersetzt, bei

massenhafter Korrektur jedoch ist diese Situation nie gegeben

– Einzelne Wörter oder Zeichen werden dem Benutzer vorgelegt zur Korrektur oder zum

Abnicken

Selektive Korrektur

– Innerhalb eines Buches sind unterschiedliche Qualitätsstufen anzutreffen

– Einige Passagen komplett korrigiert, einige Passagen ev. nur “manuell gesichtet”,

einige Teile überhaupt nicht korrigiert (z.B. Fußnoten, etc.)

LZA

– Dieser Prozess kann über Jahre gehen – ist natürlich auch für die LZA eine

Herausforderung die Verbindung mit den Masterfiles beizubehalten10

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

OCR und LZA

Grundsätzliches

– OCR kann wiederholt werden, Qualität hat sich in den letzen 10 Jahren deutlich

verbessert – aber doch ein beträchtlicher Aufwand damit verbunden

– OCR Daten sollten als Masterfiles betrachtet werden

Wie handhaben es diverse Bibliotheken?

– BSB: Google Output Format (= HTML Tesseract/Ocropus) – ca. 300 Mill. Files

– BSB, Göttingen: TEI Format für OCR und korrigierte Texte

Einige Millionen Files

Relativ einfaches Format, Wortkoordinaten, Sprache, etc.

– Innsbruck

FineReader XML in Verbindung mit METS

– International

LoC, British Library, Nationalbibliotheken von Norwegen, Finnland,...: ALTO in Verbindung mit

METS (Implementierung durch docWORKS, CCS Gmbh)

11

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

ALTO Format

METADATA ENGINE Projekt (2000-2003)

– Notwendigkeit “etwas” mit dem OCR Output zu tun

– 2002 METS Format offiziell beschlossen worden – Layout Daten sollten darin (zu

Recht) nicht enthalten sein

– Idee ein layoutzentriertes Format zu machen

– Entstanden bevor XML Format von ABBYY bzw. Nuance (OmniPage) unterstützt wurde

CCS Gmbh

– Durchsetzung des Formats und Etablierung als LoC “Standard” ist der Lobbying-Arbeit

von CCS zu verdanken

– docWORKS liefert nativen METS/ALTO Output – Alleinstellungsmerkmal

Library of Congress

– ALTO Board

– Seit August 2009 offiziell bei LoC

– ... 12

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Was kann ALTO?

Features (Auswahl)

– Image

Größe in pixel, Inch, etc.

– Blöcke und “Strings”

Koordinaten auf der Seite, für Textblöcke auch Polygonzüge

Textblock, Graphikblock, Composed blocks (z.B. Text in Graphik)

Koordinaten von “Strings” und Alternativen (z.B. aus Wörterbuch)

– Styles

Definiert Eigenschaften von Textblöcken

Ausrichtung des Textes (links, rechts, Blocksatz, Einzug,...)

Schriftsatz, Schriftgröße, Zeilenabstand,...

– Layout

Satzspiegel, Ränder, Seitentyp (Titelseite,..)

– Quality

Daten zum Ausgangsmaterial, Erkennungssicherheit auf Wortebene

13

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

ALTO kritsch betrachtet

Probleme

– Standardisierung hat zu früh stattgefunden

– Inkonsistent, veraltet, umständlich, fehlende Features,...

– Sollte strukturelle Daten in METS belassen, aber tatsächlich sind Satzspiegel, Seitenzahl, etc. enthalten

– Suspicious flag, Wörterbuchnachweis, Koordinaten auf Zeichenebene, etc. fehlen

Arbeitsgruppe IMPACT

– Vor über einem Jahr entstanden, um diverse Änderungen in ALTO anzuregen

Auf dem Weg zum Industriestandard

– Seit ABBYY SDK 10 Second Release (Jänner 2011) unterstützt ABBYY ALTO!

– Wesentlicher Fortschritt: Bibliotheken können von ihren Dienstleistern direkt ALTO Files verlangen, ohne dass damit ein höherer Aufwand oder der Umweg über eine spezielleSoftware notwendig wäre

– Sollte zur Verbreitung des Standards beitragen

date footertext 14

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Was tun?

Unbedingt die reichen Informationen, wie sie im OCR Prozess entstehen, aufbehalten

– Das eigentliche Format ist zweitrangig, notwendig sind jedoch die wichtigstenInformationen: Blöcke, Blocktyp, Wortkoordinaten, etc.

– Auch an Multiformat Output führt kein Weg vorbei: TXT, PDF, XML alsMinimumvariante

ALTO Format oder natives XML von ABBYY?

– Aus technischer Sicht nicht entschieden, aus internationaler Sicht eher zugunsten von ALTO, aus deutscher Sicht ist die Situation wieder anders

Deutsche Digitale Bibliothek

– Muss sich diesem Problem zweifellos stellen

– Entscheidung wird sicherlich einigen Einfluss auf die Verbreitung von ALTO haben

Kompromiss

– ALTO verwenden, aber gleichzeitig Druck auf ALTO Board ausüben, um es ernsthaft zuverbessern

date footertext 15

IMPACT is supported by the European Community under the FP7 ICT Work Programme. The project is coordinated by the National Library of the Netherlands.

Vielen Dank für Ihre Aufmerksamkeit!

Günter Mühlberger

– Abteilung für Digitalisierung und elektronische Archivierung

– guenter.muehlberger@uibk.ac.at

16