DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Post on 11-May-2015

527 views 1 download

description

In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise kontinuierlich, sei es bei Dienstleistern oder beim Aufsetzen einer eigenen OCR-Render-Farm. Die flächendeckende Bereitstellung von OCR-Volltexten scheint demnach zum Greifen nahe – der Durchbruch lässt jedoch aus Sicht der NutzerInnen weiter auf sich warten. Einer der Hauptgründe dafür liegt in der komplizierten Orchestrierung der OCR-Workflows. Wirft man einen Blick auf die Details, so zerfasert der vermeintlich übersichtliche Dreiklang aus Digitalisierung, OCR und Indexierung/Bereitstellung schnell in 10 oder auch 20 Einzelschritte mit komplexen Abhängigkeiten. Selbst wenn diese Herausforderungen gemeistert wurden, stehen die nächsten Aufgaben an: Prozesse für die kontinuierliche Verbesserung der Volltexte (auch durch NutzerInnen/Croudsourcing) sowie Rückkanäle für veredelte Volltexte – etwa durch Normdatenauszeichnung – in die Repositorien sind weitestgehend Neuland. Der Impulsvortrag wird das Problembewusstsein dafür zu schärfen, dass die OCR-Erkennungsqualität an sich zwar ein hochrelevanter Aspekt ist - im Orchester der Operationalisierung durch die Institutionen und Projekte aber nur als einer von vielen zu begreifen ist. Wenn das Projekt einer nationalen Volltext-Initiative gelingen soll, muss die gesamte Prozesskette Beachtung finden.

Transcript of DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“

Workflow Volltextgenerierung über OCR

Ralf Stockmann

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 2

Digitalisierung OCR Bereitstellung

Oberflächliche Sicht eines OCR-Workflows

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 3

Digitalisierung OCR Bereitstellung

Fehlende Workflowschritte an den Schnittstellen

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 4

Digitalisierung OCR Bereitstellung

Fehlende Workflowschritte gewichtet nach Aufwand

Vorbereitung für OCR

12.04.2023 | S. 5

Welche Sprache hat das Dokument?

Welche Schrift (Fraktur / Antiqua)?

Datumabweichende Schreibweisen / Historische Lexika

Region

unverlässliche Daten hierzu im OPAC...?

Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich

12.04.2023 | S. 6

Jahre

Sca

ns

pro

Tag

Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren

12.04.2023 | S. 7

Jahre

Sca

ns

pro

Tag

OCR

12.04.2023 | S. 8

Tagesaktuelle OCR für Strukturdatenerfassung

12.04.2023 | S. 9

Tagesaktuelle OCR für Strukturdatenerfassung

Das Problem ist nicht nur die Tagesproduktion...

12.04.2023 | S. 10

Jahre

Sca

ns

pro

Tag

OCR

12.04.2023 | S. 11

Jahre

Sca

ns

pro

Tag

OCR

Arc

hiv

alle

r bis

heri

gen

Sca

ns

...sondern unser bestehender Berg der letzten 12 Jahre

Massen-OCR

Beispiel: Staatsbibliothek zu Berlin

Ca. 15 Mio. Images vorliegend

OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)

Ca. 3.472 Tage oder 9,5 Jahre

Ziel: 5 Tage also ca. Faktor 700

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 12

Paketierung – Sammlung von Images

12.04.2023 | S. 13

Scans

Paketierung – Verteilung auf OCR-Cluster

12.04.2023 | S. 14

Scans

CPU CPU CPURenderfarm

Paketierung – Zusammenführung der Ergebnisse

12.04.2023 | S. 15

Scans

CPU CPU CPURenderfarm

Ergebnis

Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall?

12.04.2023 | S. 16

Scans

CPU CPU CPURenderfarm

Ergebnis

Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server

12.04.2023 | S. 17

Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management

12.04.2023 | S. 18

Datenformate – Quelle ist Sammlung von Images

12.04.2023 | S. 19

Scans

Datenformate Alt: eine XML-Datei Pro Seite

12.04.2023 | S. 20

Scans

ALTO

Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML

12.04.2023 | S. 21

Scans

ALTO

TEI

<pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>

Datenmanagement – viele Importformate

12.04.2023 | S. 22

Import

ALTO

TEI

FinereaderXML

LaTeX

PDF

...

hOCR

Datenmanagement – nur ein Zentralformat?

12.04.2023 | S. 23

ALTO

TEI

FinereaderXML

LaTeX

PDF

...

Zentralformat?

Import Archiv

hOCR

Datenmanagement – auf jeden Fall flexible Exportformate benötigt

12.04.2023 | S. 24

Zentralformat?

PDF

TEI

Mobi

ePub

LaTeX

hOCR

Markdown

...

Import ExportArchiv

ALTO

TEI

FinereaderXML

LaTeX

PDF

...

hOCR

Volltexte sind agil

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 25

Quelle für Agilität: Korrekturen

Nutzerfreundliches Crowdsourcing direkt im Browser

Bessere OCR-Engines bei tendenziell sinkenden Preisen

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 26

Quelle für Agilität: Veredelung

Normdaten Personen Orte Zeit Schlagwörter

Annotationen

Referenzen

...

Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ...

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 27

Problemfelder agiler Volltextdaten

Gleichermaßen für Korrekturen wie Veredelung

Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)

Persistente Adressierung

Versionierung?

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 28

Lösung: Volltexte auf GitHub?!(unser Grundgesetz ist schon da...)

S. 29http://gg.docpatch.org

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 30

Digitalisierung OCR Bereitstellung

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 31

D OCR B... ... ... ... ... ...

Wenig bis keine Grundlagen für diese Bereiche vorhanden

Identifizierte Aktionsfelder

1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen

2. Interoperabilitätsbibliothek für Volltextformate

3. Getrennte (?) Strategien für den Abbau des vorhandenen Scan-Berges die laufende Produktion in den Einrichtungen

4. Robuste und transparente Workflows zur Anbindung von

eigenen Renderfarmen zentralen Renderfarmen Dienstleistern ...auch in Mischformen

5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen

12.04.2023 | S. 33

Projekte werden

nicht aufgrund schlechter

OCR-Qualitätscheitern –

sondern aufgrund

nicht verstandener undwenig beherrschter

Workflows

Workflow Volltextgenerierung über OCRRalf Stockmann