DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

33
Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“ Workflow Volltextgenerierung über OCR Ralf Stockmann

description

In den letzten Jahren konnten beachtliche Fortschritte in Bezug auf die Erkennungsqualität von OCR-Verfahren – auch bei schwierigen Vorlagen – erzielt werden. Zugleich fallen die Preise kontinuierlich, sei es bei Dienstleistern oder beim Aufsetzen einer eigenen OCR-Render-Farm. Die flächendeckende Bereitstellung von OCR-Volltexten scheint demnach zum Greifen nahe – der Durchbruch lässt jedoch aus Sicht der NutzerInnen weiter auf sich warten. Einer der Hauptgründe dafür liegt in der komplizierten Orchestrierung der OCR-Workflows. Wirft man einen Blick auf die Details, so zerfasert der vermeintlich übersichtliche Dreiklang aus Digitalisierung, OCR und Indexierung/Bereitstellung schnell in 10 oder auch 20 Einzelschritte mit komplexen Abhängigkeiten. Selbst wenn diese Herausforderungen gemeistert wurden, stehen die nächsten Aufgaben an: Prozesse für die kontinuierliche Verbesserung der Volltexte (auch durch NutzerInnen/Croudsourcing) sowie Rückkanäle für veredelte Volltexte – etwa durch Normdatenauszeichnung – in die Repositorien sind weitestgehend Neuland. Der Impulsvortrag wird das Problembewusstsein dafür zu schärfen, dass die OCR-Erkennungsqualität an sich zwar ein hochrelevanter Aspekt ist - im Orchester der Operationalisierung durch die Institutionen und Projekte aber nur als einer von vielen zu begreifen ist. Wenn das Projekt einer nationalen Volltext-Initiative gelingen soll, muss die gesamte Prozesskette Beachtung finden.

Transcript of DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Page 1: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Workshop „Verfahren zur Verbesserung von OCR-Ergebnissen“

Workflow Volltextgenerierung über OCR

Ralf Stockmann

Page 2: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 2

Digitalisierung OCR Bereitstellung

Oberflächliche Sicht eines OCR-Workflows

Page 3: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 3

Digitalisierung OCR Bereitstellung

Fehlende Workflowschritte an den Schnittstellen

Page 4: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 4

Digitalisierung OCR Bereitstellung

Fehlende Workflowschritte gewichtet nach Aufwand

Page 5: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Vorbereitung für OCR

12.04.2023 | S. 5

Welche Sprache hat das Dokument?

Welche Schrift (Fraktur / Antiqua)?

Datumabweichende Schreibweisen / Historische Lexika

Region

unverlässliche Daten hierzu im OPAC...?

Page 6: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Die Produktivität der Digitalisierung steigt an unseren Einrichtungen kontinuierlich

12.04.2023 | S. 6

Jahre

Sca

ns

pro

Tag

Page 7: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Um die Tagesproduktion durch OCR bearbeiten zu können muss diese ebenfalls skalieren

12.04.2023 | S. 7

Jahre

Sca

ns

pro

Tag

OCR

Page 8: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 | S. 8

Tagesaktuelle OCR für Strukturdatenerfassung

Page 9: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 | S. 9

Tagesaktuelle OCR für Strukturdatenerfassung

Page 10: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Das Problem ist nicht nur die Tagesproduktion...

12.04.2023 | S. 10

Jahre

Sca

ns

pro

Tag

OCR

Page 11: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 | S. 11

Jahre

Sca

ns

pro

Tag

OCR

Arc

hiv

alle

r bis

heri

gen

Sca

ns

...sondern unser bestehender Berg der letzten 12 Jahre

Page 12: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Massen-OCR

Beispiel: Staatsbibliothek zu Berlin

Ca. 15 Mio. Images vorliegend

OCR-Dauer pro Image und CPU: ca. 20 Sekunden (optimistischer Wert)

Ca. 3.472 Tage oder 9,5 Jahre

Ziel: 5 Tage also ca. Faktor 700

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 12

Page 13: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Paketierung – Sammlung von Images

12.04.2023 | S. 13

Scans

Page 14: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Paketierung – Verteilung auf OCR-Cluster

12.04.2023 | S. 14

Scans

CPU CPU CPURenderfarm

Page 15: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Paketierung – Zusammenführung der Ergebnisse

12.04.2023 | S. 15

Scans

CPU CPU CPURenderfarm

Ergebnis

Page 16: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Paketierung – wie robust ist der (wahrscheinliche) Fehlerfall?

12.04.2023 | S. 16

Scans

CPU CPU CPURenderfarm

Ergebnis

Page 17: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Flowshart Projekt „Digitextmath“ mit ABBYY Recognition Server

12.04.2023 | S. 17

Page 18: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Nur dieser Schritt ist die eigentliche OCR, der Rest ist Workflow-Management

12.04.2023 | S. 18

Page 19: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Datenformate – Quelle ist Sammlung von Images

12.04.2023 | S. 19

Scans

Page 20: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Datenformate Alt: eine XML-Datei Pro Seite

12.04.2023 | S. 20

Scans

ALTO

Page 21: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Datenformate TEI: Eine Datei pro Dokument mit Pagebreaks im XML

12.04.2023 | S. 21

Scans

ALTO

TEI

<pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb> <pb>

Page 22: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Datenmanagement – viele Importformate

12.04.2023 | S. 22

Import

ALTO

TEI

FinereaderXML

LaTeX

PDF

...

hOCR

Page 23: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Datenmanagement – nur ein Zentralformat?

12.04.2023 | S. 23

ALTO

TEI

FinereaderXML

LaTeX

PDF

...

Zentralformat?

Import Archiv

hOCR

Page 24: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Datenmanagement – auf jeden Fall flexible Exportformate benötigt

12.04.2023 | S. 24

Zentralformat?

PDF

TEI

Mobi

ePub

LaTeX

hOCR

Markdown

...

Import ExportArchiv

ALTO

TEI

FinereaderXML

LaTeX

PDF

...

hOCR

Page 25: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Volltexte sind agil

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 25

Page 26: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Quelle für Agilität: Korrekturen

Nutzerfreundliches Crowdsourcing direkt im Browser

Bessere OCR-Engines bei tendenziell sinkenden Preisen

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 26

Page 27: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Quelle für Agilität: Veredelung

Normdaten Personen Orte Zeit Schlagwörter

Annotationen

Referenzen

...

Erfolgen nicht zwangsläufig in unseren Oberflächen sondern in VREs, ...

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 27

Page 28: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Problemfelder agiler Volltextdaten

Gleichermaßen für Korrekturen wie Veredelung

Langzeitarchivierung (etwa: Updates auf langsamen Tape-Speicher)

Persistente Adressierung

Versionierung?

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 28

Page 29: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Lösung: Volltexte auf GitHub?!(unser Grundgesetz ist schon da...)

S. 29http://gg.docpatch.org

Page 30: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 30

Digitalisierung OCR Bereitstellung

Page 31: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 |Workflow Volltextgenerierung über OCRRalf Stockmann

S. 31

D OCR B... ... ... ... ... ...

Wenig bis keine Grundlagen für diese Bereiche vorhanden

Page 32: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

Identifizierte Aktionsfelder

1. Pretest-Werkzeuge um Fehler/Lücken im OPAC auszugleichen

2. Interoperabilitätsbibliothek für Volltextformate

3. Getrennte (?) Strategien für den Abbau des vorhandenen Scan-Berges die laufende Produktion in den Einrichtungen

4. Robuste und transparente Workflows zur Anbindung von

eigenen Renderfarmen zentralen Renderfarmen Dienstleistern ...auch in Mischformen

5. Konzepte um die Agilität von Volltexten mit dem Bedürfnis nach seriösem Datenmanagement zu versöhnen

Page 33: DFG Expertenworkshop - Workflow Volltextgenerierung über OCR

12.04.2023 | S. 33

Projekte werden

nicht aufgrund schlechter

OCR-Qualitätscheitern –

sondern aufgrund

nicht verstandener undwenig beherrschter

Workflows

Workflow Volltextgenerierung über OCRRalf Stockmann