Digitalisierungspraxis - Federbusch - OCR-Praxistest

30
Praxistest zweier OCR-Softwareprodukte am Beispiel ausgewählter Funeralschriftenbestände der SBB Maria Federbusch Staatsbibliothek zu Berlin – Preußischer Kulturbesitz Gefördert durch die

Transcript of Digitalisierungspraxis - Federbusch - OCR-Praxistest

Page 1: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Praxistest zweier OCR-Softwareprodukte

am Beispiel ausgewählter

Funeralschriftenbestände der SBB

Maria Federbusch

Staatsbibliothek zu Berlin – Preußischer

Kulturbesitz

Gefördert durch die

Page 2: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Inhalte des Vortrages

� Projektziel und Aufgabenstellung

� Aspekte des Softwarevergleichs

� Vergleich wesentlicher Funktionen der Softwareprodukte

� Vorstellung Fortschritte in B.I.T. Alpha

� Vorstellung Fortschritte in HK-OCR/FR9

� Ergebnisse

� Schlussfolgerungen / Ausblick

Page 3: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Projektziel und Aufgabenstellung

� Vorab: Digitalisierung einer kritischen Masse an Funeralschriften und deren bibliothekarische Einarbeitung in SBB

� Tests zweier Softwarelösungen mit maximal je 25.000 Seiten – Zusammenarbeit mit zwei Dienstleistern:

B.I.T. Bureau Ingénieur Tomasi SARL Toulouse -

Software: B.I.T. Alpha

Herrmann & Kraemer GmbH und Co-KG Garmisch-Partenkirchen -

Software: HK-OCR auf Basis der ABBYY FineReader Engine 9

� Gattungsspezifisches Training; Aufbau von Wörterbüchern unter Einbeziehung erfasster/vorhandener einschlägiger Texte

� Einbinden entstandener Texte in Digitale Bibliothek

� Erarbeitung einer auswertenden Studie nach Ablauf des Projektes

� http://staatsbibliothek-berlin.de/abteilung-historische-drucke/aufgaben-profil/projekte/funeralschriften.html

Page 4: Digitalisierungspraxis - Federbusch - OCR-Praxistest
Page 5: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Materialbesonderheiten

� Funeralschriften, das sind vornehmlich Leichenpredigten -v.a. ein deutschsprachiges Phänomen des 17. Jh.

� Größte Verbreitung im mitteldeutschen Raum

� Vornehmlich personales Gelegenheitsschrifttum protestantischen Ursprungs

� Hier relevant: Drucke in Frakturschriften des 17. und 18. Jh. mit lateinischen, griechischen und hebräischen Zitaten in spezifischen Schriften

� Spezielle Problematik: Frakturschriftenvielfalt in einem Druck (Größe der Drucktypen der Fraktur variiert auf einer Seite)

� Versuch der Gruppierung nach Schriftgruppen anhand ausgewählter Buchstaben (Chance: Sammlung umfasst 15.000 Drucke – hier nur Pilotprojekt) beginnend mit homogenen Drucken

� Wiederkehr eines gattungsspezifischen Wortschatzes, der zu spez. Wörterbuchaufbau genutzt werden kann

Page 6: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Aspekte des Softwarevergleichs

� Softwareinstallation (Hardwareanforderungen,

Betriebssystemanforderungen, Erforderliche Berechtigungen,

Erforderliche Drittsoftware, Erforderliche Lizenzen,

Installationspersonal)

� Softwarebedienung (Allgemeiner Komfort,

Konfigurationsparameterdateien, OCR)

� Output und Export von Zwischenergebnissen und

Endergebnissen

� Softwaredokumentation (Handbuch, Bedienelemente,

Dialoge, Fehlermeldungen)

� Ergebnisqualität (OCR-Erkennungsgüte auf Zeichenniveau,

OCR-Erkennungsgüte auf Wortniveau, OCR-

Trainingsergebnisse, Wortkoordinatenanpassung bei

Wortzerlegung/ -zusammenfügung, XML-Output)

� Andere Ergebniseigenschaften (z.B. Binarisierung)

Page 7: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Vergleich wesentlicher Funktionen -

Konfigurationsparameter

B.I.T. Alpha HK-OCR/FR9

Binarisierungsverfahren und Binarisierungsparameter

Segmentierungsparameter auf Block- und Zeichenniveau

durch Training entstandene Zeichenbibliothek

Zusammensetzung von Teilmustern zu Zeichen (Sequenzer)

Wortbibliothek, Einstellungen der Sprache/n, lexikalische Ersetzungsregeln

Es entstehen 2 (bis 4)

Parameterdateien.

durch Training entstandene Zeichenbibliothek

Wortbibliothek: Einstellungen der Sprache/n, und Sprachgruppe

Schriftfamilien auswählbar

Es entstehen 4 Parameterdateien.

Page 8: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Vergleich wesentlicher Funktionen - Training

B.I.T. Alpha HK-OCR/FR9

Beliebige Navigation auf der Seite möglich

Beliebiger Zeichensatz kann trainiert werden; für typische Fehler können durch den Sequenzer automatische Korrekturen angestoßen werden

Jetzt neu: „Automatisches Training“

Eingeschränkte Benutzerführung durch z.B. fehlende Vor- u. Rücksprungmöglichkeiten (FR bedingt)

Nur fester Zeichensatz kann trainiert werden („sprachabhängig“)

Page 9: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Vergleich wesentlicher Funktionen - Wörterbuchnutzung

B.I.T. Alpha HK-OCR/FR9

Nutzerseitige Einbindung z.B. gattungsspez.WB möglich

Beschränkung auf ein Wörterbuch je OCR-Lauf; nur vorherige Mischung möglich

Differenzierte Zuweisung von Ersetzungskoeffizienten möglich

Nutzerseitige Einbindung z.B. gattungsspez.WB möglich

Beschränkung auf ein Wörterbuch je OCR-Lauf; nur vorherige Mischung möglich

WB gehen in Sprachdef. ein; Sprachdef. erfolgt aufgrund vordef. FineReader“sprache“ und übernimmt deren Eigenschaften (implizite Wortlisten)

Blackboxeffekt

Page 10: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Vergleich wesentlicher Funktionen -

Korrekturmöglichkeiten

B.I.T. Alpha HK-OCR/FR9

(Weitgehend abgedeckt durch obige Ersetzungsregeln)

Manuelle Korrekturen nur für einzelne Exporte möglich; dabei werden Koordinaten nicht angepasst

Korrekturen gelangen nicht in XML-Datei – spez. BIT-Tool in Aussicht gestellt

(automatische Ersetzungsregeln müssten in Zusatzmodul untergebracht werden)

Spezielle Benutzeroberfläche zur manuellen „Validierung“

Keine Automatismen

Koordinaten werden angepasst

Page 11: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Vergleich wesentlicher Funktionen - Exportmöglichkeiten

B.I.T. Alpha HK-OCR/FR9

ALTO-XML

PDF

Plaintext

b.i.t. portabel

Charakterimages

FineReader-XML (Koordinaten zeichenbezogen)

Vereinfachtes wortorientiertes XML

RTF

Page 12: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Ergebnisbild B.I.T. Alpha

Optimierungdurch Testläufe

Page 13: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel – Leichenpredigt 1649

Page 14: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel B.I.T. Alpha – halbtrainiert, ohne

Wörterbuch, Binarisierungsparameter IBIT Alpha17 SBB_230211-557_V bereinigt Muster von EEE-09 plus bda-Muster

Fehlende Zeichen: 8 mmSoltsr Überflüssige Zeichen: 11 'ffnnnieni e

Wie manche Kugel hat erwoi

Wie manchen Stohß iniLeib empfunden /

Sein gantzes Haupt war Beulen voll

Sein Leib zerkerbt von vielen Wunden .

Vonauſſen auch trug ſein Geſicht

n^

Das Pulver ſeiner Mannheit zeichen /

Zuwundern iſt es / daß er nicht

Geworden längſt zu einer Leichen .

Er aber lag in Pallas Hut /

Iſt nieaus jhrer Gunſt gekennmen /

Die hat auswol geneigtem Muth

Ihn ſtets in jhren Schutz genommen .

Dieſelbe hatt ' auch Diomed

VorTroja ſtets auffſeiner Seiten /

^iemacht es / daß er ſichergeht /

Iſtgleich mit dir / Mars / ſelbszu ffeeiten/

So ſtund auchVenus damalsbey

Dem hochberühmten Sohn Anchiſen /

Drumb wird er immer Schöſſe - frey /

Vnd Sieghafft überall geprieſen .

Wie kan ich doch den Lebens - lauff

Des werthen Mannesrecht beſchreiben ?

Wie

Page 15: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel B.I.T. Alpha – halbtrainiert, ohne

Wörterbuch, Binarisierungsparameter IIBIT Alpha59 wie 27 ohne Wortliste aber Niblack

Fehlende Zeichen: 3 ene Überflüssige Zeichen: 10 '..oliccii

Wie manche Kugel hat erwol

Wie manchen Stohß imLeib empfuliden /

Sein gantzes Haupt warBeulen voll

Sein Leib zerkerbt von vielen Wunden .

Vonauſſen auch trug sein Gesicht

n^

Das Pulver seiner Mannheit zeichen /

Zuwundern ist es / daß er nicht

Geworden längst zu einer Leichen .

Er aber lag in Pallas Hut /

Ist nieaus jhrer Gunst gekommen /

Die hat aus wol geneigtem Muth

Ihn stets in jhren Schutz genommen .

Diesclbe hatt ' auch Diomed

VorTroja stets auffseiner Seiten /

Siemacht es / daß er sichergeht /

o . .

Istgleich mit dir / Mars / sclbszu streiten /

So stund auchVenus damalsbey

Dem hochberühmten Sohn Anchisen /

Drumb wird er immer Schöſſe - frey /

Vnd Sieghafft überall gepriesen .

Wie kan ich doch den Lebens - lauff

Des werthen Maiinesrecht beschreiben ?

Wie

Page 16: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel B.I.T. Alpha – halbtrainiert, mit

Wörterbuch, Binarisierungsparameter II

BIT Alpha79 wie 27 aber Niblack + BIT0428_lx2 (Split fragments)

Fehlende Zeichen: 1 n Überflüssige Zeichen: 8 '..oltii

Wie manche Kugel hat er wol

Wie manchen Stohß im Leib empfuliden /

Sein gantzes Haupt war Beulen voll

Sein Leib zerkerbt von vielen Wunden .

Von aussen auch trug sein Gesicht

n^

Das Pulver seiner Mannheit zeichen /

Zu wundern ist es / daß er nicht

Geworden längst zu einer Leichen .

Er aber lag in Pallas Hut /

Ist nie aus jhrer Gunst gekommen /

Die hat aus wol geneigtem Muth

Ihn stets in jhren Schutz genommen .

Dieselbe hatt ' auch Diomed

Vor Troja stets auffseiner Seiten /

Sie macht es / daß er sicher geht /

o . .

Ist gleich mit dir / Mars / selbs zu streiten /

So stund auch Venus damals bey

Dem hochberühmten Sohn Anchisen /

Drumb wird er immer Schöſſe - frey /

Vnd Sieghafft überall gepriesen .

Wie kan ich doch den Lebens - lauff

Des werthen Matin es recht beschreiben ?

Page 17: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Ergebnisbild: HK-OCR/FR9

OptimierungdurchTestläufe

Page 18: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel – Leichenpredigt 1625

Page 19: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel HK-OCR/FR9 – ohne Training, ohne „Sprache“

HKOCR012 NoLang F Builtins

Fehlende Zeichen: 108 ö?ß?üßüßüü LüIßüüüüßä LäjjüI-jzä äjönnnüene

üeeweeewee ewüeeelnle eleeebleee zererFreen nrnürendbe nderlenhnh

hörendeede DrenerDa

Überflüssige Zeichen: 108 !JOTN!ZNNc MccccN,ccu cukccukcck cWWHcucuMc

ffccZffcuM VkvfccvZvv Svmtmkvttm ZvvffctMkc tcskttsftu cctSistimm sSsZ)mik

Vndes fein feftundsolcheZsiten/daderen schr vie! fein/ die auch mit Jobs sagen

vnd klagm mochten ; Warumb bin ich nichkgsstorben von Mutterletb ani Warumb

bin ich nicht vmbkommen/ ehe ich auff den Schostgesetzet wards iOolchejhrc

klagcaber folvns fur distmahl ttli- cher massen zum Trost dieNen / tvicdcr die

kiagc / vamit anjctzo das ChnrfursilichcHaust vnd diese Kirche er- fu!let ist/vber

der Fursilichenieiche vnsersIungstgc- bornett Herm/ HermZohanN-StgHMttNden/

der such vierzchen Wochen ein Marggraff zu Brandenburg

...

Page 20: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel HK-OCR/FR9 – ohne Training mit selbst

def.„Sprache“

HKOCR010 OG17 F Builtins

Fehlende Zeichen: 32 ??-------L --äSFeeloe ueeedeener Dt

Überflüssige Zeichen: 43 ZOTZZZZZZZ Z,ZZZMkcZc cMZZZZzZZv cfcfZccssZ )ik

Vnd es fein jetzund solche Zsiten Z da deren schr viel sein/ die auch mit Iobo sagen

vnd klagen möchten ; Warumb bin ich nicht gestorben von Mutterletb ane Warumb

bin ich nicht vmbkommen / ehe ich auff den Schoß gesetzet ward s iOolchejhrc klage

aber sol vns für dißmahl etli cher massen zum Trost vierten Z wieder die klage z

damit anjetzo das Churfürstliche Hauß vnd diese Kirche er füllet ist/vber der

Fürstlichenieiche vnsers Iüngstge bornen HermZ Herrn Iohann-Sigißmunden/ der

auch vierzehen Wochen ein Marggraff zu Brandenburg

...

Page 21: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Beispiel HK-OCR/FR9 – mit Training mit selbst

def.„Sprache“

HKOCR217 OG17 F Tit60S+s4ML30S

Fehlende Zeichen: 10 ;----SEct

Überflüssige Zeichen: 5 TZ.e.

^. ^ ^ . ^ -----

Vnd es sein jetzund solche Zeiten /da deren sehr viel sein/ die auch mit Iobo

sagen vnd klagen möchten z Warumb bin ich nicht gestorben von Mutterleib an?

Warumb bin ich nicht vmbkommen/ ehe ich auff den Schoß gesetzet ward?

^olchejhre klage aber sol vns für dißmahl etli cher massen zum Trost dienen /^

wieder die klage /^ damit anjetzo das Churfürstliche Hauß vnd diese Kirche er

füllet ist/vber der FürstliehenLeiche vnsers Iüngstge bornen Herrn/ Herrn

Iohann-Sigißmunden/ der auch vierzehen Wochen ein Marggraff zu Brandenburg

...

Page 22: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Ergebnisse

� Das Training von Musterdateien zahlt sich in beiden OCR-Umgebungen aus, was für BIT Alpha auch angekündigt wurde, für HK-OCR/FR9 aber offenbar selbst vom Hersteller nicht erwartet wurde.

� Der Einsatz von Wortbibliotheken wirkt sich positiv auf die Ergebnisse aus, wobei dies in BIT Alpha auf einer vom Anwender detailliert steuerbaren lexikalischen Korrektur nach der OCR beruht, bei HK-OCR/FR9 dagegen die Wortbibliothek durch Definition sogenannter "Sprachen" und "Sprachgruppen" der FineReader-Engine offenbar schon bei der OCR die Erkennung beeinflusst.

� Verallgemeinernde Empfehlung derzeit nicht möglich, da Projektauswertung noch nicht abgeschlossen (Studie)

Page 23: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Spezielle Ergebnisse – „hoffnungsvollste“

Parameterdateien, enthalten Informationen zu:

� Binarisierungsverfahren und -parametern (BIT Alpha: „bda“)

� Segmentierungsparametern auf Block- und Zeichenniveau

(BIT Alpha: „bda“)

� Durch Training entstandene Zeichenbibliothek (BIT Alpha:

„bda“ oder „bit“; HK-OCR/FR9: „ptn“)

� Zusammensetzung von Teilmustern zu Zeichen („Sequenzer“

in BIT Alpha: „seq“)

� gattungsspez. Wortbibliothek (ca. 70.000 Einträge),

Einstellungen der Sprache/n, lexikalische Ersetzungsregeln

(BIT Alpha: „lx2“; HK-OCR/FR9: „blan“, „lan“, „amd“)

Page 24: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Schlussfolgerungen / Ausblick

� Weiterentwicklungsmöglichkeiten der Konfigurationsdateien für weitere „Schriftengruppen“

� Austauschmöglichkeiten unter Nutzern gleicher Software und vergleichbaren Materials

� Einbeziehung größerer zeitgenössischer transkribierter Textcorpora in den Wörterbuchaufbau

� Sichtung und Unterscheidung weiterer „Schriftgruppen“ auch mit Hilfe mitgelieferter Einzelbilder der erkannten Buchstaben bereits OCR-gelesener Texte

� Erstellung einer detaillierten Studie

� Prozessierung der ausstehenden und Präsentation aller Texte

� Erprobung automatischer Verfahren zur Textauszeichnung (Berufsbezeichnungen, Bibelstellen, Namenserkennung)

� Einbeziehung der gesamten Funeralschriftensammlung wäre denkbar

Page 25: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Ende

Vielen Dank für Ihre Aufmerksamkeit:

Maria Federbusch

[email protected]

Page 26: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Screenshots – BIT Alpha

Page 27: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Screenshots – BIT Alpha

Page 28: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Screenshots - HK-OCR

Page 29: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Screenshots - HK-OCR

Page 30: Digitalisierungspraxis - Federbusch - OCR-Praxistest

Screenshot - HK-OCR