Post on 21-Jun-2015
Praxistest zweier OCR-Softwareprodukte
am Beispiel ausgewählter
Funeralschriftenbestände der SBB
Maria Federbusch
Staatsbibliothek zu Berlin – Preußischer
Kulturbesitz
Gefördert durch die
Inhalte des Vortrages
� Projektziel und Aufgabenstellung
� Aspekte des Softwarevergleichs
� Vergleich wesentlicher Funktionen der Softwareprodukte
� Vorstellung Fortschritte in B.I.T. Alpha
� Vorstellung Fortschritte in HK-OCR/FR9
� Ergebnisse
� Schlussfolgerungen / Ausblick
Projektziel und Aufgabenstellung
� Vorab: Digitalisierung einer kritischen Masse an Funeralschriften und deren bibliothekarische Einarbeitung in SBB
� Tests zweier Softwarelösungen mit maximal je 25.000 Seiten – Zusammenarbeit mit zwei Dienstleistern:
B.I.T. Bureau Ingénieur Tomasi SARL Toulouse -
Software: B.I.T. Alpha
Herrmann & Kraemer GmbH und Co-KG Garmisch-Partenkirchen -
Software: HK-OCR auf Basis der ABBYY FineReader Engine 9
� Gattungsspezifisches Training; Aufbau von Wörterbüchern unter Einbeziehung erfasster/vorhandener einschlägiger Texte
� Einbinden entstandener Texte in Digitale Bibliothek
� Erarbeitung einer auswertenden Studie nach Ablauf des Projektes
� http://staatsbibliothek-berlin.de/abteilung-historische-drucke/aufgaben-profil/projekte/funeralschriften.html
Materialbesonderheiten
� Funeralschriften, das sind vornehmlich Leichenpredigten -v.a. ein deutschsprachiges Phänomen des 17. Jh.
� Größte Verbreitung im mitteldeutschen Raum
� Vornehmlich personales Gelegenheitsschrifttum protestantischen Ursprungs
� Hier relevant: Drucke in Frakturschriften des 17. und 18. Jh. mit lateinischen, griechischen und hebräischen Zitaten in spezifischen Schriften
� Spezielle Problematik: Frakturschriftenvielfalt in einem Druck (Größe der Drucktypen der Fraktur variiert auf einer Seite)
� Versuch der Gruppierung nach Schriftgruppen anhand ausgewählter Buchstaben (Chance: Sammlung umfasst 15.000 Drucke – hier nur Pilotprojekt) beginnend mit homogenen Drucken
� Wiederkehr eines gattungsspezifischen Wortschatzes, der zu spez. Wörterbuchaufbau genutzt werden kann
Aspekte des Softwarevergleichs
� Softwareinstallation (Hardwareanforderungen,
Betriebssystemanforderungen, Erforderliche Berechtigungen,
Erforderliche Drittsoftware, Erforderliche Lizenzen,
Installationspersonal)
� Softwarebedienung (Allgemeiner Komfort,
Konfigurationsparameterdateien, OCR)
� Output und Export von Zwischenergebnissen und
Endergebnissen
� Softwaredokumentation (Handbuch, Bedienelemente,
Dialoge, Fehlermeldungen)
� Ergebnisqualität (OCR-Erkennungsgüte auf Zeichenniveau,
OCR-Erkennungsgüte auf Wortniveau, OCR-
Trainingsergebnisse, Wortkoordinatenanpassung bei
Wortzerlegung/ -zusammenfügung, XML-Output)
� Andere Ergebniseigenschaften (z.B. Binarisierung)
Vergleich wesentlicher Funktionen -
Konfigurationsparameter
B.I.T. Alpha HK-OCR/FR9
Binarisierungsverfahren und Binarisierungsparameter
Segmentierungsparameter auf Block- und Zeichenniveau
durch Training entstandene Zeichenbibliothek
Zusammensetzung von Teilmustern zu Zeichen (Sequenzer)
Wortbibliothek, Einstellungen der Sprache/n, lexikalische Ersetzungsregeln
Es entstehen 2 (bis 4)
Parameterdateien.
durch Training entstandene Zeichenbibliothek
Wortbibliothek: Einstellungen der Sprache/n, und Sprachgruppe
Schriftfamilien auswählbar
Es entstehen 4 Parameterdateien.
Vergleich wesentlicher Funktionen - Training
B.I.T. Alpha HK-OCR/FR9
Beliebige Navigation auf der Seite möglich
Beliebiger Zeichensatz kann trainiert werden; für typische Fehler können durch den Sequenzer automatische Korrekturen angestoßen werden
Jetzt neu: „Automatisches Training“
Eingeschränkte Benutzerführung durch z.B. fehlende Vor- u. Rücksprungmöglichkeiten (FR bedingt)
Nur fester Zeichensatz kann trainiert werden („sprachabhängig“)
Vergleich wesentlicher Funktionen - Wörterbuchnutzung
B.I.T. Alpha HK-OCR/FR9
Nutzerseitige Einbindung z.B. gattungsspez.WB möglich
Beschränkung auf ein Wörterbuch je OCR-Lauf; nur vorherige Mischung möglich
Differenzierte Zuweisung von Ersetzungskoeffizienten möglich
Nutzerseitige Einbindung z.B. gattungsspez.WB möglich
Beschränkung auf ein Wörterbuch je OCR-Lauf; nur vorherige Mischung möglich
WB gehen in Sprachdef. ein; Sprachdef. erfolgt aufgrund vordef. FineReader“sprache“ und übernimmt deren Eigenschaften (implizite Wortlisten)
Blackboxeffekt
Vergleich wesentlicher Funktionen -
Korrekturmöglichkeiten
B.I.T. Alpha HK-OCR/FR9
(Weitgehend abgedeckt durch obige Ersetzungsregeln)
Manuelle Korrekturen nur für einzelne Exporte möglich; dabei werden Koordinaten nicht angepasst
Korrekturen gelangen nicht in XML-Datei – spez. BIT-Tool in Aussicht gestellt
(automatische Ersetzungsregeln müssten in Zusatzmodul untergebracht werden)
Spezielle Benutzeroberfläche zur manuellen „Validierung“
Keine Automatismen
Koordinaten werden angepasst
Vergleich wesentlicher Funktionen - Exportmöglichkeiten
B.I.T. Alpha HK-OCR/FR9
ALTO-XML
Plaintext
b.i.t. portabel
Charakterimages
FineReader-XML (Koordinaten zeichenbezogen)
Vereinfachtes wortorientiertes XML
RTF
Ergebnisbild B.I.T. Alpha
Optimierungdurch Testläufe
Beispiel – Leichenpredigt 1649
Beispiel B.I.T. Alpha – halbtrainiert, ohne
Wörterbuch, Binarisierungsparameter IBIT Alpha17 SBB_230211-557_V bereinigt Muster von EEE-09 plus bda-Muster
Fehlende Zeichen: 8 mmSoltsr Überflüssige Zeichen: 11 'ffnnnieni e
Wie manche Kugel hat erwoi
Wie manchen Stohß iniLeib empfunden /
Sein gantzes Haupt war Beulen voll
Sein Leib zerkerbt von vielen Wunden .
Vonauſſen auch trug ſein Geſicht
n^
Das Pulver ſeiner Mannheit zeichen /
Zuwundern iſt es / daß er nicht
Geworden längſt zu einer Leichen .
Er aber lag in Pallas Hut /
Iſt nieaus jhrer Gunſt gekennmen /
Die hat auswol geneigtem Muth
Ihn ſtets in jhren Schutz genommen .
Dieſelbe hatt ' auch Diomed
VorTroja ſtets auffſeiner Seiten /
^iemacht es / daß er ſichergeht /
Iſtgleich mit dir / Mars / ſelbszu ffeeiten/
So ſtund auchVenus damalsbey
Dem hochberühmten Sohn Anchiſen /
Drumb wird er immer Schöſſe - frey /
Vnd Sieghafft überall geprieſen .
Wie kan ich doch den Lebens - lauff
Des werthen Mannesrecht beſchreiben ?
Wie
Beispiel B.I.T. Alpha – halbtrainiert, ohne
Wörterbuch, Binarisierungsparameter IIBIT Alpha59 wie 27 ohne Wortliste aber Niblack
Fehlende Zeichen: 3 ene Überflüssige Zeichen: 10 '..oliccii
Wie manche Kugel hat erwol
Wie manchen Stohß imLeib empfuliden /
Sein gantzes Haupt warBeulen voll
Sein Leib zerkerbt von vielen Wunden .
Vonauſſen auch trug sein Gesicht
n^
Das Pulver seiner Mannheit zeichen /
Zuwundern ist es / daß er nicht
Geworden längst zu einer Leichen .
Er aber lag in Pallas Hut /
Ist nieaus jhrer Gunst gekommen /
Die hat aus wol geneigtem Muth
Ihn stets in jhren Schutz genommen .
Diesclbe hatt ' auch Diomed
VorTroja stets auffseiner Seiten /
Siemacht es / daß er sichergeht /
o . .
Istgleich mit dir / Mars / sclbszu streiten /
So stund auchVenus damalsbey
Dem hochberühmten Sohn Anchisen /
Drumb wird er immer Schöſſe - frey /
Vnd Sieghafft überall gepriesen .
Wie kan ich doch den Lebens - lauff
Des werthen Maiinesrecht beschreiben ?
Wie
Beispiel B.I.T. Alpha – halbtrainiert, mit
Wörterbuch, Binarisierungsparameter II
BIT Alpha79 wie 27 aber Niblack + BIT0428_lx2 (Split fragments)
Fehlende Zeichen: 1 n Überflüssige Zeichen: 8 '..oltii
Wie manche Kugel hat er wol
Wie manchen Stohß im Leib empfuliden /
Sein gantzes Haupt war Beulen voll
Sein Leib zerkerbt von vielen Wunden .
Von aussen auch trug sein Gesicht
n^
Das Pulver seiner Mannheit zeichen /
Zu wundern ist es / daß er nicht
Geworden längst zu einer Leichen .
Er aber lag in Pallas Hut /
Ist nie aus jhrer Gunst gekommen /
Die hat aus wol geneigtem Muth
Ihn stets in jhren Schutz genommen .
Dieselbe hatt ' auch Diomed
Vor Troja stets auffseiner Seiten /
Sie macht es / daß er sicher geht /
o . .
Ist gleich mit dir / Mars / selbs zu streiten /
So stund auch Venus damals bey
Dem hochberühmten Sohn Anchisen /
Drumb wird er immer Schöſſe - frey /
Vnd Sieghafft überall gepriesen .
Wie kan ich doch den Lebens - lauff
Des werthen Matin es recht beschreiben ?
Ergebnisbild: HK-OCR/FR9
OptimierungdurchTestläufe
Beispiel – Leichenpredigt 1625
Beispiel HK-OCR/FR9 – ohne Training, ohne „Sprache“
HKOCR012 NoLang F Builtins
Fehlende Zeichen: 108 ö?ß?üßüßüü LüIßüüüüßä LäjjüI-jzä äjönnnüene
üeeweeewee ewüeeelnle eleeebleee zererFreen nrnürendbe nderlenhnh
hörendeede DrenerDa
Überflüssige Zeichen: 108 !JOTN!ZNNc MccccN,ccu cukccukcck cWWHcucuMc
ffccZffcuM VkvfccvZvv Svmtmkvttm ZvvffctMkc tcskttsftu cctSistimm sSsZ)mik
Vndes fein feftundsolcheZsiten/daderen schr vie! fein/ die auch mit Jobs sagen
vnd klagm mochten ; Warumb bin ich nichkgsstorben von Mutterletb ani Warumb
bin ich nicht vmbkommen/ ehe ich auff den Schostgesetzet wards iOolchejhrc
klagcaber folvns fur distmahl ttli- cher massen zum Trost dieNen / tvicdcr die
kiagc / vamit anjctzo das ChnrfursilichcHaust vnd diese Kirche er- fu!let ist/vber
der Fursilichenieiche vnsersIungstgc- bornett Herm/ HermZohanN-StgHMttNden/
der such vierzchen Wochen ein Marggraff zu Brandenburg
...
Beispiel HK-OCR/FR9 – ohne Training mit selbst
def.„Sprache“
HKOCR010 OG17 F Builtins
Fehlende Zeichen: 32 ??-------L --äSFeeloe ueeedeener Dt
Überflüssige Zeichen: 43 ZOTZZZZZZZ Z,ZZZMkcZc cMZZZZzZZv cfcfZccssZ )ik
Vnd es fein jetzund solche Zsiten Z da deren schr viel sein/ die auch mit Iobo sagen
vnd klagen möchten ; Warumb bin ich nicht gestorben von Mutterletb ane Warumb
bin ich nicht vmbkommen / ehe ich auff den Schoß gesetzet ward s iOolchejhrc klage
aber sol vns für dißmahl etli cher massen zum Trost vierten Z wieder die klage z
damit anjetzo das Churfürstliche Hauß vnd diese Kirche er füllet ist/vber der
Fürstlichenieiche vnsers Iüngstge bornen HermZ Herrn Iohann-Sigißmunden/ der
auch vierzehen Wochen ein Marggraff zu Brandenburg
...
Beispiel HK-OCR/FR9 – mit Training mit selbst
def.„Sprache“
HKOCR217 OG17 F Tit60S+s4ML30S
Fehlende Zeichen: 10 ;----SEct
Überflüssige Zeichen: 5 TZ.e.
^. ^ ^ . ^ -----
Vnd es sein jetzund solche Zeiten /da deren sehr viel sein/ die auch mit Iobo
sagen vnd klagen möchten z Warumb bin ich nicht gestorben von Mutterleib an?
Warumb bin ich nicht vmbkommen/ ehe ich auff den Schoß gesetzet ward?
^olchejhre klage aber sol vns für dißmahl etli cher massen zum Trost dienen /^
wieder die klage /^ damit anjetzo das Churfürstliche Hauß vnd diese Kirche er
füllet ist/vber der FürstliehenLeiche vnsers Iüngstge bornen Herrn/ Herrn
Iohann-Sigißmunden/ der auch vierzehen Wochen ein Marggraff zu Brandenburg
...
Ergebnisse
� Das Training von Musterdateien zahlt sich in beiden OCR-Umgebungen aus, was für BIT Alpha auch angekündigt wurde, für HK-OCR/FR9 aber offenbar selbst vom Hersteller nicht erwartet wurde.
� Der Einsatz von Wortbibliotheken wirkt sich positiv auf die Ergebnisse aus, wobei dies in BIT Alpha auf einer vom Anwender detailliert steuerbaren lexikalischen Korrektur nach der OCR beruht, bei HK-OCR/FR9 dagegen die Wortbibliothek durch Definition sogenannter "Sprachen" und "Sprachgruppen" der FineReader-Engine offenbar schon bei der OCR die Erkennung beeinflusst.
� Verallgemeinernde Empfehlung derzeit nicht möglich, da Projektauswertung noch nicht abgeschlossen (Studie)
Spezielle Ergebnisse – „hoffnungsvollste“
Parameterdateien, enthalten Informationen zu:
� Binarisierungsverfahren und -parametern (BIT Alpha: „bda“)
� Segmentierungsparametern auf Block- und Zeichenniveau
(BIT Alpha: „bda“)
� Durch Training entstandene Zeichenbibliothek (BIT Alpha:
„bda“ oder „bit“; HK-OCR/FR9: „ptn“)
� Zusammensetzung von Teilmustern zu Zeichen („Sequenzer“
in BIT Alpha: „seq“)
� gattungsspez. Wortbibliothek (ca. 70.000 Einträge),
Einstellungen der Sprache/n, lexikalische Ersetzungsregeln
(BIT Alpha: „lx2“; HK-OCR/FR9: „blan“, „lan“, „amd“)
Schlussfolgerungen / Ausblick
� Weiterentwicklungsmöglichkeiten der Konfigurationsdateien für weitere „Schriftengruppen“
� Austauschmöglichkeiten unter Nutzern gleicher Software und vergleichbaren Materials
� Einbeziehung größerer zeitgenössischer transkribierter Textcorpora in den Wörterbuchaufbau
� Sichtung und Unterscheidung weiterer „Schriftgruppen“ auch mit Hilfe mitgelieferter Einzelbilder der erkannten Buchstaben bereits OCR-gelesener Texte
� Erstellung einer detaillierten Studie
� Prozessierung der ausstehenden und Präsentation aller Texte
� Erprobung automatischer Verfahren zur Textauszeichnung (Berufsbezeichnungen, Bibelstellen, Namenserkennung)
� Einbeziehung der gesamten Funeralschriftensammlung wäre denkbar
Ende
Vielen Dank für Ihre Aufmerksamkeit:
Maria Federbusch
Maria.federbusch@sbb.spk-berlin.de
Screenshots – BIT Alpha
Screenshots – BIT Alpha
Screenshots - HK-OCR
Screenshots - HK-OCR
Screenshot - HK-OCR