Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die...

17
einfachen bzw Anleitung Wie transkribiere ich Dokumente mit Transkribus? (Anfänger) Mit dieser kurzen Einführung erlernen Sie die grundlegenden Schritte und Handgriffe, um Dokumente mit Hilfe von Transkribus transkribieren zu können. Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene Transkriptionsmöglichkeiten und kann auch dazu benutzt werden, um eine Software zur automatischen Erkennung von Handschriften zu trainieren. Weitere Informationen finden Sie in folgenden Unterlagen bzw. auf folgenden Internetseiten: - Anleitung: Wie transkribiere ich Dokumente mit Transkribus (Fortgeschrittene) - Anleitung zum Erstellen von Testprojekten mit Transkribus – für Archive und Bibliotheken Laden Sie das Programm “Transkribus Expert Client” herunter bzw. stellen Sie sicher, dass Sie die aktuellste Version nutzen: - https://transkribus.eu/ Im Transkribus-Wiki finden Sie weiterführende Informationen und ein detailliertes Benutzerhandbuch: - https://transkribus.eu/wikiDe/index.php/Hauptseite - https://transkribus.eu/wikiDe/index.php/Benutzeranleitung Das Transkribus-Programm und die zugrunde liegende Technologie wurden durch folgende Projekte ermöglicht: - https://read.transkribus.eu/ - https://transcriptorium.eu/ - https://github.com/transkribus/ Kontakt: - Das Transkribus-Team: [email protected]

Transcript of Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die...

Page 1: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

einfachen bzw

Anleitung Wie transkribiere ich

Dokumente mit Transkribus? (Anfänger)

Mit dieser kurzen Einführung erlernen Sie die grundlegenden Schritte und Handgriffe, um

Dokumente mit Hilfe von Transkribus transkribieren zu können. Das Programm und die

zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

Transkriptionsmöglichkeiten und kann auch dazu benutzt werden, um eine Software zur

automatischen Erkennung von Handschriften zu trainieren.

Weitere Informationen finden Sie in folgenden Unterlagen bzw. auf folgenden Internetseiten:

- Anleitung: Wie transkribiere ich Dokumente mit Transkribus (Fortgeschrittene)

- Anleitung zum Erstellen von Testprojekten mit Transkribus – für Archive und Bibliotheken

Laden Sie das Programm “Transkribus Expert Client” herunter bzw. stellen Sie sicher, dass Sie die

aktuellste Version nutzen:

- https://transkribus.eu/

Im Transkribus-Wiki finden Sie weiterführende Informationen und ein detailliertes

Benutzerhandbuch:

- https://transkribus.eu/wikiDe/index.php/Hauptseite

- https://transkribus.eu/wikiDe/index.php/Benutzeranleitung

Das Transkribus-Programm und die zugrunde liegende Technologie wurden durch folgende

Projekte ermöglicht:

- https://read.transkribus.eu/

- https://transcriptorium.eu/

- https://github.com/transkribus/

Kontakt:

- Das Transkribus-Team: [email protected]

Page 2: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

2 Anleitung zum Transkribieren - Anfänger

Inhalt

Einleitung ................................................................................................................................................. 3

Zu Beginn: ............................................................................................................................................ 3

Vorteile ................................................................................................................................................ 3

Grundvoraussetzungen ....................................................................................................................... 4

Learning by doing oder Übung macht den Meister ............................................................................ 5

Beispielordner in Transkribus hochladen ............................................................................................ 7

Segmentierung ........................................................................................................................................ 9

Einleitung ............................................................................................................................................. 9

Darstellunsmöglihkeiten b6zw. Ansichten ........................................................................................ 10

Schritt 1: definieren der Textregionen .............................................................................................. 11

Schritt 2: Definieren der Lines bzw. Baselines .................................................................................. 13

Tabellen ............................................................................................................................................. 15

Transkription ......................................................................................................................................... 16

Einleitung ........................................................................................................................................... 16

Transkribieren des Textes ................................................................................................................. 16

Auszeichnen des Textes (Hinzufügen der Metainformationen)........................................................ 16

Zusätze, Einfügungen usw. ................................................................................................................ 17

danksagung ......................................................................................... Fehler! Textmarke nicht definiert.

The READ project has received funding from the European Union’s Horizon

2020 research and innovation programme under grant agreement No

674943.

Page 3: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

3 Anleitung zum Transkribieren - Anfänger

Einleitung Zu Beginn

- Durch Transkribus lässt sich das Transkribieren von historischen Dokumenten für alle leicht

und einfach erlernen.

o Laden Sie das Programm von folgender Internetseite herunter:

https://transkribus.eu/

o Eine Installationsanleitung finden Sie im Transkribus-Wiki.

o Nach erfolgter Installation öffnen Sie das Programm und klicken auf “Log in” im

Hauptmenü.

o Sie können sich mit der gleichen Mailadresse bzw. dem gleichen Passwort anmelden,

dass sie bei der Registrierung ihres Accounts benutz haben.

Bild 1: Login-Feld

- Detailliertere Hintergrundinformationen finden Sie im Transkribus-Wiki und in der

Benutzeranleitung. Transkribus mag zwar auf den ersten Blick ein wenig kompliziert wirken,

doch sind die Grundfunktionen (Hochladen der Dokumente, Segmentieren, Transkribieren

und Exportieren) sehr einfach erlernbar.

- Transkribus wird laufend weiterentwickelt. Deshalb kann es passieren, dass immer wieder

Fehler im Programm auftauchen oder einfach Elemente, die aus Ihrer Sicht noch verbessert

werden sollten. Bitte zögern Sie nicht, den eigens dafür vorgesehenen Button für

Fehlermeldungen “Bug Report and Feature Request” zu benutzen – wir sind für jedes

Feedback dankbar!

Bild 2: Button für Fehlermeldungen (Bugreport)

Vorteile - Transkribus bietet zwei wesentliche Vorteile:

o Zum einen dienen die gewonnen Daten dem Training der Software für automatische

Handschriftenerkennung (Handwritten Text Recognition HTR). Das HTR-Programm

kann einen bestimmten Schrifttyp mithilfe von ein paar Dutzend korrekt

transkribierter Seiten lesen lernen und somit in Folge große Textmengen

automatisch transkribieren. Innerhalb dieser Texte können Sie dann nach

bestimmten Wörtern (Namen, Orte etc.) suchen.

o Auf der anderen Seite kann Transkribus für die Erstellung einer wissenschaftlichen

Edition eines Text- bzw. Quellenkorpus verwendet werden. Die erstellte

Transkription kann problemlos in andere Formate wie XML, TEI (Text encoding

Initiative), PDF oder Word exportiert werden. Zudem können die Dokumente auch

online zugänglich gemacht und mit anderen Sammlungen verbunden werden. Und in

nicht allzu weiter Zukunft wird Transkribus auch den Onlinezugang zu transkribierten

handschriftlichen Dokumenten wesentlich erleichtern.

Page 4: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

4 Anleitung zum Transkribieren - Anfänger

- Korrekt transkribierte Seiten sind zudem eine praktische Lernhilfe für Studierende und

interessierte Freiwillige, die das Lesen und korrekte Transkribieren alter Handschriften

erlernen möchten. Für diesen Zweck wird eine eigene Benutzeroberfläche (Interface)

entwickelt werden.

Grundvoraussetzungen - Bevor Sie mit dem eigentlichen Transkribieren beginnen, sollten Sie einige wenige Punkte

beachten:

1. Segmentierung = Herstellen einer Verbindung zwischen Text und Bild mittels

einer Baseline. In Transkribus ist es stets notwendig, Text bzw. Transkription und

Bild miteinander zu verbinden. Die HTR-Funktion benötigt für jede Zeile der

Transkription eine Verbindung zur entsprechenden Stelle im Scan. Um dies zu

gewährleisten, muss zu Beginn jedes Bild bzw. jede Seite in Textregionen, Zeilen

und Baselines unterteilt werden. Dieser Vorgang wird als “Segmentierung”

bezeichnet und kann händisch oder automatisiert mittels einer eigenen

Transkribusfunktion zur Layoutanalyse durchgeführt werden.

Bild 1: Gelb markierte Zeile innerhalb des Scans und die betreffende Transkription im Texteditor darunter (blau unterstrichen). Diese beiden Elemente müssen stets korrespondieren.

2. Transkription = Transkribieren, was da steht.

Die Transkription sollte stets nur das umfassen, was augenscheinlich dasteht

(Zeichen für Zeichen), und weder etwas ergänzen noch weglassen.

Großbuchstaben sollten als solche transkribiert werden (egal ob es den heutigen

Rechtschreibregeln entspricht oder nicht), ebenso alle Sonder- und

Interpunktionszeichen. Abkürzungen sollten ebenfalls als solche transkribiert und

nicht sofort aufgelöst werden.

Page 5: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

5 Anleitung zum Transkribieren - Anfänger

Bild 2: Transkribieren, was dasteht: Die Transkription von Abkürzungen sollte nur jene Buchstaben umfassen, die effektiv dastehen, und erst in einem weiteren Schritt mit Hilfe des entsprechenden Tags für Abkürzungen aufgelöst werden (siehe

Anleitung für Fortgeschrittene).

- Wenn sie diese zwei Dinge beachten, wird ihre Transkription für alle drei Zwecke geeignet

sein: (1) als Trainingsmaterial für die HTR-Funktion, (2) als Grundlage für die Erstellung

einer wissenschaftlichen kritischen Edition, 3) als Lernmaterial für Studierende und

Ehrenamtliche.

„Learning by doing“ oder „Übung macht den Meister“ - Nachdem Sie diese grundlegende Einleitung gelesen haben, können Sie unter folgendem Link

einen Ordner mit Beispielen herunterladen:

o https://transkribus.eu/wiki/images/d/d6/Example_Package.zip

Bild 3: Bilder aus dem Beispielordner

- Dieser Beispielordner enthält diese oben dargestellten drei Seiten:

o Entpacken Sie das Zip-File.

o In diesem Zipfile finden Sie einen Ordner namens “Example_Package”, welcher

wiederum einen Ordner namens “page” enthält. In diesem Ordner finden Sie die

Page 6: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

6 Anleitung zum Transkribieren - Anfänger

dazugehörige XML-Datei mit den Transkriptionen und den damit verbundenen

Informationen.

o Klicken Sie in Transkribus auf den Button “Open local folder”, um den Ordner von

Ihrem PC aus zu öffnen.

Bild 4: "Open local folder" – Klicken Sie auf das Ordnersymbol, um den lokalen Transkribus-Beispielordner zu öffnen.

Bild 5: Wählen Sie den Ordner “Example_Package” aus.

o Der Beispielordner enthält folgende Dokumente:

Seite 1: Beispielseite für das Transkribieren auf Anfängerniveau (simple

mode)

Ein gängiges Layout mit Fließtext und Marginalien.

Seite 2 und 3: Ein etwas komplizierteres Layout mit…

Einfügungen zwischen den Zeilen,

verschiedenen Sonderzeichen aus dem Set „from Latin Extended

Character Sets“,

getaggte Textabschnitte wie Personenamen, Datumsangaben usw.

Bild 6: Beispieldatei als ein lokales Dokument geöffnet.

Page 7: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

7 Anleitung zum Transkribieren - Anfänger

Beispielordner in Transkribus hochladen - Um bei Ihren Dokumenten die entsprechenden Tools von Transkribus anwenden zu können,

müssen Sie die Dateien auf dem Transkribusserver ablegen. Das bedeutet, Sie müssen den

Beispielordner bei Transkribus hochladen. Wenn Sie in Folge mit anderen persönlichen

Dokumenten arbeiten möchten, müssen Sie auch diese zuerst auf den Server laden.

o Hinweis: Alle Collections und Dokumente in Transkribus sind nicht öffentlich

einsehbar. Nur von Ihnen autorisierte NutzerInnen können Ihre Dateien sehen. Sie

werden nicht veröffentlicht. Die Gründe, warum die zu bearbeitenden Dokumente

zuerst auf den Server hochgeladen werden müssen, sind rein technischer Natur.

- Das Hochladen von Dokumenten auf den Transkribusserver ist sehr einfach. Öffnen Sie dazu

das Upload-Menü durch den entsprechenden Button unter dem Tab “Document”.

Bild 7: Laden Sie den Beispielordner oder ihre eigene Bilddatei in ihrer persönlichen Collection hoch.

Bild 8: Wählen Sie den Modus "Upload single document" (Einzeldokument hochladen) für Dateien bis zu 500 MB.

Page 8: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

8 Anleitung zum Transkribieren - Anfänger

- Sie haben drei Möglichkeiten:

o Hochladen über http von einem lokalen Ordner:

Diese Möglichkeit eignet sich besonders für das Hochladen einiger weniger

kleinerer Dateien, die zusammen nicht größer sind als 500 MB. In dieser

Anleitung wird diese Möglichkeit angewendet.

o Hochladen über FTP:

Dieser Weg eignet sich für eine größere Menge an Dateien bzw. für Dateien,

die größer als 500 MB sind.

o Hochladen über URL mittels DFG Viewer METS:

Diese Funktion ermöglicht das Hochladen von Dokumenten direkt aus

Repositorien, welche mit dem DFG (Deutsche Forschungsgemeinschaft –

German Science Funds) Viewer arbeiten.

o Hinweis: Zurzeit ist es noch nicht möglich, Bilddateien in Form von einzelnen PDF-

Dateien hochzuladen. Bevor Sie diese Daten in Transkribus hochladen, sollten Sie

daher zuerst die Bilddateien aus den PDF-Dateien extrahieren, etwa mit Adobe

Acrobat Professional oder anderen speziellen Programmen.

Hochladen des Beispielordners:

- Klicken Sie auf “Ingest or upload documents” (Dateien hochladen).

- Wählen Sie “Upload single document” (Einzeldatei hochladen).

- Verwenden Sie den Bereich “Local folder” (lokale Ordner), um den Beispielordner auf Ihrem

PC zu finden.

- Wählen Sie eine bereits verfügbare Collection aus dem aufklappbaren Menü oder erstellen

Sie eine neue Collection.

o Schreiben Sie den gewünschten Namen ihrer neuen Collection in das Feld “Create

collection” (Collection erstellen), in diesem Fall: “guenters_collection”.

o Klicken Sie auf das grüne +.

o Wählen Sie diese neue Collection über das aufklappbare Menü aus und klicken Sie

zum Hochladen auf “upload”.

Page 9: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

9 Anleitung zum Transkribieren - Anfänger

Bild 9: Erstellen Sie Ihre persönliche Collection, indem Sie den gewünschten Titel (hier: guenters_Collection) in das Feld schreiben und auf den grünen Kreis klicken. Öffnen Sie dann die neue Collection über das aufklappbare Menü.

- Je nach Internetverbindung kann das Hochladen mehrere Minuten dauern.

Segmentierung Einleitung - Um die Texterkennungssoftware (HTR) anwenden zu können, müssen über Transkribus Bild

und Text verbunden werden. Dies erreichen Sie, indem Sie jedes Dokument bzw. jede Seite segmentieren, also in folgende Bereiche unterteilen:

o Text regions (TR): Die Textregion muss den gesamten Text enthalten, der transkribiert werden soll.

o Lines (L): Die Zeilenmarkierung findet automatisch statt und hat keine Bedeutung für die NutzerInnen. Sie wird lediglich aus technischen Gründen vorgenommen.

o Baselines (B): Sehr wichtig für den Transkriptionsprozess sind hingegen die Baselines, die Grundlinien auf denen sich der Text befindet. Sie müssen korrekt eingezeichnet sein, weil sie für die HTR-Erkennung ebenso unerlässlich sind, wie für das Training der Funktion im Vorfeld.

- Diese segmentierten Abschnitte werden als Elemente bezeichnet. Der Vorgang des Unterteilens an sich wird als Segmentierung bzw. als Layoutanalyse bezeichnet.

o Sie kann manuell oder automatisch durch Transkribus erfolgen, ideal wäre eine Kombination aus beidem.

Bild 10: Das grüne Rechteck markiert jeweils eine Textregion. Vom Programm eingezeichnete Textregionen müssen gegebenenfalls korrigiert werden.

Bild 11: Das blaue Polygon markiert jeweils eine Lineregion (Zeile). Diese spielen für die Textregion KEINE Rolle und müssen daher NICHT kontrolliert und korrigiert werden.

Page 10: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

10 Anleitung zum Transkribieren - Anfänger

Bild 12: Die rote bzw. lila Linie markiert jeweils die Baseline. Die Baseline sollte korrekt sein, da sie für den Transkriptionsprozess wichtig ist.

- In Transkribus haben die einzelnen Elemente bzw. Segmente folgende Eigenschaften: o Die Elemente können rechteckig oder polygonal angelegt werden. Der Einfachheit

halber ist der Reckteckmodus bereits voreingestellt, der polygonale Modus kann

aber manuell ausgewählt werden.

o Die Baseline besteht als einziges Element lediglich aus einer unregelmäßigen Linie,

die dem Zeilenverlauf entspricht.

o Die einzelnen Segmentierungselemente können sich durchaus überschneiden, was

insbesondere bei Einfügungen und Kommentaren häufig der Fall ist.

o Die Segmentierungselemente sind hierarchisch gegliedert: Eine Baseline kann nur in

eine bereits bestehende Textregion eingezeichnet werden, ansonsten generiert

Transkribus einen Hinweis und fragt nach dem fehlenden übergeordneten Element.

Als erstes werden die Textregionen definiert bzw. nachkorrigiert, dann

erfolgt das Einzeichnen bzw. Korrigieren der Baseline. Innerhalb kurzer Zeit

kann so eine Seite vollständig für die Transkription vorbereitet werden.

Darstellungsmöglichkeiten b6zw. Ansichten o Bevor Sie sich den verschiedenen Möglichkeiten und Funktionen von Transkribus

widmen, sollten Sie sich vorher mit den möglichen Darstellungsweisen bzw.

Ansichten innerhalb des Programmes vertraut machen. Hier finden Sie als Beispiel

einmal die Ansicht während des Segmentierens und einmal während des

Transkribierens.

Die Darstellung der einzelnen Arbeitsbereiche kann ganz einfach den

persönlichen Vorlieben angepasst werden. Sie können gleichzeitig zwei

benutzerdefinierte Einstellungsmodi speichern und bequem hin und her

wechseln, je nachdem ob Sie gerade segmentieren oder transkribieren.

o Öffnen Sie dazu das Hauptmenü und wählen Sie zwischen “Segmentation View” und

“Transcription View”.

Bild 13: Ansichten für Transkriptions- und Segmentierungsmodus.

o Wenn sie den Segmentierungsmodus auswählen:

Verschwindet das Fenster mit dem Texteditor.

Sind die Linien der Textregionen und Baselines besonders dick dargestellt,

um sie besser sichtbar zu machen.

Werden die Textregionen mit grünen Linien und die Baselines mit roten bzw.

lila Linien gekennzeichnet.

Werden Lineregions (Zeilen) nicht automatisch angezeigt.

Ist der Rechteckmodus voreingestellt, das heißt alle markierten Segmente

werden automatisch rechteckig.

Sind die Eckpunkte der Segmente bzw. Linien besonders dick dargestellt, so

dass sie leichter angeklickt und verschoben werden können.

Page 11: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

11 Anleitung zum Transkribieren - Anfänger

-

- Bild 14: Segmentierungsmodus mit der Beispielseite

Wenn Sie den Transkriptionsmodus auswählen:

Wird das Feld mit dem Texteditor ausgeblendet.

Werden die Linien und Eckpunkte der segmentierten Elemente besonders

dünn, also unauffällig dargestellt.

Werden die Baselines nicht mehr rot sondern hellgelb dargestellt.

Dadurch soll das Lesen und Transkribieren des Textes erleichtert werden.

-

- Bild 15: Die gleiche Seite bzw. Zeile in der Transkriptionsansicht

Schritt 1: Definieren der Textregionen - Wählen Sie im Hauptmenü den Modus “Segmentation View” aus.

- Klicken Sie auf den Button “Add a text region” (= Textregion hinzufügen).

Page 12: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

12 Anleitung zum Transkribieren - Anfänger

Bild 16: Hinzufügen einer Textregion durch den Button +Tr

o Klicken Sie zuerst in die obere linke Ecke jenes Textabschnittes, den Sie markieren

wollen, dann klicken sie auf die Ecke rechts unten.

o Die Textregionen sollten klar abgrenzbare Textabschnitte umfassen, sie können aber

über mehrere Absätze bzw. über die ganze Seite gehen.

o Die Reihenfolge, wie Sie die einzelnen Textregionen markieren, wird dann auch die

Readingorder also die Lese- und Darstellungsreihenfolge sein. Sie können die

Reihenfolge der Textregionen im “Structure”-Tab überprüfen und über den „Reading

Order“-Button im Hauptmenü verändern.

Hinweis: Die Textregion sollte möglichst genau nur die beschriebenen Zeilen

des Textes umfassen.

Hinweis: Dekorative Elemente etc. sowie Initialen müssen nicht in ein

Textfeld mit aufgenommen werden.

Hinweis: Momentan ist es schneller bzw. einfacher, die Textfelder manuell

einzuzeichnen, vor allem wenn eine sehr hohe Genauigkeit bei der

Transkription angestrebt wird. (Die automatische Erkennung der Baselines

gelingt leichter und ist weniger fehleranfällig, was sich auch auf die Qualität

der Transkription auswirkt.)

- Bild 17: Textregionen wurden in Form von Rechtecken manuell hinzugefügt.

- Textteile, die nicht in der Transkription aufscheinen bzw. nicht als Trainingsdaten für die HTR-

Erkennung sollen, können ignoriert werden, indem Sie diese nicht als Textregion markieren

und auch keine Baselines bzw. Zeilen einzeichnen (lassen).

Page 13: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

13 Anleitung zum Transkribieren - Anfänger

Schritt 2: Definieren der Lines bzw. Baselines - Verbleiben Sie im “Segmentation View”-Modus.

- Klicken Sie auf das “Tools”-Tab auf der rechten Seite.

- Aktivieren Sie die Funktion “Detect lines and baselines” (Zeilen und Baselines einzeichnen),

die zweite Funktion von oben, innerhalb dieses Tabs.

- Bild 18: Zeilen/Baselines, welche automatisch mit der Funktion "Detect lines and baselines" eingezeichnet wurden.

- Überprüfen und korrigieren Sie gegebenenfalls die Segmentierung der Zeilen und Baselines:

o Die Baseline (die dicke lila Linie am unteren Ende des roten Polygons) sollte

möglichst genau den Zeichen der jeweiligen Zeile folgen. Die Buchstaben sollten

direkt auf der Baseline “stehen”, im Grunde genau so, wie Sie es in der Volksschule

gelernt haben ;-)

o Um eine Baseline zu bearbeiten, klicken Sie darauf und ziehen Sie die nun

erscheinenden Punkte an die gewünschte Stelle.

o Hinweis: Es reicht vollkommen aus, wenn Sie die Baselines überprüfen bzw.

korrigieren. Die Line regions (Zeilenmarkierungen) müssen nicht kontrolliert und

korrigiert werden.

o Hinweis: Es kann vorkommen, dass die automatische Line/Baseline-Erkennung zu

lange Baselines produziert, die deutlich über die Textzeile hinausreichen. Solche Fälle

sollten korrigiert werden, etwa mit Hilfe der Funktion “Remove point from selected

polygon” (Punkt aus dem markierten Polygon entfernen).

o Hinweis: Bei Fehlern ist es oft sinnvoller bzw. zeitsparender, gleich die ganze

Baseline zu entfernen und neu einzuzeichnen. Wenn Sie die Baseline markieren und

auf die Entfernen-Taste klicken, werden die Line region und die Baseline gelöscht.

Page 14: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

14 Anleitung zum Transkribieren - Anfänger

o Wenn Sie eine neue Baseline einzeichnen, generiert Transkribus automatisch eine

passende Lineregion dazu.

o Um eine Baseline zu zeichnen, klicken Sie auf das +BL-feld.

o Um eine gerade Linie zu zeichnen, klicken Sie auf den Beginn der zu zeichnenden

Linie, ziehen Sie die Maus entlang der gewünschten zu zeichnenden Linie und

beenden Sie diese mit einem Doppelklick.

o Um eine krumme Linie zu zeichnen, klicken sie auf den Beginn der Textzeile,

bewegen Sie ihre Maus weiter und klicken Sie jeweils dort, wo die zu zeichnende

Linie eine Biegung machen soll und beenden Sie die Linie mit einem Doppelklick.

o Um einen Arbeitsschritt während der manuellen Segmentierung rückgängig zu

machen, können Sie die Rückgängig-Schaltfläche mit dem grünen Pfeil verwenden.

Bild 19: Beispiel für eine durch die automatische Segmentierung fehlerhaft eingezeichnete Baseline.

Page 15: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

15 Anleitung zum Transkribieren - Anfänger

Bild 20: Korrigierte Baseline (manuell gelöscht und mit Hilfe der +BL Schaltfläche neu eingezeichnet).

Tabellen - Auch Tabellen können in der einfachen Variante bearbeitet werden, wenn Sie lediglich die

HTR-Erkennung trainieren oder Lern- und Übungsbeispiele erstellen möchten.

- Ziehen Sie dazu einfach eine Textregion um die Tabelle als Ganzes oder um die einzelnen

Spalten bzw. Zeilen und segmentieren Sie die Baselines in der oben beschriebenen Art und

Weise.

- Hinweis: Zurzeit produziert die automatische Layoutanalyse leider noch keine brauchbaren

Resultate bei Tabellen. Im weiteren Projektverlauf werden wir eine eigene Funktion zur

Erkennung von Tabellen entwickeln, um Tabellen leichter und bequemer bearbeiten zu

können. Ende 2016 wird der erste Prototyp eines Tabelleneditors veröffentlicht werden.

Page 16: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

16 Anleitung zum Transkribieren - Anfänger

Transkription Einleitung - Der Sinn und Zweck einer jeden Transkription ist die möglichst genaue Wiedergabe aller

enthaltenen Informationen.

- Transkribus arbeitet mit UTF8 und speichert alle Zeichen in Unicode.

- Eine korrekte “diplomatische” Transkription ist die Grundlage dafür.

- Neben den Zeichen und Wörtern enthält jeder Text bzw. Scan noch zusätzliche “versteckte”

Informationen, z. B. markierte (unterstrichene, fett geschriebene) Wörter, nachträglich

hinzugefügte Ergänzungen, Kommentare und Hinweise, oder innerhalb des Fließtexts

verwendete Abkürzungen, die aufgelöst werden müssen, um den Inhalt allgemein

verständlich zu machen. Auch diese Elemente können entsprechend markiert und bearbeitet

werden, sodass diese Informationen in der Transkription nicht verloren gehen.

Transkribieren des Textes - Wählen Sie dazu im Hauptmenü den Transkriptionsmodus “Transcription View” aus.

- Nun haben Sie das benötigte Texteditorfeld vor sich: Pro Textfeld finden Sie für jede

Line/Baseline im Bild eine entsprechende leere Zeile im Texteditor, das bedeutet, Bild und

Text sind auf diese Weise miteinander verbunden.

- Transkribieren Sie nun den vorliegenden Text über Ihre Tastatur.

Auszeichnen des Textes (Hinzufügen der Metainformationen) - Unter dem “Metadata Tab” finden Sie grundlegende Formatangaben für die Beschreibung

der Textgestaltung.

o Bold = Fett

o Underlined = Unterstrichen

o Strike through = Durchgestrichen

o Superscript = Hochgestellt

o Text colour = Textfarbe (nur wenn abweichend)

o Etc.

Page 17: Anleitung Wie transkribiere ich Dokumente mit Transkribus ... · Das Programm und die zugrundeliegende Plattform ermöglichen ein hochstandardisiertes Ergebnis. Es bietet verschiedene

17 Anleitung zum Transkribieren - Anfänger

Bild 21: Um Informationen zum Layout einzugeben, gehen Sie auf den Tab “Metadatei” und wählen Sie dort die gewünschte Bezeichnung im Bereich “Text style”

- Die meisten dieser Markierungen sind direkt im Texteditor als farbige Unterstreichungen

ersichtlich und daher kontrollierbar.

- Abgekürzte Wörter, die in die nächste Zeile reichen, sollten mit “¬” gekennzeichnet bzw.

getrennt werden.

Zusätze, Einfügungen usw. - Jedwede Zusätze, insbesondere interlineare Einfügungen müssen im Simple Mode nicht

gesondert behandelt werden. Es reicht, wenn sie korrekt transkribiert werden.

- Hinweis: Wenn Sie die Transkription in eine Word- oder TEI-datei exportieren, kann es

passieren, dass die Zeilen in einer falschen Reihenfolge dargestellt werden. Für das

Trainieren der HTR-Software hat dies jedoch keine negative Auswirkungen.

Danksagung Wir danken den unzähligen NutzerInnen, welche mit ihren Feedbacks zur stetigen Weiterentwicklung

des Transkribusprogramms beigetragen haben.

Transkribus konnte der Öffentlichkeit als Teil des H2020 e-Infrastructure Projekts READ (Recognition

and Enrichment of Archival Documents) kostenlos zur Verfügung gestellt werden. READ wird

gefördert durch die EU-Kommission (grant agreement No 674943).