Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ...

8
Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert durch die Europäische Union im Rahmen von Horizon2020. Ziel sind Forschungen im Bereich von Pattern Recognition, Document Image Analysis, Computer Vision und Natural Language Processing, um die Erkennung von Handschriften nicht nur zu verbessern, sondern produktiv einsetzbar zu machen. Vier Zielgruppen werden angesprochen: 1) Archive und Bibliotheken (Erinnerungsinstitutionen), 2) Geistes- und 3) Computerwissenschaftler sowie 4) die breite Öffentlichkeit als Beiträger von Transkriptionen (Crowdsourcing). Idealtypischer/Schematisierter Ablauf für den Gebrauch der Plattform Nach dem Upload der Dokumente auf die Plattform (via HTTP [bis 500 MB] oder FTP) erfolgt ein Ingest-Prozess, der für jedes Dokument eine eigene METS XML-Datei zur Beschreibung der Metadaten anlegt, ab dem Moment ist die Anreicherung mit Metadaten in den entsprechenden Feldern möglich. Danach kann das Dokument durch einen oder mehrere Bearbeitende weiterverarbeitet werden. Da vorwiegend die Extraktion von (strukturiertem) Text im Fokus steht, müssen Textregionen und Zeilen (baselines) definiert werden. Beide Prozesse können automatisiert geschehen, jedoch ist eine manuelle Kontrolle angebracht. Aufbauend auf die visuelle Erkennung kann entweder ein Modell zur Handschriftenerkennung (HTR) oder ein OCR-Prozess gestartet werden. Momentan existieren bereits einige HTR-Modelle, wobei jedoch auf die jeweiligen Spezifika geachtet werden muss. Alternativ können Texte auch manuell eingegeben und beispielsweise für die Herstellung neuer Handschriftenmodelle verwendet werden. Erkannter oder eingegebener Text kann nun mit tags ausgezeichnet oder korrigiert werden. Sowohl inhaltliche als auch formale Auszeichnungen sind möglich. Als Exportformate stehen neben PDF und Worddokumenten auch die erzeugten Page XML und eine TEI XML Ausgabe zur Verfügung. How To Use Transkribus in 10 Steps (or less): https://transkribus.eu/wiki/images/7/77/How_to_use_TRANSKRIBUS_-_10_steps.pdf Zeitliche Anforderungen, um ein Projekt aufzusetzen/ein Dokument zu verarbeiten; zu exportieren Je nach Umfang und Grösse der Dokumente unterschiedlich. Ingest und Neuanlage ist innerhalb von wenigen Sekunden erledigt, ebenso der Export. Die Verarbeitung der Dokumente hängt von der erwarteten Genauigkeit und den genutzten Automatisierungen ab. Eine Textseite wird innerhalb von weniger als einer Minute mit einem HTR-Modell erkannt und die Textteile über das Interface oder in XML ausgegeben. Herstellung von Transkriptionen Erfolgt auf Zeilenbasis und kann durch mehrere Benutzende parallel geschehen, wobei jeweils nur eine Person eine Seite bearbeiten kann. Für 2017 wird eine Webversion online gestellt, die auf die Aufgabe des Transkribierens fokussiert. Bild-Text-Verknüpfung Wird im Rahmen der Textsegmentierung erstellt und als Page XML hinterlegt. Im Rahmen des Exports als TEI werden die Informationen auf das Format angepasst eingefügt. Text-Markup Ein Markup im WYSIWYG-Modus wird angeboten und kann während oder nach der Transkription angebracht werden. Sowohl eine inhaltliche als auch eine strukturelle Auszeichnung ist möglich. Im

Transcript of Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ...

Page 1: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert durch die Europäische Union im Rahmen von Horizon2020. Ziel sind Forschungen im Bereich von Pattern Recognition, Document Image Analysis, Computer Vision und Natural Language Processing, um die Erkennung von Handschriften nicht nur zu verbessern, sondern produktiv einsetzbar zu machen. Vier Zielgruppen werden angesprochen: 1) Archive und Bibliotheken (Erinnerungsinstitutionen), 2) Geistes- und 3) Computerwissenschaftler sowie 4) die breite Öffentlichkeit als Beiträger von Transkriptionen (Crowdsourcing).

• Idealtypischer/Schematisierter Ablauf für den Gebrauch der Plattform Nach dem Upload der Dokumente auf die Plattform (via HTTP [bis 500 MB] oder FTP) erfolgt ein Ingest-Prozess, der für jedes Dokument eine eigene METS XML-Datei zur Beschreibung der Metadaten anlegt, ab dem Moment ist die Anreicherung mit Metadaten in den entsprechenden Feldern möglich. Danach kann das Dokument durch einen oder mehrere Bearbeitende weiterverarbeitet werden. Da vorwiegend die Extraktion von (strukturiertem) Text im Fokus steht, müssen Textregionen und Zeilen (baselines) definiert werden. Beide Prozesse können automatisiert geschehen, jedoch ist eine manuelle Kontrolle angebracht. Aufbauend auf die visuelle Erkennung kann entweder ein Modell zur Handschriftenerkennung (HTR) oder ein OCR-Prozess gestartet werden. Momentan existieren bereits einige HTR-Modelle, wobei jedoch auf die jeweiligen Spezifika geachtet werden muss. Alternativ können Texte auch manuell eingegeben und beispielsweise für die Herstellung neuer Handschriftenmodelle verwendet werden. Erkannter oder eingegebener Text kann nun mit tags ausgezeichnet oder korrigiert werden. Sowohl inhaltliche als auch formale Auszeichnungen sind möglich. Als Exportformate stehen neben PDF und Worddokumenten auch die erzeugten Page XML und eine TEI XML Ausgabe zur Verfügung. How To Use Transkribus in 10 Steps (or less): https://transkribus.eu/wiki/images/7/77/How_to_use_TRANSKRIBUS_-_10_steps.pdf

• Zeitliche Anforderungen, um ein Projekt aufzusetzen/ein Dokument zu verarbeiten; zu exportieren

Je nach Umfang und Grösse der Dokumente unterschiedlich. Ingest und Neuanlage ist innerhalb von wenigen Sekunden erledigt, ebenso der Export. Die Verarbeitung der Dokumente hängt von der erwarteten Genauigkeit und den genutzten Automatisierungen ab. Eine Textseite wird innerhalb von weniger als einer Minute mit einem HTR-Modell erkannt und die Textteile über das Interface oder in XML ausgegeben.

• Herstellung von Transkriptionen Erfolgt auf Zeilenbasis und kann durch mehrere Benutzende parallel geschehen, wobei jeweils nur eine Person eine Seite bearbeiten kann. Für 2017 wird eine Webversion online gestellt, die auf die Aufgabe des Transkribierens fokussiert.

• Bild-Text-Verknüpfung Wird im Rahmen der Textsegmentierung erstellt und als Page XML hinterlegt. Im Rahmen des Exports als TEI werden die Informationen auf das Format angepasst eingefügt.

• Text-Markup Ein Markup im WYSIWYG-Modus wird angeboten und kann während oder nach der Transkription angebracht werden. Sowohl eine inhaltliche als auch eine strukturelle Auszeichnung ist möglich. Im

Page 2: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

Tagging-Modus werden einerseits automatisch Attribute erstellt (bspw. Zeichenlänge des getaggten Bereichs), andererseits können auch eigene Attribute eingefügt werden.

• Ausgabemöglichkeiten (für Edition und/oder Transkription) Möglich sind Exporte in PDF (mit Transkription als hidden text und/oder eigene Textseiten), in XML gemäss TEI, Word- oder Exceldokument (Export der tags) sowie als Page XML.

• Vernetzungsmöglichkeiten (Wörterbücher, externe Ressourcen, Ontologien) Für die Texterkennung können ab 2017 eigene Wörterbücher zusammengestellt werden. Aktuell sind einige Wörterbücher vordefiniert. Die Möglichkeiten der Einbindung externer Ressourcen ist beschränkt. Da valide XML-Dateien ausgegeben werden, sind entsprechend eingebundene Szenarien nicht notwendig.

• Datei-/Bildverwaltung Oberste Ordnungseinheit sind Sammlungen (collections), die Dokumente enthalten. Einzelbilder werden als Seiten zu Dokumenten gebündelt verwaltet bzw. bilden einzelne (einseitige) Dokumente. Collections können für andere Benutzende zur Bearbeitung oder zur Ansicht freigegeben werden. Jede Speicherung einer Seite führt zur Anlage einer neuen Version, die in der Cloud verfügbar gehalten wird. Gerade für die Qualitätskontrolle und die Eruierung von Qualitätsmerkmale sind entsprechende Vergleiche sinnvoll.

• Projektverwaltung Projekte, die über Sammlungen hinausgehen, existieren in Transkribus nicht. Die Verwaltung der Sammlung erlaubt ein elaboriertes Usermanagement.

• Auswertungs-/Abfrageoptionen Suchen werden über alle Daten und Metadaten angeboten, eine Einschränkung auf einzelne Sammlungen ist nicht nötig. Wildcards und exakte Zeichenfolgen erlauben Freiheiten bei der Suche. Ebenfalls sind Suchmöglichkeiten innerhalb/nach tags möglich.

• Automatisierungen Die drei Hauptprozesse sind automatisierbar: 1. die Definition von Textregionen, 2. die Identifikation von Grundlinien (baselines), 3. die Erkennung von Handschriften bzw. gedruckten Texten.

• Crowdsourcing/Optionen zum Einbezug von Laien oder Externen Aufgrund des Usermanagements ist bereits heute die Bearbeitung durch mehrere Personen möglich. 2017 wird eine Crowdsourcing-Plattform online gehen, die die Mitarbeit von Interessierten bei der Transkription und der Korrektur von Texten, die mit HTR oder OCR behandelt wurden, erlaubt. Eine ähnliche Plattform, TSX (http://www.transcribe-bentham.da.ulcc.ac.uk/TSX/), wurde im Rahmen von Transcribe Bentham und dem Projekt transcriptorium getestet, für READ wird eine neue Plattform aufgesetzt.

• Nachhaltigkeit der Plattform/der enthaltenen Daten Alle entwickelten Produkte und Algorithmen (mit einer kleinen Ausnahme) stehen bereits als offene Ressourcen auf GitHub. Nach Ablauf des Projekts ist eine Weiterführung in einem kooperativen Umfeld anvisiert. Ein entsprechender Businessplan ist in Entwicklung.

• Updates bis 2018 Weiterentwicklung des Expertinterfaces Transkribus. Onlineschaltung von Webservices für Transkription, Korrektur, Review, Suche und e-Learning. Weiter ist eine mobile Applikation geplant, die direkt alle Dokumente in die Cloud hochlädt und eine automatisierte Transkription anfertigt.

Page 3: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

Transcribo wurde entwickelt, um unkompliziert und schnell Texte zu transkribieren. Mit Transcribo kann man am PC so arbeiten, wie man es von der manuellen Transkription her gewöhnt ist – mit dem Vorteil, dass alle Daten gleich auch digital vorliegen. Transcribo ist sowohl für die Erfassung von Manuskripten als auch von Typoskripten geeignet: Marginalien, Textkorrekturen, handschriftliche Eigenheiten oder der Einsatz spezifischer Schreibgeräte können strukturiert erfasst und aufbereitet werden. Damit bietet dieses Werkzeug für die Abbildung von komplexen Textgenesen eine Fülle an Möglichkeiten, die unmittelbar bei der Arbeit auf dem digitalen Faksimile angewendet werden können. Relationen und Vernetzungen zwischen verschiedenen Transkripten können ebenso hergestellt werden wie Kommentare, Annotationen und Lesezeichen. In Verbindung mit der virtuellen Forschungsumgebung FuD (Forschungsnetzwerk und Datenbanksystem, www.fud.uni-trier.de) können alle Schritte von der Erfassung und Katalogisierung eines Textdokumentes bis hin zur Analyse und Annotation einzelner Textpassagen komfortabel durchgeführt und Daten gemeinsam verwaltet werden. Idealtypischer/Schematisierter Ablauf für den Gebrauch der Plattform Installation von Transcribo unter Windows/Mac/Linux als Java/Eclipse-Anwendung, lokale Speicherung der zu transkribierenden Vorlagen, Start des Programms und Beginn der Arbeit, ein umfassendes Handbuch wird wie das Programm kostenlos zum Download bereitgestellt Zeitliche Anforderungen, um ein Projekt aufzusetzen/ein Dokument zu verarbeiten;

exportieren Installation von Transcribo ca. 15 min, sofort starten. Bearbeitung der Dokumente erfolgt interaktiv manuell, Dauer also abhängig von der Komplexität der Vorlage, Export der Daten als TEI/XML Herstellung von Transkriptionen Manuelle interaktive Bearbeitung der Vorlagen, keine Kenntnisse von X-Technologien erforderlich, Export als valide XML-Daten jederzeit möglich Bild-Text-Verknüpfung Erfolgt koordinatengenau durch den Bearbeiter, Schreibrichtungen erfassbar, unzählige Merkmale von Handschriften und Typoscripten erfassbar, Typoscripte auch durch OCR-System Tesseract erfassbar Text-Markup Erfolgt über GUI, intern alle Daten als XML gespeichert Ausgabemöglichkeiten (für Edition und/oder Transkription) XML, Speicherung in relationaler Datenbank, JSON

Page 4: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

Automatisierungen/Automatization OCR-Erkennung für Typoscripte Crowdsourcing/Optionen zum Einbezug von Laien oder Externen Keine Nachhaltigkeit der Plattform/der enthaltenen Daten Entwickelt im Rahmen eines Langzeitvorhabens der Akademie NRW, dauerhafte Systempflege zusammen mit der virtuellen Forschungsumgebung FuD durch die Universität Trier

Page 5: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

TextGrid

Die Entwicklung von TextGrid als virtuelle Forschungsumgebung für die Geistes- und Kulturwissenschaften wurde durch die wachsende Nachfrage nach digitalen Werkzeugen insbesondere zum philologischen Edieren und kollaborativen Arbeiten angestoßen. Das Bundesministerium für Bildung und Forschung (BMBF) hat den Aufbau von TextGrid im Rahmen eines Verbundprojekts mit über zehn institutionellen und universitären Partnern zwischen 2006 und 2015 gefördert. Über diese projektgebundene Förderung hinaus wird TextGrid von der geisteswissenschaftlichen Forschungsinfrastruktur DARIAH-DE getragen und weiterentwickelt. Das TextGrid-Nutzungszenario teilt sich entlang von drei übergeordneten Bereichen – dem Dateningest, der virtuellen Forschungsumgebungen sowie dem Nutzungs- bzw. Publikationsbereich – in verschiedene Funktionen auf. Alle Funktionen in diesen drei Bereichen orientieren sich an einem klassischen Forschungsprozess. Die Erstellung bzw. Arbeit mit digitalen Editionen und ihre Interoperabilität werden durch TextGrid in grundsätzlich niedrigschwelliger Weise für alle WissenschaftlerInnen ermöglicht. Das TextGrid-Laboratory steht derzeit in einer stabilen Version 3.0 zum kostenfreien Download bereit. Alle Komponenten von TextGrid Laboratory und TextGrid Repository werden in ständiger Zusammenarbeit mit den AnwenderInnen, FachwissenschaftlerInnen und Fachgesellschaften und insbesondere in Kooperation mit DARIAH-DE, der Digital Research Infrastructure for the Arts and Humanities, weiterentwickelt. Über DARIAH-DE wird auch die langfristige Verfügbarkeit von TextGrid, insbesondere der im Repository archivierten Forschungsdaten, sichergestellt. Da DARIAH-DE auch für andere geistes- und kulturwissenschaftliche Infrastrukturvorhaben als Nachhaltigkeits- und Bezugsrahmen fungiert, sind darüber auch beständige Impulse für die Weiterentwicklung von TextGrid über die etablierte Nutzergruppe hinaus gegeben. Die Zielgruppe von TextGrid setzt sich aus FachwissenschaftlerInnen, EntwicklerInnen und Forschungsprojekten und -einrichtungen zusammen. Gemein ist allen drei Gruppen die Arbeit mit digitalen Editionen, die Weiterentwicklung von TextGrid-Werkzeugen und -Diensten für eigene Vorhaben sowie das Archivieren und Nachnutzbarmachen von entsprechenden Forschungsdaten. Die virtuelle Forschungsumgebung TextGrid unterstützt digital arbeitende GeisteswissenschaftlerInnen über den gesamten Forschungsprozess hinweg, insbesondere beim Erstellen und Bearbeiten von digitalen Editionen, aber auch bei der Archivierung und Nachnutzbarkeit von digitalen Editionen, wie in folgender Grafik visuell dargestellt:

TextGrid besteht aus drei Hauptkomponenten:

Page 6: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

(1) Das TextGrid Laboratory fungiert als Einstiegspunkt in die virtuelle Forschungsumgebung und ermöglicht den Zugang zu unterschiedlichen Werkzeugen und Diensten und verwaltet die Projekte und die beteiligten NutzerInnen, d.h. die digitalen Editionen. Im Zentrum steht dabei die Möglichkeit zur Datentransformation und -anreicherung. Weitere Werkzeuge sind bspw. ein Text-Bild-Link Editor für die Verknüpfung von Digitalisaten und Transkriptionen, ein XML-Editor zur Bearbeitung von Transkriptionen oder Wörterbücher für Kommenta. Alle Komponenten stehen im Interesse einer Weiterentwicklung und Nutzung für andere Forschungsvorhaben als Open Source zur Verfügung. Durch Einsatz von eXist als XML-basiertem Datenbanksystem, der Auszeichnungssprache XML und des Datenformats TEI sind die Interoperabilität mit externen Datenbeständen oder -werkzeugen sowie die zukünftige einfache Nachnutzbarkeit der Daten und Komponenten nach heutigem Stand nach bestem Wissen und Gewissen möglich. Von automatisierter Datenverarbeitung oder Möglichkeiten für Crowdsourcing sollte deshalb aber nicht gesprochen werden, da TextGrid nach wie vor eine virtuelle Forschungsumgebung für einen begrenzten Bereich der Geistes- und Kulturwissenschaften ist. (2) Im TextGrid Repository, einem Langzeitarchiv für geisteswissenschaftliche Forschungsdaten, können XML/TEI-kodierte Texte, Bilder und Datenbanken sicher archiviert, publiziert und durchsucht werden. Diese Komponente ist mit Blick auf die Nachnutzung von Forschungsdaten von großer Bedeutung. Vom Aspekt der Langzeitarchivierung abgesehen, fungiert das TextGrid Repository aber auch als performantes Archiv für in Bearbeitung befindliche Forschungsdaten. Im Sinne einer Referenzierbarkeit von Forschungsdaten können alle im Repository archivierten Objekte mit persistenten Identifiern (PID) versehen werden. Für die Publikation der digitalen Editionen sind natürlich auch Lösungen vorgesehen, sei es in Form einer zugänglichen Online-Edition, sei es in Form einer gedruckten Edition. Der möglichst niedrigschwelligen Nachnutzbarkeit aus informationswissenschaftlicher Hinsicht wird v.a. durch die Verwendung etablierter Formate zur Archivierung der Digitalisate und Transkriptionen Rechnung getragen. (3) Die ständig wachsende TextGrid Community trifft sich bei regelmäßigen Nutzertreffen zu themen- bzw. anwendungsspezifischen Workshops, die nicht zuletzt auch den Austausch zwischen digitalen Forschungsvorhaben aus den Geisteswissenschaften befördern. Darüber hinaus ist dieser enge Kontakt mit den NutzerInnen von großer Bedeutung für die Weiterentwicklung aller TextGrid-Komponenten, da hier neue Nutzungsanforderungen oder Probleme bei der Benutzung diskutiert werden. Die oben angesprochene Verflechtung der TextGrid-Community mit dem weiteren Kontext von DARIAH-DE ist von zentraler Bedeutung für die Weiterentwicklung und Nutzung von TextGrid insgesamt. Eine Stärke von TextGrid ist es, den gesamten wissenschaftlichen Arbeitsprozess zu unterstützen. Das bezieht die Erstellung digitaler Editionen vom Ingest des Ausgangsmaterials (Text- und/oder Bilddateien/ Faksimiles) über die Anreicherung und Auszeichnung der Daten (Annotation, Verknüpfung) bis hin zur Veröffentlichung (Portal oder Print) und nachhaltigen Langzeitarchivierung (Repository). Als problematisch hat sich Entscheidung für das Eclipse-Framework erwiesen. Aus heutiger Sicht wären webbasierte Komponenten wünschenswerter, waren aber zum damaligen Zeitpunkt der Architekturentscheidung nicht state-of-the-art. Dies verdeutlicht, dass die Entwicklung von (wissenschaftlich genutzten) Softwarekomponenten einem permanenten Überprüfungs- und Weiterentwicklungsprozess unterworfen ist, um für einen längeren Zeitraum durch die wissenschaftliche Community genutzt werden zu können. Darüber hinaus gibt es für die Weiterentwicklung von TextGrid als geisteswissenschaftlicher Forschungsinfrastruktur im Rahmen von DARIAH-DE eine Roadmap, die neben der Stabilisierung der bestehenden Komponenten auch die Integration gänzlich neuer Komponenten vorsieht, bspw. die Umsetzung von RDF zur Erschließung und Beschreibung der Forschungsdaten. die Verzahnung mit dem DARIAH-DE-Repository zur Sicherstellung der nachhaltigen Datenarchivierung oder die Umsetzung zusätzlicher Annotationssysteme zur Verbesserung der Interoperabilität.

Page 7: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

Monk - Search & annotation tools for handwritten manuscripts

The Monk system is a trainable search engine for handwritten material. For the humanities, it may serve as a method for getting keyword access to scanned pages at the earliest stages after a document digitisation. For pattern recognition research, it is an observatory for complicated visual material and its human-provided labels (e.g., word or character labels).

• Idealtypischer/Schematisierter Ablauf für den Gebrauch der Plattform/Schematized/typical proceeding on the platform

An institution contacts Monk, scans are uploaded via sftp or mailed hard disks. The collection is judged on the required preprocessing steps (multicolumn, contrast enhancement, line segmentations), and ‘ingested’. Within one or two days users can start to label words. The system performs data mining on the collection and presents hit lists for words which can be labeled further, and so on. Static indices and provisional transcriptions are updated nightly. At the moment 400 documents from different periods and handwriting styles are being processed, including machine printed material which is difficult, such as wood-block Chinese, or printed Arabic.

• Zeitliche Anforderungen, um ein Projekt aufzusetzen/ein Dokument zu verarbeiten; exportieren/Required time to set-up a project; proceed/export a document

Exporting is not usual, index files can be retrieved by institutions, but very often the availability on internet suffices. The system does not act as an input/output transformer but rather as an e-Science service that is continuously available.

• Herstellung von Transkriptionen/Production of transcription The system makes a distinction between four different forms of annotation: (a) page (scan) descriptors, typically page titles, (b) page regions of interest (tags for visual objects), (c ) transcription of segmented lines, and finally, (d) word labeling. The system could export in TEI, however, within the OCR community, there is a preference for layout-centric description languages, as opposed to editorial descriptions. In practice, both TEI and PAGE are used, as well as other formalisms that allow to provide metadata to polygonal image sections.

• Bild-Text-Verknüpfung/Connection of image and text An internal image and metadata format is used, which can be exported to, e.g., PAGE xml if necessary. Provisional transcriptions can be retrieved as flat text. Indices can be exported upon request.

• Text-Markup/markup of text The system makes use of the principle of multiple views on a word object. For internal use and performance classification, each shape class is specified as a string in USASCII. However, this identifier points to an XML structure (Blue Book) containing a number of possible translations and renderings of a word, e.g., in unicode. A virtual keyboard is used to enter international script types in the ‘Blue Book’.

• Ausgabemöglichkeiten (für Edition und/oder Transkription)/possibilities for export (of edition and/or transcription)

o Dateiformate/file formats o Ansichtsmöglichkeiten/Viewer (integriert/extern)/Viewer (integrated/external)

Page 8: Projekt READ/Plattform Transkribus - dhd-blog.org · Projekt READ/Plattform Transkribus READ (Recognition and Enrichment of Archival Data) ist ein e-Infrastrukturprojekt gefördert

In the Monk concept, archives and institutions have their own nice tools for visualisation, this is not one of the goals of the system. Where necessary, REST APIs are realized.

• Vernetzungsmöglichkeiten (Wörterbücher, externe Ressourcen, Ontologien)/possibilities to connect (dictionaries, external resources, ontologies) This is highly application specific. We started doing this in collaboration with one of the archives, but this aspect is very labor intensive, so we stopped. Occasionally word lists and ontologies are provided by an institution to give background information of the allowable word classes. The expertise of experts (i.e., their knowledge on the particularities of the material) is provided to other users by taking the labeling as an example. Occasionally, formal material is provided to Monk in order to handle underlying systematics which may be present in a manuscript collection.

• Datei-/Bildverwaltung/image and file management N/A

• Projektverwaltung/project management

o Userverwaltung/user management Users obtain passwords with specific authorizations to view and/or label. There is a distinction between image processing support, user support and basic, generic systems management within the computing center.

• Auswertungs-/Abfrageoptionen/Tools to analyze o XSLT o via API/andere Services/automated services o Visualisierungsmöglichkeiten/tools to visualize

Results are placed in view of Google and other internet bots. Visualisation is done within the system.

• Automatisierungen/Automatization The Monk system is one of the first 24/7 machine learning systems. It was switched on in 2009 and is under occasional human control with very little resources. The system detects where compute resources should be directed, on the basis of observed user activities and interests.

• Crowdsourcing/Optionen zum Einbezug von Laien oder Externen/Possibilities to allow crowdsourcing

There is a crowdsourcing function where users can earn smileys. It is sometimes used to generate public awareness, such as in a Dutch television show. In our experience however, most of the gain in training of the machine is from knowledgeable users and raw computation itself. Medieval texts elicit too much unusable labels, for instance. Some of the participating archives have dedicated groups of volunteers helping in the word labeling.

• Nachhaltigkeit der Plattform/der enthaltenen Daten/Sustainability of the platform and the data

The Monk system is part of the large multi-petabyte Target platform of the university of Groningen, in collaboration with astronomy, genomics and the IBM company. The disk data (gpfs file system) are saved by a tape robot. For Monk alone, this system allows storage of 2 billion files. This facility will be maintained and upgraded in the coming years.