Workfloworchestrierung Massendigitalisierung

Post on 11-May-2015

961 views 0 download

Transcript of Workfloworchestrierung Massendigitalisierung

Workfloworchestrierung

Grundlage für effiziente und qualitativ hochwertige

(Massen)Digitalisierung

Dipl. Sozw. Ralf Stockmann (SUB Göttingen)

Laufende Projekte (Auszug)

• SSG Digitalisierung (Mathematik)

• VD17 / VD18

• EZOOLO 2

• Rezensionszeitschriften

• DigiWunschbuch

• > 5 Mio. Seiten

• Unterschiedliche Erschließung

Öffnungswinkel

Orientierung an den Praxisregeln der DFG

• Formate– TIFF, PDF, TEI

• Qualität– 600/300 dpi

• Volltexte– TEI / XML

• Schnittstellen– OAI

• Verfügbarkeit– DFG-Viewer– Persistent Identifier

• Metadaten (METS/MODS)– Bibliographische, Struktur,

technische

Lösungsansätze

• Zerlegung des Produktionsprozesses in wieder verwendbare Workflows

• Bibl. Autopsie welcher Workflow angemessen ist

• Spezialisierung von Personal auf einzelne Bearbeitungsschritte

• Steuerung durch zentrale Software• Controlling und Qualitätskontrolle

PR

OD

UC

TIO

NP

RO

DU

CT

ION

PR

ES

EN

TA

TIO

NP

RE

SE

NT

AT

ION

Ablauf eines Digitalisierungsprojektes

1. Zielsetzung2. Auswahl des Materials3. Benchmarking / Standards4. Produktionsorganisation / Logistik

5. Arbeitsvorbereitungen (AV)6. Digitalisierung7. Qualitätskontrolle (QK)8. Bildoptimierung / Verarbeitung9. OCR / Volltextgenerierung10. Metadatengenerierung

11. Präsentation / Verwertung12. Zugang / Evaluation13. (Langzeit) Archivierung

Modularer Aufbau

Produktionsumgebung

Webbasiert

Workflows

DigiWunschbuch

RezensionszeitschriftenRusDML

Nutzermanagement

• Personen

• Gruppen

• Rollen

• Projekte

Organisation, Rechte und Personen

Organisation, Rechte und Personen

Organisation, Rechte und Personen

Organisation, Rechte und Personen

Organisation, Rechte und Personen

“to-do” Listen für jede MitarbeiterIn

Flexibilität und Übersicht

METS Editor

METS Export zu ZVDD, DFG-Viewer, Europeana, DDB, …

Integrierter Image Viewer (AJAX)

OCR Integration

Statistik und Controlling

Präsentationsumgebung

Präsentationsebene: TYPO 3 / Lucene

Design und Funktionen online anpassbar

Volltextsuche

OCR Renderfarm beim GBV

• ABBYY Recognition Server

• 80 Seiten pro Minute

• NICHT: Fraktur

• Wortkoordinaten

• Volltexte mit TEI Strukturierung

DFG Praxisregeln zu OCR

„Es sei aber ausdrücklich vor der Gefahr gewarnt, dass Nutzer bei mangelnder Dokumentation zu falschen Ergebnissen geführt werden.“

„Auf die Suchbedingungen sollte an deutlich sichtbarer Stelle hingewiesen werden.“

„Vorteilhaft ist auch, den Text – selbst bei mäßiger Qualität – nicht zu verstecken, damit sich der Nutzer selbst ein Bild von der Qualität seiner Recherchebasis machen kann.“

Anzeige des (TEI) Volltextes

OCR Layer über Image

OCR Layer über Image

OCR “Leselupe”

Auf OCR aufsetzende Funktionen

• Named entity recognition– Personen– Orte– Ereignisse

• Semantische Suche

• Historische „Plagiatsfälle“ (nach C. Mahnke)

Digitales Inhaltsverzeichnis mit Seitenzahlen

PDF download (auch Unterkapitel)

Projectcounter.org Nutzungsstatistiken

RSS feeds, OAI (konfigurierbar)

Integration des DFG-Viewers

Open Source

Entwicklergemeinschaft im Aufbau

Partner

Goobi Homepage

www.goobi.org