13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
1
Validierung, Tools und Plugins Workflowoptimierung durch Automatisierung
3. intranda Goobi Tag
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
4
Ziele
● Fehler frühzeitig erkennen / korrigieren / vorbeugen
– Dateinamen
– fehlerhafte Bilder oder Metadaten
– Bilddaten die nicht den Vorgaben entsprechen
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
5
Ziele
● Fehler frühzeitig erkennen / korrigieren / vorbeugen
– Dateinamen
– fehlerhafte Bilder oder Metadaten
– Bilddaten die nicht den Vorgaben entsprechen
● Aufwand reduzieren
– Konzentration auf eigentliche Kompetenzen
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
6
Ziele
● Fehler frühzeitig erkennen / korrigieren / vorbeugen
– Dateinamen
– fehlerhafte Bilder oder Metadaten
– Bilddaten die nicht den Vorgaben entsprechen
● Aufwand reduzieren
– Konzentration auf eigentliche Kompetenzen
● Systemauslastung gestalten
– Lastspitzen durch parallele Ausführung
– rechenintensive Schrite
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
7
Lösungsansätze
● Validierung
● Automatisierung von Aufgaben
● Lastverteilung
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
9
Harvesting
● externe Datenquellen automatisiert abfragen
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
10
Harvesting
● externe Datenquellen automatisiert abfragen
● z.B. Anfragen an OAI-PMH Schnitstellen oder Internet Archive
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
11
Harvesting
● externe Datenquellen automatisiert abfragen
● z.B. Anfragen an OAI-PMH Schnitstellen oder Internet Archive
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
13
FTP Upload
● Bereitstellung eines FTP Zugangs für externe Datenlieferungen
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
14
FTP Upload
● Bereitstellung eines FTP Zugangs für externe Datenlieferungen
● automatische Übernahme der Bilddaten in vorhandene Vorgänge
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
15
FTP Upload
● Bereitstellung eines FTP Zugangs für externe Datenlieferungen
● automatische Übernahme der Bilddaten in vorhandene Vorgänge
● teilweise Übernahme von mitgelieferten Metadaten
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
16
FTP Upload
● Bereitstellung eines FTP Zugangs für externe Datenlieferungen
● automatische Übernahme der Bilddaten in vorhandene Vorgänge
● teilweise Übernahme von mitgelieferten Metadaten
● mögliche Sicherheitsmaßnahmen:
– separates System
– Virenscan
– Quarantänebereich
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
18
Validierung der Dateinamen
● Kontrolle der Dateinamen in Bildordnern an Hand eines regulären Ausdruckes, bereits im Arbeitsschrit
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
19
Validierung der Dateinamen
● Kontrolle der Dateinamen in Bildordnern an Hand eines regulären Ausdruckes, bereits im Arbeitsschrit
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
20
Bildvalidierung
● Validierung mitels jpylyzer und JHOVE
http://jhove.openpreservation.org/ http://jpylyzer.openpreservation.org/
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
21
Bildvalidierung
● Validierung mitels jpylyzer und JHOVE
● Sicherung des generierten Outputs im Dateisystem
http://jhove.openpreservation.org/ http://jpylyzer.openpreservation.org/
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
22
Bildvalidierung
● Validierung mitels jpylyzer und JHOVE
● Sicherung des generierten Outputs im Dateisystem
● Prüfung gegen Vorgaben/Profile
http://jhove.openpreservation.org/ http://jpylyzer.openpreservation.org/
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
23
Bildvalidierung - JHOVE
● Format:
<format>TIFF</format>
● Validität:
<status>Well-Formed and valid</status>
● Farbraum:
<mix:colorSpace>2</mix:colorSpace>
● Komprimierung:
<mix:compressionScheme>7</mix:compressionScheme>
● Auflösung – Liste möglicher Werte oder auch Intervall
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
24
Qualitätssicherung
● Kontrolle der Bilddaten innerhalb der Goobi-Oberfläche
● ggf. Korrektur der Orientierung, Entfernen von Dateien, ...
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
27
Prozessierung
● nur ein Skript pro Workflowschrit
→ erleichtert die Fehlersuche
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
28
Prozessierung
● nur ein Skript pro Workflowschrit
→ erleichtert die Fehlersuche
● Verbesserung der verwendeten Tools
– Optimierung der Skripte
– Konvertierung mitels GraphicsMagick
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
30
Validierung von Metadaten
● Vorgabemöglichkeit für einzelne Datenfelder im Regelsatz, z.B.
– Datumsfelder <validationExpression> \d{4}(-\d{2}){0,2} </validationExpression>
– reine Zahlenwerte <validationExpression> \d+ </validationExpression>
– …
● Frühzeitige Erkennung von falsch formatierten Eingaben, vor Sichtbarkeit in der Präsentation oder Fehlermeldung bei der Indexierung (z.B. muss BandNr-Sortierung eine Zahl sein)
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
34
individuelle Exporte
● Exportplugins in Goobi ermöglichen individuellen Output
● verschiedene TaskManager Plugins für Ingests
● intranda viewer
● SDB/Preservica
● Roseta
● MyCoRe
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
36
Auslagerung
● TaskManager erlaubt die Ausführung in einer Warteschlange
→ kontinuierliche Abarbeitung stat Lastspitzen
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
37
Auslagerung
● TaskManager erlaubt die Ausführung in einer Warteschlange
→ kontinuierliche Abarbeitung stat Lastspitzen
● Ausführung auf einem anderen Server
→ Minimierung rechenintensiver Tätigkeiten auf Goobi System
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
38
Auslagerung
● TaskManager erlaubt die Ausführung in einer Warteschlange
→ kontinuierliche Abarbeitung stat Lastspitzen
● Ausführung auf einem anderen Server
→ Minimierung rechenintensiver Tätigkeiten auf Goobi System
● Kontrolle über einzelne Warteschlangen
– Anzahl paralleler Jobs pro Warteschlange konfigurierbar
– Warteschlangen können pausiert werden
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
40
TaskManager
● mitlerweile sehr viele unterschiedliche Nutzungen:
– Download aus dem Internet Archive
– Bildkonvertierung (JPEG / JPEG2000)
– Bildvalidierung
– LayoutWizzard
– OCR
– PDF Erzeugung
– Normdatenerkennung
– MyCore, Roseta, SDB/Preservica
● Schwerpunkt: lang laufende und/oder rechenintensive Aufgaben
13.0
9.20
16M
ath
ias
Gee
rdse
n, i
ntr
and
a G
mb
H
42
Zusammenfassung
● Harvester
● FTP-UploadInput
Verarbeitung
Output
● Validierung von Dateinamen, Bilddateien, Metadatenfeldern
● QA Plugin
● serielle Abarbeitung
● Auslagerung von Arbeitsschriten
● Goobi Export Plugins
● TaskManager Plugins für Ingests
Top Related