Post on 09-Aug-2020
GrundsaniertDie neue Architektur der DDB|Pain Points & Ziele|ungeeignete Technologien|Daten-Einspielprozesse|Binary-Service|System-Landschaften|DDBdash|Frontend-Features
WARUM?Pain Points & Ziele
Datenmenge erreichte Systemkapazität.
Ziele
SKALIERBARKEIT
Für alle Aufgaben dasselbe statt das richtige Werkzeug.
27 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Ein Beispiel: Aufbau des Personenindex'
28 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Ein Beispiel: Aufbau des Personenindex'
Prüfen ALLER Kulturobjekte
count: +3
count: +4
Ein Suchindex ist eigentlich nicht für Abfragen großer Objektmengen geeignet …
In der alten Architektur dauert der Personenindexaufbau zwei Wochen.
30 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Für die Teilbaumsuche in den EAD-Hierarchien im Archivportal-D musste in der alten Architektur beim Einspielen jeder Bestand reindexiert werden.
Beim Landesarchiv Baden-Württemberg mit seinen über 4,6 Mio Objekten dauerte dies ca. 4 Wochen.
Ein zweites Beispiel
Ziele
SKALIERBARKEITBESCHLEUNIGUNG
Der Ingestprozess
Weitere Infos gibt’s heute, 15:30-17:15
„Ingest I: Wie kommendie Daten in die DDB“
Datenprozessierung DDB „alt”
ASCXML
SIP Cortex
Solr
Repositorium
AIP
Indexe: Such-Hierarchie-Entitäten-
• Harvesting• Splitting• Transformation (Mapping)• Mediendatei-Download• Erzeugung Vorschauen• Validierung
• Ingest• Indexierung• Löschungen• Reindexierung• Personenindex-Aufbau• u.v.m.
ASC = Augmented SIP CreatorCortex = „Core Technology“SIP = Submission Information PackageAIP = Archival Information PackageSolr = von der DDB verwendete Suchmaschine
Legende:
Ziele
SKALIERBARKEITBESCHLEUNIGUNGENTKOPPLUNG
Datenprozessierung DDB „neu”(vereinfacht)
TransformationXML
Repositorium
Solr
• Splitting• Mapping• Validierung
• GND-Personen• GND-Körperschaften• DDB-Institutionen
Binary-Service
• Mediendatei-D/L• Erz. Vorschauen• Speicherung• Auslieferung
outbox-metadatas
outbox-hierarchies
Ingest
Entities
itemss
Index
originals
organizations
personss
search
nodessDelete
Cortex
Spark-App Cassandra-DB-Tabelles
Legende:
Prozesssteuerung(DDBdash)
• App-Steuerung• Harvesting/Dateiupload
scaled_...binary_refs
Der Binary-Service
Weitere Infos gibt’s heute, 13:30-15:00
„Mediendateien in der DDB“> „IIIF in der DDB“von Michael Büchner
− wird von Transformation aufgerufen,läuft aber asynchron
− speichert Mediendateien zentral− Bilder− Videos− Audios− PDFs
− prüft, ob Mediendatei bereits vorhan-den ist, vermeidet so unnötige D/Ls
− erzeugt die im Portal benötigtenVorschaubilder (4 versch. Auflösungen)
− liefert Vorschaubilder und ggf. Originale(unabhängig vom Cortex) aus
− wird zu IIIF-Server weiterentwickelt
Binary-Service
Ziel erreicht
ENTKOPPLUNG… aber: „There is no free lunch.“
Prozesssteuerung(DDBdash)
Die Systemlandschaft
Systemlandschaft „alt”(vereinfacht – Loadbalancing, Solr Master/Slaves , Registrierung & AAS weggelassen)
ASC
Solr Repo
Cortex API Frontend
Produktion
ASC
Solr Repo
Cortex API Frontend
Datenclearing – Testsystem „T1“
ASC
Solr Repo
Cortex API Frontend
Such– Testsystem „T3“
2x
Systemlandschaft „neu”(vereinfacht)
Solr
Cortex API Frontend
Produktion
Solr
Cortex API Frontend
Datenclearing –QS-System „Q2“
Binary-Service
ZentralerProzessierungs-
Cluster
Prozesssteuerung(DDBdash)
Der zentrale Prozessierungs-Cluster
−neu beschaffte Hardware: 10 Server (jeweils 2x8 Core 2.4 GHz Xeons, 192 GB RAM)
−verteilte Datenbank: Apache Cassandra− speichert alle Daten− Produktion und Q2 werden per „Replikation“ befüllt
−verteilte Computing-Engine Apache Spark− führt Apps parallel aus
−Binary-Service läuft auch auf dem Prozessierungscluster
−wird von Prozesssteuerung orchestriert
Skalierbarkeit ?
E
D C
B
A
− bei Daten - Speicherung: Cassandra verteilt nach dem Hinzufügen neuer Clusterknoten die Daten automatisch um.
− und Prozessierung: Mehr Computer können mehr Arbeit erledigen.− Google-Prinzip: viele vergleichsweise billige Computer
(Scale out)
B
A
C
DE
F
G
bei hoher Last
Knoten hinzufügen(„scale out“)
Ziel erreicht
SKALIERBARKEIT
Beschleunigung ?
− Aufbau Personenindex: 2 Stunden statt 2 Wochen− Indexierung:
− Gesamtbestand (24,1 Mio Objekte) in 2,5 Tagen indexiert
− Transformation & Ingest− noch nicht bei optimaler Konfiguration des Prozessierungsclusters evaluiert− Prototypen erreichten (auf schwächerer Hardware)
einen Durchsatz von 1 Mio Objekte / h
Ziel erreicht
BESCHLEUNIGUNG
Ziele
Verbesserte Unterstützung von Arbeitsprozessenvon Servicestelle, Fachstellen, Aggregatoren (und mittelfristig)Datengebern
DDBdash− Administrations-Dashboard
− Frontend zu Prozesssteuerungs-API− DIY-Datenclearing auf Q2− Rollout
− erst FIZ & Servicestelle, − dann Fachstellen− dann Aggregatoren− ggf. Datengeber
− Screencast-Demo
DDBdash-Demo: Screencast
Ziele
Verbesserte Unterstützung von Arbeitsprozessenvon Servicestelle, Fachstellen, Aggregatoren (und mittelfristig) Datengebern
50 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Neue Frontend-Features
DDB METS-Viewer
Weitere Infos gibt’s heute, 13:30-15:00
„Mediendateien in der DDB“> „Der neue DDB-Viewer“
von Gerke Dunkhase
Organisationensuche& -seiten−semantische Verknüpfungen− neu: GND-Körperschaften …
− via Entity-Facts-Webservice
−… und bei der DDB registrierte Institutionen
− DDB-Registrierung dafür erweitert
−Facetten-Filter− Ort (Geonames)− Topic (GND-Sachschlagwörter)
− Indexaufbau analog Personenindex per Entities Spark-App
Suche−Lemmatisierung
(Flexionsformen werden gefunden)
−Autokorrektur (Mehr-Wort)− (noch) nicht im Frontend sichtbar
− Differenzierung „Stichwort-Facette“in „Thema“ und „Objekttyp“
− diverse Maßnahmen zur Reduktionder Indexgröße
Prototypen / Konzepte−Ranking-App
− Popularität− Metadatenqualität
−Datendumps−Volltextindexierung
− + Suche im METS-Viewer
−Tombstones−DDBlabs−Neuimplementierung des
OAI-PMH-Servers
Wann geht die neue Architektur online?
Heute! Preview-System:https://www-p.deutsche-digitale-bibliothek.de
−Parallelbetrieb alt/neu−Umschalten vor Sommerpause− Ingests ab sofort ins neue System−DDBpro-Seite mit bekannten Fehlern
I DDBjournal
Wir alle sind die Deutsche Digitale Bibliothek
Die Deutsche Digitale Bibliothek ist mehr als man sieht
Die Deutsche Digitale Bibliothek ist eine Investition in die Zukunft, die sich lohnt.
Weitere Infos heute 13:30-15:00
„Kommunikation“
I AusblickDDB 2018DDBstudioWeimarer RepublikGND4CZeitungsportalAggregatorenNutzungsanalysenEuropeana
DEUTSCHE DIGITALE BIBLIOTHEKKultur und Wissen online
Strategie2020
85 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität II. Optimierung der Datenprozesse
Technology-Review
Service-Infrastruktur ausbauen
Transformationsworkflows optimieren
Aggregatorenstrukturen etablieren
Datenfluss zu Europeana verbessern
Neue Architektur („DDB 2017“)
Stärkung von Servicestelle und Fachstellen
DDBdash
Aktueller Stand
86 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Status quo− Bindeglied zwischen den Datenpartnern und der DDB− einige Aggregatoren sind bereits aktiv− Ergebnisse einer umfassenden UmfrageZielstellung− Effiziente Datenprozesse (Lieferung usw.)− Systematisierung und VereinheitlichungVorgehen − Konzeptentwurf (u.a. mit Kriterien) liegt vor − Umsetzung mit Pilotpartnern− Offen: finanzielle und organisatorische Fragen
Aggregatoren
Weitere Infos morgen, 9:30-10:30 „Aggregatoren in der
DDB: Ein Werkstattbericht“
87 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität II. Optimierung der Datenprozesse
Technology-Review
Service-Infrastruktur ausbauen
Transformationsworkflows optimieren
Aggregatorenstrukturen etablieren
Datenfluss zu Europeana verbessern
Neue Architektur („DDB 2017“)
Stärkung von Servicestelle und Fachstellen
DDBdash
Aktueller Stand
Europeana DSI-3 / DSI-4
88 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Europeana
Weitere Infos morgen, 13:30-15:00
„Europas kulturelles Erbe teilen“
Status quo− DDB als Partner, Aggregator und Mitwirkende− Mitglied im Konsortium von DSI-3 (09/2017-08/2018)− Evaluation von Metis, Konzeptionelle Arbeiten DSI-4− Offenes Procurement-Verfahren für die Basisfinanzierung (2+2 Jahre)− Schwerpunkte: IIIF, Metis-WeiterentwicklungEuropeana Common Culture − Projektantrag im Rahmen der Generic Services− Ziel: Stärkung der Nationalen Aggregatoren − DDB als Good-Practice-Beispiel− Schwerpunkt: Pilotentwicklung
89 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität II. Optimierung der Datenprozesse
Technology-Review
Service-Infrastruktur ausbauen
Transformationsworkflows optimieren
Aggregatorenstrukturen etablieren
Datenfluss zu Europeana verbessern
Neue Architektur („DDB 2017“)
Stärkung von Servicestelle und Fachstellen
DDBdash
Aktueller Stand
Europeana DSI-3 / DSI-4
90 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität IV. Erhöhung der Nutzerzufriedenheit
Nutzungsverhalten analysieren
Suchfunktion verbessern
Digitalisate integrieren
Alternative Portaleinstiege ausbauen
Zielgruppengerecht ansprechen / DDB-Angebote ausbauen
Nutzungsanalyse des DDB-Portals
91 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Nutzungsanalysen
Status quo− derzeit kaum Informationen über die qualitative DDB-Nutzung − Analyse typischer Profile anhand von formaler KriterienZiele− Erkenntnisgewinne hinsichtlich der tatsächlichen Nutzung des DDB-
Portals (Aussagen über Erwartungen, Informationsbedarf, Nutzungsverhalten sowie Nutzungserlebnis)
− Evidenzbasierte Unterstützung der Produktentwicklungerste Schritte− Analyse im Rahmen einer Lehrveranstaltung zu User Experience
(HAW Hamburg, Prof. Ulrike Spree)− Task Force Nutzungsstatistik
92 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität IV. Erhöhung der Nutzerzufriedenheit
Nutzungsverhalten analysieren
Suchfunktion verbessern
Digitalisate integrieren
Alternative Portaleinstiege ausbauen
Zielgruppengerecht ansprechen / DDB-Angebote ausbauen
Nutzungsanalyse des DDB-Portals
Auffinden von alternativen Wortformen
DDB-METS-Viewer IIIF (Projekt „DDB 2018“)
93 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Sonderprojekt „DDB 2018“
Weitere Infos heute 13:30-15:00
„Vom digitalen Katalogzur digitalen Bibliothek“
„Innovative Erweiterungen der DDB zur Ermöglichung fortgeschrittener Nutzungsszenarien“ Rahmen− Förderung durch BMI; Laufzeit: 2018-2019− Volumen: 500.000 EUR; 3 Arbeitspakete AP „Infrastruktur für hochauflösende Inhalte“ − IIIF-Server (Image-API)− Konzeption für Presentation-API
94 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität IV. Erhöhung der Nutzerzufriedenheit
Nutzungsverhalten analysieren
Suchfunktion verbessern
Digitalisate integrieren
Alternative Portaleinstiege ausbauen
Zielgruppengerecht ansprechen / DDB-Angebote ausbauen
Nutzungsanalyse des DDB-Portals
Auffinden von alternativen Wortformen
DDB-METS-Viewer IIIF (Projekt „DDB 2018“)
Projekt „Weimarer Republik“
95 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
DFG-Projekt „Weimarer Republik“
„Aufbau einer Infrastruktur zur Implementierung sachthematischer Zugänge im Archivportal-D am Beispiel des Themenkomplexes ‚Weimarer Republik‘” Ziele− Etablieren von browsing- bzw. navigationsbasierten Einstiegen− spätere Nachnutzbarkeit für Bestände weiterer Archive, andere
Themenkomplexe sowie für weitere Sparten im Kontext der DDBAktivitäten− Entwicklung von Tools zur nachträglichen Anreicherung und zur
kooperativen Zuordnung archivischer Daten− Experimentelles AP zur algorithmischen Zuordnung von ArchivdatenRahmen − Partner: LABW, BArch, FIZ Karlsruhe, DDB (DNB)− Laufzeit: 05/2018-04/2020
96 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität IV. Erhöhung der Nutzerzufriedenheit
Nutzungsverhalten analysieren
Suchfunktion verbessern
Digitalisate integrieren
Alternative Portaleinstiege ausbauen
Zielgruppengerecht ansprechen / DDB-Angebote ausbauen
Nutzungsanalyse des DDB-Portals
Auffinden von alternativen Wortformen
DDB-METS-Viewer IIIF (Projekt „DDB 2018“)
Projekt „Weimarer Republik“
Nationales Zeitungsportal DDBstudio
97 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
DFG-Antrag „DDB-Zeitungsportal“
„Errichtung eines nationalen Zeitungsportals auf der Basis der organisato-rischen und technischen Infrastruktur der DDB – ‚DDB-Zeitungsportal‘“Ziel− Aufbau eines zentralen Zugangspunkts für digitalisierte Zeitungsbestände
(Volltextsuche, browsende Einstiegspunkte, Viewer, Referenzierung)Schwerpunkte der 1. Phase− Integration der METS-/MODS-basierten Bestände (gemäß DFG-
Richtlinien)− Adaption von Liefer- und Transformationsprozessen − Etablierung des Zeitungsportals als „Sub-Portal“ des DDB-PortalsRahmen − Partner: DDB (DNB), FIZ Karlsruhe, SLUB Dresden, SBB-PK− Laufzeit: 24 Monate
98 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität IV. Erhöhung der Nutzerzufriedenheit
Nutzungsverhalten analysieren
Suchfunktion verbessern
Digitalisate integrieren
Alternative Portaleinstiege ausbauen
Zielgruppengerecht ansprechen / DDB-Angebote ausbauen
Nutzungsanalyse des DDB-Portals
Auffinden von alternativen Wortformen
DDB-METS-Viewer IIIF (Projekt „DDB 2018“)
Projekt „Weimarer Republik“
Nationales Zeitungsportal DDBstudio
99 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
DDBstudio
Weitere Infos heute 13:30-15:00
„Vom digitalen Katalogzur digitalen Bibliothek“
Ziele− Weiterentwicklung der virtuellen Ausstellungen zu einem Service-
Angebot der DDB− Kontextualisierung von Inhalten
100 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität IV. Erhöhung der Nutzerzufriedenheit
Nutzungsverhalten analysieren
Suchfunktion verbessern
Digitalisate integrieren
Alternative Portaleinstiege ausbauen
Zielgruppengerecht ansprechen / DDB-Angebote ausbauen
Nutzungsanalyse des DDB-Portals
Auffinden von alternativen Wortformen
DDB-METS-Viewer IIIF (Projekt „DDB 2018“)
Projekt „Weimarer Republik“
Nationales Zeitungsportal DDBstudio
101 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität V. Verbesserung der Datenqualität
Standardisierung und Konsistenz
Datenqualität maximal ausschöpfen
Daten anreichern und verknüpfen
DFG-Projekt GND4C
102 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Ziel− spartenübergreifende Erweiterung der Gemeinsamen Normdatei (GND)− Vernetzung und Kontextualisierung von Daten in der DDBAktivitäten− Etablieren von Kommunikationsstrukturen, Aufbau von GND-Agenturen− Datenmodelle, Regeln und Werkzeuge für nicht-bibliothekarische
Anwendungskontexte− Fallbeispiele entlang unterschiedlicher EntitätstypenRahmen − Partner: DNB, DDB, LABW, BSZ, Foto Marburg, SHLB (digiCULT)− Laufzeit: 05/2018-10/2020
DFG-Projekt GND4C
103 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität V. Verbesserung der Datenqualität
Standardisierung und Konsistenz
Datenqualität maximal ausschöpfen
Daten anreichern und verknüpfen
DFG-Projekt GND4C
Datenanalyse (Projekt „DDB 2018“)
104 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Sonderprojekt „DDB 2018“
„Innovative Erweiterungen der DDB zur Ermöglichung fortgeschrittener Nutzungsszenarien“ Rahmen− Förderung durch BMI; Laufzeit: 2018-2019− Volumen: 500.000 EUR; 3 Arbeitspakete AP „Infrastruktur für hochauflösende Inhalte“ − IIIF-Server (Image-API)− Konzeption für Presentation-APIAP „Datenanalysen“− Auswertung des DDB-Datenbestandes
105 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität V. Verbesserung der Datenqualität
Standardisierung und Konsistenz
Datenqualität maximal ausschöpfen
Daten anreichern und verknüpfen
DFG-Projekt GND4C
Datenanalyse (Projekt „DDB 2018“)
Feature Detection (Projekt „DDB 2018“)
106 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Sonderprojekt „DDB 2018“
„Innovative Erweiterungen der DDB zur Ermöglichung fortgeschrittener Nutzungsszenarien“ Rahmen− Förderung durch BMI; Laufzeit: 2018-2019− Volumen: 500.000 EUR; 3 Arbeitspakete AP „Infrastruktur für hochauflösende Inhalte“ − IIIF-Server (Image-API)− Konzeption für Presentation-APIAP „Datenanalysen“− Auswertung des DDB-Datenbestandes AP „Feature Detection“− (semi-)automatische Erkennung von Bildinhalten
107 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Priorität V. Verbesserung der Datenqualität
Standardisierung und Konsistenz
Datenqualität maximal ausschöpfen
Daten anreichern und verknüpfen
DFG-Projekt GND4C
Datenanalyse (Projekt „DDB 2018“)
Feature Detection (Projekt „DDB 2018“)
108 DDBforum 04.+05. Juni 2018 • Berlin • DDBaktuell
Inhalte
Prozesse
Zugangswege
Kontextualisierung