SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

28
04.10.2013 Dr. Sven Schlarb Österreichische Nationalbibliothek Abteilung für Forschung und Entwicklung [email protected] SCAPE Skalierbare Langzeitarchivierung

description

Sven Schlarb of the Austrian National Library presented SCAPE (in German). Besides giving a general overview of SCAPE the presentation also includes descriptions of SCAPE solutions, including tools, software integration, planning, and more. The presentation was given at the Austrian Library day on ‘National Initiatives on Digital Information. Repositories, Research data and long-term preservation in Austria’ (http://www.obvsg.at/voeb-obvsg-bibliothekstage-2013/programm-410/) on 4 October 2013 in Vienna.

Transcript of SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Page 1: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

04.10.2013 Dr. Sven Schlarb Österreichische Nationalbibliothek Abteilung für Forschung und Entwicklung [email protected]

SCAPE Skalierbare Langzeitarchivierung

Page 2: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

• Einführung • SCAPE Lösungen

• Repositories • Werkzeuge • Planung der Langzeitarchivierung

• Anwendungsfälle • Web-Archivierung • Repositories • Wissenschaftliche Daten • Datenzentren

• Weiterführende Informationen

Übersicht

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Page 3: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE – Worum gehts im Allgemeinen?

• „Big data“ – Verarbeitung großer Datenmengen • Skalierbarkeit in mehrerlei Hinsicht

• Anzahl • Größe • Komplexität • Vielfalt der Datenformate

• IT Umgebungen (Hardware, Software, Systeme) sind für das Management zunehmender Datenmengen nicht ausgerichtet

der zu verarbeitenden Objekte

Page 4: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE – Worum gehts konkret?

• Planung und Durchführung rechenintensiver Maßnahmen der Langzeitarchivierung, zum Beispiel: • Ingest großer Datenmengen in ein Repository • Dateiformat-Identifikation und Bestimmung von Dateieigenschaften • Multi-Terabyte Migration

• Ausarbeitung typischer Anwendungsfälle die skalierbare Maßnahmen für die Langzeitarchivierung erfordern

• Umsetzung der Anwendungsfälle und Einsatz in Bibliotheken und Datenzentren

Page 5: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Projektrahmen • SCAPE ist ein Nachfolge-Projekt des Planets-Projekts

(FP6) • Framework Program 7 (FP7) - Collaborative Project • Laufzeit: 42 44 Monate

• Februar 2011 – Juli September 2014 • Budget: 11.3 12.0 Millionen Euro

• Gefördert: 8.6 9.2 Millionen Euro

Page 6: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Consortium

Page 7: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Lösungen

Page 8: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

• Basis • Computer-Cluster • Virtualsierung

(XEN/Eucalyptus)

• Softwareverteilung • Debian Pakete • Tool Spezifikation

• Auftragsausführung • Apache Hadoop (HDFS/MapReduce) • Apache Oozie (Workflows)

Skalierbare Datenverarbeitung

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Page 9: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

• Fedora 4.0.0 • Nur REST, kein SOAP • Auf der Basis von RDF • JCR 2.0 Implementieriung – ModeShape (Jboss) • Infinispan (Jboss) verteilter NoSQL Datenspeicher

• Lily 2.0

• Basierend auf HBase/HDFS • Integrierte Datenverarbeitung

und -speicherung

Skalierbare Repositories

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Page 10: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

In SCAPE entwickelte Software-Werkzeuge

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Jpylyzer – JPEG 2000 Validierung

Matchbox – Duplikat-Bilderkennung XCorrSound – Audio-Vergleich

Pagelyzer– Web-Inhalte vergleichen

Page 11: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

• Tool Wrapper • Integration bestehender Software-Werkzeuge in die SCAPE Platform

• Standard-Namensgebung von Werkzeugen für Dateianalyse, Migration und Qualitätssicherung

• Standardisierte Ausführung (Kommandozeile) • Einfache Einrichtung auf dem Cluster dank der Bereitstellung von Debian-Paketen • Unterstützt Datenströme, die für Hadoop-Verarbeitungsaufträge nützlich sind.

• Generiert Langzeitarchivierungskomponenten • Taverna Workflow-Komponenten inklusive Metadaten, die das Auffinden erleichtern • Automatischer Veröffentlichung von Kompmenten auf myExperiment • Standardisierte Eingabe und Ausgabe, die das Kombinieren der Workflow-

Komponenten vereinfacht

• Langzeitarchivierungswerkzeugkasten • Werkzeugsammlung für die Langzeitarchivierung • Über 80 Operationen für Migration, Dateianalyse, und Qualitätssicherung • Einfaches deployment unter Linux (via apt‐get)

• apt-get install digital-preservation-tools

Integration existierender Software-Werkzeuge

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Page 12: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

• SCOUT: Automatisierte Überwachung der Langzeitarchivierung • Einbindung externer Informationsquellen der Langzeitarchivierung • Fall-basierte Benachrichtigungsfunktionen

• c3po: Skalierbare Analyse von Archivinhalten • Scale-out MongoDB (Anzahl der Knoten beliebig erweiterbar) • Auswertung von FITS-Datei-Analyseergebnissen • Detaillierte Statistiken • Möglichkeiten der Stichprobenbildung

• PLATO 4.1: scalable preservation planning • www.ifs.tuwien.ac.at/dp/plato • Weiterentwicklung der Version aus dem Planets-Projekt • Neue Funktionalität

• Gemeinsame Planung der Langzeitarchivierung in Gruppen • Integration maschinenlesbarer Richtlinien

Planung der Langzeitarchivierung

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Page 13: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Architektur

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Plan Management API

Digital Object Repository

Execution Platform

JES

Hadoop

JES API

Data Connector API

Automated Watch

Automated Planning

PLATO

Plan Management

GUI

Digital Objects/

Metadata

Preservation Plan Store

Plan

Component Catalogue

Component Lookup

API

Taverna Workbench

Component Registration

API

Component Profile

Validator

Automated Watch

Sources

Push API

Pull API

Knowledge

Source Adaptor

Client Service

Watch Request API

Notification API

Report API

Assessment

Data Publication

Platform

LDS3 API Data

Loader Application

Page 14: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Hadoop/MapReduce-Exkurs

Page 15: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

• Bei großen Datenmengen ist es meist einfacher die verarbeitende Komponente zu den Daten zu bringen als umgekehrt, die Daten zur verarbeitenden Komponente

• Feingranulare Parallelisierung: Die Ausführung der Datenverarbeitung findet auf den zur Verfügung stehenden Prozessorkernen statt

• Hardware-bedingte Ausfälle sind keine Besonderheit, sondern es gibt spezielle Vorkehrungen dafür

• Redundanz: Datenblöcke werden redundant gespeichert (Default: 3x) Ausfallsicherheit, Flexibler Zugriff auf Daten

• Daten-Lokalität: Freier Knoten mit direktem Zugang zu Datenblock übernimmt die Verarbeitung

Einige Hadoop Grundprinzipien

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Page 16: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Die physische Sicht: Prozessor (CPU)

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Beispielkonfiguration einer Quad-Core-CPU Pro Cluster-Knoten 4 physische Kerne

8 Hyperthreading-Kerne (System „sieht“ 8 Kerne)

OS

Map

Map

Map

Map

Map

Reduce

Reduce

Page 17: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Die physische Sicht: Cluster-Knoten

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Verteilte Datenverarbeitung (MapReduce)

Verteilter Datenspeicher (HDFS)

Hadoop = MapReduce + HDFS

2 x Quad-Core-CPUs: 10 Map (Parallelisierung) 4 Reduce (Aggregation)

4 x 1 TB Festplatten bei Redundanz 3: 1,33 TB effektiv (rein rechnerisch)

Page 18: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Verteilte Datenverarbeitung (MapReduce)

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Task1

Task 2

Task 3

Output data

Aggregated Result

Aggregated Result

Page 19: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Skalierbares Open Source Puzzle

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Shared Network Attached File System (NAS)

Hadoop Distributed File System (HDFS)

MapReduce (Job-Ausführung)

Pig (ETL) Hive (SQL) Sqoop (RDBMS)

Taverna Workflow Server (REST API)

Page 20: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Anwendungsfälle

Page 21: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

• HDFS als Master oder Temporärspeicher: Müssen die Dateien für die Verarbeitung erst auf den Cluster kopiert werden? Widerspricht eigentlich dem Prinzip: Prozessor bei den Daten.

• Daten-Teilbarkeit: Lassen sich die Eingangsdaten für die Parallelisierung in kleinere Datensegmente unterteilen (Standard: 64 MB)?

• Das „Kleine Dateien“-Problem: Wenn eine große Menge kleinerer Dateien vorliegen, lässt es der Anwendungsfall zu, diese zu einer einzigen großen Datei zusammenzufassen?

• Wahlfreier Datenzugriff: Ist die sequentielle Verarbeitung der Eingangsdaten ausreichend? Gibt es häufig Änderungen?

Fragestellungen zur Daten-Vorbereitung

This work was partially supported by the SCAPE Project. The SCAPE project is co‐funded by the European Union under FP7 ICT‐2009.4.1 (Grant Agreement number 270137).

Page 22: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Anwendungsfälle

• Große digitale Repositories • Format-Konvertierung umfangreicher Bestände

• Überwiegend Parallelisierung, d.h. vor Allem “Map”

• Schlechte Audio-Qualität automatisiert entdecken • XCorrSound-Anwendung

• Duplikat-Seiten in großen Buchbeständen erkennen • Matchbox-Anwendung • Duplikate innerhalb eines Buches finden • Verschiedene Buchversionen miteinander vergleichen

• Wissenschaftliche Daten • Konvertierung von RAW zu NEXUS

• Große Datenmengen aus Physik-Experimenten • Herausforderung: Verschiedene Teilchenbeschleuniger

produzieren unterschiedliche RAW Datenformate

from digitalbevaring.dk

Page 23: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Testbeds

• Web Content • Datei-Analyse und Datei-Formaterkennung Statistiken: MapReduce Anwendungsfälle

• Qualitätssicherung in der Web-Archivierung

• Data Centers • Übertragung medizinischer Daten in Datenzentren • Voraussetzung: Verschlüsselung und

Anonymisierung

from digitalbevaring.dk

Page 24: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Weiterführende Informationen

Page 25: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Weiterführende Informationen • Entwicklungs-Infrastruktur

• Code-Repository bei der Open Planets Foundation und GitHub • https://github.com/openplanets/

• Wiki • http://wiki.opf-labs.org/display/SP/Home

• Veröffentlichungen • http://www.scape-project.eu/category/publication

• Projektergebnisse: • http://www.scape-project.eu/category/deliverable

• SCAPE-Werkzeuge: • http://www.scape-project.eu/tools

Page 26: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Hackathon in Wien

• Langzeitarchivierung mit Hadoop: Hadoop-driven Digital Preservation

• 2. bis 4. Dezember 2013 in Wien an der Österreichischen Nationalbibliothek

© Justin Smith / Wikimedia Commons, CC-By-SA-3.0

http://www.openplanetsfoundation.org/events/scape-opf-hackathon-hadoop-driven-digital-preservation

Page 27: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

SCAPE Contact Information

• SCAPE • http://www.scape-project.eu • Twitter: #scapeproject • [email protected]

• Dr. Sven Schlarb

Österreichische Nationalbibliothek [email protected]

Page 28: SCAPE - Skalierbare Langzeitarchivierung (SCAPE - scalable longterm digital preservation)

Danke! Fragen?