nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

13
nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker?” “Anforderungen von eScience und Grid-Technologie an die Archivierung wissenschaftlicher Rohdaten” Dr. Jens Klump Baden-Baden, 2. Mai 2007

description

nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid: Gemeinsam sind wir stärker?” “ Anforderungen von eScience und Grid-Technologie an die Archivierung wissenschaftlicher Rohdaten ” Dr. Jens Klump Baden-Baden, 2. Mai 2007. Was war die Frage?. - PowerPoint PPT Presentation

Transcript of nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Page 1: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

nestor Workshop im Rahmen der GES 2007“Digitale Langzeitarchivierung und Grid:

Gemeinsam sind wir stärker?”

“Anforderungen von eScience und Grid-Technologie an die

Archivierung wissenschaftlicher Rohdaten”

Dr. Jens Klump

Baden-Baden, 2. Mai 2007

Page 2: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Was war die Frage?

• eScience- und Grid-Projekte erzeugen Datenbestände, die sich durch ihre Größe und/oder Komplexität auszeichnen.

• Genügen die bisher entwickelten Verfahren für die digitale Langzeitarchivierung den neuen Anforderungen?

• Kommen aus den Arbeiten der eScience- und Grid-Projekte neue Ansätze und Werkzeuge für die digitale Langzeitarchivierung?

Page 3: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Definition: eScience

• eScience ist die globale Zusammenarbeit in Schlüsselgebieten der Forschung und die nächste Generation Werkzeuge, um diese Art von Forschung zu ermöglichen. (Taylor in Hey, 2003)

• eScience ist gekennzeichnet durch eine hohe semantische Komplexität in der Verknüpfung von Daten, Dokumenten und interaktiven Werkzeugen zu deren Bearbeitung.

Page 4: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Definition: Grid

• Das Grid stellt standardisierte Schnittstellen zu verteilten Rechen-, Speicher- und Bandbreitenressourcen einer heterogenen Infrastruktur sowie komplexen Dienst-leistungen und Forschungsinfrastruktur bereit (nach Berman, 2003).

• Derzeit ist „das Grid“ noch eine Vision. Es existieren aber bereits eine Reihe von Community Grids.

Page 5: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Definition: dLZA von Daten

• Langzeitarchivierung von Daten aus Forschungs- und Entwicklungsprojekten bezeichnet die nachnutzbare und vertrauenswürdige Archivierung von Daten über das Ende eines Projektes hinaus.

• Die Dauer der Archivierung wird durch eine dLZA-Policy oder durch den gesetzlichen Rahmen des Projekts bestimmt.

Page 6: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Fragen an die Projekte

1. Erwartete Datenmenge und Komplexität2. Umgang mit Metadaten3. Daten-Grid und digitale Bibliothek4. Forschungsbedarf5. Neue Lösungsansätze für dLZA durch Grid6. Best-Practice Beispiele

Page 7: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Erwartete Datenmengen und ihre Komplexität

• Datenmengen vs. Komplexität in Grid- und eScience Projekten• Gigabyte bis Petabyte

• Geplante Dauer der Archivierung• 5 Jahre bis „für immer“

• Auswahlkriterien• Abhängig vom Reifegrad des Produk-

tionssystems und vom Wert der Daten.• Archivfähigkeit der Datentypen

• Wird nicht geprüft.

Page 8: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Umgang mit Metadaten

• Metadaten• Das Bewusstsein für die Bedeutung von

Metadaten ist allgemein vorhanden.• Standards

• werden eingesetzt, sofern sie vorhanden sind.

• Encodierung semantischer Beziehungen• Ist nicht in allen Projekten relevant.

• Erfassen von Prozesswissen• Ist nicht in allen Projekten relevant.

Page 9: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Daten-Grid und digitale Bibliotheken

• Sind die Daten für Dritte zugänglich? (Data sharing)• Soweit möglich, werden Daten

zugänglich gemacht.• Werden semantische Verbindungen

zwischen Veröffentlichungen, Daten und Forschungsmaterialien mit verwaltet? (Semantic Web und Internet der Dinge)• Ja, soweit in den Projekten relevant.

Page 10: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Forschungsbedarf

• Stabile und nutzerfreundliche Grid Dienste• Standards (Metadaten, Schnittstellen)• Nachhaltige Datenformate• Archivierung von Software• Integration von Lit. Repositories• Verteile Datenarchive• Integration von Grid und Semantic Web• Management virtueller Organisationen• Service Level Agreements und vertrauenswürdige

Archive

Page 11: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Neue Lösungsansätze für dLZA durch Grid

• Outsourcing rechenaufwändiger Operationen, z.B. bei Formatkonversion, Skalierbarkeit.

• dLZA im Data Grid, redundante Speicherung• Single sign-on

Aber:• Viele Nutzer haben Vorbehalte gegenüber

zentralisierten Diensten.• Für Anwender sind die Grid-Dienste noch nicht

stabil genug.

Page 12: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Best Practice

• Policies zur Langzeitarchivierung existieren in den Projekten nur bei externem Mandat

• Best Practice Beispiele für den Einsatz von eScience und Grid-Technologie in der Langzeitarchivierung digitaler Forschungsdaten sind kaum bekannt.

Page 13: nestor Workshop im Rahmen der GES 2007 “Digitale Langzeitarchivierung und Grid:

Zusammenfassung

• Bewusstsein für dLZA ist in den eScience- und Grid-Projekten vorhanden, jedoch wegen der kurzen Projektlaufzeiten selten formalisiert.

• Grid-Technologie wird als potenziell nützlich für dLZA gesehen, aber ist noch zu wenig stabil.

• Viele Nutzer misstrauen einer verteilten Speicherung im Data-Grid.

• Für den Betrieb von dLZA im Grid gibt es noch keine Geschäftsmodelle.

• Best Practice Beispiele sind kaum bekannt. Hier könnte mehr Information zu einer Verbesserung der Praxis führen.