Dienste für eine kollaborative Dateninfrastruktur...• Integration des Dienstes mit den...

31
Dienste für eine kollaborative Dateninfrastruktur Daniel Mallmann Jülich Supercomupting Centre Forschungszentrum Jülich GmbH

Transcript of Dienste für eine kollaborative Dateninfrastruktur...• Integration des Dienstes mit den...

Dienste für eine kollaborative Dateninfrastruktur

Daniel MallmannJülich Supercomupting CentreForschungszentrum Jülich GmbH

Datenflut

2

Increasing complexity and varietyIncreasing complexity and variety

Gigabytes

Terabytes

PetabytesExabytesZettabytes

Expo

nential growth Herausforderungen

• Speichern• Ordnen• Auswerten

Datenwachstum – Beispiel Lebenswissenschaften

3

Forschungsinfrastrukturen

Hunderte verschiedener Forschungsinfrastrukturen: wie viele können wir dauerhaft betreiben?

4

Forschungsinfrastrukturen

Hunderte verschiedener Forschungsinfrastrukturen: wie viele können wir dauerhaft betreiben?

5

Communities einbindenSynergien erkennen

Riding the Wave

Ist die kollaborative Dateninfrastruktur ein Modell für die Zukunft?Wie sehen die gemeinsamen Basisdienste aus?

6

EUDAT Projekt

7

Teilnehmer 26 Partner aus 13 LändernDatenzentren, Technologieanbieter, Communities

Leitung CSC ‐ IT Center for Science, Finnland

Start 1st October 2011

Dauer 36 Monate (+6 Monate Verlängerung)

Budget 16,3 M€, davon 9,3 M€ Förderung durch die EU

EC Call Call 9 (INFRA‐2011‐1.2.2): Data infrastructure for e‐Science (11.2010)

Web www.eudat.eu

EUDAT …… ist eine europaweite Initiative zur Bildung einer interdisziplinären

und länderübergreifenden Dateninfrastruktur, die eine Reihe von gemeinsamen Diensten für die Datensicherung und den Zugang zu Daten anbietet

… unterstützt mehrere Communitiesdurch enge Zusammenarbeit bei der Bereitstellung dieser Dienste als Teil der EUDAT kollaborativenDateninfrastruktur

8

Konsortium

9

CommunitiesUniverselle DatenzentrenTechnologieanbieter

10

EUDAT – europaweite Infrastruktur

Universelles DatenzentrumCommunity Datenzentrum

EPOS: European Plate Observatory SystemCLARIN: Common Language Resources and Technology InfrastructureENES: Service for Climate Modelling in EuropeLifeWatch: Biodiversity Data and ObservatoriesVPH: The Virtual Physiological Human INCF: International Neuroinformatics Coordinating FacilityDRIHM: Distributed Research Infrastructure for HydrometeorologyDiXA: Data Infrastructure for Chemical SafetyLTER: European Long-Term Ecosystem Research Network

Allen gemeinsam sind die Herausforderungen• Referenzmodell und Architektur der Dateninfrastruktur• Persistent Identifier• Metadaten Management• Verteilte Datenquellen• Interoperabilität der Daten

Eine nutzergesteuerte Initiative

11

Wachsende Nutzerbeteiligung

• Dialoge• User Foren• Offene

Call for Collaboration

12

EUDAT Dienste

13

EUDAT Dienste

14

Robuster, sicherer und hochverfügbarer Replikationsdienst• Schutz vor Datenverlust durch

Langzeitarchivierung und Datenerhaltung• Optimierung des Zugriffs an verschiedenen Standorten für verteilte

Communities• Datenhaltung in Zentren mit leistungsstarken Computern für

rechen-intensive Datenanalysen15

Zielt auf kleine und mittelgroße Community Repositories, die …… nicht die Kapazität haben, um

Forschungsdaten für lange Zeit sicher zu speichern

… keine langfristige Finanzierung für die sichere Datenhaltung haben

… nicht ausreichend Rechenleistung zurAnalyse der Daten für eine große Nutzerzahl anbieten können

Jedes Community Repository, das eine Repository-Infrastruktur mit PIDs und Metadaten hat, die die Eigenschaften und den Inhalt der replizierten Daten beschreiben, kann sich am B2SAFE Dienst beteiligen

16

Einfacher Transfer großer Datenmengen zwischen EUDAT Speicherressourcen und den Arbeitsbereichen von HPC Systemen• Zuverlässige,

effiziente, benutzerfreundliche Werkzeuge für den Datentransfer

• Unterstützt Wissenschaftler beim Transfer großer Datenkollektionen von EUDAT Speichersystemen zu HPC und HTC Systemen

• Hilfsmittel um Rechen- und Analyseergebnisse in die EUDAT Infrastruktur zurückzuschreiben

• Verfahren für den Import von Datensätzen in die EUDAT Infrastruktur17

Zielt auf Communities, die …… Zugriff auf große Datenspeicher und

HPC Systeme brauchen… Daten von EUDAT Datenspeichern zu

entfernten HPC Systemen (z.B. PRACE oder XSEDE) versenden wollen

… einen einfachen Weg für den Datenimport in die EUDAT Infrastruktur suchen

Nutzbar für alle EUDAT Communities, die Daten aus der EUDAT Infrastruktur exportieren oder Analyseergebnisse bzw. neue Datensätze in die EUDAT Infrastruktur importieren wollen

18

Benutzerfreundlicher, zuverlässiger Dienst zum Speichern und Sharing von Forschungsdaten• Einfache Online Registrierung für Datenanbieter• Vereinfacht das Hochladen und die Speicherung von kleinen

wissenschaftlichen Datensätzen• Erlaubt Anwendern ihre Daten mit anderen Wissenschaftlern zu teilen

19

Zielt auf Wissenschaftler, die …… keine passende Möglichkeit haben um Forschungsdaten mit

Metadaten zu speichern… sich um die Haltbarkeit ihrer lokal gespeicherten Daten

Sorgen machen… keinen passenden Dienst

haben um ihre Daten, Ergebnisse und Ideen mit Wissenschaftlern weltweit zu teilen

Offen für alle EuropäischenWissenschaftler auch Citizen Scientists

20

Eigenschaften• Einfacher Upload Prozess• Rechtemanagement• Langzeitdatenhaltung• Metadaten Extraktion für eine

Vielzahl von Datentypen• Referenzierbare Daten für

einfaches Sharing und Wiederverwenden

21

EUDAT Metadaten Dienst• Einfaches Auffinden von Kollektionen wissenschaftlicher Daten• Zugriff auf Datenkollektionen durch Referenzen in den Metadaten• Kommentieren von Metadaten und Ressourcen und teilen dieser

Kommentare mit anderen Wissenschaftlern

22

Zielt auf Wissenschaftler, die…… schnell nützliche Daten für

Forschungszwecke finden wollen… neue Datenkollektionen für

spezifische Forschungsfragen bilden wollen

… einen schnellen Überblick über verfügbare Forschungsdaten bekommen möchten

… Kommentare über Daten und Metadaten mit anderen Wissenschaftlern teilen möchten

Offen für alle Wissenschaftlerkostenfrei

23

Nutzung• Communities

entscheiden welcheMetadaten veröffentlichtwerden

• Metadatenanbieterwerden regelmäßigdurchforstet um umfassende und aktuelleMetadaten anzuzeigen

24

25

Community Store EUDAT Site A

EUDAT Site B

EUDAT Site C

OAI‐PMH

http http

Citizen scientists

Angepasster Dienstfür wissenschaftliche Communitiesund Citizen Scientists

iRodsGridFTP

Researchers

Data Managers

OAI‐PMH

PID

PID

PID

Neue Dienste

• Evaluation und Auswahl geeigneter Technologien• Design des Dienstes und Evaluation mit interessierten

Communities• Integration des Dienstes mit den etablierten Diensten der

EUDAT Infrastruktur

26

EUDAT in H2020• EINFRA-1-2014: Managing, Preserving, and Computing with Big Data • CDI wird als Föderation partnerschaftlich zusammenarbeitender

Zentren etabliert, die die Vielfalt zahlreicher Community-spezifischer Repositories mit der Beständigkeit der größten Europäischen wissenschaftlichen Datenzentren verbindet

• Wirtschaftliche, nutzergetriebene, benutzerfreundliche, anpassbare, belastbare und skalierbare CDI bietet eine integrierte Lösung für das Datenmanagement im gesamten Lebenszyklus (Erzeugung, Verarbeitung, Bewahrung, Zugriff und Wiederverwendung)

• Infrastruktur, die in andere e-Infrastrukturen (Grid, Cloud, HTC, HPC) integriert wird, mit ihnen interoperable ist und so die Cross-Infrastruktur Nutzung vorantreibt

• Infrastruktur mit klaren Dienstangeboten und einem Business- bzw. Einnahmemodell, dass ihren Betrieb ohne Projektförderung ermöglicht

27

CDI benutzen oder beitreten

CDI benutzen• Suchen und verwenden von Daten bzw. speichern von Datensätze

in der CDI über eines der öffentlichen Front-Ends

CDI beitreten• Integration mit mindestens einem EUDAT Zentrum

28

Netzwerk zuverlässiger Zentren

• Eigenständige Zentren arbeiten in einem gemeinsamen Verbund um Dienste anzubieten

• Universelle Datenzentren mit langjähriger Erfahrung in der Zusammenarbeit

• Community Datenzentren mit Verbindung zu wenigstens einem universellen Datenzentrum

• EUDAT bietet Lösungenin einer föderierten Umgebung

29

Interagieren mit EUDAT

Existierende EUDAT Dienste evaluieren• B2FIND• B2SAFE• B2STAGE• B2SHARE

Diskussionen zu existierenden und neuen Diensten• EUDAT User Forum• EUDAT Konferenz• EUDAT Partner

EUDAT Observer oder Associated Partner werden30

3rd EUDAT ConferenceBringing data infrastructures to Horizon2020

24-25 September 2014

De Meervaart Conference CentreAmsterdam, The Netherlands

Co-located with the Research Data Alliance 4th Plenary Meeting

31