5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim...

22
5. RADAR-WORKSHOP HALLE, 27./28. NOV. 2019 EINFÜHRUNG IN RADAR UND GRUNDLEGENDE KONZEPTE Kerstin Soltau, FIZ Karlsruhe

Transcript of 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim...

Page 1: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

5. RADAR-WORKSHOP HALLE, 27./28. NOV. 2019

EINFÜHRUNG IN RADAR UND GRUNDLEGENDE KONZEPTE

Kerstin Soltau, FIZ Karlsruhe

Page 2: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR IM ÜBERBLICK

ENTSTEHUNG

KONZEPTE

ARCHITEKTUR

DIENSTLEISTUNGEN UND DIENSTMERKMALE

2

Page 3: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR (Research Data Repository) ist:

Disziplinübergreifendes Forschungsdatenrepository

zur Archivierung und Publikation von Forschungsdaten

aus abgeschlossenen wissenschaftlichen Studien / Projekten

für öffentlich geförderte Hochschulen und außeruniversitäre

Forschungseinrichtungen in Deutschland.

RADAR

3 5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 4: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - Vom DFG-Projekt zum Produkt

4

DFG-Projekt (2013-2016)

„Aus der Community für die Community“

Interdisziplinäres Projekt-Konsortium:

Infrastruktureinrichtungen

Community-VertreterInnen

„muss von den Bedarfen der Wissenschaft ausgehen“

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 5: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - Zielsetzung

5

Keine Konkurrenz zu etablierten

disziplinären Datenzentren

Disziplinübergreifender Dienst,

v.a. für „Long tail“

Gehosteter „All-in-One“ Cloud-Service

Zentrale Datenspeicherung in Deutschland

und unter deutschem Recht

Nachhaltiges, sich selbst tragendes

Geschäftsmodell

Quelle: Ferguson et al. (2014): Big data from small data: data-sharing in the 'long tail' of neuroscience. DOI: 10.1038/nn.3838

“The majority of datasets produced through research are part of the

‘Long Tail of Research Data’”

Quelle: Humphrey C (2014): OpenAIRE-COAR Conference, Athens

Science Survey 2011:

48 % of respondents were working with datasets that were <1GB in size 50 % stored data exclusively! in labs

Source: Science (2011): 331(6018), p. 692-693. DOI: 10.1126/science.331.6018.692

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 6: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – Bedarfsorientierung in der Projektphase

6

Test-NutzerInnen

• Test Prototyp

• Feedback

Fach-öffentlich-

keit

Wissen-schaftlicher

Beirat

• Beratung

• Evaluierung

Projekt Frühzeitige Einbindung. Rat / Feedback fließen in finale Spezifikation ein. Projektende: - Projektinternes Ticketsystem: 1226 Einträge - 6 Software-Iterationen

• 3 Workshops • Präsentationen • Publikationen

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 7: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – Portal www. radar-service.eu

7

Repository für:

delegiertes Management

sichere Archivierung

einfache Publikation (Dissemination, Sichtbar-machung und Auffindbarkeit)

von Forschungsdaten

Primäre Zielgruppen:

Öffentliche Hochschulen und Forschungseinrichtungen

Forschende

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 8: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - Dienstleistungen

8

Datenarchivierung mit Datenpublikation

Unbegrenzte Haltefrist (mind. 25 Jahre)

Optionale Embargos (1-12 Monate)

Vergabe eines DOI (DataCite)

Metadaten indexiert (RADAR, DataCite, OAI, Google)

Auswahl von Lizenzen für Nachnutzung (inkl. CC)

Schnittstelle für Peer Review

Datenarchivierung

Sichere Verwahrung ohne Veröffentlichung

Flexible Haltefrist (5, 10, 15 Jahre)

Formatunabhängig / Disziplinunabhängig

DatengeberInnen bestimmen Zugriffs-

rechte (privat/geteilt/öffentlich)

Quelle: Wikimedia Commons/Simon A. Eugster. CC 3.0 BY SA

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 9: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

Anbieter und Vertragspartner

Datenarchivierung und IT-Infrastruktur

Datenarchivierung

Vergabe von DOI (DataCite),

Marketing, Beratung, Training (mit FIZ KA)

Kooperationspartner:

RADAR - Verteilte Informationsinfrastruktur

9 5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 10: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – Modulare, offene Systemarchitektur

10

APIs ermöglichen Interoperabilität

und Flexibilität:

RADAR API

Maßgeschneiderte Weboberfläche

Integration in bestehende Workflows

Zugriff direkt aus wissenschaftlichen Tools

Data Center API

Datenzentren: SCC und ZIH

Dauerhafte Speicherung in anderen

Datenzentren!

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 11: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – 2-stufige Datenübernahme

11

I. Temporärer Speicher (Arbeitsspeicher)

Bearbeitung, Metadaten-Annotation und Qualitätssicherung

Übertragung von Einzeldateien oder Containern (.tar / .zip)

Protokoll: HTTPS

Daten „in Bearbeitung“ / „in Begutachtung“

II. Permanenter Speicher (Archiv)

Keine Bearbeitung mehr möglich

Übertragung von Datenpaketen (.tar)

Protokoll: SFTP

Daten „Archiviert“ / „Publiziert“

Quelle: User:Kku / Wikimedia Commons / CC BY-SA 3.0

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 12: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – Speicherung und Abruf der Daten als Datenpaket

12

Forschungsdaten werden als Zusammenstellung von Dateien abgespeichert

Daten werden als Paket archiviert/publiziert und abgerufen (TAR-Datei)

Das Paket nutzt das BagIt-Format und enthält

Forschungsdaten (inkl. vollständige Datei- und Ordnerstruktur)

alle zugehörigen Metadaten

einige übergreifende Informationen (Manifest, Checksum)

Das Paket wird über persistente Identifier (DOI / RADAR ID) identifiziert, nicht die darin enthaltenen Dateien

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 13: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – Bitstream Preservation

13

Für temporäre Daten:

Datenintegrität bei der Datenübertragung durch Prüfsummenbildung

Redundantes Plattensystem (RAID-6) mit täglicher Sicherung

Für archivierte/publizierte Daten:

Datenintegrität durch Prüfsummenbildung:

Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten)

Datensicherheit und Redundanz:

Drei Bandkopien an drei Standorten (2 x SCC, 1 x ZIH)

Rechenzentren mit unterschiedliche Hard- und Software / Administration

Regelmäßige Migration auf neue Speichermedien, dabei Prüfung der Datenintegrität Source: SCC, Karlsruher Institute for Technology (KIT)

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 14: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - Überblick

14

Im Scope:

• Generische Dienstleistung.

‘Long Tail’-Daten

• Daten aus abgeschlossenen Projekten

• Bitstream preservation

• Drei Kopien, zwei Rechenzentren

• 25+ Jahre Haltefrist für publizierte

Daten

• Daten unterliegen deutschem

bzw. EU-Recht

Außerhalb des Scopes:

• Management von aktiven Daten

• Funktionale Langzeitarchivierung

• Regelmäßige Fixity Checks

• Personenbezogene Daten

• ‘Big Data’-Disziplinen

Source: Pixabay/User moritz320, CC0

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 15: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - Mehr als Speichern auf Tape-Archiv

15

Disziplinübergreifende Metadatenverwaltung

Auf Ebene von Datenpaketen, VZ, Dateien

Interoperables Metadaten-Schema: DataCite, Dublin Core, schema.org

Unterstützt die FAIR Principles

Delegierte Administration durch nutzende Einrichtungen

Rollen- und Rechtemanagement,

anpassbar an Workflows für Datenaufbereitung und Qualitätssicherung

Kundenspezifische Anpassungen,

z.B. Customizing- und Branding-Optionen, Quotas, MD-Standardwerte

Nutzungsstatistiken

Integration von lokalen Authentifizierungssystemen (Shibboleth)

Vielfältige Schnittstellen, offene Formate, kein „Vendor Lock-in“ Quelle: Wikimedia Commons/User:Backlit - CC BY-SA 3.0

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 16: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – Metadaten: Generisches Schema

16

Minimale Metadaten, um ein Datenpaket disziplinübergreifend zu beschreiben

und optional um weitere Elemente zu ergänzen

13 optionale Parameter Additional title

Description Keyword

Contributor Language*

Alternate identifier*

Related identifier*

Geo location*

Data source Software type

Data processing Related information

Funder information *

* Basiert auf dem Metadata Kernel v4.0

10 Pflichtparameter Identifier* (RADAR-ID/DOI)

Creator* Title*

Publisher* Production year or time span

Publication year* Subject area Resource*

Rights* Rightsholder

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 17: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - FAIR Principles

18

Metadaten tragen wesentlich zur Umsetzung der

FAIR Principles bei:

Findable Accessible Interoperable Re-Usable

RADAR fördert die Umsetzung der FAIR Principles

Quelle: Wilkinson et al. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data DOI: 10.1038/sdata.2016.18

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 18: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - Rollen- und Rechtekonzept

19

Ermöglicht delegierte Administration

durch Institution

Flexibel anpassbar an Workflows /

Verantwortlichkeiten für Daten-

aufbereitung, QS, Kuratierung

Authentifizierung:

Registrierung bei RADAR

Über lokale Authentifizierungs-

systeme (Shibboleth / DFN-AAI)

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 19: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR - Kundenspezifische Anpassungen

20

Kostenkontrolle

Quotas (max. Speichervolumen) dienen zur Begrenzung bzw. Steuerung der Nutzung

auf Vertrags- und Arbeitsbereichsebene möglich für temporären Speicher, Archiv- und Publikationsspeicher

Standardisierung

Metadaten-Standardwerte (auf Vertrags-/ Arbeitsbereichsebene)

Branding

Integration des institutionellen Logos

Integration eines institutionellen Links

Definition einer Schmuckfarbe

Integration eigenes DOI-Präfix

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 20: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

AUSBLICK

Page 21: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

RADAR – Ziele der bedarfsorientierten Produktentwicklung

22

Die RADAR Produktentwicklung zielt darauf ab…

Institutionsspezifische Besonderheiten stärker zu berücksichtigen

weitere Branding-Optionen!

Möglichkeit der Integration eigener IT / Rechenzentren

den generischen Dienst disziplinspezifisch zu erweitern

den Funktionsumfang zu erweitern

die Benutzung für Forschende zu vereinfachen

die FAIRness zu steigern: Optimierung der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Nachnutzbarkeit der Forschungsdaten

Qualität und Vertrauenswürdigkeit des Dienstes sicherzustellen

Zertifizierung nach dem CoreTrustSeal

5. RADAR-Workshop, Halle, 27./28. Nov. 2019

Page 22: 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten) Datensicherheit und Redundanz: Drei Bandkopien

www.radar-service.eu www.radar-projekt.org

Except where otherwise noted, content on this site is licensed under a Creative Commons Attribution 4.0 International License.

Vielen Dank! Fragen?