5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim...
Transcript of 5. RADAR-WORKSHOP€¦ · Zugriff direkt aus wissenschaftlichen Tools ... Datenpakete werden beim...
5. RADAR-WORKSHOP HALLE, 27./28. NOV. 2019
EINFÜHRUNG IN RADAR UND GRUNDLEGENDE KONZEPTE
Kerstin Soltau, FIZ Karlsruhe
RADAR IM ÜBERBLICK
ENTSTEHUNG
KONZEPTE
ARCHITEKTUR
DIENSTLEISTUNGEN UND DIENSTMERKMALE
2
RADAR (Research Data Repository) ist:
Disziplinübergreifendes Forschungsdatenrepository
zur Archivierung und Publikation von Forschungsdaten
aus abgeschlossenen wissenschaftlichen Studien / Projekten
für öffentlich geförderte Hochschulen und außeruniversitäre
Forschungseinrichtungen in Deutschland.
RADAR
3 5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - Vom DFG-Projekt zum Produkt
4
DFG-Projekt (2013-2016)
„Aus der Community für die Community“
Interdisziplinäres Projekt-Konsortium:
Infrastruktureinrichtungen
Community-VertreterInnen
„muss von den Bedarfen der Wissenschaft ausgehen“
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - Zielsetzung
5
Keine Konkurrenz zu etablierten
disziplinären Datenzentren
Disziplinübergreifender Dienst,
v.a. für „Long tail“
Gehosteter „All-in-One“ Cloud-Service
Zentrale Datenspeicherung in Deutschland
und unter deutschem Recht
Nachhaltiges, sich selbst tragendes
Geschäftsmodell
Quelle: Ferguson et al. (2014): Big data from small data: data-sharing in the 'long tail' of neuroscience. DOI: 10.1038/nn.3838
“The majority of datasets produced through research are part of the
‘Long Tail of Research Data’”
Quelle: Humphrey C (2014): OpenAIRE-COAR Conference, Athens
Science Survey 2011:
48 % of respondents were working with datasets that were <1GB in size 50 % stored data exclusively! in labs
Source: Science (2011): 331(6018), p. 692-693. DOI: 10.1126/science.331.6018.692
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR – Bedarfsorientierung in der Projektphase
6
Test-NutzerInnen
• Test Prototyp
• Feedback
Fach-öffentlich-
keit
Wissen-schaftlicher
Beirat
• Beratung
• Evaluierung
Projekt Frühzeitige Einbindung. Rat / Feedback fließen in finale Spezifikation ein. Projektende: - Projektinternes Ticketsystem: 1226 Einträge - 6 Software-Iterationen
• 3 Workshops • Präsentationen • Publikationen
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR – Portal www. radar-service.eu
7
Repository für:
delegiertes Management
sichere Archivierung
einfache Publikation (Dissemination, Sichtbar-machung und Auffindbarkeit)
von Forschungsdaten
Primäre Zielgruppen:
Öffentliche Hochschulen und Forschungseinrichtungen
Forschende
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - Dienstleistungen
8
Datenarchivierung mit Datenpublikation
Unbegrenzte Haltefrist (mind. 25 Jahre)
Optionale Embargos (1-12 Monate)
Vergabe eines DOI (DataCite)
Metadaten indexiert (RADAR, DataCite, OAI, Google)
Auswahl von Lizenzen für Nachnutzung (inkl. CC)
Schnittstelle für Peer Review
Datenarchivierung
Sichere Verwahrung ohne Veröffentlichung
Flexible Haltefrist (5, 10, 15 Jahre)
Formatunabhängig / Disziplinunabhängig
DatengeberInnen bestimmen Zugriffs-
rechte (privat/geteilt/öffentlich)
Quelle: Wikimedia Commons/Simon A. Eugster. CC 3.0 BY SA
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
Anbieter und Vertragspartner
Datenarchivierung und IT-Infrastruktur
Datenarchivierung
Vergabe von DOI (DataCite),
Marketing, Beratung, Training (mit FIZ KA)
Kooperationspartner:
RADAR - Verteilte Informationsinfrastruktur
9 5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR – Modulare, offene Systemarchitektur
10
APIs ermöglichen Interoperabilität
und Flexibilität:
RADAR API
Maßgeschneiderte Weboberfläche
Integration in bestehende Workflows
Zugriff direkt aus wissenschaftlichen Tools
Data Center API
Datenzentren: SCC und ZIH
Dauerhafte Speicherung in anderen
Datenzentren!
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR – 2-stufige Datenübernahme
11
I. Temporärer Speicher (Arbeitsspeicher)
Bearbeitung, Metadaten-Annotation und Qualitätssicherung
Übertragung von Einzeldateien oder Containern (.tar / .zip)
Protokoll: HTTPS
Daten „in Bearbeitung“ / „in Begutachtung“
II. Permanenter Speicher (Archiv)
Keine Bearbeitung mehr möglich
Übertragung von Datenpaketen (.tar)
Protokoll: SFTP
Daten „Archiviert“ / „Publiziert“
Quelle: User:Kku / Wikimedia Commons / CC BY-SA 3.0
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR – Speicherung und Abruf der Daten als Datenpaket
12
Forschungsdaten werden als Zusammenstellung von Dateien abgespeichert
Daten werden als Paket archiviert/publiziert und abgerufen (TAR-Datei)
Das Paket nutzt das BagIt-Format und enthält
Forschungsdaten (inkl. vollständige Datei- und Ordnerstruktur)
alle zugehörigen Metadaten
einige übergreifende Informationen (Manifest, Checksum)
Das Paket wird über persistente Identifier (DOI / RADAR ID) identifiziert, nicht die darin enthaltenen Dateien
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR – Bitstream Preservation
13
Für temporäre Daten:
Datenintegrität bei der Datenübertragung durch Prüfsummenbildung
Redundantes Plattensystem (RAID-6) mit täglicher Sicherung
Für archivierte/publizierte Daten:
Datenintegrität durch Prüfsummenbildung:
Datenpakete werden beim Schreiben mit Checksum versehen (Metadaten)
Datensicherheit und Redundanz:
Drei Bandkopien an drei Standorten (2 x SCC, 1 x ZIH)
Rechenzentren mit unterschiedliche Hard- und Software / Administration
Regelmäßige Migration auf neue Speichermedien, dabei Prüfung der Datenintegrität Source: SCC, Karlsruher Institute for Technology (KIT)
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - Überblick
14
Im Scope:
• Generische Dienstleistung.
‘Long Tail’-Daten
• Daten aus abgeschlossenen Projekten
• Bitstream preservation
• Drei Kopien, zwei Rechenzentren
• 25+ Jahre Haltefrist für publizierte
Daten
• Daten unterliegen deutschem
bzw. EU-Recht
Außerhalb des Scopes:
• Management von aktiven Daten
• Funktionale Langzeitarchivierung
• Regelmäßige Fixity Checks
• Personenbezogene Daten
• ‘Big Data’-Disziplinen
Source: Pixabay/User moritz320, CC0
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - Mehr als Speichern auf Tape-Archiv
15
Disziplinübergreifende Metadatenverwaltung
Auf Ebene von Datenpaketen, VZ, Dateien
Interoperables Metadaten-Schema: DataCite, Dublin Core, schema.org
Unterstützt die FAIR Principles
Delegierte Administration durch nutzende Einrichtungen
Rollen- und Rechtemanagement,
anpassbar an Workflows für Datenaufbereitung und Qualitätssicherung
Kundenspezifische Anpassungen,
z.B. Customizing- und Branding-Optionen, Quotas, MD-Standardwerte
Nutzungsstatistiken
Integration von lokalen Authentifizierungssystemen (Shibboleth)
Vielfältige Schnittstellen, offene Formate, kein „Vendor Lock-in“ Quelle: Wikimedia Commons/User:Backlit - CC BY-SA 3.0
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR – Metadaten: Generisches Schema
16
Minimale Metadaten, um ein Datenpaket disziplinübergreifend zu beschreiben
und optional um weitere Elemente zu ergänzen
13 optionale Parameter Additional title
Description Keyword
Contributor Language*
Alternate identifier*
Related identifier*
Geo location*
Data source Software type
Data processing Related information
Funder information *
* Basiert auf dem Metadata Kernel v4.0
10 Pflichtparameter Identifier* (RADAR-ID/DOI)
Creator* Title*
Publisher* Production year or time span
Publication year* Subject area Resource*
Rights* Rightsholder
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - FAIR Principles
18
Metadaten tragen wesentlich zur Umsetzung der
FAIR Principles bei:
Findable Accessible Interoperable Re-Usable
RADAR fördert die Umsetzung der FAIR Principles
Quelle: Wilkinson et al. (2016) The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data DOI: 10.1038/sdata.2016.18
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - Rollen- und Rechtekonzept
19
Ermöglicht delegierte Administration
durch Institution
Flexibel anpassbar an Workflows /
Verantwortlichkeiten für Daten-
aufbereitung, QS, Kuratierung
Authentifizierung:
Registrierung bei RADAR
Über lokale Authentifizierungs-
systeme (Shibboleth / DFN-AAI)
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
RADAR - Kundenspezifische Anpassungen
20
Kostenkontrolle
Quotas (max. Speichervolumen) dienen zur Begrenzung bzw. Steuerung der Nutzung
auf Vertrags- und Arbeitsbereichsebene möglich für temporären Speicher, Archiv- und Publikationsspeicher
Standardisierung
Metadaten-Standardwerte (auf Vertrags-/ Arbeitsbereichsebene)
Branding
Integration des institutionellen Logos
Integration eines institutionellen Links
Definition einer Schmuckfarbe
Integration eigenes DOI-Präfix
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
AUSBLICK
RADAR – Ziele der bedarfsorientierten Produktentwicklung
22
Die RADAR Produktentwicklung zielt darauf ab…
Institutionsspezifische Besonderheiten stärker zu berücksichtigen
weitere Branding-Optionen!
Möglichkeit der Integration eigener IT / Rechenzentren
den generischen Dienst disziplinspezifisch zu erweitern
den Funktionsumfang zu erweitern
die Benutzung für Forschende zu vereinfachen
die FAIRness zu steigern: Optimierung der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Nachnutzbarkeit der Forschungsdaten
Qualität und Vertrauenswürdigkeit des Dienstes sicherzustellen
Zertifizierung nach dem CoreTrustSeal
5. RADAR-Workshop, Halle, 27./28. Nov. 2019
www.radar-service.eu www.radar-projekt.org
Except where otherwise noted, content on this site is licensed under a Creative Commons Attribution 4.0 International License.
Vielen Dank! Fragen?