Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193...

12
Handbuch Forschungsdatenmanagement Herausgegeben von Stephan Büttner, Hans-Christoph Hobohm, Lars Müller BOCK + HERCHEN Verlag Bad Honnef 2011

Transcript of Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193...

Page 1: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

Handbuch Forschungsdatenmanagement

Herausgegeben von Stephan Buumlttner Hans-Christoph Hobohm Lars Muumlller

BOCK + HERCHEN Verlag Bad Honnef

2011

Die Inhalte dieses Buches stehen auch als Online-Version zur Verfuumlgung wwwforschungsdatenmanagementde Die Onlineversion steht unter folgender Creative-Common-Lizenz bdquoAttribution-NonCommercial-ShareAlike 30 Unportedldquo httpcreativecommonsorglicensesby-nc-sa30

ISBN 978-3-88347-283-6 BOCK+HERCHEN Verlag Bad Honnef Printed in Germany

12 Der Lebenszyklus von Forschungsdaten Stefanie Ruumlmpel Fachhochschule Duumlsseldorf

Fuumlr Wissenschaftler sind Veroumlffentlichungen unentbehrlich und werden als bdquoWaumlhrungldquo angesehen Die Forschungsdaten auf denen die Publikation basiert sind aber idR nicht enthalten

bdquoMit beginnender Analyse und Interpretation von Daten werden unter Umstaumlnden nicht mehr alle Details eines Rohdatensatzes transportiert [hellip] [Beispielsweise] werden zusammengefuumlhrte Einzelmessungen unter Umstaumlnden nur noch als Mittelwert dargestellt obwohl urspruumlnglich eine ganze Reihe von Forschungsdatensaumltzen erzeugt wurde [hellip]ldquo (TIB Hanshynover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 26ndash27)

Doch gerade die Daten sind deutlich interessanter und relevanter fuumlr weitere Forschungsprozesse um einen Mehrwert zu erreichen (Sietmann 2009 S 154)

bdquo [hellip] data is the currency of science even if publications are still the currency of tenure To be able to exchange data communicate it mine it reuse it and review it is essential to scientific productivity collaboration and to discovery itselfldquo (Gold 2007)

Mit anderen Worten Forschungsdaten nur als Grundlage fuumlr eine Publikation zu verwenden missachtet deren Wert Gegenwaumlrtig wird im Forschungsprozess meist darauf verzichtet auf bereits erhobene und gespeicherte Daten zuruumlckzushygreifen Eher werden kostenintensive Messwiederholungen in Kauf genommen

Die Technische Informationsbibliothek (TIB) formulierte bezogen auf das Fachgebiet Chemie die Missstaumlnde des Forschungsdatenmanagements deutlich

bdquoDer bisherige Umgang mit Forschungsdaten in der Chemie beinhaltet keine allgemein anerkannten Standards hinsichtlich einer Nachnutzbarshykeit oder langfristigen Verfuumlgbarkeit Uumlberwiegend existiert keine Qualishytaumltssicherung keine gesicherte Langzeitarchivierung kein gesicherter Nachweis sowie keine Erschlieszligung der Forschungsdaten und somit keine Datensicherheitldquo (TIB Hannover FIZ Chemie Berlin amp Universishytaumlt Paderborn 2010 S 5)

Diese Vorgehensweise ist vorherrschend da Daten aus vielen Forschungsproshyzessen idR noch gar nicht dauerhaft gespeichert oder aufbereitet werden Gruumlnde sind sowohl auf Seiten der Wissenschaftler als auch der Institutionen zu finden beispielsweise Unwissenheit uumlber persistente und qualitative Verwaltung der Daten Hemmnisse bezuumlglich der Datenspeicherung oder fehlende Transpashyrenz der gespeicherten Daten in Repositorien

26 Stefanie Ruumlmpel

Um die Distanz von Wissenschaftlern und allen Involvierten im Forschungsshyprozess gegenuumlber der Aufbereitung von Daten zu mindern erscheint es wesentshylich das Bewusstsein der Wissenschaftler fuumlr die Notwendigkeit einer Nachshyvollziehbarkeit der Forschung zu foumlrdern Dabei muss beachtet werden dass die dauerhafte Speicherung Pflege und Bereitstellung von Forschungsdaten einen erheblichen Arbeitsaufwand erfordert

Die Stimmen nach einem verantwortungsvollen und organisierten Umgang mit Forschungsdaten werden immer lauter

bdquoEinhergehend mit der Bearbeitung von Forschungsdaten steigt die Gefahr von Fehlern und Fehlinterpretationen Umso komplexer die Experimente Datenstrukturen und Fragestellungen desto relevanter wird die Verfuumlgbarkeit von urspruumlnglichen Forschungsdaten um Ergebshynisse kritisch zu evaluieren Daher ist der oumlffentliche Zugang zu den Forshyschungsdaten im wissenschaftlichen Erkenntnisgewinn eminentldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 27)

Der gegenwaumlrtige Lebenszyklus von Forschungsdaten sieht jedoch anders aus

Abb 1 (links) Schematische Darstellung des wissenschaftlichen Informationsflusses in der Forschung (= bekannter Weg) (rechts) Veraumlnderter Umgang mit Daten (Klump et al 2006 S 80 nach Helly Staudigel amp Koppers 2003 S 2)

bdquo[] Forschungsdaten sind die Grundlage jeglicher wissenschaftlicher Arbeit Ausgehend vom Experiment durchlaufen Forschungsdaten viele dem Wissenschaftler bekannte Stadien die letztendlich als Erkenntnisgeshywinn in einer wissenschaftlichen Publikation muumlnden Danach verliert sich der bis dahin so klare Weg der Forschungsdaten was deren Dokushymentation langfristige Speicherung oder Nachnutzbarkeit fuumlr andere Wissenschaftler betrifftldquo (TIB Hannover FIZ Chemie Berlin amp Univershysitaumlt Paderborn 2010 S 7)

Der Anspruch ist die Daten aus den bdquoPapierkoumlrbenldquo der Forscher heraus in dasLicht der Oumlffentlichkeit zu bringen Sicher die Speicherung von vielen einzelshynen Daten ist arbeitsintensiver als die Speicherung einer einzelnen Text-Publishy

27 12 Der Lebenszyklus von Forschungsdaten

kation Sie besitzen auszligerdem eine enorme Heterogenitaumlt und Komplexitaumlt wodurch sie zu bdquo[hellip] eine[r] wertvolle[n] jedoch schwierig zu handhabende[n] Ressource [hellip]ldquo (NESTOR 2009 S 1) werden Erforderlich ist also eine konseshyquent qualitative und persistente Verwaltung

Hilfe bei der komplexen Verwaltung von Forschungsdaten gibt deren Lebensshyzyklus Dieses wird im Folgenden mit Hilfe von zwei Modellen gezeigt Beide beschreiben die verschiedenen Lebensphasen von Forschungsdaten betrachten dies jedoch aus verschiedenen Blickwinkeln Im ersten Modell werden die theoshyretischen Anforderungen an den Umgang mit Daten aufgefuumlhrt im anderen die notwendigen technischen Bedingungen im Laufe des Lebenszyklus benannt

121 Curation-Lifecycle-Model Um einen Mehrwert von Forschungsdaten zu erhalten ist eine adaumlquate Verwalshytung notwendig Ihr Lebenszyklus erstreckt sich uumlber verschiedene Phasen die von der Entstehung in wissenschaftlichen Arbeitsprozessen bis zur nachnutzbashyren Archivierung reichen Die Anforderungen an das Management von Forshyschungsdaten gehen weit uumlber die Langzeitarchivierung hinaus (NESTOR 2009 S 1ndash2) Alle Taumltigkeiten des Forschungsdatenmanagements werden durch das bdquoCuration Lifecycle Modelldquo erstellt vom Digital Curation Centre (DCC) identifiziert (DCC 2010)

bdquoIt is important to note that the model is an ideal In reality users of the model may enter at any stage of the lifecycle depending on their current area of needldquo (DCC 2010)

Abb 2 Curation Lifecycle Model (DCC 2010)

28 Stefanie Ruumlmpel

Die Abbildung zeigt ein sich aus mehreren Ebenen zusammensetzendes Kreisshymodell Mittig sind die Taumltigkeiten angeordnet welche Daten waumlhrend des gesamten Lebenszyklus begleiten bdquoData Preservationldquo (Datenerhaltung) und bdquoData Curationldquo (Datenpflege) Beide ergaumlnzen sich und bilden die Kernproshyzesse der Digital Curation Diese Arbeiten muumlssen im gesamten Lebenszyklus von Forschungsdaten erfolgen Preservation bezieht sich auf die Bewahrung der Daten im Sinne der digitalen Langzeitarchivierung Um Daten nutzbar zu gestalshyten und zu behalten wird eine Pflege notwendig subsumiert unter dem Begriff bdquoData Curationldquo

Die sequenziellen Taumltigkeiten sind im aumluszligeren Kreis dargestellt Mit der Konshyzeption des Forschungsvorhabens erfolgt der Einstieg in den Kreislauf Bereitsvor der eigentlichen Forschungstaumltigkeit sind Uumlberlegungen bezuumlglich der anfalshylenden Daten in dem Modell integriert Die Deutsche Forschungsgemeinschaft (DFG) fordert beispielsweise seit kurzem die Beruumlcksichtigung des Forschungsshydatenmanagements bereits bei Beantragung von Forschungsvorhaben Vor dem Start der Forschung muumlssen nun alle relevanten Fragen bezuumlglich des Umgangs mit Forschungsdaten beantwortet werden (Winkler-Nees 2010 S 23)

Der naumlchste Schritt der Datenverwaltung ist die Datenerstellung und die Datenuumlbernahme Der Punkt bdquoDatenuumlbernahmeldquo macht klar dass es sich um einen Zyklus handelt bzw handeln kann In dieser bdquoLebensphaseldquo kann nach erhobenen Forschungsdaten recherchiert und diese im eigenen Forschungsproshyzess uumlbernommen werden Die Daten sind aber nur dann wiederverwendbar wenn deren Anreicherung mit Informationen so umfassend ist dass sie transpashyrent werden Wo wann und wie sind die Daten erhoben worden In vielen wisshysenschaftlichen Faumlchern ist es gegenwaumlrtig jedoch nicht moumlglich nach passenshyden Forschungsdaten zu recherchieren weil es keine ausreichenden Uumlbersichten uumlber die vorliegenden Daten gibt Der Schwerpunkt bei der Verwaltung liegt gegenwaumlrtig noch auf der Verwaltung von neu erhobenen Daten

Nicht alle Daten die erhoben wurden muumlssen gespeichert werden

bdquoDerzeit werden in den meisten Institutionen alle Primaumlrdaten so lange gespeichert bis diese irgendwann schleichend verloren gehenldquo (Severshyiens amp Hilf 2006 S 29)

Es muss eine Bewertung erfolgen welche Daten speicherwuumlrdig sind Daran schlieszligt sich die Selektion jener Forschungsdaten an die letztendlich gespeichert werden Daten die bei der Pruumlfung nicht als speicherwuumlrdig erachtet wurden koumlnnen im Sinne der Richtlinien bzw rechtlichen Anforderungen aussortiert werden Die DCC bezeichnet diesen Vorgang als bdquoDisposeldquo

bdquo[hellip] im Laborbetrieb [wird] eine groszlige Menge an Forschungsdaten proshyduziert die eher in den Bereich der Qualitaumltskontrolle von laufenden Prozessen fallen und nicht relevant fuumlr Publikationen sind Fuumlr solche

29 12 Der Lebenszyklus von Forschungsdaten

Forschungsdaten ist eine Speicherung in institutionellen Repositorien vorstellbar Erst bei der Zusammenfassung von wissenschaftlichen Ergebnissen und deren Aufbereitung fuumlr eine Veroumlffentlichung werden Forschungsdatensaumltze fuumlr die Untermauerung wissenschaftlicher Erkenntnisse und Thesen herangezogen Solche Forschungsdaten sind von Relevanz fuumlr die langfristige Speicherung und oumlffentliche Zugaumlngshylichkeitldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 30)

Mit der Speicherung werden Maszlignahmen zur Preservation notwendig

bdquoPreservation actions should ensure that data remains authentic reliable and usable while maintaining its integrity Actions include data cleaning validation assigning preservation metadata assigning representation information and ensuring acceptable data structures or file formatsldquo (DCC 2010)

Nach der Durchfuumlhrung der Preservation schlieszligt sich die bdquoLangzeitspeicheshyrungldquo an Dabei muss der Zugriff auf die Daten bzw auch die Benutzung oder die sich daraus resultierende Wiederverwendung gewaumlhrleistet sein

Die Komplexitaumlt des Datenmanagements wird offensichtlich Gegenwaumlrtig existieren Bereiche der Wissenschaft in denen die Datenverwaltung schon recht gut funktioniert In anderen wiederum trifft man beim Thema bdquoDatenverwalshytungldquo auf Diskrepanzen als auch auf Vorbehalte

Auch im folgenden zweiten Modell werden diese Komplexitaumlt sowie die Notshywendigkeit von Fachpersonal fuumlr die Umsetzung des Forschungsdatenmanageshyments deutlich

122 Data Curation Continuum Treloar und Harboe-Ree (2008) veranschaulichten in ihrem Model bdquoData Curashytion Continuumldquo das an der Monash University in Australien entwickelt wurde die unterschiedlichen Phasen im Lebenszyklus von Forschungsdaten Der Forshyschungsprozess wurde in diesem Modell in drei Domaumlnen unterteilt Es illushystriert dass jeder Bereich unterschiedliche teilweise gegensaumltzliche Anspruumlche besitzt Teils werden sogar verschiedene Technologien erforderlich

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 2: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

Die Inhalte dieses Buches stehen auch als Online-Version zur Verfuumlgung wwwforschungsdatenmanagementde Die Onlineversion steht unter folgender Creative-Common-Lizenz bdquoAttribution-NonCommercial-ShareAlike 30 Unportedldquo httpcreativecommonsorglicensesby-nc-sa30

ISBN 978-3-88347-283-6 BOCK+HERCHEN Verlag Bad Honnef Printed in Germany

12 Der Lebenszyklus von Forschungsdaten Stefanie Ruumlmpel Fachhochschule Duumlsseldorf

Fuumlr Wissenschaftler sind Veroumlffentlichungen unentbehrlich und werden als bdquoWaumlhrungldquo angesehen Die Forschungsdaten auf denen die Publikation basiert sind aber idR nicht enthalten

bdquoMit beginnender Analyse und Interpretation von Daten werden unter Umstaumlnden nicht mehr alle Details eines Rohdatensatzes transportiert [hellip] [Beispielsweise] werden zusammengefuumlhrte Einzelmessungen unter Umstaumlnden nur noch als Mittelwert dargestellt obwohl urspruumlnglich eine ganze Reihe von Forschungsdatensaumltzen erzeugt wurde [hellip]ldquo (TIB Hanshynover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 26ndash27)

Doch gerade die Daten sind deutlich interessanter und relevanter fuumlr weitere Forschungsprozesse um einen Mehrwert zu erreichen (Sietmann 2009 S 154)

bdquo [hellip] data is the currency of science even if publications are still the currency of tenure To be able to exchange data communicate it mine it reuse it and review it is essential to scientific productivity collaboration and to discovery itselfldquo (Gold 2007)

Mit anderen Worten Forschungsdaten nur als Grundlage fuumlr eine Publikation zu verwenden missachtet deren Wert Gegenwaumlrtig wird im Forschungsprozess meist darauf verzichtet auf bereits erhobene und gespeicherte Daten zuruumlckzushygreifen Eher werden kostenintensive Messwiederholungen in Kauf genommen

Die Technische Informationsbibliothek (TIB) formulierte bezogen auf das Fachgebiet Chemie die Missstaumlnde des Forschungsdatenmanagements deutlich

bdquoDer bisherige Umgang mit Forschungsdaten in der Chemie beinhaltet keine allgemein anerkannten Standards hinsichtlich einer Nachnutzbarshykeit oder langfristigen Verfuumlgbarkeit Uumlberwiegend existiert keine Qualishytaumltssicherung keine gesicherte Langzeitarchivierung kein gesicherter Nachweis sowie keine Erschlieszligung der Forschungsdaten und somit keine Datensicherheitldquo (TIB Hannover FIZ Chemie Berlin amp Universishytaumlt Paderborn 2010 S 5)

Diese Vorgehensweise ist vorherrschend da Daten aus vielen Forschungsproshyzessen idR noch gar nicht dauerhaft gespeichert oder aufbereitet werden Gruumlnde sind sowohl auf Seiten der Wissenschaftler als auch der Institutionen zu finden beispielsweise Unwissenheit uumlber persistente und qualitative Verwaltung der Daten Hemmnisse bezuumlglich der Datenspeicherung oder fehlende Transpashyrenz der gespeicherten Daten in Repositorien

26 Stefanie Ruumlmpel

Um die Distanz von Wissenschaftlern und allen Involvierten im Forschungsshyprozess gegenuumlber der Aufbereitung von Daten zu mindern erscheint es wesentshylich das Bewusstsein der Wissenschaftler fuumlr die Notwendigkeit einer Nachshyvollziehbarkeit der Forschung zu foumlrdern Dabei muss beachtet werden dass die dauerhafte Speicherung Pflege und Bereitstellung von Forschungsdaten einen erheblichen Arbeitsaufwand erfordert

Die Stimmen nach einem verantwortungsvollen und organisierten Umgang mit Forschungsdaten werden immer lauter

bdquoEinhergehend mit der Bearbeitung von Forschungsdaten steigt die Gefahr von Fehlern und Fehlinterpretationen Umso komplexer die Experimente Datenstrukturen und Fragestellungen desto relevanter wird die Verfuumlgbarkeit von urspruumlnglichen Forschungsdaten um Ergebshynisse kritisch zu evaluieren Daher ist der oumlffentliche Zugang zu den Forshyschungsdaten im wissenschaftlichen Erkenntnisgewinn eminentldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 27)

Der gegenwaumlrtige Lebenszyklus von Forschungsdaten sieht jedoch anders aus

Abb 1 (links) Schematische Darstellung des wissenschaftlichen Informationsflusses in der Forschung (= bekannter Weg) (rechts) Veraumlnderter Umgang mit Daten (Klump et al 2006 S 80 nach Helly Staudigel amp Koppers 2003 S 2)

bdquo[] Forschungsdaten sind die Grundlage jeglicher wissenschaftlicher Arbeit Ausgehend vom Experiment durchlaufen Forschungsdaten viele dem Wissenschaftler bekannte Stadien die letztendlich als Erkenntnisgeshywinn in einer wissenschaftlichen Publikation muumlnden Danach verliert sich der bis dahin so klare Weg der Forschungsdaten was deren Dokushymentation langfristige Speicherung oder Nachnutzbarkeit fuumlr andere Wissenschaftler betrifftldquo (TIB Hannover FIZ Chemie Berlin amp Univershysitaumlt Paderborn 2010 S 7)

Der Anspruch ist die Daten aus den bdquoPapierkoumlrbenldquo der Forscher heraus in dasLicht der Oumlffentlichkeit zu bringen Sicher die Speicherung von vielen einzelshynen Daten ist arbeitsintensiver als die Speicherung einer einzelnen Text-Publishy

27 12 Der Lebenszyklus von Forschungsdaten

kation Sie besitzen auszligerdem eine enorme Heterogenitaumlt und Komplexitaumlt wodurch sie zu bdquo[hellip] eine[r] wertvolle[n] jedoch schwierig zu handhabende[n] Ressource [hellip]ldquo (NESTOR 2009 S 1) werden Erforderlich ist also eine konseshyquent qualitative und persistente Verwaltung

Hilfe bei der komplexen Verwaltung von Forschungsdaten gibt deren Lebensshyzyklus Dieses wird im Folgenden mit Hilfe von zwei Modellen gezeigt Beide beschreiben die verschiedenen Lebensphasen von Forschungsdaten betrachten dies jedoch aus verschiedenen Blickwinkeln Im ersten Modell werden die theoshyretischen Anforderungen an den Umgang mit Daten aufgefuumlhrt im anderen die notwendigen technischen Bedingungen im Laufe des Lebenszyklus benannt

121 Curation-Lifecycle-Model Um einen Mehrwert von Forschungsdaten zu erhalten ist eine adaumlquate Verwalshytung notwendig Ihr Lebenszyklus erstreckt sich uumlber verschiedene Phasen die von der Entstehung in wissenschaftlichen Arbeitsprozessen bis zur nachnutzbashyren Archivierung reichen Die Anforderungen an das Management von Forshyschungsdaten gehen weit uumlber die Langzeitarchivierung hinaus (NESTOR 2009 S 1ndash2) Alle Taumltigkeiten des Forschungsdatenmanagements werden durch das bdquoCuration Lifecycle Modelldquo erstellt vom Digital Curation Centre (DCC) identifiziert (DCC 2010)

bdquoIt is important to note that the model is an ideal In reality users of the model may enter at any stage of the lifecycle depending on their current area of needldquo (DCC 2010)

Abb 2 Curation Lifecycle Model (DCC 2010)

28 Stefanie Ruumlmpel

Die Abbildung zeigt ein sich aus mehreren Ebenen zusammensetzendes Kreisshymodell Mittig sind die Taumltigkeiten angeordnet welche Daten waumlhrend des gesamten Lebenszyklus begleiten bdquoData Preservationldquo (Datenerhaltung) und bdquoData Curationldquo (Datenpflege) Beide ergaumlnzen sich und bilden die Kernproshyzesse der Digital Curation Diese Arbeiten muumlssen im gesamten Lebenszyklus von Forschungsdaten erfolgen Preservation bezieht sich auf die Bewahrung der Daten im Sinne der digitalen Langzeitarchivierung Um Daten nutzbar zu gestalshyten und zu behalten wird eine Pflege notwendig subsumiert unter dem Begriff bdquoData Curationldquo

Die sequenziellen Taumltigkeiten sind im aumluszligeren Kreis dargestellt Mit der Konshyzeption des Forschungsvorhabens erfolgt der Einstieg in den Kreislauf Bereitsvor der eigentlichen Forschungstaumltigkeit sind Uumlberlegungen bezuumlglich der anfalshylenden Daten in dem Modell integriert Die Deutsche Forschungsgemeinschaft (DFG) fordert beispielsweise seit kurzem die Beruumlcksichtigung des Forschungsshydatenmanagements bereits bei Beantragung von Forschungsvorhaben Vor dem Start der Forschung muumlssen nun alle relevanten Fragen bezuumlglich des Umgangs mit Forschungsdaten beantwortet werden (Winkler-Nees 2010 S 23)

Der naumlchste Schritt der Datenverwaltung ist die Datenerstellung und die Datenuumlbernahme Der Punkt bdquoDatenuumlbernahmeldquo macht klar dass es sich um einen Zyklus handelt bzw handeln kann In dieser bdquoLebensphaseldquo kann nach erhobenen Forschungsdaten recherchiert und diese im eigenen Forschungsproshyzess uumlbernommen werden Die Daten sind aber nur dann wiederverwendbar wenn deren Anreicherung mit Informationen so umfassend ist dass sie transpashyrent werden Wo wann und wie sind die Daten erhoben worden In vielen wisshysenschaftlichen Faumlchern ist es gegenwaumlrtig jedoch nicht moumlglich nach passenshyden Forschungsdaten zu recherchieren weil es keine ausreichenden Uumlbersichten uumlber die vorliegenden Daten gibt Der Schwerpunkt bei der Verwaltung liegt gegenwaumlrtig noch auf der Verwaltung von neu erhobenen Daten

Nicht alle Daten die erhoben wurden muumlssen gespeichert werden

bdquoDerzeit werden in den meisten Institutionen alle Primaumlrdaten so lange gespeichert bis diese irgendwann schleichend verloren gehenldquo (Severshyiens amp Hilf 2006 S 29)

Es muss eine Bewertung erfolgen welche Daten speicherwuumlrdig sind Daran schlieszligt sich die Selektion jener Forschungsdaten an die letztendlich gespeichert werden Daten die bei der Pruumlfung nicht als speicherwuumlrdig erachtet wurden koumlnnen im Sinne der Richtlinien bzw rechtlichen Anforderungen aussortiert werden Die DCC bezeichnet diesen Vorgang als bdquoDisposeldquo

bdquo[hellip] im Laborbetrieb [wird] eine groszlige Menge an Forschungsdaten proshyduziert die eher in den Bereich der Qualitaumltskontrolle von laufenden Prozessen fallen und nicht relevant fuumlr Publikationen sind Fuumlr solche

29 12 Der Lebenszyklus von Forschungsdaten

Forschungsdaten ist eine Speicherung in institutionellen Repositorien vorstellbar Erst bei der Zusammenfassung von wissenschaftlichen Ergebnissen und deren Aufbereitung fuumlr eine Veroumlffentlichung werden Forschungsdatensaumltze fuumlr die Untermauerung wissenschaftlicher Erkenntnisse und Thesen herangezogen Solche Forschungsdaten sind von Relevanz fuumlr die langfristige Speicherung und oumlffentliche Zugaumlngshylichkeitldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 30)

Mit der Speicherung werden Maszlignahmen zur Preservation notwendig

bdquoPreservation actions should ensure that data remains authentic reliable and usable while maintaining its integrity Actions include data cleaning validation assigning preservation metadata assigning representation information and ensuring acceptable data structures or file formatsldquo (DCC 2010)

Nach der Durchfuumlhrung der Preservation schlieszligt sich die bdquoLangzeitspeicheshyrungldquo an Dabei muss der Zugriff auf die Daten bzw auch die Benutzung oder die sich daraus resultierende Wiederverwendung gewaumlhrleistet sein

Die Komplexitaumlt des Datenmanagements wird offensichtlich Gegenwaumlrtig existieren Bereiche der Wissenschaft in denen die Datenverwaltung schon recht gut funktioniert In anderen wiederum trifft man beim Thema bdquoDatenverwalshytungldquo auf Diskrepanzen als auch auf Vorbehalte

Auch im folgenden zweiten Modell werden diese Komplexitaumlt sowie die Notshywendigkeit von Fachpersonal fuumlr die Umsetzung des Forschungsdatenmanageshyments deutlich

122 Data Curation Continuum Treloar und Harboe-Ree (2008) veranschaulichten in ihrem Model bdquoData Curashytion Continuumldquo das an der Monash University in Australien entwickelt wurde die unterschiedlichen Phasen im Lebenszyklus von Forschungsdaten Der Forshyschungsprozess wurde in diesem Modell in drei Domaumlnen unterteilt Es illushystriert dass jeder Bereich unterschiedliche teilweise gegensaumltzliche Anspruumlche besitzt Teils werden sogar verschiedene Technologien erforderlich

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 3: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

12 Der Lebenszyklus von Forschungsdaten Stefanie Ruumlmpel Fachhochschule Duumlsseldorf

Fuumlr Wissenschaftler sind Veroumlffentlichungen unentbehrlich und werden als bdquoWaumlhrungldquo angesehen Die Forschungsdaten auf denen die Publikation basiert sind aber idR nicht enthalten

bdquoMit beginnender Analyse und Interpretation von Daten werden unter Umstaumlnden nicht mehr alle Details eines Rohdatensatzes transportiert [hellip] [Beispielsweise] werden zusammengefuumlhrte Einzelmessungen unter Umstaumlnden nur noch als Mittelwert dargestellt obwohl urspruumlnglich eine ganze Reihe von Forschungsdatensaumltzen erzeugt wurde [hellip]ldquo (TIB Hanshynover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 26ndash27)

Doch gerade die Daten sind deutlich interessanter und relevanter fuumlr weitere Forschungsprozesse um einen Mehrwert zu erreichen (Sietmann 2009 S 154)

bdquo [hellip] data is the currency of science even if publications are still the currency of tenure To be able to exchange data communicate it mine it reuse it and review it is essential to scientific productivity collaboration and to discovery itselfldquo (Gold 2007)

Mit anderen Worten Forschungsdaten nur als Grundlage fuumlr eine Publikation zu verwenden missachtet deren Wert Gegenwaumlrtig wird im Forschungsprozess meist darauf verzichtet auf bereits erhobene und gespeicherte Daten zuruumlckzushygreifen Eher werden kostenintensive Messwiederholungen in Kauf genommen

Die Technische Informationsbibliothek (TIB) formulierte bezogen auf das Fachgebiet Chemie die Missstaumlnde des Forschungsdatenmanagements deutlich

bdquoDer bisherige Umgang mit Forschungsdaten in der Chemie beinhaltet keine allgemein anerkannten Standards hinsichtlich einer Nachnutzbarshykeit oder langfristigen Verfuumlgbarkeit Uumlberwiegend existiert keine Qualishytaumltssicherung keine gesicherte Langzeitarchivierung kein gesicherter Nachweis sowie keine Erschlieszligung der Forschungsdaten und somit keine Datensicherheitldquo (TIB Hannover FIZ Chemie Berlin amp Universishytaumlt Paderborn 2010 S 5)

Diese Vorgehensweise ist vorherrschend da Daten aus vielen Forschungsproshyzessen idR noch gar nicht dauerhaft gespeichert oder aufbereitet werden Gruumlnde sind sowohl auf Seiten der Wissenschaftler als auch der Institutionen zu finden beispielsweise Unwissenheit uumlber persistente und qualitative Verwaltung der Daten Hemmnisse bezuumlglich der Datenspeicherung oder fehlende Transpashyrenz der gespeicherten Daten in Repositorien

26 Stefanie Ruumlmpel

Um die Distanz von Wissenschaftlern und allen Involvierten im Forschungsshyprozess gegenuumlber der Aufbereitung von Daten zu mindern erscheint es wesentshylich das Bewusstsein der Wissenschaftler fuumlr die Notwendigkeit einer Nachshyvollziehbarkeit der Forschung zu foumlrdern Dabei muss beachtet werden dass die dauerhafte Speicherung Pflege und Bereitstellung von Forschungsdaten einen erheblichen Arbeitsaufwand erfordert

Die Stimmen nach einem verantwortungsvollen und organisierten Umgang mit Forschungsdaten werden immer lauter

bdquoEinhergehend mit der Bearbeitung von Forschungsdaten steigt die Gefahr von Fehlern und Fehlinterpretationen Umso komplexer die Experimente Datenstrukturen und Fragestellungen desto relevanter wird die Verfuumlgbarkeit von urspruumlnglichen Forschungsdaten um Ergebshynisse kritisch zu evaluieren Daher ist der oumlffentliche Zugang zu den Forshyschungsdaten im wissenschaftlichen Erkenntnisgewinn eminentldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 27)

Der gegenwaumlrtige Lebenszyklus von Forschungsdaten sieht jedoch anders aus

Abb 1 (links) Schematische Darstellung des wissenschaftlichen Informationsflusses in der Forschung (= bekannter Weg) (rechts) Veraumlnderter Umgang mit Daten (Klump et al 2006 S 80 nach Helly Staudigel amp Koppers 2003 S 2)

bdquo[] Forschungsdaten sind die Grundlage jeglicher wissenschaftlicher Arbeit Ausgehend vom Experiment durchlaufen Forschungsdaten viele dem Wissenschaftler bekannte Stadien die letztendlich als Erkenntnisgeshywinn in einer wissenschaftlichen Publikation muumlnden Danach verliert sich der bis dahin so klare Weg der Forschungsdaten was deren Dokushymentation langfristige Speicherung oder Nachnutzbarkeit fuumlr andere Wissenschaftler betrifftldquo (TIB Hannover FIZ Chemie Berlin amp Univershysitaumlt Paderborn 2010 S 7)

Der Anspruch ist die Daten aus den bdquoPapierkoumlrbenldquo der Forscher heraus in dasLicht der Oumlffentlichkeit zu bringen Sicher die Speicherung von vielen einzelshynen Daten ist arbeitsintensiver als die Speicherung einer einzelnen Text-Publishy

27 12 Der Lebenszyklus von Forschungsdaten

kation Sie besitzen auszligerdem eine enorme Heterogenitaumlt und Komplexitaumlt wodurch sie zu bdquo[hellip] eine[r] wertvolle[n] jedoch schwierig zu handhabende[n] Ressource [hellip]ldquo (NESTOR 2009 S 1) werden Erforderlich ist also eine konseshyquent qualitative und persistente Verwaltung

Hilfe bei der komplexen Verwaltung von Forschungsdaten gibt deren Lebensshyzyklus Dieses wird im Folgenden mit Hilfe von zwei Modellen gezeigt Beide beschreiben die verschiedenen Lebensphasen von Forschungsdaten betrachten dies jedoch aus verschiedenen Blickwinkeln Im ersten Modell werden die theoshyretischen Anforderungen an den Umgang mit Daten aufgefuumlhrt im anderen die notwendigen technischen Bedingungen im Laufe des Lebenszyklus benannt

121 Curation-Lifecycle-Model Um einen Mehrwert von Forschungsdaten zu erhalten ist eine adaumlquate Verwalshytung notwendig Ihr Lebenszyklus erstreckt sich uumlber verschiedene Phasen die von der Entstehung in wissenschaftlichen Arbeitsprozessen bis zur nachnutzbashyren Archivierung reichen Die Anforderungen an das Management von Forshyschungsdaten gehen weit uumlber die Langzeitarchivierung hinaus (NESTOR 2009 S 1ndash2) Alle Taumltigkeiten des Forschungsdatenmanagements werden durch das bdquoCuration Lifecycle Modelldquo erstellt vom Digital Curation Centre (DCC) identifiziert (DCC 2010)

bdquoIt is important to note that the model is an ideal In reality users of the model may enter at any stage of the lifecycle depending on their current area of needldquo (DCC 2010)

Abb 2 Curation Lifecycle Model (DCC 2010)

28 Stefanie Ruumlmpel

Die Abbildung zeigt ein sich aus mehreren Ebenen zusammensetzendes Kreisshymodell Mittig sind die Taumltigkeiten angeordnet welche Daten waumlhrend des gesamten Lebenszyklus begleiten bdquoData Preservationldquo (Datenerhaltung) und bdquoData Curationldquo (Datenpflege) Beide ergaumlnzen sich und bilden die Kernproshyzesse der Digital Curation Diese Arbeiten muumlssen im gesamten Lebenszyklus von Forschungsdaten erfolgen Preservation bezieht sich auf die Bewahrung der Daten im Sinne der digitalen Langzeitarchivierung Um Daten nutzbar zu gestalshyten und zu behalten wird eine Pflege notwendig subsumiert unter dem Begriff bdquoData Curationldquo

Die sequenziellen Taumltigkeiten sind im aumluszligeren Kreis dargestellt Mit der Konshyzeption des Forschungsvorhabens erfolgt der Einstieg in den Kreislauf Bereitsvor der eigentlichen Forschungstaumltigkeit sind Uumlberlegungen bezuumlglich der anfalshylenden Daten in dem Modell integriert Die Deutsche Forschungsgemeinschaft (DFG) fordert beispielsweise seit kurzem die Beruumlcksichtigung des Forschungsshydatenmanagements bereits bei Beantragung von Forschungsvorhaben Vor dem Start der Forschung muumlssen nun alle relevanten Fragen bezuumlglich des Umgangs mit Forschungsdaten beantwortet werden (Winkler-Nees 2010 S 23)

Der naumlchste Schritt der Datenverwaltung ist die Datenerstellung und die Datenuumlbernahme Der Punkt bdquoDatenuumlbernahmeldquo macht klar dass es sich um einen Zyklus handelt bzw handeln kann In dieser bdquoLebensphaseldquo kann nach erhobenen Forschungsdaten recherchiert und diese im eigenen Forschungsproshyzess uumlbernommen werden Die Daten sind aber nur dann wiederverwendbar wenn deren Anreicherung mit Informationen so umfassend ist dass sie transpashyrent werden Wo wann und wie sind die Daten erhoben worden In vielen wisshysenschaftlichen Faumlchern ist es gegenwaumlrtig jedoch nicht moumlglich nach passenshyden Forschungsdaten zu recherchieren weil es keine ausreichenden Uumlbersichten uumlber die vorliegenden Daten gibt Der Schwerpunkt bei der Verwaltung liegt gegenwaumlrtig noch auf der Verwaltung von neu erhobenen Daten

Nicht alle Daten die erhoben wurden muumlssen gespeichert werden

bdquoDerzeit werden in den meisten Institutionen alle Primaumlrdaten so lange gespeichert bis diese irgendwann schleichend verloren gehenldquo (Severshyiens amp Hilf 2006 S 29)

Es muss eine Bewertung erfolgen welche Daten speicherwuumlrdig sind Daran schlieszligt sich die Selektion jener Forschungsdaten an die letztendlich gespeichert werden Daten die bei der Pruumlfung nicht als speicherwuumlrdig erachtet wurden koumlnnen im Sinne der Richtlinien bzw rechtlichen Anforderungen aussortiert werden Die DCC bezeichnet diesen Vorgang als bdquoDisposeldquo

bdquo[hellip] im Laborbetrieb [wird] eine groszlige Menge an Forschungsdaten proshyduziert die eher in den Bereich der Qualitaumltskontrolle von laufenden Prozessen fallen und nicht relevant fuumlr Publikationen sind Fuumlr solche

29 12 Der Lebenszyklus von Forschungsdaten

Forschungsdaten ist eine Speicherung in institutionellen Repositorien vorstellbar Erst bei der Zusammenfassung von wissenschaftlichen Ergebnissen und deren Aufbereitung fuumlr eine Veroumlffentlichung werden Forschungsdatensaumltze fuumlr die Untermauerung wissenschaftlicher Erkenntnisse und Thesen herangezogen Solche Forschungsdaten sind von Relevanz fuumlr die langfristige Speicherung und oumlffentliche Zugaumlngshylichkeitldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 30)

Mit der Speicherung werden Maszlignahmen zur Preservation notwendig

bdquoPreservation actions should ensure that data remains authentic reliable and usable while maintaining its integrity Actions include data cleaning validation assigning preservation metadata assigning representation information and ensuring acceptable data structures or file formatsldquo (DCC 2010)

Nach der Durchfuumlhrung der Preservation schlieszligt sich die bdquoLangzeitspeicheshyrungldquo an Dabei muss der Zugriff auf die Daten bzw auch die Benutzung oder die sich daraus resultierende Wiederverwendung gewaumlhrleistet sein

Die Komplexitaumlt des Datenmanagements wird offensichtlich Gegenwaumlrtig existieren Bereiche der Wissenschaft in denen die Datenverwaltung schon recht gut funktioniert In anderen wiederum trifft man beim Thema bdquoDatenverwalshytungldquo auf Diskrepanzen als auch auf Vorbehalte

Auch im folgenden zweiten Modell werden diese Komplexitaumlt sowie die Notshywendigkeit von Fachpersonal fuumlr die Umsetzung des Forschungsdatenmanageshyments deutlich

122 Data Curation Continuum Treloar und Harboe-Ree (2008) veranschaulichten in ihrem Model bdquoData Curashytion Continuumldquo das an der Monash University in Australien entwickelt wurde die unterschiedlichen Phasen im Lebenszyklus von Forschungsdaten Der Forshyschungsprozess wurde in diesem Modell in drei Domaumlnen unterteilt Es illushystriert dass jeder Bereich unterschiedliche teilweise gegensaumltzliche Anspruumlche besitzt Teils werden sogar verschiedene Technologien erforderlich

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 4: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

26 Stefanie Ruumlmpel

Um die Distanz von Wissenschaftlern und allen Involvierten im Forschungsshyprozess gegenuumlber der Aufbereitung von Daten zu mindern erscheint es wesentshylich das Bewusstsein der Wissenschaftler fuumlr die Notwendigkeit einer Nachshyvollziehbarkeit der Forschung zu foumlrdern Dabei muss beachtet werden dass die dauerhafte Speicherung Pflege und Bereitstellung von Forschungsdaten einen erheblichen Arbeitsaufwand erfordert

Die Stimmen nach einem verantwortungsvollen und organisierten Umgang mit Forschungsdaten werden immer lauter

bdquoEinhergehend mit der Bearbeitung von Forschungsdaten steigt die Gefahr von Fehlern und Fehlinterpretationen Umso komplexer die Experimente Datenstrukturen und Fragestellungen desto relevanter wird die Verfuumlgbarkeit von urspruumlnglichen Forschungsdaten um Ergebshynisse kritisch zu evaluieren Daher ist der oumlffentliche Zugang zu den Forshyschungsdaten im wissenschaftlichen Erkenntnisgewinn eminentldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 27)

Der gegenwaumlrtige Lebenszyklus von Forschungsdaten sieht jedoch anders aus

Abb 1 (links) Schematische Darstellung des wissenschaftlichen Informationsflusses in der Forschung (= bekannter Weg) (rechts) Veraumlnderter Umgang mit Daten (Klump et al 2006 S 80 nach Helly Staudigel amp Koppers 2003 S 2)

bdquo[] Forschungsdaten sind die Grundlage jeglicher wissenschaftlicher Arbeit Ausgehend vom Experiment durchlaufen Forschungsdaten viele dem Wissenschaftler bekannte Stadien die letztendlich als Erkenntnisgeshywinn in einer wissenschaftlichen Publikation muumlnden Danach verliert sich der bis dahin so klare Weg der Forschungsdaten was deren Dokushymentation langfristige Speicherung oder Nachnutzbarkeit fuumlr andere Wissenschaftler betrifftldquo (TIB Hannover FIZ Chemie Berlin amp Univershysitaumlt Paderborn 2010 S 7)

Der Anspruch ist die Daten aus den bdquoPapierkoumlrbenldquo der Forscher heraus in dasLicht der Oumlffentlichkeit zu bringen Sicher die Speicherung von vielen einzelshynen Daten ist arbeitsintensiver als die Speicherung einer einzelnen Text-Publishy

27 12 Der Lebenszyklus von Forschungsdaten

kation Sie besitzen auszligerdem eine enorme Heterogenitaumlt und Komplexitaumlt wodurch sie zu bdquo[hellip] eine[r] wertvolle[n] jedoch schwierig zu handhabende[n] Ressource [hellip]ldquo (NESTOR 2009 S 1) werden Erforderlich ist also eine konseshyquent qualitative und persistente Verwaltung

Hilfe bei der komplexen Verwaltung von Forschungsdaten gibt deren Lebensshyzyklus Dieses wird im Folgenden mit Hilfe von zwei Modellen gezeigt Beide beschreiben die verschiedenen Lebensphasen von Forschungsdaten betrachten dies jedoch aus verschiedenen Blickwinkeln Im ersten Modell werden die theoshyretischen Anforderungen an den Umgang mit Daten aufgefuumlhrt im anderen die notwendigen technischen Bedingungen im Laufe des Lebenszyklus benannt

121 Curation-Lifecycle-Model Um einen Mehrwert von Forschungsdaten zu erhalten ist eine adaumlquate Verwalshytung notwendig Ihr Lebenszyklus erstreckt sich uumlber verschiedene Phasen die von der Entstehung in wissenschaftlichen Arbeitsprozessen bis zur nachnutzbashyren Archivierung reichen Die Anforderungen an das Management von Forshyschungsdaten gehen weit uumlber die Langzeitarchivierung hinaus (NESTOR 2009 S 1ndash2) Alle Taumltigkeiten des Forschungsdatenmanagements werden durch das bdquoCuration Lifecycle Modelldquo erstellt vom Digital Curation Centre (DCC) identifiziert (DCC 2010)

bdquoIt is important to note that the model is an ideal In reality users of the model may enter at any stage of the lifecycle depending on their current area of needldquo (DCC 2010)

Abb 2 Curation Lifecycle Model (DCC 2010)

28 Stefanie Ruumlmpel

Die Abbildung zeigt ein sich aus mehreren Ebenen zusammensetzendes Kreisshymodell Mittig sind die Taumltigkeiten angeordnet welche Daten waumlhrend des gesamten Lebenszyklus begleiten bdquoData Preservationldquo (Datenerhaltung) und bdquoData Curationldquo (Datenpflege) Beide ergaumlnzen sich und bilden die Kernproshyzesse der Digital Curation Diese Arbeiten muumlssen im gesamten Lebenszyklus von Forschungsdaten erfolgen Preservation bezieht sich auf die Bewahrung der Daten im Sinne der digitalen Langzeitarchivierung Um Daten nutzbar zu gestalshyten und zu behalten wird eine Pflege notwendig subsumiert unter dem Begriff bdquoData Curationldquo

Die sequenziellen Taumltigkeiten sind im aumluszligeren Kreis dargestellt Mit der Konshyzeption des Forschungsvorhabens erfolgt der Einstieg in den Kreislauf Bereitsvor der eigentlichen Forschungstaumltigkeit sind Uumlberlegungen bezuumlglich der anfalshylenden Daten in dem Modell integriert Die Deutsche Forschungsgemeinschaft (DFG) fordert beispielsweise seit kurzem die Beruumlcksichtigung des Forschungsshydatenmanagements bereits bei Beantragung von Forschungsvorhaben Vor dem Start der Forschung muumlssen nun alle relevanten Fragen bezuumlglich des Umgangs mit Forschungsdaten beantwortet werden (Winkler-Nees 2010 S 23)

Der naumlchste Schritt der Datenverwaltung ist die Datenerstellung und die Datenuumlbernahme Der Punkt bdquoDatenuumlbernahmeldquo macht klar dass es sich um einen Zyklus handelt bzw handeln kann In dieser bdquoLebensphaseldquo kann nach erhobenen Forschungsdaten recherchiert und diese im eigenen Forschungsproshyzess uumlbernommen werden Die Daten sind aber nur dann wiederverwendbar wenn deren Anreicherung mit Informationen so umfassend ist dass sie transpashyrent werden Wo wann und wie sind die Daten erhoben worden In vielen wisshysenschaftlichen Faumlchern ist es gegenwaumlrtig jedoch nicht moumlglich nach passenshyden Forschungsdaten zu recherchieren weil es keine ausreichenden Uumlbersichten uumlber die vorliegenden Daten gibt Der Schwerpunkt bei der Verwaltung liegt gegenwaumlrtig noch auf der Verwaltung von neu erhobenen Daten

Nicht alle Daten die erhoben wurden muumlssen gespeichert werden

bdquoDerzeit werden in den meisten Institutionen alle Primaumlrdaten so lange gespeichert bis diese irgendwann schleichend verloren gehenldquo (Severshyiens amp Hilf 2006 S 29)

Es muss eine Bewertung erfolgen welche Daten speicherwuumlrdig sind Daran schlieszligt sich die Selektion jener Forschungsdaten an die letztendlich gespeichert werden Daten die bei der Pruumlfung nicht als speicherwuumlrdig erachtet wurden koumlnnen im Sinne der Richtlinien bzw rechtlichen Anforderungen aussortiert werden Die DCC bezeichnet diesen Vorgang als bdquoDisposeldquo

bdquo[hellip] im Laborbetrieb [wird] eine groszlige Menge an Forschungsdaten proshyduziert die eher in den Bereich der Qualitaumltskontrolle von laufenden Prozessen fallen und nicht relevant fuumlr Publikationen sind Fuumlr solche

29 12 Der Lebenszyklus von Forschungsdaten

Forschungsdaten ist eine Speicherung in institutionellen Repositorien vorstellbar Erst bei der Zusammenfassung von wissenschaftlichen Ergebnissen und deren Aufbereitung fuumlr eine Veroumlffentlichung werden Forschungsdatensaumltze fuumlr die Untermauerung wissenschaftlicher Erkenntnisse und Thesen herangezogen Solche Forschungsdaten sind von Relevanz fuumlr die langfristige Speicherung und oumlffentliche Zugaumlngshylichkeitldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 30)

Mit der Speicherung werden Maszlignahmen zur Preservation notwendig

bdquoPreservation actions should ensure that data remains authentic reliable and usable while maintaining its integrity Actions include data cleaning validation assigning preservation metadata assigning representation information and ensuring acceptable data structures or file formatsldquo (DCC 2010)

Nach der Durchfuumlhrung der Preservation schlieszligt sich die bdquoLangzeitspeicheshyrungldquo an Dabei muss der Zugriff auf die Daten bzw auch die Benutzung oder die sich daraus resultierende Wiederverwendung gewaumlhrleistet sein

Die Komplexitaumlt des Datenmanagements wird offensichtlich Gegenwaumlrtig existieren Bereiche der Wissenschaft in denen die Datenverwaltung schon recht gut funktioniert In anderen wiederum trifft man beim Thema bdquoDatenverwalshytungldquo auf Diskrepanzen als auch auf Vorbehalte

Auch im folgenden zweiten Modell werden diese Komplexitaumlt sowie die Notshywendigkeit von Fachpersonal fuumlr die Umsetzung des Forschungsdatenmanageshyments deutlich

122 Data Curation Continuum Treloar und Harboe-Ree (2008) veranschaulichten in ihrem Model bdquoData Curashytion Continuumldquo das an der Monash University in Australien entwickelt wurde die unterschiedlichen Phasen im Lebenszyklus von Forschungsdaten Der Forshyschungsprozess wurde in diesem Modell in drei Domaumlnen unterteilt Es illushystriert dass jeder Bereich unterschiedliche teilweise gegensaumltzliche Anspruumlche besitzt Teils werden sogar verschiedene Technologien erforderlich

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 5: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

27 12 Der Lebenszyklus von Forschungsdaten

kation Sie besitzen auszligerdem eine enorme Heterogenitaumlt und Komplexitaumlt wodurch sie zu bdquo[hellip] eine[r] wertvolle[n] jedoch schwierig zu handhabende[n] Ressource [hellip]ldquo (NESTOR 2009 S 1) werden Erforderlich ist also eine konseshyquent qualitative und persistente Verwaltung

Hilfe bei der komplexen Verwaltung von Forschungsdaten gibt deren Lebensshyzyklus Dieses wird im Folgenden mit Hilfe von zwei Modellen gezeigt Beide beschreiben die verschiedenen Lebensphasen von Forschungsdaten betrachten dies jedoch aus verschiedenen Blickwinkeln Im ersten Modell werden die theoshyretischen Anforderungen an den Umgang mit Daten aufgefuumlhrt im anderen die notwendigen technischen Bedingungen im Laufe des Lebenszyklus benannt

121 Curation-Lifecycle-Model Um einen Mehrwert von Forschungsdaten zu erhalten ist eine adaumlquate Verwalshytung notwendig Ihr Lebenszyklus erstreckt sich uumlber verschiedene Phasen die von der Entstehung in wissenschaftlichen Arbeitsprozessen bis zur nachnutzbashyren Archivierung reichen Die Anforderungen an das Management von Forshyschungsdaten gehen weit uumlber die Langzeitarchivierung hinaus (NESTOR 2009 S 1ndash2) Alle Taumltigkeiten des Forschungsdatenmanagements werden durch das bdquoCuration Lifecycle Modelldquo erstellt vom Digital Curation Centre (DCC) identifiziert (DCC 2010)

bdquoIt is important to note that the model is an ideal In reality users of the model may enter at any stage of the lifecycle depending on their current area of needldquo (DCC 2010)

Abb 2 Curation Lifecycle Model (DCC 2010)

28 Stefanie Ruumlmpel

Die Abbildung zeigt ein sich aus mehreren Ebenen zusammensetzendes Kreisshymodell Mittig sind die Taumltigkeiten angeordnet welche Daten waumlhrend des gesamten Lebenszyklus begleiten bdquoData Preservationldquo (Datenerhaltung) und bdquoData Curationldquo (Datenpflege) Beide ergaumlnzen sich und bilden die Kernproshyzesse der Digital Curation Diese Arbeiten muumlssen im gesamten Lebenszyklus von Forschungsdaten erfolgen Preservation bezieht sich auf die Bewahrung der Daten im Sinne der digitalen Langzeitarchivierung Um Daten nutzbar zu gestalshyten und zu behalten wird eine Pflege notwendig subsumiert unter dem Begriff bdquoData Curationldquo

Die sequenziellen Taumltigkeiten sind im aumluszligeren Kreis dargestellt Mit der Konshyzeption des Forschungsvorhabens erfolgt der Einstieg in den Kreislauf Bereitsvor der eigentlichen Forschungstaumltigkeit sind Uumlberlegungen bezuumlglich der anfalshylenden Daten in dem Modell integriert Die Deutsche Forschungsgemeinschaft (DFG) fordert beispielsweise seit kurzem die Beruumlcksichtigung des Forschungsshydatenmanagements bereits bei Beantragung von Forschungsvorhaben Vor dem Start der Forschung muumlssen nun alle relevanten Fragen bezuumlglich des Umgangs mit Forschungsdaten beantwortet werden (Winkler-Nees 2010 S 23)

Der naumlchste Schritt der Datenverwaltung ist die Datenerstellung und die Datenuumlbernahme Der Punkt bdquoDatenuumlbernahmeldquo macht klar dass es sich um einen Zyklus handelt bzw handeln kann In dieser bdquoLebensphaseldquo kann nach erhobenen Forschungsdaten recherchiert und diese im eigenen Forschungsproshyzess uumlbernommen werden Die Daten sind aber nur dann wiederverwendbar wenn deren Anreicherung mit Informationen so umfassend ist dass sie transpashyrent werden Wo wann und wie sind die Daten erhoben worden In vielen wisshysenschaftlichen Faumlchern ist es gegenwaumlrtig jedoch nicht moumlglich nach passenshyden Forschungsdaten zu recherchieren weil es keine ausreichenden Uumlbersichten uumlber die vorliegenden Daten gibt Der Schwerpunkt bei der Verwaltung liegt gegenwaumlrtig noch auf der Verwaltung von neu erhobenen Daten

Nicht alle Daten die erhoben wurden muumlssen gespeichert werden

bdquoDerzeit werden in den meisten Institutionen alle Primaumlrdaten so lange gespeichert bis diese irgendwann schleichend verloren gehenldquo (Severshyiens amp Hilf 2006 S 29)

Es muss eine Bewertung erfolgen welche Daten speicherwuumlrdig sind Daran schlieszligt sich die Selektion jener Forschungsdaten an die letztendlich gespeichert werden Daten die bei der Pruumlfung nicht als speicherwuumlrdig erachtet wurden koumlnnen im Sinne der Richtlinien bzw rechtlichen Anforderungen aussortiert werden Die DCC bezeichnet diesen Vorgang als bdquoDisposeldquo

bdquo[hellip] im Laborbetrieb [wird] eine groszlige Menge an Forschungsdaten proshyduziert die eher in den Bereich der Qualitaumltskontrolle von laufenden Prozessen fallen und nicht relevant fuumlr Publikationen sind Fuumlr solche

29 12 Der Lebenszyklus von Forschungsdaten

Forschungsdaten ist eine Speicherung in institutionellen Repositorien vorstellbar Erst bei der Zusammenfassung von wissenschaftlichen Ergebnissen und deren Aufbereitung fuumlr eine Veroumlffentlichung werden Forschungsdatensaumltze fuumlr die Untermauerung wissenschaftlicher Erkenntnisse und Thesen herangezogen Solche Forschungsdaten sind von Relevanz fuumlr die langfristige Speicherung und oumlffentliche Zugaumlngshylichkeitldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 30)

Mit der Speicherung werden Maszlignahmen zur Preservation notwendig

bdquoPreservation actions should ensure that data remains authentic reliable and usable while maintaining its integrity Actions include data cleaning validation assigning preservation metadata assigning representation information and ensuring acceptable data structures or file formatsldquo (DCC 2010)

Nach der Durchfuumlhrung der Preservation schlieszligt sich die bdquoLangzeitspeicheshyrungldquo an Dabei muss der Zugriff auf die Daten bzw auch die Benutzung oder die sich daraus resultierende Wiederverwendung gewaumlhrleistet sein

Die Komplexitaumlt des Datenmanagements wird offensichtlich Gegenwaumlrtig existieren Bereiche der Wissenschaft in denen die Datenverwaltung schon recht gut funktioniert In anderen wiederum trifft man beim Thema bdquoDatenverwalshytungldquo auf Diskrepanzen als auch auf Vorbehalte

Auch im folgenden zweiten Modell werden diese Komplexitaumlt sowie die Notshywendigkeit von Fachpersonal fuumlr die Umsetzung des Forschungsdatenmanageshyments deutlich

122 Data Curation Continuum Treloar und Harboe-Ree (2008) veranschaulichten in ihrem Model bdquoData Curashytion Continuumldquo das an der Monash University in Australien entwickelt wurde die unterschiedlichen Phasen im Lebenszyklus von Forschungsdaten Der Forshyschungsprozess wurde in diesem Modell in drei Domaumlnen unterteilt Es illushystriert dass jeder Bereich unterschiedliche teilweise gegensaumltzliche Anspruumlche besitzt Teils werden sogar verschiedene Technologien erforderlich

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 6: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

28 Stefanie Ruumlmpel

Die Abbildung zeigt ein sich aus mehreren Ebenen zusammensetzendes Kreisshymodell Mittig sind die Taumltigkeiten angeordnet welche Daten waumlhrend des gesamten Lebenszyklus begleiten bdquoData Preservationldquo (Datenerhaltung) und bdquoData Curationldquo (Datenpflege) Beide ergaumlnzen sich und bilden die Kernproshyzesse der Digital Curation Diese Arbeiten muumlssen im gesamten Lebenszyklus von Forschungsdaten erfolgen Preservation bezieht sich auf die Bewahrung der Daten im Sinne der digitalen Langzeitarchivierung Um Daten nutzbar zu gestalshyten und zu behalten wird eine Pflege notwendig subsumiert unter dem Begriff bdquoData Curationldquo

Die sequenziellen Taumltigkeiten sind im aumluszligeren Kreis dargestellt Mit der Konshyzeption des Forschungsvorhabens erfolgt der Einstieg in den Kreislauf Bereitsvor der eigentlichen Forschungstaumltigkeit sind Uumlberlegungen bezuumlglich der anfalshylenden Daten in dem Modell integriert Die Deutsche Forschungsgemeinschaft (DFG) fordert beispielsweise seit kurzem die Beruumlcksichtigung des Forschungsshydatenmanagements bereits bei Beantragung von Forschungsvorhaben Vor dem Start der Forschung muumlssen nun alle relevanten Fragen bezuumlglich des Umgangs mit Forschungsdaten beantwortet werden (Winkler-Nees 2010 S 23)

Der naumlchste Schritt der Datenverwaltung ist die Datenerstellung und die Datenuumlbernahme Der Punkt bdquoDatenuumlbernahmeldquo macht klar dass es sich um einen Zyklus handelt bzw handeln kann In dieser bdquoLebensphaseldquo kann nach erhobenen Forschungsdaten recherchiert und diese im eigenen Forschungsproshyzess uumlbernommen werden Die Daten sind aber nur dann wiederverwendbar wenn deren Anreicherung mit Informationen so umfassend ist dass sie transpashyrent werden Wo wann und wie sind die Daten erhoben worden In vielen wisshysenschaftlichen Faumlchern ist es gegenwaumlrtig jedoch nicht moumlglich nach passenshyden Forschungsdaten zu recherchieren weil es keine ausreichenden Uumlbersichten uumlber die vorliegenden Daten gibt Der Schwerpunkt bei der Verwaltung liegt gegenwaumlrtig noch auf der Verwaltung von neu erhobenen Daten

Nicht alle Daten die erhoben wurden muumlssen gespeichert werden

bdquoDerzeit werden in den meisten Institutionen alle Primaumlrdaten so lange gespeichert bis diese irgendwann schleichend verloren gehenldquo (Severshyiens amp Hilf 2006 S 29)

Es muss eine Bewertung erfolgen welche Daten speicherwuumlrdig sind Daran schlieszligt sich die Selektion jener Forschungsdaten an die letztendlich gespeichert werden Daten die bei der Pruumlfung nicht als speicherwuumlrdig erachtet wurden koumlnnen im Sinne der Richtlinien bzw rechtlichen Anforderungen aussortiert werden Die DCC bezeichnet diesen Vorgang als bdquoDisposeldquo

bdquo[hellip] im Laborbetrieb [wird] eine groszlige Menge an Forschungsdaten proshyduziert die eher in den Bereich der Qualitaumltskontrolle von laufenden Prozessen fallen und nicht relevant fuumlr Publikationen sind Fuumlr solche

29 12 Der Lebenszyklus von Forschungsdaten

Forschungsdaten ist eine Speicherung in institutionellen Repositorien vorstellbar Erst bei der Zusammenfassung von wissenschaftlichen Ergebnissen und deren Aufbereitung fuumlr eine Veroumlffentlichung werden Forschungsdatensaumltze fuumlr die Untermauerung wissenschaftlicher Erkenntnisse und Thesen herangezogen Solche Forschungsdaten sind von Relevanz fuumlr die langfristige Speicherung und oumlffentliche Zugaumlngshylichkeitldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 30)

Mit der Speicherung werden Maszlignahmen zur Preservation notwendig

bdquoPreservation actions should ensure that data remains authentic reliable and usable while maintaining its integrity Actions include data cleaning validation assigning preservation metadata assigning representation information and ensuring acceptable data structures or file formatsldquo (DCC 2010)

Nach der Durchfuumlhrung der Preservation schlieszligt sich die bdquoLangzeitspeicheshyrungldquo an Dabei muss der Zugriff auf die Daten bzw auch die Benutzung oder die sich daraus resultierende Wiederverwendung gewaumlhrleistet sein

Die Komplexitaumlt des Datenmanagements wird offensichtlich Gegenwaumlrtig existieren Bereiche der Wissenschaft in denen die Datenverwaltung schon recht gut funktioniert In anderen wiederum trifft man beim Thema bdquoDatenverwalshytungldquo auf Diskrepanzen als auch auf Vorbehalte

Auch im folgenden zweiten Modell werden diese Komplexitaumlt sowie die Notshywendigkeit von Fachpersonal fuumlr die Umsetzung des Forschungsdatenmanageshyments deutlich

122 Data Curation Continuum Treloar und Harboe-Ree (2008) veranschaulichten in ihrem Model bdquoData Curashytion Continuumldquo das an der Monash University in Australien entwickelt wurde die unterschiedlichen Phasen im Lebenszyklus von Forschungsdaten Der Forshyschungsprozess wurde in diesem Modell in drei Domaumlnen unterteilt Es illushystriert dass jeder Bereich unterschiedliche teilweise gegensaumltzliche Anspruumlche besitzt Teils werden sogar verschiedene Technologien erforderlich

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 7: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

29 12 Der Lebenszyklus von Forschungsdaten

Forschungsdaten ist eine Speicherung in institutionellen Repositorien vorstellbar Erst bei der Zusammenfassung von wissenschaftlichen Ergebnissen und deren Aufbereitung fuumlr eine Veroumlffentlichung werden Forschungsdatensaumltze fuumlr die Untermauerung wissenschaftlicher Erkenntnisse und Thesen herangezogen Solche Forschungsdaten sind von Relevanz fuumlr die langfristige Speicherung und oumlffentliche Zugaumlngshylichkeitldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 30)

Mit der Speicherung werden Maszlignahmen zur Preservation notwendig

bdquoPreservation actions should ensure that data remains authentic reliable and usable while maintaining its integrity Actions include data cleaning validation assigning preservation metadata assigning representation information and ensuring acceptable data structures or file formatsldquo (DCC 2010)

Nach der Durchfuumlhrung der Preservation schlieszligt sich die bdquoLangzeitspeicheshyrungldquo an Dabei muss der Zugriff auf die Daten bzw auch die Benutzung oder die sich daraus resultierende Wiederverwendung gewaumlhrleistet sein

Die Komplexitaumlt des Datenmanagements wird offensichtlich Gegenwaumlrtig existieren Bereiche der Wissenschaft in denen die Datenverwaltung schon recht gut funktioniert In anderen wiederum trifft man beim Thema bdquoDatenverwalshytungldquo auf Diskrepanzen als auch auf Vorbehalte

Auch im folgenden zweiten Modell werden diese Komplexitaumlt sowie die Notshywendigkeit von Fachpersonal fuumlr die Umsetzung des Forschungsdatenmanageshyments deutlich

122 Data Curation Continuum Treloar und Harboe-Ree (2008) veranschaulichten in ihrem Model bdquoData Curashytion Continuumldquo das an der Monash University in Australien entwickelt wurde die unterschiedlichen Phasen im Lebenszyklus von Forschungsdaten Der Forshyschungsprozess wurde in diesem Modell in drei Domaumlnen unterteilt Es illushystriert dass jeder Bereich unterschiedliche teilweise gegensaumltzliche Anspruumlche besitzt Teils werden sogar verschiedene Technologien erforderlich

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 8: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

30 Stefanie Ruumlmpel

Abb 3 Data Curation Continuum (Treloar amp Harboe-Ree 2008 S 6)

Daten werden in einer Forschergruppe der sog bdquoPrivate Research Domainldquo erzeugt Fuumlr die Arbeit in dieser Phase werden bdquoresearch managementldquo Systemebenoumltigt die einen Uumlberblick uumlber die gesamten Datenbestaumlnde geben Ab der Entstehungsphase muumlssen Sie mit einem hohen Zugriffsschutz und Metadaten versehen werden Metadaten ergeben sich einerseits durch die geraumltespezifische Generierung andererseits vergibt der Wissenschaftler zusaumltzlich Metadaten um eine persoumlnliche Verwaltung zu erhalten (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Die Datenspeicherung erfolgt in einem bdquoResearch Data Storeldquo Sind die Forscher bereit Teilergebnisse ihrer Forschung anderen fuumlr Analysen zugaumlnglich zu machen erfolgt eine Migration in die sog bdquoShared Research Domainldquo Dies ergibt sich beispielsweise wenn dem Vorgeshysetzen oder kooperierenden Wissenschaftlern die bisherige Forschung praumlsenshytiert wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 32) Fuumlr diesen Austausch auch bezeichnet als bdquoData Sharingldquo werden Systeme notwendig die eine kollektive Arbeitsweise unterstuumltzten wie Plone oder TWiki Die Datenobjekte selbst befinden sich in Repositorien Somit kann eine starke Strukturierung der Datensammlungen erfolgen und ausgefeilte Zugriffsrechte formuliert werden Mit dem Abschluss der Forschungstaumltigkeiten erfolgt die Migration zur sog bdquoPublic Domainldquo Die fertigen Forschungsergebshynisse (beispielsweise Publikationen) werden in die institutionellen Repositorien migriert ein bekannter Prozess Zusaumltzlich muss eine Verlinkung auf die mit Digital Object Identifiers (DOI) und Metadaten versehene Datenobjekte erfolshygen die sich in einem oumlffentlichen Forschungsdaten-Repository befinden (Treshyloar amp Harboe-Ree 2008 S 5ndash7)

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 9: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

31 12 Der Lebenszyklus von Forschungsdaten

Elementar ist die Anreicherung der Daten mit vollstaumlndigen Metadaten damit eine Recherche Identifizierung und Wiederverwendbarkeit eindeutig gewaumlhrshyleistet wird (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 33)

Es ist moumlglich die Gesamtheit des Forschungsprozesses durch die Nutzung eines Repository umzusetzen Gegenwaumlrtig gibt es jedoch unterschiedliche Anforderungen in den verschiedenen wissenschaftlichen Domaumlnen wodurch die technische Umsetzung in der Praxis komplex ist (Treloar amp Harboe-Ree 2008 S 7) Bisher werden grundsaumltzlich institutionelle Repositorien verwendet die fuumlr die Verwaltung und den Nachweis von Dokumenten konzipiert wurden Diese ebenfalls fuumlr das Forschungsdatenmanagements zu verwenden ist wegen ihrer Inflexibilitaumlt schwierig Fuumlr Speicherung und Curation von Forschungsdashyten muss eine Loumlsung existieren die beispielsweise eine variable Vergabe von Metadaten erlaubt wie es von der jeweiligen Disziplin gefordert wird um zukuumlnftig die Daten auch nachnutzen zu koumlnnen Die meisten Softwareloumlsungen fuumlr Repositorien (OPUS eprints etc) unterstuumltzen dies noch nicht Fedora macht hier eine Ausnahme Mit dem Open Source Projekt Flexible Extensible Digital Object Repository Architecture Commons (FEDORA) entwickelt an der Cornell University steht ein fertiges System zur Verfuumlgung das beliebige digishytale Objekte (Daten Textdateien Metadaten Bilder Videos Webseiten etc) verwalten kann (siehe Beitrag von Aschenbrenner amp Neuroth Kap 25)

Neben institutionellen und disziplinaumlren Repositorien werden Forschungsdashytenspeicher notwendig die allesamt jedoch miteinander verknuumlpft arbeiten sollshyten

123 Fazit Die Darlegung des Lebenszyklus von Forschungsdaten anhand der beiden Modelle verdeutlicht einerseits die Komplexitaumlt andererseits aber auch die theoshyretische Machbarkeit der Speicherung von Forschungsdaten Wie bereits geschildert existieren Einrichtungen in denen das Forschungsdatenmanageshyment erfolgreich praktiziert wird Beispielsweise wird Pangaea vom AlfredshyWegener-Institut fuumlr Polar- und Meeresforschung (AWI) gemeinsam mit dem Zentrum fuumlr Marine Umweltwissenschaften (MARUM) gehostet

bdquoThe information system PANGAEA is operated as an Open Access library aimed at archiving publishing and distributing georeferenced data from earth system research The system guarantees long-term avaishylability of its content through a commitment of the operating institutishyonsldquo (AWI amp Center for Marine Environmental Sciences)

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 10: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

32 Stefanie Ruumlmpel

Die Diskussionen zu bdquoForschungsdatenldquo und insbesondere deren Management wird weiter dadurch erschwert da es eine hohe Domaumlnenspezifik gibt die eineUumlbertragung auf andere Wissenschaftsdisziplinen nicht per se zulaumlsst

bdquoVielmehr muss es Ziel sein in Zusammenarbeit mit den Fachgesellshyschaften disziplinspezifische Ansaumltze zu entwickeln die dann prototyshypisch realisiert werden koumlnnen Dabei wird es Disziplinen geben die wie die Geowissenschaften eine zentrale Datenzentrenstruktur benoumltigen aber auch Disziplinen die unter Verwendung allgemeinguumlltiger Stanshydards individuelle Loumlsungen in Form von verteilten Repositorien betreishybenldquo (TIB Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 S 14)

Neben der Entwicklung der notwendigen Techniken und Systeme zur Datenshyspeicherung gibt es noch einige grundsaumltzliche Fragen deren Beantwortung dershyzeitig noch nicht erfolgte Sietmann zaumlhlt dazu die folgenden

bdquoSo wirft die Transformation der gesamten Prozesskette von der Erzeushygung uumlber die Speicherung bis zur Bewahrung und Pflege von Forshyschungsdaten die sich in dem Begriff bdquoOpen Dataldquo verdichtet Fragen uumlber Fragen auf Wer standardisiert die Metadaten Wer setzt die bdquoData Policiesldquo Wie erzeugt man die Anreize dass Forscher ihre Daten und Programme verfuumlgbar machen Wer traumlgt die Aufwendungen dass sie verfuumlgbar bleibenldquo (Sietmann 2009 S 160)

Sicherlich koumlnnten durch den Austausch von Erfahrungen die Einen von den Anderen lernen Ein Problem das alle Disziplinen und Beteiligte betrifft ist die Frage nach der personellen Umsetzung des Forschungsdatenmanagements Wisshysenschaftler werden idR die Daten nicht verwalten Wer dabei welche Untershystuumltzung gibt bzw ob eine mehr oder weniger vollstaumlndige Ausgliederung dieshyser Arbeit moumlglich ist bleibt Gegenstand der Diskussion

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 11: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

33 12 Der Lebenszyklus von Forschungsdaten

Literaturhinweise

AWI (Alfred Wegener Institute for Polar and Marine Research) amp Center for Marine Environmental Sciences PANGAEA Data Publisher for Earth amp Environmental Science Online httpwwwpangaeadeabout [Zugriff am 17072011]

DCC (Digital Curation Centre) 2010 DCC Curation Lifecycle Model Online httpwwwdccacukresourcescuration-lifecycle-model [Zugriff am 01062011]

Gold A 2007 Cyberinfrastructure Data and Libraries Part I A Cyberinfrastructure Primer for Librarians D-Lib Magazine 13(910) Online httpwwwdliborgdlibseptember07gold09gold-pt1html [Zugriff am 25042011]

Helly J Staudigel H amp Koppers A 2003 sbquoScalable models of data sharing in Earth sciencesrsquo Geochemistry geophysics geosystems G 3 an electronic journal of the earth sciences 4(1) S 1ndash14 Online http wwwbeamreachorgresearchdata_sharing_model_GC2002pdf [Zugriff am 17072011]

Klump J et al 2006 Data Publication in the Open Access Initiative Data Science Journal 5(15 June 2006) S 79ndash83 Online http wwwmadzmawdefileadminexternPublicationsdatapublicationpdf [Zugriff am 17072011]

NESTOR ndash Kompetenznetzwerk Langzeitarchivierung 2009 Digitale Forschungsdaten bewahren und nutzen ndash fuumlr die Wissenschaft und fuumlr die Zukunft NESTOR Arbeitsgruppe Grid e-sience und Langzeitarchivierung (NESTOR-Bericht) Online httpnbn-resolvingdenbnde0008shy2009071031 [Zugriff am 17072011]

Severiens T amp Hilf ER 2006 Langzeitarchivierung von Rohdaten ndash Studie zum Stand vorhandener Forschungsdaten und Rohdaten aus wissenschaftlichen Taumltigkeiten Erfordernisse und Eignung zur Archivierung bzw Zurverfuumlgungstellung in Deutschland (Primaumlrdaten) Online http nbn-resolvingdeurnnbnde0008-20051114018

Sietmann R 2009 Rip Mix Publish Der Wissenschaft steht ein radikaler Wandel im Umgang mit Forschungsdaten bevor ct (14) S 154ndash161

TIB (Technische Informationsbibliothek) Hannover FIZ Chemie Berlin amp Universitaumlt Paderborn 2010 Konzeptstudie bdquoVernetzte Primaumlrdaten-Infrastruktur fuumlr den Wissenschaftler-Arbeitsplatz in der Chemieldquo Online

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]

Page 12: Handbuch Forschungsdatenmanagement: Der Lebenszyklus von ... › opus4-fhpotsdam › files › 193 › 1... · Der Lebenszyklus von Forschungsdaten 31 Elementar ist die Anreicherung

34 Stefanie Ruumlmpel

httpwwwtib-hannoverdefileadminprojekteprimaer-chemie Konzeptstudie_Forschungsdaten_Chemiepdf [Zugriff am 2504 2011]

Treloar A amp Harboe-Ree C 2008 Data management and the curation continuum How the Monash experience is informing repository relationship Online httpwwwvalaconforgauvala2008papers2008 111_Treloar_Finalpdf [Zugriff am 15052011]

Winkler-Nees S 2010 Der Umgang mit Forschungsdaten in Wissenschaft und Lehre Bad Honnef Online httpwwwdfgdedownloadpdfdfg_magazin wissenschaftliche_karriereheisenberg_treffen_2010forschungsdatenpdf [Zugriff am 01062011]