„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de

24
Sven Vlaeminck | SUB Göttingen „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni- goettingen.de AP2: Erfassen & AP2: Erfassen & Kategorisieren von Kategorisieren von Datenbeständen Datenbeständen Expertenworkshop 09.12.2008 Göttingen Sven Vlaeminck Niedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen Historisches Gebäude, Papendiek 14, 37073 Göttingen Fon: 0551 39-4773 | Mail to: [email protected]

description

AP2: Erfassen & Kategorisieren von Datenbeständen. Expertenworkshop 09.12.2008 Göttingen. „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de. Sven Vlaeminck Niedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen - PowerPoint PPT Presentation

Transcript of „Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ kolawiss.uni-goettingen.de

Page 1: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de

AP2: Erfassen & Kategorisieren von AP2: Erfassen & Kategorisieren von Datenbeständen Datenbeständen

Expertenworkshop09.12.2008Göttingen

Sven VlaeminckNiedersächsische Staats- und Universitätsbibliothek (SUB) Göttingen

Historisches Gebäude, Papendiek 14, 37073 Göttingen Fon: 0551 39-4773 | Mail to: [email protected]

Page 2: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

AP2 – Ziele & MethodikAP2 – Ziele & Methodik

Ziele: Ermittlung von Eigenschaften der Datenbestände Ermittlung von Kriterien zur Kategorisierung Einbeziehen heterogener Datenbestände

Methode: Evaluierung des Ist-Standes durch Nachnutzung des nestor-

Online-Surveys 2007 („Bedarfsabklärung zur Langzeitarchivierung digitaler Daten an der Universität Göttingen“)

Literaturstudium

Page 3: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

= Ist-Stand Erfassung == Ist-Stand Erfassung =

Ergebnisse der Bedarfsabklärung zur Langzeitarchivierung digitaler Daten

an der Universität Göttingendes nestor – Netzwerks [www.langzeitarchivierung.de]

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de

Page 4: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

„„Gibt es Daten, die über den aktuellen Gibt es Daten, die über den aktuellen Gebrauch hinweg erhalten bleiben sollen?“Gebrauch hinweg erhalten bleiben sollen?“

Page 5: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Interesse an & Planung von Maßnahmen Interesse an & Planung von Maßnahmen zur digitalen Langzeitarchivierungzur digitalen Langzeitarchivierung

Page 6: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Die Verwendung von Metadaten…Die Verwendung von Metadaten…

Page 7: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Metadatenstandards Metadatenstandards

Page 8: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Genutzte FormateGenutzte Formate

Insgesamt wurden 96 (!) unterschiedliche Formate genannt. Schwerpunkte: Adobe PDF, Formate der MS-Office Familie, JPG, TIFF, Plain Text.

Page 9: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Genutzte Formate IIGenutzte Formate II

Page 10: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Datenmengen nach Fakultät Datenmengen nach Fakultät

0 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 11000 12000 13000 14000 15000 16000

Wirtschaftswis. Fak.

Agrarwissenschaften

Biologie

Chemie

Forstwissenschaften

Juristische Fakultät

Mathematische Fak.

Medizinische Fak.

Philosophische Fak.

Physik

Sozialwiss. Fak.

Theolog. Fak.

Geowissenschaften

Durchschnittliche Datenmengen in verschiedenen Fakultäten nach Vorhaltezeiträumen (in GB)

LZA

5-10 Jahre

< 5 Jahre

Page 11: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

ErgebnisseErgebnisse

Großes Interesse & großer Bedarf Kaum konkrete Planungen Starke Divergenz bei Datenumfang Formate stark heterogen, häufig proprietär Geringe Metadatenimplementierung Kaum standardisierte MetadatenschemataKomplexe Ausgangslage für dLZA von

Forschungsdaten

Page 12: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de

= Kategorisierungsansätze = = Kategorisierungsansätze =

Page 13: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Wie lassen sich Forschungsdaten Wie lassen sich Forschungsdaten kategorisieren?kategorisieren?

Viele Ebenen der Kategorisierung denkbar:- Nach ihrer (fachwissenschaftlichen) Herkunft…- Nach MIME-Type o.ä. …- Nach ihrem Inhalt / Content…- Nach der Datengröße (z.B. in GB)…

Vorschlag:- Kategorisierung anhand von Kriterien, die Auswirkungen

(z.B. auf Kosten oder Policy) haben…- Daher: Kategorisierung anhand von Vorhaltezeiträumen &

Formateignung für dLZA- Vorteile: Ausreichend generisch, quantifizierbar…

Page 14: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Dimension I: Kategorisierung nach Dimension I: Kategorisierung nach VorhaltzeiträumenVorhaltzeiträumen

Kategorisierung nach geplanter Archivierungszeit

Vier sinnvolle Vorhaltezeiträume:- bis zu 5 Jahren - bis zu 10 Jahren - bis zu 30 Jahren - mehr als 30 Jahre

=> Überführung in Service Level

Vorhaltezeiträume (4 Kategorien)

weniger als 5 Jahre

mehr als 30 Jahre

bis 30 Jahre

bis 10 Jahre

Page 15: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Dimension II: Format-EignungDimension II: Format-Eignung Ermittlung & Bewertung der Format-Eignung für dLZA

anhand von sieben Kriterien- Offenheit & Lizenzfreiheit- Verbreitungsgrad- Selbstdokumentation- Robustheit- Komplexität- Schutzmechanismen - Abhängigkeiten

Diese Kriterien verfügen über unterschiedlich viele Ausprägungen: - z.B.: Kriterium: (geringe) Abhängigkeiten

Ausprägung I: Unabhängigkeit von bestimmter Hardware Ausprägung II: Unabhängigkeit von bestimmten OS Ausprägung III: Unabhängigkeit von bestimmter Software Ausprägung VI: Unabhängigkeit von externen Ressourcen

Page 16: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Beispiele:Beispiele:

Page 17: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Bewertung der Format-EignungBewertung der Format-Eignung Bestimmen der Format-Eignung* durch

a) Gewichtung der Relevanz verschiedener Kriterien-Ausprägungen (abhängig von Policy, z.B. zwischen 1 & 9)

b) Vergabe von Punktwerten für bestimmte Formate ( z.B. Bedingung sehr gut erfüllt =2 Punkte, Kriterium mittelmäßig erfüllt = 1 Punkt, Kriterium nicht erfüllt = 0 Punkte)

c) Multiplikation der Punktwerte für Gewicht der Kriterien-Ausprägung und dem vergebenen Wert

d) Division durch die Anzahl der Ausprägungen eines Formats.

Der Punkt-Gesamtwert bestimmt die Eignung des Formats – je höher er ausfällt, desto geeigneter ist ein Format

* Nach: Rog, Judith / van Wijk, Caroline: Evaluating File Formats for Long-term Preservation. National Library of the Netherlands, Den Haag, 2008

Page 18: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (I)Die Kategorisierungsmatrix (I)

Page 19: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (II)Die Kategorisierungsmatrix (II)

Page 20: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (III)Die Kategorisierungsmatrix (III)

Page 21: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Die Kategorisierungsmatrix (IV)Die Kategorisierungsmatrix (IV)

Kategorisierungsdimension „Vorhaltezeitraum“ noch nicht implementiert

Bei einer Formatbewertung für alle „Vorhaltezeitraum“ ergibt sich folgende Grafik (-> fiktive Werte!)

Page 22: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Diagramm zur Format-Eignung Diagramm zur Format-Eignung

Page 23: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

Vielen Dank für Ihre Vielen Dank für Ihre Aufmerksamkeit!Aufmerksamkeit!

Nun ist Raum für Anmerkungen und Nun ist Raum für Anmerkungen und zur Diskussion…zur Diskussion…

„Kooperative Langzeitarchivierung für Wissenschaftsstandorte“ http://kolawiss.uni-goettingen.de

Page 24: „Kooperative Langzeitarchivierung  für Wissenschaftsstandorte“  kolawiss.uni-goettingen.de

Sven Vlaeminck | SUB Göttingen

= Leitfragen zur Diskussion == Leitfragen zur Diskussion =

Ist diese Form der Kategorisierung zielführend?- Ist das vorgeschlagene Konzept ausreichend generisch

UND ausreichend konkret?- Werden weitere Kriterien und Ausprägungen gesehen, die

Eingang in eine Bewertung erhalten sollten? Sehen Sie andere sinnvolle Ebenen für eine

Kategorisierung von Forschungsdaten? Fehlen Ihnen grundlegende Punkte, die Ihrer

Meinung nach unbedingt Eingang in eine Kategorisierung finden müssten?