Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck,...

20
Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause , Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010

Transcript of Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck,...

Page 1: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

Qualitätskontrolleder IPCC-AR5 Daten

Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg

DACH2010, 24.09.2010

Page 2: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

Überblick

• CMIP5 / IPCC-AR5

• CMIP5 Infrastruktur

• IPCC-AR5 Qualitätskontrollen

2 / 20

Page 3: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

CMIP5 / IPCC-AR5

3 / 20

Page 4: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

CMIP5 / IPCC-AR5 in Zahlen

• Teilnehmer: ca. 20 teilnehmende Modellierungszentren

mit ca. 40 Modellkonfigurationen (i.W. versch. Auflösungen)

• Experimente: 60 Experimente mit t.w. mehreren Realisationen (Ensemble) über ca. 90 000 Modelljahre

• ca. 2 Mio. Datensätze von ca. 400 Experimenten

• Datenumfang:• ca. 10 PByte output,

• davon ca. 2 PByte requested und

• ca. 1 PByte replicated : IPCC-AR5

Coupled Model Intercomparison Project (CMIP5)

4 / 20

Page 5: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

Datenstruktur: Datenformat

Verwendete Standards:

• Format: netcdf3 (selbst-beschreibend)

• Climate and Forecast (CF): Konvention zur Beschreibung von wiss. Parametern

• gridspec: Konvention zu Gitterdefinitionen

• Controlled Vocabulary (CMIP5):

• DRS (Data Reference Syntax) + digital Identifierfür die File-Identifizierung

• CMOR2: Tool zum Eintrag/Kontrolle in Datenheadern

5 / 20

Page 6: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

Datenstruktur: DRS

Data Reference Syntax (DRS):

CMIP5.output.MPI-M.ECHAM6-MPIOM-LR.rcp45.mon.atmos.v1.tas.r1i1p1.tas_Amon_ECHAM6-MPIOM-LR_rcp45_r1i1p1.nc

Bsp.:

6 / 20

Page 7: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

CMIP5 Infrastruktur

7 / 20

Page 8: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

CMIP5 Infrastruktur:Earth System Grid Federation

(ESGF)

ESGF Partner -

PCMDI, BADC, DKRZ :

• ESG Gateway

• Daten-Replikation des IPCC-AR5-Subsets der CMIP5-Daten

• Verteilte Qualitätskontrollen der Daten für Level 2

ESGF

8 / 20

Page 9: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

CMIP5 Infrastruktur:Earth System Grid Federation

(ESGF)

Aufgaben der ESGF-Partner:

• PCMDI:

• BADC:

• WDCC / DKRZ:

Daten- und Sicherheits-Infrastruktur ESG

Metadaten-InfrastrukturMETAFOR / CIM

Qualitätskontrollen undDatenpublikation (STD-DOI)

9 / 20

Page 10: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

CMIP5 Qualitätskontrollen

10 / 20

Page 11: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

Qualitätskontrollen: Überblick

Scientific Control ofQuestionnaire Input

Statistical or RecordChecks of Data

STD-DOI:Double Check of Dataand Metadata /Author Approval

11 / 20

Page 12: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

12 / 20

24.09.2010

Martina Stockhause et al.DACH2010

Qualitätskontrolle: QC Level 1

QC Level 1 (automated conformance checks passed):

• CMOR2 checks:

• ESG Publisher checks:

• Metadata checks:

DRS syntax checkAxis checks Variable checks (CF standard name, unit)cross-check of file name vs. netcdf header

File readable and of size>0 bytesaxis and variables recognizabletime is monotonic, calendar recognizable

METAFOR / CIM conformance (technical validity of questionnaire entries)

Page 13: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

Qualitätskontrolle: Level 2

24.09.2010

Martina Stockhause et al.DACH2010

File System Data Node Metadata

Datain prescribedDRS Syntax

Data QualityChecks L2

MD QualityChecks L2

THREDDSData Server

MD on data

Metafor / CIMQuestionnaire

MD onmodel+simulation

QC DB

Quality MD

MetadataRepository

Data MD Information MD

13 / 20

Page 14: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

Qualitätskontrolle: QC Level 2

QC Level 2 (subjective quality control passed):Performed on IPCC-AR5 subset of CMIP5 data at all ESGF

partners

• Data checks: 1. Check of statistical global values and additional DRS checks

2. Record checks against predefined thresholds for data unchecked by 1.

Subjective metadata control by scientist• Metadata checks:

14 / 20

Page 15: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

Qualitätskontrolle: QC Level 2 Daten

QC level 2 checks on data (statistical checks):

• Files Check against table with CMIP5 requirements:- name- unit- cf standard name- field dimensions

• Time Values Check:- time step ≥ 0- no identical time points

• Variables Checks on global time series:statistical values: average, standard deviation, minimum, maximum- check for constant fields and filling value fields- check for runaway points

15 / 20

Page 16: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

DOI Target Page

access todata andmetadata

TIB:DOIRegistrationAgency

STD-DOI MD Information MD

STD-DOICatalogue

Qualitätskontrolle: L3/STD-DOI Publication

Data Node Metadata

THREDDSData Server

MD on data

QC DB

QualityMD

Data MD InformationMD

Filesystem

Data

LongtermArchive

Data QualityChecks L3double checks,cross checks,author approval

WDCC:DOI Publication Agency

Metafor / CIMMD on

model+simulation+data+quality

24.09.2010

Martina Stockhause et al.DACH2010

16 / 20

Page 17: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

17 / 20

E.g. doi:10.1594/WDCC/CMIP5_MXELr4

24.09.2010

Martina Stockhause et al.DACH2010

Qualitätskontrolle: QC Level 3 / STD-DOI

QC Level 3 (approved by author):

• Subjective controls (double checks) of data and metadata

• Author check and approval of data and metadata

• STD-DOI publication of data:persistent identifiers DOI/URN assigned to persistent dataas citation direction

Page 18: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

24.09.2010

Martina Stockhause et al.DACH2010

Zusammenfassung

18 / 20

CMIP5 Infrastruktur:• Verteilte Datenhaltung in Grid Infrastruktur (ESG)

• Detaillierte Metadaten (Metafor – CIM) über Modelle, Simulationen und Qualität.

• Qualitätschecks (Level 1 bis 3) mit Einfluss auf die Zugriffsrechte

• Durchführung durch die drei ESGF-Partner: PCMDI, BADC, WDCC/DKRZ; Level 3 nur am WDCC

• Am Ende der Qualitätschecks steht die Datenpublikation nach STD-DOI (dataCite), die eine Zitiervorschrift für die Daten liefert.

• Metadaten des Questionnaires, aus den Datenheadern und aus den Qualitätskontrollen werden bei der STD-DOI Publikation zusammengeführt.

CMIP5 Qualitätskontrollen:

Page 19: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

WDCC Metadata Concept

Relational DB

TOPICENTRY

CERA2 Data Model

RDF XML

Information Model

ACCESS

MODELPLAT-FORM

SIMULA-TION

WD

CC

GU

I

Sci

enti

fic

Po

rtal

(e.

g.

IS-E

NE

S)

• performant• easy-to-use

• complete• flexible

19 / 20

Page 20: Qualitätskontrolle der IPCC-AR5 Daten Martina Stockhause, Michael Lautenschlager, Heinke Höck, Heinz-Dieter Hollweg DACH2010, 24.09.2010.

http://www.wdc-climate.de

http://cmip-pcmdi.llnl.gov/cmip5/

24.09.2010

Martina Stockhause et al.DACH2010

20 / 20