Data Vault Basisdatenbank Modellierung für Data …ubicomp/projekte/master... · Motivation und...

21
Data Vault – Basisdatenbank Modellierung für Data-Warehouse- Systeme Meik Sauerberg Grundseminar WS 15/16 Betreuer: Prof. Dr. Wolfgang Gerken

Transcript of Data Vault Basisdatenbank Modellierung für Data …ubicomp/projekte/master... · Motivation und...

Data Vault – Basisdatenbank Modellierung für Data-Warehouse-

Systeme

Meik Sauerberg

Grundseminar WS 15/16

Betreuer: Prof. Dr. Wolfgang Gerken

Gliederung

I. Motivation und Anwendungsfälle

II. Data Warehouse

III. Data Vault

IV. Andere Modellierungsarten

V. Zielsetzung und Ausblick

VI. Konferenzen | Personen | Fachbereiche | Arbeitsgruppen

VII.Quellen

M-INF | GSM | Meik Sauerberg 2

Motivation und Anwendungsfälle

Wie bin ich zu Data Vault gekommen?

Interesse an Datenbanken Starkes Interesse an Data-Warehouse-Systemen

Fachbetreuer Gespräch Themenvorschlag durch Fachbetreuer: Data Vault

Themenwahl: Data Vault

Anwendungsfall: Basisdatenbank Modellierung für Data-Warehouse-Systeme

M-INF | GSM | Meik Sauerberg 3

Data Warehouse I

Definition nach W.H Inmon

„A data warehouse is a subject-oriented, integrated, nonvolatile, andtime-variant collection of data in support of management‘s decision.“

M-INF | Fach | Meik Sauerberg 4

[INM2005]

Data Warehouse II

„Thus, overall, we believe that research on DW Modeling and design ist far from being dead, …“

[SAJJ2006] Research in Data Warehouse Modeling and Design: Dead or Alive?

[AMP2011] COMPARISON PLAN FOR DATA WAREHOUSE SYSTEM ARCHITECTURES

M-INF | Fach | Meik Sauerberg 5

Data Vault

(relativ) neues Modellierungsschema für DW Entwicklung seit 1990, Deployment 2000

Dan Linstedt 600 Unternehmen Stand 2012 Kombination aus 3NF und Sternschema

Informationen eines Objektes werden in drei Kategorien eingeteilt

Strikte Trennung

M-INF | GSM | Meik Sauerberg 6

[INLI2014]

• Was ist Data Vault?

Data Vault - Entitäten

HUB

Kernobjekt

Speicherung eines Geschäftsschlüssels

Pro Hierachiestufe bzw. pro Entität existiert im Data Vault Datenmodell eine Hub-Tabelle

Metadaten der Hub-Tabelle Zeitstempel Sitzungs-ID Datenherkunft

M-INF | Fach | Meik Sauerberg 7

Data Vault – Entitäten II

M-INF | Fach | Meik Sauerberg 8

LINK

Abbildung von Beziehungen zwischen zwei oder mehreren Hub-TabellenReferenzen auf den Primärschlüssel der Hub-Tabelle

Metadaten Sitzungs-ID Fremdschlüssel Zeitstempel Datenherkunft

[LINK]

Data Vault – Entitäten III

M-INF | Fach | Meik Sauerberg 9

SATELLIT

Enthält keine Schlüssel

Beschreibung eines Objektes (HUB) und der Beziehung (Link)

Gruppierung nach der Änderungshäufigkeit

Attribute die sich normalererweise gar nicht ändern

Attribute die sich nur selten ändern

Attribute die sich sehr häufig ändern

Metadaten

Zeitstempel

Sitzungs-ID

Datenherkunft

Data Vault II

[DVK]

M-INF | Fach | Meik Sauerberg 10

[OCG]

Data Vault III

Vorteile

Trennung von Identitäten, Eigenschaften und Beziehungen

Inkrementell erweiterbar

Transparenz und zeitliche Nachvollziehbarkeit

Ideale Grundlage für agile Projekte

Nachteile

Bisher wenige wissenschaftliche Arbeiten zu Data Vault

Kleiner Kreis

Unübersichtlich

M-INF | GSM | Meik Sauerberg 11

[OCG]

Andere Modellierungsarten

3NF

Sternschema Denormalisiert

Bessere Verarbeitungsgeschwindigkeit

M-INF | GSM | Meik Sauerberg 12

[starwiki]

Andere Modellierungsarten II

Schneeflockenschema

Gleicher Aufbau

Mehr Dimensionshierachien

Verfeinert und normalisiert

Galaxy-Schema (Fact constellation schema)

Mehrere Faktentabellen, verknüpft mit

denselben Dimensionstabellen

M-INF | Fach | Meik Sauerberg 13

[JSM2011] Data Modeling Styles in Data Warehousing

[sflwiki]

[linearis]

Konferenzen

Data Vault-Konferenzen

Data Modeling Zone 2015 in Hamburg [DZM]

WWDVC (World Wide Data Vault Consortium) [WWDVC]

Allgemeine Konferenzen:

BigDataScience: Big Data Science and Computing (2014) [BDC]

ASBD: Architectures and Systems for Big Data (2011, 2012) [ASBD]

M-INF | GSM | Meik Sauerberg 14

Personen | Fachbereiche | Arbeitsgruppen

Wichtige Personen: Dan Linstedt, W.H Inmon, Hans Hultgren

GI-Fachbereich: DBIS – Datenbanken und Informationssysteme

Entwicklungsmethoden für Informationssysteme [DBIS]

ACM SIGMOD – SPECIAL INTEREST GROUP ON MANAGEMENT OF DATA [SIGM]

M-INF | Fach | Meik Sauerberg 15

[GI]

[SIG]

Zielsetzung und Ausblick

Grundseminar

Tieferes Verständnis von Data Vault

Vergleiche mit anderen Modellierungsschemata

Mögliche Problemstellungen

16 Grundlegende Regeln für Data Vault

Ausarbeitung eines Konzepts für das Grundprojekt

M-INF | GSM | Meik Sauerberg 16

Zielsetzung und Ausblick II

Grundprojekt

Basisdatenbank für ein Data-Warehouse-System Pentaho (PDI Data Vault Framework)

Stern-, Schneeflocken- oder Galaxyschema

M-INF | GSM | Meik Sauerberg 17

?

Quellen

Literatur[INLI2014] W.H Inmon Daniel Linstedt: Data Architecture: A Primer for the Data Scientist: Big Data, Data Warehouse

and Data Vault, 2014

[HHU2012] Hans Hultgren: Modeling the Agile Data Warehouse with Data Vault, 2012

[ABHG 2014] Andreas Bauer und Holger Günzel: Data-Warehouse-Systeme: Architetur, Entwicklung, Anwendung, 2014

[INM2005] William H. Inmon: Building the Data Warehouse, 2005

Paper[JSM2011] Data Modeling Styles in Data Warehousing V.Jovanovic, D. Subotic und S. Mrdalj, 2011

http://ieeexplore.ieee.org

[AMP2011] Abdolreza Hajmoosaei, Mehdi Kashfi und Punitha Kailasam: COMPARISON PLAN FOR DATA WAREHOUSE SYSTEM ARCHITECTURES, 2011 http://ieeexplore.ieee.org

[SAJJ2006] Stefano Rizzio, Alberto Abelló, Jens Lechtenbörger, Juan Trujillo: Research in Data Warehouse Modeling and Design: Dead or Alive? http://dl.acm.org/citation.cfm?id=1183515

[RJ2008] Ricardo Jorge Santos und Jorge Bernardiono: Real-Time Data Warehouse Loading Methodology http://dl.acm.org/citation.cfm?id=1451949

[JM1997] Joseph H. Hanson und Mary Jane Willshire: Modeling a Faster Data Warehouse http://ieeexplore.ieee.org/

[AA2015] Alberto Abelló: Big Data Design http://dl.acm.org/citation.cfm?id=2811235

M-INF | Fach | Meik Sauerberg 18

Keywords: Data Vault, Data Warehouse, Data Modeling, Data Warehouse schemas

Quellen II

Konferenzen und Arbeitsgruppen[DMZ] Data Modeling Zone 2015 in Hamburg http://www.datamodelingzone.eu/

[WWDVC] World Wide Data Vault Consortium http://wwdvc.com/

[BDC] BigDataScience: Big Data Science and Computing (2014) http://bigdata2014stanford.scienceengineering.org/

[ASBD] Architectures and Systems for Big Data (2011, 2012) http://acs.ict.ac.cn/

[SIGM] ACM SIGMOD – SPECIAL INTEREST GROUP ON MANAGEMENT OF DATA - http://www.sigmod.org/

[DBIS] GI-Fachbereich: DBIS – Datenbanken und Informationssysteme - Entwicklungsmethoden für Informationssysteme http://fb-dbis.gi.de/

Internetquellen[DVM] http://www.datavaultmodeling.de/

[DLS] http://danlinstedt.com/

[OCG] http://www.opitz-consulting.com/fileadmin/redaktion/veroeffentlichungen/factsheet/46-factsheet-data-vault_sicher.pdf

[tdan] http://tdan.com/data-vault-series-1-data-vault-overview/5054

M-INF | Fach | Meik Sauerberg 19

Keywords: Data Vault, Data Warehouse, Data Modeling, Data Warehouse schemas

Quellen III

Abbildungen[OCG] http://www.opitz-consulting.com/fileadmin/redaktion/veroeffentlichungen/factsheet/46-factsheet-data-vault_sicher.pdf

[DVK] http://www.devkass.de/?s=data+vault

[starwiki] https://de.wikipedia.org/wiki/Sternschema#/media/File:Star_Schema.png

[linearis] http://www.linearis.at/blog/2014/06/05/flex-reporting-release-5-0/

[sflwiki] https://de.wikipedia.org/wiki/Schneeflockenschema#/media/File:Snowflake_schema.png

[GI] http://www.gi.de/fileadmin/redaktion/GI-Logos/GI-Logo-text-2012_deutsch.png

[SIG] http://www.sigmod.org/about-sigmod/sigmod-logo

[LINK] http://de.dwhwiki.info/design/data-vault/entitaeten/link

M-INF | Fach | Meik Sauerberg 20

Keywords: Data Vault, Data Warehouse, Data Modeling, Data Warehouse Schemes

Diskussionsrunde

Vielen Dank für Ihre Aufmerksamkeit

Fragen?

M-INF | GSM | Meik Sauerberg 21