Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data...

23
Thema 1 Data WareHouse Volker Jahns

Transcript of Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data...

Page 1: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

Thema 1

Data WareHouseVolker Jahns

Page 2: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

Themen

1. Einführung - Motivation

2. Aufbau eines DWh

3. Data Marts vs. Data WareHouse

4. Operative Daten vs. Analytische Daten

5. Datenbereitstellung

Page 3: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[1.] Einführung - Motivation

Eine Technik / Konzept unterschiedliche Daten in zentraler Form zu speichern

Zentrale Informationsquelle für Daten

Ermöglicht globale Sicht auf heterogene Daten

Verfolgt das Ziel der Integration und Separation

Was ist ein Data Ware House?

Definition:

Ein Data-Warehouse ist eine zentrale Datensammlung (meist eine Datenbank), deren Inhalt sich aus

Daten unterschiedlicher Quellen zusammensetzt.

Die Daten werden von den Datenquellen in das Data-Warehouse geladen und dort vor allem für die Datenanalyse und

zur betriebswirtschaftlichen Entscheidungshilfe in Unternehmen langfristig gespeichert.

Page 4: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

DW‘s sind in den Bereich der Softwareentwicklung einzuordnen

Entwicklung durchläuft ein eigenständigen Prozess

Fachkenntnisse aus der IT und Fachabteilung sind notwendig

[1.] Einführung - Motivation

Grundlegendes für den Aufbau eines DW

Page 5: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

Der Aufbau eines DW kann in zwei grundlegende Phasen gegliedert werden

Beide Entwürfe werden in dem ALC (Application Life Cycle) – Prozess detailliert ausgeführt, um eine fundierte Basis für die Umsetzung des DW zu bilden.

[2.] Aufbau eines Data WareHouses

Grundlegendes für den Aufbau eines DW

Konzeptueller Entwurf

IT Entwurf

Aufbau

Page 6: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[2.] Aufbau eines Data WareHouses

Grundlegendes für den Aufbau eines DW

Anforderungen

ETL

ERP‘s

Vertrieb Produktion ReWe

Mehrwert

Unternehmen

Magic

Page 7: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[2.] Aufbau eines Data WareHouses

Der ALC – Prozess wird in folgende Phasen gegliedert

Grundlegendes für den Aufbau eines DW

Deployment Management Verificiation

Page 8: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[2.] Aufbau eines Data WareHouses

Deployment

Grundlegende Fragen in der Vorstudienphase: FACHABTEILUNG

Was sind die Ziele?

Was will man damit erreichen bzw. welche Situation verbessern?

Können damit Erfolgspotentiale/Wettbewerbsfaktoren geweckt bzw. gefördert werden?

Welchen ROI haben wir bzw. gibt es einen?

DW geeignet oder „Oversized“ ?

Page 9: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[2.] Aufbau eines Data WareHouses

Deployment

Grundlegende Fragen in der Vorstudienphase: IT – Abteilung Was für operative Systeme sind vorhanden?

Welche Daten müssen/sollen übernommen werden?

Wo liegen die größten Probleme? Daten Qualität Daten Granularität Daten Konsistenz

Welche DW – Anbieter sind für uns optimal?

Welche Anforderungen aus der Fachabteilung sind überhaupt realisierbar?

Page 10: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[2.] Aufbau eines Data WareHouses

Drei Varianten stehen zur Verfügung

Implementierung

Op.Data

DW

Th.P.Data Op.

DataTh.P.Data

DM DM

Op.Data

Th.P.Data

Virtuelles DW Zentrales DW Data Mart

Page 11: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[2.] Aufbau eines Data WareHouses

ALC – Management/Implementierung

Nach der Auswahl der DW-Grobstruktur (Zentral, Virtuell oder DM),

müssen folgende Fragen geklärt werden:

Granularität der Daten

Partitionierung Horizontal Vertikal

Denormalisierung

Externe Daten

Datenhaltung

ETL‘sS

pezialisierung

Gen

eral

isie

rung

Page 12: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[3.] Data Warehouse vs. Data Mart

Page 13: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[3.] Data Warehouse vs. Data Mart

Data Warehouse

Eine von den operativen DV-Systemen isolierte Datenbank, die als unternehmensweite zentrale Datenbasis für alle Ausprägungen managementunterstützender Systeme dient

Data Mart

Datensammlung, die auf die Bedürfnisse einer bestimmten Abteilung oder eines eingegrenzten Themas ausgerichtet ist.

Page 14: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[3.] Data Warehouse / Data Mart

Kriterien Data Mart Data Warehouse

Anwendungsbezug Ja Nein, anwendungsneutralAdressat der Datenbereitstellung

Abteilung Unternehmen

Vorherrschende Datenbanktechnologie

Multidimensional Relational

Granularität der Daten Niedrig HochDatenmenge Niedrig HochMenge historischer Daten Niedrig HochOptimierungsziel Abfragegeschwindigkeit Datenmenge

Anzahl pro Unternehmen Mehrere Eines bis sehr wenige

Datenmodell In jedem Data Mart unterschiedlich

Einheitliches Unternehemsmodell

Page 15: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[3.] Daten für operative / analytische Anwendungen (1)

Kriterien Daten für operative Anwendungen

Daten für analytische Anwendungen

Zweck Unterstützung und Abwicklung operativer Geschäftsvorfälle

Informationen für das Management; Unterstützung von Entscheidungen, themenorientiert

Inhalt Detaillierte, aktuelle Geschäftsvorfalldaten, zeitpunktorientiert

Verdichtete und bereinigte Daten, historische und z.T. zukünftige Daten, zeitraumorientiert

Aktualität Hoch (online, realtime) Meist keine Tagesaktualität

Modellierung Altdatenbstände oft nicht modelliert (funktionsorientiert)

Sachgebiets- oder themenbezogen modelliert; standardisiert und endbenutzertauglich

Page 16: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[3.] Daten für operative / analytische Anwendungen (2)

Kriterien Daten für operative Anwendungen

Daten für analytische Anwendungen

Zustand Redundant, inkonsistent, teilweise unnormalisiert

Konsistent modelliert, kontrollierte Redundanzen

Änderungen Laufend Automatische Fortschreibung, Beständigkeit des einmal übernommenen Datenbestandes

Abfragen Strukturiert, vordefiniert Ad-hoc-Abfragen für komplexe, ständig wechselnde Fragestellungen; vordefinierte Standardauswertungen

Page 17: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[4.] Operative vs. Analytische Daten

Operative Daten Strukturiert für die Verarbeitung in Transaktionssystemen Jeder Datensatz muss jederzeit für Lese- und Schreibzugriffe zur

Verfügung stehen Details über Daten sind notwendig

Analytische Daten Anderer Aufbau als „Operative Daten“ Analytische Daten wurden verändert/angepasst Daten werden komprimiert in Kennzahlen und zusammengefasst

Page 18: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[4.] Operative vs. Analytische Daten

Die Daten können mit folgenden Fragen klassifiziert werden:

Was?

Wer?

Wann?

Wie?

Page 19: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“

Page 20: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“

Page 21: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“

1. Extraktion

= Selektion von Daten aus operativen Datenquellen für das Data Warehouse

Prüfung der Daten-Verfügbarkeit (Beachtung von Datenschutzrechten, Eigentumsrechten, Grad der Vertraulichkeit)

Festlegung des Zeitpunktes zur Daten-Extraktion Periodische Extraktion Extraktion auf Anfrage Ereignisgesteuerte Extraktion Sofortige Extraktion

Temporäre Speicherung im Arbeitsbereich des DW „Staging Area“

Page 22: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“

2. Transformation

= Eliminierung von Qualitätsmängeln und betriebswirtschaftliche Aufbereitung der operativen Daten für analytische Fragestellungen mittels folgender Verfahren:

Bereinigung Beseitigung von semantischen und syntaktischen Mängeln 1. bis 3. Klasse

Harmonisierung betriebswirtschaftliche Vereinheitlichung unterschiedlicher Codierungen, Attribute und Schlüssel

Verdichtung Summierung der Daten auf verschiedenen Stufen im DW

Anreicherung Speicherung von vorberechneten Kennzahlen im DW

Page 23: Thema 1 Data WareHouse Volker Jahns. Themen 1. Einführung - Motivation 2. Aufbau eines DWh 3. Data Marts vs. Data WareHouse 4. Operative Daten vs. Analytische.

[5.] Arbeitsschritte zur Datenbereitstellung „ETL-Prgramme“

3. Laden

= Übernahme der Daten aus operativen Vorsystemen in das Data Warehouse, unterschieden wird in:

Initiales Füllen des DW mit Daten aus operativen Datenquellen und ggf. ergänzt durch Archivdaten

Zyklische Aktualisierung der analytischen Datenbasis Aktualisierungsvarianten:

Kompletter Abzug Nur Übernahme der Änderungen Auswahl protokollierter Datenbanktransaktionen