Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2...

55
Data-Warehouse-Technologien Prof. Dr.-Ing. Kai-Uwe Sattler 1 Prof. Dr. Gunter Saake 2 Dr. Veit Köppen 2 1 TU Ilmenau FG Datenbanken & Informationssysteme 2 Universität Magdeburg Institut für Technische und Betriebliche Informationssysteme Letzte Änderung: 18.10.2019 c Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–1

Transcript of Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2...

Page 1: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Data-Warehouse-Technologien

Prof. Dr.-Ing. Kai-Uwe Sattler1 Prof. Dr. Gunter Saake2

Dr. Veit Köppen2

1TU IlmenauFG Datenbanken & Informationssysteme

2Universität MagdeburgInstitut für Technische und Betriebliche Informationssysteme

Letzte Änderung: 18.10.2019

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–1

Page 2: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Organisatorisches

Überblick

1 Einführung & Grundbegriffe2 Data-Warehouse-Architektur3 Multidimensionales Datenmodell4 Extraktion, Transformation und Laden5 Anfragen an Data Warehouses6 Speicherstrukturen7 Indexstrukturen8 Anfrageverarbeitung und -optimierung9 Materialisierte Sichten

10 Business Intelligence Anwendungen

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–2

Page 3: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Organisatorisches

Magdeburg: Zeiten, Ablauf, etc.

Dozent: Veit KöppenInfos (Zeiten, Räume) & Folienkopien unterhttp://www.dbse.ovgu.de/Lehre/Lehrveranstaltungen/Data_Warehouse_Technologien-p-

580.html

Vorlesung: mittwochs, 09–11 Uhr Raum: G22A - 122Übungen

I Übungsleiter: Sabine Wehnert (G29-105)I Termin:

F G05-118 oder G29-144, mittwochs 13:15-14:45I Prüfungsvoraussetzung: Anmeldung für Übung via LSF

PrüfungI mündliche Prüfung (wenn unter 30 Prüfungen)I sonst Klausur (120 min)

Feedback, Fragen, . . .I Sprechzeiten: nach Vereinbarung

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–3

Page 4: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Organisatorisches

Lehrbuch zur Veranstaltung

Köppen, V.; Saake, G.; Sattler, K.-U.:Data Warehouse Technologien

2. Auflage, mitp-Verlag, 2014351 Seiten, 29,99 e

Veit Köppen

Gunter Saake

Kai-Uwe Sattler

2. Auflage

Data WarehouseTechnologien

Köpp

enSa

ake

Satt

ler

Dat

a W

areh

ouse

Tec

hnol

ogie

n

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–4

Page 5: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Organisatorisches

Weitere LiteraturW. Lehner.Datenbanktechnologie für Data-Warehouse-Systeme.dpunkt.verlag, Heidelberg, 2003

W.H. Inmon.Building the Data Warehouse.4th Edition, Wiley & Sons, New York, 2005

A. Bauer, H. Günzel.Data Warehouse Systeme – Architektur, Entwicklung, Anwendung.3. Auflage, dpunkt.verlag, Heidelberg, 2008

G. Saake, K. Sattler, A. Heuer.Datenbanken: Implementierungstechniken.3. Auflage, mitp-Verlag, Bonn, 2009

R. Kimball, L. Reeves, M. Ross, W. Thornthwaite.The Data Warehouse Lifecycle ToolkitWiley & Sons, New York, 1998

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 0–5

Page 6: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Teil I

Einführung

Page 7: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung

Einführung & Grundbegriffe

1 Motivation

2 Anwendungen

3 Abgrenzung

4 Begriff Data Warehouse

5 Themen

6 Benchmarks

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–1

Page 8: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

Szenario: Getränkemarkt

Umsatz,Portfolio Werbung

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–2

Page 9: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

DB-Schema

Produkt Lieferant

Kunde

geliefert von

kauftMenge

(0,*)

(0,*)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–3

Page 10: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

DB-Nutzung

Anfragen:I Wie viele Flaschen Cola wurden letzten Monat verkauft?I Wie hat sich der Verkauf von Rotwein im letzten Jahr entwickelt?I Wer sind unsere Top-Kunden?I Von welchem Lieferanten beziehen wir die meisten Kisten?

ProblemeI Nutzung externer Quellen (Kundendatenbank,

Lieferantendatenbank, . . . )I Daten mit zeitlichem Bezug

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–4

Page 11: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

Erweitertes Szenario

AltmarkkreisSalzwedel Stendal

Börde

MD

JerichowerLand

Harz Salzland-kreis

Anhalt- Bitterfeld

DEWittenberg

HAL

Saalekreis

Burgenland- kreis

Mansfeld-Südharz

Sachsen-Anhalt Thüringen

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–5

Page 12: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

DB-Nutzung (2)

AnfragenI Verkaufen wir in Ilmenau mehr Bier als in Erfurt?I Wie viel Cola wurde im Sommer in ganz Thüringen verkauft?I Mehr als Wasser?

ProblemI Anfragen über mehrere Datenbanken

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–6

Page 13: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

Lösungen

Variante 1: „Verteilte DB“I Globale Anfrage über mehrere DBs→ Sicht mit UnionI Nachteil: aufwendige verteilte Anfrageausführung

Variante 2: „Zentrale DB“I Änderungen über einer zentralen DBI Nachteil: lange Antwortzeiten im operativen Betrieb

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–7

Page 14: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

Data Warehouse-Lösung

Werbung

Umsatz,Portfolio

DB Magdeburg DB Ilmenau DB Erfurt

Data Warehouse

Werbung

Umsatz,Portfolio

DB Ilmenau DB Erfurt

Data Warehouse

Asynchrone Aktualisierung

Redundante Datenhaltung

Transformierte, vorberechnete

Daten

DB Magdeburg

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–8

Page 15: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

Gegenstand der Vorlesung

Data Warehouse: Sammlung von Daten und Technologien zurUnterstützung von EntscheidungsprozessenHerausforderung an Datenbanktechnologien

I Datenvolumen (effiziente Speicherung und Verwaltung,Anfragebearbeitung)

I Datenmodellierung (Zeitbezug, mehrere Dimensionen)I Integration heterogener Datenbestände

SchwerpunktI Datenbanktechniken von Data Warehouses

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–9

Page 16: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Motivation

Überblick

EntityBereinigen

OperativeDatenbanken

Externe Quellen

Monitoring & Administration

Metadaten-Repository

Data Marts

Data Warehouse

OLAP-Server

Analyse

Query/Reporting

DataMining

OLAP-Server

Data-Warehouse-System

[nach Chaudhuri&Dayal 1997]

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–10

Page 17: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Betriebswirtschaftliche Anwendungen

InformationsbereitstellungI Daten und Informationen als Grundlage von Entscheidungen

(z.B. Kennzahlen)I Einfluss auf zukünftiges Betriebsergebnis und auf Abwicklung von

GeschäftsprozessenI Anwender: Manager, Abteilungsleiter, FachkräfteI Formen der Bereitstellung:

F Query-Ansätze: frei definierbare Anfragen und Berichte (individuelleLösungsstrategie)

F Reporting: Zugriff auf vordefinierte Berichte (fixes Lösungsangebot)F Redaktionell aufbereitete, personalisierte InformationenF Domänenspezifische DatensichtenF Vorberechnete Kenngrößen (z.B. durch Data Mining Algorithmen)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–11

Page 18: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Betriebswirtschaftliche Anwendungen (2)

AnalyseI Detaillierte Analyse der Daten zur Untersuchung von

Abweichungen oder AuffälligkeitenI Szenariotechniken (What-If-Analysen)I Anwender: Spezialisten (z.B. Controlling, Marketing)

PlanungI Unterstützung durch explorative DatenanalyseI Aggregierung von EinzelplänenI Prognoseverfahren (z.B. statistische saisonale Modelle)

KampagnenmanagementI Unterstützung strategischer KampagnenI Kundenanalyse, Portfolio- und Risikoanalyse

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–12

Page 19: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Wissenschaftliche und Technische Anwendungen

Wissenschaftliche AnwendungenI Statistical und Scientific Databases→ technische Wurzeln des DWI Beispiel: Projekt Earth Observing System (Klima- und

Umweltforschung)F Täglich ca. 1,9 TB meteorologischer DatenF Aufbereitung und Analyse (statistisch, Data Mining)

Technische AnwendungenI Öffentlicher Bereich: DW mit Umwelt- oder geographischen Daten

(z.B. Wasseranalysen)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–13

Page 20: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Einsatzbeispiel

Wal-Mart (www.wal-mart.com)Marktführer im amerikanischen EinzelhandelUnternehmensweites Data Warehouse

I Größe: ca. 300 TB (2003), 480 TB (2004), heute: geschätzt 12 PBI Täglich etwa 25.000 DW-AnfragenI Hoher Detaillierungsgrad (tägliche Auswertung von

Artikelumsätzen, Lagerbestand, Kundenverhalten)I Basis für Warenkorbanalyse, Kundenklassifizierung, . . .

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–14

Page 21: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Fragestellungen und Aufgaben (Bsp.)

Überprüfung des Warensortiments zur Erkennung vonLadenhütern oder VerkaufsschlagernStandortanalyse zur Einschätzung der Rentabilität vonNiederlassungenUntersuchung und Prognose von Marketing-AktionenAuswertung von Kundenbefragungen, Reklamationen bzgl.bestimmter Produkte etc.Analyse des LagerbestandesWarenkorbanalyse mit Hilfe der Kassendaten (wirt. Transaktionen)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–15

Page 22: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Beispiel einer Anfrage

Welche Umsätze sind in den Jahren 2009 und 2010 in denWarensegmenten Bier und Rotwein in den BundesländernSachsen-Anhalt und Thüringen angefallen?

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–16

Page 23: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Ergebnis (Würfel)

Produkt

Region

Zeit-raum

Kennzahl

BierRotwein

Summe

Thürin

gen

Sachsen-

Anhalt Sum

me

2009

2010

Summe

Umsatz (Wert = 52)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–17

Page 24: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Anwendungen

Ergebnis (2-dim. Würfeldarstellung)

Umsatz Bier Rotwein Summe2009 Sachsen-Anhalt 45 32 77

Thüringen 52 21 73Summe 97 53 150

2010 Sachsen-Anhalt 60 37 97Thüringen 58 20 78Summe 118 57 175

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–18

Page 25: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Aspekte von Data Warehouses

IntegrationI Vereinigung von Daten aus verschiedenen, meist heterogenen

QuellenI Überwindung der Heterogenität auf verschiedenen Ebenen

(System, Schema, Daten)Analyse

I Bereitstellung der Daten in einer vom Anwender gewünschten Form(bezogen auf Entscheidungsgebiet)

I erfordert Vorauswahl, Zeitbezug, Aggregation

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–19

Page 26: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Kurze Transaktion (OLTP)

KundeID Name Vorname PLZ Ort Straße4711 Saake Gunter 01234 Irgendwo Am Berg 342 Sattler K. 12345 Hier Zufahrt 180800 Köppen Veit 60701 Dort Weg 9A

SELECT vorname, nameFROM KundeWHERE id = 0800

ErgebnisVorname Name

Veit Köppen

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–20

Page 27: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Langandauernde Transaktion (OLAP)SELECT DISTINCT ROW Zeit.Dimension AS Jahr,

Produkt.Dimension AS Artikel,AVG(Fact.Umsatz) AS Umsatzdurchschnitt,Ort.Dimension AS Verkaufsgebiet

FROM (Produktgruppe INNER JOIN Produkt ON Produktgruppe.[Gruppen-Nr] = Produkt.[Gruppen-ID]) INNER JOIN((((Produkt INNER JOIN [Fact.Umsatz] ON Produkt.[Artikel-Nr]= [Fact.Umsatz].[Artikel-Nr]) INNER JOIN Order ON[Fact.Umsatz].[Bestell-Nr]= Order.[Order-ID]) INNER JOINZeit.Dimension ON Orders.[Order-ID] =Zeit.Dimension.[Order-ID]) INNER JOIN Ort.Dimension ONOrder.[Order-ID] = Ort.Dimension.[Order-ID]) ONProduktgruppe.[Gruppen-Nr] = Produkt.[Gruppen-ID]

GROUP BY Produkt.Dimension.Gruppenname, Ort.Dimension.Bundesland,Zeit.Dimension.Jahr;

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–21

Page 28: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Abgrenzung zu OLTP

Klassische operative Informationssysteme→ Online Transactional Processing (OLTP)

I Erfassung und Verwaltung von DatenI Verarbeitung unter Verantwortung der jeweiligen AbteilungI Transaktionale Verarbeitung: kurze Lese-/ Schreibzugriffe auf

wenigen Datensätzen

Data Warehouse→ Online Analytical Processing (OLAP)

I Analyse im MittelpunktI Langandauernde Lesetransaktionen auf vielen DatensätzenI Integration, Konsolidierung und Aggregation der Daten

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–22

Page 29: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Abgrenzung zu OLTP: Anfragen

OLTP OLAPFokus Lesen, Schreiben, Mo-

difizieren, LöschenLesen, periodischesHinzufügen

Transaktionsdauerund -typ

kurze Lese- / Schreib-transaktionen

langandauerndeLesetransaktionen

Anfragestruktur einfach strukturiert komplexDatenvolumen einerAnfrage

wenige Datensätze viele Datensätze

Datenmodell anfrageflexibel analysebezogen

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–23

Page 30: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Abgrenzung zu OLTP: Daten

OLTP OLAPDatenquellen meist eine mehrereEigenschaften nicht abgeleitet,

zeitaktuell, autonom,dynamisch

abgeleitet / konsolidiert,historisiert, integriert, sta-bil

Datenvolumen MByte . . . GByte GByte . . . TByte . . . PByteZugriffe Einzeltupelzugriff Tabellenzugriff (spalten-

weise)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–24

Page 31: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Abgrenzung zu OLTP: Anwender

OLTP OLAPAnwendertyp Ein-/Ausgabe durch

Angestellte oderApplikationssoftware

Manager, Controller,Analyst

Anwenderzahl sehr viele wenige (bis einigehundert)

Antwortzeit msecs . . . secs secs . . . min

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–25

Page 32: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Abgrenzung

Abgrenzung: DBMS-Techniken

Parallele DatenbankenI Technik zur Realisierung eines DWH

Verteilte DatenbankenI I.d.R. keine redundante DatenhaltungI Verteilung als Mittel zur LastverteilungI Keine inhaltliche Integration/Verdichtung der Daten

Föderierte DatenbankenI Höhere Autonomie und HeterogenitätI Kein spezifischer AnalysezweckI Keine Lesezugriffoptimierung

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–26

Page 33: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Begriff Data Warehouse

Data Warehouse: Begriff

A Data Warehouse is a subject-oriented, integrated, non-volatile,and time variant collection of data in support of managementsdecisions.

(W.H. Inmon 1996)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–27

Page 34: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Begriff Data Warehouse

Data Warehouse: Charakteristika

Fachorientierung (subject-oriented):I Zweck ist Unterstützung bereichsübergreifender

Auswertungsmöglichkeiten für unterschiedliche DomänenI Zentralisierte Bereitstellung der Daten über Geschäftsobjekte

(Themen)Integrierte Datenbasis (integrated):

I Verarbeitung von Daten aus mehreren verschiedenen (internen undexternen) Datenquellen (z.B. operationalen DB oder Web)

Nicht-flüchtige Datenbasis (non-volatile):I stabile, persistente DatenbasisI Daten im DW werden i. A. nicht mehr entfernt oder geändert

Zeitbezogene Daten (time-variant):I Vergleich der Daten über Zeit möglich (Zeitreihenanalyse)I Speicherung über längeren Zeitraum

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–28

Page 35: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Begriff Data Warehouse

Weitere Begriffe

Data WarehousingI Data-Warehouse-Prozess, d.h. alle Schritte der Datenbeschaffung

(Extraktion, Transformation, Laden), des Speicherns und derAnalyse

Data MartI externe (Teil-)Sicht auf das Data WarehouseI durch KopierenI anwendungsbereichsspezifisch

OLAP (Online Analytical Processing)I explorative, interaktive Analyse auf Basis des konzeptuellen

DatenmodellsBusiness Intelligence

I Data Warehousing + Reporting + Analyse (OLAP, Data Mining);auch automatisch erzeugte Reports in Unternehmen

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–29

Page 36: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Begriff Data Warehouse

Trennung operativer und analytischer Systeme:Gründe

Antwortzeitverhalten: Analyse auf operativen Quelldatensystemen→ schlechte PerformanceHistorisierung der UnternehmensdatenLangfristige Speicherung der Daten→ ZeitreihenanalyseZugriff auf Daten unabhängig von operativen Datenquellen(Verfügbarkeit, Integrationsproblematik)Vereinheitlichung des Datenformats im DWGewährleistung der Datenqualität im DW

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–30

Page 37: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Begriff Data Warehouse

Historie: Wurzeln

60er Jahre: Executive Information Systems (EIS)I qualitative Informationsversorgung von EntscheidernI kleine, verdichtete Extrakte der operativen DatenbeständeI Aufbereitung in Form statischer BerichteI Mainframe

80er Jahre: Management Information Systems (MIS)I meist statische BerichtsgeneratorenI Einführung von Hierarchieebenen für Auswertung von Kennzahlen

(Roll-Up, Drill-Down)I Client-Server-Architekturen, GUI (Windows, Apple)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–31

Page 38: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Begriff Data Warehouse

Historie

1992: Einführung des Data-Warehouse-Konzeptes durch W.H.Inmon

I Redundante Haltung von Daten, losgelöst von QuellsystemenI Beschränkung der Daten auf Analysezweck

1993: Definition des Begriffs OLAP durch E.F. CoddI Dynamische, multidimensionale Analyse

Weitere EinflussgebieteI Verbreitung geschäftsprozessorientierter Transaktionssysteme

(SAP R/3)→ Bereitstellung von entscheidungsrelevantenInformationen

I Data MiningI WWW (Web-enabled Data Warehouse etc.)

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–32

Page 39: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Vorlesung: Zielstellungen

Vermittlung von Kenntnissen zu Datenbanktechniken für Aufbauund Implementierung von Data WarehousesAnwendung bekannter DB-Techniken (siehe Vorlesung„Datenbanksysteme“)

I DatenmodellierungI Anfragesprachen und -verarbeitung

DW-spezifische TechnikenI multidimensionale DatenmodellierungI spezielle AnfragetechnikenI IndexstrukturenI materialisierte SichtenI Einsatzgebiete: Business Intelligence

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–33

Page 40: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

DW-Architektur

Komponenten von DW und deren AufgabenDatenbanken

I Datenquellen: Herkunftsort der DatenI Datenbereinigungsbereich: temporäre Datenbank für

TransformationI Data Warehouse: physische Datenbank für AnalyseI Repository: Datenbank mit Metadaten

Extraktion LadenBasis-daten-bank

Befüllen AnalyseDaten-quellen

Daten-bereinigungs-

bereich

Datenwürfel

Trans-formation

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–34

Page 41: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

DW-Architektur: Komponenten

Data-Warehouse-Manager: zentrale Kontrolle und SteuerungMonitore: Überwachung der Quellen auf VeränderungenExtraktoren: Selektion und Transport der Daten aus Quellen inDatenbereinigungsbereichTransformatoren: Vereinheitlichung und Bereinigung der DatenLadekomponenten: Laden der transformierten Daten in das DWAnalysekomponenten: Analyse und Präsentation der Daten

Trans-formation

Data-Warehouse-Manager

Metadaten-ManagerMonitor Repo-

sitory

DatenflussKontrollflussEreignisse

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–35

Page 42: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Multidimensionales Datenmodell

Datenmodell zur Unterstützung der AnalyseI Fakten und DimensionenI KlassifikationsschemaI Würfel

Operationen: Pivotierung, Roll-Up, Drill-Down, Drill-Across, Sliceund DiceNotationen zur konzeptuellen ModellierungRelationale Umsetzung

I Star-Schema, Snowflake-Schema

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–36

Page 43: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

ETL-Prozess

Prozess von Extraktion, Transformation und LadenExtraktion von Daten aus Quellen:

I Operative Datenbanken,I Web,I Dateien, etc.

Laden von Daten in das DWHAspekte der Datenqualität

I BegriffI ProblemeI Data Cleaning

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–37

Page 44: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Index- und Speicherstrukturen

KlassifikationWiederholung

I B-Baum und B+-BaumMehrdimensionale Indexstrukturen

I R-BaumI UB-BaumI Bitmap-IndexI Vergleich

Weitere FormenMultidimensionale Speicherung

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–38

Page 45: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Anfragen an Data Warehouses

Gruppierung und AggregationSupergroups, CUBEOLAP-Funktionen aus SQL:2003Mehrdimensionale Erweiterungen von Anfragesprachen: MDX

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–39

Page 46: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Anfrageverarbeitung und -optimierung

Berechnung von Gruppierung und CubesStar-JoinsWeitere Optimierungsaspekte

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–40

Page 47: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Materialisierte Sichten

Materialisierte Sicht (engl. materialized view): vorab berechneterAusschnitt aus einer FaktentabelleVerwendung: AnfrageersetzungAuswahl: Bestimmung der redundant gehaltenen Daten

I statische vs. dynamische AuswahlverfahrenI semantisches Caching

Wartung und Aktualisierung

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–41

Page 48: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Anwendungen für Data Warehouses

ReportingDatenexploration

I KlassifikationI WarenkorbanalyseI Prognose

Anwendungsszenarien

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–42

Page 49: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Big Data: 5 V’s

Volume - sehr hohe Datenmenge (Verdoppelung alle 2 Jahre)Variety - strukturierte sowie unstrukturierte DatenVelocity - vom Batch zur EchtzeitVeracity - Vertrauen in die DatenValue - Wert der (Geschäfts-)Daten

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–43

Page 50: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Themen

Big Data und Data Warehouse

Entwicklungsumgebung Business Intelligence

Extract - Transform - LoadFile Copy

CRM SCM ERP 3rd Party

LegacyeMail DocSensor Multimedia

Integrierte Datenbasis

Integrierte Datenbasis

Blog

MapMap Map Map

Reduce Reduce Reduce

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–44

Page 51: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Benchmarks

TPC-Benchmarks

Vergleich der Leistungsfähigkeit von Datenbanken (www.tpc.org)I TPC-C: OLTP BenchmarkI TPC-H: Ad-hoc Decision Support (variable Anteile)I TPC-R: Reporting Decision Support (feste Anfragen)I TPC-W: eCommerce Transaktionsprocessing

Vorgegebene Schemata (Lieferwesen)Schema-, Query- und DatengeneratorenUnterschiedliche DB-Größen

I TPC-H: 100 GB - 300 GB - 1 TB - 3 TB -10 TB

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–45

Page 52: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Benchmarks

TPC-H: Schema

REGION

NATION

SUPPLIER

PARTSUPP LINEITEM

ORDERS

CUSTOMER

PART

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–46

Page 53: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Benchmarks

TPC-H: AnfragenSELECT c_name, c_custkey,

o_orderkey, o_orderdate,o_totalprice, SUM (l_quantity)

FROM customer, orders, lineitemWHERE o_orderkey IN (SELECT l_orderkey

FROM lineitemGROUP BY l_orderkeyHAVING SUM (l_quantity) > :1)

AND c_custkey = o_custkeyAND o_orderkey = l_orderkey

GROUP BY c_name, c_custkey, o_orderkey,o_orderdate, o_totalprice

ORDER BY o_totalprice desc, o_orderdate

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–47

Page 54: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Benchmarks

TPC-H: Zahlen (10.000 GB) - 2011

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–48

Page 55: Data-Warehouse-Technologien · Organisatorisches Überblick 1 Einführung & Grundbegriffe 2 Data-Warehouse-Architektur 3 Multidimensionales Datenmodell 4 Extraktion, Transformation

Einführung Benchmarks

Produkte

OLAP-Tools/ServerI MS Analysis Services, Hyperion, Cognos

DW-Erweiterungen für RDBMSI Oracle11g, IBM DB2, MS SQL Server: SQL-Erweiterungen,

Indexstrukturen, mat. Sichten, Bulk-Load/Insert, . . .BI Accelerator

I lese-optimierte DBS-Lösungen: Hauptspeicher-Verarbeitung,spaltenorientierte Datenorganisation, MapReduce-Techniken,Cluster-Architekturen

I z.B. SAP TREX, Greenplum, Vertica, EXASOL, . . .ETL-Tools

I MS Integration Services, Oracle Warehouse Builder, . . .

c© Sattler / Saake / Köppen Data-Warehouse-Technologien Letzte Änderung: 18.10.2019 1–49