Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

44

Transcript of Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Page 1: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.
Page 2: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

<Insert Picture Here>

Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle

Page 3: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Themen

• Stichwort: Data Quality

• Vorgehensmodell für Datenqualitätsanalysen

• Exemplarische Analysen Service GmbH

InformationManagementundDataWarehouse

Page 4: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Datenqualität? Was ist das?Unsere Daten sind doch sauber!

• Bis zu 20% der operativen Daten sind betroffen.• Unternehmen finanzieren schlechte Daten mit 30-

50% der IT-Ausgaben.• Über schlechte Daten redet man nicht, man arrangiert

sich.• Eine Umfrage unter 385 Dt. Finanz- und IT-

Spezialisten • < 50% IQ-Ziele bereits erreicht• 82 % glauben Finanzinformationen könnten für Planung und

Strategieentwicklung wesentlich besser genutzt werden • Schlechte Datenqualität zwingt bei den meisten Unternehmen

zu zusätzlichen Berichten und Analysen

Page 5: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Die Kosten der schlechten Daten

Page 6: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Versteckte Kosten durch schlechte Datenqualität

• Manuelles Nacharbeiten von Daten• Beschwerden -> Aufwand in Call Center• Erhöhte Projektkosten bei Einführung neuer Systeme

• Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten

• Verspätete Unternehmensberichte • Verlorene Kunden durch schlechten Support• Produktionsausfälle durch Störung in der

Supply Chain

Page 7: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Ohne Daten kein Business Daten sind der Treibstoff der Prozesse

Operative Prozesse

Information Chain

KundeKunden-betreuer

Logistik- system

Stamm- daten

Marketing

Buch-haltung

Lager Spedition

Kunde

BedarfAdresseKredit-daten

Angebot Bestand

Bestell-daten

KD-Daten

Kredit OK Order

Adresse

Werbung

Verkaufs-daten

Rechnung

Bezahlung Reklamation

Mahnung

Liefer-schein

Page 8: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Aspekte der Datenqualität

Brauchbarkeit der Daten!

Verfügbar (Access)

Aktuell

Korrekt

Vollständig

Redundanzfrei

Dokumentiert

Handhabbar

Nützlich (TCO)

Stimmig

Page 9: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Data Profiling

• Software – gestütztes Erkennen von Anomalien in Datenbeständen(The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality)

• Interaktiver Analyse-Vorgang• Bestandteil von Oracle Warehouse Builder seit 2006

Page 10: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Beispiel: Datenqualitätsproblem

• 5 Millionen Privatkunden-Kontaktdaten• Davon 372112 unterschiedliche Berufe

Wie wertvoll ist diese Art der Information?Kann damit eine Segmentierung für eine

Marketingkampagne gesteuert werden?

• Datenmaterial lässt Rückschlüsse auf dieGeschäftsprozesse zu!

Page 11: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

„Top Down“ und „Bottom Up Analysen“ ergänzen sich

• Top Down„Wir wissen und vermuten Dinge die nicht stimmen“

• Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten

• Bottom Up durch Data Profiling„Wir lassen uns überraschen, was da noch kommt“• Wir stöbern in den Daten und

• entdecken Auffälligkeiten• beginnen zu kombinieren • stellen Hypothesen auf• versuchen Zusammenhänge

zu beweisen

Vermutungen verifizieren

Neues entdecken

Page 12: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Data Profiling mit OWBMethoden

Feintuning zu

den Analyse-

methoden

Die

operativen

Daten

Proto-

kollierung

laufende

Analysen

Drill Down zu den operativen Daten

Page 13: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Vorgehensmodell für Datenqualitätsprojekte

Erheben der Grunddaten

Beschreibung der Geschäftsprozesse

Datenmodellprüfungen

Detailanalyse

GeschäftsfelderData Ownern / Daten-Interessenten / KonsumentenDQ-ErwartungenBekannte SchwachstellenKostenPrioritäten

ObjektmodellDatenflüsse und –schnittstellenBekannte Geschäftsregeln

VollständigkeitsbetrachtungBetrachtung der VerständlichkeitSchlüsselanalysen / BeziehungsanalysenAnalyse von HierarchienSuche nach Redundanzen (z. B. Normalisierung)Mengenanalyse / Stammdatenabgleiche

Überprüfen der GeschäftsregelnAnalyse der erkannten SchwachstellenVerifizieren der DQ Erwartungen

Page 14: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

DieSERVICE GmbHFallbeispiel

Page 15: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

SERVICE GmbH

• Vermittlung von Dienstleistungen für Endkunden rund um das Handwerk

• Handwerksleistung• Darlehen

• Großhandel für Baumärkte und Einzelhandel

• Haushaltswaren• Heimwerker• Gartenbedarf• KFZ-Zubehoer• Elektroartikel

•Bereich Internet-/ Versandhandel

• Computerteile

• Entstand aus Zusammenschluss mehrerer Vertriebsge- sellschaften

• Integration der Stammdaten „mit Hindernissen“

Die SERVICE GmbH

• Unterscheidung• Privatkunden• Firmenkunden

• Kundenkarte• Privatkunden

Page 16: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

SERVICE GmbH

Erwartungen aus dem Unternehmen

Vertrieb

ControllingManagement

Marketing Buchhaltung

Vertrieb: wünscht leichtere AuswertungenWas sind wichtige Produkte?Was sind rentable Sparten?Hat sich der Servicebereich gelohnt?

Marketing: Absatzzahlen sind nicht aussagefähigWie viel Kunden gibt es?Lohnt die Kundekarte?Welche Segmentierung gibt es?

Buchhaltung: Es fehlen DatenWarum sind die Spediteursrechnungen so hoch?Sind alle Bestellungen korrekt bezahlt worden?Wie hoch sind die Versandkosten pro Lieferung?Was wurde storniert?

Controlling: Vergleichbarkeit fehlt Was kosten Produkte im Einkauf? Wie teuer wurden Produkte verkauft? Wie rentabel sind einzelne Produkte

Management: Kennzahlen fehlen Wie hoch sind die liquiden Mittel? Wie hoch sind die Außenstände?

Page 17: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Bekannte Schwachstellen

Page 18: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Kosten der DQ-Probleme

Page 19: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Analysemodell: Was wissen wir über den Prozess?

Service GmbH

Produkte

Kunden

verkauft

Lieferanten

Dienst-leistungen

Privat

Firmen

Kunden-karte

Lager

Handwerker

Spediteur

bestellt

beauftragt

liefert aus

holt ab

bietet an

beauftragt bietet an

beliefert

storniert

holtstornierteWare ab

liefert ab

Page 20: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Objektmodell: Welche Geschäftsobjekte sind an dem Prozess beteiligt?

Kunde

Lieferanten

Zahlung

Stornierung

Produkte

Privat-Kunde

Firmen-Kunde

Kunden-Karte

Artikel Service

LagerBestellung

Lieferung

Retouren

Dienst-leister

Partner

Spediteur

Beauf-tragung /

Order

Bewegungsdaten

Stamm-daten

Page 21: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Geschäftsprozess: Bestellungen

Kundendatenprüfen

Kreditlimitprüfen

Verfüg-barkeitprüfen

Dienstleist-ung be-

auftragen

MAX/MINMenge Spediteur

beauftragen

Liefersatzanlegen

Bestellsatzupdaten

Kunden-stamm

Produkte-stamm

Liefer-schein

Vertrag

Kunden-stamm

Status

Bestellunganlegen

offene Posten

BestellungBest_Pos

BestellungBest_Pos

Lieferung

Beschaffung

Bestellprozess

Page 22: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Datenflüsse / Schnittstellen

Kunden-stamm

Bestellung

Discount

ermittlung

Produkte-stamm

Verpackung

Mengen

Preise

Artikeldaten

Zahlung

Stornierung

Leistungen

Beträge

Leistungen

Beträge

Page 23: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Vollständigkeitsanalyse Wichtige Daten fehlen!

Kunde

Lieferanten

Zahlung

Stornierung

Produkte

Privat-Kunde

Firmen-Kunde

Kunden-Karte

Artikel Service

LagerBestellung

Lieferung

Retouren

Dienst-leister

Partner

Spediteur

Beauf-tragung /

Order

Bewegungsdaten

Stamm-daten

Liefernummer fehlt.Identifizierung nur über BestellnummerIdentifizierung nur

über BestellnummerKeine Untergliederung nach Positionen möglich.

Page 24: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Verständlichkeit des Datenmodells(z. B. Homonyme)

Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde

Produktstatus:1: Großhandelsware f. Baumärkte2: Produkte kaufbar über Internet3: Serviceleistung (Kredite und Handwerksleistung)

Kunden_Stamm

Produkte_Stamm

Page 25: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Schlüsselanalyse(Eindeutigkeit in den Stammdaten)

Doppelter Datensatz

Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt

Unterschiedliche Sätze, aberFeld wird nicht genutzt

Page 26: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Schlüsselanalyse(Eindeutigkeit in den Bewegungsdaten)

Page 27: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?)

Produkte_Stamm Artikel_Gruppe

Child Parent

Kardinalität Waisen

n:1

Hilfsmittel: Referential

Page 28: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Kunden_stamm

Lieferant

Zahlung

Stornierung

Produkte_stamm

LagerBestellung

Lieferung

Best_Position

Artikel_Gruppe

Artikel_Sparte

Artikelgruppennr

Artikelgruppennr

Beziehungsanalyse(Wer hängt an wem? Wer ist isoliert?)

Page 29: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Kunden_stamm

Zahlung

Bestellung

Best_Position

Kundennummer = 12

Bestellnummer = 30

Kundennummer = 12Bestellnummer = 30

Bestellnummer = 30

Kundennummer = 12

Kundennummer = 21

???

Kreisbeziehung(Irgendwann passen die Daten nicht mehr zusammen)

Page 30: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Analyse von Hierarchien

Produkte_Stamm

Artikel_Gruppe

Artikelsparte ARTIKELSPARTENNR1 , 2 ,3

ARTIKELSPARTENNR1,4,3ARTIKELGRUPPENNR1,2,3,4,5,6,11,10,9,8,7

ARTIKELGRUPPENNR100,1,6,2,5,4,7,3,10

Page 31: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE

Page 32: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE

Page 33: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Vergleich der Wertebereiche von referenzierenden Feldern

Page 34: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Position

Produkte

Gruppen

Sparten

Kunden-Stamm

Bestellung

Falsche Statuskennzeichnungvon Finanzprodukten

Orphans

Fehlerhafte Spartenkennzeichnungvon Gruppen

Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden.

Fehlerhafte Verschlüsselungvon Artikel- und Produkten

DoppelteProduktnummern

Fehlerhafte , nicht rechenbareEinzelpreisbezeichnung

Umsatz pro Sparte?Umsatz pro Gruppe?Umsatz pro Produkt?Werden korrekte

Rechnungen gestellt?Umsatz pro Kunde?Macht die Kundenkarte

Sinn?

Ergebnisse der Hierarchie- und Beziehungsanalyse

BI?

Page 35: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Suche nach redundanten Informationen(1. Normalform)

Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde

Kunden_Stamm

Folge:Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar.(Z. B. Abfragen über die Wirkung der Kundenkarte.

Hilfsmittel: Domainanalyse

Page 36: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Suche nach redundanten Informationen(2. Normalform)

Hilfsmittel: Beziehungsanalyse

Page 37: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Functional DependencyAbhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

Page 38: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Suche nach redundanten Informationen(3. Normalform)

Hilfsmittel: Beziehungsanalyse

Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

Page 39: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Prüfung der aufgestellten Geschäftsregeln

Page 40: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

Page 41: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Korrekt, muß 0 sein

Korrekt:Es kann nur einWert gepflegt sein.

Korrekt, muß 0 sein

Korrekt, das sind richtige Werte

Korrekt, muß 0 sein

Korrekt: Zusammen 100%(Alle Fälle erfasst)

Problem:kein Schlüsselfeldist gepflegt

Korrekt, das sind die richtigen Werte

Korrekt, muß 0 sein

Korrekt

Korrekt:Zusammen100%.(Alle Fälle erfasst)

Problem

Korrekt, muß 0 sein

Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

Page 42: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

StammdatenbetrachtungIn einigen Fällen fehlen die Einkaufpreise

?

Page 43: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Nicht normiertes DatenmaterialMit solchen Daten kann man nicht rechnen

Hilfsmittel: Pattern-Analyse

Page 44: Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.