Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

Post on 05-Apr-2015

114 views 2 download

Transcript of Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle.

<Insert Picture Here>

Datenqualitätsanalysen mit Oracle Alfred Schlaucher, Data Warehouse Architect, Oracle

Themen

• Stichwort: Data Quality

• Vorgehensmodell für Datenqualitätsanalysen

• Exemplarische Analysen Service GmbH

InformationManagementundDataWarehouse

Datenqualität? Was ist das?Unsere Daten sind doch sauber!

• Bis zu 20% der operativen Daten sind betroffen.• Unternehmen finanzieren schlechte Daten mit 30-

50% der IT-Ausgaben.• Über schlechte Daten redet man nicht, man arrangiert

sich.• Eine Umfrage unter 385 Dt. Finanz- und IT-

Spezialisten • < 50% IQ-Ziele bereits erreicht• 82 % glauben Finanzinformationen könnten für Planung und

Strategieentwicklung wesentlich besser genutzt werden • Schlechte Datenqualität zwingt bei den meisten Unternehmen

zu zusätzlichen Berichten und Analysen

Die Kosten der schlechten Daten

Versteckte Kosten durch schlechte Datenqualität

• Manuelles Nacharbeiten von Daten• Beschwerden -> Aufwand in Call Center• Erhöhte Projektkosten bei Einführung neuer Systeme

• Bis 25% gestoppt, bis zu 60% Verzug aufgrund falscher oder fehlender Daten

• Verspätete Unternehmensberichte • Verlorene Kunden durch schlechten Support• Produktionsausfälle durch Störung in der

Supply Chain

Ohne Daten kein Business Daten sind der Treibstoff der Prozesse

Operative Prozesse

Information Chain

KundeKunden-betreuer

Logistik- system

Stamm- daten

Marketing

Buch-haltung

Lager Spedition

Kunde

BedarfAdresseKredit-daten

Angebot Bestand

Bestell-daten

KD-Daten

Kredit OK Order

Adresse

Werbung

Verkaufs-daten

Rechnung

Bezahlung Reklamation

Mahnung

Liefer-schein

Aspekte der Datenqualität

Brauchbarkeit der Daten!

Verfügbar (Access)

Aktuell

Korrekt

Vollständig

Redundanzfrei

Dokumentiert

Handhabbar

Nützlich (TCO)

Stimmig

Data Profiling

• Software – gestütztes Erkennen von Anomalien in Datenbeständen(The use of analytical techniques about data for the purpose of developing a thorough knowledge of its content, structure and quality)

• Interaktiver Analyse-Vorgang• Bestandteil von Oracle Warehouse Builder seit 2006

Beispiel: Datenqualitätsproblem

• 5 Millionen Privatkunden-Kontaktdaten• Davon 372112 unterschiedliche Berufe

Wie wertvoll ist diese Art der Information?Kann damit eine Segmentierung für eine

Marketingkampagne gesteuert werden?

• Datenmaterial lässt Rückschlüsse auf dieGeschäftsprozesse zu!

„Top Down“ und „Bottom Up Analysen“ ergänzen sich

• Top Down„Wir wissen und vermuten Dinge die nicht stimmen“

• Wir können sinnvolle Analysen aufgrund bekannter Dinge ableiten

• Bottom Up durch Data Profiling„Wir lassen uns überraschen, was da noch kommt“• Wir stöbern in den Daten und

• entdecken Auffälligkeiten• beginnen zu kombinieren • stellen Hypothesen auf• versuchen Zusammenhänge

zu beweisen

Vermutungen verifizieren

Neues entdecken

Data Profiling mit OWBMethoden

Feintuning zu

den Analyse-

methoden

Die

operativen

Daten

Proto-

kollierung

laufende

Analysen

Drill Down zu den operativen Daten

Vorgehensmodell für Datenqualitätsprojekte

Erheben der Grunddaten

Beschreibung der Geschäftsprozesse

Datenmodellprüfungen

Detailanalyse

GeschäftsfelderData Ownern / Daten-Interessenten / KonsumentenDQ-ErwartungenBekannte SchwachstellenKostenPrioritäten

ObjektmodellDatenflüsse und –schnittstellenBekannte Geschäftsregeln

VollständigkeitsbetrachtungBetrachtung der VerständlichkeitSchlüsselanalysen / BeziehungsanalysenAnalyse von HierarchienSuche nach Redundanzen (z. B. Normalisierung)Mengenanalyse / Stammdatenabgleiche

Überprüfen der GeschäftsregelnAnalyse der erkannten SchwachstellenVerifizieren der DQ Erwartungen

DieSERVICE GmbHFallbeispiel

SERVICE GmbH

• Vermittlung von Dienstleistungen für Endkunden rund um das Handwerk

• Handwerksleistung• Darlehen

• Großhandel für Baumärkte und Einzelhandel

• Haushaltswaren• Heimwerker• Gartenbedarf• KFZ-Zubehoer• Elektroartikel

•Bereich Internet-/ Versandhandel

• Computerteile

• Entstand aus Zusammenschluss mehrerer Vertriebsge- sellschaften

• Integration der Stammdaten „mit Hindernissen“

Die SERVICE GmbH

• Unterscheidung• Privatkunden• Firmenkunden

• Kundenkarte• Privatkunden

SERVICE GmbH

Erwartungen aus dem Unternehmen

Vertrieb

ControllingManagement

Marketing Buchhaltung

Vertrieb: wünscht leichtere AuswertungenWas sind wichtige Produkte?Was sind rentable Sparten?Hat sich der Servicebereich gelohnt?

Marketing: Absatzzahlen sind nicht aussagefähigWie viel Kunden gibt es?Lohnt die Kundekarte?Welche Segmentierung gibt es?

Buchhaltung: Es fehlen DatenWarum sind die Spediteursrechnungen so hoch?Sind alle Bestellungen korrekt bezahlt worden?Wie hoch sind die Versandkosten pro Lieferung?Was wurde storniert?

Controlling: Vergleichbarkeit fehlt Was kosten Produkte im Einkauf? Wie teuer wurden Produkte verkauft? Wie rentabel sind einzelne Produkte

Management: Kennzahlen fehlen Wie hoch sind die liquiden Mittel? Wie hoch sind die Außenstände?

Bekannte Schwachstellen

Kosten der DQ-Probleme

Analysemodell: Was wissen wir über den Prozess?

Service GmbH

Produkte

Kunden

verkauft

Lieferanten

Dienst-leistungen

Privat

Firmen

Kunden-karte

Lager

Handwerker

Spediteur

bestellt

beauftragt

liefert aus

holt ab

bietet an

beauftragt bietet an

beliefert

storniert

holtstornierteWare ab

liefert ab

Objektmodell: Welche Geschäftsobjekte sind an dem Prozess beteiligt?

Kunde

Lieferanten

Zahlung

Stornierung

Produkte

Privat-Kunde

Firmen-Kunde

Kunden-Karte

Artikel Service

LagerBestellung

Lieferung

Retouren

Dienst-leister

Partner

Spediteur

Beauf-tragung /

Order

Bewegungsdaten

Stamm-daten

Geschäftsprozess: Bestellungen

Kundendatenprüfen

Kreditlimitprüfen

Verfüg-barkeitprüfen

Dienstleist-ung be-

auftragen

MAX/MINMenge Spediteur

beauftragen

Liefersatzanlegen

Bestellsatzupdaten

Kunden-stamm

Produkte-stamm

Liefer-schein

Vertrag

Kunden-stamm

Status

Bestellunganlegen

offene Posten

BestellungBest_Pos

BestellungBest_Pos

Lieferung

Beschaffung

Bestellprozess

Datenflüsse / Schnittstellen

Kunden-stamm

Bestellung

Discount

ermittlung

Produkte-stamm

Verpackung

Mengen

Preise

Artikeldaten

Zahlung

Stornierung

Leistungen

Beträge

Leistungen

Beträge

Vollständigkeitsanalyse Wichtige Daten fehlen!

Kunde

Lieferanten

Zahlung

Stornierung

Produkte

Privat-Kunde

Firmen-Kunde

Kunden-Karte

Artikel Service

LagerBestellung

Lieferung

Retouren

Dienst-leister

Partner

Spediteur

Beauf-tragung /

Order

Bewegungsdaten

Stamm-daten

Liefernummer fehlt.Identifizierung nur über BestellnummerIdentifizierung nur

über BestellnummerKeine Untergliederung nach Positionen möglich.

Verständlichkeit des Datenmodells(z. B. Homonyme)

Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde

Produktstatus:1: Großhandelsware f. Baumärkte2: Produkte kaufbar über Internet3: Serviceleistung (Kredite und Handwerksleistung)

Kunden_Stamm

Produkte_Stamm

Schlüsselanalyse(Eindeutigkeit in den Stammdaten)

Doppelter Datensatz

Unterschiedliche Sätze, aber Schlüsselfeld falsch gepflegt

Unterschiedliche Sätze, aberFeld wird nicht genutzt

Schlüsselanalyse(Eindeutigkeit in den Bewegungsdaten)

Beziehungsanalyse (Wer hängt an wem? Wer ist isoliert?)

Produkte_Stamm Artikel_Gruppe

Child Parent

Kardinalität Waisen

n:1

Hilfsmittel: Referential

Kunden_stamm

Lieferant

Zahlung

Stornierung

Produkte_stamm

LagerBestellung

Lieferung

Best_Position

Artikel_Gruppe

Artikel_Sparte

Artikelgruppennr

Artikelgruppennr

Beziehungsanalyse(Wer hängt an wem? Wer ist isoliert?)

Kunden_stamm

Zahlung

Bestellung

Best_Position

Kundennummer = 12

Bestellnummer = 30

Kundennummer = 12Bestellnummer = 30

Bestellnummer = 30

Kundennummer = 12

Kundennummer = 21

???

Kreisbeziehung(Irgendwann passen die Daten nicht mehr zusammen)

Analyse von Hierarchien

Produkte_Stamm

Artikel_Gruppe

Artikelsparte ARTIKELSPARTENNR1 , 2 ,3

ARTIKELSPARTENNR1,4,3ARTIKELGRUPPENNR1,2,3,4,5,6,11,10,9,8,7

ARTIKELGRUPPENNR100,1,6,2,5,4,7,3,10

Hierarchie: ARTIKEL_GRUPPE -> ARTIKELSPARTE

Beziehung PRODUKTE_STAMM -> ARTIKEL_GRUPPE

Vergleich der Wertebereiche von referenzierenden Feldern

Position

Produkte

Gruppen

Sparten

Kunden-Stamm

Bestellung

Falsche Statuskennzeichnungvon Finanzprodukten

Orphans

Fehlerhafte Spartenkennzeichnungvon Gruppen

Doppelte Wertebelegung von Statuskennzeichnung für Privat- und Firmenkunden.

Fehlerhafte Verschlüsselungvon Artikel- und Produkten

DoppelteProduktnummern

Fehlerhafte , nicht rechenbareEinzelpreisbezeichnung

Umsatz pro Sparte?Umsatz pro Gruppe?Umsatz pro Produkt?Werden korrekte

Rechnungen gestellt?Umsatz pro Kunde?Macht die Kundenkarte

Sinn?

Ergebnisse der Hierarchie- und Beziehungsanalyse

BI?

Suche nach redundanten Informationen(1. Normalform)

Kundenstatus:P: PrivatkundeF: FirmenkundeG: „guter“ KundeK: „kein“ Kunde

Kunden_Stamm

Folge:Alle Abfragen/Analysen über Privatkunden sind damit nicht mehr sauber durchführbar.(Z. B. Abfragen über die Wirkung der Kundenkarte.

Hilfsmittel: Domainanalyse

Suche nach redundanten Informationen(2. Normalform)

Hilfsmittel: Beziehungsanalyse

Functional DependencyAbhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

Suche nach redundanten Informationen(3. Normalform)

Hilfsmittel: Beziehungsanalyse

Abhängigkeit zwischen GESAMT_POS_PREIS und PREIS: Warum ist der hier 98,5 %

Prüfung der aufgestellten Geschäftsregeln

Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

Korrekt, muß 0 sein

Korrekt:Es kann nur einWert gepflegt sein.

Korrekt, muß 0 sein

Korrekt, das sind richtige Werte

Korrekt, muß 0 sein

Korrekt: Zusammen 100%(Alle Fälle erfasst)

Problem:kein Schlüsselfeldist gepflegt

Korrekt, das sind die richtigen Werte

Korrekt, muß 0 sein

Korrekt

Korrekt:Zusammen100%.(Alle Fälle erfasst)

Problem

Korrekt, muß 0 sein

Stammdatenregel: Artikelnummer und Produktnummer sind alternativ zu füllen. Ein Statusfeld steuert mit

StammdatenbetrachtungIn einigen Fällen fehlen die Einkaufpreise

?

Nicht normiertes DatenmaterialMit solchen Daten kann man nicht rechnen

Hilfsmittel: Pattern-Analyse