Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik...

29
Detlef Apel · Wolfgang Behme · Rüdiger Eberlein · Christian Merighi Datenqualität erfolgreich steuern Praxislösungen für Business-Intelligence-Projekte 3., überarbeitete und erweiterte Auflage Edition TDWI

Transcript of Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik...

Page 1: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

Detlef Apel · Wolfgang Behme · Rüdiger Eberlein · Christian Merighi

Datenqualität erfolgreich steuern

Praxislösungen für Business-Intelligence-Projekte

3., überarbeitete und erweiterte Auflage

Edition TDWI

Page 2: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

Detlef Apel · [email protected] Wolfgang Behme · [email protected]üdiger Eberlein · [email protected] Merighi · [email protected]

Fachlektorat: Marcus PilzLektorat: Christa PreisendanzCopy-Editing: Annette Schwarz, DitzingenHerstellung: Birgit BäuerleinUmschlaggestaltung: Anna Diechtierow, HeidelbergDruck und Bindung: M.P. Media-Print Informationstechnologie GmbH, 33100 Paderborn

Bibliografische Information der Deutschen Nationalbibliothek Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen Nationalbibliografie; detaillierte bibliografische Daten sind im Internet über http://dnb.d-nb.de abrufbar.

ISBN:Buch 978-3-86490-042-6PDF 978-3-86491-641-0ePub 978-3-86491-642-7

3., überarbeitete und erweiterte AuflageCopyright © 2015 dpunkt.verlag GmbHWieblinger Weg 1769123 Heidelberg

Die vorliegende Publikation ist urheberrechtlich geschützt. Alle Rechte vorbehalten. Die Verwendung der Texte und Abbildungen, auch auszugsweise, ist ohne die schriftliche Zustimmung des Verlags urheberrechtswidrig und daher strafbar. Dies gilt insbesondere für die Vervielfältigung, Übersetzung oder die Verwendung in elektronischen Systemen.Es wird darauf hingewiesen, dass die im Buch verwendeten Soft- und Hardware-Bezeichnungen sowie Markennamen und Produktbezeichnungen der jeweiligen Firmen im Allgemeinen warenzeichen-, marken- oder patentrechtlichem Schutz unterliegen.Alle Angaben und Programme in diesem Buch wurden mit größter Sorgfalt kontrolliert. Weder Autor noch Verlag können jedoch für Schäden haftbar gemacht werden, die in Zusammenhang mit der Verwendung dieses Buches stehen. 5 4 3 2 1 0

Fachliche Beratung und Herausgabe von dpunkt.büchern in der Edition TDWI: Marcus Pilz · [email protected]

Page 3: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

v

Geleitwort zur 3. Auflage

Es zeugt von einem anhaltenden Interesse für das Thema Datenqualität und auchfür die Qualität der vorliegenden Publikation, dass nun schon die 3. Auflageerscheinen kann. Ich danke den Autoren Detlef Apel, Dr. Wolfgang Behme, Rüdi-ger Eberlein und Christian Merighi für die überaus fundierten Ausführungen unddie Breite, in der sie das Feld der Datenqualität im Kontext von Business Intelli-gence abhandeln. Es ist deutlich erkennbar, dass alle Autoren die Problem-domäne um schlechte Datenqualität in Unternehmen nicht nur theoretisch erfassthaben, sondern aus ihrer Praxiserfahrung heraus auch Lösungsansätze zu liefernvermögen. Auch in der 3. Auflage ist es zu Anpassungen und Erweiterungengekommen, die dem Buch gutgetan haben und dessen Wert noch steigern.

Da in der Unternehmenspraxis der Druck zur Verbesserung der Datenquali-tät nicht nachlässt, bin ich sicher, dass die vielen hilfreichen Handreichungen zurArbeit in BI-Projekten das Buch zu einem ständigen Begleiter der Projektmitar-beiter machen. Darüber hinaus nimmt das Werk auch einen festen Platz in derLiteraturliste der Hochschulen und Universitäten ein, denn es vermittelt in sehranschaulicher Art und Weise die Problemstellungen und die Lösungswege, welchewir den Studierenden näherbringen wollen.

In diesem Sinn empfehle ich allen Lesern die Lektüre der 3. Auflage, sei es alsLehrstoff oder als Kompendium zur eigenen Projektarbeit.

Univ.-Prof. Dr. Peter Chamoni

Page 4: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

vii

Vorwort zur 3. Auflage

Nach Schätzungen (vgl. [Crosby 1979, S. 15] und [Juran 1988, S. 1]) verursachtschlechte Datenqualität in Unternehmen Verluste in Höhe von bis zu 25 Prozentdes operativen Gewinns. Aufgrund der zunehmenden Integration von IT in dieGeschäftsprozesse der Unternehmen, der Anforderungen hinsichtlich Com-pliance sowie der Einbeziehung unternehmensexterner Daten (z.B. Big Data)nimmt die Bedeutung von Datenqualität nochmals erheblich zu. Die Hoffnungvieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP), CustomerRelationship Management (CRM), Supply Chain Management (SCM) u.a. hatsich nicht erfüllt und macht endlich Platz für wirksame Maßnahmen.

Im Mittelpunkt dieses Buches steht die Vermittlung langjähriger Erfahrungenaus BI­Projekten mit Datenqualitätsmanagement­Aktivitäten bei Unternehmenunterschiedlicher Branchen. Neben der anwender­ und praxisorientierten Dar-stellung der verschiedenen Bereiche von Datenqualitätsmanagement (DQM) wer-den die Best Practices und Lessons Learned dargestellt, sodass der Leser eigeneProjekte in diesem Umfeld erfolgreich durchführen kann.

Generell werden Daten über eine Benutzerschnittstelle erfasst oder durchGeschäftslogik von IT­Systemen erzeugt. Meistens fließen die Daten weiter inandere IT­Systeme und werden dabei transformiert. Ein Datenfluss kann vieleStationen haben. Das Data Warehouse ist häufig nur die »Endstation« solcherDatenflüsse. Werden fehlerhafte Daten nicht erkannt und behandelt, führen sieim Verlauf des Datenflusses zu Folgefehlern, die sich leicht zu größeren Proble-men aufschaukeln können. Es liegt also auf der Hand, ein Datenqualitätsmanage-ment möglichst frühzeitig im Datenfluss anzusetzen. Nachhaltiges Datenqua-litätsmanagement ist daher idealerweise eine unternehmensweite Aktivität, dieggf. von Vorhaben für Business Intelligence oder auch Customer RelationshipManagement angestoßen werden muss.

In den meisten Unternehmen kommen fehlerhafte Daten erst im DataWarehouse ans Licht. Das liegt daran, dass dort alle Daten in Gänze und verdich-tet betrachtet werden, während beim Datenzugriff durch operative Systeme nureinige Felder in dem einen oder anderen Datensatz zutage treten. SchlechteDatenqualität lässt sich im Data Warehouse nicht verbergen. Allerdings ist es oft

Page 5: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

Vorwort zur 3. Auflageviii

genau diese schlechte Datenqualität, die die Akzeptanz der BI­Anwendung durchden Endanwender in den Fachbereichen verhindert und häufig direkt zum Miss-erfolg des mit dem Data Warehouse verbundenen Vorhabens führt. Wer willschon wichtige geschäftliche Entscheidungen auf fehlerhafte Daten stützen? Dalässt es sich noch besser aus dem Bauch heraus entscheiden.

Dieses Buch hat nicht den Anspruch eines unternehmensweiten Datenquali-tätsmanagements, sondern fokussiert auf den Bereich Business Intelligence, woder Schmerz mit fehlerhaften Daten am größten ist. Unter Business Intelligence(BI) wird ein integrierter, unternehmensspezifischer, IT­basierter Gesamtansatzzur Unterstützung betrieblicher Entscheidungen verstanden. »Business Intelligenceist der Prozess, der Daten in Informationen und weiter in Wissen umwandelt«(Definition von Howard Dresdner (Gartner) 1989). Unternehmensentscheidun-gen und Prognosen stützen sich auf dieses Wissen und führen zu geschäftlichemMehrwert. Business Intelligence kommt sowohl zur Unterstützung strategischerEntscheidungen als auch im operativen Bereich zum Einsatz.

Business Intelligence umfasst ein breites Spektrum an Anwendungen undTechnologien und ist der Oberbegriff für Data Warehousing, Data Mining,Online Analytical Processing und Analytische Anwendungen. Im weiteren Sinneumfasst Business Intelligence auch die Erschließung unstrukturierter Daten mit-tels Content­ und Dokumentenmanagement. Letztgenannte Bereiche sind jedochnicht Gegenstand dieses Buches. Betrachtet wird lediglich die Business Intelli-gence im engeren Sinn, also auf strukturierte Daten bezogen.

Abb. 1 Grobe Architektur für Business Intelligence

Das Data Warehouse ist eine konsolidierte Datenhaltung zur Unterstützung vonReporting und Analyse. »Ein Data Warehouse ist eine themenorientierte, integ-rierte, chronologisierte und persistente Sammlung von Daten, um das Manage-ment bei seinen Entscheidungsprozessen zu unterstützen« (vgl. [Inmon 1996]).

Das Buch gliedert sich in drei Teile. Im ersten Teil wird beschrieben, wasDatenqualitätsmanagement ausmacht. Der zweite Teil befasst sich mit derUmsetzung und stellt insbesondere technische Hilfsmittel dar. Im dritten Teil wird

Reporting, Analyse, Data Mining Knowledge-Management

Data Warehouse Content-, Dokumentenmanagement

Struktuierte Daten Unstruktuierte Daten

Business-Intelligence-Portal

Endanwender der Fachbereiche

Page 6: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

ixVorwort zur 3. Auflage

erklärt, wie man Verfahren, Methoden, Organisation und Werkzeuge des Daten-qualitätsmanagements in der Praxis einsetzt.

Zu Beginn des ersten Teils (Kapitel 1) werden die wesentlichen Begriffe imZusammenhang mit Datenqualitätsmanagement definiert. In Kapitel 2 wirderklärt, woran sich schlechte Datenqualität festmacht und wo die Ursachen dafürliegen. In Kapitel 3 wird dargelegt, warum es sich lohnt, ein Datenqualitätsma-nagement aufzusetzen. In Kapitel 4 werden die organisatorischen Belange inBezug auf die Datenqualität ausführlich geschildert. Die Architektur fürBI­Anwendungen wird unter dem Blickwinkel der Datenqualität in Kapitel 5betrachtet. In Kapitel 6 wird Big Data Analytics mit den Herausforderungen andas Datenqualitätsmanagement diskutiert. Hierbei wird auch auf den Bereich derunstrukturierten Daten eingegangen. Das Kapitel 7 beschreibt, wie sich Daten-qualität messen lässt.

Im zweiten Teil des Buches werden wichtige Prinzipien der technischenUmsetzung des Datenqualitätsmanagements beschrieben. Dabei werden dieWerkzeuge zur Unterstützung des Datenqualitätsmanagements betrachtet, ange-fangen beim Metadatenmanagement über Data Profiling, die Validierung, Berei-nigung und Anreicherung von Daten bis hin zur fortlaufenden Überwachung derDatenqualität. Anschließend wird auf die Integration der Werkzeuge in dieAnwendungslandschaft der jeweiligen IT­Umgebung eingegangen. Am Ende die-ses Buchteils werden Kriterien zur Produktauswahl aufgeführt.

Der dritte und letzte Teil des Buches bildet Datenqualitätsmanagement aufdas Vorgehen in BI­Projekten ab. Dabei werden die einzelnen Phasen einesBI­Projekts von der Vorstudie über Spezifikation, Design und Umsetzung bis zumBetrieb im Unternehmen betrachtet. Für jede Projektphase werden die jeweils ein-zusetzenden Elemente des Datenqualitätsmanagements benannt, die im zweitenTeil des Buches beschrieben wurden. Somit bietet der dritte Buchteil für Projekt-verantwortliche eine unverzichtbare Hilfestellung zur erfolgreichen Durchfüh-rung von Projekten.

Was hat sich in der 3. Auflage geändert? Im 1. Teil des Buches wurde dasThema Big Data neu aufgenommen, da es für die Welt der Business Intelligenceeine neue Evolutionsstufe darstellt und somit Auswirkungen auf das Datenquali-tätsmanagement hat. Weiterhin wurden in allen Kapiteln Aktualisierungen vorge-nommen.

Detlef Apel, Wolfgang Behme, Rüdiger Eberlein, Christian Merighi

Troisdorf, Hannover, München, Wien, im Dezember 2014

Page 7: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

xi

Inhaltsübersicht

Teil I 1

1 Datenqualität 3

2 Ausprägungen und Ursachen schlechter Datenqualität 19

3 Auswirkungen schlechter Datenqualität 37

4 Organisation 53

5 Referenzarchitektur für Business-Intelligence-Anwendungen 69

6 Big Data 91

7 Kennzahlen zur Messung der Datenqualität 103

Teil II 117

8 Verbesserung der Datenqualität im Quellsystem 123

9 Data Profiling 131

10 Erfolgreiche Datenvalidierung und -filterung 175

11 Standardisierung und Bereinigung 187

12 Datenanreicherung 219

13 Verbesserung der Datenqualität in der Bereitstellung undVisualisierung 233

14 Wertschöpfung durch Metadaten 253

15 Data Quality Monitoring 269

16 Produktauswahl und -integration 285

Page 8: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

Inhaltsübersichtxii

Teil III 295

17 Datenqualitätsmanagement in einer Studie 301

18 Datenqualitätsmanagement in der Spezifikation 319

19 Datenqualitätsmaßnahmen in der Konstruktionsphase 335

20 Steuerung der Datenqualität in der Realisierung 345

21 Steuerung der Datenqualität im Betrieb 351

Anhang 355

Abkürzungen 357

Literatur 359

Index 367

Page 9: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

xiii

Inhaltsverzeichnis

Teil I 1

1 Datenqualität 3

1.1 Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Qualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.3 Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.4 Datenqualitätsmanagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.5 Zusammenfassung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2 Ausprägungen und Ursachen schlechter Datenqualität 19

2.1 Geschäftstreiber . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202.2 Ausprägungen schlechter Datenqualität . . . . . . . . . . . . . . . . . . . . . . 242.3 Ursachen schlechter Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . 272.4 Beispiel: Finanzdienstleister . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 342.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

3 Auswirkungen schlechter Datenqualität 37

3.1 Datenqualitätskosten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.2 Gesetzliche Anforderungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453.3 Business-Case-Betrachtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.4 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

4 Organisation 53

4.1 Aufbauorganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.2 Ablauforganisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 634.3 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

Page 10: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

Inhaltsverzeichnisxiv

5 Referenzarchitektur für Business-Intelligence-Anwendungen 69

5.1 Referenzarchitektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695.1.1 Datenquellen und Datenströme . . . . . . . . . . . . . . . . . . . . . . 715.1.2 Datenintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725.1.3 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735.1.4 Informationsbereitstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 735.1.5 Anwender und Rollen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745.1.6 Operative Anwendungen und Prozesse . . . . . . . . . . . . . . . . 745.1.7 Querschnittsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.2 Problemstellen und Lösungsansätze hinsichtlich der Datenqualität . . 755.2.1 Datenquellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 755.2.2 Datenintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 765.2.3 Datenhaltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 795.2.4 Informationsbereitstellung . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.3 Architektur für Datenqualitätsmanagement . . . . . . . . . . . . . . . . . . . . 815.4 Serviceorientierte Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 835.5 Master Data Management . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.5.1 Architektur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 865.5.2 Umsetzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

6 Big Data 91

6.1 Definitionen von Big Data . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 916.1.1 Fachlich-datenbezogene Sicht . . . . . . . . . . . . . . . . . . . . . . . 936.1.2 Gartner-Sicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 946.1.3 Technisch-infrastrukturelle Sicht . . . . . . . . . . . . . . . . . . . . . 95

6.2 Bedeutung der Datenqualität bei Big Data . . . . . . . . . . . . . . . . . . . . . 956.3 Herausforderung externe Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 976.4 Herausforderung unstrukturierte Daten . . . . . . . . . . . . . . . . . . . . . . . 996.5 Herausforderung Geschwindigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 1006.6 Herausforderung Volumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

7 Kennzahlen zur Messung der Datenqualität 103

7.1 Anwendungsmöglichkeiten von Kennzahlen . . . . . . . . . . . . . . . . . . 1047.2 Messpunkte für Datenqualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067.3 DQ-Metriken . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1097.4 Kennzahlen für ausgewählte Datenqualitätskriterien . . . . . . . . . . . . 1127.5 Kennzahlenbaum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1147.6 Kennzahlenformular . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1157.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

Page 11: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

xvInhaltsverzeichnis

Teil II 117

8 Verbesserung der Datenqualität im Quellsystem 123

8.1 Vorbeugung vor neuen Datenqualitätsproblemen . . . . . . . . . . . . . . 1248.2 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

9 Data Profiling 131

9.1 Data-Profiling-Prozess . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1329.1.1 Schritt 1: Integration der Daten . . . . . . . . . . . . . . . . . . . . 1339.1.2 Schritt 2: Analyse der integrierten Daten . . . . . . . . . . . . . 1339.1.3 Schritt 3: Darstellung der Ergebnisse . . . . . . . . . . . . . . . . 1349.1.4 Schritt 4: Fachliche Bewertung der Ergebnisse . . . . . . . . . 134

9.2 Zusammensetzung des Data-Profiling-Teams . . . . . . . . . . . . . . . . . 1359.3 Vorgehensweise beim Data Profiling . . . . . . . . . . . . . . . . . . . . . . . 1369.4 Data-Profiling-Verfahren zur Analyse von Attributen . . . . . . . . . . . 137

9.4.1 Standardanalysen auf Attributebene . . . . . . . . . . . . . . . . . 1379.4.2 Analyse der Attribute mit Geschäftsregeln . . . . . . . . . . . . 150

9.5 Data-Profiling-Verfahren zur Analyse von Datensätzen . . . . . . . . . 1589.5.1 Analyse auf Schlüsselattribute . . . . . . . . . . . . . . . . . . . . . 1589.5.2 Analyse auf abgeleitete Werte . . . . . . . . . . . . . . . . . . . . . . 1619.5.3 Analyse von Datensätzen mit Geschäftsregeln . . . . . . . . . 162

9.6 Data-Profiling-Verfahren zur Analyse von Tabellen . . . . . . . . . . . . 1639.6.1 Analyse von Tabellen auf referenzielle Abhängigkeiten . . 1639.6.2 Analyse von Tabellen mit Geschäftsregeln . . . . . . . . . . . . 168

9.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174

10 Erfolgreiche Datenvalidierung und -filterung 175

10.1 Validierung auf vier Ebenen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17510.2 Filterung fehlerhafter Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17610.3 Validierung bei Extraktion oder Laden . . . . . . . . . . . . . . . . . . . . . . 18010.4 Arten der Datenvalidierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18210.5 Erstellung der Validierungsregeln und Speicherung der Ergebnisse . 18410.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

11 Standardisierung und Bereinigung 187

11.1 Standardisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18711.2 Datenbereinigung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18911.3 Standardisierung und Bereinigung im ETL-Prozess . . . . . . . . . . . . . 21711.4 Verfahren für nicht zu bereinigende Daten . . . . . . . . . . . . . . . . . . . 21811.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

Page 12: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

Inhaltsverzeichnisxvi

12 Datenanreicherung 219

12.1 Wirtschaftsinformationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21912.2 Geografische Informationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22212.3 Soziodemografische Informationen . . . . . . . . . . . . . . . . . . . . . . . . . 22412.4 Haushaltsbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22512.5 Standards zur Klassifizierung von Waren und Dienstleistungen . . . . 22612.6 Branchenklassifizierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22912.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 232

13 Verbesserung der Datenqualität in der Bereitstellung und Visualisierung 233

13.1 Bereitstellung der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23313.2 Visualisierung der Information . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23513.3 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

14 Wertschöpfung durch Metadaten 253

14.1 Metadaten: Begriff und Strukturierung . . . . . . . . . . . . . . . . . . . . . . 25314.2 Metadatenarchitekturen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25514.3 Metadatenmanagement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25814.4 Metadatenkategorien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26014.5 Probleme bei der Erstellung: Motivation und Aktualität . . . . . . . . . 26514.6 Nutzung von Metadaten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26514.7 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

15 Data Quality Monitoring 269

15.1 DQ-Planung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27015.2 DQ-Assessment . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27115.3 DQ-Phasenkonzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27415.4 Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27715.5 Verantwortlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28315.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283

16 Produktauswahl und -integration 285

16.1 Anbieter und Produkte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28516.2 Auswahlkriterien im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28716.3 Funktionale Kriterien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28716.4 Integration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29116.5 Einbeziehung der Fachbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29316.6 Sprachen und Länder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29316.7 Einbindung in DQM-Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29416.8 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294

Page 13: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

xviiInhaltsverzeichnis

Teil III 295

17 Datenqualitätsmanagement in einer Studie 301

17.1 Analyse des Istzustands . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30217.2 Entwurf des Sollkonzepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31117.3 Bewertung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31617.4 Umsetzungsplanung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31717.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 317

18 Datenqualitätsmanagement in der Spezifikation 319

18.1 Spezifikation der Schnittstellen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31918.2 Definition der Rollen in der Datenorganisation . . . . . . . . . . . . . . . 32018.3 Festlegung der Datenqualitätsziele . . . . . . . . . . . . . . . . . . . . . . . . . 32218.4 Bezeichnung und Definition der Objekte . . . . . . . . . . . . . . . . . . . . 32518.5 Festlegung der Geschäftsregeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32718.6 Messung der Qualität von Definitionen und Geschäftsregeln . . . . . 32918.7 Data Profiling in der Spezifikation . . . . . . . . . . . . . . . . . . . . . . . . . 32918.8 Entwurf des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33018.9 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333

19 Datenqualitätsmaßnahmen in der Konstruktionsphase 335

19.1 Übertragung der Datenqualitätsziele . . . . . . . . . . . . . . . . . . . . . . . . 33519.2 Konventionen und Richtlinien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33619.3 Entwurf des Systems . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33719.4 Erstellung eines Prototypen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34319.5 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 343

20 Steuerung der Datenqualität in der Realisierung 345

20.1 Einhaltung der Konventionen, Richtlinien und Konzepte . . . . . . . . 34520.2 Data Profiling in der Realisierung . . . . . . . . . . . . . . . . . . . . . . . . . . 34620.3 Einbindung der Datenverantwortlichen und Benutzer . . . . . . . . . . 34720.4 Realisierung der Datenqualitätsmaßnahmen . . . . . . . . . . . . . . . . . . 34820.5 Durchführung von Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34920.6 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349

21 Steuerung der Datenqualität im Betrieb 351

21.1 Monitoring und Berichtswesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35221.2 Ausbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35321.3 Empfehlungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 353

Page 14: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

Inhaltsverzeichnisxviii

Anhang 355

Abkürzungen 357

Literatur 359

Index 367

Page 15: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

3

1 Datenqualität

Der Begriff Datenqualität ist sehr stark subjektiv geprägt. Sowohl bei der Befra-gung von Fachleuten als auch in der Literatur erhält man zu diesem Thema sehrunterschiedliche Antworten. Viele Autoren gehen in Ermangelung einer einheitli-chen Definition daher auf die beiden Grundbestandteile des Begriffs zurück unddefinieren sowohl Daten als auch Qualität allgemein und folgen damit LarryEnglish, einem der Pioniere auf dem Gebiet der Datenqualität: »The best way tolook at information quality is to look at what quality means in the general mar-ketplace and then translate what quality means for information« (vgl. [English1999, S. 15ff.]).

In diesem Kapitel werden zunächst die grundlegenden Begriffe Daten undQualität und daraus abgeleitet der Begriff Datenqualität erläutert. Nach einerausführlichen Beschreibung der Eigenschaften wird auf unterschiedliche Taxono-mien eingegangen. Den Abschluss des Kapitels bildet das Thema Datenqualitäts-management.

1.1 Daten

Die aktuelle Situation in den Unternehmen ist durch eine steigende Datenflutgekennzeichnet. Beispielsweise fallen durch die Vernetzung von Scannerkassen inSupermärkten oder die Speicherung von Verbindungsdaten in der Telekommuni-kationsbranche große Datenmengen an. Dieser Trend wird durch neue Entwick-lungen wie Radio Frequency Identification (RFID) noch verstärkt. Nach Schät-zungen der Gartner­Gruppe würde die Einzelhandelskette Wal­Mart täglichDaten im Umfang von 7 Terabyte generieren, wenn alle Artikel mit RFID­Mar-ken versehen würden (vgl. [Raskino/Fenn/Linden 2005]). Gemäß einer IDC-Stu-die (vgl. [IDC 2011]) ist die weltweit produzierte Datenmenge im Jahr 2011 aufein Volumen von 1,8 Zettabyte1 angestiegen. Daten allein haben jedoch nur einenbegrenzten Wert, erst in einem sinnvollen Kontext werden daraus unternehmens-relevante Informationen.

1. 1 Zettabyte = 1 Billion Gigabyte

Page 16: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

1 Datenqualität4

Bisher gibt es keine einheitliche Definition des Begriffs Daten. Den meistenDefinitionen ist jedoch gemein, dass sie Daten nicht getrennt, sondern im Zusam-menhang mit Information und Wissen betrachten, weil sich die Begriffe jeweilsergänzen (vgl. [English 1999, S. 18; Helfert 2002, S. 13; Müller 2000, S. 5ff.u.a.]). Zumeist findet eine Hierarchisierung statt, deren unterstes Glied die Datendarstellen. Hierbei wird häufig die Semiotik als Strukturierungshilfe (Syntaktik –Semantik – Pragmatik) genutzt, die die allgemeine Lehre von den Zeichen, Zei-chensystemen und Zeichenprozessen in das Gebiet der Informatik überträgt.

Abb. 1–1 Semiotisches Dreieck (in Anlehnung an [Hinrichs 2002, S. 27])

Auf syntaktischer Ebene werden lediglich die Zeichen sowie ihre mathema-tisch­statistischen Beziehungen untereinander (z.B. relative Häufigkeit innerhalbbestimmter Grundstrukturen) untersucht, ohne dabei auf die Bedeutung der Zei-chen einzugehen. Diese maschinenlesbaren Zeichenfolgen (Daten) bilden somitdie Informationen der realen Welt ab.

Wird den Daten Bedeutung hinzugefügt, gelangt man auf die semantischeEbene, d.h., die Daten werden in einem bestimmten Kontext gesehen, und manspricht von Information.

Auf der pragmatischen Ebene steht der direkte Benutzer (Interpreter) im Mit-telpunkt der Untersuchungen, d.h., hier spielt die Wirkung von Information aufdie sie verarbeitenden Verwender (Menschen, Maschinen) eine wichtige Rolle.Somit kommt die pragmatische Ebene der Wirklichkeit am nächsten, indem siesich über die ersten zwei Ebenen hinausgehend noch mit Fragen der jeweiligenAbsicht und des Werts für den einzelnen Benutzer befasst. Erst dann wird aus derInformation Wissen.

Aus Gründen der besseren Lesbarkeit bezieht sich in den nachfolgendenKapiteln dieses Buches der Begriff Datenqualität sowohl auf die Qualität derDaten als auch auf die Qualität der Informationen.

Information – SemantikBedeutung von Zeichenfolgen

Daten – SyntaktikStruktur von Zeichenfolgen

Wissen – PragmatikVerwendung von Zeichenfolgen

Page 17: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

51.2 Qualität

1.2 Qualität

Der Begriff Qualität stammt ab vom lateinischen »qualitas« und bedeutet Eigen-schaft oder Beschaffenheit. Ursprünglich weder positiv noch negativ belegt, wirdder Begriff in der Umgangssprache automatisch als positiv angesehen. Die Suchenach einer einheitlichen Definition führt zu einer Vielzahl von Definitions­ undInterpretationsversuchen. Eine allgemein akzeptierte Begriffsbeschreibung ist dieDIN­Norm 55 350. Danach ist die »Qualität die Gesamtheit von Eigenschaftenund Merkmalen eines Produktes oder einer Tätigkeit, die sich auf deren Eignungzur Erfüllung festgelegter oder vorausgesetzter Erfordernisse beziehen« (vgl.[DIN 55350]).

Einer der ersten Systematisierungsansätze geht auf Garvin (vgl. [Garvin1984, S. 40ff.]) zurück, der fünf generelle Qualitätsvorstellungen unterscheidet:

■ Produktorientierter Ansatz■ Anwenderorientierter Ansatz■ Prozessorientierter Ansatz■ Wertbezogener Ansatz■ Transzendenter Ansatz

Die produktbezogene Sicht entspricht einem objektiven Qualitätsbegriff, weilQualität als eine messbare, genau spezifizierbare Größe, die das Produktbeschreibt, gesehen wird. Qualität stellt dabei eine objektive Größe dar, die unab-hängig von subjektiven Wahrnehmungen bestimmt werden kann, d.h., dieserAnsatz bezieht sich nur auf das Endprodukt, unabhängig von den Kunden(Benutzern). Qualitätsdifferenzen lassen sich damit auf die Unterschiede in denProdukteigenschaften zurückführen.

Der kunden­ oder anwenderbezogene Ansatz hingegen definiert die Qualitäteines Produkts über den Produktnutzer, und somit entscheidet ausschließlich derKunde, inwieweit das Produkt der geforderten Qualität entspricht (subjektiveBeurteilung des Kunden). In die amerikanische Literatur hat dieser Ansatz Ein-gang über die Definition »fitness for purpose« oder »fit for use« gefunden. Dabeikönnen verschiedene Endbenutzer unterschiedliche Bedürfnisse haben, sodass dieQualität des gleichen Produkts unterschiedlich bewertet werden kann.

Beim Herstellungsbezug (prozessorientierter Ansatz) wird angenommen, dassQualität dann entsteht, wenn der Herstellungsprozess optimal und kontrolliertverläuft und alle Vorgaben (Produktspezifikationen) eingehalten werden. Abwei-chungen von dem definierten Prozess werden als Qualitätsverlust angesehen.

Der wertbezogene Ansatz betrachtet Qualität unter Kostengesichtspunkten.Ein Produkt ist dann von hoher Qualität, wenn die Kosten und die empfangeneLeistung in einem akzeptablen Verhältnis stehen.

Der transzendente Ansatz kennzeichnet Qualität als vorgegebene Vortreff-lichkeit, Einzigartigkeit oder Superlativ. Qualität wird als Synonym für hoheStandards und Ansprüche angesehen. Dieser Grundgedanke setzt ein philosophi-

Page 18: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

1 Datenqualität6

sches Verständnis voraus, das davon ausgeht, dass Qualität nicht messbar, son-dern nur erfahrbar ist. Dieser Ansatz ist für den hier zu betrachtenden Kontextvon Business Intelligence nicht geeignet.

Auch wenn die hier beschriebenen Ansätze für die Fertigungsindustrie entwi-ckelt wurden, lassen sie sich ohne Weiteres auf den Bereich der Datenqualitätübertragen, wie die folgenden Analogien zeigen (vgl. [Wang/Ziad/Lee 2001, S. 3f.].Ein Datenverarbeitungsprozess kann auch als Herstellungsprozess im Sinne derFertigungsindustrie gesehen werden. Die Datenquellen (Lieferanten), die dieRohdaten (Rohmaterialien) bereitstellen, bilden den Ausgangspunkt der Wert-schöpfungskette. Sie werden im Zuge der Integration/Transformation (Produkti-onsprozess) bearbeitet. Das Ergebnis des Prozesses sind die Datenprodukte, dieden Datenbeziehern (Kunden) zu Auswertungszwecken zur Verfügung gestelltwerden.

Abb. 1–2 Analogie zwischen industrieller Fertigung und Datenverarbeitung (Data Warehousing) (in Anlehnung an [Grimmer/Hinrichs 2001, S. 72])

Der wesentliche Unterschied liegt im Betrachtungsgegenstand sowie dessen Qua-litätsmerkmalen. Im industriellen Fertigungsprozess werden physische Produkteerstellt, die Merkmale wie Haltbarkeit, Länge und Gewicht aufweisen. Im darge-stellten Kontext der Datenverarbeitung entspricht das Produkt einem bestimmtenAusschnitt des Datenbestands, auch als Datenprodukt (gleichbedeutend miteinem Datensatz) bezeichnet. Zur Bestimmung der Qualität wird einem Produkteine Menge von Merkmalen zugeordnet. Ein Merkmal ist dabei eine Eigenschaft,die zur Unterscheidung von Produkten in qualitativer oder quantitativer Hinsichtherangezogen werden kann (vgl. [Behme 2002, S. 52]).

Während in der Industrie der Qualitätsbegriff seit Jahrzehnten einen wichti-gen Platz einnimmt, taucht der Begriff Datenqualität erst Mitte der 1990er­Jahrevermehrt auf. Die Vorgaben zu Datenqualität liegen damit in ihrer Entwicklunghinter den im Kontext der industriellen Fertigung entwickelten Standards hin-sichtlich Qualität deutlich zurück.

Kunden

Lieferanten

Produktion/Veredelung

Produkte

Rohstoffe

Industrielle Fertigung

Datennutzer

Lieferanten

Produktion/Veredelung

Datenprodukte

Rohstoffe

Data Warehousing

Qua

lität

sman

agem

ent

Page 19: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

71.3 Datenqualität

1.3 Datenqualität

Es gilt nun, aus den obigen allgemeinen Daten­ und Qualitätsdefinitionen denBegriff der Datenqualität abzuleiten. Helfert hat die in der Literatur vorhandenenAnsätze zur Definition von Datenqualität untersucht und einander gegenüberge-stellt (vgl. [Helfert 2002, S. 69ff.] und [Helfert 2000, S. 62ff.]). Das Ergebnis die-ser Untersuchung zeigt, dass der Anwender das Qualitätsniveau festlegt unddamit im Kontext der Datenverarbeitung ausschließlich der anwenderorientierteAnsatz (vgl. [Müller 2000, S. 15; English 1999, S. 52ff.]) sinnvoll ist. Datenquali-tät wird daher nach Würthele definiert als »mehrdimensionales Maß für die Eig-nung von Daten, den an ihre Erfassung/Generierung gebundenen Zweck zu erfül-len. Diese Eignung kann sich über die Zeit ändern, wenn sich die Bedürfnisseändern« (vgl. [Würthele 2003, S. 21]).

Diese Definition macht deutlich, dass die Qualität von Daten vom Zeitpunktder Betrachtung sowie von dem zu diesem Zeitpunkt an die Daten gestelltenAnspruchsniveau abhängt.

Um die Datenqualität letztendlich messbar zu machen, bedarf es objektiverMerkmale (auch Qualitätskriterien genannt), die den Daten (Datenprodukten)zugeordnet werden. Diese werden dabei aufgrund der praktischen Erfahrungenintuitiv definiert, auf Basis von Literaturrecherchen erstellt oder anhand vonempirischen Untersuchungen zusammengestellt (vgl. [Helfert 2002, S. 69]). DieQualitätskriterien müssen messbar sein, damit der jeweilige Erfüllungsgrad durchden Datennutzer ermittelt werden kann. In der Praxis wird es einen hundertpro-zentigen Erfüllungsgrad der Kriterien nicht geben, vielmehr sind jeweils anwen-dungs­ oder kundenbezogene Anspruchsniveaus (Sollwerte) zu definieren, andenen die Datenqualität gemessen wird.

Beispielsweise gelten für Quartals­ oder Jahresbilanzen im Bankenbereich,die kurzfristig nach Ablauf des jeweiligen Zeitraums an die Aufsichtsbehördenübermittelt werden, sehr hohe Ansprüche an die Genauigkeit und Aktualität.Dagegen sind bei Auswertungen zum Kundenverhalten geringere Anspruchsni-veaus akzeptabel.

Tabelle 1–1 zeigt eine Übersicht über häufig genannte Datenqualitätskriterien(DQ­Kriterien) in alphabetischer Reihenfolge (in Anlehnung an [Helfert/Herr-mann/Strauch 2001, S. 7]).

Page 20: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

1 Datenqualität8

Tab. 1–1 Liste möglicher Datenqualitätskriterien

Im Folgenden wird lediglich auf eine Auswahl der vorgestellten Qualitätskrite-rien näher eingegangen, da die Liste zum Teil Doppelungen enthält sowie nichtalle Kriterien als besonders geeignet erscheinen (vgl. [Hinrichs 2002, S. 30f.; Zeh2009, S. 43f.]):

■ Aktualität■ Allgemeingültigkeit■ Alter■ Änderungshäufigkeit■ Aufbereitungsgrad■ Bedeutung ■ Benutzbarkeit■ Bestätigungsgrad■ Bestimmtheit■ Detailliertheit ■ Effizienz■ Eindeutigkeit■ Fehlerfreiheit■ Flexibilität ■ Ganzheit■ Geltungsdauer■ Genauigkeit ■ Glaubwürdigkeit ■ Gültigkeit ■ Handhabbarkeit

■ Integrität ■ Informationsgrad ■ Klarheit ■ Kompaktheit■ Konsistenz■ Konstanz■ Korrektheit ■ Neutralität■ Objektivität ■ Operationalität ■ Performanz■ Portabilität■ Präzision ■ Problemadäquatheit■ Prognosegehalt■ Quantifizierbarkeit■ Rechtzeitigkeit■ Redundanzfreiheit ■ Referenzielle Integrität■ Relevanz

■ Robustheit ■ Seltenheit ■ Sicherheit■ Signifikanz■ Testbarkeit ■ Unabhängigkeit ■ Überprüfbarkeit ■ Verdichtungsgrad■ Verfügbarkeit ■ Verlässlichkeit ■ Verschlüsselungsgrad■ Verständlichkeit■ Vollständigkeit ■ Wahrheitsgehalt ■ Wiederverwendbarkeit■ Wirkungsdauer■ Zeitbezug ■ Zeitnähe■ Zugänglichkeit■ Zuverlässigkeit

Datenqualitätskriterien Definition

Korrektheit Fehlerfreiheit

Die Attributwerte eines Datensatzes (im Data Warehouse) entsprechen denen der modellierten Entitäten der realen Welt, d.h., die Daten stimmen mit der Realität überein.

Konsistenz Die Attributwerte eines Datensatzes weisen keine logischen Widersprüche untereinander oder zu anderen Datensätzen auf. Inkonsistente Daten innerhalb der operativen Systeme führen zu massiven Glaubwürdigkeitsproblemen in den analytischen Systemen.

Zuverlässigkeit Nachvollziehbarkeit

Die Attributwerte sind vertrauenswürdig, d.h., die Entstehung der Daten ist nachvollziehbar. Insbesondere bei externen Daten ist auf die Zuverlässigkeit der Quellen zu achten. Aber auch innerhalb des Data Warehouse müssen die verschiedenen Transformationen der Daten nachvollziehbar sein. Dies beginnt bei der Erfassung der Daten und geht bis zur Erstellung der Berichte in den analytischen Systemen.

Page 21: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

91.3 Datenqualität

Tab. 1–2 Definition ausgewählter Datenqualitätskriterien

Die beiden letzten Kriterien stellen eine spezielle Ausrichtung auf das relationaleDatenbankmodell dar. Aufgrund der sehr starken Verbreitung des relationalenModells ist diese Sichtweise legitim.

Die sechs DQ­Kriterien Korrektheit, Konsistenz, Zuverlässigkeit, Vollstän-digkeit, Zeitnähe und Relevanz werden in Abschnitt 2.3 nochmals aufgegriffenund im Kontext Business Intelligence näher betrachtet.

Datenqualitätskriterien Definition

Vollständigkeit Die Attributwerte eines Datensatzes sind mit Werten belegt, die semantisch vom Wert NULL (unbekannt) abweichen. Eine andere Definition bezieht sich auf den modellierten Ausschnitt der Welt. Alle wichtigen Entitäten, Beziehungen und Attribute müssen im System repräsentiert sein.

Vollständigkeit beschreibt auch die generelle Verfügbarkeit von Inhalten, die der Anwender benötigt, um seine Arbeit überhaupt durchführen zu können. Dies behandelt die Frage, ob beispielsweise alle Datenbereiche in den Business-Intelligence-Systemen integriert sind, um die Anforderungen zu erfüllen.

Des Weiteren beschreibt dieses Kriterium auch, ob die Daten komplett im ELT-Prozess oder im Fehlerfall in das Data Warehouse übernommen werden. Besonders schwierig ist dies beispielsweise bei tagesaktuellen Lieferungen aus verschiedenen Zeitzonen.

Genauigkeit Abhängig vom jeweiligen Kontext liegen die Daten in der geforderten Genauigkeit (z.B. Anzahl Nachkommastellen) vor.

Aktualität Zeitnähe Zeitbezug

Alle Datensätze entsprechen jeweils dem aktuellen Zustand der modellierten Welt und sind damit nicht veraltet. Die Daten bilden die tatsächlichen Eigenschaften des Objekts zeitnah ab. Mangelnde Aktualität kann einerseits aus der Frequenz der Ladezyklen resultieren (z.B. wöchentlich statt täglich) oder durch die verspätete Pflege der Daten bereits im operativen System (z.B. keine regel-mäßige Neubewertung von Sicherheiten).

Redundanzfreiheit Innerhalb der Datensätze dürfen keine Duplikate vorkommen. Als Duplikate werden hierbei Datensätze verstanden, die dieselbe Entität in der realen Welt beschreiben. Sie müssen aber nicht notwendiger-weise in allen Attributwerten übereinstimmen.

Relevanz Der Informationsgehalt einer Datensatzmenge bezüglich eines definierten Anwendungskontextes deckt sich mit dem Informations-bedarf einer Anfrage.

Einheitlichkeit Die Repräsentationsstruktur einer Menge von Datensätzen ist einheitlich, d.h., sie werden fortlaufend gleich abgebildet.

Eindeutigkeit Ein Datensatz muss eindeutig interpretierbar sein, d.h., die vorhande-nen Metadaten müssen die Semantik des Datensatzes festschreiben.

Verständlichkeit Die Datensätze stimmen in ihrer Begrifflichkeit und Struktur mit den Vorstellungen des Fachbereichs überein.

Schlüsseleindeutigkeit Die Primärschlüssel der Datensätze sind eindeutig.

Referenzielle Integrität Im relationalen Modell muss jeder Fremdschlüssel eindeutig auf einen existierenden Primärschlüssel referenzieren.

Page 22: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

1 Datenqualität10

Das folgende Beispiel (in Anlehnung an [Leser/Naumann 2007, S. 354f.]) ausdem BI­Umfeld verdeutlicht die Relevanz der DQ­Kriterien Vollständigkeit, Zeit-nähe und Glaubwürdigkeit. Als Entscheidungsgrundlage für das Managementeines Industrieunternehmens werden regelmäßig aus einem Data WarehouseBerichte erstellt:

■ Diese Berichte müssen Daten aus allen Werken vollständig abdecken, sonstsind die Produktionszahlen ungenau.

■ Die Berichte müssen zeitnah abrufbar sein, sonst kann nicht schnell genug beieiner veränderten Absatzlage reagiert werden.

■ Wenn die Zahlen in den Berichten nicht stimmen, weil in der Vergangenheitnachträglich viele Daten manuell geändert wurden, sind die Kennzahlenunglaubwürdig, und die Akzeptanz der BI­Lösung sinkt.

Dieses Beispiel zeigt deutlich, dass Datenqualität stets mehrdimensional zubetrachten ist. Wird die Datenqualität auf ein einzelnes Kriterium (wie beispiels-weise Vollständigkeit) reduziert, wird die Datenqualität von den Anwendern den-noch gefühlt als schlecht wahrgenommen, wenn veraltete Daten vorliegen (DQ-Kriterium Zeitnähe).

Werden die hier vorgestellten DQ­Kriterien strukturiert in Gruppen zusam-mengefasst, spricht man von einem Qualitätsmodell. Ein wesentliches Charakte-ristikum eines solchen Modells ist die Zerlegungssystematik. In der Literatur sinddiverse Systematiken zu finden (vgl. [Wang/Strong 1996, S. 20; Redman 1996,S. 267]), die bei genauerer Betrachtung gewisse Unstimmigkeiten bezüglich derZerlegung aufweisen. Ziel dieses Kapitels ist es jedoch nicht, diese Lücke durchein eigenes Modell zu schließen. Daher sei an dieser Stelle beispielhaft zunächstdas Qualitätsmodell von Hinrichs vorgestellt, das sich aus den beschriebenenQualitätskriterien ableiten lässt:

Abb. 1–3 Taxonomie von Datenqualitätskriterien (vgl. [Hinrichs 2002, S. 30])

Diesem eher aus theoretischer Sicht entstandenen Qualitätsmodell stellt die Deut-sche Gesellschaft für Informations­ und Datenqualität (DGIQ) eine Kategorisie-rung gegenüber, die aus einer Studie (vgl. [Wang/Strong 1996]) durch Befragungvon IT­Anwendern hervorgegangen ist (siehe Abb. 1–4).

KorrektheitKonsistenz

Zuverlässigkeit

Genauigkeit

ZeitnäheRedundanzfreiheitRelevanz

EinheitlichkeitEindeutigkeit

Verständlichkeit

SchlüsseleindeutigkeitReferenzielle Integrität

Glaubwürdigkeit

Vollständigkeit

Interpretierbarkeit Schlüsselintegrität (relational)Nützlichkeit

Datenqualitätskriterien

Page 23: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

111.4 Datenqualitätsmanagement

Abb. 1–4 Taxonomie von Datenqualitätskriterien (vgl. [DGIQ 2007])

Ergänzend zu den bereits beschriebenen Kriterien sind vor allem die Zugänglich-keit und die Bearbeitbarkeit hinzugekommen. Unter Zugänglichkeit wird die ein-fache Abrufbarkeit der Daten für den Anwender verstanden. Inwieweit die Datenleicht für unterschiedliche Zwecke zu bearbeiten sind, wird mit dem KriteriumBearbeitbarkeit ausgedrückt.2

Die Identifikation und Klassifikation von Datenqualitätskriterien alleinreicht für die Messung der Datenqualität allerdings nicht aus. Was fehlt, sindkonkrete, numerische Metriken. Nur darüber kann später geprüft werden, ob dieVerbesserungsmaßnahmen auch wirkungsvoll waren (»You cannot control whatyou cannot measure« (vgl. [deMarco 1982])).

Die Anwendung geeigneter Metriken ermöglicht eine Quantifizierung vonDatenqualitätskriterien und ist somit die Voraussetzung zur Bildung von Quali-tätskennzahlen. In Kapitel 7 wird genauer auf die Bildung dieser Kennzahlen aufBasis ausgewählter DQ­Kriterien eingegangen.

1.4 DatenqualitätsmanagementDas nachträgliche Bereinigen von Daten, das durch eine Vielzahl an existierendenWerkzeugen zur Fehlererkennung und ­korrektur erleichtert wird, ist im Ver-gleich zu qualitätssichernden Maßnahmen um den Faktor 5–10 teurer (vgl. [Han-kins 1999]). Trotzdem finden in den Unternehmen kaum präventive Maßnahmenstatt, sondern es wird erst beim Auftreten von Problemen reagiert (vgl. [Otto etal. 2008, S. 215f.]).

Dieses reaktive Vorgehen führt u.a. dazu, dass Risiken nicht rechtzeitigerkannt werden oder gesetzliche Auflagen nicht zu erfüllen sind (siehe Abschnitt3.2). Erst langsam kommt es in den Unternehmen zu einem Sinneswandel und

2. Eine ausführliche Beschreibung der einzelnen Kriterien findet sich in [Rohwedder et al. 2011, S. 25ff.].

System

InhaltNutzung

Darstellung

Zugänglichkeit Bearbeitbarkeit

systemunterstützt

Glaub- würdigkeit

zweck- abhängig inhärent

einheitliche Darstellung

eindeutige Auslegbarkeit

hohes Ansehen

Fehlerfreiheit

Objektivität

Relevanz

Aktualität

Wertschöpfung

Angemessener Umfang

Übersicht- lichkeit

Ver- ständlichkeit

darstellungsbezogen

IQ

Quelle: DGIQ IQ-Definition – 2007

Vollständigkeit

Page 24: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

1 Datenqualität12

somit zu einem proaktiven Ansatz mit einem Datenqualitätsmanagement, dasvon vornherein auf qualitativ hochwertige Daten setzt und kostenintensive nach-trägliche Bereinigen minimiert.

Das dazu erforderliche Qualitätsmanagement umfasst nach DIN ISO 8402»alle Tätigkeiten der Gesamtführungsaufgabe, die die Qualitätspolitik, ­ziele und­verantwortung festlegen sowie durch Mittel wie Qualitätsplanung, ­lenkung,­sicherung und ­verbesserung im Rahmen des Qualitätsmanagementsystems ver-wirklichen« (vgl. [DIN ISO 8402]). Hieraus wird deutlich, dass das Qualitätsma-nagement in der Gesamtstrategie des Unternehmens verankert sein muss. Dieseaus heutiger Sicht sinnvolle Definition entwickelte sich in der Historie seit Beginndes 20. Jahrhunderts gemäß Abbildung 1–5 in vier Stufen:

Abb. 1–5 Entwicklungsstufen des Qualitätswesens (in Anlehnung an [Wolf 1999, S. 63])

In der ersten Stufe (Qualitätskontrolle) wurde eine klare Trennung zwischen derProduktion und der Qualitätskontrolle vorgenommen, d.h., festgestellte Mängelkonnten erst nachträglich am bereits fertigen Produkt erkannt und bereinigt wer-den. Erst in den 1930er­Jahren wurde die Qualitätskontrolle in den Produktions-prozess integriert. Damit war es möglich, die Fehler während des Prozesses amEntstehungsort zu beheben (Qualitätssicherung). In den 1960er­Jahren setztesich zunehmend die Erkenntnis durch, dass sich durch die prozessbegleitendenMaßnahmen nicht alle Fehlerquellen abstellen lassen. Daher wurde das Quali-tätswesen sowohl auf die vorgelagerten Bereiche wie Forschung & Entwicklungoder Konstruktion als auch auf die nachgelagerten Bereiche wie den Vertrieb aus-gedehnt. Geprägt wurde diese Stufe durch Feigenbaum (vgl. [Feigenbaum 1961]),der den Begriff »Total Quality Control« einführte. Die ständige Weiterentwick-lung der Konzepte führte zu dem heute bekannten, ganzheitlichen Qualitätsma-nagement (Total Quality Management), das in der Gesamtstrategie des Unterneh-mens integriert sein muss.

Qualitäts- kontrolle

Qualitäts- sicherung

Total Quality Control

Total Quality Management

› Zunehmende Arbeitsteilung

› Produkt- undTechnikorientierung

› Endkontrolle

› Prozess- und produktions-orientierte Qualitätskontrolle

› Technik- orientierung

› Statistische Methoden

› Ausweitung der Qualitätssicherung auf alle qualitäts-relevanten Prozesse

› Kundenorientierung

› Ganzheitliche Qualitäts-konzeption

› Kunden-orientierung (extern und intern)

› Mitarbeiter-orientierung

› Proaktive Qualitätssicherung

Page 25: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

131.4 Datenqualitätsmanagement

Für den Aufbau eines Qualitätsmanagements (QM) sind vor allem die Berei-che Qualitätsplanung und ­lenkung von Interesse (vgl. [English 1999, S. 70ff.]).Aufgabe der Qualitätsplanung ist es, die Qualitätsanforderungen an den Prozessund das Produkt in überprüfbarer Form festzulegen. Dies beinhaltet die Auswahlvon Qualitätskriterien sowie die Festlegung von Sollwerten (Anspruchsniveaus)für diese Kriterien. Die Qualitätslenkung, zu der Arbeitstechniken und Tätigkei-ten gehören, die zur Erfüllung der Qualitätsanforderungen angewendet werden,setzt die Qualitätsplanung um. Dazu müssen geeignete Prozesse identifiziert undMaßnahmen zum Erreichen einer Prozesskonformität ergriffen werden. Produkt­und Prozessqualität müssen im Rahmen der Qualitätslenkung gemessen werden(vgl. [Helfert 2002, S. 40ff.]). Die Qualitätssicherung umfasst vor allem organisa-torische Maßnahmen, die nach außen sicherstellen sollen, dass im Unternehmenein Qualitätsmanagement existiert.

Die Ausführungen zum Qualitätsmanagement lassen sich auf ein Datenquali-tätsmanagement (DQM) für den Datenverarbeitungsprozess übertragen. Beson-ders erwähnenswert sind in diesem Zusammenhang die Arbeiten von Wang (vgl.[Wang 1998; Wang/Strong 1996]) am Massachusetts Institute of Technology(MIT), der eine Adaption der QM­Konzepte unter der Bezeichnung Total DataQuality Management (TDQM) entwickelte. Der Grundgedanke seiner Methodeist der sogenannte Plan­Do­Check­Act­Zyklus, der die Ideen von Deming alsRegelkreis beschreibt (siehe Abb. 1–6).

Abb. 1–6 Plan-Do-Check-Act-Zyklus (vgl. [Redman 1996])

Planen (plan)

Verbessern (act)Ausführen (do)

Überprüfen (check)

Page 26: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

1 Datenqualität14

Tab. 1–3 Vergleich ausgewählter DQM­Strategien

Der Zyklus beginnt mit der Definition der Datenqualitätsziele (Plan). Anschlie-ßend wird der Istzustand der Daten aufgenommen und analysiert (Do, Check).Im letzten Schritt muss durch den Einsatz geeigneter Methoden die Datenqualitätverbessert werden (Act).

Das Konzept des TDQM wurde u.a. von English (vgl. [English 1999, S. 69ff.])weiterentwickelt, der eine Vorgehensweise zur kontinuierlichen Datenqualitäts-verbesserung einführte (siehe Abb. 1–7).

Abb. 1–7 Total-Quality-data-Management-Methodik (TQdM) nach English (vgl. [English 1999, S. 70])

Redman (1996) English (1999)

Name der Strategie Data Quality Policy/Program, Managing Information Chains

Total Quality data Manage-ment, Information Quality Environment: the 14 Points of Information Quality

Grundgedanke Das Managen der Informa-tionskette als Zyklus mit einem Prozessverantwortlichen. Dabei werden die Kunden-bedürfnisse durch ein Daten-qualitätsprogramm und fest-stehende Grundsätze für Datenqualität berücksichtigt.

Die Etablierung einer Unter-nehmenskultur der Informa-tionsqualität als Basis für Datenqualitätsprozess-verbesserungen.Die Kultur ist angelehnt an die Theorien des Total Quality data Management und Demings 14-Punkte-Programm für Change Management.

Einzelne Methoden Error detection and correction, Statistical Quality Control, Measurement-System

Statt einzelner Methoden werden unterschiedliche Prozessabläufe vorgestellt, deren Aktivitäten man schritt-weise folgen kann.

Praxisbeispiel AT & T, Telstra Corporation Limited

Kein Beispiel, an dem die Gesamtstrategie durchgespielt wird, es werden nur einzelne Phasen oder Schritte beispiel-haft erläutert

Bestimmung der Datenschema- & Systemqualität

Bestimmung der Datenqualität

Bestimmung der Kosten mangelhafter Datenqualität1

2

3

Datenumstruk- turierung & -bereinigung 4

Optimierung derDatenverarbeitungs-prozesse 5

Page 27: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

151.4 Datenqualitätsmanagement

Neben der bereits erwähnten Erweiterung gibt es in der wissenschaftlichen Lite-ratur eine Vielzahl von Arbeiten, die sich mit dem Thema Datenqualitätsmanage-ment, basierend auf den Gedanken von Wang, auseinandersetzen. Die wichtigs-ten sind in Tabelle 1–3 aufgeführt (vgl. [Behme/Nietzschmann 2005, S. 46]).

Bei der Betrachtung der einzelnen Strategien zeigt sich, dass entweder ein ehertechnisch orientierter Ansatz gewählt wurde oder der Fokus auf dem Manage-mentkonzept liegt. Einig ist man sich aber, dass die technisch orientierten Ansätzenicht ohne ein begleitendes Managementkonzept möglich sind.

Für die Umsetzung eines Datenqualitätsmanagements für ein Data-Ware-house-System lassen sich drei Bereiche identifizieren (vgl. [Helfert/Herrmann/Strauch 2001, S. 19]):

■ Datenqualität als Unternehmenskultur und ­philosophie ist als Verpflichtungdes Managements anzusehen.

■ Ein Qualitätsmanagementsystem (nach ISO 8402) ist zu etablieren, das inallen Bereichen geeignete Prozesse, Richtlinien, Pläne sowie Test­ und Prüf-verfahren aufsetzt, um die geforderte Datenqualität dauerhaft zu erreichen.

Hinrichs (2002) Helfert (2002) Olson (2003)

CLIQ – Data Cleansing mit intelligentem Qualitäts-management

Proaktives Datenqualitäts-management

Data Quality Assurance Program

Vorgehensmodell für den Datenintegrationsprozess im DWH mit fester Reihenfolge der Integrationsphasen.In Anlehnung an die ISO 9001:2000 werden Datenqualitätsmaßnahmen eingebunden.

Die operative Ebene der Qualitätsplanung und -lenkung wird in die Gesamtführungs-aufgabe integriert, die Datenqualitätspolitik, -ziele und Verantwortung für Datenqualität festlegt.

Programm aus drei zu kombi-nierenden Komponenten:Dimension der Datenqualität, Methodik und Aktivitäten. Fokus sind jedoch nicht alle Dimensionen von Daten-qualität, sondern die Genauigkeit der Daten.

Sämtliche Methoden werden innerhalb des Integrations-prozesses vorgestellt, wie z. B. statistische Prozesskontrollen regelbasierte Prüfungen, Duplikatbereinigung.

Forderung der Bereitstellung von Methoden und Maßnah-men für die Ausführung der Datenqualitätsprozesse. Statistische Methoden, Data Mining zur Muster-beschreibung.

Data-Profiling-Methoden zur Generierung korrekter Meta-daten, zur Aufdeckung von ungenauen oder falschen Daten: beispielsweise Analyse der Spalteneigenschaften, Strukturanalyse

Data Quality Mining (DaimlerChrysler AG)

Beschreibung des Konzepts eines operativen Daten-qualitätsmanagements für Crédit Suisse Financial Services

Page 28: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

1 Datenqualität16

■ Zur Ausübung der Qualitätsprozesse sind geeignete Methoden, Verfahrenund Werkzeuge zur Verfügung zu stellen.

Auf Basis der bestehenden Datenqualitätsmanagement­Ansätze haben Otto u.a.einen Ordnungsrahmen entwickelt, der dem Ansatz des Business Engineeringfolgt (vgl. [Otto et al. 2008, S. 215ff.]). Dieser Ordnungsrahmen setzt sich ausden folgenden sechs Gestaltungselementen zusammen:

■ Datenqualitätsstrategie■ Führungssystem■ Data Governance■ Datenmanagement­Prozesse■ Datenarchitektur und Datenhaltung■ Systemunterstützung

Den Aufbau des Ordnungsrahmens zeigt Abbildung 1–8. Die Datenqualitätsstra-tegie befindet sich auf der Ebene »Strategie«, wodurch die enge Verzahnung mitder Unternehmensstrategie deutlich wird. Zwischen den Ebenen »Strategie« und»Organisation« liegt das Führungssystem, das die Umsetzung der Strategie steu-ert. Die Ebene »Organisation« enthält zum einen die Data Governance (Zuord-nung der Aufgaben und Verantwortlichkeiten im Rahmen des DQM) sowie dieDatenmanagement­Prozesse (umfasst die Prozesse Anlage, Pflege und Ausphasender Daten). Auf der Ebene »Systeme« wird im Rahmen der Datenarchitektur derGeltungsbereich für einzelne Datenobjekte definiert (z.B. globale versus lokaleLieferantennummer). Außerdem legt die Datenarchitektur fest, welche Rolle dieSysteme bei der Anlage, Änderung und Verteilung der Stammdaten spielen.

Abb. 1–8 Ordnungsrahmen für das Datenqualitätsmanagement (vgl. [Otto et al. 2008, S. 218])

Strategie

Organisation

Systeme

Datenqualitätsstrategie

Führungssystem

Datenarchitektur und Datenhandling

Systemunterstützung

Data Governance Datenmanage-ment-Prozesse

Page 29: Datenqualität erfolgreich steuern...vieler Unternehmen auf Lösung der Datenqualitätsproblematik durch die Einfüh-rung von Standardsoftware für Enterprise Resource Planning (ERP),

171.5 Zusammenfassung

1.5 Zusammenfassung

Die Ausführungen in diesem Kapitel machen deutlich, dass die Anforderungen andie Datenqualität jeweils von dem Unternehmen und insbesondere von denAnwendern der Daten abhängen. Eine allgemein gültige Festlegung, was einegute Datenqualität im Rahmen von Business­Intelligence­Lösungen ausmacht,gibt es nicht.

Um Datenqualität aber nicht nur als abstraktes Gebilde stehen zu lassen,wurde mithilfe der Datenqualitätskriterien eine Operationalisierung vorgenom-men. Die Aufgabe im konkreten Projekt besteht darin, eine Auswahl dieser Krite-rien zu treffen und jeweils auf das Unternehmen und den Projekthintergrund pas-sende Anspruchsniveaus festzulegen und diese zu realisieren.

Insgesamt wird auch deutlich, dass Datenqualität keine Einmal­Aktion imRahmen eines Projekts ist, sondern vielmehr als eine permanente Aufgabe ange-sehen werden muss. Dazu ist bei den Mitarbeitern ein Bewusstsein für Datenqua-lität zu schaffen sowie die Motivation, diese auch herzustellen. Nur so kann lang-fristig und nachhaltig eine bessere Datenqualität sichergestellt werden.