Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine...

33
Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen MedConf 2013 Endler Gregor, 16.10.2013

Transcript of Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine...

Page 1: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Datenqualität in medizinisch-betriebswirtschaftlichen Informationssystemen

MedConf 2013

Endler Gregor, 16.10.2013

Page 2: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Warum Datenqualität?

16.10.2013

2

2002, USA: 600.000.000 $

Y2k weltweit: 1.500.000.000 $

44.000 – 98.000 Todesfälle durch

Fehler

Kosten

Fehlende Info: bis 81% der Fälle

Vorführender
Präsentationsnotizen
Untersuchung der Challenger Katastrophe (28. Januar 1986): Mehr als 10 verschiedene Kategorien von Datenqualitätsproblemen spielten eine Rolle. Quellen: Wayne Eckerson: Data Quality and the Bottom Line: Achieving Business Success through a Commitment to High Quality Data. The Data Warehouse Institute. Repost Series. 2002 L.P. English: Improving Data Warehouse and Business Information Quality. Wiley & Sons. 1999 - Fisher, Kingma: Criticality of Data Quality as Exemplified in Two Disasters. Information Management. 2002 - IOM Report 1999, 2001 - Miller, D.W., et al.: Missing prenatal records at a birth center: A communication problem quantified. AMIA Annu. Symp. Proc. (2005)
Page 3: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Was ist Datenqualität?

Keine allgemein

anerkannte Definition

Viele verwandte Forschungs-

gebiete

Intuitiv klar

3 16.10.2013

Vorführender
Präsentationsnotizen
Verwandte Gebiete: Datenintegration Data Mining (Statistische) Datenanalyse Management Informationssysteme Datenlogistik und Prozessunterstützung Wissensrepräsentation …
Page 4: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

1. Datenqualität ist subjektiv

Was ist Datenqualität?

Generisch: „Fitness for Use“

4 16.10.2013

Page 5: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Beispiel

PID Name Vorname Geburtsjahr Telefon MgrZulage

9462 Hans Müller 1984 1234

3819 Müller Hans 1984 1234

9406 Mustermann Susanne 1978

78365 Merkel Angela 1900 340

2643 Becker Bris 2015 8374

5

fehlende Werte Duplikate

nicht plausibler Wert falscher Wert

Felder vertauscht

Tippfehler

unmöglicher Wert

ungenau

16.10.2013

Vorführender
Präsentationsnotizen
Daten können… nicht vorhanden irrelevant falsch veraltet mehrdeutig nicht verfügbar unverständlich unglaubwürdig … …sein
Page 6: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

1. Datenqualität ist subjektiv

2. Datenqualität ist multidimensional

Was ist Datenqualität?

Viele unterschiedliche Arten von „Qualität“

6 16.10.2013

Vorführender
Präsentationsnotizen
Dimensionen kennzeichnen die potenziellen Probleme
Page 7: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Korrektheit, Genauigkeit

7

Korrektheit

• Übereinstimmung Datenwert - Realwelt

• Syntaktisch vs. Semantisch

Genauigkeit

• Abstand Datenwert - Realwelt

kontextunabhängig kontextabhängig

16.10.2013

Vorführender
Präsentationsnotizen
Bsp: Datenwert „krank“: 100% korrekt; für Arbeitgeber ausreichend genau, für behandelnden Arzt: nicht genau genug
Page 8: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Vollständigkeit

8

Vollständigkeit

Schema

Attribut

Tupel

Relation

Population

16.10.2013

Page 9: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Konsistenz

Widerspruchs- freiheit

9

Relationale Integritätsbedingungen

Benutzerdefinierte Constraints

Konsistenz

16.10.2013

Vorführender
Präsentationsnotizen
Sind alle Integritätsbedingungen erfüllt? Relationale Integritätsbedingungen: Eindeutigkeit des Primärschlüssels Referenzielle Integrität Benutzerdefinierte Integritätsbedingungen Prädikate Zustandsübergangsregeln
Page 10: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Zeitbezogene Dimensionen

Aktualität

Daten veraltet?

Zeitnähe

Zeitgerechte Bereitstellung?

10 16.10.2013

Vorführender
Präsentationsnotizen
Weitere Dimensionen: Relevanz Verfügbarkeit Zugreifbarkeit Objektivität Vertrauenswürdigkeit von Datenquellen …
Page 11: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Wechselwirkungen

Sicherstellen von

Korrektheit, … Erfordert Zeit Zeitnähe

gefährdet

11 16.10.2013

Vorführender
Präsentationsnotizen
Weiteres Beispiel: Herstellen von Populationsvollständigkeit => neue syntaktische/semantische Fehler möglich
Page 12: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

1. Datenqualität ist subjektiv

2. Datenqualität ist multidimensional

3. DQ-Dimensionen sind nicht unabhängig

Was ist Datenqualität?

Wechselwirkungen zwischen Dimensionen

12 16.10.2013

Page 13: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Messen von Datenqualität

Page 14: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Referenzdaten

14 16.10.2013

Page 15: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Maße

• Syntaktisch: Wertebereich, Rechtschreibung

• Semantisch: Realweltvergleich Korrektheit

• Realweltvergleich • Spezialfall Distanzmessung an Realobjekt Genauigkeit

Konsistenz # Tupel, die alle Integritätsbedingungen erfüllen

# Tupel

• Fehlende Daten für Arbeitsschritt? • Prozessmonitoring Zeitnähe

15 16.10.2013

Vorführender
Präsentationsnotizen
Distanzmessung an Realobjekt: z.B. 3D-Scan von Werkstück
Page 16: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Messen von Vollständigkeit

• Attribut, Tupel, Relation: Anteil NULL • Schema: Schema- & Bedarfsanalyse

Vollständigkeit

NULL

Wert existiert nicht

Wert existiert, ist aber nicht bekannt

Nicht bekannt, ob Wert existiert

16

• Populationsvollständigkeit: Expertenwissen, Realweltvergleich

16.10.2013

Page 17: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Messen von Aktualität

Realweltobjekt Zeit

Zeit

Zeit

Datenobjekt d

Aktualisierungen

Aktualität von d

17 16.10.2013

Page 18: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Messen von Aktualität ctd.

Zeit

Zeit

Datenobjekt d

geschätzte Aktualität von d

Realweltobjekt Zeit

Volatilität ?

18 16.10.2013

Page 19: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Verbesserung von Datenqualität

Page 20: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

DQ und Prozesskontrolle

Daten Prozesse

steuern

erzeugen

Unternehmens- organisation IT Geschäfts-

prozesse

20 16.10.2013

Vorführender
Präsentationsnotizen
Datenqualität sinkt wenn sie nicht mit Prozesskontrolle Hand in Hand geht Nachhaltige Prozessoptimierung ist nur mit Sicherung der Datenqualität möglich Datenqualität ist … … ein Problem der IT … ein Problem der Geschäftsprozesse … ein Problem der Unternehmensorganisation => Ganzheitliche Lösungen zur nachhaltigen Gewährleistung von Datenqualität nötig
Page 21: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Maßnahmenportfolio

Maßnahmenportfolio zur Verbesserung der DQ [Redman 1996]

Änderungs- häufigkeit der Realweltobjekte

Bedeutung (Wichtigkeit) der Daten

niedrig

hoch

niedrig hoch

Laissez faire

Reaktive Maßnahmen

Proaktive Maßnahmen

21 16.10.2013

Vorführender
Präsentationsnotizen
Proaktive Maßnahmen:�Kontinuierliches Datenqualitätsmanagement Reaktive Maßnahmen:�Korrektur (Stichwort Data Cleaning im Data Warehousing)
Page 22: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

TDQM Zyklus

22

Define

Measure

Analyze

Improve

TDQM: Wang et al: “Data Quality”, Kluwer, 2000 16.10.2013

Vorführender
Präsentationsnotizen
TDQM = Total Data Quality Management Define: Anforderungsanalyse Measure: Bestimmung der Qualitätsindikatoren Analyze: Bewertung der Messung Improve: Korrektur der Daten, Prozessoptimierung
Page 23: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Transparenz

… der DQ … der Datenproduktion

QS2 q1 q2 …

qw2 qind1 qind2 …

… … … …

23

A1, QS1 A2, QS2 A3, QS3

w1, qw1 w2, qw2 …

… … ...

16.10.2013

Vorführender
Präsentationsnotizen
Cell Tagging
Page 24: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Transparenz

… der DQ … der Datenproduktion

Provenance

Why Where How

24 16.10.2013

Vorführender
Präsentationsnotizen
Why Provenance Alle Quellen, die zum Ergebnis einer Anfrage beitragen Where Provenance Alle Quellen, �aus denen Daten im Ergebnis einer Anfrage enthalten sind How Provenance Wie genau kommt das Ergebnis zustande?
Page 25: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Maßnahmen

25

Profiling

Attributanalyse

Abhängigkeiten

Fremdschlüssel-beziehungen

Redundanzen

Manuelle Korrektur

(semi-)automatische Korrektur

Ausreißer

Identity Matching

Record Linkage

16.10.2013

Vorführender
Präsentationsnotizen
Analyse von Inhalt und Struktur einzelner Attribute: Datentyp, Wertebereich, Verteilung und Varianz, Vorkommen von Nullwerten, Eindeutigkeit, Muster (z.B. dd/mm/yyyy) Analyse von Abhängigkeiten zwischen Attributen einer Relation: Funktionale Abhängigkeiten, Schlüsselkandidaten, … Redundanzen: Analyse von semantischen Überlappungen zwischen Attributen verschiedener Relationen Identity Matching: Semantisch äquivalente Datensätze aufspüren; Duplikatseliminierung Record-linkage: Datensätze aufspüren, die zum selben Realweltobjekt gehören
Page 26: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Datenqualität im Projekt MEDITALK

Page 27: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Kontext

Gemeinschaftliche Behandlung

Finanzielle Vorteile

Praxis-manager

27 16.10.2013

Page 28: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Wo drückt der Schuh?

28 16.10.2013

Page 29: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Fitness for Use?

ERP System des Zentrums

Integrierte Datenbank

APS A APS B

Metadaten Repository

Administrative Anwendungen (z.B. Controlling)

Heterogene Arztpraxis- Systeme (APS)

DQ-Monitoring

Neue Verwendung

Integration

MVZ und Praxisnetz

29 16.10.2013

Page 30: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Pay-as-you-go

Pay-as-you-go DQ-Monitoring

TDQM: Wang et al: “Data Quality”, Kluwer, 2000

Monitor

Monitor Monitoring Problemanzeige

neue Regeln neue Metriken

Ursprung? Ursachen?

Benachrichtigung Bereinigung

Define

Measure

Analyze

Improve

Initiale Definition von

Regeln, Metriken

30 16.10.2013

Page 31: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Zusammenfassung

31

Datenqualität ist subjektiv

Datenqualität ist multidimensional

DQ-Dimensionen sind nicht unabhängig

Oft kontinuierliches DQ-Management nötig

Messen entlang der Dimensionen

16.10.2013

Page 32: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Gregor Endler Lehrstuhl für Informatik 6 (Datenmanagement) FAU Erlangen-Nürnberg [email protected] www6.cs.fau.de/people/greg/

Kontakt

Page 33: Datenqualität in medizinisch-betriebswirtschaftlichen ... · Was ist Datenqualität? Keine allgemein anerkannte Definition Viele verwandte Forschungs- gebiete Intuitiv klar . 3 .

Quellen

33

Batini, C. and Scannapieco, M.: Data Quality. Concepts, Methodologies and Techniques, Springer, 2006 Eckerson, W.: Data Quality and the Bottom Line: Achieving Business Success through a Commitment to High Quality Data, The Data Warehouse Institute, Repost Series, 2002 Fisher, C.W. and Kingma, B.R.: Criticality of Data Quality as Exemplified in Two Disasters, Information Management, 2002 English, L.P.: Improving Data Warehouse and Business Information Quality, Wiley & Sons, 1999 Institute of Medicine: IOM Report 1999 IOM Report 2001 Lenz, R.Y.: Vorlesungsmaterial Evolutionäre Informationssysteme, 2012 Miller, D.W., et al.: Missing prenatal records at a birth center: A communication problem quantified, AMIA Annu. Symp. Proc., 2005 Redman, T.C.: Data Quality for the Information Age, Artech House, 1996 Wang, R. et.al.: Data Quality, Kluwer, 2000

16.10.2013