Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung...

86
Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Data Cleaning und Record Matching Seminar Informationsintegration und Informationsqualität Christoph R. Hartel TU Kaiserslautern 14. Juli 2006 Data Cleaning und Record Matching (Christoph R. Hartel) 1

Transcript of Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung...

Page 1: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Data Cleaning und Record MatchingSeminar Informationsintegration und Informationsqualität

Christoph R. Hartel

TU Kaiserslautern

14. Juli 2006

Data Cleaning und Record Matching (Christoph R. Hartel) 1

Page 2: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 2

Page 3: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 3

Page 4: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Was können wir bisher?

Wir können . . .heterogene Datenquellen auffinden,bewerten,ihre Schemata matchen,in ein globales Schema abbildenund uniform darauf zugreifen.

Und was fehlt?

Behandlung der eigentlichen Daten!→Data CleaningWarum?→„garbage in, garbage out“

Data Cleaning und Record Matching (Christoph R. Hartel) 4

Page 5: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Was können wir bisher?

Wir können . . .heterogene Datenquellen auffinden,bewerten,ihre Schemata matchen,in ein globales Schema abbildenund uniform darauf zugreifen.

Und was fehlt?

Behandlung der eigentlichen Daten!→Data CleaningWarum?→„garbage in, garbage out“

Data Cleaning und Record Matching (Christoph R. Hartel) 4

Page 6: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Was können wir bisher?

Wir können . . .heterogene Datenquellen auffinden,bewerten,ihre Schemata matchen,in ein globales Schema abbildenund uniform darauf zugreifen.

Und was fehlt?Behandlung der eigentlichen Daten!→Data CleaningWarum?→„garbage in, garbage out“

Data Cleaning und Record Matching (Christoph R. Hartel) 4

Page 7: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Was ist Data Cleaning?

Definition (Data Cleaning)

Data Cleaning ist der Prozess der Identifikation undKorrektur von Anomalien in einer gegebenen Datenmenge.

Definition (Anomalie)

Eine Anomalie ist eine Eigenschaft einer Menge vonDatensätzen, die dazu führt, dass diese Datensätze einefalsche Repräsentation der Miniwelt darstellen.

Data Cleaning und Record Matching (Christoph R. Hartel) 5

Page 8: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Was ist Data Cleaning?

Definition (Data Cleaning)

Data Cleaning ist der Prozess der Identifikation undKorrektur von Anomalien in einer gegebenen Datenmenge.

Definition (Anomalie)

Eine Anomalie ist eine Eigenschaft einer Menge vonDatensätzen, die dazu führt, dass diese Datensätze einefalsche Repräsentation der Miniwelt darstellen.

Data Cleaning und Record Matching (Christoph R. Hartel) 5

Page 9: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 6

Page 10: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Datenanomalien

3 Arten von Anomalien:

Syntaktische Anomalien

Semantische Anomalien

(Abdeckungsanomalien)betreffen Vollständigkeit der Daten→Nicht Teil des Data Cleaning im engeren Sinne

Data Cleaning und Record Matching (Christoph R. Hartel) 7

Page 11: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Syntaktische Anomalien

Lexikalische Fehler

= Fehler in der Struktur der Datenz.B.

Misfielded ValuesEmbedded Values. . .

Formatierungsfehler

= Abweichung von Formatierungskonventionenz.B.

AbkürzungenSynonymeDummy-Werte. . .

Data Cleaning und Record Matching (Christoph R. Hartel) 8

Page 12: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Semantische Anomalien

Verletzung von IntegritätsbedingungenObermenge der im Schema spezifizierten!z. B. Alter kleiner 0, Verletzung von FA zw. „PLZ“ und „Ort“

Fehlerhafte Datenverletzen keine Integritätsbedingungen, aber decken sichaber nicht mit Eigenschaften des Bezugsobjekts in MiniweltTypographische Fehler, Konvertierungsfehler, Aliase, . . .

Duplikatez. B. zwei identische Datensätze→später im Detail!

Data Cleaning und Record Matching (Christoph R. Hartel) 9

Page 13: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 10

Page 14: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Probleme des Data Cleanings

Größe der DatenmengeSchema Matching: Anzahl der „Spalten“ (N ≈ 100)Data Cleaning: Anzahl der „Zeilen“ (N ≈ 100 Mio.)

Verfügbarkeit von RessourcenFast immer enge Schranken für

ZeitHardwareFachpersonal

Häufigkeit der DurchführungSchema Matching erfolgt einmal (bzw. selten)Data Cleaning sollte regelmäßig erfolgen

Data Cleaning und Record Matching (Christoph R. Hartel) 11

Page 15: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Probleme des Data Cleanings

Größe der DatenmengeSchema Matching: Anzahl der „Spalten“ (N ≈ 100)Data Cleaning: Anzahl der „Zeilen“ (N ≈ 100 Mio.)

Verfügbarkeit von RessourcenFast immer enge Schranken für

ZeitHardwareFachpersonal

Häufigkeit der DurchführungSchema Matching erfolgt einmal (bzw. selten)Data Cleaning sollte regelmäßig erfolgen

Data Cleaning und Record Matching (Christoph R. Hartel) 11

Page 16: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Probleme des Data Cleanings

Größe der DatenmengeSchema Matching: Anzahl der „Spalten“ (N ≈ 100)Data Cleaning: Anzahl der „Zeilen“ (N ≈ 100 Mio.)

Verfügbarkeit von RessourcenFast immer enge Schranken für

ZeitHardwareFachpersonal

Häufigkeit der DurchführungSchema Matching erfolgt einmal (bzw. selten)Data Cleaning sollte regelmäßig erfolgen

Data Cleaning und Record Matching (Christoph R. Hartel) 11

Page 17: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Probleme des Data Cleanings (2)

Vorhandensein von global eindeutigen IDsAnnahme bisher: Equi-Join über globale IDs möglichKundendatenbanken zweier Unternehmen?⇒ Nicht gegeben!

Behandlung von DuplikatenAnnahme bisher: Duplikate werden einfach eliminiertNicht-exakten Duplikaten? Informationsgehalt?⇒ Nicht trivial!

Manuelle NachbearbeitungAnnahme bisher: Unklare Datensätze von HandFür praktische Anwendungen?⇒ Illusorisch... (Datenmenge!)

Data Cleaning und Record Matching (Christoph R. Hartel) 12

Page 18: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Probleme des Data Cleanings (2)

Vorhandensein von global eindeutigen IDsAnnahme bisher: Equi-Join über globale IDs möglichKundendatenbanken zweier Unternehmen?⇒ Nicht gegeben!

Behandlung von DuplikatenAnnahme bisher: Duplikate werden einfach eliminiertNicht-exakten Duplikaten? Informationsgehalt?⇒ Nicht trivial!

Manuelle NachbearbeitungAnnahme bisher: Unklare Datensätze von HandFür praktische Anwendungen?⇒ Illusorisch... (Datenmenge!)

Data Cleaning und Record Matching (Christoph R. Hartel) 12

Page 19: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

MotivationDatenanomalienProbleme des Data Cleanings

Probleme des Data Cleanings (2)

Vorhandensein von global eindeutigen IDsAnnahme bisher: Equi-Join über globale IDs möglichKundendatenbanken zweier Unternehmen?⇒ Nicht gegeben!

Behandlung von DuplikatenAnnahme bisher: Duplikate werden einfach eliminiertNicht-exakten Duplikaten? Informationsgehalt?⇒ Nicht trivial!

Manuelle NachbearbeitungAnnahme bisher: Unklare Datensätze von HandFür praktische Anwendungen?⇒ Illusorisch... (Datenmenge!)

Data Cleaning und Record Matching (Christoph R. Hartel) 12

Page 20: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 13

Page 21: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Ausgangspunkt des Data Cleanings

Entstehung der Datenbasis ist egal:IntegrationExistierende Datenbasis. . .

Annahmen des Data Cleanings:

Daten liegen in einem einzigen, definierten Schema vor

Die Daten sind im Sinne des Schemas konsistent

Auf alle Daten ist ein uniformer Zugriff möglich (r/w!)

Data Cleaning und Record Matching (Christoph R. Hartel) 14

Page 22: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Ablauf des Data Cleanings

Datenanalyse

Workflow-Definition

Workflow-Verifikation

Vorverarbeitung

Record Matching

Record Merging

Transformation

Evaluation

Rückfluss der Daten

Data Cleaning und Record Matching (Christoph R. Hartel) 15

Page 23: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Datenanalyse

Ziele:Gewinnung von (über das Schema hinausgehenden)MetadatenIntegritätsbedinungen, statistische Merkmale, . . .Identifikation von AnomalienGrundlage der Workflow-Spezifikation!

Ansätze:„Einfache Statistik“: Min, Max, Varianz, . . .Pattern-MatchingRegeln (für Beziehungen von Attributen)

Optimierung:Wiederverwendung von Analyseergebnissen bei SchemaMatching!

Data Cleaning und Record Matching (Christoph R. Hartel) 16

Page 24: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Ablauf des Data Cleanings: Definition & Verifikation

Datenanalyse

Workflow-Definition

Workflow-Verifikation

Vorverarbeitung

Record Matching

Record Merging

Transformation

Evaluation

Rückfluss der Daten

Data Cleaning und Record Matching (Christoph R. Hartel) 17

Page 25: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Workflow-Definition und -Verfikation

Datenanalyse Workflow-Definition

Workflow-Verifikation

Interessanter Ansatz: Interaktive SpezifikationImmediate FeedbackHighlighting der zu ändernden WerteUndo-FunktionalitätSpezifikation durch BeispielPotter’s Wheel

Data Cleaning und Record Matching (Christoph R. Hartel) 18

Page 26: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Ablauf des Data Cleanings: Vorverarbeitung

Datenanalyse

Workflow-Definition

Workflow-Verifikation

Vorverarbeitung

Record Matching

Record Merging

Transformation

Evaluation

Rückfluss der Daten

Data Cleaning und Record Matching (Christoph R. Hartel) 19

Page 27: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Datenvorverarbeitung

⇒ Beseitigung aller Anomalien bis auf Duplikate

Normalisierung →syntaktische AnomalienAttribute Split (z.B. „Adresse“) →Schemaebene?Standardisierung (Abkürzungen, Termreihenfolge, . . . )Ist Normalisierung immer eine gute Idee?(Informationsverlust?, Uneinheitliche Daten?, . . . )

Validierung →semantische AnomalienTypographische Fehler, z. B. „Hasn“ statt „Hans“Ausreißer, z. B. Geburtsjahr „1897“ statt „1987“Inkonsistenzen, z. B. zw. „PLZ“ und „Ort“. . .

Data Cleaning und Record Matching (Christoph R. Hartel) 20

Page 28: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Datenvorverarbeitung

⇒ Beseitigung aller Anomalien bis auf Duplikate

Normalisierung →syntaktische AnomalienAttribute Split (z.B. „Adresse“) →Schemaebene?Standardisierung (Abkürzungen, Termreihenfolge, . . . )Ist Normalisierung immer eine gute Idee?(Informationsverlust?, Uneinheitliche Daten?, . . . )

Validierung →semantische AnomalienTypographische Fehler, z. B. „Hasn“ statt „Hans“Ausreißer, z. B. Geburtsjahr „1897“ statt „1987“Inkonsistenzen, z. B. zw. „PLZ“ und „Ort“. . .

Data Cleaning und Record Matching (Christoph R. Hartel) 20

Page 29: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 21

Page 30: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Ablauf des Data Cleanings: Record Matching

Datenanalyse

Workflow-Definition

Workflow-Verifikation

Vorverarbeitung

Record Matching

Record Merging

Transformation

Evaluation

Rückfluss der Daten

Data Cleaning und Record Matching (Christoph R. Hartel) 22

Page 31: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Was ist Record Matching?

Definition (Record Matching)

Record Matching ist die Identifikation von Duplikaten in einerMenge von Datensätzen.

Alternativ: Record Linkage, Object Identification, Entity Resolution,Reference Reconciliation, . . .

Definition (Duplikat/Äquivalenz)

Ein Datensatz R1 ist ein Duplikat eines anderen DatensatzesR2 (mit R1 6= R2), wenn beide Datensätze dasselbeBezugsobjekt in der Miniwelt repräsentieren.

Annahme: Jeder Datensatz hat genau ein Bezugsobjekt.

Data Cleaning und Record Matching (Christoph R. Hartel) 23

Page 32: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Was ist Record Matching?

Definition (Record Matching)

Record Matching ist die Identifikation von Duplikaten in einerMenge von Datensätzen.

Alternativ: Record Linkage, Object Identification, Entity Resolution,Reference Reconciliation, . . .

Definition (Duplikat/Äquivalenz)

Ein Datensatz R1 ist ein Duplikat eines anderen DatensatzesR2 (mit R1 6= R2), wenn beide Datensätze dasselbeBezugsobjekt in der Miniwelt repräsentieren.

Annahme: Jeder Datensatz hat genau ein Bezugsobjekt.

Data Cleaning und Record Matching (Christoph R. Hartel) 23

Page 33: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Modell von Fellegi & Sunter – Überblick

Fellegi und Sunter definieren 1969 Modell für RecordMatching

Liefert theoretische Fundierung für alle heutigen Verfahren

Abstraktes Modell: keine Aussagen über Realisierung

Ausgangspunkt

MA B

A, B zwei Mengen von DatensätzenMatches M (selbes Bezugsobjekt), Nicht-Matches UM und U existieren, aber sind unbekannt!

Data Cleaning und Record Matching (Christoph R. Hartel) 24

Page 34: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Modell von Fellegi & Sunter – Überblick

Fellegi und Sunter definieren 1969 Modell für RecordMatching

Liefert theoretische Fundierung für alle heutigen Verfahren

Abstraktes Modell: keine Aussagen über Realisierung

Ausgangspunkt

MA B

A, B zwei Mengen von DatensätzenMatches M (selbes Bezugsobjekt), Nicht-Matches UM und U existieren, aber sind unbekannt!

Data Cleaning und Record Matching (Christoph R. Hartel) 24

Page 35: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Modell von Fellegi & Sunter – Ablauf

1. Schritt: Vergleichsraum Γ definierenΓ wird durch beliebige Kriterien aufgespannt, z.B.:

„Vorname stimmt überein“„Nachname ist ähnlich“„Geburtsdatum weicht um max. 2 Jahre ab“

2. Schritt: Vergleichsfunktion comp : A× B −→ Γ

z.B. comp(R1, R2) = (1, 1, 0) = γ ∈ Γ

3. Schritt: Entscheidungsfunktion dec : Γ −→ {L, NL, PL}Links (L) 6= Matches, Nicht-Links (NL), mögliche Links (PL)

dec(γ) =

L, falls r(γ) > tupper

NL, falls r(γ) < tlower

PL, sonst

PL ⇒ Clerical Review; r = Agreement Ratio

Data Cleaning und Record Matching (Christoph R. Hartel) 25

Page 36: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Modell von Fellegi & Sunter – Ablauf

1. Schritt: Vergleichsraum Γ definierenΓ wird durch beliebige Kriterien aufgespannt, z.B.:

„Vorname stimmt überein“„Nachname ist ähnlich“„Geburtsdatum weicht um max. 2 Jahre ab“

2. Schritt: Vergleichsfunktion comp : A× B −→ Γ

z.B. comp(R1, R2) = (1, 1, 0) = γ ∈ Γ

3. Schritt: Entscheidungsfunktion dec : Γ −→ {L, NL, PL}Links (L) 6= Matches, Nicht-Links (NL), mögliche Links (PL)

dec(γ) =

L, falls r(γ) > tupper

NL, falls r(γ) < tlower

PL, sonst

PL ⇒ Clerical Review; r = Agreement Ratio

Data Cleaning und Record Matching (Christoph R. Hartel) 25

Page 37: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Modell von Fellegi & Sunter – Ablauf

1. Schritt: Vergleichsraum Γ definierenΓ wird durch beliebige Kriterien aufgespannt, z.B.:

„Vorname stimmt überein“„Nachname ist ähnlich“„Geburtsdatum weicht um max. 2 Jahre ab“

2. Schritt: Vergleichsfunktion comp : A× B −→ Γ

z.B. comp(R1, R2) = (1, 1, 0) = γ ∈ Γ

3. Schritt: Entscheidungsfunktion dec : Γ −→ {L, NL, PL}Links (L) 6= Matches, Nicht-Links (NL), mögliche Links (PL)

dec(γ) =

L, falls r(γ) > tupper

NL, falls r(γ) < tlower

PL, sonst

PL ⇒ Clerical Review; r = Agreement Ratio

Data Cleaning und Record Matching (Christoph R. Hartel) 25

Page 38: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Record-Matching-Verfahren

In der Literatur ex. (scheinbar) zahlreiche Verfahren

Aber:Verfahren = Ablaufsteuerung + Ähnlichkeitsmetriken

Ähnlichkeit sim(R1, R2) =∑

wi · sim(vR1i , vR2

i ) ∈ [0, . . . , 1]

MetrikenZahlen (z.B. Geburtsjahr)→Vergleich sehr einfach, aber Aussagekraft?Strings (z.B. Name)→Editierabstände, Phonetik, Abkürzungen, WHIRL, . . .Konstanten?z.B. Geschlecht „Männlich“ / „Weiblich“ vs. „M“ / „F“ vs. 0 / 1→Vorarbeit in Analysephase notwendig!

Data Cleaning und Record Matching (Christoph R. Hartel) 26

Page 39: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Record-Matching-Verfahren

In der Literatur ex. (scheinbar) zahlreiche Verfahren

Aber:Verfahren = Ablaufsteuerung + Ähnlichkeitsmetriken

Ähnlichkeit sim(R1, R2) =∑

wi · sim(vR1i , vR2

i ) ∈ [0, . . . , 1]

MetrikenZahlen (z.B. Geburtsjahr)→Vergleich sehr einfach, aber Aussagekraft?Strings (z.B. Name)→Editierabstände, Phonetik, Abkürzungen, WHIRL, . . .Konstanten?z.B. Geschlecht „Männlich“ / „Weiblich“ vs. „M“ / „F“ vs. 0 / 1→Vorarbeit in Analysephase notwendig!

Data Cleaning und Record Matching (Christoph R. Hartel) 26

Page 40: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Record-Matching-Verfahren

In der Literatur ex. (scheinbar) zahlreiche Verfahren

Aber:Verfahren = Ablaufsteuerung + Ähnlichkeitsmetriken

Ähnlichkeit sim(R1, R2) =∑

wi · sim(vR1i , vR2

i ) ∈ [0, . . . , 1]

MetrikenZahlen (z.B. Geburtsjahr)→Vergleich sehr einfach, aber Aussagekraft?Strings (z.B. Name)→Editierabstände, Phonetik, Abkürzungen, WHIRL, . . .Konstanten?z.B. Geschlecht „Männlich“ / „Weiblich“ vs. „M“ / „F“ vs. 0 / 1→Vorarbeit in Analysephase notwendig!

Data Cleaning und Record Matching (Christoph R. Hartel) 26

Page 41: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Record-Matching-Verfahren

In der Literatur ex. (scheinbar) zahlreiche Verfahren

Aber:Verfahren = Ablaufsteuerung + Ähnlichkeitsmetriken

Ähnlichkeit sim(R1, R2) =∑

wi · sim(vR1i , vR2

i ) ∈ [0, . . . , 1]

MetrikenZahlen (z.B. Geburtsjahr)→Vergleich sehr einfach, aber Aussagekraft?Strings (z.B. Name)→Editierabstände, Phonetik, Abkürzungen, WHIRL, . . .Konstanten?z.B. Geschlecht „Männlich“ / „Weiblich“ vs. „M“ / „F“ vs. 0 / 1→Vorarbeit in Analysephase notwendig!

Data Cleaning und Record Matching (Christoph R. Hartel) 26

Page 42: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Record Matching: Ablaufsteuerung

Algorithmen angelehnt an JOIN-Implementierungen

Naiver Algorithmus: Nested LoopsVergleiche jeden Datensatz mit jedem anderen ⇒ O(N2)

Sorted-Neighbourhood-VerfahrenErweitert Idee von Sort-Merge-JOIN

Probleme:Keine eindeutigen IDsDaten potentiell fehlerhaft

Data Cleaning und Record Matching (Christoph R. Hartel) 27

Page 43: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Sorted-Neighbourhood-Verfahren

1. Schlüssel berechnen

74Maie

80Schm

47Maie

...

Name Vorname GebDat

Maier Hans 27.03.1974

Schmitt Elisabeth 04.11.1980

Maier Hans 27.03.1947

Müller Karl 15.06.1958

Schmitt Maria 18.09.1963

Maier Hasn 27.03.1974

Mayer Franz 21.12.1971

Müller Günther 03.02.1984

Schmidt Ernst 29.08.1967

Data Cleaning und Record Matching (Christoph R. Hartel) 28

Page 44: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Sorted-Neighbourhood-Verfahren

2. Nach Schlüssel sortieren

Name Vorname GebDat Schlüssel

Maier Hans 27.03.1947 47Maie

Müller Karl 15.06.1958 58Müll

Schmitt Maria 18.09.1963 63Schm

Schmidt Ernst 29.08.1967 67Schm

Mayer Franz 21.12.1971 71Maye

Maier Hans 27.03.1974 74Maie

Maier Hasn 27.03.1974 74Maie

Schmitt Elisabeth 04.11.1980 80Schm

Müller Günther 03.02.1984 84Müll

Data Cleaning und Record Matching (Christoph R. Hartel) 29

Page 45: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Sorted-Neighbourhood-Verfahren

3. „Fenster“ über Daten schieben (Iterativ)Fixe Fenstergröße, z.B. w = 3

Name Vorname GebDat Schlüssel

Maier Hans 27.03.1947 47Maie

Müller Karl 15.06.1958 58Müll

Schmitt Maria 18.09.1963 63Schm

Schmidt Ernst 29.08.1967 67Schm

Mayer Franz 21.12.1971 71Maye

Maier Hans 27.03.1974 74Maie

Maier Hasn 27.03.1974 74Maie

Schmitt Elisabeth 04.11.1980 80Schm

Müller Günther 03.02.1984 84Müll

Data Cleaning und Record Matching (Christoph R. Hartel) 30

Page 46: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Sorted-Neighbourhood-Verfahren

4. Pro Iteration: Alle R im Fenster vergleichenNested Loop, aber für kleines N⇒ O(NlogN) für w � N (genauer: w < dlogNe)

Name Vorname GebDat Schlüssel

Maier Hans 27.03.1947 47Maie

Müller Karl 15.06.1958 58Müll

Schmitt Maria 18.09.1963 63Schm

Schmidt Ernst 29.08.1967 67Schm

Mayer Franz 21.12.1971 71Maye

Maier Hans 27.03.1974 74Maie

Maier Hasn 27.03.1974 74Maie

Schmitt Elisabeth 04.11.1980 80Schm

Müller Günther 03.02.1984 84Müll

Data Cleaning und Record Matching (Christoph R. Hartel) 31

Page 47: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Sorted-Neighbourhood-Verfahren

Problem: Fehlertoleranz sehr gering!

Bei Fehler in Schlüssel-Attributen Einordnung in falscheNachbarschaft

Name Vorname GebDat Schlüssel

Maier Hans 27.03.1947 47Maie

Müller Karl 15.06.1958 58Müll

Schmitt Maria 18.09.1963 63Schm

Schmidt Ernst 29.08.1967 67Schm

Mayer Franz 21.12.1971 71Maye

Maier Hans 27.03.1974 74Maie

Maier Hasn 27.03.1974 74Maie

Schmitt Elisabeth 04.11.1980 80Schm

Müller Günther 03.02.1984 84Müll

Data Cleaning und Record Matching (Christoph R. Hartel) 32

Page 48: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 33

Page 49: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Ablauf des Data Cleanings: Record Merging

Datenanalyse

Workflow-Definition

Workflow-Verifikation

Vorverarbeitung

Record Matching

Record Merging

Transformation

Evaluation

Rückfluss der Daten

Data Cleaning und Record Matching (Christoph R. Hartel) 34

Page 50: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Grundlagen des Record Merging

Definition (Record Merging)

Record Merging ist die Behandlung von Duplikaten in einerMenge von Datensätzen.

Trivialer Fall: Eliminierung von DuplikatenAber: Ist das immer eine gute Idee?

Erster Schritt:In welcher Beziehung können äquivalente Datensätzezueinander stehen?

Zweiter Schritt:Wie können wir damit jeweils umgehen?

Data Cleaning und Record Matching (Christoph R. Hartel) 35

Page 51: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Grundlagen des Record Merging

Definition (Record Merging)

Record Merging ist die Behandlung von Duplikaten in einerMenge von Datensätzen.

Trivialer Fall: Eliminierung von DuplikatenAber: Ist das immer eine gute Idee?

Erster Schritt:In welcher Beziehung können äquivalente Datensätzezueinander stehen?

Zweiter Schritt:Wie können wir damit jeweils umgehen?

Data Cleaning und Record Matching (Christoph R. Hartel) 35

Page 52: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Grundlagen des Record Merging

Definition (Record Merging)

Record Merging ist die Behandlung von Duplikaten in einerMenge von Datensätzen.

Trivialer Fall: Eliminierung von DuplikatenAber: Ist das immer eine gute Idee?

Erster Schritt:In welcher Beziehung können äquivalente Datensätzezueinander stehen?

Zweiter Schritt:Wie können wir damit jeweils umgehen?

Data Cleaning und Record Matching (Christoph R. Hartel) 35

Page 53: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

1. Beziehungen äquivalenter Datensätze

R1: Name = Maier, Vorname = Hans, Gehalt = 42.000R2: Name = Maier, Vorname = Hans, Gehalt = 42.000R3: Name = Maier, Vorname = Hans, Gehalt = 42.000, Durchwahl = 1234R4: Name = Maier, Vorname = Hans, Gehalt = 24.000

3 Fälle:1 Identität: Gleiche Attributmenge (Spalten) und gleiche

Werte („Exaktes Duplikat“)2 Komplementarität: Mindestens ein nicht gemeinsames

Attribut3 Konflikt: Mindestens ein gemeinsames Attribut, dessen

Wert sich unterscheidet

Fall 1 schließt die anderen beiden aus

Fall 2 und Fall 3 kompatibel

Data Cleaning und Record Matching (Christoph R. Hartel) 36

Page 54: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

1. Beziehungen äquivalenter Datensätze

R1: Name = Maier, Vorname = Hans, Gehalt = 42.000R2: Name = Maier, Vorname = Hans, Gehalt = 42.000R3: Name = Maier, Vorname = Hans, Gehalt = 42.000, Durchwahl = 1234R4: Name = Maier, Vorname = Hans, Gehalt = 24.000

3 Fälle:1 Identität: Gleiche Attributmenge (Spalten) und gleiche

Werte („Exaktes Duplikat“)2 Komplementarität: Mindestens ein nicht gemeinsames

Attribut3 Konflikt: Mindestens ein gemeinsames Attribut, dessen

Wert sich unterscheidet

Fall 1 schließt die anderen beiden aus

Fall 2 und Fall 3 kompatibel

Data Cleaning und Record Matching (Christoph R. Hartel) 36

Page 55: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

2. Behandlung äquivalenter Datensätze

Identität→Trivial (Duplikat-Eliminierung)

Komplementarität→Übertragen der zusätzlichen Daten, dann wie Identität(Sonderfall: NULL-Werte)

Konflikt→Nicht trivial!

Ignoranz (Datensätze bleiben unverändert)Vermeidung (Mengenwertige Attribute, Masking)⇒ Verlagerung des Problems in die Anfragezeit . . .Auflösung!

Data Cleaning und Record Matching (Christoph R. Hartel) 37

Page 56: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

2. Behandlung äquivalenter Datensätze

Identität→Trivial (Duplikat-Eliminierung)

Komplementarität→Übertragen der zusätzlichen Daten, dann wie Identität(Sonderfall: NULL-Werte)

Konflikt→Nicht trivial!

Ignoranz (Datensätze bleiben unverändert)Vermeidung (Mengenwertige Attribute, Masking)⇒ Verlagerung des Problems in die Anfragezeit . . .Auflösung!

Data Cleaning und Record Matching (Christoph R. Hartel) 37

Page 57: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

2. Behandlung äquivalenter Datensätze

Identität→Trivial (Duplikat-Eliminierung)

Komplementarität→Übertragen der zusätzlichen Daten, dann wie Identität(Sonderfall: NULL-Werte)

Konflikt→Nicht trivial!

Ignoranz (Datensätze bleiben unverändert)Vermeidung (Mengenwertige Attribute, Masking)⇒ Verlagerung des Problems in die Anfragezeit . . .Auflösung!

Data Cleaning und Record Matching (Christoph R. Hartel) 37

Page 58: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Auflösung von Konflikten

Ersetzung konfliktärer Attributwerte durch je eineneinzigen, semantisch sinnvollen Wert

Selektion / Aggregation→Wähle einen Werte aus bzw. berechne neuen Wert

Voting, wahrscheinlichster Wert, . . .Durchschnitt, anwendungsspezifische Funktion, . . .Sinnvolles Ergebnis?

Konfidenz-basiertKonfidenz = Vertrauen in die Korrektheit von Datensätzenz.B. R1.c = 80%, R2.c = 70% ⇒ Wähle Wert von R1

Komplexe Verwaltungslogik erforderlich!

Data Cleaning und Record Matching (Christoph R. Hartel) 38

Page 59: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

ÜberblickRecord MatchingRecord Merging

Auflösung von Konflikten

Ersetzung konfliktärer Attributwerte durch je eineneinzigen, semantisch sinnvollen Wert

Selektion / Aggregation→Wähle einen Werte aus bzw. berechne neuen Wert

Voting, wahrscheinlichster Wert, . . .Durchschnitt, anwendungsspezifische Funktion, . . .Sinnvolles Ergebnis?

Konfidenz-basiertKonfidenz = Vertrauen in die Korrektheit von Datensätzenz.B. R1.c = 80%, R2.c = 70% ⇒ Wähle Wert von R1

Komplexe Verwaltungslogik erforderlich!

Data Cleaning und Record Matching (Christoph R. Hartel) 38

Page 60: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 39

Page 61: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Qualitätskriterien

Qualitätsbetrachtungen oft beschränkt auf Ergebnis

Für Praxistauglichkeit aber auch der Prozess sehr wichtig!

Daher 2 Arten von Kriterien:

Prozessbezogene Kriterien

Ergebnisbezogene Kriterien

Data Cleaning und Record Matching (Christoph R. Hartel) 40

Page 62: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Prozessbezogene Qualitätskriterien

Algorithmische Komplexität →minLaufzeit →min

Parallelisierbarkeit, Inkrementelles Cleaning

Erforderliche Benutzerinteraktion →minSpezifikation, Clerical Review

Data Lineage →maxNachvollziehbarkeit der Datenentstehung, ggf. Undo

Bezug zur Anwendungsdomäne →min/max?Wahrung der Privatsphäre →min/max?

Gefahr der DeanonymisierungAllgemeines Problem der Datenintegration!

⇒ Messbarkeit schwierig!

Data Cleaning und Record Matching (Christoph R. Hartel) 41

Page 63: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Prozessbezogene Qualitätskriterien

Algorithmische Komplexität →minLaufzeit →min

Parallelisierbarkeit, Inkrementelles Cleaning

Erforderliche Benutzerinteraktion →minSpezifikation, Clerical Review

Data Lineage →maxNachvollziehbarkeit der Datenentstehung, ggf. Undo

Bezug zur Anwendungsdomäne →min/max?Wahrung der Privatsphäre →min/max?

Gefahr der DeanonymisierungAllgemeines Problem der Datenintegration!

⇒ Messbarkeit schwierig!

Data Cleaning und Record Matching (Christoph R. Hartel) 41

Page 64: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Prozessbezogene Qualitätskriterien

Algorithmische Komplexität →minLaufzeit →min

Parallelisierbarkeit, Inkrementelles Cleaning

Erforderliche Benutzerinteraktion →minSpezifikation, Clerical Review

Data Lineage →maxNachvollziehbarkeit der Datenentstehung, ggf. Undo

Bezug zur Anwendungsdomäne →min/max?Wahrung der Privatsphäre →min/max?

Gefahr der DeanonymisierungAllgemeines Problem der Datenintegration!

⇒ Messbarkeit schwierig!

Data Cleaning und Record Matching (Christoph R. Hartel) 41

Page 65: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Prozessbezogene Qualitätskriterien

Algorithmische Komplexität →minLaufzeit →min

Parallelisierbarkeit, Inkrementelles Cleaning

Erforderliche Benutzerinteraktion →minSpezifikation, Clerical Review

Data Lineage →maxNachvollziehbarkeit der Datenentstehung, ggf. Undo

Bezug zur Anwendungsdomäne →min/max?Wahrung der Privatsphäre →min/max?

Gefahr der DeanonymisierungAllgemeines Problem der Datenintegration!

⇒ Messbarkeit schwierig!

Data Cleaning und Record Matching (Christoph R. Hartel) 41

Page 66: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Prozessbezogene Qualitätskriterien

Algorithmische Komplexität →minLaufzeit →min

Parallelisierbarkeit, Inkrementelles Cleaning

Erforderliche Benutzerinteraktion →minSpezifikation, Clerical Review

Data Lineage →maxNachvollziehbarkeit der Datenentstehung, ggf. Undo

Bezug zur Anwendungsdomäne →min/max?Wahrung der Privatsphäre →min/max?

Gefahr der DeanonymisierungAllgemeines Problem der Datenintegration!

⇒ Messbarkeit schwierig!

Data Cleaning und Record Matching (Christoph R. Hartel) 41

Page 67: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Prozessbezogene Qualitätskriterien

Algorithmische Komplexität →minLaufzeit →min

Parallelisierbarkeit, Inkrementelles Cleaning

Erforderliche Benutzerinteraktion →minSpezifikation, Clerical Review

Data Lineage →maxNachvollziehbarkeit der Datenentstehung, ggf. Undo

Bezug zur Anwendungsdomäne →min/max?Wahrung der Privatsphäre →min/max?

Gefahr der DeanonymisierungAllgemeines Problem der Datenintegration!

⇒ Messbarkeit schwierig!

Data Cleaning und Record Matching (Christoph R. Hartel) 41

Page 68: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Prozessbezogene Qualitätskriterien

Algorithmische Komplexität →minLaufzeit →min

Parallelisierbarkeit, Inkrementelles Cleaning

Erforderliche Benutzerinteraktion →minSpezifikation, Clerical Review

Data Lineage →maxNachvollziehbarkeit der Datenentstehung, ggf. Undo

Bezug zur Anwendungsdomäne →min/max?Wahrung der Privatsphäre →min/max?

Gefahr der DeanonymisierungAllgemeines Problem der Datenintegration!

⇒ Messbarkeit schwierig!

Data Cleaning und Record Matching (Christoph R. Hartel) 41

Page 69: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Ergebnisbezogene Qualitätskriterien

Qualitätsmaße ex. nur für Matching-ErgebnisseErfasst indirekt auch Analyse und VorverarbeitungAber Qualität des Mergings?!

Idee: Vergleich von Links und MatchesErinnerung:

Matches M = Tatsächlich vorhandenLinks L = Ergebnis der Klassifizierung⇒ Optimal: Links = Matches (d.h. 100% korrekt klassifiziert)

True Positive: Link, der auch Match ist (OK)True Negative: Nicht-Link, der auch Nicht-Match ist (OK)False Positive: Link, der nicht Match ist (NOK)False Negative: Nicht-Link, der Match ist (NOK)

Data Cleaning und Record Matching (Christoph R. Hartel) 42

Page 70: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Ergebnisbezogene Qualitätskriterien

Qualitätsmaße ex. nur für Matching-ErgebnisseErfasst indirekt auch Analyse und VorverarbeitungAber Qualität des Mergings?!

Idee: Vergleich von Links und MatchesErinnerung:

Matches M = Tatsächlich vorhandenLinks L = Ergebnis der Klassifizierung⇒ Optimal: Links = Matches (d.h. 100% korrekt klassifiziert)

True Positive: Link, der auch Match ist (OK)True Negative: Nicht-Link, der auch Nicht-Match ist (OK)False Positive: Link, der nicht Match ist (NOK)False Negative: Nicht-Link, der Match ist (NOK)

Data Cleaning und Record Matching (Christoph R. Hartel) 42

Page 71: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Ergebnisbezogene Qualitätskriterien

Qualitätsmaße ex. nur für Matching-ErgebnisseErfasst indirekt auch Analyse und VorverarbeitungAber Qualität des Mergings?!

Idee: Vergleich von Links und MatchesErinnerung:

Matches M = Tatsächlich vorhandenLinks L = Ergebnis der Klassifizierung⇒ Optimal: Links = Matches (d.h. 100% korrekt klassifiziert)

True Positive: Link, der auch Match ist (OK)True Negative: Nicht-Link, der auch Nicht-Match ist (OK)False Positive: Link, der nicht Match ist (NOK)False Negative: Nicht-Link, der Match ist (NOK)

Data Cleaning und Record Matching (Christoph R. Hartel) 42

Page 72: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Ergebnisbezogene Qualitätskriterien (2)

Probleme:Bestimmung der Matches

Bei realen Daten (Evaluation) praktisch unmöglich. . .⇒ Generierte Testdaten nötig („Gold Standard Set“)Aber: keine standardisierten Testdaten vorhanden⇒ keine vergleichbaren Ergebnisse!

Annahme eines optimalen Schwellwertes tBestimmung: eine Ausführung mit jedem möglichen t . . .⇒ Praktisch unmöglichAlternativ: Erfahrungswerte, Heuristiken

„Badness“ von FP und FN anwendungsabhängigSomit keine absoluten Aussagen über Verfahren möglich

Data Cleaning und Record Matching (Christoph R. Hartel) 43

Page 73: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Ergebnisbezogene Qualitätskriterien (2)

Probleme:Bestimmung der Matches

Bei realen Daten (Evaluation) praktisch unmöglich. . .⇒ Generierte Testdaten nötig („Gold Standard Set“)Aber: keine standardisierten Testdaten vorhanden⇒ keine vergleichbaren Ergebnisse!

Annahme eines optimalen Schwellwertes tBestimmung: eine Ausführung mit jedem möglichen t . . .⇒ Praktisch unmöglichAlternativ: Erfahrungswerte, Heuristiken

„Badness“ von FP und FN anwendungsabhängigSomit keine absoluten Aussagen über Verfahren möglich

Data Cleaning und Record Matching (Christoph R. Hartel) 43

Page 74: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Ergebnisbezogene Qualitätskriterien (2)

Probleme:Bestimmung der Matches

Bei realen Daten (Evaluation) praktisch unmöglich. . .⇒ Generierte Testdaten nötig („Gold Standard Set“)Aber: keine standardisierten Testdaten vorhanden⇒ keine vergleichbaren Ergebnisse!

Annahme eines optimalen Schwellwertes tBestimmung: eine Ausführung mit jedem möglichen t . . .⇒ Praktisch unmöglichAlternativ: Erfahrungswerte, Heuristiken

„Badness“ von FP und FN anwendungsabhängigSomit keine absoluten Aussagen über Verfahren möglich

Data Cleaning und Record Matching (Christoph R. Hartel) 43

Page 75: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Gliederung

1 EinführungMotivation: Was fehlt uns noch?DatenanomalienProbleme des Data Cleanings

2 Der Data-Cleaning-ProzessÜberblickRecord MatchingRecord Merging

3 Bewertung und UmsetzungQualitätskriterienFrameworks und Werkzeuge

Data Cleaning und Record Matching (Christoph R. Hartel) 44

Page 76: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

QualitätskriterienFrameworks und Werkzeuge

Frameworks und Werkzeuge

Open SourceAJAX, Febrl, Potter’s Wheel, . . .Hauptsächlich Forschungsprototypen⇒ Interessante Ideen, beschränkte Anwendbarkeit

Kommerzielle LösungenGroßer Markt für Produkte und Dienstleistungen!Zahlreiche „kleine“ Lösungen für Small BusinessMatchIT, Clean&Match, LinkageWiz, . . .„Große“ Lösungen→Die üblichen Verdächtigen ;)IBM, Oracle, (Microsoft?)

Data Cleaning und Record Matching (Christoph R. Hartel) 45

Page 77: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Zusammenfassung & Ausblick

ZusammenfassungData Cleaning = Prozess der Identifikation und Korrekturvon Anomalien in einer gegebenen DatenmengeHauptproblem: Größe der DatenbasisMerging von Datensätzen nicht trivial!Bewertung schwierig, keine einheitlichen Standards

AusblickSäuberung von nicht-textuellen Daten? (Bilder, Videos, ...)Verfahren, die keine relationalen Schemata voraussetzen?(insbes. für XML)Standards für Bewertung und Vergleich von Verfahren?

Data Cleaning und Record Matching (Christoph R. Hartel) 46

Page 78: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Fragen?

Data Cleaning und Record Matching (Christoph R. Hartel) 47

Page 79: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Ergänzung

Data Cleaning und Record Matching (Christoph R. Hartel) 48

Page 80: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Syntaktische Anomalien

Lexikalische Fehlerfehlerhaft zugeordnete Werte (engl. misfielded values)Werte in „Name“ und „Vorname“ vertauschteingebettete Werte„Adresse“ statt {„Straße“, „Hausnummer“, „PLZ“, „Ort“ }

Formatierungsfehler„Vorname Nachname“ statt „Nachname, Vorname“Abkürzungen („Fa.“ statt „Firma“)Synonyme („Entwickler“ vs. „Programmierer“)Dummy-Werte statt eines NULL-Wertes („999“ statt NULL)unterschiedliche Darstellungsformen von Konstanten(„Männlich“ / „Weiblich“ vs. „M“ / „F“ vs. 0 / 1). . .

Data Cleaning und Record Matching (Christoph R. Hartel) 49

Page 81: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Semantische Anomalien

Verletzung von IntegritätsbedingungenObermenge der im Schema spezifizierten!z. B. Alter kleiner 0, Verletzung von FA zw. „PLZ“ und „Ort“

Fehlerhafte Datenverletzen keine Integritätsbedingungen, aber decken sichaber nicht mit Eigenschaften des Bezugsobjekts in MiniweltTypographische Fehler („Müllre“ statt „Müller“)Konvertierungsfehler („M&uuml;ller“ statt „Müller“)Vorsätzliche Verschleierung (etwa Aliase)Unterschiedliche Interpretation von Werten (Euro stattPfund). . .

Duplikate →Siehe Record Matching!

Data Cleaning und Record Matching (Christoph R. Hartel) 50

Page 82: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Multi-Pass Sorted-Neighbourhood-Verfahren

Problem des normalen SNV:Starke Abhängigkeit von berechnetem Schlüssel⇒ geringe Fehlertoleranz

Optimierung: MP-SNVMehrere Läufe mit unabhängigen Schlüsseln

Bewertung+ Kleine Fenstergrößen, daher trotzdem relativ effizient+ Verbesserte Genauigkeit bei sehr „unsauberen“ Daten+ Ermöglicht Parallelisierung!− Höhere Komplexität als einzelner Lauf

Data Cleaning und Record Matching (Christoph R. Hartel) 51

Page 83: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Sonderfall: NULL-Werte

R2: Name = Maier, Vorname = Hans, Gehalt = 42.000, Durchwahl = NULL

R3: Name = Maier, Vorname = Hans, Gehalt = 42.000, Durchwahl = 1234

Kontext: Merging komplementärer Daten

Problem: Wie ist NULL-Wert entstanden?durch Überführung in gemeinsames Schema?tatsächlicher (beabsichtigter) NULL-Wert

Wäre z.B. in XML kein Problem

Data Cleaning und Record Matching (Christoph R. Hartel) 52

Page 84: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Ignoranz und Vermeidung von Konflikten

IgnoranzKonfliktäre Datensätze bleiben unverändert erhalten− Verlagerung des Problems in die Anfragezeit . . .

VermeidungZusammenführung der Datensätze mitMengen-wertigen Attributenevtl. Maskierung− Immer noch Verlagerung des Problems in die Anfragezeit− Komplexe Verwaltungslogik in der Datenquelleerforderlich+ Immerhin: Unterstützt Benutzer Umgang mit Konflikten

Data Cleaning und Record Matching (Christoph R. Hartel) 53

Page 85: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Ignoranz und Vermeidung von Konflikten

IgnoranzKonfliktäre Datensätze bleiben unverändert erhalten− Verlagerung des Problems in die Anfragezeit . . .

VermeidungZusammenführung der Datensätze mitMengen-wertigen Attributenevtl. Maskierung− Immer noch Verlagerung des Problems in die Anfragezeit− Komplexe Verwaltungslogik in der Datenquelleerforderlich+ Immerhin: Unterstützt Benutzer Umgang mit Konflikten

Data Cleaning und Record Matching (Christoph R. Hartel) 53

Page 86: Data Cleaning und Record Matching - Seminar ... · Einführung Der Data-Cleaning-Prozess Bewertung und Umsetzung Zusammenfassung Motivation Datenanomalien Probleme des Data Cleanings

EinführungDer Data-Cleaning-ProzessBewertung und Umsetzung

Zusammenfassung

Konfidenz-basiertes Merging

Konfidenz = Vertrauen in die Korrektheit von Datensätzen

Datensatzebenez.B. R1.c = 80%, R2.c = 70% ⇒ Wähle Wert von R1

Problem: ggf. Informationsverlust, z.B.R1 = { Maier, Hans }, c = 80%R2 = { Mayer, Hans }, c = 70%Rmerged = { Maier, Hans }, c = 70%⇒ Konfidenz für Vorname verloren!

OptimierungenZusätzlich alte Datensätze erhalten⇒ Noch komplexer . . .Konfidenzen auf Attributebene betrachten

Data Cleaning und Record Matching (Christoph R. Hartel) 54