Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt...

43
Data Mining 8.5.2007 Georg Pölzlbauer

Transcript of Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt...

Page 1: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Data Mining

8.5.2007

Georg Pölzlbauer

Page 2: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Datenmatrix (1)

• Messungen werden in Tabellenform dargestellt

• N Zeilen sind gemessene Objekte xi

(samples, patterns)

• D Spalten sind Merkmale (features, variables)

NDN

D

xx

xx

X

1

111

Page 3: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Datenmatrix (2)

• Beispiel: Umfrage; es werden 100 Personen zu ihrer Einstellung zu 5 politischen Parteien gefragt (Bewertung auf Skala von 0 bis 10)

100 Zeilen, 5 Spalten

• Es gibt auch andere Arten von Daten (z.B. Zeitreihen, strukturierte Daten, …), diese sind aber nicht Thema dieser Vorlesung

Page 4: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Geometrische Interpretation (1)

• Samples xi sind Punkte in einem Vektorraum

• "Datenpunkte" bilden Datenwolke

Page 5: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Geometrische Interpretation (2)

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

Page 6: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Skalentypen (1)

• NominalskalaWerte stehen in keiner Ordnung zueinander,

unterschiedliche Werte sind sich alle gleich unähnlich

z.B. Haarfarbe (blond, brünett, schwarz, …)

• Ordinalskalanumerische Skala, aber Abstände zwischen

den Werten haben keine Bedeutungz.B. Noten (ist der Abstand zw. 4 und 5 genau

so groß wie der zwischen 2 und 3?)

Page 7: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Skalentypen (2)

• IntervallskalaAbstand zwischen 2 Werten kann gemessen

und mit anderen Abständen verglichen werden

z.B. Temperatur (in Celsius, Fahrenheit)

• Verhältnisskalawie Intervallskala, man kann aber Verhältnisse

berechnen, hat sinnvollen Nullpunktz.B. Gewicht, Größe (Person A ist 1,2x so groß

wie B)

Page 8: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Metriken (1)

• Welche Datenpunkte sind ähnlich?

• Euklidische Distanz (L2-Metrik)

• Manhattan Distanz (L1-Metrik, City-Block)

D

iii xxxxxxd

1

2212121 )(),(

D

iii xxxxxxd

1212121 ),(

Page 9: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Metriken (2)

Abstand?

Page 10: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Metriken (2)

EuklidischeDistanz

Page 11: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Metriken (2)

City Block

Page 12: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Mittelwert, Varianz (1)

• Arithmetisches Mittel (Mittelwert, mean) kann pro Merkmal gebildet werden

• Streuungsmaße wie Varianz bzw. Standardabweichung können ebenfalls für jedes Merkmal berechnet werden

N

iijj x

Nx

1

1

Page 13: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Mittelwert, Varianz (2)

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

1x

2x

Page 14: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Mittelwert, Varianz (2)

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

s1

s2

Page 15: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

1-zu-N Kodierung (1)

• Die meisten Data Mining Algorithmen benötigen intervallskalierte Daten

• Problem v.a. bei kategorischen Daten (nominalskaliert)

• Lösung: Eine binäre Variable für jede mögliche Ausprägung

Page 16: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

1-zu-N Kodierung (2)

feature

red

blue

green

red

red

green

blue

red blue green

1 0 0

0 1 0

0 0 1

1 0 0

1 0 0

0 0 1

0 1 0

Page 17: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Fehlende Werte

• Oft vorkommendes Problem bei Data Mining

• Mögliche Lösungen:– Verfahren verwenden, die damit umgehen

können (Decision Trees, SOMs) – Diese Samples weglassen – Werte interpolieren (missing value prediction)

Page 18: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Ausreißer

• Ausreißer können Fehlmessungen oder einfach stark untypische Samples sein

• Problem bei Berechnung von Varianz, Kovarianz etc.

• Robuste Statistik: Median, Quartile, etc.

Page 19: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalisierung von Daten (1)

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

Abstand = sqrt(0,3^2 + 45^2)= sqrt(2025,09)

= 45

45

0,3

Page 20: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalisierung von Daten (1)

1500 1600 1700 1800 1900

40

50

60

70

80

90

100

Gewicht(kg)

Größe(mm)

Abstand = sqrt(300^2 + 45^2)= sqrt(92025)

= 303

45

300

Page 21: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalisierung von Daten (2)

• Die Abstandsmeßung sollte von der Maßeinheit der Merkmale unabhängig gemacht werden

• Standardisierung (zero-mean-unit-variance):

j

jijij s

xxz

Page 22: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalisierung von Daten (3)

1,50 1,60 1,70 1,80 1,90

40

50

60

70

80

90

100

Gewicht(kg)

Größe(m)

Page 23: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalisierung von Daten (3)

-2 -1 0 1 2

-3-2-1

01

23

Gewicht

Größe

5,5

4,5

Page 24: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalisierung von Daten (4)

Chebyshevs Ungleichung75% der standardisierten Werte zwischen -2

und +2

89% der Werte zwischen -3 und +3

94% der Werte zwischen -4 und +4

Page 25: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Dichtefunktion

• Es wird angenommen, daß den gemessenen Werten (Datenmatrix) eine Dichtefunktion zu Grunde liegt

• Diese Funktion ist unbekannt, es ist eine unserer Aufgaben sie zu schätzen

Page 26: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalverteilung (1)

• Die Normalverteilung nimmt in der Statistik eine besondere Rolle ein

• Eine Zufallsvariable X ist normalverteilt:

),(~ 2NX

2)(2

1

2

1)(

x

exf

Page 27: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Normalverteilung (2)

Page 28: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Multivariate Verteilungen (1)

• MV Zufallsvariable werden durch mehrdimensionale Dichtefunktionen beschrieben

• Für MV Normalverteilung schreibt man z.B. ),(~ NX

Zufallsvektor Vektor von Mittelwerten

Kovarianzmatrix

Page 29: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Multivariate Verteilungen (2)

Page 30: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Stichproben (1)

• Die konkreten Ausprägungen, die gemessen werden, sind Stichproben der Population

• Die Stichprobe besteht aus N Samples, Population wird durch kontinuierliche Dichtefunktion beschrieben

Page 31: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Stichproben (2)

Page 32: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Population vs. Stichprobe

Stichprobe Population

Mittelwert

Varianz

Page 33: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Bayes Theorem (1)

• Oft stehen Zufallsereignisse mit einander in Verbindung

• Wenn man z.B. die Ereignisse „die Erde ist naß“ (A) und „es regnet“ (B) betrachtet:– Wahrscheinlichkeiten P(A) = 0,15 und P(B) =

0,12– Mit der Information, daß der Boden naß ist

(also A eingetreten ist), scheint es wahrscheinlicher, daß es regnet

Page 34: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Bayes Theorem (2)

• Bedingte Wahrscheinlichkeit:P(B|A) = 0,8

D.h. unter der Voraussetzung, dass der Boden naß ist, regnet es mit W. von 80% (ohne dieser Information: 12%)

• Das Bayes Theorem erlaubt die Berechnung der W. in die andere Richtung (d.h. wenn man die Bedingung vertauscht)

Page 35: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Bayes Theorem (3)

• Bayes Theorem:

• Z.B.: P(A|B)… W. daß der Boden naß ist wenn es regnet

• P(A|B) = 0,15*0,8/0,12 = 1

)(

)|()()|(

BP

ABPAPBAP

Page 36: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Kovarianz

• Kovarianz mißt die Stärke des linearen Zusammenhangs zweier Variablen

1,50 1,60 1,70 1,80 1,90405060708090

100

Gewicht(kg)

Größe(m)

Page 37: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Kovarianzmatrix

• Die Kovarianzmatrix hat die Varianzen der Variablen in der Diagonale, und die Kovarianzen außerhalb der Diagonale

• Beispiele:

2212

1221

232313

232212

131221

Page 38: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Korrelation

• Standardisierte Kovarianz (dimensionslos, zwischen -1 und +1, ähnlich Normalisierung)

• Negative Korrelation: Wenn x1 steigt, sinkt x2

• Positive Korrelation: Wenn x1 steigt, steigt auch x2

• Korrelation = 0: Kein linearer Zusammenhang

Page 39: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Schiefe (1)

• Weiteres „statistisches Moment“ (neben Mittelwert, Varianz)

• Schiefe ist ungleich 0 wenn Verteilung nicht symmetrisch

Page 40: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Schiefe (2)

Page 41: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Informationstheorie: Entropie

Page 42: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Datenanalyse: Scatterplots

Page 43: Data Mining 8.5.2007 Georg Pölzlbauer. Datenmatrix (1) Messungen werden in Tabellenform dargestellt N Zeilen sind gemessene Objekte x i (samples, patterns)

Hauptkomponentenanalyse