Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits...

24
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Maschinelles Lernen II PCA Christoph Sawade/Niels Landwehr Tobias Scheffer

Transcript of Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits...

Page 1: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Universität Potsdam Institut für Informatik

Lehrstuhl Maschinelles Lernen

Maschinelles Lernen II

PCA

Christoph Sawade/Niels Landwehr

Tobias Scheffer

Page 2: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Überblick

Principal Component Analysis

Optimierungsproblem

Adaption für hochdimensionale Daten

Kernel-PCA

Fisher Linear Discriminant

2

Page 3: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Motivation

Datenkompression

Preprocessing (Feature Selection / Noisy Feature)

Datenvisualisierung

3

Page 4: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Beispiel

Repräsentation von Digits als -Pixelmatrix

Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner,

da viele Feature

Aussagelos sind oder

sich aus anderen ergeben

Ziel: Reduktion auf -dimensionalen Hauptunterraum

4

m m

d

Page 5: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Beispiel

Repräsentation von Gesichtern als -Pixelmatrix

Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner,

da viele Feature

Aussagelos sind oder

sich aus anderen ergeben

Ziel: Reduktion auf -dimensionalen Hauptunterraum

5

m m

d

Page 6: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Projektion

Eine Projektion ist eine idempotente lineare

Abbildung

6

1y x

T

1u x

x

ix

1 iy x

n

i

i 1

n

i i

i 1

T

Mittelpunkt:

1x x

n

Kovarianz:

1x x x x

n

Page 7: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Projektion

Eine Projektion ist eine idempotente lineare

Abbildung

Sei mit

stellt Projektion in einen

eindimensionalen Unterraum dar

Für Daten im Projektionsraum gilt:

Mittelpunkt:

Varianz:

7

m

1u T

1 1u u 1

T

1 1y x u x

T

1 1y x u x

1y x

T

1u x

x

ix

1 iy x

n 2

T T T

1 i 1 1 1

i 1

1u x u x u u

n

Page 8: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Optimierungsproblem

Ziel: Varianz der projizierten Daten soll nicht

verloren gehen

Maximiere bzgl. , wobei

Lagrangian:

8

T T

1 1 1 1 1u u 1 u u

T

1 1u u

T

1 1u u1u T

1 1u u 1

Page 9: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Optimierungsproblem

Ziel: Varianz der projizierten Daten soll nicht

verloren gehen

Maximiere bzgl. , wobei

Lagrangian:

Ableiten, Nullsetzen:

… Lösung muss Eigenvektor sein

… Varianz ist entsprechender Eigenwert

Bestimmung des größten Eigenwert

Größter Eigenvektor ist erste Hauptkomponente 9

T T

1 1 1 1 1u u 1 u u

1 1 1u u T

1 1 1u u

T

1 1u u

T

1 1u u1u T

1 1u u 1

Page 10: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA

Projektion von in den Eigenraum

mit

Größter Eigenvektor ist erste Hauptkomponente

Folgende Hauptkomponenten sind orthogonale

Richtungen die (Rest-) Varianz maximieren

Hauptkomponenten… Vektoren der größten

Eigenwerte

10

T

1 1y x u x Ty x U x

x

1

d

u

U

u

d d

Page 11: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Rückprojektion

Beobachtung:

Reduktion auf Hauptkomponenten:

11

n

T T T

i i j j

j 1

x x u u X X UU

d

T T T T

i i j j k

j 1

x x u u X X VV, k d: v 0

d

Page 12: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA Beispiel

12

Page 13: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

PCA hochdimensionale Daten

Berechnung von Eigenvektoren für

-dimensionale Daten ist

Nicht berechenbar für große m

Idee: Beispiele spannen einen linearen Unterraum

mit höchsten Dimensionen auf

Sei , dann gilt mit Hilfe der Datenmatrix

Berechnung in

Lösung hat gleiche Eigenwerte

bis auf Eigenwerte 0

13

2dm

n 1

n mX

1 1 1u u 1 T

1 1 1 1 1n XX v v , v Xu

Eigenwertproblem

2dn

n 1 1/2 T

i i iu n X v

x 0

dm

Page 14: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Kernel-PCA

14

Voraussetzung: Daten gehen nur als inneres

Produkt ein

Page 15: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

15

Kernel-PCA Wiederholung: Kerne

Lineare Klassifikatoren:

Oft adäquat, aber nicht immer.

Idee: Beispiele in anderen Raum

abbilden, in dem sie linear

klassifizierbar sind.

Abbildung

Zugehöriger Kernel

Kernel = Inneres Produkt =

Ähnlichkeit der Beispiele.

-

-

- +

+

+

+

-

-

-

-

-

-

+

(-)

(-)

(-)

(-)

(-)

(-)

(-)

(-) (-)

(+)

(+)

(+)

(+) (+) )(xx

)()(),( T

jijik xxxx

Page 16: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Kernel-PCA

Für , lässt sich Eigenvektorproblem

äquivalent umformen:

Projektion:

Alternative Herleitung über Mercer-Map…

16

n

i

i 1

(x ) 0

i i iu u i i iK = n

n

T

i i i, j j

j 1

y x x v k x,x

Page 17: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Kernel-PCA Mercer Map

Beobachtung: Alle symmetrische Matrizen kann

man wie folgt zerlegen (Eigenwertzerlegung):

, wobei

,

Wenn positive semi-definit ist, dann sind alle

Eigenwerte reell

Eigenvektoren normalisiert ( ), dann

17

1 0

0 m

V 1

| |

| |

m

U u u

TK UVU

0K

1T

i i u u 1T U U

Page 18: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

, mit

Explizites Feature-Mapping ist gegeben durch

18

Kernel-PCA Mercer Map

1/2 1/2

1/2 1/2

T

T

T

T

K UVU

UV V

U UV

X

U

V

X

Diagonalmatrix mit i

1: ( ) ( )

| |

| |

n

X x x

1/2

11/2

1/2

new

new

T

new

X

X U

X

K UV

V K

V U K

Eigenwertzerlegung

1T U U

Page 19: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Explizites Feature-Mapping ist gegeben durch

Beobachtung: Reduktion auf Hauptkomponenten

ist äquivalent zu

, wobei

19

Kernel-PCA Mercer Map

1/2 T

new

V UX K

d

1/2 T

red

V UX K 1, , ,0, ,0ddiag V

Page 20: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Fisher-Diskriminante

Durch die PCA induzierter Unterraum erhält maximale

Varianz der gesamten Daten

Nicht das richtige Kriterium für Klassifikation…

20

-5 -4 -3 -2 -1 0 1 2 3 4 5-40

-30

-20

-10

0

10

20

30Original Space

x1

x2

PCA PCA PCAu u

C

T

P AX u

-1 -0.5 0 0.5 1-40

-30

-20

-10

0

10

20

30PCA Subspace

x1

x2

Page 21: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Fisher-Diskriminante

Optimierungskriterium PCA

Maximiere Varianz der Daten im Unterraum:

, wobei

Optimierungskriterium Fisher

Maximiere Varianz zwischen den Klassen und minimiere

Varianz innerhalb der Klassen im Unterraum:

, wobei

Bereits als Klassifikator in ML1 kennengelernt

21

T

umax u u Tu u 1

T

bu T

w

u u max

u u

1

T

b 1 1 1 1

w 1

x x x x

Varianz

pro Klasse

Page 22: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Fisher-Diskriminante

Optimierungskriterium Fisher für k Klassen

Maximiere Varianz zwischen den Klassen und minimiere

Varianz innerhalb der Klassen im Unterraum:

, wobei

Verallg. Eigenwertproblem hat k-1 unterschiedliche

Lösungen

22

T

bu T

w

u u max

u u

w 1 k

i i

kT

b

i 1

ix x xn x

Anzahl Beispiele pro Klasse

Führt zum verallgemeinerten

Eigenwertproblem b wu u

Page 23: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Fisher-Diskriminante

Durch die PCA induzierter Unterraum erhält maximale

Varianz der gesamten Daten

Nicht das richtige Kriterium für Klassifikation…

23

-5 -4 -3 -2 -1 0 1 2 3 4 5-40

-30

-20

-10

0

10

20

30Original Space

x1

x2

PCA PCA PCAu u

C

T

P AX u

-1 -0.5 0 0.5 1-40

-30

-20

-10

0

10

20

30PCA Subspace

x1

x2

-1 -0.5 0 0.5 1-0.2

-0.15

-0.1

-0.05

0

0.05

0.1

0.15Fisher Subpace

x1

x2

FIS FIS w ISb Fu u

I

T

F SX u

Page 24: Maschinelles Lernen II PCA - cs.uni- · PDF fileII PCA Beispiel Repräsentation von Digits als -Pixelmatrix Die Anzahl der Freiheitsgrade ist, aber deutlich kleiner, da viele Feature

Saw

ade/L

andw

ehr/S

cheffe

r, Maschin

elle

s L

ern

en II

Zusammenfassung

Ziel: Reduktion / Kompression von Daten auf

wesentliche Komponenten

Maximierung der Varianz führt zu

Eigenwertproblem

Anwendbar für hochdimensionale Daten und nicht-

lineare Varianzkomponenten (Kernel-PCA)

Klassenabhängige Varianzminimierung führt zur

Fisher Diskriminante

24