Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor...

42
Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Sparse PCA Tobias Scheffer Michael Großhans Paul Prasse

Transcript of Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor...

Page 1: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Universität Potsdam Institut für Informatik

Lehrstuhl Maschinelles Lernen

Sparse PCA

Tobias Scheffer

Michael Großhans

Paul Prasse

Page 2: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Vektorraummodell

Jedes Dokument wird als Vektor dargestellt,

beispielsweise als binäres Bag-of-Word:

An jeder Stelle des Vektors gibt 0/1 an, ob das

entsprechende Wort im Text vorhanden ist oder nicht.

oder als N-Gram-Modell:

3-Gram-Modell: Jeder Eintrag im Vektor korreliert mit einer

Kombination aus 3 Buchstaben (z.b. aaa, aab)

An jeder Stelle des Vektors steht die Häufigkeit des

Auftretens der entsprechenden Kombination im Text.

Oft: Hochdimensionale, aber sparse Daten, bspw.

Emails: Großes Vokabular (Länge der Vektoren)

Wenig Text pro Email (Einträge ungleich 0 pro Vektor)

2

Page 3: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Vektorraummodell

Viele Algorithmen können Sparsität der Daten

ausnutzen, um effizient Modelle zu bestimmen

Laufzeit hängt nicht von der Länge, sondern von der

Anzahl an Einträgen ungleich 0 ab.

Ansonsten führt die hohe Dimensionalität zu hohen

Laufzeiten.

Ziel: Reduzierung der Anzahl der Dimensionen:

Stop-Wörter entfernen, Zahlen entfernen,

Seltene Wörter entfernen (z.B. Nutzernamen),

Wortstämme nutzen (sein statt bin/ist/sind/usw.),

Groß- und Kleinschreibung,

uvm.

3

Page 4: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Reduzierung der Dimensionen

Beispiel:

2-dimensionaler Vektorraum.

Rot: Richtung mit Stärkster

Streuung der Daten.

Grün: Orthogonal zu rot.

Vermutung:

Rote Komponente reicht aus um

Daten zu charakterisieren.

Daten sind im Wesentlichen 1-

dimensional.

4

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

Page 5: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

-3 -2 -1 0 1 2 3

X1

0 1 2 3 4 5 60

1

2

3

4

5

6

X1

X2

Reduzierung der Dimensionen

Ansatz (PCA):

1. Finde Komponenten mit

maximaler Streuung iterativ:

Jeweils orthogonal zu bisherigen

Ausbreitungsrichtungen.

2. Transformiere Daten in neues

Koordinatensystem aufgespannt

durch gefundene Komponenten.

3. Ignoriere Komponenten mit

geringer Streuung (hier: grün).

Wesentliche Eigenschaften

bleiben (hoffentlich!) trotz

Reduktion erhalten.

5

-3 -2 -1 0 1 2 3-3

-2

-1

0

1

2

3

X1

X2

Page 6: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Werden für das Zielkoordinatensystems benötigt.

Transformation und Reduktion der Daten.

Transformation in das neue Koordinatensystem.

Welche Dimensionen können ignoriert werden?

Interpretierbarkeit der neuen Daten.

Wie kann Interpretierbarkeit der neuen Daten

verbessert werden?

6

Page 7: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Repräsentationen von Daten

Instanz mit m Feature:

n Instanzen (Datenmatrix):

Affin-lineare Transformation von nach

Einer Datenmatrix:

Reduktion der Feature, wenn

Beispiele:

Skalierung der Feature durch Diagonalmatrix A

Neues Koordinatensystem, wenn Zeilen Orthonormalbasis

bilden:

• für zwei Zeilen gilt

Wiederholung: Algebra

7

m n 'm n

T

1, , mx xx

1, , nX x x

' ,m m m n A B

( )A X A X B

'm m

T1 falls

0 falls

i j

i j

i j

a a ,i ja a

Page 8: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Eigenschaften einer Matrix

Quadratisch:

Symmetrisch:

Spur (trace):

Rang (rank):

Positiv definit:

Positiv semi-definit:

Normen

lp-Norm eines Vektors:

lp-induzierte Norm einer Matrix:

Wiederholung: Algebra Matrix-Eigenschaften

n m11 1

1

n

m n

m mn

a a

a a

ATA A

T0, wenn 0 falls symmetrisch A x Ax x 0 A

1

( )m

ii

i

tr a

A

( ) maximale Zahl linear unabhänger Zeilen/Spaltenrk A

8

1

mp

pip

i

x

x

1 1

m np

pijp

i j

a

X

T0, wenn 0 falls symmetrisch A x Ax x 0 A

Page 9: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Gilt für Matrix A, Vektor v, und ein Skalar die

Beziehung , dann heißen:

Eigenvektor und

Eigenwert der Matrix.

Symmetrische Matrix :

Es gibt k Eigenwerte mit jeweils Vielfachheit lk , so

dass . Eigenvektoren bilden Unterraum der

Dimensionen lk .

Alle Eigenwerte sind reell

Spur ist Summe aller Eigenwerte.

Wiederholung: Eigenvektoren

Av v

9

v 0

1 1

( )m m

ii i

i i

tr a

A

m mA

1

k

iil m

Page 10: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Eigenwertzerlegung (für symmetrische Matrix ),

Wiederholung: Eigenvektoren

1

T T T

1 1

01 falls

[ ] [ ] 0 falls

0

m m i j

m

i j

i j

A VCV v v v v v v

10

A

Eigenvektoren Eigenwerte

(eindeutig, bis auf Permutation)

Orthonormalbasis

Page 11: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der Hauptkomponenten

Gegeben Datenmatrix mit m Zeilen

Gesucht ist Matrix , so dass:

Spalten bilden Orthonormalbasis.

Spalte erklärt möglichst viel Varianz der Daten.

Spalte erklärt möglichst viel Restvarianz der Daten.

Annahmen im Folgenden:

(sonst: von jeder Spalte abziehen)

Sei die Kovarianz der Daten:

Eigenwerte von C seien paarweise verschieden.

11

1, , mA a a

1, , nX x x

1, , ma a

1a

2a

1

n

ii x 0

1

n

iin

x

T1

1

m m

n

C XX

1, , 0m

Page 12: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der ersten Hauptkomponente

Wähle erste Hauptkomponente , so dass:

(Orthonormalbasis)

ist maximal (Varianz der durch

transformierten Daten)

12

1a

T T T

1 1 1 1a XX a a Ca

T

1 1 1a a

1a

Page 13: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der ersten Hauptkomponente

Löse

Suche Extremstellen der Lagrangefunktion :

Ableiten & Null setzen gibt: .

ist Eigenvektor der Kovarianzmatrix .

Für die Kovarianz im Zielsystem (zu maximieren) gilt:

Wähle daher Eigenvektor mit größtem Eigenwert.

13

T

T

1, 1max

a a a

a a Ca

,L a

T T, 1L a a Ca a a1a

1 1 1Ca a

1a C

T T T T

1 1 1 1 1 1 1 1 1 1 1 a Ca a Ca a a a a

Page 14: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der zweiten Hauptkomponente

Wähle zweite Hauptkomponente , so dass:

und

(Orthonormalbasis)

ist maximal (Varianz der durch

transformierten Daten)

14

2a

T T T

2 2 2 2a XX a a Ca

T

1 1 1a a

2a

T

1 2 0a a

Page 15: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der zweiten Hauptkomponente

Löse

Suche Extremstellen der Lagrangefunktion :

Ableiten & Null setzen gibt: ,

ist Eigenvektor der Kovarianzmatrix .

Wieder gilt (zu maximieren) und, da

Eigenvektoren othrogonal sein sollen .

Wähle daher Eigenvektor mit zweitgrößtem Eigenwert.

15

T

T1

T

2, 1

0

max

a a a

a a

a a Ca

, ,L a

T T T

1, , 1L a a Ca a a a a

2a

2 2 2Ca a

2a CT

2 2 2a Ca

1 2

Page 16: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Bestimmen der Hauptkomponenten

Sind die Eigenwerte paarweise

verschieden, wähle für die i-te Hauptkomponente

einen Eigenvektor mit Eigenwert .

Hinweis: Sind zwei Eigenwerte identisch,

wähle zueinander orthogonale Eigenvektoren mit

entsprechendem Eigenwert als i- bzw. (i+1)-te

Hauptkomponente

16

1 0m

i

1i i

Page 17: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Hauptkomponenten entsprechen den Eigenvektoren

(geordnet nach Eigenwert) der Kovarianzmatrix.

Transformation und Reduktion der Daten.

Transformation in das neue Koordinatensystem.

Welche Dimensionen können ignoriert werden?

Interpretierbarkeit der neuen Daten.

Wie kann Interpretierbarkeit der neuen Daten

verbessert werden?

17

Page 18: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Transformation & Reduktion

Transformiere Daten durch

gegebene Hauptkomponenten in

neue Daten .

Daten besitzen gleiche Dimension (m) wie zuvor.

Aber es gilt (siehe Eigenwertzerlegung):

Kovarianz .

Daher änder sich die Summe der Varianzen

in den einzelnen Komponenten nicht.

18

1, , nX x x

1, , mA a aT Z A X

T T C A Λ A

T T

1

m

i

i

tr tr tr tr

C A Λ A Λ A A Λ

Page 19: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Transformation & Reduktion

Die Eigenvektoren mit den k größten Eigenwerten

decken c Prozent der Gesamtvarianz ab, wobei:

Wähle für Transformation nicht alle

Hauptkomponenten sondern k Eigenvektoren mit

den größten Eigenwerten und

transformiere

Zielraum nun k-dimensional (nicht m-dimensional)

Wähle k so, dass Abdeckung der Varianz dennoch

ausreichend groß.

19

1

k

i

i

c tr

C

1, , kkA a a

T

k Z A X

Page 20: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Algorithmus

Seien Eigenwerte verschieden,

Input: Daten , minimale Abdeckung c

Setze k=0,

Wiederhole

Setze k=k+1.

Bestimme Eigenvektor von C mit dem k größtem

Eigenwert.

Bis .

Transformiere Daten

20

1, , 0m

1, , nX x x

1

k

i

i

c tr

C

T1

1n

C XX

1

n

ii x 0

ka

T

1, , k Z a a X

Page 21: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Nachteile

Problematisch bei schlecht skalierten Daten.

Informationsreiche Komponenten mit geringer

Varianz werden möglicherweise entfernt.

Kovarianzmatrix ist quadratisch in Anzahl der

Attribute:

Bei Texten mit 100.000 verschiedenen Wörtern hat

diese 10 Mrd. Einträge (8 Byte pro Eintrag: 80Gb).

Idee:

Berechne Eigenvektoren a von (n x n-Matrix).

Vektoren Xa sind gesuchte Eigenvektoren von mit

gleichem Eigenwert.

21

T

T T

X Xa a

X X Xa X a XX Xa Xa

TX X

TXX

Page 22: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Hauptkomponenten entsprechen den Eigenvektoren

(geordnet nach Eigenwert) der Kovarianzmatrix.

Transformation und Reduktion der Daten.

Transformation durch die Eigenvektoren mit den k

höchsten Eigenwerten.

Interpretierbarkeit der neuen Daten.

Wie kann Interpretierbarkeit der neuen Daten

verbessert werden?

22

Page 23: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

Morphace (Universität Basel)

3D-Modelle von 200 verschiedenen Personen (jeweils

über 150000 Feature)

PCA mit 199 Hauptkomponenten, jedes (3D) Gesicht

wird durch 199 Parameter charakterisiert.

23

Page 24: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

Morphace (Universität Basel)

Visualisierung der Hauptkomponenten im Originalraum

24

Gesichtsformen

Mittleres Gesicht a1 a2 a3

Page 25: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

Morphace (Universität Basel)

Visualisierung der Hauptkomponenten im Originalraum

25

Gesichtsformen Texturen

Mittlere Textur a1 a2 a3

Page 26: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA Anwendung & Interpretation

Anwendungsbeispiel:

PCA bei Texten.

Hauptkomponenten als Linearkombination aller

möglichen Worte:

Bsp: 0.001*{season}+0.03*{million}-0.01*{school}+…

Schwer zu interpretieren.

Besser sparse Hauptkomponenten:

26

1st PC 2nd PC 3rd PC 4th PC 5th PC

Million Point Official president School

Percent Play Government Campaign Program

Business Team United_States Bush Children

Company Season U_S Administration Student

Market Game attack

Companies 5 sparse Hauptkomponenten von

Artikeln der NYTimes

Page 27: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

1. Möglichkeit:

Schritt 1: Hauptkomponenten über Standard-PCA

berechnen

Schritt 2: Hauptkomponenten in sparse Vektoren

überführen, durch Ersetzen Abschneiden von kleinen

Werten auf 0.

Beispiel:

27

s(X) 1st PC 2nd PC

X1 75.75 0.956 -0.288

X2 13.13 0.294 0.945

X3 0.61 0.015 -0.154

X4 0.02 0.001 -0.002

82.308 6.739

1st SPC 2nd SPC

1 0

0 1

0 0

0 0

Page 28: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

1. Möglichkeit (Probleme):

Auf Orthogonalität muss explizit geachtet werden.

Korrelationen zwischen Variablen im Originalraum und

Zielraum werden ignoriert:

2. Dimension (Orinigalraum) korreliert stärker mit der 1.

Dimension (Zielraum) im Vergleich zur 2. Dimension

(Zielraum)

28

s(X) 1st PC 2nd PC

X1 75.75 0.956 -0.288

X2 13.13 0.294 0.945

X3 0.61 0.015 -0.154

X4 0.02 0.001 -0.002

82.308 6.739

1 2 121 2

21 2

2 2

,,

0.736

, 0.677

Cov Z X aZ X

xVar Z Var X

Z X

s

Page 29: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

2. Möglichkeit:

Wähle Hauptkomponenten so, dass möglichst viele

Einträge 0 sind.

Wähle beispielsweise derart, dass:

maximal, unter den Bedingungen:

(normiert)

für ein wählbares t

Problem: ist nicht stetig und daher schwer zu

optimieren.

29

T

1 1 1a a

T

1 1a Ca

1 0a

1a

1 101

0m

j

j

a t

a

Page 30: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

2. Möglichkeit (Relaxierung der l0-Norm):

Wähle Hauptkomponenten so, dass möglichst viele

Einträge 0 sind,

Wähle beispielsweise derart, dass:

maximal, unter den Bedingungen:

(normiert)

für ein wählbares t

Problem: Kein konvexes Optimierungsproblem,

Lösungen sind im Allgemeinen nur lokal-optimal.

30

T

1 1 1a a

T

1 1a Ca1a

1 111

m

j

j

a t

a

Page 31: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Nehme Kardinalität der Hauptkomponenten in

Optimierungsfunktion auf.

Wähle beispielsweise Hauptkomponente so, dass:

maximal, unter den Bedingungen:

(normiert)

Problem: Kein konvexes und nicht stetiges

Optimierungsproblem.

Idee: Finde konvexe obere Schranke der Funktion

und optimiere diese.

31

T

1 1 1a a

2T

1 1 1 0a Ca a

1a

Page 32: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Umformulieren & Relaxieren des Optimierungsproblems:

Rang der Lösung kann >1 sein:

Approximiere durch aaT, wobei a der Eigenvektor mit größtem

Eigenwert ist.

32

2

2T

0 0, 1 , 01

1

1 2, 01

1

1, 01

max max

max

max

tr

rk

tr

rk

tr

tr

tr

tr

a a A AA

A

A AA

A

A AA

a Ca a AC A

AC A A

AC A

Nutze

Beziehung Normen

TA aa

L2–Norm ist hier 1

Ignoriere Rang

Page 33: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Optimierungsproblem ist konvex.

Eine Optimierung mit Hilfe eines Koordinatenabstieg ist

möglich.

Laufzeit in diesem Falle im Bereich O(m3) , dies ist für ein

großes Vokabular zu groß.

33

1, 0

1

max

tr

tr

A A

A

AC A

Page 34: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

3. Möglichkeit:

Optimierungsproblem ist konvex.

Idee: Entferne Wörter mit geringer Varianz zur

Verbesserung der Laufzeit:

Wörter mit geringer Varianz werden niemals Teil der

nächsten sparsen Hauptkomponente.

Entferne Wort i, wenn

• Sicheres Entfernen, d.h. es wird mit Sicherheit kein Wort

zu viel entfernt (Beweis auf folgenden Folien)

• In Experimenten beispielsweise ~500 statt ~100.000

Wörter, wenn pro Komponente ca. 5 Wörter angestrebt

sind

– Parameter wird passend eingestellt.

34

1, 0

1

max

tr

tr

A A

A

AC A

ii C

Page 35: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

1.: definiere

gesucht:

2.: setze für binäre Diagonalmatrix

und Vektor (nicht eindeutig)

Dann gilt für :

, wobei für die Gleichheit gilt:

35

2T

0 a a Ca a

Konvexe Funktion, daher Maxima an

Rändern

T T, D y y DCDy 1 D1

T T, 1 , 1

max max

a a a a a a

a a

a aa D y 0,1m m

aDT, 1m a a ay y y

, a aD y a

0 , ,ii id a a ay a D y a

Page 36: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

3.: gesucht ist daher (Alternative)

36

Definition Kovarianz

T

T

T

T

T T

, =10,1

T T T

, =10,1

T T T

, =10,1

T T T

, =10,1 1

max max

1max max

1

1max max

1

1max max

1

m m

diag

m m

diag

m m

diag

m m

diag

m

ii i i

i

n

n

d x xn

y y yD

y y yD

y y yD

y y yD

y DCDy 1 D1

y DX XDy 1 D1

y XDX y 1 D1

y y 1 D1

Vertausche X und D

(hier möglich!)

Produkt zerlegen,

xi ist i-te Zeile/Feature von X

Page 37: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

3.: gesucht ist daher (Fortsetzung):

37

Ausklammern

T

T

T

T

T T T

, =10,1 1

2T

, =10,1 1

2T

0,1, =11

2T

, =11

1max max

1

1max max

1

1max max

1

1max max ,0

1

m m

diag

m m

diag

ii

m

ii i i

i

m

ii i ii

i

m

ii i iid

i

m

i

i

d x xn

d x dn

d x dn

xn

y y yD

y y yD

y y y

y y y

y y 1 D1

y

y

y

Maximum in Summanden ziehen

Einträge sind 0 oder 1

Page 38: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Sparse PCA

Beweis:

4.: Ein Summand In der Gleichung

ist immer 0 (unabhängig von y) wenn gilt:

In diesem Fall ist und daher

38

T

2T

, =11

1max max ,0

1

m

i

i

xn

y y y

y

2

T1

1i i iix x

n

C

0iid 0ia

Page 39: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

PCA

Teilprobleme:

Bestimmen der Hauptkomponenten.

Hauptkomponenten entsprechen den Eigenvektoren

(geordnet nach Eigenwert) der Kovarianzmatrix.

Transformation und Reduktion der Daten.

Transformation durch die Eigenvektoren mit den k

höchsten Eigenwerten.

Interpretierbarkeit der neuen Daten.

Sparse Hauptkomponenten erhöhen die

Interpretierbarkeit der transformierten Daten.

39

Page 40: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Zusammenfassung PCA

PCA (Hauptkomponentenanalyse) projeziert Daten

in neuen Raum:

Alle Komponenten sind unkorreliert.

Die Gesamtvarianz bleibt erhalten.

Die i-te Komponente hat größere Varianz als die (i+1)-te:

Ermöglicht das Weglassen hinterer Komponenten

(Reduzierung der Dimension) ohne Varianz in den Daten

stark zu beeinträchtigen.

40

Page 41: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Zusammenfassung Sparse PCA

PCA (Hauptkomponentenanalyse) projeziert Daten

in neuen Raum.

Sparse PCA erzeugt dabei sparse

Hauptkomponenten.

Hauptkomponenten sind besser interpretierbar.

Sparse Daten sind auch im transformierten Raum sparse.

Wirkt regularisierend.

Ermöglicht sichere Reduzierung der Feature vor dem

Berechnen der Hauptkomponenten und kann daher sehr

viel schneller sein als PCA.

Im Worst-Case ist PCA laufzeittechnisch jedoch besser als

Sparse PCA (quadratisch statt kubisch)

41

Page 42: Institut für Informatik Lehrstuhl Maschinelles Lernen · Jedes Dokument wird als Vektor dargestellt, ... Wenig Text pro Email (Einträge ungleich 0 pro Vektor) 2 . e: e fer / e:

Scheffe

r/Gro

ßhans/P

rasse: S

pra

chte

chnolo

gie

S

cheffe

r/Gro

ßhans/P

rasse

: Spra

chte

chnolo

gie

Fragen?

42