Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W...

35
M. Giese: Lernmethoden in Computer Grafik und Multimedia 17. Januar 2004 Vorlesung 11 Unüberwachtes Lernen II Martin Giese [email protected]

Transcript of Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W...

Page 1: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Vorlesung 11

Unüberwachtes Lernen II

Martin Giese

[email protected]

Page 2: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Übersicht

DiskriminanzanalyseLernen spärlicher RepräsentationenNichtnegative Matrixfaktorisierung (NMF)

Page 3: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

I. Diskriminanzanalyse

Page 4: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

(z.B. McLachlan & Krishnan, 1996;

Ripley, 1996)Kanonische Variaten

Bekannt auch als Fishers lineare Diskriminanten

Ziel: Konstruktion von Richtungen, die günstig für

Klassifikation sind ⇒ Nutzung der Klassenlabel

Gegeben: Daten xi und Zughörigkeit zu g verschiedenen

Klassen

Problem: Finden von Richtungen im Datenraum, die

– Varianz zwischen Klassen maximieren

– Varianz innerhalb der Klassen maximieren

Page 5: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Kanonische Variaten

Mittelwerte innerhalb einer Klasse µk

Mittelwert aller Klassen:

Kovarianzmatrix zwischen den Klassen:

Kovarianzmatrix innerhalb einer Klasse Σ (hier als gleich

angenommen für alle Klassen)

∑=

=g

kkg 1

1 µµ

Tk

g

kkg

))((1

11

µµµµC −−−

= ∑=

{ }TEEE }){})({()cov( XXXXXΣ −−==

Für Zufallsvektor X

Page 6: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Kanonische Variaten

Sei n ein Richtungsvektor, dann definiert y = nTx ein

Merkmal entlang einer Richtung im Datenraum

Merkmalsvarianz (falls E{x}=0): Var(y) = nT E{ xxT } n

Eine optimale Merkmalsrichtung ist gegeben durch

die Bedingung:

Der Vektor n kann beliebig skaliert werden, z.B. so

dass nTΣn = 1.

nder Klasse innerhalb Varianz Klassenden zwischen Varianzsuparg* =

Σ=

≠ nnCnnn

0nT

T

Page 7: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Kanonische VariatenOptimierungsproblem:

minimiere: nTCn unter der NB nTΣn = 1

Lagrange-Funktion:

Optimalitätsbedingung:

Normales Eigenvektor-Problem, falls Σ invertierbar; sonst

spezielle numerische Techniken (→ MATLAB; Golub & van Loan,

1989)

)1(),( −Σ+= nnCnnn TTL λλ

0),(21

=Σ+=∂

∂ nCnnn λλL Verallgemeinertes

Eigenvektorproblem

Page 8: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Kanonische Variaten

Nach Bestimmung der “besten Richtung”

Iteration: nächste dazu orthogonale Richtung

finden, usw.

Falls Σ invertierbar ist, einfach die grössten

Singulärwerte nehmen (korresppondieren zu

orthogonalen Richtungen mit grösster Varianz,

s.o.)

Page 9: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

“Fisher-Gesichter” (Belhumeur et al., 1997)

Vergleich: “Eigen-Gesichter” vs. “Fisher-

Gesichter”

Yale + Harvard Gesichtsdatenbasen

Beleuchtungsvariationen, verschiedene

Gesichtsaudrücke, Verdeckungen

Page 10: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

“Fisher-Gesichter” (Belhumeur et al., 1997)

Fehl

er

Beleuchtung: normal extrem 1 extrem 2

Klassifikation von GesichternFisher-Gesichter (FG) mehr robust gegen Beleuchtungsvariationen

Page 11: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

“Fisher-Gesichter” (Belhumeur et al., 1997)

FG weniger sensitiv

gegen Variation des

Gesichtsausdruckes

Fehl

er

Page 12: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

(Belhumeur et al., 1997)“Fisher-Gesichter”Fisher-Gesicht für

Brillenträger

FG robust gegen Verdeckungen durch Brille

Page 13: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

“Fisher-Gesichter” (Belhumeur et al., 1997)

Fisher-Gesichter nicht abhängig von Zahl der HauptkomponentenPCA schlecht, wenn zu viele Komponenten verwendet werden

Page 14: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

II. Lernen spärlicher Repräsentationen

Page 15: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Approximation durch Basisfunktionen

Ziel: Repräsentation von Bildern I(x, y) durch

Basisfunktionen gk(x, y)

Bilder approximiert durch Linearkombination:

Gewichte wk werden für jedes Bild neu geschätzt.

Basisfindungsproblem: Bestimme die optimalen gk(x, y),

so dass Bilder im Mittel gut approximiert werden.

∑=

=K

kkk yxgwyxI

1

),(),(

Page 16: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Wörterbuch (dictionary)

Bilder I(x, y) sind Zufallsvariable.

Die Funktionen gk(x, y), 1 ≤ k ≤ K, definieren ein

Wörterbuch (dictionary)

Ziel: Wörter sollten vollständigen Code liefern, und Code

mit minimaler Redundanz (d.h. ohne Wiederholungen)

Annahme: Bilder können durch Kombination weniger

Wörter dargestellt werden (Spärlichkeit)

Page 17: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Spärlichkeit (sparseness)

Minimale Redundanz:

– gk orthogonal und erklären maximale Varianz;

paarweise dekorrelierte Gewichte:

E{wk wl} = E{wk } E{ wl} für k ≠ l ⇒ PCA

→ Nur Statistik 2. Ordnung modellierbar.

– Nur wenige Gewichte wk ≠ 0 ⇒ spärliche Kodierung

→ Auch Statistik höherer Ordnung modellierbar.

Page 18: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

LernalgorithmusSpärlichkeitsmass: Funktion S(w), die

für grosse w immer langsamer ansteigt

⇒ Lösungen mit vielen kleinen Gewichten bestraft.

Minimierung des Kostenfunktionals:

λ bestimmt Trade-off zwischen Spärlichkeit und Approx.

Vgl. Regularisierung !!!

∑∫ ∑==

+−=K

kk

yx

K

kkkK wSyxyxgwyxIggV

1

2

, 11 )(),(d),(),(],...,,[ λw

Approximation Spärlichkeit

)1log()()(

2

2

wwSewS w

+=

−= −

Page 19: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Lernalgorithmus

Die Bilder I(x, y) und die Gewichte wk sind Zufallsvariable.

Minimierung durch stochastischen Gradientenabstieg:

1. Für jedes Bild Optimierung der Gewichte wk .

2. Gemittelt über viele Bilder Optimierung der

Basisfunktionen gk(x, y).

Page 20: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Optimierung der Gewichte

Annahme: Bild I(x, y) konstant

Kostenfunktion kompakt geschrieben:

Zeitliche Änderung in Richtung des Abfalls von V:

mit)('21 wCwb

ww SV

+−=∂∂

−=&

∑∫

∫∫

=

++

−=

K

kk

yx

TT

yx

T

yxK

wSyxyxyx

yxyxyxIyxyxIggV

1,

,

2

,1

)(),(d),(),(

),(d),(),(2),(d),(],...,,[

wggw

gww

),(d),(),(,

yxyxyxIyx∫= gb ),(d),(),(

,

yxyxyxyx

T∫= ggC

Page 21: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Optimierung nach den Basisfunktionen

Sei das rekonstruierte Bild.

Über die Bilder gemittelte Kostenfunktion:

(Langsame) zeitliche Änderung in Richtung des Abfalls

von <V>:

∑∫=

+−=K

kk

yx

wSyxyxIyxIV1

2

,

)(),(d),(ˆ),(

unabhängig von g(x,y)

( )),(ˆ),(2),(

),( yxIyxIwyxg

Vyxg k

kk −−=

∂∂

−=&τ

∑=

=K

kkk yxgwyxI

1

),(ˆ),(ˆ

Mittelwert über Bilder

Zeitkonstante

Page 22: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Interpretation als Neuronales Netz

I(x, y)

),(ˆ yxI

gk(x, y)

wk

Page 23: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

ExperimenteNatürliche Bilder: Land-

schaftsaufnahmen 512 x 512

Pixel

Hohe Ähnlichkeit der lokalen

Bildstatistik

Vorfilterung (pre-whitening)

Unterfenster 12 x 12 Pixel

Zufällig gewählte Ausschnitte

Ca. 200.000 Trainingsbilder

Page 24: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Spärliche Codierung Lokalisierte Filter (“Rezeptive

Felder”)

Veschiedene Frequenzbänder

Verschiedene Ortslokalisation

Parameter ähnlich kortikalen

Neuronen

„Simple cells“, visueller Kortex

(Daugman, 1989)

(Olshausen & Field,1996)

),(ˆ yxgk

Page 25: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

PCA

PCs geordnet nach

Varianz

Keine Lokalisierung !

Ordnung nach

Frequenzbändern(Olshausen & Field,1996)

Page 26: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

III. Nichtnegative Matrixfaktorisierung (NMF)

Page 27: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Viele natürliche Objekte bestehen aus Teilen

Ziel: unüberwachtes Lernen von Teilen

Teile als “Wörterbuch” (Augen, Mund, …)

Bilder I(x, y) repräsentiert durch Basisfunktionen gk(x, y)

Einschränkung: Gewichte nie negativ: wk ≥ 0

“Analog zu neuronaler Aktivität”

∑=

=K

kkk yxgwyxI

1),(),( (s.o.)

Lernen von Objektteilen

Page 28: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Matrixfaktorisierung

Gegeben: Datenmatrix X = [x1, …, xL] mit xij ≥ 0

(Helligkeitswerte positiv oder Null)

Ziel: Faktorisierung der Datenmatrix in der Form

X = U W d.h. xi = U wi

GewichteBasisbilder / Prototypen

(Bilder als Überlagerung von Basisbildern)

Page 29: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

MatrixfaktorisierungDurch verschiedene NB für U und W ergeben sich

verschiedene Lernverfahren:

1. wi Einheitsvektoren ⇒ Vektorquantisierung

2. Spalten von U orthonormal; Zeilen von W orthogonal

⇒ PCA

3. Alle Einträge von U und W nichtnegativ

⇒ Nichtnegative Matrixfaktorisierung

→ Keine gegenseitige Kompensation positiver

und negativer Terme möglich !

Page 30: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Generatives ModellApproximation der Bildmatrix X:

Probabilistisches generatives Modell für die Bilder

ist eine Zufallsvariable

UWX =ˆ

w1 wL

U

x1 xNUwx =}{E

(Lee & Seung, 1999)

Page 31: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

KostenfunktionOptimales generatives Modell minimiert Abweichung

zwischen X und

Divergenz (unsymmetrische Distanz) zwischen X und :

Entspricht sog. Kullback-Leibler-Divergenz falls

(d.h. xij definiert diskrete Verteilung)

Minimierung unter den Nebenbedingungen uij , wij ≥ 0

Annahme: poissonverteiltX̂

+−=

nmmnmn

mn

mnmn xx

xxxD

,

ˆˆ

log)ˆ,( XX

1ˆ,,

== ∑∑nm

mnnm

mn xx

Page 32: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

LernalgorithmusIteration mit multiplikativen Updates

Abwechselnd U und W optimiert

Zusätzlicher Normalisierungschritt (sonst unterbestimmt)

Konvergenz kann bewiesen werden: nimmt

immer ab, es sei denn lokales Minimum ist erreicht.)

∑←q mq

mqnqmnmn

xwuu

)(UW

∑←q qn

qnqmmnmn

xuww

)(UW

∑←q

qm

mnu

umnu

)ˆ,( XXD

Page 33: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Resultate

2429 Gesichtsbilder

19 x 19 pixel

49 Basisbilder U

Ca. 500 Iterationen

Spärlichkeit bei NMF !

Nur NMF liefert lokalisierte

Komponenten !!!

U w(Lee & Seung, 1999)

x

Page 34: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Wichtige Punkte

Fisher-Gesichter / DiskriminanzanalyseSpärliche neuronale CodierungLernen von rezeptiven FeldernNichtnegative Matrixfaktorisierung

Page 35: Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W nichtnegativ ⇒Nichtnegative Matrixfaktorisierung →Keine gegenseitige Kompensation

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Literatur

Belhumeur, P.N., Hespanha, J. P. & Kriegman, D.J (1997) Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. IEEE Transactions on Pattern Recognition and Machine Intelligence, 19, 711-720.

Cherkassky, V., Mulier, F. (1998). Learning From Data. John-Wiley & Sons Inc, New York.

Duda, R.O., Hart, P.E., Stork, D.G. (2001). Pattern Classification. John-Wiley & Sons Inc, New York.

Forsyth, D.A. & Ponce, J. (2003). Computer Vision: A modern Approach. Prentice-Hall. Upper Saddle River, NJ.

Golub, G. & van Loan, C. (1996) Matrix Computations. The Johns Hopkins University Press, Baltimore.

Lee D.D & Seung, H S. (1999) Learning the parts of objects by non-negative matrix factorization. Nature 401, 788-791.