Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W...

M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004

Vorlesung 11

Unüberwachtes Lernen II

Martin Giese

[email protected]


Übersicht

DiskriminanzanalyseLernen spärlicher RepräsentationenNichtnegative Matrixfaktorisierung (NMF)


I. Diskriminanzanalyse


(z.B. McLachlan & Krishnan, 1996;

Ripley, 1996)Kanonische Variaten

Bekannt auch als Fishers lineare Diskriminanten

Ziel: Konstruktion von Richtungen, die günstig für

Klassifikation sind ⇒ Nutzung der Klassenlabel

Gegeben: Daten xi und Zughörigkeit zu g verschiedenen

Klassen

Problem: Finden von Richtungen im Datenraum, die

– Varianz zwischen Klassen maximieren

– Varianz innerhalb der Klassen maximieren


Kanonische Variaten

Mittelwerte innerhalb einer Klasse µk

Mittelwert aller Klassen:

Kovarianzmatrix zwischen den Klassen:

Kovarianzmatrix innerhalb einer Klasse Σ (hier als gleich

angenommen für alle Klassen)

∑=

=g

kkg 1

1 µµ

Tk

g

kkg

))((1

11

µµµµC −−−

= ∑=

{ }TEEE }){})({()cov( XXXXXΣ −−==

Für Zufallsvektor X


Kanonische Variaten

Sei n ein Richtungsvektor, dann definiert y = nTx ein

Merkmal entlang einer Richtung im Datenraum

Merkmalsvarianz (falls E{x}=0): Var(y) = nT E{ xxT } n

Eine optimale Merkmalsrichtung ist gegeben durch

die Bedingung:

Der Vektor n kann beliebig skaliert werden, z.B. so

dass nTΣn = 1.

nder Klasse innerhalb Varianz Klassenden zwischen Varianzsuparg* =

Σ=

≠ nnCnnn

0nT

T


Kanonische VariatenOptimierungsproblem:

minimiere: nTCn unter der NB nTΣn = 1

Lagrange-Funktion:

Optimalitätsbedingung:

Normales Eigenvektor-Problem, falls Σ invertierbar; sonst

spezielle numerische Techniken (→ MATLAB; Golub & van Loan,

1989)

)1(),( −Σ+= nnCnnn TTL λλ

0),(21

=Σ+=∂

∂ nCnnn λλL Verallgemeinertes

Eigenvektorproblem


Kanonische Variaten

Nach Bestimmung der “besten Richtung”

Iteration: nächste dazu orthogonale Richtung

finden, usw.

Falls Σ invertierbar ist, einfach die grössten

Singulärwerte nehmen (korresppondieren zu

orthogonalen Richtungen mit grösster Varianz,

s.o.)


“Fisher-Gesichter” (Belhumeur et al., 1997)

Vergleich: “Eigen-Gesichter” vs. “Fisher-

Gesichter”

Yale + Harvard Gesichtsdatenbasen

Beleuchtungsvariationen, verschiedene

Gesichtsaudrücke, Verdeckungen



Fehl

er

Beleuchtung: normal extrem 1 extrem 2

Klassifikation von GesichternFisher-Gesichter (FG) mehr robust gegen Beleuchtungsvariationen



FG weniger sensitiv

gegen Variation des

Gesichtsausdruckes

Fehl

er


(Belhumeur et al., 1997)“Fisher-Gesichter”Fisher-Gesicht für

Brillenträger

FG robust gegen Verdeckungen durch Brille



Fisher-Gesichter nicht abhängig von Zahl der HauptkomponentenPCA schlecht, wenn zu viele Komponenten verwendet werden


II. Lernen spärlicher Repräsentationen


Approximation durch Basisfunktionen

Ziel: Repräsentation von Bildern I(x, y) durch

Basisfunktionen gk(x, y)

Bilder approximiert durch Linearkombination:

Gewichte wk werden für jedes Bild neu geschätzt.

Basisfindungsproblem: Bestimme die optimalen gk(x, y),

so dass Bilder im Mittel gut approximiert werden.

∑=

=K

kkk yxgwyxI

1

),(),(


Wörterbuch (dictionary)

Bilder I(x, y) sind Zufallsvariable.

Die Funktionen gk(x, y), 1 ≤ k ≤ K, definieren ein

Wörterbuch (dictionary)

Ziel: Wörter sollten vollständigen Code liefern, und Code

mit minimaler Redundanz (d.h. ohne Wiederholungen)

Annahme: Bilder können durch Kombination weniger

Wörter dargestellt werden (Spärlichkeit)


Spärlichkeit (sparseness)

Minimale Redundanz:

– gk orthogonal und erklären maximale Varianz;

paarweise dekorrelierte Gewichte:

E{wk wl} = E{wk } E{ wl} für k ≠ l ⇒ PCA

→ Nur Statistik 2. Ordnung modellierbar.

– Nur wenige Gewichte wk ≠ 0 ⇒ spärliche Kodierung

→ Auch Statistik höherer Ordnung modellierbar.


LernalgorithmusSpärlichkeitsmass: Funktion S(w), die

für grosse w immer langsamer ansteigt

⇒ Lösungen mit vielen kleinen Gewichten bestraft.

Minimierung des Kostenfunktionals:

λ bestimmt Trade-off zwischen Spärlichkeit und Approx.

Vgl. Regularisierung !!!

∑∫ ∑==

+−=K

kk

yx

K

kkkK wSyxyxgwyxIggV

1

2

, 11 )(),(d),(),(],...,,[ λw

Approximation Spärlichkeit

)1log()()(

2

2

wwSewS w

+=

−= −


Lernalgorithmus

Die Bilder I(x, y) und die Gewichte wk sind Zufallsvariable.

Minimierung durch stochastischen Gradientenabstieg:

1. Für jedes Bild Optimierung der Gewichte wk .

2. Gemittelt über viele Bilder Optimierung der

Basisfunktionen gk(x, y).


Optimierung der Gewichte

Annahme: Bild I(x, y) konstant

Kostenfunktion kompakt geschrieben:

Zeitliche Änderung in Richtung des Abfalls von V:

mit)('21 wCwb

ww SV

+−=∂∂

−=&

∑∫

∫∫

=

++

−=

K

kk

yx

TT

yx

T

yxK

wSyxyxyx

yxyxyxIyxyxIggV

1,

,

2

,1

)(),(d),(),(

),(d),(),(2),(d),(],...,,[

wggw

gww

),(d),(),(,

yxyxyxIyx∫= gb ),(d),(),(

,

yxyxyxyx

T∫= ggC


Optimierung nach den Basisfunktionen

Sei das rekonstruierte Bild.

Über die Bilder gemittelte Kostenfunktion:

(Langsame) zeitliche Änderung in Richtung des Abfalls

von <V>:

∑∫=

+−=K

kk

yx

wSyxyxIyxIV1

2

,

)(),(d),(ˆ),(

unabhängig von g(x,y)

( )),(ˆ),(2),(

),( yxIyxIwyxg

Vyxg k

kk −−=

∂∂

−=&τ

∑=

=K

kkk yxgwyxI

1

),(ˆ),(ˆ

Mittelwert über Bilder

Zeitkonstante


Interpretation als Neuronales Netz

I(x, y)

),(ˆ yxI

gk(x, y)

wk


ExperimenteNatürliche Bilder: Land-

schaftsaufnahmen 512 x 512

Pixel

Hohe Ähnlichkeit der lokalen

Bildstatistik

Vorfilterung (pre-whitening)

Unterfenster 12 x 12 Pixel

Zufällig gewählte Ausschnitte

Ca. 200.000 Trainingsbilder


Spärliche Codierung Lokalisierte Filter (“Rezeptive

Felder”)

Veschiedene Frequenzbänder

Verschiedene Ortslokalisation

Parameter ähnlich kortikalen

Neuronen

„Simple cells“, visueller Kortex

(Daugman, 1989)

(Olshausen & Field,1996)

),(ˆ yxgk


PCA

PCs geordnet nach

Varianz

Keine Lokalisierung !

Ordnung nach

Frequenzbändern(Olshausen & Field,1996)


III. Nichtnegative Matrixfaktorisierung (NMF)


Viele natürliche Objekte bestehen aus Teilen

Ziel: unüberwachtes Lernen von Teilen

Teile als “Wörterbuch” (Augen, Mund, …)

Bilder I(x, y) repräsentiert durch Basisfunktionen gk(x, y)

Einschränkung: Gewichte nie negativ: wk ≥ 0

“Analog zu neuronaler Aktivität”

∑=

=K

kkk yxgwyxI

1),(),( (s.o.)

Lernen von Objektteilen


Matrixfaktorisierung

Gegeben: Datenmatrix X = [x1, …, xL] mit xij ≥ 0

(Helligkeitswerte positiv oder Null)

Ziel: Faktorisierung der Datenmatrix in der Form

X = U W d.h. xi = U wi

GewichteBasisbilder / Prototypen

(Bilder als Überlagerung von Basisbildern)


MatrixfaktorisierungDurch verschiedene NB für U und W ergeben sich

verschiedene Lernverfahren:

1. wi Einheitsvektoren ⇒ Vektorquantisierung

2. Spalten von U orthonormal; Zeilen von W orthogonal

⇒ PCA

3. Alle Einträge von U und W nichtnegativ

⇒ Nichtnegative Matrixfaktorisierung

→ Keine gegenseitige Kompensation positiver

und negativer Terme möglich !


Generatives ModellApproximation der Bildmatrix X:

Probabilistisches generatives Modell für die Bilder

ist eine Zufallsvariable

UWX =ˆ

X̂

w1 wL

U

x1 xNUwx =}{E

(Lee & Seung, 1999)


KostenfunktionOptimales generatives Modell minimiert Abweichung

zwischen X und

Divergenz (unsymmetrische Distanz) zwischen X und :

Entspricht sog. Kullback-Leibler-Divergenz falls

(d.h. xij definiert diskrete Verteilung)

Minimierung unter den Nebenbedingungen uij , wij ≥ 0

Annahme: poissonverteiltX̂

∑

+−=

nmmnmn

mn

mnmn xx

xxxD

,

ˆˆ

log)ˆ,( XX

X̂

1ˆ,,

== ∑∑nm

mnnm

mn xx

X̂


LernalgorithmusIteration mit multiplikativen Updates

Abwechselnd U und W optimiert

Zusätzlicher Normalisierungschritt (sonst unterbestimmt)

Konvergenz kann bewiesen werden: nimmt

immer ab, es sei denn lokales Minimum ist erreicht.)

∑←q mq

mqnqmnmn

xwuu

)(UW

∑←q qn

qnqmmnmn

xuww

)(UW

∑←q

qm

mnu

umnu

)ˆ,( XXD


Resultate

2429 Gesichtsbilder

19 x 19 pixel

49 Basisbilder U

Ca. 500 Iterationen

Spärlichkeit bei NMF !

Nur NMF liefert lokalisierte

Komponenten !!!

U w(Lee & Seung, 1999)

x


Wichtige Punkte

Fisher-Gesichter / DiskriminanzanalyseSpärliche neuronale CodierungLernen von rezeptiven FeldernNichtnegative Matrixfaktorisierung


Literatur

Belhumeur, P.N., Hespanha, J. P. & Kriegman, D.J (1997) Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. IEEE Transactions on Pattern Recognition and Machine Intelligence, 19, 711-720.

Cherkassky, V., Mulier, F. (1998). Learning From Data. John-Wiley & Sons Inc, New York.

Duda, R.O., Hart, P.E., Stork, D.G. (2001). Pattern Classification. John-Wiley & Sons Inc, New York.

Forsyth, D.A. & Ponce, J. (2003). Computer Vision: A modern Approach. Prentice-Hall. Upper Saddle River, NJ.

Golub, G. & van Loan, C. (1996) Matrix Computations. The Johns Hopkins University Press, Baltimore.

Lee D.D & Seung, H S. (1999) Learning the parts of objects by non-negative matrix factorization. Nature 401, 788-791.

Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W...

Documents

Transcript of Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W...