Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W...
Transcript of Vorlesung 11 Unüberwachtes Lernen II - Universität Ulm · ⇒PCA 3. Alle Einträge von U und W...
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Vorlesung 11
Unüberwachtes Lernen II
Martin Giese
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Übersicht
DiskriminanzanalyseLernen spärlicher RepräsentationenNichtnegative Matrixfaktorisierung (NMF)
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
I. Diskriminanzanalyse
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
(z.B. McLachlan & Krishnan, 1996;
Ripley, 1996)Kanonische Variaten
Bekannt auch als Fishers lineare Diskriminanten
Ziel: Konstruktion von Richtungen, die günstig für
Klassifikation sind ⇒ Nutzung der Klassenlabel
Gegeben: Daten xi und Zughörigkeit zu g verschiedenen
Klassen
Problem: Finden von Richtungen im Datenraum, die
– Varianz zwischen Klassen maximieren
– Varianz innerhalb der Klassen maximieren
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Kanonische Variaten
Mittelwerte innerhalb einer Klasse µk
Mittelwert aller Klassen:
Kovarianzmatrix zwischen den Klassen:
Kovarianzmatrix innerhalb einer Klasse Σ (hier als gleich
angenommen für alle Klassen)
∑=
=g
kkg 1
1 µµ
Tk
g
kkg
))((1
11
µµµµC −−−
= ∑=
{ }TEEE }){})({()cov( XXXXXΣ −−==
Für Zufallsvektor X
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Kanonische Variaten
Sei n ein Richtungsvektor, dann definiert y = nTx ein
Merkmal entlang einer Richtung im Datenraum
Merkmalsvarianz (falls E{x}=0): Var(y) = nT E{ xxT } n
Eine optimale Merkmalsrichtung ist gegeben durch
die Bedingung:
Der Vektor n kann beliebig skaliert werden, z.B. so
dass nTΣn = 1.
nder Klasse innerhalb Varianz Klassenden zwischen Varianzsuparg* =
Σ=
≠ nnCnnn
0nT
T
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Kanonische VariatenOptimierungsproblem:
minimiere: nTCn unter der NB nTΣn = 1
Lagrange-Funktion:
Optimalitätsbedingung:
Normales Eigenvektor-Problem, falls Σ invertierbar; sonst
spezielle numerische Techniken (→ MATLAB; Golub & van Loan,
1989)
)1(),( −Σ+= nnCnnn TTL λλ
0),(21
=Σ+=∂
∂ nCnnn λλL Verallgemeinertes
Eigenvektorproblem
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Kanonische Variaten
Nach Bestimmung der “besten Richtung”
Iteration: nächste dazu orthogonale Richtung
finden, usw.
Falls Σ invertierbar ist, einfach die grössten
Singulärwerte nehmen (korresppondieren zu
orthogonalen Richtungen mit grösster Varianz,
s.o.)
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
“Fisher-Gesichter” (Belhumeur et al., 1997)
Vergleich: “Eigen-Gesichter” vs. “Fisher-
Gesichter”
Yale + Harvard Gesichtsdatenbasen
Beleuchtungsvariationen, verschiedene
Gesichtsaudrücke, Verdeckungen
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
“Fisher-Gesichter” (Belhumeur et al., 1997)
Fehl
er
Beleuchtung: normal extrem 1 extrem 2
Klassifikation von GesichternFisher-Gesichter (FG) mehr robust gegen Beleuchtungsvariationen
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
“Fisher-Gesichter” (Belhumeur et al., 1997)
FG weniger sensitiv
gegen Variation des
Gesichtsausdruckes
Fehl
er
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
(Belhumeur et al., 1997)“Fisher-Gesichter”Fisher-Gesicht für
Brillenträger
FG robust gegen Verdeckungen durch Brille
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
“Fisher-Gesichter” (Belhumeur et al., 1997)
Fisher-Gesichter nicht abhängig von Zahl der HauptkomponentenPCA schlecht, wenn zu viele Komponenten verwendet werden
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
II. Lernen spärlicher Repräsentationen
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Approximation durch Basisfunktionen
Ziel: Repräsentation von Bildern I(x, y) durch
Basisfunktionen gk(x, y)
Bilder approximiert durch Linearkombination:
Gewichte wk werden für jedes Bild neu geschätzt.
Basisfindungsproblem: Bestimme die optimalen gk(x, y),
so dass Bilder im Mittel gut approximiert werden.
∑=
=K
kkk yxgwyxI
1
),(),(
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Wörterbuch (dictionary)
Bilder I(x, y) sind Zufallsvariable.
Die Funktionen gk(x, y), 1 ≤ k ≤ K, definieren ein
Wörterbuch (dictionary)
Ziel: Wörter sollten vollständigen Code liefern, und Code
mit minimaler Redundanz (d.h. ohne Wiederholungen)
Annahme: Bilder können durch Kombination weniger
Wörter dargestellt werden (Spärlichkeit)
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Spärlichkeit (sparseness)
Minimale Redundanz:
– gk orthogonal und erklären maximale Varianz;
paarweise dekorrelierte Gewichte:
E{wk wl} = E{wk } E{ wl} für k ≠ l ⇒ PCA
→ Nur Statistik 2. Ordnung modellierbar.
– Nur wenige Gewichte wk ≠ 0 ⇒ spärliche Kodierung
→ Auch Statistik höherer Ordnung modellierbar.
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
LernalgorithmusSpärlichkeitsmass: Funktion S(w), die
für grosse w immer langsamer ansteigt
⇒ Lösungen mit vielen kleinen Gewichten bestraft.
Minimierung des Kostenfunktionals:
λ bestimmt Trade-off zwischen Spärlichkeit und Approx.
Vgl. Regularisierung !!!
∑∫ ∑==
+−=K
kk
yx
K
kkkK wSyxyxgwyxIggV
1
2
, 11 )(),(d),(),(],...,,[ λw
Approximation Spärlichkeit
)1log()()(
2
2
wwSewS w
+=
−= −
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Lernalgorithmus
Die Bilder I(x, y) und die Gewichte wk sind Zufallsvariable.
Minimierung durch stochastischen Gradientenabstieg:
1. Für jedes Bild Optimierung der Gewichte wk .
2. Gemittelt über viele Bilder Optimierung der
Basisfunktionen gk(x, y).
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Optimierung der Gewichte
Annahme: Bild I(x, y) konstant
Kostenfunktion kompakt geschrieben:
Zeitliche Änderung in Richtung des Abfalls von V:
mit)('21 wCwb
ww SV
+−=∂∂
−=&
∑∫
∫∫
=
++
−=
K
kk
yx
TT
yx
T
yxK
wSyxyxyx
yxyxyxIyxyxIggV
1,
,
2
,1
)(),(d),(),(
),(d),(),(2),(d),(],...,,[
wggw
gww
),(d),(),(,
yxyxyxIyx∫= gb ),(d),(),(
,
yxyxyxyx
T∫= ggC
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Optimierung nach den Basisfunktionen
Sei das rekonstruierte Bild.
Über die Bilder gemittelte Kostenfunktion:
(Langsame) zeitliche Änderung in Richtung des Abfalls
von <V>:
∑∫=
+−=K
kk
yx
wSyxyxIyxIV1
2
,
)(),(d),(ˆ),(
unabhängig von g(x,y)
( )),(ˆ),(2),(
),( yxIyxIwyxg
Vyxg k
kk −−=
∂∂
−=&τ
∑=
=K
kkk yxgwyxI
1
),(ˆ),(ˆ
Mittelwert über Bilder
Zeitkonstante
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Interpretation als Neuronales Netz
I(x, y)
),(ˆ yxI
gk(x, y)
wk
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
ExperimenteNatürliche Bilder: Land-
schaftsaufnahmen 512 x 512
Pixel
Hohe Ähnlichkeit der lokalen
Bildstatistik
Vorfilterung (pre-whitening)
Unterfenster 12 x 12 Pixel
Zufällig gewählte Ausschnitte
Ca. 200.000 Trainingsbilder
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Spärliche Codierung Lokalisierte Filter (“Rezeptive
Felder”)
Veschiedene Frequenzbänder
Verschiedene Ortslokalisation
Parameter ähnlich kortikalen
Neuronen
„Simple cells“, visueller Kortex
(Daugman, 1989)
(Olshausen & Field,1996)
),(ˆ yxgk
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
PCA
PCs geordnet nach
Varianz
Keine Lokalisierung !
Ordnung nach
Frequenzbändern(Olshausen & Field,1996)
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
III. Nichtnegative Matrixfaktorisierung (NMF)
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Viele natürliche Objekte bestehen aus Teilen
Ziel: unüberwachtes Lernen von Teilen
Teile als “Wörterbuch” (Augen, Mund, …)
Bilder I(x, y) repräsentiert durch Basisfunktionen gk(x, y)
Einschränkung: Gewichte nie negativ: wk ≥ 0
“Analog zu neuronaler Aktivität”
∑=
=K
kkk yxgwyxI
1),(),( (s.o.)
Lernen von Objektteilen
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Matrixfaktorisierung
Gegeben: Datenmatrix X = [x1, …, xL] mit xij ≥ 0
(Helligkeitswerte positiv oder Null)
Ziel: Faktorisierung der Datenmatrix in der Form
X = U W d.h. xi = U wi
GewichteBasisbilder / Prototypen
(Bilder als Überlagerung von Basisbildern)
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
MatrixfaktorisierungDurch verschiedene NB für U und W ergeben sich
verschiedene Lernverfahren:
1. wi Einheitsvektoren ⇒ Vektorquantisierung
2. Spalten von U orthonormal; Zeilen von W orthogonal
⇒ PCA
3. Alle Einträge von U und W nichtnegativ
⇒ Nichtnegative Matrixfaktorisierung
→ Keine gegenseitige Kompensation positiver
und negativer Terme möglich !
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Generatives ModellApproximation der Bildmatrix X:
Probabilistisches generatives Modell für die Bilder
ist eine Zufallsvariable
UWX =ˆ
X̂
w1 wL
U
x1 xNUwx =}{E
(Lee & Seung, 1999)
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
KostenfunktionOptimales generatives Modell minimiert Abweichung
zwischen X und
Divergenz (unsymmetrische Distanz) zwischen X und :
Entspricht sog. Kullback-Leibler-Divergenz falls
(d.h. xij definiert diskrete Verteilung)
Minimierung unter den Nebenbedingungen uij , wij ≥ 0
Annahme: poissonverteiltX̂
∑
+−=
nmmnmn
mn
mnmn xx
xxxD
,
ˆˆ
log)ˆ,( XX
X̂
1ˆ,,
== ∑∑nm
mnnm
mn xx
X̂
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
LernalgorithmusIteration mit multiplikativen Updates
Abwechselnd U und W optimiert
Zusätzlicher Normalisierungschritt (sonst unterbestimmt)
Konvergenz kann bewiesen werden: nimmt
immer ab, es sei denn lokales Minimum ist erreicht.)
∑←q mq
mqnqmnmn
xwuu
)(UW
∑←q qn
qnqmmnmn
xuww
)(UW
∑←q
qm
mnu
umnu
)ˆ,( XXD
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Resultate
2429 Gesichtsbilder
19 x 19 pixel
49 Basisbilder U
Ca. 500 Iterationen
Spärlichkeit bei NMF !
Nur NMF liefert lokalisierte
Komponenten !!!
U w(Lee & Seung, 1999)
x
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Wichtige Punkte
Fisher-Gesichter / DiskriminanzanalyseSpärliche neuronale CodierungLernen von rezeptiven FeldernNichtnegative Matrixfaktorisierung
M. Giese: Lernmethoden in Computer Grafik und Multimedia17. Januar 2004
Literatur
Belhumeur, P.N., Hespanha, J. P. & Kriegman, D.J (1997) Eigenfaces vs. Fisherfaces: Recognition using class specific linear projection. IEEE Transactions on Pattern Recognition and Machine Intelligence, 19, 711-720.
Cherkassky, V., Mulier, F. (1998). Learning From Data. John-Wiley & Sons Inc, New York.
Duda, R.O., Hart, P.E., Stork, D.G. (2001). Pattern Classification. John-Wiley & Sons Inc, New York.
Forsyth, D.A. & Ponce, J. (2003). Computer Vision: A modern Approach. Prentice-Hall. Upper Saddle River, NJ.
Golub, G. & van Loan, C. (1996) Matrix Computations. The Johns Hopkins University Press, Baltimore.
Lee D.D & Seung, H S. (1999) Learning the parts of objects by non-negative matrix factorization. Nature 401, 788-791.