Kapitel 4: Lernen als Optimierung
description
Transcript of Kapitel 4: Lernen als Optimierung
SS 2009 Maschinelles Lernen und Neural Computation
1
Kapitel 4: Lernen als Optimierung
SS 2009 Maschinelles Lernen und Neural Computation
2
Lernen als Funktionsoptimierung
• Gegeben: Fehlerfunktion (i.a. neg. log Likelihood)z.B.:
• Gesucht: Gewichte (Parameter), die Funktion minimieren
• Klassischer Fall von Funktionsoptimierung Optimierungstheorie
n
i
ii tfE1
2;WxW
n
i
iiii xftxftE1
inin ;1log1;log WWW
ixout
SS 2009 Maschinelles Lernen und Neural Computation
3
Fehlerflächen• Für Minimum gilt:
Gradient
• 2-dim- Bsp.: Rosenbrock-Funktion, Minimum bei [1 1]
• Flache Täler möglich, aber auch Sattelpunkte, steile Minima, etc.
0,,,21
lw
E
w
E
w
EE
SS 2009 Maschinelles Lernen und Neural Computation
4
Gradient der Fehlerfunktion
• Backpropagation (nach Bishop 1995):effiziente Berechnung des Gradienten (Beitrag des Netzes): O(W) statt O(W2), siehe p.146f
• ist unabhängig von der gewählten Fehlerfunktion
ii w
x
x
E
w
E
out
out
Beitrag der Fehlerfunktion Beitrag des Netzes
• Optimierung basiert auf Gradienteninformation:
SS 2009 Maschinelles Lernen und Neural Computation
5
Gradientenabstiegsverfahren
• Einfachstes Verfahren:Ändere Gewichte direkt proportional zum Gradienten klassische „Backpropagation“ (lt. NN-Literatur)
• Langsam, Oszillationen und sogar Divergenz möglich
Endpunkt nach 100 Schritten: [-1.11, 1.25], ca. 2900 flops
SS 2009 Maschinelles Lernen und Neural Computation
6
Gradientenabstieg mit Momentum• Momentum=„Trägheit“
• Dämpft manche Oszillationen, erzeugt aber neue,
• beschleunigt (vergleichbar mit rollender Kugel),
• immer noch Divergenz möglich
Endpunkt nach 100 Schritten: [0.52, 0.26]; ca. 3100 flops
nn WEW 1
SS 2009 Maschinelles Lernen und Neural Computation
7
Line Search• Ziel: Schritt bis ins Minimum in
der gewählten Richtung• Approximation durch Parabel (3 Punkte)• Ev. 2-3 mal wiederholen
Endpunkt nach 100 Schritten: [0.78, 0.61], ca. 47000 flops
SS 2009 Maschinelles Lernen und Neural Computation
8
Konjugierte Gradienten• Problem des Line Search: neuer Gradient ist normal zum
alten• Nimm Suchrichtung, die Minimierung in vorheriger
Richtung beibehält
• Wesentlich gezielteres Vorgehen• Variante: skalierter konjugierter Gradient
Endpunkt nach 18 Schritten: [0.99, 0.99], ca. 11200 flops
dtdt+1wt+1
wt
SS 2009 Maschinelles Lernen und Neural Computation
9
Entspricht Paraboloid
Quadratische Approximation• Annäherung der Fläche um einen beliebigen Punkt:
*wwH*ww*w*ww*ww TEEE2
1
ji
ij ww
E
HH :
Hesse‘sche Matrix(alle 2. Ableitungen)
• Annäherungsweise:
• „Newton Richtung“, zeigt direkt Richtung Minimum (wenn Fläche quadratisch) Newton Methode
E 1Hww*
E 1HE
SS 2009 Maschinelles Lernen und Neural Computation
10
Quasi-Newton
• Rechenaufwand für Hesse Matrix enorm
• Quasi-Newton:approximiert die Inverse der Hesse Matrix
• In Umgebung des Minimums sehr zielführend
• In anderen Gegendenkann es auchschlechter sein
• Erreicht hier (!) als einzige Methode wirklich das Minumum
Endpunkt nach 34 Schritten: [1 1], ca. 9500 flops
SS 2009 Maschinelles Lernen und Neural Computation
11
Mehrere Minima
• Alle vorgestellten Verfahren sind lokale Optimierer
• Globale Optimierer: Genetische Algorithmen, Stochastic Annealing
• Es kann mehrere (lokale) Minima geben!
• Verschiedene Minima können verschiedenen Teillösungen entsprechen
mehrere Durchläufe mit verschiedenen Initialisierungen
• Aber: es gibt auch äquivalente Minima(durch Permutation der Hidden Units und Vertauschen der Vorzeichen): M!2M äquivalente Minima (bei M H.U.)
SS 2009 Maschinelles Lernen und Neural Computation
12
Zusammenfassung
• Gradientenbasierte Verfahren sind mächtige lokale Optimierer
• Klassisches „Backpropagation“ (Gradientenabstieg) ist das schwächste davon
• Aber: Backprop heißt effiziente Berechnung des Gradienten für neuronale Netze
• Auch 2. Ableitung (Krümmung) nutzbar
• Dringende Empfehlung: (skaliertes) konjugiertes Gradienten- oder Quasi-Newton-Verfahren verwenden!