Kapitel 4: Lernen als Optimierung

SS 2009 Maschinelles Lernen und Neural Computation

1

Kapitel 4: Lernen als Optimierung


2

Lernen als Funktionsoptimierung

• Gegeben: Fehlerfunktion (i.a. neg. log Likelihood)z.B.:

• Gesucht: Gewichte (Parameter), die Funktion minimieren

• Klassischer Fall von Funktionsoptimierung Optimierungstheorie

n

i

ii tfE1

2;WxW

n

i

iiii xftxftE1

inin ;1log1;log WWW

ixout


3

Fehlerflächen• Für Minimum gilt:

Gradient

• 2-dim- Bsp.: Rosenbrock-Funktion, Minimum bei [1 1]

• Flache Täler möglich, aber auch Sattelpunkte, steile Minima, etc.

0,,,21

lw

E

w

E

w

EE


4

Gradient der Fehlerfunktion

• Backpropagation (nach Bishop 1995):effiziente Berechnung des Gradienten (Beitrag des Netzes): O(W) statt O(W2), siehe p.146f

• ist unabhängig von der gewählten Fehlerfunktion

ii w

x

x

E

w

E

out

out

Beitrag der Fehlerfunktion Beitrag des Netzes

• Optimierung basiert auf Gradienteninformation:


5

Gradientenabstiegsverfahren

• Einfachstes Verfahren:Ändere Gewichte direkt proportional zum Gradienten klassische „Backpropagation“ (lt. NN-Literatur)

• Langsam, Oszillationen und sogar Divergenz möglich

Endpunkt nach 100 Schritten: [-1.11, 1.25], ca. 2900 flops


6

Gradientenabstieg mit Momentum• Momentum=„Trägheit“

• Dämpft manche Oszillationen, erzeugt aber neue,

• beschleunigt (vergleichbar mit rollender Kugel),

• immer noch Divergenz möglich

Endpunkt nach 100 Schritten: [0.52, 0.26]; ca. 3100 flops

nn WEW 1


7

Line Search• Ziel: Schritt bis ins Minimum in

der gewählten Richtung• Approximation durch Parabel (3 Punkte)• Ev. 2-3 mal wiederholen

Endpunkt nach 100 Schritten: [0.78, 0.61], ca. 47000 flops


8

Konjugierte Gradienten• Problem des Line Search: neuer Gradient ist normal zum

alten• Nimm Suchrichtung, die Minimierung in vorheriger

Richtung beibehält

• Wesentlich gezielteres Vorgehen• Variante: skalierter konjugierter Gradient

Endpunkt nach 18 Schritten: [0.99, 0.99], ca. 11200 flops

dtdt+1wt+1

wt


9

Entspricht Paraboloid

Quadratische Approximation• Annäherung der Fläche um einen beliebigen Punkt:

*wwH*ww*w*ww*ww TEEE2

1

ji

ij ww

E

HH :

Hesse‘sche Matrix(alle 2. Ableitungen)

• Annäherungsweise:

• „Newton Richtung“, zeigt direkt Richtung Minimum (wenn Fläche quadratisch) Newton Methode

E 1Hww*

E 1HE


10

Quasi-Newton

• Rechenaufwand für Hesse Matrix enorm

• Quasi-Newton:approximiert die Inverse der Hesse Matrix

• In Umgebung des Minimums sehr zielführend

• In anderen Gegendenkann es auchschlechter sein

• Erreicht hier (!) als einzige Methode wirklich das Minumum

Endpunkt nach 34 Schritten: [1 1], ca. 9500 flops


11

Mehrere Minima

• Alle vorgestellten Verfahren sind lokale Optimierer

• Globale Optimierer: Genetische Algorithmen, Stochastic Annealing

• Es kann mehrere (lokale) Minima geben!

• Verschiedene Minima können verschiedenen Teillösungen entsprechen

mehrere Durchläufe mit verschiedenen Initialisierungen

• Aber: es gibt auch äquivalente Minima(durch Permutation der Hidden Units und Vertauschen der Vorzeichen): M!2M äquivalente Minima (bei M H.U.)


12

Zusammenfassung

• Gradientenbasierte Verfahren sind mächtige lokale Optimierer

• Klassisches „Backpropagation“ (Gradientenabstieg) ist das schwächste davon

• Aber: Backprop heißt effiziente Berechnung des Gradienten für neuronale Netze

• Auch 2. Ableitung (Krümmung) nutzbar

• Dringende Empfehlung: (skaliertes) konjugiertes Gradienten- oder Quasi-Newton-Verfahren verwenden!

Kapitel 4: Lernen als Optimierung

Documents

Transcript of Kapitel 4: Lernen als Optimierung