Kapitel 3: Regression
description
Transcript of Kapitel 3: Regression
SS 2009 Maschinelles Lernen und Neural Computation
1
Kapitel 3: Regression
SS 2009 Maschinelles Lernen und Neural Computation
2
Lineare Regression
• 1-dim Fall: Entspricht Korrelation
0
in
:allgemein
w
baxt
inWxtAbhängigeVariablen („target“)
unbhängigeVariablen
Rauschen
Wenn w0,b=0: Korrelation
SS 2009 Maschinelles Lernen und Neural Computation
3
Perceptron als lineare Regression
• Einfaches Perceptron (lineare Transferfunktion) ist identisch mit linearer Regression
• Bestimmen der Gewichte nach least squares:1. Ableitung 0 setzen
• Kein „Lernen“ notwendig(nur bei nichtlinearer Transferfunktion,sigmoid = „logistische Regression“)
TXW pinvGewichtsmatrix
Matrix aller Inputvektoren
Matrix aller Targetvektoren
Pseudoinverse
Pseudoinverse:
Siehe Bishop(1995), p.92 TTpinv XXXX
1
SS 2009 Maschinelles Lernen und Neural Computation
4
Nichtlineare Regression
• Ähnlich wie bei Diskriminanzfunktion:– Parametrisch: z.B. Polynom:
– Entspricht wieder einer Vorverarbeitung(auch andere denkbar, wird wieder lineare Regression)
• Allgemein: inxt f
Erwartungswert, kann durch NN angenähert werden
3in2inin cxbxaxt
SS 2009 Maschinelles Lernen und Neural Computation
5
Diskreter Fall
• Nimm für jeden Inputwert Mittelwert der Targets als Erwartungswert
• kontinuierlicher Fall: Teile Input in Intervalle
• Wenn Intervalle beliebig klein nicht-parametrische Schätzung der Regression
SS 2009 Maschinelles Lernen und Neural Computation
6
Kontinuierlicher Fall (Semiparametrisch)
• Modellierung des Datengenerators:Dichteschätzung der gesamten Verteilung
• Likelihood:
xxttx, ppp |
in
i
ii ppL xxt
1
|
Verteilung mit Erwartungswert f(xi)
SS 2009 Maschinelles Lernen und Neural Computation
7
MLP als Universaler Funktionsapproximator
• Bsp: 1 Input, 1 Output, 5 Hidden
• MLP kann beliebige Funktionen annähern (Hornik et al. 1990)
• durch Überlagerung von (gewichteten) Sigmoiden
• Komplexität durch das Zusammenspiel vieler einfacher Elemente
out0
1 1
hid0
inhidoutinoutj
n
j
m
iiiijjkkk wwxwfwxgx
verschieben(bias)
Dehnen, spiegeln
SS 2009 Maschinelles Lernen und Neural Computation
8
Normalverteiltes Rauschen
• Likelihood:
• Maximieren = -logL minimieren(konstante Terme werden weggelassen, inkl. p(x))
• Entspricht dem summierten quadratischen Fehler(siehe Backpropagation)
n
i
iin
i
ii tftpL
12
2
1 2
;exp
2
1|
Wx
xW
n
i
ii tfE1
2;Wx
SS 2009 Maschinelles Lernen und Neural Computation
9
Training als Maximum Likelihood
• Minimierung des quadratischen Fehlers ist Maximum Likelihood mit den Annahmen:– Fehler ist in jedem Punkt normalverteilt, ~N(0,)– Varianz dieser Verteilung ist konstant
• Varianz des Fehlers (des Rauschens):
• Aber: das muss nicht gelten!Erweiterungen möglich (Rauschmodell)
min1
2
opt2 1
;1
En
tfn
n
i
ii
Wx (verbleibender normalisierter Fehler)
SS 2009 Maschinelles Lernen und Neural Computation
10
Klassifikation als Regression• MLP soll Posterior annähern
• Verteilung der Targets ist keine Normalverteilung
• Bernoulli Verteilung:
• Neg. log-Likelihood:
• „Cross-Entropy Fehler“ (für 2 Klassen; verallgemeinerbar auf n Klassen)
n
i
titiii
xxL1
1
outout 1
n
i
iiii xtxtE1
outout 1log1log
xout=P(c|xin)
SS 2009 Maschinelles Lernen und Neural Computation
11
Optimale Paarungen: Transferfunktion (am Output) +Fehlerfunktion
• Regression:– Linear + summierter quadratischer Fehler
• Klassifikation (Diskriminationsfunktion):– Linear + summierter quadratischer Fehler
• Klassifikation (Posterior nach Bayes):– Softmax+cross-entropy Fehler
– 2 Klassen, 1 Ouput: Sigmoid+cross-entropy
SS 2009 Maschinelles Lernen und Neural Computation
12
Zusammenfassung
• NN sind allgemeine (semiparametrische) Methoden zur nichtlinearen Regression
• NN schätzt Erwartungswert, um den die Targets streuen
• Lernen entspricht Maximum Likelihood(Schätzen der Input/Target Dichte)
• Quadratischer Fehler entspricht konstantem normalverteiltem Rauschen (bedingte Verteilung der Targets)
• Erweiterungen auf nicht-Gauss’sches Rauschen denkbar (Beispiel: Klassifikation)