Modellvergleich, Modellauswahl und das Einstellen von ... · • AIC ist ¨aquivalent zu Cp f¨ur...

Modellvergleich, Modellauswahl unddas Einstellen von Hyperparametern

und Bestrafungstermen

Volker Tresp

1

Empirischer Modellvergleich

3

Testfehler (Generalisierungsfehler)

• Gegeben zwei Modellansatze M1 und M2, so wollen wir nachweisen, dass M1 bessere

Performanz besitzt als M2

• Beispiel: M1 bezeichnet ein Neuronales Netz und M2 ist lineare Regression

• Wie schon mehrfach erwahnt, ist hierzu der Vergleich der Performanz auf den Trai-

ningsdaten nicht verlasslich

• Von Interesse ist der erwartete Generalisierungsfehler, das heißt die Performanz auf

neuen Daten

• Sei L[y, f(x, M1)] eine Verlustfunktion (z.B. quadratischer Fehler, Klassifikations-

fehler), dann ist von Interesse

EP (x,y)L[y, f(x, Mi)]

Empirische Approximation des Testfehlers

• Um diesen Ausdruck zu approximieren teilt man den vorhandenen Datensatz auf in

einen Trainingsdatensatz und einen Generalisierungsdatensatz (Validierungssatz)

• Die Modelle werden nur auf den Trainingsdaten trainiert

• Ein erwartungstreuer Schatzer des Generalisierungsfehlers ist

EP (x,y)L[y, f(x, Mi)] ≈

Jtest(Mi) =1

|TEST |

∑i∈TEST

L[yi, f(xi, Mi)]

also einfach der mittlere Fehler auf den Testdaten

4

Kreuzvalidierung

• Der Testfehler ist erwartungstreu, jedoch besitzt er oft erhebliche Varianz

• Daher ist der Modellansatz mit dem besseren Testfehler nicht notwendigerweise das

bessere Verfahren

• Ein sichereres Verfahren ist die K-fache Kreuzvalidierung; typische Zahlen sind K = 5

oder K = 10

• Die Daten werden in K gleichgroße Gruppen partitioniert

• Fur j = 1, . . . , K: Die j−te Menge ist der Testdatensatz und die ubrigen Datensatze

agieren als Trainingsdaten

5

Kreuzvalidierung (2)

• So erhalt man fur jeden Modellansatz i nicht nur einen sondern K Testfehler Jtest(Mi, j)

• Man kann nun den mittleren Testfehler berechnen als

meani =1

K

K∑j=1

Jtest(Mi, j)

• Die Varianz des mittleren Testfehlers kann geschatzte werden zu

vari =1

K(K − 1)

K∑j=1

(Jtest(Mi, j)−meani)2

• Man wurde Modellansatz Mi als besser als Mj einstufen, wenn sich die Standardab-

weichungen nicht uberlappen, das heisst, falls

meani +√

vari < meanj −√

varj

6

Gepaarte Tests

• Wenn man sehr wenige Daten hat, ist die Kreuzvalidierung manchmal nicht scharf

genug

• Die Grundidee: nehmen wir an K = 10; wenn nun M1 in neun der zehn Tests besser

abschneidet als M2, dann spricht dies stark fur M1

• Man berechnet die mittlere Differenz der Verfahren

MeanDiffi,j =1

K

K∑k=1

Jtest(Mi, k)− Jtest(Mj, k)

und analysiert, ob diese Differenz signifikant positiv (oder negativ ist); eine sorgfalti-

gere Anlayse fuhrt zum gepaarten T-Test (paired t-test)

7

Empirische Einstellung derHyperparameter

8

Hyperparameter

• Neben den eigentlichen Parametern, die durch den Lernprozess bestimmt werden, gibt

es auch sogenannte Hyperparameter: typischerweise sind dies die Gewichtungen auf

den Straftermen λ, die Anzahl der versteckten Knoten eines Neuronalen Netzes, . . .

• Bayes’sche Verfahren haben hier einen Vorteil, da Hyperparameter einfach nur weitere

Parameter im Modell darstellen, uber die intergriert werden muss

• Die meisten anderen Verfahren tun sich schwerer mit einer prinzipiellen Bestimmung

der Hyperparameter; eine universelle Losung stellt die empirische Bestimmung dar

9

Hyperparameter(2)

• Die Idee ist eine drei-Einteilung der Daten in Trainings-, Validierungs-, und Testdaten

– Das Modell wird auf den Trainingsdaten mit verschiedenen Werten der Hyperpa-

rameter trainiert

– Es wird das Modell mit den entsprechenden Hyperparametern ausgewahlt, welches

auf den Validierungsdaten die beste Performanz gezeigt hat

– Es wird der Testfehlers dieses optimierten Modells berechnet

• Ahnlich wie bei der Modellauswahl, kann naturlich auch die Bestimmung der Hyper-

parameter uber Kreuzvalidierung erfolgen

10

Lerntheorien und theoretischeAbschatzungen des

Generalisierungsfehlers

11

Uberblick: Statistische Theorien und Lerntheorien

12

Lerntheorien

• Klassische Frequentistische Verfahren

– Cp Statistik

– Akaikes Informationskriterium (AIC)

• Bayes’sche Verfahren

– Striktes Bayes: ich muss mich niemals entscheiden: Mitteln anstatt auswahlen

– Bayes’sche Modellauswahl, Bayesian Information Criterion (BIC)

• Moderne Frequentistische Verfahren

– Minimum Description Length (MDL) Prinzip

– Vapnik-Chervonenkis (VC) Theorie (Statistische Lerntheorie)

• Wir werden evaluieren, wie diese Theorien die Differenz zwischen mittle-rem Trainingsfehler und erwartetem Testfehler abschatzen!

13

Klassische FrequentistischeVerfahren

14

Frequentist Statistik (Fisher)

• Entwickelt primar von Fisher und ebenfalls durch Neyman und Pearson

• Die Theorie wurde vor dem weitverbreiteten Einsatz von Computern entwickelt; folglich

lag die Betonung auf einfachen praktikablen Verfahren

• Eindeutig dominierender Ansatz; wird von der uberwiegenden Anzahl von Statistikern

verwendet

• Wesentlicher Vorteil: Einfachheit in der Handhabung; dadurch weite Verbreitung

• Der Ansatz benotigt keine a priori Verteilung und lasst die Daten fur sich sprechen

• Basis des Ansatzes: Verhalten unter hypothetischer Wiederholung des Experimentes

unter ahnlichen Umstanden: statistical procedures have to be assessed by their per-

formance in hypothetical repetitions under identical conditions

15

Frequentist Statistik (2)

• Vorgehensweise:

– Wahle eine Statistik (d.h. eine sinnvolle Funktion der Daten, z.B. den Mittelwert)

– Leite die Sampling Statistik ab (z.B.: wie verteilt sich der geschatzte Mittelwert

um den wahren Mittelwert)

– Messe die Plausibilitat jedes moglichen Parametervektors

• Betonung liegt auf Parameterschatzung und nicht Prognosegute

• Bei likelihoodbasierten Schatzern: das wahre Modell muss in der betrachteten Menge

von Modellen sein

• Kritik (Bayesianer, Vapnik): Eine Menge von Tricks und ohne zugrundeliegende ge-

schlossene Theorie; funktioniert nur bei Modellen mit wenigen Parametern, die sich

gut schatzen lassen; die Theorie hat wenig zu sagen, wenn nur wenige Trainingsdaten

vorliegen

16

• Frequentistische Ansatzte legen den Schwerpunkt auf Modellselektion und nicht so

sehr auf Regularisierung

Frequentistische Ansatze

• Man vereinfacht das Problem, indem man den erwarteten Generalisierungsfehler nur

an den Eingangspunkten des Trainingssatzes berechnet

• Daraus folgt, dass der abgeschatzte Generalisierungsfehler typischerweise zu klein ist

• Dieser in-sample Generalisierungsfehler lasst sich abschatzen zu

Jin =1

N

N∑i=1

L[yi, f(xi,w)] + Komplexitatsterm

17

Mallows’ Cp Statistik

• Man erhalt fur Modelle, die linear in den Parameterm sind und quadratischem Fehler

als Verlustfunktion

Jin = Cp =1

N

N∑i=1

L[yi, f(xi,w)] + 2M

Nσ2

• M ist die Anzahl der Modellparameter

• Kann zur Auswahl der Eingange benutzen (lineares Modell) oder zur Auswahl relevan-

ter fester Basisfunktionen

• σ2 ist die geschatzte Rauschvarianz

• Jin ist der abgeschatzte Fehler an den Eingangsdaten der Trainingsdaten (in-sample)

(und ist daher oft zu optimistisch)

18

Beispiel: Schatzung des Mittelwertes

• Ansatz

xi = µ + εi

σ2 sei die unbekannte Rauschvarianz

• Schatzung

µ =1

N

N∑i=1

xi

Diese ist erwartungstreu und ergibt sich daraus, dass der Erwartungswert der Summegleich der Summe der Erwartungswerte ist.

• Wie man leicht sieht ist die Varianz der Schatzung

var(µ) =σ2

NDies folgt daraus, dass fur unabhangige Zufallsprozesse die Varianz der Summe gleichder Summe der Varianz der Elemente ist und weil var(ax) = a2var(x), mitkonstantem a.

19

• Die Varianz des geschatzten Parameters ist unkorreliert mit der Rauschvarianz der

neuen Daten

• Deshalb ist der erwartete Testfehler die Summe aus Parametervarianz und Rauschva-

rianz :

Jtest =σ2

N+ σ2 =

N + 1

Nσ2

• Setzen wir eine erwartungstreue Schatzung der Rauscharianz ein

σ2 =1

N − 1

N∑i=1

(xi − µ)2 =N

N − 1Jtrain

mit Jtrain = 1N

∑Ni=1(xi − µ)2

• Damit ist

Jtest =N + 1

N − 1Jtrain

=N − 1 + 2

N − 1Jtrain = Jtrain + 2

1

N − 1Jtrain = Jtrain + 2

σ2

N

• Dieses Ergebnis kann generalisiert werden zu Modellen mit M Parametern und man

erhalt

Jtest =N + M

N −MJtrain

= Jtrain + 2M

Nσ2

• Dies ist identisch zu CP . Beachte, dass der Unterschied zwischen Trainingsfehler

und erwartetem Testfehler proportional ist zur Anzahl freier Parameter und inverse

proportional ist zur Anzahl der Trainingsdaten!

Akaikes Information Criterion (AIC)

• Man erhalt fur Modelle, bei denen die Log-Likelihood

l = logL =N∑

i=1

logP (yi|xi,w)

optimiert wird Akaike’s Information Criterion (minimiere:)

AIC = 2

(−

1

NlogL +

M

N

)• M

N ist eine Schatzung der Differenz zwischen mittlerer Trainings-Loglikelihood undmittlerer Test-Loglikelihood.

• AIC ist aquivalent zu Cp fur Gauss Rauschen mit bekannter Rauschvarianz:

AIC =1

σ2

1

N

N∑i=1

(yi − f(xi,w))2 + 2M

N=

1

σ2CP

20

•

−AIC/2 =1

NlogL−

M

N

schatzt die mittlere Loglikelihood von neuen Daten ab, deren Eingangswerte mit den

Trainingsdaten ubereinstimmen (in-sample)

AIC fur Likelihood Kostenfunktion und fur 1/0 Kostenfunktion

21

Misspezifizierte Modelle

• Der Likelihood-Ansatz (und ebenso der Bayes’sche Ansatz) nimmt an, dass sich das

wahre Modell in der Klasse der betrachteten befindet

• Man kann jedoch zeigen, dass im Fall der Misspezifikation der ML-Ansatz definierte

und sinnvolle Ergebnisse liefert

• Betrachten wir als Abstand zwischen wahrer Verteilung P (x) und approximitiver

Verteilung Pθ(x) mit Parametern θ den sogenannten Kullback-Leibler Abstand (KL-

Divergenz)

KL(P‖Pθ) =

∫P (x) log

P (x)

Pθ(x)dx

• Der Kullback-Leibler Abstand ist gleich Null, wenn beide Verteilungen gleich sind

und ist ansonsten großser Null. Beachte, dass der KL-Abstand unsymmetrisch ist:

KL(P‖Pθ) 6= KL(Pθ‖P )

22

• Approximiert man die wahre unbekannte Verteilung durch die Samples, erhalt man die

negative Loglikelihood

KL(P‖Pθ) ≈ −1

N

N∑i=1

logPθ(xi)

• Man kann nun zeigen, dass unter schwachen Regularitatsbedingungen ein Modell,

welches die Loglikelihood maximiert asymptotisch zu Parametern konvergiert, so dass

der Abstand zwischen wahren und approximativem Modell im Sinne der KL-Divergenz

minimal ist

• Dies bedeutet, dass auch wenn die wahre Verteilung nicht in der Klasse der betrach-

teten Modelle ist, der ML-Ansatz sinnvolle Ergebnisse liefert!

Varianten der frequentistischen Statistik

• Fiducial (Bezugs) Inference, Pivotal Inference, Structural Inference: Versuche, Para-

meterwahrscheinlichkeiten abzuleiten, ohne die Bayes’sche Theorie anzuwenden

• Regularisierung: Stein Schatzer, Ridge Regression, ...

• Robuste Statistik (Huber)

23

Varianten der frequentistischen Statistik: AlgorithmischeAnsatze

• Breiman, Hastie, Friedman, Huber, ...

• Nicht Suche nach den besten Parameterm steht im Vordergrund, sonder nach dem

System, welches die besten Prognosen liefert

• Techniken: Kreuzvalidierung

• Analyse eher frequentistisch (Bias - Variance)

• Pragmatischer Ansatz

• Wahres Modell ist nicht der Fokus der Analyse

24

Bayes’sche Ansatze

25

Bayes’scher Ansatz

• Axiomatisches Fundament: Entscheidungen unter Unsicherheit

• Wissenschaftlich komplettes Modell

• Man sollte ehrlich seine Annahmen explizit machen, und basierend auf diesen dann

Entscheidungen treffen

• Parameter und Variable werden gleichberechtigt als Zufallsvariable behandelt; streng

genommen gibt es nur das Problem der Inferenz (und nicht der Parameterschatzung)

• Prognose im Vordergrund, nicht Parameterschatzung

• Bayes’sche Ansatze neigen wesentlich weniger zum Uberanpassen

• Nachteile

– Inferenz fuhrt zu komplexen Integralen, die numerisch approximiert werden (MCMC,

Markov Chain Monte Carlo)

26

– Die aufwendige Maschinerie bringt einen vom eigentlichen Problem weg (explora-

tive Analyse)

– Das wahre Modell muss im Satz der betrachteten Modelle sein (Vapnik: einziges

aber schwerwiegendes Problem)

Bayes’scher Ansatz: Varianten

• Subjektiver Bayes: Konsequente Einziehung von Vorwissen

• Objektiver Bayes: Definition von a priori Verteilungen, so dass die a prior Annahme

moglichst wenig Einfluss auf das Ergebnis hat

– Uninformative Prior (Jeffrey)

– Maximum Entropie Ansatz

• Empirial Bayes: Schatzung von Hyperparametern

– Evidence Framework (Type II Likelihood): Modellauswahl nach P (D|M)

27

Bayes’sche Modellauswahl

• Wenn ich denn doch ein Modell auswahlen muss ...

• A posteriori Modellwahrscheinlichkeit

P (M|D) ∝ P (M)P (D|M)

• Typischerweise nimmt man an, dass alle Modelle gleich-wahrscheinlich sind (a priori)

• Somit ist der entscheidende Term (marginal likelihood, evidence)

P (D|M) =

∫P (w|M)P (D|w)dw

28

Laplace Approximation der Marginal Likelihood

• logP (D|M) wird asymptotisch gaussformig, allerdings ist das Integral nicht zu Eins

normiert;

• Man behalt nun nur die Terme, die von N abhangen. Dann erhalt man

logP (D|M) ≈ logP (D|wMAP ,M)−M

2logN

• Ubungsaufgabe: leiten Sie diese Approximation her

29

Bayesian Information Criterion (BIC)

• BIC ist 2 Mal diesem Ausdruck (man ersetzt die MAP Parameterschatzung durch die

ML-Parameterschatzung) (minimiere)

BIC = −2 logL + M logN

und die mittlere vorhergesagte Loglikelihood

−1

2NBIC =

1

NlogL−

M

N

1

2logN

Vergleiche

−AIC/2 =1

NlogL−

M

N

• MN

12 logN ist eine Schatzung der Differenz zwischen mittlerer Trainings-Loglikelihood

und mittlerer Test-Loglikelihood.

• Die BIC Korrektur ist um den Faktor 12 logN großer und verringert sich langsamer

mit (logN)/N mit der Anzahl der Trainigsdaten

30

Moderne Frequentistische Verfahren

31

Minimum Description Length

• Basierend auf dem Konzept der algorithmischen Komplexitat (Kolmogorov, Solomo-

noff, Chaitin)

• Auf Basis dieser Ideen: Rissanen (und Wallace, Boulton) fuhrten das Prinzip der mi-

nimum description length (MDL) ein

• Unter einigen Vereinfachungen wird das MDL Kriterion identisch zum BIC Kriterion

(siehe Appendix)

32

Statistical Learning Theory

• Start: Kolmogorov, Glivenko, Cantelli

• Der Vater der SLT: Vladimir Vapnik

• Ziel: Gegeben eine Menge von Funktionen, die nicht die wahre Funktion enthalten

mussen, wahle die optimale Funktion aus

• Forderung der Konsistenz: Asymptotisch soll die beste Funktion ausgewahlt werden

• Im Zentrum steht hier wieder die Differenz zwischen Trainingsfehler Remp(f) und

Testfehler R(f). Im Gegensatz zu vorher steht hier jedoch nicht die Differenz zwi-

schen Trainingsfehler und erwartetem Testfehler im Vordergrund, sondern die Theorie

fokussiert auf die Berechnung einer oberen Schranke zwischen Trainingsfehler und

Testfehler!

33

STL (2)

• Worst Case Analysis (MinMax) (one-sided uniform convergence)

limN→∞

P

(maxf∈F

|R(f)−Remp(f)| > ε

)= 0, ∀ε > 0

(die gilt fur alle f : A ≤ R(f) ≤ B mit beliebigen Schranken A, B)

• Vapnik argumentiert, dass nur eine Worst-Case-Analyse zu konsistenten nicht-trivialen

Resultaten fuhrt

• Nachteile: die berechneten Schranken sind in der Praxis zu konservativ und entsprechen

nicht dem tatsachlichen Generalisierungsfehler

34

Vapnik-Chervonenkis (VC-) Theorie (Statistical LearningTheory)

• Die VC-Theorie ist verteilungsfrei, das heißt sie macht keine Annahmen uber eine

zugrundeliegende Verteilung; speziell muss sie auch nicht annehmen, dass die wahre

Verteilung sich in der Klasse der betrachteten Verteilungen befindet

• Die einzige wesentliche Annahme: Daten werden von einer festen Verteilung P (x)

generiert

• Zielgroßen werden von h(x) generiert (im einfachsten Fall und hier ohne Rauschen

und binar)

• Man versuche h(x) mit f(x) zu approximieren. f(x) sei ein Mitglied einer Klasse

von Funktionen F (x).

35

VC-Theorie (2)

• Die mittlere Generalisierungsperformanz (Risiko) ist

R(f) =

∫P (x)l(h(x), f(x))dx

wobei l(a, b) = 0, falls a = b ist und 1 anderenfalls

• Sei

Remp(f) =1

N

N∑i=1

l(h(xi), f(xi))

das empirische Risiko

36

VC-Theorie (3)

• Wie ist im schlimmsten Fall, d.h. fur die ungunstigste Funktion f ∈ F und fur

die ungunstigste Verteilung der Trainingsdaten der Unterschied zwischen R(f) und

Remp(f) fur N Datenpunkte? D.h. wie ist,:

maxf

|R(f)−Remp(f)|

• Vapnik hat gezeigt, dass unabhangig vom speziellen h und den speziellen Trainings-

daten gilt:

P (maxf∈F

|R(f)−Remp(f)| > ε) ≤ bound = 4∆(2N) exp(−ε2N/8)

37

VC-Dimension

P (maxf∈F

|R(f)−Remp(f)| > ε) ≤ 4∆(2N) exp(−ε2N/8)

• ∆(N) (growth function) ist eine obere Schranke fur die maximale Anzahl der ver-

schiedenen binaren Funktionen, die F (x) auf (mindestens einer Menge von) N Daten

implementieren kann

• ∆(N) wachst entweder asymptotisch wie 2N fur alle N oder ist nach oben begrenzt

durch NdV C +1, wobei dV C die (beruhmte) VC-Dimension von F (x) ist; im ersten

Fall ist dV C unendlich und das Lernsystem erlaubt keine Generalisierung (aus Hertz,

Krogh, Palmer: Introduction to the theory of neural computation)

• Die VC-Dimension einer Funktionenklasse F ist die großte Anzahl von Datenpunkten

(in mindestens einer Anordnung), die von Mitgliedern von F ge-shattered werden

konnen

• Fur einen linearen Klassifikator ist dV C = M , d.h. gleich der Anzahl der freien

Parameter (Anzahl der Eingangsvariablen plus 1)

38

• Shattered: Egal wie ich Zielwerte den Datenpunkten zuordne, ein Mitglied der Klasse

kann es korrekt Klassifizieren (fur mindestens eine Anordnung der Eingangsvektoren)

• Prinzip der Structural Risk Minimization (SRM): wahle die Modellklasse, fur welches

Remp(f) + bound

minimal ist

Vapnik-Chervonenkis (VC-) Theorie: Vorteile und Nachteile

• Vorteil: es muss nur angenommen werden, dass P (x) fest ist; weder eine prior Ver-

teilung noch eine Likelihood Funktion muss definiert werden

• Nachteile: Die VC-Dimension lasst sich fur viele interessante Klassen von Funktionen

nicht berechnen; nur weniger gute oder schlechte Grenzen sind verfugbar

• Als worst-case Theorie ist die Ubertragbarkeit auf den average case nur begrenzt

moglich

39

APPENDIX

40

VC und Supportvektormaschine

• Eine Funktionsklasse FA ist definiert durch alle linearen Klassifikatoren mit∑M−1

i=1 w2i ≤

A2 implying that C ≤ 1/A. In diesem Fall kann die VC-Dimension kleiner als M

sein; es gilt: je großer der Margin C umso kleiner die VC-Dimension

• Dies bedeutet, dass gegeben N das Modell ausgewahlt wird, welches mit maximalem

Margin die Kostenfunktion minimiert (da diese auch die Funktion ist wo der Abstand

zwischen Train und Test in der Regel maximal ist in der betrachteten Funktionsklasse

minimal ist)

• Man berechnet den bound und wahlt die Funktionsklasse (mit dem spezifischen A),

fur welches die Summe aus bound und Fehler minimal ist

• Da keine guten bounds existieren verwendet man Cross-Validierung zur Einstellung

von A

41

MDL: Modellannahmen

• Eine (typische) Codelange fur ein typisches Muster y in einem optimalen Code ist

− log2 P (y) (Shannon)

• Wir wollen die Zielwerte der Trainingsdaten {yi}Ni=1 ubertragen

• Naiver Ansatz: wir ubertragen die Daten, die eine mittlere Codelange − log2 P (y)

besitzen

• Modellansatz:

– Sender und Empfanger kennen beide die Eingangsdaten und die priori Verteilung

und die funktionelle Form der Likelihood; Ziel ist die effizienteste Ubertragung der

Daten y.

– Wir trainieren ein Modell und erhalten den Parametervektor w

– Wir ubertragen zunachst w mit erwarteter Codelange − log2 P (w) und dann

die Daten mit erwarteter Codelange −P (y|w)

42

– Die gesamte erwartete Codelange (description length) ist somit

− logP (w)− logP (D|w)

welche typischerweise geringe ist als − log2 P (y)

• Nach dem MDL (minimum descriprion length Modell) Prinzip ist das Modell optimal,

fur welches MDL minimal ist

• Die DL kann angenahert werden zu (siehe Appendix)

E(DL) ≈ − logL(w)− logP (w) ≈ − logL(w) +M

2logN

• Hier wird Rissanen’s MDL Kriterium equivalent zur Bayes’schen Modellauswahl, d.h.

approximativ zu BIC.

• MDL hat eine langere Entwicklung hinter sich, die diese kurze Diskussion nur un-

zureichend wiederspiegelt. Fur eine weitergehende Diskussion: www.gruenwald.nl: A

tutorial introduction to the MDL principle.

MDL: Bezug zur Informationstheorie

• Ziel ist die (wiederholte) Ubertragung der Werte einer Zufallsvariablen x mit Verteilung

P (x)

• Shannon’s Theorem (Source Coding Theorem) sagt aus, dass die mittlere Codelange

(description length, DL) eines Codes großer oder gleich der Entropie ist

E(DL) ≥ −∑x

P (x) log2 P (x)

DL = Lange des binaren Codes

• Ein optimaler Code wurde die Gleichheit erfullen (Shannon Limit) und wurde dem

Wert x die Lange − log2 P (x) zuordnen

• Dies bedeutet, dass haufigere Muster einen kurzeren Code erhalten sollten

• Eine (typische) Codelange fur ein typisches Muster x ist − log2 P (x)

43

MDL: Modellannahmen

• Wir wollen die Zielwerte der Trainingsdaten {yi}Ni=1 ubertragen

• Sender und Empfanger kennen beide die Eingangsdaten und die funktionelle Form von

a priori Verteilung und Likelihood; Ziel ist die effizienteste Ubertragung der Daten y.

• Wir ubertragen erst den Parametervektor w mit P (w)

• ... und dann die Ausgange mit P (y|w,X,M)

• Wir gewinnen, da P (y) ohne Regressionsmodell eine sehr viel kleinere Wahrschein-

lichkeitsdichte besitzt wie mit Regressionsmodell und P (y|w,X,M)

44

Rissanen’s Minimum Description Length (Modellselektion)

• Betrachten wir nun ein Modell M mit a priori Parameter Verteilungen P (w) und

Likelihoods P (D|w)

• Angenommen, dass der Parameter Schatzer w und die Likelihood P (D|w) typischen

Werten entsprechen, so ist die typische Codelange gleich

− logP (w)− logP (D|w)

Dies bedeutet, dass man fur die effizienteste Ubertragung das Modell wahlen sollte,

fur das diese Summe minimal ist

45

MDL und BIC

• Eine genauere Analyse berucksichtigt, dass eine ungenaue Kodierung von w aquivalent

zu zusatzlichem Rauschen auf der Zielgroße ist

• Man kann argumentieren, dass der Parametervektor w in jeder Dimension nur mit√N Bins pro Dimension ubertragen werden muss. Dies bedeutet, dass bei mehr

Daten man mit einer besseren Kodierung der Parameter gewinnt. Unter der Annahme

von Uniformitat ist der Komplexitatsterm

logP (w) → log(1/√

N)M = −M

2logN

und MDL ist aquivalent zu BIC.

46

Modellvergleich, Modellauswahl und das Einstellen von ... · • AIC ist ¨aquivalent zu Cp f¨ur...

Documents

Transcript of Modellvergleich, Modellauswahl und das Einstellen von ... · • AIC ist ¨aquivalent zu Cp f¨ur...