Modellvergleich, Modellauswahl und das Einstellen von ... · • AIC ist ¨aquivalent zu Cp f¨ur...
Transcript of Modellvergleich, Modellauswahl und das Einstellen von ... · • AIC ist ¨aquivalent zu Cp f¨ur...
Modellvergleich, Modellauswahl unddas Einstellen von Hyperparametern
und Bestrafungstermen
Volker Tresp
1
Empirischer Modellvergleich
3
Testfehler (Generalisierungsfehler)
• Gegeben zwei Modellansatze M1 und M2, so wollen wir nachweisen, dass M1 bessere
Performanz besitzt als M2
• Beispiel: M1 bezeichnet ein Neuronales Netz und M2 ist lineare Regression
• Wie schon mehrfach erwahnt, ist hierzu der Vergleich der Performanz auf den Trai-
ningsdaten nicht verlasslich
• Von Interesse ist der erwartete Generalisierungsfehler, das heißt die Performanz auf
neuen Daten
• Sei L[y, f(x, M1)] eine Verlustfunktion (z.B. quadratischer Fehler, Klassifikations-
fehler), dann ist von Interesse
EP (x,y)L[y, f(x, Mi)]
Empirische Approximation des Testfehlers
• Um diesen Ausdruck zu approximieren teilt man den vorhandenen Datensatz auf in
einen Trainingsdatensatz und einen Generalisierungsdatensatz (Validierungssatz)
• Die Modelle werden nur auf den Trainingsdaten trainiert
• Ein erwartungstreuer Schatzer des Generalisierungsfehlers ist
EP (x,y)L[y, f(x, Mi)] ≈
Jtest(Mi) =1
|TEST |
∑i∈TEST
L[yi, f(xi, Mi)]
also einfach der mittlere Fehler auf den Testdaten
4
Kreuzvalidierung
• Der Testfehler ist erwartungstreu, jedoch besitzt er oft erhebliche Varianz
• Daher ist der Modellansatz mit dem besseren Testfehler nicht notwendigerweise das
bessere Verfahren
• Ein sichereres Verfahren ist die K-fache Kreuzvalidierung; typische Zahlen sind K = 5
oder K = 10
• Die Daten werden in K gleichgroße Gruppen partitioniert
• Fur j = 1, . . . , K: Die j−te Menge ist der Testdatensatz und die ubrigen Datensatze
agieren als Trainingsdaten
5
Kreuzvalidierung (2)
• So erhalt man fur jeden Modellansatz i nicht nur einen sondern K Testfehler Jtest(Mi, j)
• Man kann nun den mittleren Testfehler berechnen als
meani =1
K
K∑j=1
Jtest(Mi, j)
• Die Varianz des mittleren Testfehlers kann geschatzte werden zu
vari =1
K(K − 1)
K∑j=1
(Jtest(Mi, j)−meani)2
• Man wurde Modellansatz Mi als besser als Mj einstufen, wenn sich die Standardab-
weichungen nicht uberlappen, das heisst, falls
meani +√
vari < meanj −√
varj
6
Gepaarte Tests
• Wenn man sehr wenige Daten hat, ist die Kreuzvalidierung manchmal nicht scharf
genug
• Die Grundidee: nehmen wir an K = 10; wenn nun M1 in neun der zehn Tests besser
abschneidet als M2, dann spricht dies stark fur M1
• Man berechnet die mittlere Differenz der Verfahren
MeanDiffi,j =1
K
K∑k=1
Jtest(Mi, k)− Jtest(Mj, k)
und analysiert, ob diese Differenz signifikant positiv (oder negativ ist); eine sorgfalti-
gere Anlayse fuhrt zum gepaarten T-Test (paired t-test)
7
Empirische Einstellung derHyperparameter
8
Hyperparameter
• Neben den eigentlichen Parametern, die durch den Lernprozess bestimmt werden, gibt
es auch sogenannte Hyperparameter: typischerweise sind dies die Gewichtungen auf
den Straftermen λ, die Anzahl der versteckten Knoten eines Neuronalen Netzes, . . .
• Bayes’sche Verfahren haben hier einen Vorteil, da Hyperparameter einfach nur weitere
Parameter im Modell darstellen, uber die intergriert werden muss
• Die meisten anderen Verfahren tun sich schwerer mit einer prinzipiellen Bestimmung
der Hyperparameter; eine universelle Losung stellt die empirische Bestimmung dar
9
Hyperparameter(2)
• Die Idee ist eine drei-Einteilung der Daten in Trainings-, Validierungs-, und Testdaten
– Das Modell wird auf den Trainingsdaten mit verschiedenen Werten der Hyperpa-
rameter trainiert
– Es wird das Modell mit den entsprechenden Hyperparametern ausgewahlt, welches
auf den Validierungsdaten die beste Performanz gezeigt hat
– Es wird der Testfehlers dieses optimierten Modells berechnet
• Ahnlich wie bei der Modellauswahl, kann naturlich auch die Bestimmung der Hyper-
parameter uber Kreuzvalidierung erfolgen
10
Lerntheorien und theoretischeAbschatzungen des
Generalisierungsfehlers
11
Uberblick: Statistische Theorien und Lerntheorien
12
Lerntheorien
• Klassische Frequentistische Verfahren
– Cp Statistik
– Akaikes Informationskriterium (AIC)
• Bayes’sche Verfahren
– Striktes Bayes: ich muss mich niemals entscheiden: Mitteln anstatt auswahlen
– Bayes’sche Modellauswahl, Bayesian Information Criterion (BIC)
• Moderne Frequentistische Verfahren
– Minimum Description Length (MDL) Prinzip
– Vapnik-Chervonenkis (VC) Theorie (Statistische Lerntheorie)
• Wir werden evaluieren, wie diese Theorien die Differenz zwischen mittle-rem Trainingsfehler und erwartetem Testfehler abschatzen!
13
Klassische FrequentistischeVerfahren
14
Frequentist Statistik (Fisher)
• Entwickelt primar von Fisher und ebenfalls durch Neyman und Pearson
• Die Theorie wurde vor dem weitverbreiteten Einsatz von Computern entwickelt; folglich
lag die Betonung auf einfachen praktikablen Verfahren
• Eindeutig dominierender Ansatz; wird von der uberwiegenden Anzahl von Statistikern
verwendet
• Wesentlicher Vorteil: Einfachheit in der Handhabung; dadurch weite Verbreitung
• Der Ansatz benotigt keine a priori Verteilung und lasst die Daten fur sich sprechen
• Basis des Ansatzes: Verhalten unter hypothetischer Wiederholung des Experimentes
unter ahnlichen Umstanden: statistical procedures have to be assessed by their per-
formance in hypothetical repetitions under identical conditions
15
Frequentist Statistik (2)
• Vorgehensweise:
– Wahle eine Statistik (d.h. eine sinnvolle Funktion der Daten, z.B. den Mittelwert)
– Leite die Sampling Statistik ab (z.B.: wie verteilt sich der geschatzte Mittelwert
um den wahren Mittelwert)
– Messe die Plausibilitat jedes moglichen Parametervektors
• Betonung liegt auf Parameterschatzung und nicht Prognosegute
• Bei likelihoodbasierten Schatzern: das wahre Modell muss in der betrachteten Menge
von Modellen sein
• Kritik (Bayesianer, Vapnik): Eine Menge von Tricks und ohne zugrundeliegende ge-
schlossene Theorie; funktioniert nur bei Modellen mit wenigen Parametern, die sich
gut schatzen lassen; die Theorie hat wenig zu sagen, wenn nur wenige Trainingsdaten
vorliegen
16
• Frequentistische Ansatzte legen den Schwerpunkt auf Modellselektion und nicht so
sehr auf Regularisierung
Frequentistische Ansatze
• Man vereinfacht das Problem, indem man den erwarteten Generalisierungsfehler nur
an den Eingangspunkten des Trainingssatzes berechnet
• Daraus folgt, dass der abgeschatzte Generalisierungsfehler typischerweise zu klein ist
• Dieser in-sample Generalisierungsfehler lasst sich abschatzen zu
Jin =1
N
N∑i=1
L[yi, f(xi,w)] + Komplexitatsterm
17
Mallows’ Cp Statistik
• Man erhalt fur Modelle, die linear in den Parameterm sind und quadratischem Fehler
als Verlustfunktion
Jin = Cp =1
N
N∑i=1
L[yi, f(xi,w)] + 2M
Nσ2
• M ist die Anzahl der Modellparameter
• Kann zur Auswahl der Eingange benutzen (lineares Modell) oder zur Auswahl relevan-
ter fester Basisfunktionen
• σ2 ist die geschatzte Rauschvarianz
• Jin ist der abgeschatzte Fehler an den Eingangsdaten der Trainingsdaten (in-sample)
(und ist daher oft zu optimistisch)
18
Beispiel: Schatzung des Mittelwertes
• Ansatz
xi = µ + εi
σ2 sei die unbekannte Rauschvarianz
• Schatzung
µ =1
N
N∑i=1
xi
Diese ist erwartungstreu und ergibt sich daraus, dass der Erwartungswert der Summegleich der Summe der Erwartungswerte ist.
• Wie man leicht sieht ist die Varianz der Schatzung
var(µ) =σ2
NDies folgt daraus, dass fur unabhangige Zufallsprozesse die Varianz der Summe gleichder Summe der Varianz der Elemente ist und weil var(ax) = a2var(x), mitkonstantem a.
19
• Die Varianz des geschatzten Parameters ist unkorreliert mit der Rauschvarianz der
neuen Daten
• Deshalb ist der erwartete Testfehler die Summe aus Parametervarianz und Rauschva-
rianz :
Jtest =σ2
N+ σ2 =
N + 1
Nσ2
• Setzen wir eine erwartungstreue Schatzung der Rauscharianz ein
σ2 =1
N − 1
N∑i=1
(xi − µ)2 =N
N − 1Jtrain
mit Jtrain = 1N
∑Ni=1(xi − µ)2
• Damit ist
Jtest =N + 1
N − 1Jtrain
=N − 1 + 2
N − 1Jtrain = Jtrain + 2
1
N − 1Jtrain = Jtrain + 2
σ2
N
• Dieses Ergebnis kann generalisiert werden zu Modellen mit M Parametern und man
erhalt
Jtest =N + M
N −MJtrain
= Jtrain + 2M
Nσ2
• Dies ist identisch zu CP . Beachte, dass der Unterschied zwischen Trainingsfehler
und erwartetem Testfehler proportional ist zur Anzahl freier Parameter und inverse
proportional ist zur Anzahl der Trainingsdaten!
Akaikes Information Criterion (AIC)
• Man erhalt fur Modelle, bei denen die Log-Likelihood
l = logL =N∑
i=1
logP (yi|xi,w)
optimiert wird Akaike’s Information Criterion (minimiere:)
AIC = 2
(−
1
NlogL +
M
N
)• M
N ist eine Schatzung der Differenz zwischen mittlerer Trainings-Loglikelihood undmittlerer Test-Loglikelihood.
• AIC ist aquivalent zu Cp fur Gauss Rauschen mit bekannter Rauschvarianz:
AIC =1
σ2
1
N
N∑i=1
(yi − f(xi,w))2 + 2M
N=
1
σ2CP
20
•
−AIC/2 =1
NlogL−
M
N
schatzt die mittlere Loglikelihood von neuen Daten ab, deren Eingangswerte mit den
Trainingsdaten ubereinstimmen (in-sample)
AIC fur Likelihood Kostenfunktion und fur 1/0 Kostenfunktion
21
Misspezifizierte Modelle
• Der Likelihood-Ansatz (und ebenso der Bayes’sche Ansatz) nimmt an, dass sich das
wahre Modell in der Klasse der betrachteten befindet
• Man kann jedoch zeigen, dass im Fall der Misspezifikation der ML-Ansatz definierte
und sinnvolle Ergebnisse liefert
• Betrachten wir als Abstand zwischen wahrer Verteilung P (x) und approximitiver
Verteilung Pθ(x) mit Parametern θ den sogenannten Kullback-Leibler Abstand (KL-
Divergenz)
KL(P‖Pθ) =
∫P (x) log
P (x)
Pθ(x)dx
• Der Kullback-Leibler Abstand ist gleich Null, wenn beide Verteilungen gleich sind
und ist ansonsten großser Null. Beachte, dass der KL-Abstand unsymmetrisch ist:
KL(P‖Pθ) 6= KL(Pθ‖P )
22
• Approximiert man die wahre unbekannte Verteilung durch die Samples, erhalt man die
negative Loglikelihood
KL(P‖Pθ) ≈ −1
N
N∑i=1
logPθ(xi)
• Man kann nun zeigen, dass unter schwachen Regularitatsbedingungen ein Modell,
welches die Loglikelihood maximiert asymptotisch zu Parametern konvergiert, so dass
der Abstand zwischen wahren und approximativem Modell im Sinne der KL-Divergenz
minimal ist
• Dies bedeutet, dass auch wenn die wahre Verteilung nicht in der Klasse der betrach-
teten Modelle ist, der ML-Ansatz sinnvolle Ergebnisse liefert!
Varianten der frequentistischen Statistik
• Fiducial (Bezugs) Inference, Pivotal Inference, Structural Inference: Versuche, Para-
meterwahrscheinlichkeiten abzuleiten, ohne die Bayes’sche Theorie anzuwenden
• Regularisierung: Stein Schatzer, Ridge Regression, ...
• Robuste Statistik (Huber)
23
Varianten der frequentistischen Statistik: AlgorithmischeAnsatze
• Breiman, Hastie, Friedman, Huber, ...
• Nicht Suche nach den besten Parameterm steht im Vordergrund, sonder nach dem
System, welches die besten Prognosen liefert
• Techniken: Kreuzvalidierung
• Analyse eher frequentistisch (Bias - Variance)
• Pragmatischer Ansatz
• Wahres Modell ist nicht der Fokus der Analyse
24
Bayes’sche Ansatze
25
Bayes’scher Ansatz
• Axiomatisches Fundament: Entscheidungen unter Unsicherheit
• Wissenschaftlich komplettes Modell
• Man sollte ehrlich seine Annahmen explizit machen, und basierend auf diesen dann
Entscheidungen treffen
• Parameter und Variable werden gleichberechtigt als Zufallsvariable behandelt; streng
genommen gibt es nur das Problem der Inferenz (und nicht der Parameterschatzung)
• Prognose im Vordergrund, nicht Parameterschatzung
• Bayes’sche Ansatze neigen wesentlich weniger zum Uberanpassen
• Nachteile
– Inferenz fuhrt zu komplexen Integralen, die numerisch approximiert werden (MCMC,
Markov Chain Monte Carlo)
26
– Die aufwendige Maschinerie bringt einen vom eigentlichen Problem weg (explora-
tive Analyse)
– Das wahre Modell muss im Satz der betrachteten Modelle sein (Vapnik: einziges
aber schwerwiegendes Problem)
Bayes’scher Ansatz: Varianten
• Subjektiver Bayes: Konsequente Einziehung von Vorwissen
• Objektiver Bayes: Definition von a priori Verteilungen, so dass die a prior Annahme
moglichst wenig Einfluss auf das Ergebnis hat
– Uninformative Prior (Jeffrey)
– Maximum Entropie Ansatz
• Empirial Bayes: Schatzung von Hyperparametern
– Evidence Framework (Type II Likelihood): Modellauswahl nach P (D|M)
27
Bayes’sche Modellauswahl
• Wenn ich denn doch ein Modell auswahlen muss ...
• A posteriori Modellwahrscheinlichkeit
P (M|D) ∝ P (M)P (D|M)
• Typischerweise nimmt man an, dass alle Modelle gleich-wahrscheinlich sind (a priori)
• Somit ist der entscheidende Term (marginal likelihood, evidence)
P (D|M) =
∫P (w|M)P (D|w)dw
28
Laplace Approximation der Marginal Likelihood
• logP (D|M) wird asymptotisch gaussformig, allerdings ist das Integral nicht zu Eins
normiert;
• Man behalt nun nur die Terme, die von N abhangen. Dann erhalt man
logP (D|M) ≈ logP (D|wMAP ,M)−M
2logN
• Ubungsaufgabe: leiten Sie diese Approximation her
29
Bayesian Information Criterion (BIC)
• BIC ist 2 Mal diesem Ausdruck (man ersetzt die MAP Parameterschatzung durch die
ML-Parameterschatzung) (minimiere)
BIC = −2 logL + M logN
und die mittlere vorhergesagte Loglikelihood
−1
2NBIC =
1
NlogL−
M
N
1
2logN
Vergleiche
−AIC/2 =1
NlogL−
M
N
• MN
12 logN ist eine Schatzung der Differenz zwischen mittlerer Trainings-Loglikelihood
und mittlerer Test-Loglikelihood.
• Die BIC Korrektur ist um den Faktor 12 logN großer und verringert sich langsamer
mit (logN)/N mit der Anzahl der Trainigsdaten
30
Moderne Frequentistische Verfahren
31
Minimum Description Length
• Basierend auf dem Konzept der algorithmischen Komplexitat (Kolmogorov, Solomo-
noff, Chaitin)
• Auf Basis dieser Ideen: Rissanen (und Wallace, Boulton) fuhrten das Prinzip der mi-
nimum description length (MDL) ein
• Unter einigen Vereinfachungen wird das MDL Kriterion identisch zum BIC Kriterion
(siehe Appendix)
32
Statistical Learning Theory
• Start: Kolmogorov, Glivenko, Cantelli
• Der Vater der SLT: Vladimir Vapnik
• Ziel: Gegeben eine Menge von Funktionen, die nicht die wahre Funktion enthalten
mussen, wahle die optimale Funktion aus
• Forderung der Konsistenz: Asymptotisch soll die beste Funktion ausgewahlt werden
• Im Zentrum steht hier wieder die Differenz zwischen Trainingsfehler Remp(f) und
Testfehler R(f). Im Gegensatz zu vorher steht hier jedoch nicht die Differenz zwi-
schen Trainingsfehler und erwartetem Testfehler im Vordergrund, sondern die Theorie
fokussiert auf die Berechnung einer oberen Schranke zwischen Trainingsfehler und
Testfehler!
33
STL (2)
• Worst Case Analysis (MinMax) (one-sided uniform convergence)
limN→∞
P
(maxf∈F
|R(f)−Remp(f)| > ε
)= 0, ∀ε > 0
(die gilt fur alle f : A ≤ R(f) ≤ B mit beliebigen Schranken A, B)
• Vapnik argumentiert, dass nur eine Worst-Case-Analyse zu konsistenten nicht-trivialen
Resultaten fuhrt
• Nachteile: die berechneten Schranken sind in der Praxis zu konservativ und entsprechen
nicht dem tatsachlichen Generalisierungsfehler
34
Vapnik-Chervonenkis (VC-) Theorie (Statistical LearningTheory)
• Die VC-Theorie ist verteilungsfrei, das heißt sie macht keine Annahmen uber eine
zugrundeliegende Verteilung; speziell muss sie auch nicht annehmen, dass die wahre
Verteilung sich in der Klasse der betrachteten Verteilungen befindet
• Die einzige wesentliche Annahme: Daten werden von einer festen Verteilung P (x)
generiert
• Zielgroßen werden von h(x) generiert (im einfachsten Fall und hier ohne Rauschen
und binar)
• Man versuche h(x) mit f(x) zu approximieren. f(x) sei ein Mitglied einer Klasse
von Funktionen F (x).
35
VC-Theorie (2)
• Die mittlere Generalisierungsperformanz (Risiko) ist
R(f) =
∫P (x)l(h(x), f(x))dx
wobei l(a, b) = 0, falls a = b ist und 1 anderenfalls
• Sei
Remp(f) =1
N
N∑i=1
l(h(xi), f(xi))
das empirische Risiko
36
VC-Theorie (3)
• Wie ist im schlimmsten Fall, d.h. fur die ungunstigste Funktion f ∈ F und fur
die ungunstigste Verteilung der Trainingsdaten der Unterschied zwischen R(f) und
Remp(f) fur N Datenpunkte? D.h. wie ist,:
maxf
|R(f)−Remp(f)|
• Vapnik hat gezeigt, dass unabhangig vom speziellen h und den speziellen Trainings-
daten gilt:
P (maxf∈F
|R(f)−Remp(f)| > ε) ≤ bound = 4∆(2N) exp(−ε2N/8)
37
VC-Dimension
P (maxf∈F
|R(f)−Remp(f)| > ε) ≤ 4∆(2N) exp(−ε2N/8)
• ∆(N) (growth function) ist eine obere Schranke fur die maximale Anzahl der ver-
schiedenen binaren Funktionen, die F (x) auf (mindestens einer Menge von) N Daten
implementieren kann
• ∆(N) wachst entweder asymptotisch wie 2N fur alle N oder ist nach oben begrenzt
durch NdV C +1, wobei dV C die (beruhmte) VC-Dimension von F (x) ist; im ersten
Fall ist dV C unendlich und das Lernsystem erlaubt keine Generalisierung (aus Hertz,
Krogh, Palmer: Introduction to the theory of neural computation)
• Die VC-Dimension einer Funktionenklasse F ist die großte Anzahl von Datenpunkten
(in mindestens einer Anordnung), die von Mitgliedern von F ge-shattered werden
konnen
• Fur einen linearen Klassifikator ist dV C = M , d.h. gleich der Anzahl der freien
Parameter (Anzahl der Eingangsvariablen plus 1)
38
• Shattered: Egal wie ich Zielwerte den Datenpunkten zuordne, ein Mitglied der Klasse
kann es korrekt Klassifizieren (fur mindestens eine Anordnung der Eingangsvektoren)
• Prinzip der Structural Risk Minimization (SRM): wahle die Modellklasse, fur welches
Remp(f) + bound
minimal ist
Vapnik-Chervonenkis (VC-) Theorie: Vorteile und Nachteile
• Vorteil: es muss nur angenommen werden, dass P (x) fest ist; weder eine prior Ver-
teilung noch eine Likelihood Funktion muss definiert werden
• Nachteile: Die VC-Dimension lasst sich fur viele interessante Klassen von Funktionen
nicht berechnen; nur weniger gute oder schlechte Grenzen sind verfugbar
• Als worst-case Theorie ist die Ubertragbarkeit auf den average case nur begrenzt
moglich
39
APPENDIX
40
VC und Supportvektormaschine
• Eine Funktionsklasse FA ist definiert durch alle linearen Klassifikatoren mit∑M−1
i=1 w2i ≤
A2 implying that C ≤ 1/A. In diesem Fall kann die VC-Dimension kleiner als M
sein; es gilt: je großer der Margin C umso kleiner die VC-Dimension
• Dies bedeutet, dass gegeben N das Modell ausgewahlt wird, welches mit maximalem
Margin die Kostenfunktion minimiert (da diese auch die Funktion ist wo der Abstand
zwischen Train und Test in der Regel maximal ist in der betrachteten Funktionsklasse
minimal ist)
• Man berechnet den bound und wahlt die Funktionsklasse (mit dem spezifischen A),
fur welches die Summe aus bound und Fehler minimal ist
• Da keine guten bounds existieren verwendet man Cross-Validierung zur Einstellung
von A
41
MDL: Modellannahmen
• Eine (typische) Codelange fur ein typisches Muster y in einem optimalen Code ist
− log2 P (y) (Shannon)
• Wir wollen die Zielwerte der Trainingsdaten {yi}Ni=1 ubertragen
• Naiver Ansatz: wir ubertragen die Daten, die eine mittlere Codelange − log2 P (y)
besitzen
• Modellansatz:
– Sender und Empfanger kennen beide die Eingangsdaten und die priori Verteilung
und die funktionelle Form der Likelihood; Ziel ist die effizienteste Ubertragung der
Daten y.
– Wir trainieren ein Modell und erhalten den Parametervektor w
– Wir ubertragen zunachst w mit erwarteter Codelange − log2 P (w) und dann
die Daten mit erwarteter Codelange −P (y|w)
42
– Die gesamte erwartete Codelange (description length) ist somit
− logP (w)− logP (D|w)
welche typischerweise geringe ist als − log2 P (y)
• Nach dem MDL (minimum descriprion length Modell) Prinzip ist das Modell optimal,
fur welches MDL minimal ist
• Die DL kann angenahert werden zu (siehe Appendix)
E(DL) ≈ − logL(w)− logP (w) ≈ − logL(w) +M
2logN
• Hier wird Rissanen’s MDL Kriterium equivalent zur Bayes’schen Modellauswahl, d.h.
approximativ zu BIC.
• MDL hat eine langere Entwicklung hinter sich, die diese kurze Diskussion nur un-
zureichend wiederspiegelt. Fur eine weitergehende Diskussion: www.gruenwald.nl: A
tutorial introduction to the MDL principle.
MDL: Bezug zur Informationstheorie
• Ziel ist die (wiederholte) Ubertragung der Werte einer Zufallsvariablen x mit Verteilung
P (x)
• Shannon’s Theorem (Source Coding Theorem) sagt aus, dass die mittlere Codelange
(description length, DL) eines Codes großer oder gleich der Entropie ist
E(DL) ≥ −∑x
P (x) log2 P (x)
DL = Lange des binaren Codes
• Ein optimaler Code wurde die Gleichheit erfullen (Shannon Limit) und wurde dem
Wert x die Lange − log2 P (x) zuordnen
• Dies bedeutet, dass haufigere Muster einen kurzeren Code erhalten sollten
• Eine (typische) Codelange fur ein typisches Muster x ist − log2 P (x)
43
MDL: Modellannahmen
• Wir wollen die Zielwerte der Trainingsdaten {yi}Ni=1 ubertragen
• Sender und Empfanger kennen beide die Eingangsdaten und die funktionelle Form von
a priori Verteilung und Likelihood; Ziel ist die effizienteste Ubertragung der Daten y.
• Wir ubertragen erst den Parametervektor w mit P (w)
• ... und dann die Ausgange mit P (y|w,X,M)
• Wir gewinnen, da P (y) ohne Regressionsmodell eine sehr viel kleinere Wahrschein-
lichkeitsdichte besitzt wie mit Regressionsmodell und P (y|w,X,M)
44
Rissanen’s Minimum Description Length (Modellselektion)
• Betrachten wir nun ein Modell M mit a priori Parameter Verteilungen P (w) und
Likelihoods P (D|w)
• Angenommen, dass der Parameter Schatzer w und die Likelihood P (D|w) typischen
Werten entsprechen, so ist die typische Codelange gleich
− logP (w)− logP (D|w)
Dies bedeutet, dass man fur die effizienteste Ubertragung das Modell wahlen sollte,
fur das diese Summe minimal ist
45
MDL und BIC
• Eine genauere Analyse berucksichtigt, dass eine ungenaue Kodierung von w aquivalent
zu zusatzlichem Rauschen auf der Zielgroße ist
• Man kann argumentieren, dass der Parametervektor w in jeder Dimension nur mit√N Bins pro Dimension ubertragen werden muss. Dies bedeutet, dass bei mehr
Daten man mit einer besseren Kodierung der Parameter gewinnt. Unter der Annahme
von Uniformitat ist der Komplexitatsterm
logP (w) → log(1/√
N)M = −M
2logN
und MDL ist aquivalent zu BIC.
46