Bayessches Lernen (3) - cs.uni-potsdam.de · Sawade/Landwehr/Scheffer Maschinelles Lernen...

Universität PotsdamInstitut für Informatik

Lehrstuhl Maschinelles Lernen

Bayessches Lernen (3)Christoph Sawade/Niels Landwehr

Jules RasetaharisonTobias Scheffer

ade/Landwehr/S

cheffer Maschinelles Lernen

Überblick

Wahrscheinlichkeiten, Erwartungswerte, Varianz

Grundkonzepte des Bayesschen Lernens

(Bayessche) Parameterschätzung für Wahrscheinlichkeitsverteilungen

Bayessche Lineare Regression, Naive Bayes

ade/Landwehr/S

Überblick

Bayessche Lineare Regression

Modellbasiertes Klassifikationslernen: Naive Bayes

ade/Landwehr/S

Wiederholung: Regression Regressionsproblem:

Trainingsdaten

Matrixschreibweise

Problemstellung Vorhersage: Gegeben L, neues Testbeispiel x Finde optimale Vorhersage y für x

),(),...,,( 11 NN yyL xx= Merkmalsvektorenm

i ∈x

reelles Zielattributiy ∈

( )11 1

Merkmalsvektoren Zugehörige Labels (Werte Zielattribut)

ade/Landwehr/S

Wiederholung: Lineare Regression Modellraum lineare Regression:

Lineare Abhängigkeit von von Parametern w Lineare Abhängigkeit von von Eingaben x

( ) Tf =w x w x

w w x=

= +∑0 1x =Zusätzliches konstantes Attribut

w „Parametervektor“, „Gewichtsvektor“

( )fw x( )fw x

ade/Landwehr/S

Bayessche Regression: Daten

Modellvorstellung beim Bayesschen Lernen: Prozess der Datengenerierung „Echtes“ Modell wird aus Prior-Verteilung

gezogen Merkmalsvektoren werden unabhängig

voneinander gezogen (nicht modelliert) Für jedes wird das Label gezogen nach

Verteilung (Anschauung: ) Daten L fertig generiert

Wie sieht für Regressionsprobleme aus?

*f ( )P w

1,..., Nx x

ix iy*( | , )i iP y fx

*( | , )i iP y fx

*( )i iy f≈ x

ade/Landwehr/S

Annahme, dass es „echtes“ Modell gibt, dass die Daten perfekt erklärt, unrealistisch Daten folgen nie genau

einer Regressions-Geraden/Ebene

Alternative Annahme: Daten folgen bis auf kleine, zufällige Abweichungen (Rauschen)

T* *( )f =x x w

*( )f x

ade/Landwehr/S

Alternative Annahme: Daten folgen bis auf kleine, zufällige Abweichungen (Rauschen)

Modellvorstellung: Zielattribut y generiert aus plus

normalverteiltes Rauschen

*( )f x

~ ( | 0, )ε ε σ 2*( )y f ε= +x mit

*( )f x

* 0( )f x

*( )f x

20 * * 0( | , ) ( | ( ), )P y x f y f x σ=

Parameter σ modelliertStärke des Rauschens

ade/Landwehr/S

Bayessche Regression: Vorhersageverteilung

Ziel: Bayessche Vorhersage

Erinnerung: Berechnung mit Bayesian Model Averaging

( | , ) ( | , ( | )P y L P y P L dθ θ θ= )∫x x

Vorhersage, gegeben Modell

Modell gegeben Trainingsdaten

* arg max ( | , )yy P y L= x

1( | ) ( | ) ( )P L P L PZ

θ θ θ=

Likelihood:Trainingsdatengegeben Modell

Prior über Modelle

ade/Landwehr/S

Bayessche Regression: Likelihood

Likelihood der Daten L:

1( | , ) ( ,..., | , )NP X P y y X=y w wBeispiele unabhängig

Nachrechnen: Multidimensionale Normalverteilung mit Kovarianzmatrix

1( | , )N

i iiP y

==∏ x w

( | , )N Ti ii

=∏ x w

( )T| ,X σ 2= y w I

1 0 ... 00 1 ... 0... ... ... ...0 0 ... 1

Einheitsmatrix

Vektor der Vorhersagen1

( ) iT

if =w x x w

ade/Landwehr/S

Bayessche Regression: Prior

Bayessches Lernen: Prior über Modelle f Modelle parametrisiert durch Gewichtsvektor w Prior über Gewichtsvektoren

Normalverteilung ist konjugiert zu sich selbst, normalverteilter Prior und normalverteilte Likelihood

ergeben wieder normalverteilten Posterior, bei fester Varianz

Deshalb

~ ( | 0, )pΣw w

pΣ Kovarianzmatrix, oft 2p pσΣ = I

„erwarten kleine Attributgewichte, |w|2 klein“

2 steuert Stärke des Priorspσ ∈

ade/Landwehr/S

Bayessche Regression: Posterior

Posterior-Verteilung über Modelle gegeben Daten

Posterior ist wieder normalverteilt, mit neuem Mittelwert und Kovarianzmatrix

1( | ) ( | ) ( )P L P L PZ

=w w w

1mit A Xσ −2 −=w y TpA XXσ −2 −1= + Σ

T1 ( | , ) ( | 0, )pX IZ

σ 2= ⋅ Σy w w

Bayessche Regel

1( | , )A−= w wOhne Beweis

w 1A−

ade/Landwehr/S

Posterior:

MAP-Hypothese: ?MAP =w

1( | ) ( | , )p L A−=w w w

ade/Landwehr/S

Posterior:

MAP-Hypothese:

1( | ) ( | , )p L A−=w w w

MAP =w w1A Xσ −2 −= y

ade/Landwehr/S

Sequentielles Update des Posteriors Berechnung des Posterior als sequentielles Update:

Aufmultiplizieren der Likelihood einzelner Instanzen

Sei , der Posterior, wenn wir nur die ersten n Instanzen in L verwenden:

( | ) ( ) ( | )P L P P L∝w w w

1( ) ( | , )N

i iiP P y

== ∏w x w

0 ( ) ( )P P=w w ( )nP w

2 3( | ) ( ) ( | , ) ( | , ) ( | , ) .. ( | ,. )

P L P P y P y P y P y∝ ⋅ ⋅w

w w x w x w x w wx

„Likelihood für einzelnan Prior multiplizieren“

iyInstanzen unabhängig

ade/Landwehr/S

Sequentielles Update des Posteriors Sequentielles Update:

Datenpunkte nacheinander anschauen Neue Informationen (Datenpunkte) verändern Stück für

Stück die Verteilung über w

ade/Landwehr/S

Beispiel Bayessche Regression

0 ( ) ( )P P=w wSequentielles Update:

0 ( ) ( )P P=w w 0Sample aus ( )P w

0 1 ( )f x w w x= + (eindimensionale Regression)

ade/Landwehr/S

1 0 1 1( ) ( ) ( | , )P P P y x∝w w wSequentielles Update:

1( )P wSample aus

1( )P w

0 1( )f x w w x= +

1 1Likelihood ( | , )P y x w

Datenpunkt 1 1,x y

1 1( )y f x ε= +

0 1 1w w x ε= + +

0 1 1 1w w x y ε⇒ = − + −

(eindimensionale Regression)

ade/Landwehr/S

1Posterior ( )P w 1Sample aus ( )P w

0 1( )f x w w x= + (eindimensionale Regression)

1 1Likelihood ( | , )P y x w

ade/Landwehr/S

2 ( )P w 2Sample aus ( )P w

0 1( )f x w w x= +

2 2( | , )P y x w

ade/Landwehr/S

1( ) ( ) ( | , )N N N NP P P y x−∝w w wSequentielles Update:

( )NP w Sample aus ( )NP w

0 1( )f x w w x= +

( | , )N NP y x w

ade/Landwehr/S

Bayes-Hypothese: wahrscheinlichstes y.

Erinnerung: Berechnung mit Bayesian Model Averaging

Bayessche Vorhersage: Mitteln der Vorhersage über alle Modelle. Gewichtung: wie wahrscheinlich ist Modell a

posteriori.

( | , ) ( | , ( | )P y L P y P L dθ θ θ= )∫x x

Vorhersage, gegeben Modell

Modell gegeben TrainingsdatenBayesian Model

Averaging

* arg max ( | , )yy P y L= x

ade/Landwehr/S

Vorhersageverteilung wieder normalverteilt:

Optimale Vorhersage: Eingabevektor wird mit multipliziert:

*Ty = x w

( | , ) ( | , ) ( | )P y L P y P L d= ∫x x w w w

1mit A Xσ −2 −=w y TpA XXσ −2 −1= + Σ

( )1| ,T Ty A−= x w x x

2 1( | , ) ( | , )Ty A dσ −= ∫ x w w w w Ohne Beweis

ade/Landwehr/S

Bayessche Regression liefert nicht nur Regressionsfunktion sondern Dichte von yund damit auch einen Konfidenzkorridor.

( ) Tf =x x w

( )1| ,T Ty A−x w x x

z.B. 95% Konfidenz

ade/Landwehr/S

Nichtlineare Basisfunktionen

Einschränkung der bisherigen Modelle: nur lineare Abhängigkeiten zwischen x und f(x).

In vielen Fällen nützlich: nicht-lineare Abhängigkeit Grössere Klasse von Funktionen repräsentierbar

Lineare Daten Nicht-lineare Daten

ade/Landwehr/S

Einfachster Weg: Lineare Regression auf nichtlinearen Basisfunktionen Idee: Nicht auf den ursprünglichen x arbeiten,

sondern auf nichtlinearer Transformation Einfach: Inferenz für Lernen, Vorhersage im Prinzip

unverändert Basisfunktionen

1,..., :d Xφ φ → Instanzenraum (meist )mX X =

( )( )

( )...

: m dφ →

meistens d m

( )φ x

ade/Landwehr/S

Lineare Regression in den Basisfunktionen

Anschauung: Abbildung in höherdimensionalenRaum , lineare Regression dort

( ) ( )d

f w wφ=

= +∑x x

( )Tφ= w x

( )Xφ

f(x) ist lineare Kombination von Basisfunktionen

ade/Landwehr/S

Nichtlineare Basisfunktionen: Beispiel

Beispiel

Nichtlineare Funktion in X darstellbar als lineare Funktion in

2( ) 1 3f x x x= − + φ

1( )x xφ =

( )Xφ

22 ( )x xφ =X =

0 1 1 2 2( ) ( ) ( )f x w w x w xφ φ= + +

ade/Landwehr/S

Beispiele für nicht-lineare Basisfunktionen Polynome

( ) jj x xφ =

ade/Landwehr/S

Beispiele für nicht-lineare Basisfunktionen Gauss-Kurven

( )( ) exp

φ −

1,..., Mittelpunktedµ µ

2s feste Varianz

ade/Landwehr/S

Beispiele für nicht-lineare Basisfunktionen Sigmoide

( ) jj

φ σ−

1( )1 exp( )

σ =+ −

1,..., Mittelpunktedµ µ

s feste Skalierung

ade/Landwehr/S

Regression mit Basisfunktionen Funktion bildet m-dimensionalen Eingabevektor x auf

d-dimensionalen Merkmalsvektor ab.

Regressionsmodell:

Optimale Vorhersage wie bisher, mit statt x.

T( ) ( )f φ=x x w

( )1( | , ) | ) , ) )T TP y L y Aφ φ φ−= ( ( (x x w x x

1, und )TpA A Xσ σ φ−2 −1 −2 −= ΦΦ + Σ = Φ Φ = (w y

* arg max ( | , ) )Tyy p y L φ= = (x x w

( )φ x

Transformierte Testinstanz

Transformierte Datenmatrix

ade/Landwehr/S

Beispiel Regression mit Nichtlinearen Basisfunktionen

Beispiel für Regression mit nicht-linearen Basisfunktionen Generiere N=25 nicht-lineare Datenpunkte durch

9 Gaussche Basisfunktionen

Wie sieht der Posterior und die Vorhersageverteilung aus?

2sin(2 ) ~ ( | 0, ), [0,1]y x xπ ε ε ε σ= + ∈

( )( ) exp

φ −

( | , )P y Lx( | )P Lw

1 90.1,..., 0.9µ µ= =

ade/Landwehr/S

Vorhersageverteilung

sin(2 )y xπ ε= +

( )f x Datenpunkt

ade/Landwehr/S

Samples aus dem Posterior

ade/Landwehr/S

Überblick

Bayessche Lineare Regression

Modellbasiertes Klassifikationslernen: Naive Bayes

ade/Landwehr/S

Bayessche Klassifikation

Optimale Vorhersage von y gegeben neues x: Bayesianmodel averaging

Regression: geschlossene Lösung, Vorhersageverteilung normalverteilt

Klassifikation: keine geschlossene Lösung für Vorhersageverteilung

Zweitbester Ansatz: MAP-Hypothese Manchmal geschlossene Lösung für Posterior (naive

Bayes ja, logistische Regression nein) MAP-Hypothese kann (numerisch) berechnet werden

* arg max ( | , )

arg max ( | , ( | )y

y P y L

P y P L dθ θ θ

= )∫x

ade/Landwehr/S

Klassifikationsprobleme

Trainingsdaten L

Matrixschreibweise für Trainingsdaten L

Lernen: MAP Modell

),(),...,,( 11 NN yyL xx= Merkmalsvektorendiskrete Klassenlabels

( )11 1

Merkmalsvektoren X Zugehörige Klassenlabel y

arg max ( | )arg max ( | (

MAP P LP L P

θ θθ θ

ade/Landwehr/S

Modellbasiertes und DiskriminativesLernen

Likelihood : welcher Teil der Daten L wird modelliert?

Diskriminatives Lernen:

θ wird so gewählt, dass es Werte der Klassenvariable y in den Daten gut modelliert.

Klassifikator soll nur y für jedes x gut vorhersagen. Wozu also gute Modellierung von X berücksichtigen?

Generatives (Modellbasiertes) Lernen:

θ wird so gewählt, dass es Merkmalsvektoren X und Werte der Klassenvariable y in den Daten gut modelliert

arg max ( ) ( | ,MAP P P Xθθ θ θ= )y

( |P L θ )

arg max ( ) ( , |MAP P P Xθθ θ θ= )y

Diskriminative Likelihood

Generative Likelihood

ade/Landwehr/S

Modellbasiert: Naive Bayes

Naive Bayes: Modellbasierte Klassifikation

Likelihood der Daten L: N unabhängige Instanzen mit Klassenlabels

1 1( | ) ( ,..., , ,..., | )N NP L P y yθ θ= x x

1( , |N

i iiP y θ

== )∏ x

arg max ( ) ( , |MAP P P Xθθ θ θ= )y

ade/Landwehr/S

Wie modellieren wir ? Gemeinsame Verteilung (Produktregel)

Wie modellieren wir ?

hochdimensional, 2m verschiedene Werte (xi binär)

„Naive“ Unabhängigkeitsannahme41

( , |P y θ )x

( , | ( | ) ( | , )P y P y P yθ θ θ) =x x

Klassenwahrscheinlichkeit: z.B. P(spam) vs P(nicht spam)

x-Verteilung gegeben Klasse:z.B. Wortverteilung in Spam-Emails

( | ,P y θ )x

ade/Landwehr/S

Für (Attribute), (Klassen):

Naive Bayes: Unabhängigkeitsannahme Bedingte Unabhängigkeitsannahme:

Annahme: zwei Klassen, binäre Attribute Modellierte Verteilungen (Modellparameter):

( | , ) ( | , )m

p y P x yθ θ=

=∏x „Attribute unabhängig gegeben die Klasse y“

( | )P y θ Bernoulli, mit Parameter ( 1| )y P yθ θ= =

( | , )iP x y c θ= Bernoulli, mit Parameter | ( 1| , )ix ciP x y cθ θ= = =

{1,..., }i m∈ {0,1}c∈

ade/Landwehr/S

Naive Bayes: Likelihood

Likelihood der Daten L mit bisherigen Annahmen:

,1( | ) ( |N

j jjP L P yθ θ

== )∏ x

= Klassenlabel j-te Instanzjy = Wert i-tes Merkmal j-te Instanzjix

1 1( | ( | , i jN m x yy

j ji jj iP y P x yθ θ

= == ) )∏ ∏

Unabhängigkeit Instanzen

Bedingte Unabhängigkeit Attribute, „zuständige“ Modellparameter

1( | ( | , )N

j j jjP y P yθ θ

== )∏ x Produktregel

( ) |0 |11

1... 1...0 1

( | ( | , ( | ,i i

N m mx xyj ji j ji jj i i

j N j Ny y

p y P x y P x yθ θ θ= =1 =1

= == =

= ) ) )

∏ ∏ ∏ ∏ ∏

Label-Likelihood Merkmals-Likelihood negative Instanzen

Merkmals-Likelihood positive Instanzen

ade/Landwehr/S

Naive Bayes: Posterior Prior-Verteilung: unabhängig für einzelne Parameter

Posterior: unabhängige Blöcke der Form „Prior x Münzwurf-Likelihood“

( ) ( )|0 |1( ) ( ( (i im mx xyi i

P P P Pθ θ θ θ=1 =1

= ) ) )∏ ∏

( ) |0 |01

1( | ) ( ( | ( ( | ,

( ( | ,

N m x xyj ji jj i

m x xji ji

p L P p y P P x yZ

P P x y

θ θ θ θ θ

= =1==

= ) ) ) ) ) )

∏ ∏ ∏

∏ ∏Münzwurf

Münzwurf

Label-Prior

Merkmals-Priornegative Instanzen

Merkmals-Priorpositive Instanzen

ade/Landwehr/S

Naive Bayes: Posterior Konjugierter Prior Beta-Verteilung

Konjugierter Prior: Posterior-Verteilung in jedem Block wieder Beta-Verteilt

A-posteriori Verteilung Naive Bayes: Standard Lösung für Münzwurfszenario

Für (Attribute), (Klassen):0 1( ) ~ ( | , )y yP Betaθ θ α α

| || |( ) ~ ( | , )i i

x c x cx c x cP Betaθ θ α α | ( 1| , )ix c

iP x y cθ θ= = =

{1,..., }i m∈ {0,1}c∈

ade/Landwehr/S

A-posteriori Verteilung für Parameter :

Beta-PriorMünzwurf Likelihood

Beta-verteilter Posterior

1( | ) ( ( |my y yjj

P L P P yZ

θ θ θ=

= ) )∏

( | )yP Lθ

10 0 1 1

: Anzahl Beispiele mit Klasse 0 in 1 mit : Anzahl Beispiele mit Klasse 1 in 2

N LNN LN N

αθα α

+ −=

+ + + −

0 0 11( , )yBeta N Nθ α α= | + +

ade/Landwehr/S

A-posteriori Verteilung für Parameter :

1Beta-Prior

Münzwurf Likelihood

Beta-verteilter Posterior

1( | ) ( ( | ,i i i

Nx c x c x c

ji jjy c

P L P P x yZ

θ θ θ==

= ) )∏

|( )ix cP θ

: Anzahl Beispiele mit und Klasse c in mit

: Anzahl Beispiele mit und Klasse n

0 c ii

Für (Attribute), (Klassen):{1,..., }i m∈ {0,1}c∈

|| | | |( , )i

i i i i

x cx c x c x c x cBeta N Nθ α α= | + +

| | | |

i i i i

x c x cx cMAP

x c x c x c x c

α α+ −

=+ + + −

ade/Landwehr/S

Naive Bayes: Lernalgorithmus Eingabe: Schätze Klassenverteilung:

Für Klassen y=0 und y=1, für alle Attribute i, schätze:

Alle Modellparameter gelernt!

1 1( , ),..., ( , )N NL y y= x x

00 0 1 1

: Anzahl Beispiele mit Klasse 1 in 1 mit : Anzahl Beispiele mit Klasse 0 in 2

N LNN LN N

αθα α

+ −=

+ + + −

| | | |

: Anzahl Beispiele mit 1 und Klasse in mit

: Anzahl Beispiele mit 0 und Klasse in

i i i i

x y x yx yMAP

x y x y x y x y

N x y L

α α+ −

=+ + + −

ade/Landwehr/S

Naive Bayes: Klassifikation

Eingabe:

Rückgabe:

Laufzeit beim Klassifizieren:

Laufzeit beim Lernen:

* arg max ( | , )y MAPy P y θ= x

Klassenverteilung Produkt der Attributverteilungen,gegeben Klasse

arg max ( | ) ( | , )im x yy

y MAP i MAPiP y P x yθ θ

== ∏

(| | )O Y m Anzahl Attribute, | | 2 m Y= =

( | | )O N Y m Anzahl TrainingsinstanzenN =

ade/Landwehr/S

Naive Bayes: Beispiel

Trainingsdaten:

Prior: alle Parameter α in den Beta-Verteilungen setzen wir auf α=2 (Pseudocounts: α-1=1)

Gelernte Parameter/Hypothese?

: Schufa pos. : Student : Rückzahlung ok?Instanz 1 1 1Instanz 1 0 1Instanz 0 1 0

x x yxxx

ade/Landwehr/S

Gelernte Parameter/Hypothese Merkmalsverteilungen

Klassenverteilung

0 ?1 ?

1( | 0)P x y =1x0 ?1 ?

1( | 1)P x y =1x

0 ?1 ?

2( | 0)P x y =2x0 ?1 ?

2( | 1)P x y =2x

0 ?1 ?

( )P yy

( | )iP x y

( )P y

ade/Landwehr/S

Gelernte Parameter/Hypothese Merkmalsverteilungen

Klassenprior

0 2/31 1/3

1( | 0)P x y =1x0 1/41 3/4

1( | 1)P x y =1x

0 1/31 2/3

2( | 0)P x y =2x0 2/41 2/4

2( | 1)P x y =2x

0 2/51 3/5

( )P yy

( | )iP x y

( )P y

ade/Landwehr/S

Testanfrage:

Vorhersage:

(Schufa pos 0,Student 0)= = =x

1 2( 0) ( | 0) ( 0) ( 0 | 0) ( 0 | 0)

2 2 1 4 5 3 3 45

P y P y P y P x y P x y= = = = = = = =

= ⋅ ⋅ =

*4 3 045 40

y> ⇒ =

1 2( 1) ( | 1) ( 1) ( 0 | 1) ( 0 | 1)

3 1 2 3 5 4 4 40

P y P y P y P x y P x y= = = = = = = =

= ⋅ ⋅ =

* arg max ( | , )y MAPy P y θ= x1

arg max ( | ) ( | , )m

y MAP MAPi

iP y P x yθ θ=

ade/Landwehr/S

Naive Bayes: Mehrwertige Attribute

Parameter:

Prior: Dirichlet statt Beta.

Schätzen der Parameter:

| für alle Werte von x , alle Klassen i jx v yMAP i jv yθ =

'| '|'

mit : Anzahl Beispiele mit Wert für Attribut und Klasse in

i j i ji j

i j i j

x v y x v yx v yMAP

x v y x v yv

x v y i j

N v x y L

α= ==

ade/Landwehr/S

Naive Bayes: Eigenschaften

Einfach zu implementieren, effizient, populär. Funktioniert ok, wenn die Attribute wirklich

unabhängig sind. Das ist aber häufig nicht der Fall. Unabhängigkeitsannahme und modellbasiertes

Training führen häufig zu schlechten Ergebnissen. Logistische Regression, Winnow, Perzeptron sind

meist besser.

Bayessches Lernen (3) - cs.uni-potsdam.de · Sawade/Landwehr/Scheffer Maschinelles Lernen...

Documents

Transcript of Bayessches Lernen (3) - cs.uni-potsdam.de · Sawade/Landwehr/Scheffer Maschinelles Lernen...

Generalisierte Lineare Modelle - STAT · Median) der logyi ein multiplikatives Modell fur¨ die Mediane und Erwartungswerte der yi ist. Fur¨ die Erwartungswerte von y i wurde der

Bayessches Lernen (II)

Maschinelles Lernen und Data Mining · Interpretation: Inneres Produkt aus Benutzergeschmack und Objekteigenschaften . 37 . Landwehr/Sawade/Scheffer, Maschinelles Lernen II. Latente

Lineare Klassifikatoren IV - cs.uni-potsdam.de · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Lineare Klassifikatoren IV Christoph Sawade, Blaine Nelson,

Maschinelle Sprachverarbeitung: Wortartenerkennung (Part ... · Scheffer/Sawade: Sprachtechnologie Scheffer/Haider/ Prasse: Sprachtechnologie 3 Maschinelle Übersetzung Gegeben Text

Einführung: Bayessches Lernen - KIThis.anthropomatik.kit.edu/users/loesch/LaborWissRepr-DHBW-KA-201… · EM-Algorithmus: Anwendungsdefinition • Gegeben: – Instanzen aus generiert

3. Martingale 3.1. Bedingte Erwartungswerte

Stochastische Modelle - Ruhr University Bochum€¦ · KAPITEL 1 Bedingte Erwartungswerte Bisher haben wir ausf uhrlic h Eigenschaften unabh angiger Zufallsgr oˇen un-tersucht. Wir

Maschinelles Lernen II PCA - uni-potsdam.de › ml › teaching › ss13 › ml2 › PCA.pdf · Lehrstuhl Maschinelles Lernen Maschinelles Lernen II PCA Christoph Sawade/Niels Landwehr/Blaine

GM3 dritter termin was dran kam - cs.uni-potsdam.de · Universität Potsdam Institut für Informatik Lehrstuhl Maschinelles Lernen Graphische Modelle Christoph Sawade/Niels Landwehr/Tobias

Reinforcement Learning 2 - Universität Potsdam · Batch Reinforcement Learning: Es muss von einer fixen Menge von Beispielepisoden gelernt werden. Scheffer/Sawade/Dick, Maschinelles

STATISTISCHE LERNMETHODEN Bayessches Lernen MAP Maximum Likelihood Hauptquelle: Artificial Intelligence: A Modern Approach Stuart J. Russel, Peter Norvig.

Weiterführende Information Hochwasser - hora.gv.at · HORA_Hochwasser_Weiterführende-Informationen_v4 2 wahrscheinlichste Wert gewählt. Deshalb können sich die Erwartungswerte

Wahrscheinlichkeitsrechnung und Statistik fur Biologen¨ 7 ...evol.bio.lmu.de/_statgen/StatBiol/11SS/intervallschaetzer_slides.pdf · 1 Konﬁdenzintervalle fur Erwartungswerte¨

Angewandte Statistik (f ur HRG) - math.uni-paderborn.de · Induktive Statistik: Wahrscheinlichkeiten, Zufallsvariablen, Erwartungswerte, Ver- teilungen, statistisches Sch atzen von

Stochastische Simulation in der Lebensversicherungreinhold.kainhofer.com/Papers/Kainhofer_Talk_StochSimulationLVM... · MC f ur Erwartungswerte Simulation von Verteilungen Risikoanalyse