Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I...

40
Einf¨ uhrung in PGMs Probabilistische Graphische Modelle Sven Wachsmuth Universit¨ at Bielefeld, Technische Fakult¨ at, AG Angewandte Informatik WS 2006/2007 Probabilistische Graphische Modelle 1

Transcript of Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I...

Page 1: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

Probabilistische Graphische Modelle

Sven Wachsmuth

Universitat Bielefeld, Technische Fakultat, AG Angewandte Informatik

WS 2006/2007

Probabilistische Graphische Modelle 1

Page 2: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

Ubersicht uber die Vorlesung

1 Einfuhrung in PGMsUnsicherheitskalkuleWahrscheinlichkeitstheorie

Probabilistische Graphische Modelle 2

Page 3: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Zusammenfassung

I qualification problem → Zusammenfassen vonVorraussetzungen und Konsequenzen anstatt aufzahlen

I Vagheit vs. Unsicherheit

I Extensionale vs. intensionale Modelle

I Ensemble, Zufallsvariable, Wert, Proposition, Wk.

I Verbund-Ensemble, Verbund-Wk., Randverteilung, bed. Wk.

I Produktregel, Summenregel, Bayes Theorem

I Unabhangigkeit, bed. Unabh.

Probabilistische Graphische Modelle 3

Page 4: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Aufgabe:

Drei Gefangene A,B,C sind eines Mordes angeklagt, jedoch nureiner ist schuldig gesprochen. Das Todesurteil soll am nachstenTag verkundet und vollstreckt werden.Mitten in der Nacht ruft Gefangener A, den Wachter, der dasUrteil kennt, jedoch nichts verraten darf. “Bitte, gib’ diesen Briefeinem meiner Freunde B oder C , der am nachsten Tag freigelassenwird.” Der Wachter verspricht dies.Eine Stunde spater fragt A den Wachter: “Kannst du mir sagen,wem du den Brief gegeben hast?” Der Wachter uberlegt und sagtdann, dass er den Brief B gegeben hat.

I A weiss jetzt, dass B freigesprochen wird.I Haben sich die Chancen fur Gefangenen A jetzt

verschlechtert?Probabilistische Graphische Modelle 4

Page 5: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Die Bedeutung von Wahrscheinlichkeiten

Frequentisten:

Cardano (1501-1576), Fermat (1601-1665), Pascal (1623-1662),Huygens (1629-1695), J. Bernoulli (1654-1705), Poisson (1837),Borel (1871-1956), Kolmogorov (1950)

Wk.en sind Frequenzen des Ausgangs von Zufallsexperimenten.Ziel ist die Objektive Beschreibung von Wahrscheinlichkeiten,d.h. es gibt einen korrekten Wert fur P(A).

Probabilistische Graphische Modelle 5

Page 6: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

(1781−1840Siméon Denis PoissonChristiaan Huygens

(1903−1987)(1625−1695)Gitolamo Cardano

(1501−1576)Andrei Nikolaevich Kolmogorov

A.N. Kolmogorov, Foundations of the theory of probability,Chelsea Publishing Company, New York, 1956www.mathematik.com/Kolmogorov/

www.mathematik.de/mde/information/landkarte/gebiete/

wahrscheinlichkeitstheorie/wahrscheinlichkeitstheorie.html

Probabilistische Graphische Modelle 6

Page 7: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Kolmogorov (1933)

1 Es gibt eine komplexe Bedingung C , die eine beliebige Anzahl vonWiederholungen erlaubt.

2 Eine definierte Menge von elementaren Ereignissen E kanneintreten, soweit die Bedingung C erfullt ist.

3 Falls eine Variante eines Ereignisses eingetreten ist, die zur Menge Agehort, dann sagen wir, dass das Ereignis A stattgefunden hat.

4a Bei einer großen Anzahl n von Wiederholungen der komplexenBedingung C konnen wir annehmen, dass das Verhaltnis m

n nur sehrgering von P(A) abweicht, wobei m Anzahl des Auftretens von A.

4b Falls P(A) sehr klein ist, konnen wir praktisch annehmen, dass dasEreignis A bei einer einmaligen Realisierung von C , gar nichtauftritt.

Probabilistische Graphische Modelle 7

Page 8: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Bayesianer:

D. Bernoulli (1700-1782), Bayes (1763), de Finetti (1921, 1937),Savage (1950)

Subjektive Betrachtung von Wahrscheinlichkeiten, Wk.enbeschreiben Annahmen und Inferenzen aus Annahmen(degrees of belief).d.h. Wk.en werden verwendet, um beliefs zu quantisieren:P(A|H), keine Inferenz ohne Annahmen.

Probabilistische Graphische Modelle 8

Page 9: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

(1906−85)Bruno de Finetti Rev. Thomas Bayes

(1917−1971)(1702−1761)Daniel Bernoulli(1700−1782)

Leonard Jimmie Savage

L.J. Savage, Foundations of statistics, Wiley, New York, 1954

Probabilistische Graphische Modelle 9

Page 10: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Die Cox Axiome: Abb. von Beliefs auf Wk.en (1946)

Axiom 1. degrees of belief sind geordnet; falls B(x) > B(y)und B(y) > B(z), dann gilt B(x) > B(z).

Axiom 2. degrees of belief in einer Proposition x und ihrerNegation x stehen in einer Relation f :

B(x) = f [B(x)].

Axiom 3. degrees of belief in einer Konjunktion vonPropositionen x , y (x AND y) stehen in einerRelation g zu denjenigen der bedingten Propositionx |y und y .

B(x , y) = g [B(x |y),B(y)].

Probabilistische Graphische Modelle 10

Page 11: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Abbildung von Beliefs auf Wk.en:

Falls ein Satz von beliefs den Cox-Axiomen genugt, kann dieser aufWahrscheinlichkeiten abgebildet werden mit

I P(FALSE) = 0, P(TRUE) = 1, 0 ≤ P(x) ≤ 1

I P(x) = 1− P(x), wobei x Negation von x .

I P(x , y) = P(x |y) P(y).

Probabilistische Graphische Modelle 11

Page 12: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Abbildung von Beliefs auf Wk.en (Beispiele):

I Die Wk., dass Herr S. der Morder von Frau S. ist, gegeben dieIndizien.

I Die Wk., dass Thomas Jefferson ein gemeinsames Kind miteiner seiner Sklaven hatte.

I Die Wk., dass Shakespeares Stucke von Francis Bacongeschrieben wurden.

I Die Wk., dass eine bestimmte Unterschrift auf einembestimmten Check gefalscht wurde.

Probabilistische Graphische Modelle 12

Page 13: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Beispiel Munzwurf (Frequentisten):

Parametrisierte Bernoulli-Verteilung, AX = {0, 1}

Pθ(x) = θx (1− θ)1−x

Wahle das optimale Modell mit Parameter θ:

Maximum-Likelihood-Schatzer aus Daten D = {d1, . . . , dN}:

θML = arg maxθ

Pθ(d1, d2, . . . , dN) = arg maxθ

∑i

log Pθ(di )

Ergebnis:

Probabilistische Graphische Modelle 13

Page 14: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Beispiel Munzwurf (Frequentisten):

Parametrisierte Bernoulli-Verteilung, AX = {0, 1}

Pθ(x) = θx (1− θ)1−x

Wahle das optimale Modell mit Parameter θ:

Maximum-Likelihood-Schatzer aus Daten D = {d1, . . . , dN}:

θML = arg maxθ

Pθ(d1, d2, . . . , dN) = arg maxθ

∑i

log Pθ(di )

Ergebnis:

θML =

∑i di

N

Probabilistische Graphische Modelle 13

Page 15: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Beispiel Munzwurf (Bayesianer):

bedingte Bernoulli-Verteilung, AX = {0, 1}

P(x |θ) = θx (1− θ)1−x

Inferiere die Verteilung von θ gegeben die DatenD = {d1, . . . , dN}, di ∈ AX :

P(θ|d1, . . . , dN) =

∏i θ

di (1− θ)(1−di )

P(d1, . . . , dN)P(θ)

Wahle P(θ), so dass die obige Gleichung berechnet werden kann:P(θ) = C (α1, α2)θ

α1−1 (1− θ)α2−1 (Beta-Verteilung)

Probabilistische Graphische Modelle 14

Page 16: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Beispiel Munzwurf (Bayesianer):

bedingte Bernoulli-Verteilung, AX = {0, 1}

P(x |θ) = θx (1− θ)1−x

Inferiere die Verteilung von θ gegeben die DatenD = {d1, . . . , dN}, di ∈ AX :

P(θ|d1, . . . , dN) =

∏i θ

di (1− θ)(1−di )

P(d1, . . . , dN)P(θ)

Wahle P(θ), so dass die obige Gleichung berechnet werden kann:P(θ) = C (α1, α2)θ

α1−1 (1− θ)α2−1 (Beta-Verteilung)

Probabilistische Graphische Modelle 14

Page 17: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Die Beta-Verteilung fur unterschiedliche Parameter α1, α2

P(θ) = C (α1, α2)θα1−1 (1− θ)α2−1

0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 10

1

2

3

4

5

6

beta(1,1)beta(0.5,0.5)beta(2,2)beta(10,30)

Probabilistische Graphische Modelle 15

Page 18: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Beispiel Munzwurf (Bayesianer-Fortsetzung):

P(θ|d1, . . . , dN) =

∏i θ

di (1− θ)(1−di )

P(d1, . . . , dN)P(θ)

∝∏i

θdi (1− θ)(1−di ) · θα1−1 (1− θ)α2−1

= (θ)P

i di+α1−1 (1− θ)N−P

i di+α2−1

Wenn die Anzahl der Datenpunkte N groß wird, dominiert dieSumme

∑i di die prior-Terme α1, α2.

Probabilistische Graphische Modelle 16

Page 19: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.2 Grundlagen der Wahrscheinlichkeitstheorie

Beispiel Munzwurf (Bayesianer-Fortsetzung II):

P(θ|d1, . . . , dN) ∝ (θ)P

i di+α1−1 (1− θ)N−P

i di+α2−1

Es gibt mehrere Moglichkeiten sich auf einen Wert festzulegen

θBayes =

∫θ P(θ|x) dθ (Mittelwert)

θMAP = arg maxθ

P(θ|x) (maximum a posteriori)

= arg maxθ

log P(x |θ) + log P(θ) (penalized likelihood)

Probabilistische Graphische Modelle 17

Page 20: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.3 Probabilistische Inferenz

Bayesianer beschreiben Inferenzen durch Wahrscheinlichkeiten

I Forward probabilities

I Inverse probabilities

posterior ∝ likelihood × prior

Frequentisten haben keine Standardmethode, um dieSchlussrichtung umzudrehen, stattdessen

I Betrachtung von verschiedenen Parameter-Schatzern

I z.B. Maximum-Likelihood-Schatzer (ML)

Probabilistische Graphische Modelle 18

Page 21: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.3 Probabilistische Inferenz

Forward probabilities:

Generatives Modell beschreibt den angenommenen Prozess zurErzeugung von Daten.

Die Aufgabe besteht in der Berechnung von Großen, die von denerzeugten Daten abhangen.

Beispiel: Eine Urne enthalt K Balle (B scharze, W = K − Bweiße). Fred zieht einen Ball zufallig aus der Urneund legt ihn dann wieder zuruck (N-mal).

I Was ist P(nB |fB ,N) mit fB = BK ?

I Was ist die Erwartung/Varianz von nB?

Probabilistische Graphische Modelle 19

Page 22: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.3 Probabilistische Inferenz

Inverse probabilities:

Es gibt ebenfalls ein generatives Modell, das den angenommenenProzess beschreibt.

Anstatt eine Verteilung, die von dem Prozess erzeugt wird,berechnen wir eine bedingte Wahrscheinlichkeit einerunbeobachteten Variablen im Prozess gegeben diebeobachteten Variablen.

Beispiel: Es gibt 11 Urnen u ∈ {0, . . . , 10} mit jeweils 10Ballen. Urne u enthalt u schwarze und 10− u weisse.Fred wahlt zufallig eine Urne u und zieht N mal mitzurucklegen. Bill beobachtet nB = 3 schwarze.

I Was ist P(u|nb,N) aus Bills Sicht?

Probabilistische Graphische Modelle 20

Page 23: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.3 Probabilistische Inferenz

Ergebnis der inverse probability (Urnenbeispiel, Bills Sicht):

Verbund-VerteilungP(nb, u|N = 10)

Bedingte VerteilungP(u|nb = 3,N = 10)

Probabilistische Graphische Modelle 21

Page 24: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.3 Probabilistische Inferenz

Inverse probability and prediction:

Gegeben ein generatives Modell, was konnen wir aus bereitsbeobachteten Daten fur ein neues Ereignis schließen?

P(x |d1, . . . , dN) =

∫P(x |θ) P(θ|d1, . . . , dN)dθ

Beispiel (Fortsetzung): Angenommen Bill hat nB = 3 beiN = 10 Ziehungen beobachtet. Was ist dieWahrscheinlichkeit fur schwarz, wenn Fred eineweitere Kugel aus der selben Urne zieht?

Was ware hier der Ansatz der Frequentisten?

Probabilistische Graphische Modelle 22

Page 25: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.3 Probabilistische Inferenz

Inverse probability and prediction:

Gegeben ein generatives Modell, was konnen wir aus bereitsbeobachteten Daten fur ein neues Ereignis schließen?

P(x |d1, . . . , dN) =

∫P(x |θ) P(θ|d1, . . . , dN)dθ

Beispiel (Fortsetzung): Angenommen Bill hat nB = 3 beiN = 10 Ziehungen beobachtet. Was ist dieWahrscheinlichkeit fur schwarz, wenn Fred eineweitere Kugel aus der selben Urne zieht?

Was ware hier der Ansatz der Frequentisten?

Probabilistische Graphische Modelle 22

Page 26: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Es gibt 3 verschiedene Klassen von Problemen

I Dichteschatzung

I Regression

I Klassifikation

Literatur: Michael Jordan, An Introduction to ProbabilisticGraphical Models, Skript, University of California, Berkeley, 2002,Kap. 5.

Probabilistische Graphische Modelle 23

Page 27: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Dichteschatzung:

Gegeben ist eine Menge von beobachteten Daten einerZufallsvariablen X (i.A. vektorwertig).

Ermittle ein Modell der Dichte PX .

Praktische Problemstellungen:

I Fehler-Detektion

I Ausreißer-Detektion

I Clustering

Probabilistische Graphische Modelle 24

Page 28: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Univariate Gauß’sche Dichtefunktion

p(x |θ) =1

(2πσ2)1/2exp{− 1

2σ2(x − µ)2}, θ ≡ (µ, σ2)

ML-Schatzungen der Parameter aus Daten D = {d1, . . . , dN}:I µML = 1

N

∑i di

I σ2ML = 1

N

∑i (di − µML)

2

Bayes’sche Inferenz der Parameter-Verteilungen:

I prior: p(µ) = 1(2πτ2)1/2 exp{− 1

2τ2 (µ− µ0)2}

I posterior: p(µ|D) = 1(2πσ2)1/2 exp{− 1

2σ2 (µ− µ)2},

wobei µ = N/σ2

N/σ2+1/τ2 d + 1/τ2

N/σ2+1/τ2 µ0 σ2 = ( Nσ2 + 1

τ2 )−1

Probabilistische Graphische Modelle 25

Page 29: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Univariate Gauß’sche Dichtefunktion

p(x |θ) =1

(2πσ2)1/2exp{− 1

2σ2(x − µ)2}, θ ≡ (µ, σ2)

ML-Schatzungen der Parameter aus Daten D = {d1, . . . , dN}:I µML = 1

N

∑i di

I σ2ML = 1

N

∑i (di − µML)

2

Bayes’sche Inferenz der Parameter-Verteilungen:

I prior: p(µ) = 1(2πτ2)1/2 exp{− 1

2τ2 (µ− µ0)2}

I posterior: p(µ|D) = 1(2πσ2)1/2 exp{− 1

2σ2 (µ− µ)2},

wobei µ = N/σ2

N/σ2+1/τ2 d + 1/τ2

N/σ2+1/τ2 µ0 σ2 = ( Nσ2 + 1

τ2 )−1

Probabilistische Graphische Modelle 25

Page 30: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Diskrete Verteilungen

Vektorreprasentation: x ∈ AX = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}

p(x |θ) = θx11 θx2

2 . . . θxMM (Multinomial-Verteilung)

ML-Schatzung der Parameter aus Daten D = {d1, . . . , dN}:I θk,ML = 1

N

∑i (dk)i

Bayes’sche Inferenz der Parameter-Verteilungen:

I prior:p(θ) = C (α) θα1−1

1 θα2−12 . . . θαM−1

M (Dirichlet-Verteilung)

I posterior: p(θ|D) ∝ θP

i (d1)i+α1−11 . . . θ

Pi (dM)i+αM−1

M

Probabilistische Graphische Modelle 26

Page 31: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Diskrete Verteilungen

Vektorreprasentation: x ∈ AX = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}

p(x |θ) = θx11 θx2

2 . . . θxMM (Multinomial-Verteilung)

ML-Schatzung der Parameter aus Daten D = {d1, . . . , dN}:I θk,ML = 1

N

∑i (dk)i

Bayes’sche Inferenz der Parameter-Verteilungen:

I prior:p(θ) = C (α) θα1−1

1 θα2−12 . . . θαM−1

M (Dirichlet-Verteilung)

I posterior: p(θ|D) ∝ θP

i (d1)i+α1−11 . . . θ

Pi (dM)i+αM−1

M

Probabilistische Graphische Modelle 26

Page 32: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Mischverteilungen

Latente Variable Z : z ∈ AZ = {(1, 0, 0), (0, 1, 0), (0, 0, 1)}

P(x |θ) =∑k

P(x , zk = 1|θ) =∑k

αk fk(x |θk)

wobei αk ≡ P(zk = 1) und fk(x |θk) ≡ P(x |zk = 1)

Schatzung der Parameter aus Daten D = {d1, . . . , dN |di ∈ AX}I keine geschlossene Losung zur Parameterschatzung moglich

I Anwendung des Expectation Maximization (EM) Algorithmus

Probabilistische Graphische Modelle 27

Page 33: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Nicht-parametrische Dichteschatzung

Kernel-Dichteschatzung der darunter liegenden Dichte P(x):

P(x) =1

N

N∑i=1

k(x , xi , λ)

wobei λ ein Glattungsparameter

Es sind eigene Methoden zur nicht-parametrischenDichteschatzung erforderlich.

I Unterschied zur Mischverteilung: Anzahl der Kernel steigt mitder Anzahl der Datenpunkte.

Probabilistische Graphische Modelle 28

Page 34: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Regression:

Modellierung der Abhangigkeit einer Ausgabe-Variablen Y voneiner Eingabevariablen X . Dieser Zusammenhang wird durch einebedingte Wahrscheinlichkeit P(y |x) erfasst.

I Das Modell wird aus einer Menge von Beobachtungen{(xi , yi ); i = 1 . . .N} geschatzt.

I Dabei wird P(x) meistens nicht modelliert.

Probabilistische Graphische Modelle 29

Page 35: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Lineares Regressionsmodell:

yi = βT xi + εi

wobei β ein Parametervektor und εi der Wert einer Zufallsvariablenmit Erwartungswert 0.

Haufige Annahme, dass Yi Normalverteilt:

P(yi |xi , θ) =1

(2πσ2)exp{− 1

2σ2(yi − βT xi )

2}

I Die Schatzung der Parameter erfolgt uber einen ML-Ansatz,

I Bayes’sche Inferenz der Parameterverteilungen moglich,

I Das Modell ist verallgemeinerbar mit yi = βTφ(xi ) + εi .

Probabilistische Graphische Modelle 30

Page 36: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMs

1.4 Statistische Problemstellungen

Klassifikation:

Ebenfalls die Modellierung der Abhangigkeit zweier Variablen X(Merkmalsvektor) und Q (Klassenname), wobei AQ eine diskrete,finite Menge ist.

Es gibt zwei grundsatzliche Ansatze:

I Generativ: Es wird p(x |q) geschatzt (→ Dichteschatzung),

I Diskriminitiv: Es wird p(q|x) geschatzt (→ Regression)

Probabilistische Graphische Modelle 31

Page 37: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMsUnsicherheitskalkuleWahrscheinlichkeitstheorie

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Bayes’sche Netzwerke (BN)

Die Verbundwahrscheinlichkeit uber eine VariablenmengeX = {X1,X2, . . . ,Xn} wird auf der Basis der Produkt- oderKettenregel faktorisiert:

P(x1, x2, . . . , xn) =P(x1|x2, . . . , xn) P(x2|x3, . . . , xn) . . .

. . .P(xn−1|xn)P(xn)

I d.h. es wird eine Ordnung auf den Variablen angenommen(aus unterschiedlichen Ordnungen resultieren unterschiedlicheBN’s).

I Uber Annahmen einer bed. Unabh. zwischen Variablen,konnen die Variablen in der Bedingung eingeschrankt werden

Probabilistische Graphische Modelle 32

Page 38: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMsUnsicherheitskalkuleWahrscheinlichkeitstheorie

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Bed. Unabhangigkeit in BNs

In BNs werden bedingte Unabhangigkeiten H uber sogenannteEltern (parents) definiert:

P(x1, x2, . . . , xn|H) ≡n∏

i=1

P(xi |xπi )

wobei πi ⊂ {Xi+1, . . . ,Xn} Eltern von xi .

I Uber die Eltern-Kind-Beziehung definiert sich der zugehorigegerichtete Graph.

Probabilistische Graphische Modelle 33

Page 39: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMsUnsicherheitskalkuleWahrscheinlichkeitstheorie

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Def. (diskretes) Bayes’sches Netzwerk (BN) (I)

Ein BN besteht aus:

I Einer Menge von Variablen (Knoten) und einer Menge vongerichteten Kanten zwischen Variablen.

I Jede Variable hat eine endliche Mange von sich gegenseitigausschließenden Zustanden.

I Die Variablen bilden zusammen mit den gerichteten Kanteneinen gerichteten azyklischen Graphen (directed acyclic graph- DAG).D.h. Es existiert kein gerichteter Pfad mit

X1 → · · · → Xk , so dass X1 = Xk

I . . .

Probabilistische Graphische Modelle 34

Page 40: Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Einfuhrung in PGMsUnsicherheitskalkuleWahrscheinlichkeitstheorie

2.1 Varianten von PGMs: Bayes’sche Netzwerke

Def. (diskretes) Bayes’sches Netzwerk (BN) (II)

Ein BN besteht aus (Fortsetzung):

I Jeder Variablen Xi mit Eltern πi ist eine Tabelle vonbedingten Wahrscheinlichkeiten zugeordnet:

P(Xi |Xπi ) ≡p(x

(1)i |x (1)

πi ) . . . p(x(1)i |x (L)

πi ). . . . . .

p(x(K)i |x (1)

πi ) . . . p(x(K)i |x (L)

πi )

Probabilistische Graphische Modelle 35