Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain...

28
Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference „brute force“ Lernen einer binomialen Variable Lernen einer multinomialen Variable Beispiel Lernen eines Netzwerks Lernen der einzelnen CPT Bayesche Netzwerke

Transcript of Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain...

Page 1: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Thomas Bayes Theorie

joint probability, DAG aus Markovian Parentsconditional independence, explain away, d-SeparationInference „brute force“Lernen einer binomialen VariableLernen einer multinomialen VariableBeispiel Lernen eines NetzwerksLernen der einzelnen CPT

Bayesche Netzwerke

Page 2: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Bayesche Denkweise

Thomas Bayes 1702-17611764 p.m. veröffentlichtRoyal Society of London

unbeeinsprucht bis George Bool 1854 „Laws of Thought“

Page 3: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Bayesche DenkweiseBayesche Denkweise

Thomas Bayes 1702-1761Subjektive WahrscheinlichkeitBackground ξa priori: p(e|ξ) a posteriori: p(e|D, ξ)

)|(

),|()|(),|(

Dp

eDpepDep

Page 4: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

research by

David Heckerman Microsoft Research, Lernen in BN

Judea Pearl University of California, Theorie von Kausalität u.a.

Spiegelhalter University of Cambridge, Biostatistic, Klinische

Studien

Page 5: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Beispiel seasons (Pearl, Russel 2000)

implementiert in Netica 4.09www.norsys.com

Bayesian Networks are directed acyclic graphs (DAG). The causal connections are direct represent-ations of the real world.

Page 6: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Beispiel seasons

Sprinkler prob. wet (prediction)

slippery prob. wet (abduction)

wet prob. sprinkler or rain (abduction)

no link from Season to slippery

Page 7: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Beispiel seasons

Sprinkler Rain | Season

Page 8: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Kausalität

rauchen

Krebs

statistical knowlege is not causal knowlege

Judea Pearl: „correlation does not imply causation“

Kopfweh

Wetterumschwung

Page 9: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Conditional Independence

A

C

B A

C

B A

C

B

Page 10: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

joint probability

X={X1,X2, ... , Xn}

2n verschiedene RealisierungenMöglicherweise 10.000nde Variablenjoint probability ist O(exp(n))!!conditional probability tables in BN sind nur O(nk)!!

),,,,()( 54321 xxxxxpxp

63 verschiedene Werte

Page 11: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Markovian Parents

),,,|(),,|(),|()|()(

),,,,(

432153214213121

54321

xxxxxpxxxxpxxxpxxpxp

xxxxxp

Use product rule to decompose joint probability into product of conditional probabilities. Order is important!!

Page 12: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Markovian Parents

)|(),|()|()|()()( 4532413121 xxpxxxpxxpxxpxpxp

)|(),,,|(

),|(),,|(

)|(),|(

)|(

)(

,,,, :Order

4543215

3243214

13213

12

1

54321

xxpxxxxxp

xxxpxxxxp

xxpxxxp

xxp

xp

xxxxx

Page 13: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Markovian Parents

)|(),|()|()|()()( 4532413121 xxpxxxpxxpxxpxpxp

3 + 4 + 4 + 4 + 2 = 17 verschiedene Werte

)|(),,,|(

),|(),,|(

)|(),|(

)|(

)(

,,,, :Order

4543215

3243214

13213

12

1

54321

xxpxxxxxp

xxxpxxxxp

xxpxxxp

xxp

xp

xxxxx

Page 14: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Markovian Parents

und PAi sind minimal

PAi sind markovian parents von Xi, wenn gilt:

ii

i

jji PAPAXX

\1

1

i

iin paxpxxp ,,1 daraus folgt:

Page 15: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

d-separation (Pearl 1988)

AC

B A

CB A

C

B

Pfad blockiert, Information kann nicht passieren (AB)

A B

AC

B A

CB A

C

B

Pfad frei, Information propagiert (AB)

A B

}{}{}{ CBA

Page 16: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Beispiel explaining away

p(M|I) > p(M|S,I)

Sportlich Musikalisch |

Sportlich

Internat

Musikalisch

ASportlich Musikalisch | Internat)

Aufnahmekriterium des Internats: sportliche Leistung oder musikalische Begabung

Page 17: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

explaning away

A

C

B

Diese Art des Schließens ist in regelbasierten Systemen oderneuronalen Netzen sehr schwer zu modellieren,in Bayeschen Netzen aber selbstverständlich.

Page 18: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Inference, evaluation

gegeben sind einige Faktengesucht ist die Wahrscheinlickeit von einer gewissen Konfiguration

? yesslipperyonsprinklerp

?53 yesXonXp

Page 19: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Inference, evaluation

Berechnung durch cond.prob.

4321

421

4321

421

,,, 4532413121

,, 4532413121

,,, 5321

,, 5321

5

5353

,

,

,,,

,,,

,

xxxx

xxx

xxxx

xxx

xtrueXpxxxpxxpxxpxp

xtrueXponXxxpxonXpxxpxp

trueXxxxp

trueXonXxxp

yesXp

yesXonXpyesXonXp

Page 20: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Inference, evaluation

im allgemeinen NP-hart (Cooper,1987)in realistischen Netzen ist exakte Lösung ebenfalls NP-hartlineare Lösung nur für polytrees „singly connected networks“

Page 21: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Applications

speech recognition Thiesson, Meek, Chickering, Heckerman 98

causal discoveryLernen von Strukturen, s. Heckerman 95

expert systemsMicrosoft Printer-Troubleshooter, Office Wizards

preference prediction Microsoft Commerce Server 4.0

Page 22: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Lernen, einfachstes Netz

nur ein Knoten in Graphz.B. Werfen eines Reißnagels

X X kann die Wertehead oder tail annehmen

nach n Versuchen soll der n+1ste vorhergesagt werden

Page 23: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Lernen als Bayesches Netz

mit jedem Wurf steigt mein Wissenleider steigen auch die Abhängigkeiten

A

X1

X2

X6

X5

X3 X4

hidden variable einführen

Page 24: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

BN mit Hyperparameter

Bayesches Netz mit einer hidden variable

A priori Annahmen:Würfe sind unabhängig,Eigenschaften des Nagels bleiben unverändert mit der Zeit,All möglichen Werte für θ gelten als gleich wahrscheinlich.

X2 X3 X4 X5 X6X1

A

Page 25: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

a priori Hypothese

Strukturwissen und ParameterschätzungenExpertenwissen fließt einKausale Zusammenhänge sind „logisch“Assessment liefert gute ErgebnisseStruktur von ExpertenCPT durch Lernen aus Datenbank

.

Page 26: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Lernen, Hypothese

Page 27: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Lernen mit conjugate prior

ththDp 1,,

Dp

DppDp

,,

th

th

thth

fc

pc

DppcDp

1

1

,, ,,

11

, 1Beta

th

th

th

thfp

th

th

th

thth th

th

th

thDp

,11

, Beta1,

a priori:

Page 28: Thomas Bayes Theorie joint probability, DAG aus Markovian Parents conditional independence, explain away, d- Separation Inference brute force Lernen einer.

Lernen, Ergebnis

Marginalisierung über die Wahrscheinlichkeitsverteilungentspricht hier dem Erwartungswert

th

h

Dp

DpDheadXpDheadXp

th

h

th

th

ththth

th

,

,

,,,

BetaEE

d,

d,,,,