Wahrscheinlichkeitsrechnung und Statistik für Biologen...

181
Wahrscheinlichkeitsrechnung und Statistik f ¨ ur Biologen Frequentistische und Bayessche Statistik Dirk Metzler & Martin Hutzenthaler http://evol.bio.lmu.de/_statgen 8. Juni 2009

Transcript of Wahrscheinlichkeitsrechnung und Statistik für Biologen...

Page 1: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Wahrscheinlichkeitsrechnung undStatistik fur Biologen

Frequentistische und BayesscheStatistik

Dirk Metzler & Martin Hutzenthaler

http://evol.bio.lmu.de/_statgen

8. Juni 2009

Page 2: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 3: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 4: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 5: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

In der letzten Woche ging es um ein Konfidenzintervall fur denMannchenanteil p beim Porzellankrebs, ausgehend von einerStichprobe vom Umfang n = 53 mit K = 30 Mannchen.

Allgemein: Fur eine binomialverteilte Anzahl K mit bekannterGesamtzahl n soll ein 95%-Konfidenzintervall fur denWahrscheinlichkeitsparamneter p angegeben werden.Beobachtet wird ein Wert k fur K .

Zur Erinnerung:

Pr(K = k) =

(nk

)· pk · (1− p)n−k

EK = n · pvar(k) = n · p · (1− p)

Page 6: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

In der letzten Woche ging es um ein Konfidenzintervall fur denMannchenanteil p beim Porzellankrebs, ausgehend von einerStichprobe vom Umfang n = 53 mit K = 30 Mannchen.

Allgemein: Fur eine binomialverteilte Anzahl K mit bekannterGesamtzahl n soll ein 95%-Konfidenzintervall fur denWahrscheinlichkeitsparamneter p angegeben werden.Beobachtet wird ein Wert k fur K .

Zur Erinnerung:

Pr(K = k) =

(nk

)· pk · (1− p)n−k

EK = n · pvar(k) = n · p · (1− p)

Page 7: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

In der letzten Woche ging es um ein Konfidenzintervall fur denMannchenanteil p beim Porzellankrebs, ausgehend von einerStichprobe vom Umfang n = 53 mit K = 30 Mannchen.

Allgemein: Fur eine binomialverteilte Anzahl K mit bekannterGesamtzahl n soll ein 95%-Konfidenzintervall fur denWahrscheinlichkeitsparamneter p angegeben werden.Beobachtet wird ein Wert k fur K .

Zur Erinnerung:

Pr(K = k) =

(nk

)· pk · (1− p)n−k

EK = n · pvar(k) = n · p · (1− p)

Page 8: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

In der letzten Woche ging es um ein Konfidenzintervall fur denMannchenanteil p beim Porzellankrebs, ausgehend von einerStichprobe vom Umfang n = 53 mit K = 30 Mannchen.

Allgemein: Fur eine binomialverteilte Anzahl K mit bekannterGesamtzahl n soll ein 95%-Konfidenzintervall fur denWahrscheinlichkeitsparamneter p angegeben werden.Beobachtet wird ein Wert k fur K .

Zur Erinnerung:

Pr(K = k) =

(nk

)· pk · (1− p)n−k

EK = n · p

var(k) = n · p · (1− p)

Page 9: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

In der letzten Woche ging es um ein Konfidenzintervall fur denMannchenanteil p beim Porzellankrebs, ausgehend von einerStichprobe vom Umfang n = 53 mit K = 30 Mannchen.

Allgemein: Fur eine binomialverteilte Anzahl K mit bekannterGesamtzahl n soll ein 95%-Konfidenzintervall fur denWahrscheinlichkeitsparamneter p angegeben werden.Beobachtet wird ein Wert k fur K .

Zur Erinnerung:

Pr(K = k) =

(nk

)· pk · (1− p)n−k

EK = n · pvar(k) = n · p · (1− p)

Page 10: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

In der vorherigen Vorlesung wurde das folgende studentisierteKonfidenzintervall vorgeschlagen:p − t ·

√p · (1− p)

n − 1, p + t ·

√p · (1− p)

n − 1

Dabei ist p = k/n und t ist das 97.5%-Quantil derStudent-t-Verteilung mit n − 1 Freiheitsgraden.

In der einfuhrenden Literatur wird in der Regel das einfachereWald-Konfidenzintervall vorgestellt:[

p − 1.96 ·√

p · (1− p)/n , p + 1.96 ·√

p · (1− p)/n]

Page 11: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

In der vorherigen Vorlesung wurde das folgende studentisierteKonfidenzintervall vorgeschlagen:p − t ·

√p · (1− p)

n − 1, p + t ·

√p · (1− p)

n − 1

Dabei ist p = k/n und t ist das 97.5%-Quantil derStudent-t-Verteilung mit n − 1 Freiheitsgraden.In der einfuhrenden Literatur wird in der Regel das einfachereWald-Konfidenzintervall vorgestellt:[

p − 1.96 ·√

p · (1− p)/n , p + 1.96 ·√

p · (1− p)/n]

Page 12: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Folgende Uberlegungen fuhren auf das Wald-Konfidenzintervall:

var(p) = var(K/n) = var(K )/n2

= n · p · (1− p)/n2 ≈ p · (1− p)/n

Wir approximieren die Verteilung von p durch eineNormalverteilung mit Mittelwert µ = p und σ2 = p · (1− p)/n.

Der Abstand einer normalverteilten Zufallsvariablen zu ihremMittelwert ist in 95% der Falle kleiner als 1.96 · σ.

Page 13: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Folgende Uberlegungen fuhren auf das Wald-Konfidenzintervall:

var(p) = var(K/n) = var(K )/n2

= n · p · (1− p)/n2 ≈ p · (1− p)/n

Wir approximieren die Verteilung von p durch eineNormalverteilung mit Mittelwert µ = p und σ2 = p · (1− p)/n.

Der Abstand einer normalverteilten Zufallsvariablen zu ihremMittelwert ist in 95% der Falle kleiner als 1.96 · σ.

Page 14: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Folgende Uberlegungen fuhren auf das Wald-Konfidenzintervall:

var(p) = var(K/n) = var(K )/n2

= n · p · (1− p)/n2 ≈ p · (1− p)/n

Wir approximieren die Verteilung von p durch eineNormalverteilung mit Mittelwert µ = p und σ2 = p · (1− p)/n.

Der Abstand einer normalverteilten Zufallsvariablen zu ihremMittelwert ist in 95% der Falle kleiner als 1.96 · σ.

Page 15: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Ob man fur den Parameter p der Binomialverteilungstudentisierte (d.h. auf der t-Verteilung beruhende)Konfidenzintervalle verwenden sollte, ist von der Theorie hernicht so klar.

Einerseits kann man argumentieren, dass die Binomialverteilungdurch die Normalverteilung approximiert wird, und beiKonfidenzintervallen fur den Mittelwert der Normalverteilung mitunbekannter Varianz ist Studentisieren angebracht.

Andererseits ist bei der Binomialverteilung durch die Schatzungp der Mittelwert auf np und die Varianz auf np · (1− p)festgelegt. Das widerspricht der Grundannahme dert-Verteilung, dass Mittelwert und Varianz unabhangig geschatztwerden.

Page 16: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Ob man fur den Parameter p der Binomialverteilungstudentisierte (d.h. auf der t-Verteilung beruhende)Konfidenzintervalle verwenden sollte, ist von der Theorie hernicht so klar.

Einerseits kann man argumentieren, dass die Binomialverteilungdurch die Normalverteilung approximiert wird, und beiKonfidenzintervallen fur den Mittelwert der Normalverteilung mitunbekannter Varianz ist Studentisieren angebracht.

Andererseits ist bei der Binomialverteilung durch die Schatzungp der Mittelwert auf np und die Varianz auf np · (1− p)festgelegt. Das widerspricht der Grundannahme dert-Verteilung, dass Mittelwert und Varianz unabhangig geschatztwerden.

Page 17: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Ob man fur den Parameter p der Binomialverteilungstudentisierte (d.h. auf der t-Verteilung beruhende)Konfidenzintervalle verwenden sollte, ist von der Theorie hernicht so klar.

Einerseits kann man argumentieren, dass die Binomialverteilungdurch die Normalverteilung approximiert wird, und beiKonfidenzintervallen fur den Mittelwert der Normalverteilung mitunbekannter Varianz ist Studentisieren angebracht.

Andererseits ist bei der Binomialverteilung durch die Schatzungp der Mittelwert auf np und die Varianz auf np · (1− p)festgelegt. Das widerspricht der Grundannahme dert-Verteilung, dass Mittelwert und Varianz unabhangig geschatztwerden.

Page 18: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Es gibt noch mehrere weitere Moglichkeiten, Konfidenzintervallefur das p einer binomialverteilten Zufallsvariablenvorzuschlagen. Einge sind in dem R-Befehl binconf aud demPaket Hmisc und dem R-Befehl binom.confint aus dem Paketbinom implementiert.

Ein Beispiel ist die Methode von Wilson, die wir hier nicht imDetail ergrunden aber mit den zuvor genannten Methodenvergleichen wollen. (Sie wir default-maßig vom R-Befehl binconfverwendet).

Page 19: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Es gibt noch mehrere weitere Moglichkeiten, Konfidenzintervallefur das p einer binomialverteilten Zufallsvariablenvorzuschlagen. Einge sind in dem R-Befehl binconf aud demPaket Hmisc und dem R-Befehl binom.confint aus dem Paketbinom implementiert.

Ein Beispiel ist die Methode von Wilson, die wir hier nicht imDetail ergrunden aber mit den zuvor genannten Methodenvergleichen wollen. (Sie wir default-maßig vom R-Befehl binconfverwendet).

Page 20: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Zur Erinnerung: Konfidenzintervalle sind zufallig, da sie von denDaten abhangen.

Eine ideale Methode zum Erzeugen von95%-Konfidenzintervallen sollte fur mit Wahrscheinlichkeitknapp uber 95% ein Intervall ausgeben, das den wahrenParameterwert uberdeckt (d.h. enthalt). Das sollte nicht nur furbestimmte wahre Parameterkombinationen gelten sondernmoglichst fur alle.

Diese Uberdeckungswahrscheinlichkeit kann man berechnen,und das tun wir nun fur die drei genannten Methoden fur n = 10und n = 100, jeweils kombiniert mit Werten fur p zwischen 0und 1.

Page 21: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Zur Erinnerung: Konfidenzintervalle sind zufallig, da sie von denDaten abhangen.

Eine ideale Methode zum Erzeugen von95%-Konfidenzintervallen sollte fur mit Wahrscheinlichkeitknapp uber 95% ein Intervall ausgeben, das den wahrenParameterwert uberdeckt (d.h. enthalt). Das sollte nicht nur furbestimmte wahre Parameterkombinationen gelten sondernmoglichst fur alle.

Diese Uberdeckungswahrscheinlichkeit kann man berechnen,und das tun wir nun fur die drei genannten Methoden fur n = 10und n = 100, jeweils kombiniert mit Werten fur p zwischen 0und 1.

Page 22: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Zur Erinnerung: Konfidenzintervalle sind zufallig, da sie von denDaten abhangen.

Eine ideale Methode zum Erzeugen von95%-Konfidenzintervallen sollte fur mit Wahrscheinlichkeitknapp uber 95% ein Intervall ausgeben, das den wahrenParameterwert uberdeckt (d.h. enthalt). Das sollte nicht nur furbestimmte wahre Parameterkombinationen gelten sondernmoglichst fur alle.

Diese Uberdeckungswahrscheinlichkeit kann man berechnen,und das tun wir nun fur die drei genannten Methoden fur n = 10und n = 100, jeweils kombiniert mit Werten fur p zwischen 0und 1.

Page 23: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

coverage probs of confidence intervals for p with n=10

P

cove

rage

pro

babi

litie

s

WaldstudentizedWilson

Page 24: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Wie wir sehen, sacken die Uberdeckungswahrscheinlichkeitenfur die unsere beiden einfachen Konfidenzintervalle ab, wenndas wahre p Nahe 0 oder nahe 1 ist.

Grund: Angenommen, p = 0.1. Dann ist K = 0 relativwahrscheinlich. Wir schatzen dann p = K/n = 0/n = 0 undvar(p) ≈ p · (1− p)/n = 0. Somit wird sowohl dasWald-Konfidenzintervall als auch das studentisierteKonfidenzintervall [0, 0] sein und folglich das wahre p = 0.1nicht enthalten.Ein einfacher Trick, das Problem zu losen, besteht darin, dasKonfidenzintervall so zu berechnen, als ware nicht K sondernK + 1 beobachtet worden (um p = 0 im Fall K = 0 zuvermeiden) und als ware die Gesamtzahl nicht n sondern n + 2(um p = 1 im Fall K = n zu vermeiden).

Page 25: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Wie wir sehen, sacken die Uberdeckungswahrscheinlichkeitenfur die unsere beiden einfachen Konfidenzintervalle ab, wenndas wahre p Nahe 0 oder nahe 1 ist.

Grund: Angenommen, p = 0.1. Dann ist K = 0 relativwahrscheinlich.

Wir schatzen dann p = K/n = 0/n = 0 undvar(p) ≈ p · (1− p)/n = 0. Somit wird sowohl dasWald-Konfidenzintervall als auch das studentisierteKonfidenzintervall [0, 0] sein und folglich das wahre p = 0.1nicht enthalten.Ein einfacher Trick, das Problem zu losen, besteht darin, dasKonfidenzintervall so zu berechnen, als ware nicht K sondernK + 1 beobachtet worden (um p = 0 im Fall K = 0 zuvermeiden) und als ware die Gesamtzahl nicht n sondern n + 2(um p = 1 im Fall K = n zu vermeiden).

Page 26: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Wie wir sehen, sacken die Uberdeckungswahrscheinlichkeitenfur die unsere beiden einfachen Konfidenzintervalle ab, wenndas wahre p Nahe 0 oder nahe 1 ist.

Grund: Angenommen, p = 0.1. Dann ist K = 0 relativwahrscheinlich. Wir schatzen dann p = K/n = 0/n = 0 undvar(p) ≈ p · (1− p)/n = 0.

Somit wird sowohl dasWald-Konfidenzintervall als auch das studentisierteKonfidenzintervall [0, 0] sein und folglich das wahre p = 0.1nicht enthalten.Ein einfacher Trick, das Problem zu losen, besteht darin, dasKonfidenzintervall so zu berechnen, als ware nicht K sondernK + 1 beobachtet worden (um p = 0 im Fall K = 0 zuvermeiden) und als ware die Gesamtzahl nicht n sondern n + 2(um p = 1 im Fall K = n zu vermeiden).

Page 27: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Wie wir sehen, sacken die Uberdeckungswahrscheinlichkeitenfur die unsere beiden einfachen Konfidenzintervalle ab, wenndas wahre p Nahe 0 oder nahe 1 ist.

Grund: Angenommen, p = 0.1. Dann ist K = 0 relativwahrscheinlich. Wir schatzen dann p = K/n = 0/n = 0 undvar(p) ≈ p · (1− p)/n = 0. Somit wird sowohl dasWald-Konfidenzintervall als auch das studentisierteKonfidenzintervall [0, 0] sein und folglich das wahre p = 0.1nicht enthalten.

Ein einfacher Trick, das Problem zu losen, besteht darin, dasKonfidenzintervall so zu berechnen, als ware nicht K sondernK + 1 beobachtet worden (um p = 0 im Fall K = 0 zuvermeiden) und als ware die Gesamtzahl nicht n sondern n + 2(um p = 1 im Fall K = n zu vermeiden).

Page 28: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Wie wir sehen, sacken die Uberdeckungswahrscheinlichkeitenfur die unsere beiden einfachen Konfidenzintervalle ab, wenndas wahre p Nahe 0 oder nahe 1 ist.

Grund: Angenommen, p = 0.1. Dann ist K = 0 relativwahrscheinlich. Wir schatzen dann p = K/n = 0/n = 0 undvar(p) ≈ p · (1− p)/n = 0. Somit wird sowohl dasWald-Konfidenzintervall als auch das studentisierteKonfidenzintervall [0, 0] sein und folglich das wahre p = 0.1nicht enthalten.Ein einfacher Trick, das Problem zu losen, besteht darin, dasKonfidenzintervall so zu berechnen, als ware nicht K sondernK + 1 beobachtet worden (um p = 0 im Fall K = 0 zuvermeiden) und als ware die Gesamtzahl nicht n sondern n + 2(um p = 1 im Fall K = n zu vermeiden).

Page 29: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Der “k+1, n+2”-TrickSiehe S. 121 in

Gotz Kersting, Anton Wakolbinger (2008) ElementareStochastik, Birkhauser, Basel.

Sind k Erfolge in n Versuchen beobachtet worden, so schatzedie Erfolgswahrscheinlichkeit durch

p = (k + 1)/(n + 2)

dieses p verwenden wir dann im einfachenWald-Konfidenzintervall[

p − 1.96 ·√

p · (1− p)/n , p + 1.96 ·√

p · (1− p)/n]

Das funktioniert erstaunlich gut, und zwar nicht nur fur p in derNahe von 0 oder 1.

Page 30: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Der “k+1, n+2”-TrickSiehe S. 121 in

Gotz Kersting, Anton Wakolbinger (2008) ElementareStochastik, Birkhauser, Basel.

Sind k Erfolge in n Versuchen beobachtet worden, so schatzedie Erfolgswahrscheinlichkeit durch

p = (k + 1)/(n + 2)

dieses p verwenden wir dann im einfachenWald-Konfidenzintervall[

p − 1.96 ·√

p · (1− p)/n , p + 1.96 ·√

p · (1− p)/n]

Das funktioniert erstaunlich gut, und zwar nicht nur fur p in derNahe von 0 oder 1.

Page 31: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Der “k+1, n+2”-TrickSiehe S. 121 in

Gotz Kersting, Anton Wakolbinger (2008) ElementareStochastik, Birkhauser, Basel.

Sind k Erfolge in n Versuchen beobachtet worden, so schatzedie Erfolgswahrscheinlichkeit durch

p = (k + 1)/(n + 2)

dieses p verwenden wir dann im einfachenWald-Konfidenzintervall[

p − 1.96 ·√

p · (1− p)/n , p + 1.96 ·√

p · (1− p)/n]

Das funktioniert erstaunlich gut, und zwar nicht nur fur p in derNahe von 0 oder 1.

Page 32: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

0.0 0.2 0.4 0.6 0.8 1.0

0.0

0.2

0.4

0.6

0.8

1.0

coverage probs of confidence intervals for p with n=10

P

cove

rage

pro

babi

litie

s

WaldstudentizedWilsonk+1, n+2

Page 33: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

0.0 0.2 0.4 0.6 0.8 1.0

0.2

0.4

0.6

0.8

1.0

coverage probs of confidence intervals for p with n=100

P

cove

rage

pro

babi

litie

s

WaldstudentizedWilsonk+1, n+2

Page 34: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

0.0 0.2 0.4 0.6 0.8 1.0

0.90

0.91

0.92

0.93

0.94

0.95

0.96

0.97

coverage probs of confidence intervals for p with n=100

P

cove

rage

pro

babi

litie

s

WaldstudentizedWilsonk+1, n+2

Page 35: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Die Uberdeckungswahrscheinlichkeit hangt offensichtlich starkvom genauen Wert von p ab und liegt bei allen drei Methodenfur bestimmte p auch mal unter 95%. Dafur kann sie gleichdaneben fur ein leicht verandertes p uber 95% liegen.

Um ein deutlicheres Bild zu bekommen, glatten wir die Kurven,indem wir jeweils uber ein kleines Intervall von Werten fur pmitteln.

Page 36: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

0.0 0.2 0.4 0.6 0.8 1.0

0.90

0.91

0.92

0.93

0.94

0.95

0.96

0.97

smoothed coverage probs of confidence intervals for p with n=100

P

smoo

thed

cov

erag

e pr

obab

ilitie

s

WaldstudentizedWilsonk+1, n+2

Page 37: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Nochmal zu Konfidenzintervallen fur das p der Binomialverteilung

Wir sehen also, dass die Wilson-Methode und die “k+1,n+2”-Wald-Methode sowohl bei n = 10 als auch bei n = 100deutlich zuverlassigere Konfidenzintervalle liefern als dieeinfache Wald-Methode und die studentisiertenKonfidenzintervalle. Das gilt insbesondere fur p, die nahe bei 0oder nahe bei 1 liegen.

Wir werden bei der Bayesschen Statistik noch einmal auf den“k+1, n+2”-Trick zuruckkommen.

Page 38: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Grundsatzliches zur frequentistischen Statistik

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 39: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Grundsatzliches zur frequentistischen Statistik

Parameter sind unbekannt aber nicht zufallig.

Daten hangen von den Parametern und vom Zufall ab(gemaß Modellannahmen).frequentistischer Wahrscheinlichkeitsbegriff: Wenn einEreignis eine Wahrscheinlichkeit p hat, dann bedeutet das,dass es auf lange Sicht im Anteil p aller Falle eintritt.Wenn ich meine Tests mit Signifikanzniveau α durchfuhre,verwerfe ich die Nullhypothese zu Unrecht nur in einemAnteil α der Falle. (auf lange Sicht)Wenn ich 95%-Konfidenzintervalle angebe, enthalten 95%meiner Konfidenzintervalle den tatsachlichenParameterwert. (auf lange Sicht)

Page 40: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Grundsatzliches zur frequentistischen Statistik

Parameter sind unbekannt aber nicht zufallig.Daten hangen von den Parametern und vom Zufall ab(gemaß Modellannahmen).

frequentistischer Wahrscheinlichkeitsbegriff: Wenn einEreignis eine Wahrscheinlichkeit p hat, dann bedeutet das,dass es auf lange Sicht im Anteil p aller Falle eintritt.Wenn ich meine Tests mit Signifikanzniveau α durchfuhre,verwerfe ich die Nullhypothese zu Unrecht nur in einemAnteil α der Falle. (auf lange Sicht)Wenn ich 95%-Konfidenzintervalle angebe, enthalten 95%meiner Konfidenzintervalle den tatsachlichenParameterwert. (auf lange Sicht)

Page 41: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Grundsatzliches zur frequentistischen Statistik

Parameter sind unbekannt aber nicht zufallig.Daten hangen von den Parametern und vom Zufall ab(gemaß Modellannahmen).frequentistischer Wahrscheinlichkeitsbegriff: Wenn einEreignis eine Wahrscheinlichkeit p hat, dann bedeutet das,dass es auf lange Sicht im Anteil p aller Falle eintritt.

Wenn ich meine Tests mit Signifikanzniveau α durchfuhre,verwerfe ich die Nullhypothese zu Unrecht nur in einemAnteil α der Falle. (auf lange Sicht)Wenn ich 95%-Konfidenzintervalle angebe, enthalten 95%meiner Konfidenzintervalle den tatsachlichenParameterwert. (auf lange Sicht)

Page 42: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Grundsatzliches zur frequentistischen Statistik

Parameter sind unbekannt aber nicht zufallig.Daten hangen von den Parametern und vom Zufall ab(gemaß Modellannahmen).frequentistischer Wahrscheinlichkeitsbegriff: Wenn einEreignis eine Wahrscheinlichkeit p hat, dann bedeutet das,dass es auf lange Sicht im Anteil p aller Falle eintritt.Wenn ich meine Tests mit Signifikanzniveau α durchfuhre,verwerfe ich die Nullhypothese zu Unrecht nur in einemAnteil α der Falle. (auf lange Sicht)

Wenn ich 95%-Konfidenzintervalle angebe, enthalten 95%meiner Konfidenzintervalle den tatsachlichenParameterwert. (auf lange Sicht)

Page 43: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Grundsatzliches zur frequentistischen Statistik

Parameter sind unbekannt aber nicht zufallig.Daten hangen von den Parametern und vom Zufall ab(gemaß Modellannahmen).frequentistischer Wahrscheinlichkeitsbegriff: Wenn einEreignis eine Wahrscheinlichkeit p hat, dann bedeutet das,dass es auf lange Sicht im Anteil p aller Falle eintritt.Wenn ich meine Tests mit Signifikanzniveau α durchfuhre,verwerfe ich die Nullhypothese zu Unrecht nur in einemAnteil α der Falle. (auf lange Sicht)Wenn ich 95%-Konfidenzintervalle angebe, enthalten 95%meiner Konfidenzintervalle den tatsachlichenParameterwert. (auf lange Sicht)

Page 44: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 45: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

> X

[1] 4.111007 5.023229 5.489230 4.456054 4.343212

[5] 5.431928 3.944405 3.471677 4.337888 5.412292

> n <- length(X)

> m <- mean(X)

> sem <- sd(X)/sqrt(n)

> t <- -qt(0.025,n-1)

> konf <- c(m-t*sem,m+t*sem)

> konf

[1] 4.100824 5.103360

Page 46: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

[4.100824, 5.103360]

> t.test(X,mu=4)

One Sample t-test

data: X

t = 2.7172, df = 9, p-value = 0.02372

alternative hypothesis: true mean is not equal to 4

95 percent confidence interval:

4.100824 5.103360

sample estimates:

mean of x

4.602092

Beachte: R gibt beim t-Test auch das Konfidenzintervall an!

Page 47: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

[4.100824, 5.103360]

> t.test(X,mu=4)

One Sample t-test

data: X

t = 2.7172, df = 9, p-value = 0.02372

alternative hypothesis: true mean is not equal to 4

95 percent confidence interval:

4.100824 5.103360

sample estimates:

mean of x

4.602092

Beachte: R gibt beim t-Test auch das Konfidenzintervall an!

Page 48: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

[4.100824, 5.103360]

> t.test(X,mu=4)

One Sample t-test

data: X

t = 2.7172, df = 9, p-value = 0.02372

alternative hypothesis: true mean is not equal to 4

95 percent confidence interval:

4.100824 5.103360

sample estimates:

mean of x

4.602092

Beachte: R gibt beim t-Test auch das Konfidenzintervall an!

Page 49: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

[4.100824, 5.103360]

> t.test(X,mu=4.1)

One Sample t-test

data: X

t = 2.2659, df = 9, p-value = 0.0497

alternative hypothesis: true mean is not equal to 4.1

95 percent confidence interval:

4.100824 5.103360

sample estimates:

mean of x

4.602092

Beachte: R gibt beim t-Test auch das Konfidenzintervall an!

Page 50: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

[4.100824, 5.103360]

> t.test(X,mu=4.1009)

One Sample t-test

data: X

t = 2.2618, df = 9, p-value = 0.05003

alternative hypothesis: true mean is not equal to 4.1009

95 percent confidence interval:

4.100824 5.103360

sample estimates:

mean of x

4.602092

Beachte: R gibt beim t-Test auch das Konfidenzintervall an!

Page 51: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

[4.100824, 5.103360]

> t.test(X,mu=5.1)

One Sample t-test

data: X

t = -2.247, df = 9, p-value = 0.05125

alternative hypothesis: true mean is not equal to 5.1

95 percent confidence interval:

4.100824 5.103360

sample estimates:

mean of x

4.602092

Beachte: R gibt beim t-Test auch das Konfidenzintervall an!

Page 52: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

[4.100824, 5.103360]

> t.test(X,mu=5.1034)

One Sample t-test

data: X

t = -2.2623, df = 9, p-value = 0.04999

alternative hypothesis: true mean is not equal to 5.1034

95 percent confidence interval:

4.100824 5.103360

sample estimates:

mean of x

4.602092

Beachte: R gibt beim t-Test auch das Konfidenzintervall an!

Page 53: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Dualitat Tests ↔ Konfidenzintervalle

Ist [a, b] ein (1− α)-Konfidenzintervall fur einen Parameter θ, sogibt es einen Test mit Signifikanzniveau α, der dieNullhypothese θ = x genau dann verwirft, wenn x /∈ [a, b].

Ist umgekehrt Tx ein Test mit Nullhypothese θ = x undSignifikanzniveau α, so bilden alle Werte x , fur die dieNullhypothese θ = x nicht verworfen wird, ein(1− α)-Konfidenzintervall fur θ.

Page 54: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Dualitat Tests ↔ Konfidenzintervalle

Ist [a, b] ein (1− α)-Konfidenzintervall fur einen Parameter θ, sogibt es einen Test mit Signifikanzniveau α, der dieNullhypothese θ = x genau dann verwirft, wenn x /∈ [a, b].

Ist umgekehrt Tx ein Test mit Nullhypothese θ = x undSignifikanzniveau α, so bilden alle Werte x , fur die dieNullhypothese θ = x nicht verworfen wird, ein(1− α)-Konfidenzintervall fur θ.

Page 55: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Konfidenzintervalle sind auch und gerade dann hilfreich, wennein Test keine Signifikanz anzeigt.

Beispiel: Gibt es bei Steinlausen geschlechtsspezifischeUnterschiede in der Korperlange?

Datenlage: die Langen von 86 weiblichen (F) und 52mannlichen (M) Steinlausen.

Page 56: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Konfidenzintervalle sind auch und gerade dann hilfreich, wennein Test keine Signifikanz anzeigt.

Beispiel: Gibt es bei Steinlausen geschlechtsspezifischeUnterschiede in der Korperlange?

Datenlage: die Langen von 86 weiblichen (F) und 52mannlichen (M) Steinlausen.

Page 57: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Konfidenzintervalle sind auch und gerade dann hilfreich, wennein Test keine Signifikanz anzeigt.

Beispiel: Gibt es bei Steinlausen geschlechtsspezifischeUnterschiede in der Korperlange?

Datenlage: die Langen von 86 weiblichen (F) und 52mannlichen (M) Steinlausen.

Page 58: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

86 female stone lice

length [mm]

Den

sity

0.15 0.20 0.25

010

20

52 male stone lice

length [mm]

Den

sity

0.15 0.20 0.25

020

40

Page 59: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

> t.test(F,M)

Welch Two Sample t-test

data: F and M

t = 0.7173, df = 122.625, p-value = 0.4746

alternative hypothesis: true difference in means is

not equal to 0

95 percent confidence interval:

-0.004477856 0.009567353

sample estimates:

mean of x mean of y

0.2018155 0.1992707

Page 60: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen undweiblichen Steinlausen.

Page 61: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen und weiblichen Steinlausen.

Page 62: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen und weiblichen Steinlausen.Mannliche und weibliche Steinlause sind im Mittel gleichlang.

Page 63: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen und weiblichen Steinlausen.

Mannliche und weibliche Steinlause sind im Mittel gleich lang.

Page 64: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen und weiblichen Steinlausen.

Mannliche und weibliche Steinlause sind im Mittel gleich lang.Die Daten zeigen keine signifikanten Unterschiedezwischen den mittleren Langen mannlicher und weiblicherSteinlause.

Page 65: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen und weiblichen Steinlausen.

Mannliche und weibliche Steinlause sind im Mittel gleich lang.Die Daten zeigen keine signifikanten Unterschiedezwischen den mittleren Langen mannlicher und weiblicherSteinlause.X

Page 66: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen und weiblichen Steinlausen.

Mannliche und weibliche Steinlause sind im Mittel gleich lang.Die Daten zeigen keine signifikanten Unterschiedezwischen den mittleren Langen mannlicher und weiblicherSteinlause.XDer Konfidenzbereich fur die Differenz zwischen dermittleren Lange der Weibchen und der Mannchen ist[-0.0045,0.0096].

Page 67: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Dualitat von Tests und Konfidenzintervallen

Wie berichten wir uber das Ergebis des Tests?

Es gibt keinen Unterschied zwischen mannlichen und weiblichen Steinlausen.

Mannliche und weibliche Steinlause sind im Mittel gleich lang.Die Daten zeigen keine signifikanten Unterschiedezwischen den mittleren Langen mannlicher und weiblicherSteinlause.XDer Konfidenzbereich fur die Differenz zwischen dermittleren Lange der Weibchen und der Mannchen ist[-0.0045,0.0096]X

Page 68: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 69: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Auch wenn es allgemein sinnvoll ist, Konfidenzintervalle furParameterschatzungen anzugeben, mochte man manchmaleinen einzelnen Schatzwert fur einen Parameter angeben,und die frequentistische Statistik hat auch hierfur einebevorzugte Methode, die Maximum-Likelihood-Schatzung(kurz ML).

Es ist sinnlos, nach dem “wahrscheinlichsten”Parameterwert zu fragen, denn Parameter sind (aus Sichtder frequentistischen Statistik) nicht zufallig und habendaher auch keine Wahrscheinlichkeit.Statt dessen sucht man den Parameterwert, der die Datenam wahrscheinlichsten macht. Die Likelihood eines Werts xfur einen Parameter θ ist die Wahrscheinlichkeit derbeobachteten Daten D, falls θ = x gilt:

LD(x) := Prθ=x(D)

Page 70: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Auch wenn es allgemein sinnvoll ist, Konfidenzintervalle furParameterschatzungen anzugeben, mochte man manchmaleinen einzelnen Schatzwert fur einen Parameter angeben,und die frequentistische Statistik hat auch hierfur einebevorzugte Methode, die Maximum-Likelihood-Schatzung(kurz ML).Es ist sinnlos, nach dem “wahrscheinlichsten”Parameterwert zu fragen, denn Parameter sind (aus Sichtder frequentistischen Statistik) nicht zufallig und habendaher auch keine Wahrscheinlichkeit.

Statt dessen sucht man den Parameterwert, der die Datenam wahrscheinlichsten macht. Die Likelihood eines Werts xfur einen Parameter θ ist die Wahrscheinlichkeit derbeobachteten Daten D, falls θ = x gilt:

LD(x) := Prθ=x(D)

Page 71: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Auch wenn es allgemein sinnvoll ist, Konfidenzintervalle furParameterschatzungen anzugeben, mochte man manchmaleinen einzelnen Schatzwert fur einen Parameter angeben,und die frequentistische Statistik hat auch hierfur einebevorzugte Methode, die Maximum-Likelihood-Schatzung(kurz ML).Es ist sinnlos, nach dem “wahrscheinlichsten”Parameterwert zu fragen, denn Parameter sind (aus Sichtder frequentistischen Statistik) nicht zufallig und habendaher auch keine Wahrscheinlichkeit.Statt dessen sucht man den Parameterwert, der die Datenam wahrscheinlichsten macht. Die Likelihood eines Werts xfur einen Parameter θ ist die Wahrscheinlichkeit derbeobachteten Daten D, falls θ = x gilt:

LD(x) := Prθ=x(D)

Page 72: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Die Likelihood eines Werts x fur einen Parameter θ ist dieWahrscheinlichkeit der beobachteten Daten D, falls θ = xgilt:

LD(x) := Prθ=x(D)

Der Maximum-Likelihood-Schatzer (ML-Schatzer) ist derParameterwert θ, fur den die Funktion LD maximal wird:

θ = arg maxx

LD(x)

Page 73: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Die Likelihood eines Werts x fur einen Parameter θ ist dieWahrscheinlichkeit der beobachteten Daten D, falls θ = xgilt:

LD(x) := Prθ=x(D)

Der Maximum-Likelihood-Schatzer (ML-Schatzer) ist derParameterwert θ, fur den die Funktion LD maximal wird:

θ = arg maxx

LD(x)

Page 74: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.Dann gilt

L(p) = Prp(K = 7) =

(100

7

)p7 · (1− p)93

und

p = arg maxp

(1007

)p7 · (1− p)93 = arg max

pp7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 75: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.Dann gilt

L(p) = Prp(K = 7) =

(100

7

)p7 · (1− p)93

und

p = arg maxp

(1007

)p7 · (1− p)93 = arg max

pp7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 76: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.

Dann gilt

L(p) = Prp(K = 7) =

(100

7

)p7 · (1− p)93

und

p = arg maxp

(1007

)p7 · (1− p)93 = arg max

pp7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 77: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.Dann gilt

L(p) = Prp(K = 7)

=

(100

7

)p7 · (1− p)93

und

p = arg maxp

(1007

)p7 · (1− p)93 = arg max

pp7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 78: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.Dann gilt

L(p) = Prp(K = 7) =

(100

7

)p7 · (1− p)93

und

p = arg maxp

(1007

)p7 · (1− p)93 = arg max

pp7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 79: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.Dann gilt

L(p) = Prp(K = 7) =

(100

7

)p7 · (1− p)93

und

p = arg maxp

(100

7

)p7 · (1− p)93

= arg maxp

p7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 80: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.Dann gilt

L(p) = Prp(K = 7) =

(100

7

)p7 · (1− p)93

und

p = arg maxp

(100

7

)p7 · (1− p)93 = arg max

pp7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 81: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Beispiel: Auf einem mtDNA-Abschnitt der Lange 100 werdenzwischen Mensch und Schimpanse 7 Unterschiede festgestellt.Wie hoch ist die Wahrscheinlichkeit p, auch an der 101. Positioneinen Unterschied zu sehen?

Naheliegender Schatzer p = 7/100

ML-Schatzer: Modelliere die Anzahl K der beobachtetenMutationen als binomialverteilt mit n = 100 und unbekanntem p.Dann gilt

L(p) = Prp(K = 7) =

(100

7

)p7 · (1− p)93

und

p = arg maxp

(100

7

)p7 · (1− p)93 = arg max

pp7 · (1− p)93

= arg maxp

log(p7 · (1− p)93)

Page 82: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Gesucht ist also die Maximalstelle von

f (p) := log(p7 · (1− p)93)

= 7 · log(p) + 93 · log(1− p).

Wir finden Sie wie ublich durch Nullsetzen der Ableitung:

0 = f ′(p) = 7 · 1p

+ 931

1− p· (−1)

(dabei hilft es, zu wissen dass log′(x) = 1/x .)Lost man die Gleichung nach p so erhalt man:

p = 7/100

Wir haben also eine theoretische Begrundung fur dennaheliegenden Schatzer p gefunden.

Page 83: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Gesucht ist also die Maximalstelle von

f (p) := log(p7 · (1− p)93) = 7 · log(p) + 93 · log(1− p).

Wir finden Sie wie ublich durch Nullsetzen der Ableitung:

0 = f ′(p) = 7 · 1p

+ 931

1− p· (−1)

(dabei hilft es, zu wissen dass log′(x) = 1/x .)Lost man die Gleichung nach p so erhalt man:

p = 7/100

Wir haben also eine theoretische Begrundung fur dennaheliegenden Schatzer p gefunden.

Page 84: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Gesucht ist also die Maximalstelle von

f (p) := log(p7 · (1− p)93) = 7 · log(p) + 93 · log(1− p).

Wir finden Sie wie ublich durch Nullsetzen der Ableitung:

0 = f ′(p)

= 7 · 1p

+ 931

1− p· (−1)

(dabei hilft es, zu wissen dass log′(x) = 1/x .)Lost man die Gleichung nach p so erhalt man:

p = 7/100

Wir haben also eine theoretische Begrundung fur dennaheliegenden Schatzer p gefunden.

Page 85: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Gesucht ist also die Maximalstelle von

f (p) := log(p7 · (1− p)93) = 7 · log(p) + 93 · log(1− p).

Wir finden Sie wie ublich durch Nullsetzen der Ableitung:

0 = f ′(p) = 7 · 1p

+ 931

1− p· (−1)

(dabei hilft es, zu wissen dass log′(x) = 1/x .)

Lost man die Gleichung nach p so erhalt man:

p = 7/100

Wir haben also eine theoretische Begrundung fur dennaheliegenden Schatzer p gefunden.

Page 86: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Gesucht ist also die Maximalstelle von

f (p) := log(p7 · (1− p)93) = 7 · log(p) + 93 · log(1− p).

Wir finden Sie wie ublich durch Nullsetzen der Ableitung:

0 = f ′(p) = 7 · 1p

+ 931

1− p· (−1)

(dabei hilft es, zu wissen dass log′(x) = 1/x .)Lost man die Gleichung nach p so erhalt man:

p = 7/100

Wir haben also eine theoretische Begrundung fur dennaheliegenden Schatzer p gefunden.

Page 87: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Gesucht ist also die Maximalstelle von

f (p) := log(p7 · (1− p)93) = 7 · log(p) + 93 · log(1− p).

Wir finden Sie wie ublich durch Nullsetzen der Ableitung:

0 = f ′(p) = 7 · 1p

+ 931

1− p· (−1)

(dabei hilft es, zu wissen dass log′(x) = 1/x .)Lost man die Gleichung nach p so erhalt man:

p = 7/100

Wir haben also eine theoretische Begrundung fur dennaheliegenden Schatzer p gefunden.

Page 88: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Der ML-Schatzer ist in vielen Fallen konsistent, d.h. wenngenugend viele Daten vorliegen und die Modellannahmen erfulltsind, wird er den tatsachlichen Parameterwert finden.

Wenn eher wenig Daten vorhanden sind, ist manchmal einanderer Schatzer zu bevorzugen.Beispiel: ist X1, . . . , Xn eine Stichprobe aus einerNormalverteilung, so ist 1

n

∑ni=1(Xi − X )2 der ML-Schatzer fur

die Varianz σ2. Meistens wird aber der Bias-korrigierte Schatzer1

n−1

∑ni=1(Xi − X )2 bevorzugt.

Page 89: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Der ML-Schatzer ist in vielen Fallen konsistent, d.h. wenngenugend viele Daten vorliegen und die Modellannahmen erfulltsind, wird er den tatsachlichen Parameterwert finden.Wenn eher wenig Daten vorhanden sind, ist manchmal einanderer Schatzer zu bevorzugen.

Beispiel: ist X1, . . . , Xn eine Stichprobe aus einerNormalverteilung, so ist 1

n

∑ni=1(Xi − X )2 der ML-Schatzer fur

die Varianz σ2. Meistens wird aber der Bias-korrigierte Schatzer1

n−1

∑ni=1(Xi − X )2 bevorzugt.

Page 90: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Frequentistische Statistik Maximum-Likelihood-Schatzer

Der ML-Schatzer ist in vielen Fallen konsistent, d.h. wenngenugend viele Daten vorliegen und die Modellannahmen erfulltsind, wird er den tatsachlichen Parameterwert finden.Wenn eher wenig Daten vorhanden sind, ist manchmal einanderer Schatzer zu bevorzugen.Beispiel: ist X1, . . . , Xn eine Stichprobe aus einerNormalverteilung, so ist 1

n

∑ni=1(Xi − X )2 der ML-Schatzer fur

die Varianz σ2. Meistens wird aber der Bias-korrigierte Schatzer1

n−1

∑ni=1(Xi − X )2 bevorzugt.

Page 91: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 92: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 93: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.

Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.

Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?24 erfahrene Arzte sollten diese Frage beantworten1.

8 Arzte gaben an: 90%8 Arzte gaben an: 50 bis 80%8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 94: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.

Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?24 erfahrene Arzte sollten diese Frage beantworten1.

8 Arzte gaben an: 90%8 Arzte gaben an: 50 bis 80%8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 95: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.

Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?24 erfahrene Arzte sollten diese Frage beantworten1.

8 Arzte gaben an: 90%8 Arzte gaben an: 50 bis 80%8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 96: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.

Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?

24 erfahrene Arzte sollten diese Frage beantworten1.8 Arzte gaben an: 90%8 Arzte gaben an: 50 bis 80%8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 97: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.

Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?24 erfahrene Arzte sollten diese Frage beantworten1.

8 Arzte gaben an: 90%8 Arzte gaben an: 50 bis 80%8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 98: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.

Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?24 erfahrene Arzte sollten diese Frage beantworten1.

8 Arzte gaben an: 90%

8 Arzte gaben an: 50 bis 80%8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 99: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.

Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?24 erfahrene Arzte sollten diese Frage beantworten1.

8 Arzte gaben an: 90%8 Arzte gaben an: 50 bis 80%

8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 100: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Daten zur Brustkrebs-Mammographie:0.8% der 50-jahrigen Frauen haben Brustkrebs.Das Mammogramm erkennt Brustkrebs bei 90% derErkrankten.Das Mammogramm gibt bei 7% der Gesunden Fehlalarm.

Bei einer Vorsorgeuntersuchung zeigt das MammogrammBrustkrebs an. Wie hoch ist die Wahrscheinlichkeit, dass diePatientin tatsachlich Krebs hat?24 erfahrene Arzte sollten diese Frage beantworten1.

8 Arzte gaben an: 90%8 Arzte gaben an: 50 bis 80%8 Arzte gaben an: 10% oder weniger.

1Hoffrage, U. & Gigerenzer, G. (1998). Using natural frequencies toimprove diagnostic inferences. Academic Medicine, 73, 538-540

Page 101: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Hier geht es um eine bedingte Wahrscheinlichkeit :Wie groß ist die bedingte Wahrscheinlichkeit, Krebs zu haben,gegeben, dass das Mammogramm dies anzeigt?

Bedingte Wahrscheinlichkeiten konnen wir mit derBayes-Formel berechnen.

Page 102: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Hier geht es um eine bedingte Wahrscheinlichkeit :Wie groß ist die bedingte Wahrscheinlichkeit, Krebs zu haben,gegeben, dass das Mammogramm dies anzeigt?

Bedingte Wahrscheinlichkeiten konnen wir mit derBayes-Formel berechnen.

Page 103: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

A, B EreignisseBedingte Wahrscheinlichkeit von A,gegeben B (sofern Pr(B) > 0):

Pr(A|B) =Pr(A ∩ B)

Pr(B)

(A ∩ B:= A und B treten beide ein)

Satz von der totalen Wahrscheinlich-keit (mit Bc:={B tritt nicht ein}):

Pr(A) = Pr(B) Pr(A|B)+Pr(Bc) Pr(A|Bc)

Thomas Bayes,1702–1761

Bayes-Formel:

Pr(B|A) =Pr(B) Pr(A|B)

Pr(A)

Page 104: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

A, B EreignisseBedingte Wahrscheinlichkeit von A,gegeben B (sofern Pr(B) > 0):

Pr(A|B) =Pr(A ∩ B)

Pr(B)

(A ∩ B:= A und B treten beide ein)

Satz von der totalen Wahrscheinlich-keit (mit Bc:={B tritt nicht ein}):

Pr(A) = Pr(B) Pr(A|B)+Pr(Bc) Pr(A|Bc)

Thomas Bayes,1702–1761

Bayes-Formel:

Pr(B|A) =Pr(B) Pr(A|B)

Pr(A)

Page 105: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

A, B EreignisseBedingte Wahrscheinlichkeit von A,gegeben B (sofern Pr(B) > 0):

Pr(A|B) =Pr(A ∩ B)

Pr(B)

(A ∩ B:= A und B treten beide ein)

Satz von der totalen Wahrscheinlich-keit (mit Bc:={B tritt nicht ein}):

Pr(A) = Pr(B) Pr(A|B)+Pr(Bc) Pr(A|Bc)

Thomas Bayes,1702–1761

Bayes-Formel:

Pr(B|A) =Pr(B) Pr(A|B)

Pr(A)

Page 106: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

A, B EreignisseBedingte Wahrscheinlichkeit von A,gegeben B (sofern Pr(B) > 0):

Pr(A|B) =Pr(A ∩ B)

Pr(B)

(A ∩ B:= A und B treten beide ein)

Satz von der totalen Wahrscheinlich-keit (mit Bc:={B tritt nicht ein}):

Pr(A) = Pr(B) Pr(A|B)+Pr(Bc) Pr(A|Bc)

Thomas Bayes,1702–1761

Bayes-Formel:

Pr(B|A) =Pr(B) Pr(A|B)

Pr(A)

Page 107: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Beispiel: Sei W ∈ {1, 2, 3, 4, 5, 6} das Ergebnis einesWurfelwurfs. Wie wahrscheinlich ist W ≥ 5, wenn W einegerade Zahl ist?

A := {W ≥ 5}B := {W ist gerade }

A ∩ B = {W ist gerade und ≥ 5}

Ac

B

A

Bc

Pr(A|B) =Pr(A ∩ B)

Pr(B)=

1/63/6

=13

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)=

12 ·

13

1/3=

12

Page 108: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Beispiel: Sei W ∈ {1, 2, 3, 4, 5, 6} das Ergebnis einesWurfelwurfs. Wie wahrscheinlich ist W ≥ 5, wenn W einegerade Zahl ist?

A := {W ≥ 5}B := {W ist gerade }

A ∩ B = {W ist gerade und ≥ 5}

Ac

B

A

Bc

Pr(A|B) =Pr(A ∩ B)

Pr(B)

=1/63/6

=13

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)=

12 ·

13

1/3=

12

Page 109: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Beispiel: Sei W ∈ {1, 2, 3, 4, 5, 6} das Ergebnis einesWurfelwurfs. Wie wahrscheinlich ist W ≥ 5, wenn W einegerade Zahl ist?

A := {W ≥ 5}B := {W ist gerade }

A ∩ B = {W ist gerade und ≥ 5}

Ac

B

A

Bc

Pr(A|B) =Pr(A ∩ B)

Pr(B)=

1/63/6

=13

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)=

12 ·

13

1/3=

12

Page 110: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Beispiel: Sei W ∈ {1, 2, 3, 4, 5, 6} das Ergebnis einesWurfelwurfs. Wie wahrscheinlich ist W ≥ 5, wenn W einegerade Zahl ist?

A := {W ≥ 5}B := {W ist gerade }

A ∩ B = {W ist gerade und ≥ 5}

Ac

B

A

Bc

Pr(A|B) =Pr(A ∩ B)

Pr(B)=

1/63/6

=13

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)=

12 ·

13

1/3=

12

Page 111: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Beispiel: Sei W ∈ {1, 2, 3, 4, 5, 6} das Ergebnis einesWurfelwurfs. Wie wahrscheinlich ist W ≥ 5, wenn W einegerade Zahl ist?

A := {W ≥ 5}B := {W ist gerade }

A ∩ B = {W ist gerade und ≥ 5}

Ac

B

A

Bc

Pr(A|B) =Pr(A ∩ B)

Pr(B)=

1/63/6

=13

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=12 ·

13

1/3=

12

Page 112: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Beispiel: Sei W ∈ {1, 2, 3, 4, 5, 6} das Ergebnis einesWurfelwurfs. Wie wahrscheinlich ist W ≥ 5, wenn W einegerade Zahl ist?

A := {W ≥ 5}B := {W ist gerade }

A ∩ B = {W ist gerade und ≥ 5}

Ac

B

A

Bc

Pr(A|B) =Pr(A ∩ B)

Pr(B)=

1/63/6

=13

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)=

12 ·

13

1/3

=12

Page 113: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Beispiel: Sei W ∈ {1, 2, 3, 4, 5, 6} das Ergebnis einesWurfelwurfs. Wie wahrscheinlich ist W ≥ 5, wenn W einegerade Zahl ist?

A := {W ≥ 5}B := {W ist gerade }

A ∩ B = {W ist gerade und ≥ 5}

Ac

B

A

Bc

Pr(A|B) =Pr(A ∩ B)

Pr(B)=

1/63/6

=13

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)=

12 ·

13

1/3=

12

Page 114: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Nun zuruck zur Mammographie. Definiere Ereignisse:A: Das Mammogramm zeigt Krebs an.B: Die Patientin hat Krebs.

Die nicht bedingte Wahrscheinlichkeit Pr(B) heißt aucha-priori-Wahrscheinlichkeit fur B, d.h. die Wahrscheinlichkeit,die man B zuordnet bevor man “die Daten” A gesehen hat.In unserem Fall also 0.008, die Wahrscheinlichkeit, dass eineVorsorgepatientin Brustkrebs hat.

Die bedingte Wahrscheinlichkeit Pr(B|A) heißt aucha-posteriori-Wahrscheinlichkeit fur B. Das ist dieWahrscheinlichkeit, die man B zuweist nachdem man die DatenA gesehen hat.

Page 115: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Nun zuruck zur Mammographie. Definiere Ereignisse:A: Das Mammogramm zeigt Krebs an.B: Die Patientin hat Krebs.

Die nicht bedingte Wahrscheinlichkeit Pr(B) heißt aucha-priori-Wahrscheinlichkeit fur B, d.h. die Wahrscheinlichkeit,die man B zuordnet bevor man “die Daten” A gesehen hat.

In unserem Fall also 0.008, die Wahrscheinlichkeit, dass eineVorsorgepatientin Brustkrebs hat.

Die bedingte Wahrscheinlichkeit Pr(B|A) heißt aucha-posteriori-Wahrscheinlichkeit fur B. Das ist dieWahrscheinlichkeit, die man B zuweist nachdem man die DatenA gesehen hat.

Page 116: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Nun zuruck zur Mammographie. Definiere Ereignisse:A: Das Mammogramm zeigt Krebs an.B: Die Patientin hat Krebs.

Die nicht bedingte Wahrscheinlichkeit Pr(B) heißt aucha-priori-Wahrscheinlichkeit fur B, d.h. die Wahrscheinlichkeit,die man B zuordnet bevor man “die Daten” A gesehen hat.In unserem Fall also 0.008, die Wahrscheinlichkeit, dass eineVorsorgepatientin Brustkrebs hat.

Die bedingte Wahrscheinlichkeit Pr(B|A) heißt aucha-posteriori-Wahrscheinlichkeit fur B. Das ist dieWahrscheinlichkeit, die man B zuweist nachdem man die DatenA gesehen hat.

Page 117: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Nun zuruck zur Mammographie. Definiere Ereignisse:A: Das Mammogramm zeigt Krebs an.B: Die Patientin hat Krebs.

Die nicht bedingte Wahrscheinlichkeit Pr(B) heißt aucha-priori-Wahrscheinlichkeit fur B, d.h. die Wahrscheinlichkeit,die man B zuordnet bevor man “die Daten” A gesehen hat.In unserem Fall also 0.008, die Wahrscheinlichkeit, dass eineVorsorgepatientin Brustkrebs hat.

Die bedingte Wahrscheinlichkeit Pr(B|A) heißt aucha-posteriori-Wahrscheinlichkeit fur B.

Das ist dieWahrscheinlichkeit, die man B zuweist nachdem man die DatenA gesehen hat.

Page 118: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Nun zuruck zur Mammographie. Definiere Ereignisse:A: Das Mammogramm zeigt Krebs an.B: Die Patientin hat Krebs.

Die nicht bedingte Wahrscheinlichkeit Pr(B) heißt aucha-priori-Wahrscheinlichkeit fur B, d.h. die Wahrscheinlichkeit,die man B zuordnet bevor man “die Daten” A gesehen hat.In unserem Fall also 0.008, die Wahrscheinlichkeit, dass eineVorsorgepatientin Brustkrebs hat.

Die bedingte Wahrscheinlichkeit Pr(B|A) heißt aucha-posteriori-Wahrscheinlichkeit fur B. Das ist dieWahrscheinlichkeit, die man B zuweist nachdem man die DatenA gesehen hat.

Page 119: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A)

=Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 120: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 121: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 122: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07

≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 123: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 124: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.

Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 125: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.

Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 126: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel: Medizinischer Test

Die bedingte Wahrscheinlichkeit, dass die Patientin Krebs hat,gegeben, dass das Mammogramm dies anzeigt, ist:

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(A)

=Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(BC) · Pr(A|BC)

=0.008 · 0.9

0.008 · 0.9 + 0.992 · 0.07≈ 0.0939

Bedingt darauf, dass das Mammogramm Krebs anzeigt, betragtdie Wahrscheinlichkeit, dass die Patientin Krebs hat, alsolediglich 9.4%.Das richtige Ergebnis “ungefahr 10%” hatten ubrigens nur 4 der28 Arzte genannt.Zwei davon haben eine unzutreffende Begrundung genannt undwaren wohl nur zufallig auf das richtige Ergebnis gekommen.

Page 127: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 128: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

Das Ziegenproblem

In der amerikanischen TV-Show Let’s Make a Deal kannder Kandidat am Ende einen Sportwagen gewinnen, dersich hinter einer von drei Turen verbirgt.

Hinter den anderen beiden Turen stehen Ziegen.Der Kandidat entscheidet sich zunachst fur eine der dreiTuren, z.B. Tur 1.Der Showmaster offnet dann eine der beiden anderenTuren, und zwar eine, hinter der eine Ziege steht, z.B. Tur 2.Der Kandidat kann nun bei Tur 1 bleiben oder sichumentscheiden und Tur 3 wahlen.Sollte er sich umentscheiden?

Page 129: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

Das Ziegenproblem

In der amerikanischen TV-Show Let’s Make a Deal kannder Kandidat am Ende einen Sportwagen gewinnen, dersich hinter einer von drei Turen verbirgt.Hinter den anderen beiden Turen stehen Ziegen.

Der Kandidat entscheidet sich zunachst fur eine der dreiTuren, z.B. Tur 1.Der Showmaster offnet dann eine der beiden anderenTuren, und zwar eine, hinter der eine Ziege steht, z.B. Tur 2.Der Kandidat kann nun bei Tur 1 bleiben oder sichumentscheiden und Tur 3 wahlen.Sollte er sich umentscheiden?

Page 130: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

Das Ziegenproblem

In der amerikanischen TV-Show Let’s Make a Deal kannder Kandidat am Ende einen Sportwagen gewinnen, dersich hinter einer von drei Turen verbirgt.Hinter den anderen beiden Turen stehen Ziegen.Der Kandidat entscheidet sich zunachst fur eine der dreiTuren, z.B. Tur 1.

Der Showmaster offnet dann eine der beiden anderenTuren, und zwar eine, hinter der eine Ziege steht, z.B. Tur 2.Der Kandidat kann nun bei Tur 1 bleiben oder sichumentscheiden und Tur 3 wahlen.Sollte er sich umentscheiden?

Page 131: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

Das Ziegenproblem

In der amerikanischen TV-Show Let’s Make a Deal kannder Kandidat am Ende einen Sportwagen gewinnen, dersich hinter einer von drei Turen verbirgt.Hinter den anderen beiden Turen stehen Ziegen.Der Kandidat entscheidet sich zunachst fur eine der dreiTuren, z.B. Tur 1.Der Showmaster offnet dann eine der beiden anderenTuren, und zwar eine, hinter der eine Ziege steht, z.B. Tur 2.

Der Kandidat kann nun bei Tur 1 bleiben oder sichumentscheiden und Tur 3 wahlen.Sollte er sich umentscheiden?

Page 132: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

Das Ziegenproblem

In der amerikanischen TV-Show Let’s Make a Deal kannder Kandidat am Ende einen Sportwagen gewinnen, dersich hinter einer von drei Turen verbirgt.Hinter den anderen beiden Turen stehen Ziegen.Der Kandidat entscheidet sich zunachst fur eine der dreiTuren, z.B. Tur 1.Der Showmaster offnet dann eine der beiden anderenTuren, und zwar eine, hinter der eine Ziege steht, z.B. Tur 2.Der Kandidat kann nun bei Tur 1 bleiben oder sichumentscheiden und Tur 3 wahlen.

Sollte er sich umentscheiden?

Page 133: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

Das Ziegenproblem

In der amerikanischen TV-Show Let’s Make a Deal kannder Kandidat am Ende einen Sportwagen gewinnen, dersich hinter einer von drei Turen verbirgt.Hinter den anderen beiden Turen stehen Ziegen.Der Kandidat entscheidet sich zunachst fur eine der dreiTuren, z.B. Tur 1.Der Showmaster offnet dann eine der beiden anderenTuren, und zwar eine, hinter der eine Ziege steht, z.B. Tur 2.Der Kandidat kann nun bei Tur 1 bleiben oder sichumentscheiden und Tur 3 wahlen.Sollte er sich umentscheiden?

Page 134: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) =

1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 135: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3

= Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 136: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)

Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 137: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) =

1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 138: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1,

Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 139: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) =

1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 140: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2,

Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 141: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) =

0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 142: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =

Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 143: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 144: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0

= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 145: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 146: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bedingte Wahrscheinlichkeiten und die Bayes-Formel Das Ziegenproblem

A : Der Showmaster offnet Tur 2.B : Das Auto ist hinter Tur 3.C : Das Auto ist hinter Tur 1.D : Das Auto ist hinter Tur 2.

Pr(B) = 1/3 = Pr(C) = Pr(D)Pr(A|B) = 1, Pr(A|C) = 1/2, Pr(A|D) = 0.

Pr(B|A) =Pr(B) · Pr(A|B)

Pr(B) · Pr(A|B) + Pr(C) · Pr(A|C) + Pr(D) · Pr(A|D)

=13 · 1

13 · 1 + 1

3 ·12 + 1

3 · 0= 2/3

Es lohnt sich also, zu Tur 3 zu wechslen.

Page 147: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Inhalt

1 Frequentistische StatistikNochmal zu Konfidenzintervallen fur das p derBinomialverteilungGrundsatzliches zur frequentistischen StatistikDualitat von Tests und KonfidenzintervallenMaximum-Likelihood-Schatzer

2 Bedingte Wahrscheinlichkeiten und die Bayes-FormelBeispiel: Medizinischer TestDas Ziegenproblem

3 Bayessche Statistik

Page 148: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Grundannahmen der Bayesschen Statistik

Parameter werden auch als zufallig betrachtet

Die a-priori-Wahrscheinlichkeitsverteilung eines Parametersgibt an, fur wie wahrscheinlich man die moglichenParameterwerte halt bevor man die Daten gesehen hat.Mit der Bayes-Formel erhalt man die a-posteriori-Verteilung,also die bedingte Wahrscheinlichkeitsverteilung derParameterwerte θ gegeben die Daten D.

Pr(θ0|D) =Pr(D|θ0) · Pr(θ0)

Pr(D)=

Pr(D|θ0) · Pr(θ0)∑θ Pr(D|θ) Pr(θ)

Das Ganze geht nur, wenn diea-priori-Wahrscheinlichkeiten Pr(θ) definiert sind. Pr(D|θ0)ist gerade die Likelihood LD(θ) aus der frequentistischenStatistik. In der Regel hat man es mit kontinuierlichen Parameterraumen zu tun.Dann sind die a-priori- und a-posteriori-Wahrscheinlichkeiten durch Dichten und dieSumme durch ein Integral zu ersetzen.

Page 149: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Grundannahmen der Bayesschen Statistik

Parameter werden auch als zufallig betrachtetDie a-priori-Wahrscheinlichkeitsverteilung eines Parametersgibt an, fur wie wahrscheinlich man die moglichenParameterwerte halt bevor man die Daten gesehen hat.

Mit der Bayes-Formel erhalt man die a-posteriori-Verteilung,also die bedingte Wahrscheinlichkeitsverteilung derParameterwerte θ gegeben die Daten D.

Pr(θ0|D) =Pr(D|θ0) · Pr(θ0)

Pr(D)=

Pr(D|θ0) · Pr(θ0)∑θ Pr(D|θ) Pr(θ)

Das Ganze geht nur, wenn diea-priori-Wahrscheinlichkeiten Pr(θ) definiert sind. Pr(D|θ0)ist gerade die Likelihood LD(θ) aus der frequentistischenStatistik. In der Regel hat man es mit kontinuierlichen Parameterraumen zu tun.Dann sind die a-priori- und a-posteriori-Wahrscheinlichkeiten durch Dichten und dieSumme durch ein Integral zu ersetzen.

Page 150: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Grundannahmen der Bayesschen Statistik

Parameter werden auch als zufallig betrachtetDie a-priori-Wahrscheinlichkeitsverteilung eines Parametersgibt an, fur wie wahrscheinlich man die moglichenParameterwerte halt bevor man die Daten gesehen hat.Mit der Bayes-Formel erhalt man die a-posteriori-Verteilung,also die bedingte Wahrscheinlichkeitsverteilung derParameterwerte θ gegeben die Daten D.

Pr(θ0|D) =Pr(D|θ0) · Pr(θ0)

Pr(D)

=Pr(D|θ0) · Pr(θ0)∑

θ Pr(D|θ) Pr(θ)

Das Ganze geht nur, wenn diea-priori-Wahrscheinlichkeiten Pr(θ) definiert sind. Pr(D|θ0)ist gerade die Likelihood LD(θ) aus der frequentistischenStatistik. In der Regel hat man es mit kontinuierlichen Parameterraumen zu tun.Dann sind die a-priori- und a-posteriori-Wahrscheinlichkeiten durch Dichten und dieSumme durch ein Integral zu ersetzen.

Page 151: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Grundannahmen der Bayesschen Statistik

Parameter werden auch als zufallig betrachtetDie a-priori-Wahrscheinlichkeitsverteilung eines Parametersgibt an, fur wie wahrscheinlich man die moglichenParameterwerte halt bevor man die Daten gesehen hat.Mit der Bayes-Formel erhalt man die a-posteriori-Verteilung,also die bedingte Wahrscheinlichkeitsverteilung derParameterwerte θ gegeben die Daten D.

Pr(θ0|D) =Pr(D|θ0) · Pr(θ0)

Pr(D)=

Pr(D|θ0) · Pr(θ0)∑θ Pr(D|θ) Pr(θ)

Das Ganze geht nur, wenn diea-priori-Wahrscheinlichkeiten Pr(θ) definiert sind. Pr(D|θ0)ist gerade die Likelihood LD(θ) aus der frequentistischenStatistik. In der Regel hat man es mit kontinuierlichen Parameterraumen zu tun.Dann sind die a-priori- und a-posteriori-Wahrscheinlichkeiten durch Dichten und dieSumme durch ein Integral zu ersetzen.

Page 152: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Grundannahmen der Bayesschen Statistik

Parameter werden auch als zufallig betrachtetDie a-priori-Wahrscheinlichkeitsverteilung eines Parametersgibt an, fur wie wahrscheinlich man die moglichenParameterwerte halt bevor man die Daten gesehen hat.Mit der Bayes-Formel erhalt man die a-posteriori-Verteilung,also die bedingte Wahrscheinlichkeitsverteilung derParameterwerte θ gegeben die Daten D.

Pr(θ0|D) =Pr(D|θ0) · Pr(θ0)

Pr(D)=

Pr(D|θ0) · Pr(θ0)∑θ Pr(D|θ) Pr(θ)

Das Ganze geht nur, wenn diea-priori-Wahrscheinlichkeiten Pr(θ) definiert sind. Pr(D|θ0)ist gerade die Likelihood LD(θ) aus der frequentistischenStatistik.

In der Regel hat man es mit kontinuierlichen Parameterraumen zu tun.Dann sind die a-priori- und a-posteriori-Wahrscheinlichkeiten durch Dichten und dieSumme durch ein Integral zu ersetzen.

Page 153: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Grundannahmen der Bayesschen Statistik

Parameter werden auch als zufallig betrachtetDie a-priori-Wahrscheinlichkeitsverteilung eines Parametersgibt an, fur wie wahrscheinlich man die moglichenParameterwerte halt bevor man die Daten gesehen hat.Mit der Bayes-Formel erhalt man die a-posteriori-Verteilung,also die bedingte Wahrscheinlichkeitsverteilung derParameterwerte θ gegeben die Daten D.

Pr(θ0|D) =Pr(D|θ0) · Pr(θ0)

Pr(D)=

Pr(D|θ0) · Pr(θ0)∑θ Pr(D|θ) Pr(θ)

Das Ganze geht nur, wenn diea-priori-Wahrscheinlichkeiten Pr(θ) definiert sind. Pr(D|θ0)ist gerade die Likelihood LD(θ) aus der frequentistischenStatistik. In der Regel hat man es mit kontinuierlichen Parameterraumen zu tun.Dann sind die a-priori- und a-posteriori-Wahrscheinlichkeiten durch Dichten und dieSumme durch ein Integral zu ersetzen.

Page 154: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Wenn man a-posteriori-Verteilungen fur Parameterberechnen oder simulieren kann, kann man sich ein Bilddavon machen, welche Parameterwerte angesichts derDaten in Frage kommen.

Statt des ML-Schatzers verwendet man zurParameterschatzung den Erwartungswert dera-posteriori-Verteilung oder den Wert mit der hochstena-posteriori-Wahrscheinlichkeit(sdichte) [MAP=maximuma-posteriori].Analog zu den Konfidenzintervallen der frequentistischenStatistik gibt es in der Bayesschen Statistik dieKredibilitatsbereiche. Ein 95%-Kredibilitatsbereich ist einParameterbereich, in dem gemaß dera-posteriori-Verteilung der wahre Parameter mit 95% liegt.

Page 155: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Wenn man a-posteriori-Verteilungen fur Parameterberechnen oder simulieren kann, kann man sich ein Bilddavon machen, welche Parameterwerte angesichts derDaten in Frage kommen.Statt des ML-Schatzers verwendet man zurParameterschatzung den Erwartungswert dera-posteriori-Verteilung oder den Wert mit der hochstena-posteriori-Wahrscheinlichkeit(sdichte) [MAP=maximuma-posteriori].

Analog zu den Konfidenzintervallen der frequentistischenStatistik gibt es in der Bayesschen Statistik dieKredibilitatsbereiche. Ein 95%-Kredibilitatsbereich ist einParameterbereich, in dem gemaß dera-posteriori-Verteilung der wahre Parameter mit 95% liegt.

Page 156: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Wenn man a-posteriori-Verteilungen fur Parameterberechnen oder simulieren kann, kann man sich ein Bilddavon machen, welche Parameterwerte angesichts derDaten in Frage kommen.Statt des ML-Schatzers verwendet man zurParameterschatzung den Erwartungswert dera-posteriori-Verteilung oder den Wert mit der hochstena-posteriori-Wahrscheinlichkeit(sdichte) [MAP=maximuma-posteriori].Analog zu den Konfidenzintervallen der frequentistischenStatistik gibt es in der Bayesschen Statistik dieKredibilitatsbereiche. Ein 95%-Kredibilitatsbereich ist einParameterbereich, in dem gemaß dera-posteriori-Verteilung der wahre Parameter mit 95% liegt.

Page 157: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: n = 20 Versuche, K = 3 Erfolge,p =?

K ist binomialverteilt mit n = 20. Wir beobachten K = 3. DerML-Schatzer ist also p = 3/20.

Wie sieht die a-posteriori-Verteilung fur p aus?

Die ist nur definiert, wenn wir zunachst eine a-priori-Verteilungfur p definieren. Wir gehen mal von der uniformen Verteilung auf[0, 1] aus (“alles gleich wahrscheinlich”).

Als a-posteriori-Verteilung ergibt sich dann dieBeta(1 + K ,1 + n − K )-Verteilung, siehe S. 106 in

G. Kersting, A. Wakolbinger (2008) Elementare Stochastik,Birkhauser, Basel.

Page 158: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: n = 20 Versuche, K = 3 Erfolge,p =?

K ist binomialverteilt mit n = 20. Wir beobachten K = 3. DerML-Schatzer ist also p = 3/20.

Wie sieht die a-posteriori-Verteilung fur p aus?

Die ist nur definiert, wenn wir zunachst eine a-priori-Verteilungfur p definieren. Wir gehen mal von der uniformen Verteilung auf[0, 1] aus (“alles gleich wahrscheinlich”).

Als a-posteriori-Verteilung ergibt sich dann dieBeta(1 + K ,1 + n − K )-Verteilung, siehe S. 106 in

G. Kersting, A. Wakolbinger (2008) Elementare Stochastik,Birkhauser, Basel.

Page 159: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: n = 20 Versuche, K = 3 Erfolge,p =?

K ist binomialverteilt mit n = 20. Wir beobachten K = 3. DerML-Schatzer ist also p = 3/20.

Wie sieht die a-posteriori-Verteilung fur p aus?

Die ist nur definiert, wenn wir zunachst eine a-priori-Verteilungfur p definieren.

Wir gehen mal von der uniformen Verteilung auf[0, 1] aus (“alles gleich wahrscheinlich”).

Als a-posteriori-Verteilung ergibt sich dann dieBeta(1 + K ,1 + n − K )-Verteilung, siehe S. 106 in

G. Kersting, A. Wakolbinger (2008) Elementare Stochastik,Birkhauser, Basel.

Page 160: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: n = 20 Versuche, K = 3 Erfolge,p =?

K ist binomialverteilt mit n = 20. Wir beobachten K = 3. DerML-Schatzer ist also p = 3/20.

Wie sieht die a-posteriori-Verteilung fur p aus?

Die ist nur definiert, wenn wir zunachst eine a-priori-Verteilungfur p definieren. Wir gehen mal von der uniformen Verteilung auf[0, 1] aus (“alles gleich wahrscheinlich”).

Als a-posteriori-Verteilung ergibt sich dann dieBeta(1 + K ,1 + n − K )-Verteilung, siehe S. 106 in

G. Kersting, A. Wakolbinger (2008) Elementare Stochastik,Birkhauser, Basel.

Page 161: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: n = 20 Versuche, K = 3 Erfolge,p =?

K ist binomialverteilt mit n = 20. Wir beobachten K = 3. DerML-Schatzer ist also p = 3/20.

Wie sieht die a-posteriori-Verteilung fur p aus?

Die ist nur definiert, wenn wir zunachst eine a-priori-Verteilungfur p definieren. Wir gehen mal von der uniformen Verteilung auf[0, 1] aus (“alles gleich wahrscheinlich”).

Als a-posteriori-Verteilung ergibt sich dann dieBeta(1 + K ,1 + n − K )-Verteilung

, siehe S. 106 in

G. Kersting, A. Wakolbinger (2008) Elementare Stochastik,Birkhauser, Basel.

Page 162: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: n = 20 Versuche, K = 3 Erfolge,p =?

K ist binomialverteilt mit n = 20. Wir beobachten K = 3. DerML-Schatzer ist also p = 3/20.

Wie sieht die a-posteriori-Verteilung fur p aus?

Die ist nur definiert, wenn wir zunachst eine a-priori-Verteilungfur p definieren. Wir gehen mal von der uniformen Verteilung auf[0, 1] aus (“alles gleich wahrscheinlich”).

Als a-posteriori-Verteilung ergibt sich dann dieBeta(1 + K ,1 + n − K )-Verteilung, siehe S. 106 in

G. Kersting, A. Wakolbinger (2008) Elementare Stochastik,Birkhauser, Basel.

Page 163: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

density of p for n=20 and K=3

p

dens

ity

a prioria posterioriML=MAPmean a−posterioricredibility interval

Page 164: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

density of p for n=20 and K=3

p

dens

ity

a prioria posterioriML=MAPmean a−posterioricredibility interval

Page 165: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

density of p for n=20 and K=3

p

dens

ity

a prioria posterioriML=MAPmean a−posterioricredibility interval

Page 166: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

density of p for n=20 and K=3

p

dens

ity

a prioria posterioriML=MAPmean a−posterioricredibility interval

Page 167: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

0.0 0.2 0.4 0.6 0.8 1.0

01

23

45

density of p for n=20 and K=3

p

dens

ity

a prioria posterioriML=MAPmean a−posterioricredibility interval

Page 168: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Der ML-Schatzer und der MAP-Schatzer stimmen wegender uniformen a-priori-Verteilung uberein.

Der Erwartungswert der a-posteriori-VerteilungBeta(1 + K ,1 + n − K ) ist

E(p|K ) =K + 1n + 2

.

Diesen Schatzer kennen wir bereits vom “k + 1, n + 2”-Trickals p. Wir erhalten hier also eine BayesscheInterpretation/Begrundung fur diesen Schatzer!Intervallschatzer:Wald-Konfidenzintervall: [0, 0.306]stud. Konfidenzintervall: [0, 0.321]“k + 1, n + 1”- Wald-Konfint.: [0.013, 0.351]Wilson-Konfidenzintervall: [0.052, 0.360]Kredibilitatsbereich: [0.054, 0.363]

Page 169: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Der ML-Schatzer und der MAP-Schatzer stimmen wegender uniformen a-priori-Verteilung uberein.Der Erwartungswert der a-posteriori-VerteilungBeta(1 + K ,1 + n − K ) ist

E(p|K ) =K + 1n + 2

.

Diesen Schatzer kennen wir bereits vom “k + 1, n + 2”-Trickals p. Wir erhalten hier also eine BayesscheInterpretation/Begrundung fur diesen Schatzer!Intervallschatzer:Wald-Konfidenzintervall: [0, 0.306]stud. Konfidenzintervall: [0, 0.321]“k + 1, n + 1”- Wald-Konfint.: [0.013, 0.351]Wilson-Konfidenzintervall: [0.052, 0.360]Kredibilitatsbereich: [0.054, 0.363]

Page 170: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Der ML-Schatzer und der MAP-Schatzer stimmen wegender uniformen a-priori-Verteilung uberein.Der Erwartungswert der a-posteriori-VerteilungBeta(1 + K ,1 + n − K ) ist

E(p|K ) =K + 1n + 2

.

Diesen Schatzer kennen wir bereits vom “k + 1, n + 2”-Trickals p. Wir erhalten hier also eine BayesscheInterpretation/Begrundung fur diesen Schatzer!Intervallschatzer:Wald-Konfidenzintervall: [0, 0.306]stud. Konfidenzintervall: [0, 0.321]“k + 1, n + 1”- Wald-Konfint.: [0.013, 0.351]Wilson-Konfidenzintervall: [0.052, 0.360]Kredibilitatsbereich: [0.054, 0.363]

Page 171: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Frequentisten vs. Bayesianer

Lange Zeit stritten Frequentisten und Bayesianer daruber,welche Sicht auf die Statistik die “richtige” sei.

Hauptkritikpunkt an den Bayesschen Methoden: Die Wahleiner a-posteriori-Verteilung ist subjektiv.Heute verwenden die meisten Statistiker sowohlfrequentistische und Bayessche Methoden je nach Bedarf.Die Wahl der a-priori-Verteilung ist aber in der Tat einheikler Punkt; eine uniforme Verteilung zu wahlen, ist nichtimmer eine Losung.

Page 172: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Frequentisten vs. Bayesianer

Lange Zeit stritten Frequentisten und Bayesianer daruber,welche Sicht auf die Statistik die “richtige” sei.Hauptkritikpunkt an den Bayesschen Methoden: Die Wahleiner a-posteriori-Verteilung ist subjektiv.

Heute verwenden die meisten Statistiker sowohlfrequentistische und Bayessche Methoden je nach Bedarf.Die Wahl der a-priori-Verteilung ist aber in der Tat einheikler Punkt; eine uniforme Verteilung zu wahlen, ist nichtimmer eine Losung.

Page 173: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Frequentisten vs. Bayesianer

Lange Zeit stritten Frequentisten und Bayesianer daruber,welche Sicht auf die Statistik die “richtige” sei.Hauptkritikpunkt an den Bayesschen Methoden: Die Wahleiner a-posteriori-Verteilung ist subjektiv.Heute verwenden die meisten Statistiker sowohlfrequentistische und Bayessche Methoden je nach Bedarf.

Die Wahl der a-priori-Verteilung ist aber in der Tat einheikler Punkt; eine uniforme Verteilung zu wahlen, ist nichtimmer eine Losung.

Page 174: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Frequentisten vs. Bayesianer

Lange Zeit stritten Frequentisten und Bayesianer daruber,welche Sicht auf die Statistik die “richtige” sei.Hauptkritikpunkt an den Bayesschen Methoden: Die Wahleiner a-posteriori-Verteilung ist subjektiv.Heute verwenden die meisten Statistiker sowohlfrequentistische und Bayessche Methoden je nach Bedarf.Die Wahl der a-priori-Verteilung ist aber in der Tat einheikler Punkt; eine uniforme Verteilung zu wahlen, ist nichtimmer eine Losung.

Page 175: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: Stammbaumschatzung

Bonobo ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAAATTTAAGTGCCACCCAAGTATTGGCTCA...

Schimpanse ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAAATTTAAGTACCACCTAAGTACTGGCTCA...

Gibbon TATTCTCATGTGGAAGCCATTTTGGGTACAACCCCAGTACTAACCCACTTCTCCACAACTCTATGTACTT...

Gorilla ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAGACAAATTTGGGTACCACCCAAGTATTGGCTAA...

mod. Mensch ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCA...

Neanderth CCAAGTATTGACTCACCCATCAACAACCGCCATGTATTTCGTACATTACTGCCAGCCACCATGAATATTG...

Pavian TATTTTATGTTGTACAAGCCCCACAGTACAACCTTAGCACTAGCTAACTTTTAATGCCACTATGTAATTC...

Oran Utan TTCTTTCATGGGGGACCAGATTTGGGTGCCACCCCAGTACTGACCCATTTCTAACGGCCTATGTATTTCG...

Spitzhrn CGTGCATTAATGCTTTACCACATTAATATATGGTACAGTACATAACTGTATATAAGTACATAGTACATTT...

mod. Mensch

Neanderthaler

Gibbon

Orang UtanGorillaBonobo

Schimpanse

Spitzhoernchen

Pavian

Page 176: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Beispiel: Stammbaumschatzung

Bonobo ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAAATTTAAGTGCCACCCAAGTATTGGCTCA...

Schimpanse ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAAATTTAAGTACCACCTAAGTACTGGCTCA...

Gibbon TATTCTCATGTGGAAGCCATTTTGGGTACAACCCCAGTACTAACCCACTTCTCCACAACTCTATGTACTT...

Gorilla ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAGACAAATTTGGGTACCACCCAAGTATTGGCTAA...

mod. Mensch ATTCTAATTTAAACTATTCTCTGTTCTTTCATGGGGAAGCAGATTTGGGTACCACCCAAGTATTGACTCA...

Neanderth CCAAGTATTGACTCACCCATCAACAACCGCCATGTATTTCGTACATTACTGCCAGCCACCATGAATATTG...

Pavian TATTTTATGTTGTACAAGCCCCACAGTACAACCTTAGCACTAGCTAACTTTTAATGCCACTATGTAATTC...

Oran Utan TTCTTTCATGGGGGACCAGATTTGGGTGCCACCCCAGTACTGACCCATTTCTAACGGCCTATGTATTTCG...

Spitzhrn CGTGCATTAATGCTTTACCACATTAATATATGGTACAGTACATAACTGTATATAAGTACATAGTACATTT...

mod. Mensch

Neanderthaler

Gibbon

Orang UtanGorillaBonobo

Schimpanse

Spitzhoernchen

Pavian

Page 177: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Parameterwerte mussen nicht immer Zahlen sein.

In der Phylogenieschatzung ist der zu schatzende Baumder Parameter.ML-Programme wie PHYLIP/dnaml suchen den ML-Baum,also den Baum, fur den die Sequenzdaten amwahrscheinlichsten sind.Bayessche Programme wie MrBayes oder BEASTerzeugen zunachst viele Baume gemaß dera-posteriori-Verteilung (gegeben die Sequenzdaten) undfassen dann zusammen, welche Aussagen (z.B. “Mensch,Schimpanse und Bonobo bilden eine monophyletischeGruppe”) fur welchen Anteil der Baume gelten.Mehr dazu erfahren Sie im EESlmu-Master’s-Studiengang.

Page 178: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Parameterwerte mussen nicht immer Zahlen sein.In der Phylogenieschatzung ist der zu schatzende Baumder Parameter.

ML-Programme wie PHYLIP/dnaml suchen den ML-Baum,also den Baum, fur den die Sequenzdaten amwahrscheinlichsten sind.Bayessche Programme wie MrBayes oder BEASTerzeugen zunachst viele Baume gemaß dera-posteriori-Verteilung (gegeben die Sequenzdaten) undfassen dann zusammen, welche Aussagen (z.B. “Mensch,Schimpanse und Bonobo bilden eine monophyletischeGruppe”) fur welchen Anteil der Baume gelten.Mehr dazu erfahren Sie im EESlmu-Master’s-Studiengang.

Page 179: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Parameterwerte mussen nicht immer Zahlen sein.In der Phylogenieschatzung ist der zu schatzende Baumder Parameter.ML-Programme wie PHYLIP/dnaml suchen den ML-Baum,also den Baum, fur den die Sequenzdaten amwahrscheinlichsten sind.

Bayessche Programme wie MrBayes oder BEASTerzeugen zunachst viele Baume gemaß dera-posteriori-Verteilung (gegeben die Sequenzdaten) undfassen dann zusammen, welche Aussagen (z.B. “Mensch,Schimpanse und Bonobo bilden eine monophyletischeGruppe”) fur welchen Anteil der Baume gelten.Mehr dazu erfahren Sie im EESlmu-Master’s-Studiengang.

Page 180: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Parameterwerte mussen nicht immer Zahlen sein.In der Phylogenieschatzung ist der zu schatzende Baumder Parameter.ML-Programme wie PHYLIP/dnaml suchen den ML-Baum,also den Baum, fur den die Sequenzdaten amwahrscheinlichsten sind.Bayessche Programme wie MrBayes oder BEASTerzeugen zunachst viele Baume gemaß dera-posteriori-Verteilung (gegeben die Sequenzdaten) undfassen dann zusammen, welche Aussagen (z.B. “Mensch,Schimpanse und Bonobo bilden eine monophyletischeGruppe”) fur welchen Anteil der Baume gelten.

Mehr dazu erfahren Sie im EESlmu-Master’s-Studiengang.

Page 181: Wahrscheinlichkeitsrechnung und Statistik für Biologen ...evol.bio.lmu.de/_statgen/StatBiol/10SS/freq_vs_bayes.pdf · 2 Bedingte Wahrscheinlichkeiten und die Bayes-Formel Beispiel:

Bayessche Statistik

Parameterwerte mussen nicht immer Zahlen sein.In der Phylogenieschatzung ist der zu schatzende Baumder Parameter.ML-Programme wie PHYLIP/dnaml suchen den ML-Baum,also den Baum, fur den die Sequenzdaten amwahrscheinlichsten sind.Bayessche Programme wie MrBayes oder BEASTerzeugen zunachst viele Baume gemaß dera-posteriori-Verteilung (gegeben die Sequenzdaten) undfassen dann zusammen, welche Aussagen (z.B. “Mensch,Schimpanse und Bonobo bilden eine monophyletischeGruppe”) fur welchen Anteil der Baume gelten.Mehr dazu erfahren Sie im EESlmu-Master’s-Studiengang.