Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein...

42
Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein Bayesianische Statistik für Einsteiger Tutorial 54. Gmds-Jahrestagung Essen 2009 Jochem König und Reinhard Vonthein Institut für Medizinische Biometrie, Epidemiologie und Informatik und IMBS Lübeck [email protected]

Transcript of Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein...

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

Bayesianische Statistik für EinsteigerTutorial

54. Gmds-Jahrestagung Essen 2009

Jochem König und Reinhard VontheinInstitut für Medizinische Biometrie, Epidemiologie und Informatik

und IMBS Lübeck

[email protected]

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

2

Bayes-Inferenzallgemein und abstrakt Zu Daten X und Parameter mit Likelihood

Kommt eine Prior (). Dann erhält man daraus mit dem Satz von Bayes die

Posterior

Der Nenner ist ‚konstant‘, d.h.nur von X, nicht von abhängig.

xfxL ;

xLdxfxfxXq ;

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

3

Einstichproben-Problem unter Normalverteilung Nehme bekannte Varianz 2 an.

Die Dichte von ist

Prior

222

22

xn

enxf

ni NXniNX 2,~Dann .,,1,,~ 2

20

20

2

0

200 2

1;,~

eN

X

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

4

Normales EinstichprobenproblemPosterior

Also

220

2

220

200

2220

20

2

2

20

20

21

21

22

0 /21

21

nn

xnxn

xn

cece

en

exfq

220

220

2200 1,~

nnxnNxX

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

5

Normales EinstichprobenproblemPosterior

Die normale Prior und die normale Likelihood machen eine normale Posterior.

Der a Posteriori-Erwartungswert ist ein Präzisionsgewichtetes Mittel aus a priori Erwartungswert und Stichprobenmittelwert.(Präzision:=1/Varianz)

Wenn Prior und Posterior aus derselben Familie sind heißen Likelihood und Prior konjugiert.

Die Parameter der Prior heißen Hyperparameter.00 ,

220

220

20

20 1,~

nnxnNxX

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

6

Normales EinstichprobenproblemNichtinformative PriorDer Trost für die Objektivisten und die Unentschiedenen Bisher allgemein

Nun:

Eine nichtnegative messbare Abbildung nach R heißt uneigentliche (improper) Dichte, wenn die Fläche darunter unendlich ist.

Diese Prior ist nicht informativ und uneigentlich Dennoch ist die Posterior definiert und eigentlich

12

020

200 ,~ nnxnNxxfq

1

0

,~

1;

nxNxxfq

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

7

Warum darf man uneigentliche Priors verwenden? Nochmal der Satz von Bayes

Nur das Integral im Nenner muss endlich sein, damit diese Posterior eine Dichte wird.

Die Prior muss nur bis auf einen constanten Faktor angegeben werden, kann also eine beliebige nichtnegative messbare Funktion sein.

Das Verhältnis gibt an, welchen Parameterwert ich a priori für wahrscheinlicher halte.

heißt: Ich bin perfekt unentschieden.

xLdxfxfxXq ;

1

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

8

2 Wermutstropfen1 Nicht immer führt eine improper Prior auf eine proper Posterior. 2 Der Begriff ‚nicht-informativ‘ kann in einer Situation

verschiedenen Priors angeheftet werden. Eine sehr beliebte und fundierte nichtinformative Prior ist

Jeoffry‘s Prior. Sie führt auf maximale Verwandtschaft zu Maximum-

Likelihood-Inferenz.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

9

Normales Einstichprobenproblem: Was kommt heraus? - Ergebnis der Bayes-InferenzDie Posterior und Funktionale davon: Posterior Mean Posterior Mode Posterior Median 95%-credibility interval (credible interval) aus 2,5% und 97,5% -

Quantil 95%-HPD-Intervall, HPD=highest posterior density Überschreitungswahrscheinlichkeit

als „Bayes-P-Wert“ für einseitigen Test xXµP 0

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

10

Normales Einstichprobenproblem: Was kommt heraus? - Ergebnis der Bayes-InferenzDie Posterior

und Funktionale davon: Posterior Mean = Posterior Mode = Posterior Median =

95%-credibility interval (credible interval) aus 2,5% und 97,5% -Quantil = 95%-HPD-Intervall,

Überschreitungswahrscheinlichkeitals „Bayes-P-Wert“ für einseitigen Test

220

220

20

20 1,~

nnxnNxX

220

220

20

20 196.1

nnxn

22

0220

20

20

nn

xn

220

20

20

n

xn

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

11

Normales Einstichprobenproblem: Ergebnis Speziell für dh Die Posterior

und Funktionale davon: Posterior Mean = Posterior Mode = Posterior Median =

95%-credibility interval (credible interval) aus 2,5% und 97,5% -Quantil = 95%-HPD-Intervall,

Überschreitungswahrscheinlichkeitals „Bayes-P-Wert“ für einseitigen Test

21,~ n

xNxX

n

x 196.1

/nx

x

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

12

2

~ ,X Nn

2

~ ,X Nn

1p

ˆ X E X x x

1 / 221

XP u

n

1 / 22

1X

P u X xn

22

X

n

2

2 2 0X

P X xn

Bayes-Methoden: ÄquivalenzenEin-Stichproben-Problem bekannte VarianzPunktschätzer, Konfidenzintervall und Test frequentistisch sind identisch mit den Bayesianischen Entsprechungen bei konstanter uneigentlicher Prior

Methode Frequentistisch Bayesianisch

Punktschätzer

Konfidenzinterval

p-Wert

Modell

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

13

Einstichproben-Problem unter Normalverteilung - Zwei Studien in Folge Beginne mit Prior p(µ)=1 Stichprobe 1 vom Umfang n1: Macht Posterior Das ist die Prior für Stichprobe 2 Stichprobe 2 vom Umfang n2: Macht Posterior

Bayes-Inferenz zeigt auf natürliche Weise den Zuwachs an Information an.

2

2,~ 2 nNX

1

2,~ 1 nNX

1

2,~µ 111 nxNxX

21

2,~,µ 21

22112211 nnnn

nxnxNxXxX

2

2,~ 2 nNX

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

14

2. TeilSchätzung eines Anteils

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

15

Schätzung eines Anteils Binomialverteilung

Mit Zähldichte

Dazu konjugiert ist die Beta-Verteilung. Man entdeckt sie, indem man nicht y sondern als

Zufallsgröße ansieht.

,~ nBinY

yny

yn

yYPyp

1

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

16

Die Beta-Verteilung Dichte

21

XVar

XE

,~ BetaX

11 1 xxxf

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

17

Beta-Verteilung

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

18

Mehr Beta

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

19

Schätzung eines Anteils

,~ Modell nBinY ,Beta~Prior

ynyY ,Beta~ Posterior

11

11,

111

q Beweis

yny

ynynBin yfY

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

20

Asymptotisch alles gleich Beta(0,0) ist gleichverteilung auf log(/(1-)) Beta(0,0) führt für y=0,n auf uneigentliche Posterior! Beta(.5,.5) ist Jeffreys Prior. (Siehe Carlin& Louis)

Schätzung eines AnteilsWelche Prior?

1;1,1Beta~Prior

ynyY ,Beta~ Posterior

11 1;0,0Beta~ch uneigentlioder

11;,Beta~ eigentlichdoch oder 2

121

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

21

Beispiel Y=2,n=5PosteriorBeta(+y,+n-y)= Beta(+2,+3)

20.056

32

40.05

2

0

2

0

SD

Var

E

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

22

Exakte binomiale Konfidenzintervalle nach Pearson-Clopper für k Erfolge bei n Versuchen

Für die Prior Beta(0,1) ist die untere Grenze des credible intervals identisch mit der unteren Konfidenzintervallgrenze nach Pearson Clopper.

Für die Prior Beta(1,0) ist die obere Grenze des credible intervals identisch mit der oberen Konfidenzintervallgrenze nach Pearson Clopper.

Schätzung eines AnteilsZusammenhang zu exaktem Konfidenzintervall

knkknk ,1Beta;1,Beta 2/12/

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

23

Prior uniform auf [0,1] uniform auf Logit-Skala

Exakte 95% Konfidenzintervalle und ML-Schätzerposterior Intervall und Medianposterior Meanposterior Mode

Ratenschätzung frequentistisch und BayesianischHyperparameter (1,1)

n=10%

0

10

20

30

40

50

60

70

80

90

100

Beobachtete Rate [%]0 10 20 30 40 50 60 70 80 90 100

Hyperparameter (.5,.5)n=10%

0

10

20

30

40

50

60

70

80

90

100

Beobachtete Rate [%]0 10 20 30 40 50 60 70 80 90 100

Hyperparameter (0,0)n=10%

0

10

20

30

40

50

60

70

80

90

100

Beobachtete Rate [%]0 10 20 30 40 50 60 70 80 90 100

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

24

Teil 3.

BeispielBayesianische Schäzung einer Prävalenz in Abwesenheit

eines Goldstandards

Results of serologic and stool testing for Strongyloides Infection on 162 Cambodian refugees arriving in Montreal, Canada,

between July 1982 and February 1983

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

25

Bayesianische Schäzung einer Prävalenz in Abwesenheit eines Goldstandards

Stool examination + - total

Serology +

38 87 125

- 2 35 37

Total 40 122 162

Results of serologic and stool testing for Strongyloides Infection on 162 Cambodian refugees arriving in Montreal, Canada, between July 1982 and February 1983

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

26

Beispiel: Bayesianische Prävalenzschätzung in Abwesenheit eines Goldstandards

Prävalenz? Stuhlprobe ist hochspezifisch. Also pr > 25%?

Stool examination + - total

Serology +

38 87 125

- 2 35 37

Total 40 122 162

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

27

Beispiel: Bayesianische Prävalenzschätzung in Abwesenheit eines Goldstandards: Das Modell Bedingte Unabhängigkeit der Tests gegeben der wahre

Zustand Dann haben wir 5 Parameters (Prävalence, 2 Sensitivitäten, 2

Spezifitäten) Und dazu 5 Binomialverteilungen, welche erklären, wie die

Daten entstehen.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

28

Bayesianische Prävalenzschätzung in Abwesenheit eines Goldstandards„Prior-Elicitation“ durch Experten und Literatur

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

29

Example: Bayesian estimation of disease prevalence in absence of a gold standard

From: Joseph & al. 1995 Bayesian estimation of disease prevalence in absence of a gold standard. Am.J.Epidemiology 141, 263-272.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

30

Zauberei? Die Daten sind vier Zahlen. Es gibt 5 Parameter. Dann müssen die Ergebnisse wesentlich von der Wahl der

Priors abhängen! Sensitivitätsanalysen sind angezeigt (Variation der Prior): Lästig aber unerlässlich.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

31

Bayesianische Prävalenzschätzung in Abwesenheit eines Goldstandards:Wozu Bayes? Man könnte doch auch Prävalenzen für eine Reihe von

plausiblen Sensitivitäten und Spezifitäten herleiten. Bayes-Analyse gibt einen formalen Rahmen

Man ist veranlasst die Unsicherheit über unbekannte Parameter zu diskutieren und zu quantifizieren.

Dafür erhält man eine Synthese von getroffenen Annahmen und beobachteten Daten.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

Ausblick: Gemischte Modelle Das lineare fixed effects Modell mit flacher Prior für die

Koeffizienten und flacher Prior für log() ist nahezu identisch zur Kleinste-Quadrate Regression.

Erweiterung um Zufallseffekte in WinBUGS sehr einfach. Siehe Beispiel 1 ‘Rats’ aus dem Beispiele-Manual Im Gegensatz zu ML und REML enthalten die a posteriori

Standardfehler der Koeffizienten auch die Unsicherheit über die Zufallseffektvarianzparameter.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

Regressoren Zentrieren WinBUGS ist nicht translationsinvariant Es wird dringend empfohlen, alle stetigen Regressoren zu

zentrieren: Ersetze xi durch xi-mean Code-Beispiel mue[i]<-alpha+beta*(x[i]-3.5)

Die Mittelwerte am besten außerhalb Winbugs bestimmen und als Konstante einfügen. Dann geht es schneller.

Nicht Zentrieren kann die Konvergenz gefährden.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

34

Ausblicke

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

35

Fields for Bayesian Analysis in Epidemiology Hierarchical models (syn: multilevel models) Spatial epidemiology Missing values Meta analysis Bayesian sensitivity analysis Errors in variables (exposures measured with uncertainty) Hybrid designs: inference from several data sources (internal

validation study, repeated measurements) Risk analysis and health technology assessment.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

Fehlende Werte Die rationaleren Konzepte haben alle eine Bayesianische

Komponente. WinBUGS versteht den Wert NA = not available. Die Ergebnisse sind valide unter “non-informative

missingness”. Man kann informative missingness modellieren, indem man

Vektoren mit missingness-Indikatoren den Daten beifügt und eine Modell dazu spezifiziert.

Die Parameter für das Missingness Modell sind in der Regel sehr schlecht schätzbar und sollten daher Im Rahmen einer Sensitivitätsanalyse fest gesetzt werden, oder ((Mit stark informativen Priors belegt werden ))

Siehe z.B. Carpenter Pocock, Stat. Med.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

37

Die AG Bayes-Methodik der Deutschen Region der Internationalen Biometrischen

Gesellschaft www.imbei.uni-mainz.de/bayes Abstracts und Slides aller AG-Tagungen Eine Literatur-Datenbank zu MCMC Links zu Bayes-Sites.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

38

Bayes-Analyse ohne WinBUGS?Ja. New procedures in SAS (see references below) INLA = Approximate Bayesian inference for latent Gaussian

models by using integrated nested Laplace Approximations (havard rue)

BayesX (free from the statistics website at LMU München) GeoBUGS R2WinBUGS etc.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

Ankündigung und Call for PapersGemeinsame Arbeitstagung der Arbeitsgruppen

Bayes-Methodik,Ökologie und Umwelt

undRäumliche Statistik03. bis 05. 12. 2009

an der Universität LübeckTutorium von Håvard Rue, Trondheim:

Gaussian Markov Random Fields and Bayesian integration (INLA).

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

Gemeinsame Arbeitstagung, Lübeck,3.-5.12.2009 Vorträge aus dem gemeinsamen Interessenbereich der drei

Arbeitsgruppen. Themenbereiche sind:

Hierarchische Modelle, Kosten-Nutzen-Analyse und Entscheidungsfindung, Geostatistik, Disease Mapping, Raum-zeitliche Modelle, räumliche Modelle für

Waldlandschaften statistische Analyse von Krebsregister- und Surveillance-Daten, sowie freie Themen.

Nähere Informationen www.imbei.uni-mainz.de/bayes Anmeldungen und Kurzfassungen (max. 1 DIN A4-Seite, 12pt)

von Vorträgen bitte bis 15. 09. 2009 zur Begutachtung an einen der folgenden Ansprechpartner:

Dr. Jochem König, Inst. für Med. Biometrie, Epidemiologie und Informatik, Johannes Gutenberg-Univ. Mainz, 55131 Mainz, Tel. 06131-17-3121, Fax -2968, [email protected],

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

41

Literatur James O. Berger: Statistical Decision Theory and Bayesian Analysis, 2nd Edition. Springer

1985 Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2004), Bayesian Data Analysis,

3rd ed.London: Chapman & Hall. Gelman et. al http://www.stat.columbia.edu/~gelman/book/ B P Carlin & T A Louis (2000). Bayes and Empirical Bayes Methods for Data Analysis.

Chapman & Hall/CRC. J M Bernardo & A F M Amith (2000). Bayesian Theory. Wiley. http://support.sas.com/documentation/cdl/en/statugbayesian/61755/PDF/default/

statugbayesian.pdf Und Literatur dort.

Bitte geben Sie hier den Namen Ihrer Einrichtung über Ansicht/Master/ Folienmaster ein

42

Literatur – etwas länger Greenland S. Bayesian perspectives for epidemiological research: I. Foundations

and basic methods. Int. J. Epi 2006 Greenland S. Bayesian perspectives for epidemiological research: II.Regression

analysis. Int. J. Epi 2007

James O. Berger: Statistical Decision Theory and Bayesian Analysis, 2nd Edition. Springer 1985

Gelman, A., Carlin, J. B., Stern, H. S., and Rubin, D. B. (2004), Bayesian Data Analysis, 3rd ed.London: Chapman & Hall.

Gelman et. al http://www.stat.columbia.edu/~gelman/book/ B P Carlin & T A Louis (2000). Bayes and Empirical Bayes Methods for Data

Analysis. Chapman & Hall/CRC. J M Bernardo & A F M Amith (2000). Bayesian Theory. Wiley. http://support.sas.com/documentation/cdl/en/statugbayesian/61755/PDF/default/

statugbayesian.pdf and references there. Approximate Bayesian inference for latent Gaussian models by using integrated

nested Laplace Approximations. JRSS B 71, Part 2, pp. 1–35 www.math.ntnu.no/~hrue/RueOct2008.pdf