Inhalt - agfda.userweb.mwn.deagfda.userweb.mwn.de/mixedmodels_2013/downloads/... · Gemischte...

Inhalt

1 Das lineare gemischte Modell

2 Likelihood-Schätzung für lineare gemischte Modelle

3 Likelihood-Inferenz im linearen gemischten Modell

4 Bayes-Schätzung für lineare gemischte ModelleWiederholung: Bayes-InferenzBayesianisches LMMEmpirische Bayes-SchätzungVolle Bayes-SchätzungErweiterungen: Flexiblere Verteilung der zufälligen Effekte

Bayes-Schätzung für lineare gemischte Modelle Wiederholung: Bayes-Inferenz

Wiederholung: Bayes-Inferenz

Parameter ✓ 2 ⇥ nicht deterministisch, sondern als zufällig angenommen.

Volles Wahrscheinlichkeitsmodell für alle beobachteten und unbeobachtetenGrößen bestehend aus:

Beobachtungsmodell: bedingte Verteilung der Daten gegeben unbekannteParameter ✓, p (y |✓).

Priori-Verteilung p (✓): drückt Vorwissen/Annahmen über ✓ aus.

Mathematisch günstig: zum Beobachtungsmodell konjugierte Prioris.(Prioris und Posterioris in der gleichen Verteilungsfamilie.)

Informationsgehalt der Priori: nicht oder schwach informative Prioris.

Gemischte Modelle Sonja Greven, LMU, 10/2013 69

Statistische Schlüsse basieren auf der Posteriori-Verteilung p (✓|y),✓ 2 ⇥, der bedingten Verteilung der unbeobachteten Größen gegeben diebeobachteten Daten.

Berechnung mit dem Satz von Bayes:

p (✓|y) =p (y |✓) p (✓)

⇥ p (y |✓) p (✓) d✓/ p (y |✓) p (✓)

mit der Normierungskonstanten der Posteriori-Dichte im Nenner.

Übliche Punktschätzer der Bayesianischen Inferenz:Posteriori-Erwartungswert ✓ = E(✓|y),Posteriori-Median ✓ = inf {✓ : F (✓|y) � 0.5},Posteriori-Modus ✓ = arg max {p(✓|y)}.

Problem: Posteriori-Verteilung meist analytisch unzugänglich

Lösung: Verwendung von MCMC-Verfahren, mit denen (abhängige)Zufallszahlen aus der Posteriori Verteilung gezogen werden können.

Grundidee MCMC

Konstruiere Markov-Kette (MK), deren stationäre Verteilung mit derPosteriori Verteilung übereinstimmt.

Zustände der MK entsprechen gezogenen Zufallszahlen, die (nachentsprechender Konvergenzzeit (Burn-In-Phase) der MK) abhängigeStichprobe aus Posteriori darstellen.

Abhängigkeit kann durch geeignetes Ausdünnen der Stichprobe reduziertwerden.

Interessierende Größen (z.B. P.-Erwartungswert), werden dann aus dieser(ausgedünnten) Stichprobe durch die empirischen Analoga geschätzt.

Bekanntester Algorithmus: Metropolis-Hastings-Algorithmus, Spezialfall:Gibbs-Sampler

Bayes-Schätzung für lineare gemischte Modelle Bayesianisches LMM

Beobachtungsmodell

Beobachtungsmodell:

y |�,b,# ⇠ N(X� + Zb,R(#))

entspricht y = X� + Zb + " mit " ⇠ N(0,R(#)).

Priori für �

Jetzt auch „feste“ Effekte � als Zufallsgrößen

kein Vorwissen über � ) nichtinformative Priori , d.h.

p(�) / const,

sonst� ⇠ N(m,M) mit bekanntem EWert m, Kovarianz M .

nichtinformative Priori p(�) / const ergibt sich als Grenzfall derPriori-Normalverteilung (NV) für Präzisionsmatrix M�1 ! 0.

zum Beobachtungsmodell konjugierte Normalverteilung für �) Posteriori-Inferenz vergleichsweise einfach.

Prioris für b, "

Üblicherweise:b ⇠ N(0,G (#)); " ⇠ N(0,R(#))

Kovarianzmatrizen G = Cov(b) und R = Cov(") hängen i.A. vonunbekannten Hyperparametern im Vektor # ab.

Voller Bayes-Ansatz:# ebenfalls Zufallsvariable, mit (Hyper-)Priori p(#), die in Ermittlung derPosteriori mit einfließt.

empirischer Bayes-Ansatz:# als unbekannter, aber fester Parameter.

Weitere Annahme: Zufallsgrößen �, b und " a priori unabhängig.

Gemeinsame Posteriori bei NV-Priori für � und b

p(�,b|y) / p(y |�,b)p(�)p(b)

/ exp✓

�12(y � X� � Zb)0R�1(y � X� � Zb)

� 12(� �m)0M�1(� �m)� 1

2b0G�1b

y ⇠ N(µ�,b,⌃�,b) (Übung) mit

⌃�,b =�

C 0R�1C + A��1

; C = [X |Z ]; A =

M�1 00 G�1

µ�,b = ⌃�,b�

m + C 0R�1y�

M�1m0

Posteriori bei nichtinformativer Priori für �

Nichtinformative Priori p(�) / const entspricht Präzisionsmatrix M�1 = 0:

p(�,b|y) / p(y |�,b)p(b)

/ exp✓

�12(y � X� � Zb)0R�1(y � X� � Zb)� 1

2b0G�1b

) Posteriori-EW für✓

C 0R�1C + A��1

C 0R�1y

) Posteriori-Kov. für✓

C 0R�1C + A��1

Posteriori äquivalent zu penalisiertem KQ-Kriterium KQpen(�,b) in (16)

Posteriori-Modus als Maximierer identisch mit BLUP-Schätzern, dieKQpen(�,b) minimieren. Posteriori-EW = Posteriori-Modus wegen NV.

Posteriori-Kov. identisch mit Kovarianz in (21).

Bayes-Schätzung für lineare gemischte Modelle Empirische Bayes-Schätzung

Empirische Bayes-Schätzung

Empirische Bayes-Schätzer für �,b durch Einsetzen der geschätztenKovarianzmatrizen G = G (#) und R = R(#) in vorige Ausdrücke.

Schätzung von # durch Maximieren der marginalen Likelihood für #:

# = arg max p(y |#) = arg maxZ

p(y |�,b,#)p(b|#)p(�)d�db.

Für nicht-informative p(�) / const ist die marginale Likelihood

p(y |#) =

p(y |�,b,#)p(b|#)d�db =

p(y |�,#)d�

proportional zur restringierten Likelihood exp{lR(#)}, siehe (20).) emp. Bayes-Schätzer in diesem Fall äquivalent zu REML-Schätzer#REML und den dazugehörigen EBLUPs für � und b.

Bayes-Schätzung für lineare gemischte Modelle Volle Bayes-Schätzung

Volle Bayes-Inferenz

Voller Bayes-Ansatz: Priori-Verteilung p(#) auch für unbekannteParameter #; �, b|# und # als unabhängig angenommen.

Inferenz basiert auf Posteriori-Verteilung

p(�,b,#|y) / p(y |�,b,#)p(�)p(b|#)p(#)

p(�,b,#|y) echte Posteriori-Dichte, wenn zur Normierung gilt:

p(y) =

p(y |�,b,#)p(�)p(b|#)p(#)d�dbd# <1.

Bei echter, informativer Priori mitR

p(#)d# = 1 existiert auch p(�,b,#|y).

Für nichtinformative Priori mitR

p(#)d# =1 Existenz der Posteriori nichtallgemein gesichert.

Beziehungen zur Likelihood-Inferenz

Bei nichtinformativer Priori p(#) / const und Existenz der Posteriori:

REML-Schätzer #REML als Maximierer der marginalen Likelihood =Posteriori-Modus der marginalen Posteriori von # wegen

p(#|y) = p(y |#)p(#)

p(y)/ p(y |#).

Bei zusätzlich nichtinformativer Priori p(�) / const: ML-Schätzer #ML alsMaximierer der Likelihood = #-Komponente des Posteriori-Modus dergemeinsamen Posteriori von � und # wegen

p(�,#|y) = p(y |#,�)p(#)p(�)

p(y)/ p(y |#,�).

Inferenz

Normierungskonstante der Posteriori i.A. nicht analytisch zugänglich) Posteriori-Dichte p(�,b,#|y) nicht in geschlossener Form darstellbar

volle Bayes-Inferenz daher üblicherweise mittels MCMC-Simulation(Details siehe z.B. Fahrmeir et al. (2007, Abschnitt B.5.3))

moderne (approximative) Alternativen:INLA (Integrated Nested Laplace Approximation),Variational Bayes-Verfahren

MCMC mit blockweisem Gibbs-Sampling

Vorgehen: Teile Parametervektor ✓ = (�,b,#) in Teilvektorenzusammengehöriger Parameter, d.h. üblicherweise �, b und # auf.

Wähle Startwerte �(0), b(0), #(0) und Anzahl der Iterationen T

Bilde vollständig bedingte Dichten (full conditionals) gegeben derrestlichen Parameter und y

Ziehe sequentiell Zufallszahlen �(t), b(t), #(t) aus diesen (geg. jeweils diemomentan aktuellen Zustände) bis T erreicht.

Nach einer gewissen Konvergenzphase können die Zufallszahlen als Ziehungen ausden Marginalverteilungen von �|y , b|y und #|y angesehen werden.

Vollständig bedingte Dichten

p(�|b,#, y) / p(y |�,b,#)p(�)

/ exp✓

�12(y � X� � Zb)0R(#)�1(y � X� � Zb)

�12(� �m)0M�1(� �m)

p(b|�,#, y) / exp✓

�12(y � X� � Zb)0R(#)�1(y � X� � Zb)

�12b0G (#)�1b

p(#|�,b, y) / p(y |�,b,#)p(b|#)p(#)

/ |R(#)|�1/2 |G (#)|�1/2 exp✓

�12b0G (#)�1b

�12(y � X� � Zb)0R(#)�1(y � X� � Zb)

Vollständig bedingte Dichten von �, b

�|· ⇠ N(µ� ,⌃�) mit (Übung)

⌃� =�

X 0R(#)�1X + M�1

��1

µ� = ⌃�

M�1m + X 0R(#)�1(y � Zb)�

b|· ⇠ N(µb,⌃b) mit (analog)

⌃b =�

Z 0R(#)�1Z + G (#)�1

��1

µb = ⌃b�

Z 0R(#)�1(y � X�)�

nichtinformative Priori mit M�1 = 0: Erwartungswertµ� = (X 0R(#)�1X )�1X 0R(#)�1(y � Zb) ist gewichteter KQ-Schätzerangewandt auf die um Zb bereinigten Daten

informative Priori ) Erwartungswert µ� ist gewichtetes Mittel ausKQ-Schätzer und Priori-Erwartungswert.

Analog für µb.

Vollständig bedingte Dichten von # im Spezialfall

LMM für Clusterdaten mit Cov(") = �2In ) # enthält �2 und Parameter in D.

nichtinformative Jeffreys Prioris p(�2) / ��2, p(D) / |D|�q+1

2 führen i.A. zuuneigentlichen (d.h. nicht normierbaren) Posteriori-Verteilungen

) Schwach informative inverse Gammaverteilung �2 ⇠ IG (a�, b�); a�, b� klein

Für D oft inverse Wishart-Verteilung. Bei D = diag(⌧2

, . . . , ⌧2

q ) mit unabh.⌧2

j ergibt diese ein Produkt von IGs mit ⌧2

j ⇠ IG (a⌧j , b⌧j ), j = 1, . . . , q.

Dann full conditionals bei zusätzlich p(�) / const (nichtinformative Priori):

�2|· ⇠ IG (a�, b�) mit a� = a� +12, b� = b� +

12||y � X� � Zb||2

j |· ⇠ IG (a⌧j , b⌧j ) mit a⌧j = a⌧j +m2

, b⌧j = b⌧j +12

Bayes-Schätzung für lineare gemischte Modelle Erweiterungen: Flexiblere Verteilung der zufälligen Effekte

Probleme der NV-Annahme für b

NV-Annahme für zufällige Effekte b ⇠ N (0,G ) mathematisch günstig. Aber wiesensitiv ist die Schätzung bei Fehlspezifikation?

Die Schätzer der festen Effekte � und der Kovarianzparameter # sind meistsehr robust gegenüber Fehlspezifikation der Verteilung der b.Die Standardfehler können jedoch über/unterschätzt werden.

Durch den Shrinkage-Effekt können die EBLUPs der zufälligen Effekte bnormalverteilt aussehen, selbst wenn die Verteilung der b z.B. bimodal /schief ist / hohe Wahrscheinlichkeitsmasse an den Rändern hat (heavy tails)) Schlechte Vorhersagen b. q-q-Plots der b eignen sich nicht zur Diagnose.Diagnose durch Fitten eines flexibleren Modells.

Alternative Prioris für b: Skalenmischungen

Verwendung von Prioris mit mehr Masse auf den Rändern (heavy-tailed): z.B.t-Verteilung mit niedrigen Freiheitsgraden, Laplace-Verteilung. Diese sind oftdarstellbar als Skalenmischung von Normalverteilungen

p(bi ) =

�(bi |µ, �2)p(�2|✓)d�2

Darstellbar als Skalenmischung ) sehr leicht in Modellhierarchie für LMMeinzubauen

Beispiel: t-Verteilung mit df = ⌫ ist Skalenmischung aus N(0, �2) mit��2 ⇠ �(⌫/2, ⌫/2)

Alternative Prioris für b: Finite Mixtures

Zur Aufdeckung von Clustern (z.B. durch unbeobachtete Kovariablen oderlatente Subpopulationen) können multimodale Verteilungen für die zufälligenEffekte verwendet werden, z.B. finite Mischverteilungsmodelle:

p(bi |⇡,�) =K

⇡kp(bi |�k),

mit Gewichten ⇡ = (⇡1

, . . . ,⇡k),PK

k ⇡k = 1, und parametrischer Vertei-lungsfamilie p (bi |�k) mit Parametern � = (�

, . . . ,�K ) (z.B. multivariateNV p (bi |µk ,⌃) mit Erwartungswerten µk und homogenen Kovarianzen ⌃)

nichtparametrische Erweiterung: K nicht fest/konstant, wird mitgeschätzt.

Noch flexibler: nichtparametrische Bayes-Ansätze, z.B. Dirichlet-Prozess-,Dirichlet-Prozess-Mischungs-Prioris.

Inferenz für diese Modelle basiert i.d.R. auf MCMC-Techniken.

Inhalt - agfda.userweb.mwn.deagfda.userweb.mwn.de/mixedmodels_2013/downloads/... · Gemischte...

Documents

Transcript of Inhalt - agfda.userweb.mwn.deagfda.userweb.mwn.de/mixedmodels_2013/downloads/... · Gemischte...

Bayes-Verfahren und frequentischer Ansatz in der ... · 1 Bayes-Verfahren und frequentischer Ansatz in der medizinischen Bio-metrie Johannes Hus¨ ing, Institut fur¨ Medizinische

Numerische Methoden der Bayes-Inferenz ...thomas.userweb.mwn.de/Lehre/wise1011/Bayes_1011/material/Bayes7b.pdf · Numerische Methoden der Bayes-Inferenz: Simulationsbasierte Methoden

Bayes-Inferenz - semwiso.userweb.mwn.desemwiso.userweb.mwn.de/schaetzentesten1-ws0910/skript/ST1-ws0910-kap04.p… · Kapitel 4 Bayes-Inferenz 4.1 Uberblick " De nition" bayesianischer

Zum Stand der internationalen Klimaverhandlungen · A1B Modelle (“Global: Energiemix”) A1FI Modelle (“Global: Kohle”) A1T Modelle (“Global: Erneuerbare”) A2 Modelle (“Nationale

The Chain Ladder reserve uncertainties revisited DAV · PDF fileEinführung Bayes-Modell versus klassisches Modell I Bayes Modell F Vektor f der "wahren" CL-Faktoren ist Realisation

Betriebsferien 24.06. bis 05.07.2019 ... - limes-thermen.de · Neujahr Di 01.01.2019 9.00 – 21.00 Uhr gemischte Sauna Mi 02.01.2019 8.30 – 21.00 Uhr ab 8.30 gemischte Sauna

Gemischte Lineare Modelle - lingexp.uni-tuebingen.de · Ubersicht I Lineare Modelle allgemein I Gemischte Lineare Modelle I Hypothesentests/ Modellvergleiche I Berichten der Ergebnisse

Gemischte Modelle in R - Fakultät Statistik · Kapitel 2 Gemischte Lineare Modelle WirbetrachtenzunächsteinigeallgemeineAussagenfürGemischteLineareModelle,ohnezutiefin …

Naive Bayes für Regressionsprobleme - ke.tu- · PDF fileEinleitung Annäherungsfunktion Algorithmus Evaluation Quellen Naive Bayes für Regressionsprobleme Vorhersage numerischer

Kapitel 1: Bayes-Netze - Uni Bremen || Startseite · Bayes-Netze 2 Ausgangspunkt: • Wahrscheinlichkeitsverteilungen über Welten sind geeignet, um unsicheres Wissen zu repräsentieren

e g n n n Modellen - uni-magdeburg.de · 2 Bayes-Methode bei vollständiger a-priori-Information Dadie hiervorgestellteMethodezur empirischenBayes-Schätzungaufder Bayes—Schätzungbei

Gemischte Aufwendungen - uni-regensburg.de...1 Einführung „Gemischte Aufwendungen – Eine Untersuchung nach einfach gesetzlichen und verfassungs-rechtlichen Vorgaben“ lautet

Bayes-Netze - Uni Bremen · Bayes-Netze sind wichtiger Vertreter von probabilistischen graphischen Modellen, die für solche Probleme sehr erfolgreich verwendet werden. Unsicheres

Kreisberechnungen: Gemischte Aufgaben...1 Kreisberechnungen: Gemischte Aufgaben Einfachere Aufgaben 1. Berechne den Umfang des Kreises mit: a. d = 3,0cm b. d = 10cm c. r = 15,5dm

„Wahrscheinlichkeiten, Bayes-Theorem und statistische ... · FA 738 Veröffentlicht in Controller Magazin 2 / 2014 „Wahrscheinlichkeiten, Bayes-Theorem und statistische Analysen“

Bayes Install - Keio Universityweb.sfc.keio.ac.jp/~kogure/seminar/07fall/2/WinBUGS_installation.pdf · Title: Bayes Install Author: Kousaku Kajita & Hiroki Kazaoka Keywords: Keio

Implementierung und Evaluation verschiedener Bayes-Filter ... · Der Bayes-Filter bietet eine Möglichkeit die Wahrscheinlichkeitsverteilung eines Sys- temzustands auszurechnen, [Thrun

Songria - chor mutschellen2011/06/21 · Em oc ste en es otpourrl Widen: Der gemischte Chor Songria sang Sich in 80 Minuten um die Welt In Widen sang der gemischte Chor Mutschellen

Probabilistische Graphische Modelle - techfak.uni-bielefeld.deswachsmu/GM06/folien-02.pdf · I Produktregel, Summenregel, Bayes Theorem I Unabh¨angigkeit, bed. Unabh. Probabilistische

Das Bayes-Theorem - chneukirchenchneukirchen.org/talks/bayes/bayes-theorem.pdf · Heute im Angebot: • Ein praktisches Beispiel zur Einleitung • Überblick über Reverend Thomas