Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz...

42
Angewandte statistische Regression II Vorlesung 3 Jan Ernest [email protected] *Inhalt basiert auf Unterrichtsmaterialien aus den Vorjahren von Prof. Dr. Werner Stahel, Dr. Lukas Meier, Prof. Dr. Barbara Hellriegel

Transcript of Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz...

Page 1: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Angewandte statistische Regression II

Vorlesung 3

Jan Ernest

[email protected]

*Inhalt basiert auf Unterrichtsmaterialien aus den Vorjahren von

Prof. Dr. Werner Stahel, Dr. Lukas Meier, Prof. Dr. Barbara Hellriegel

Page 2: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

• Konstruktion von Tests für verbundene («gepaarte») Stichproben, welche testen,

ob Randverteilungen gleich sind

• Approximativ via Chi-Quadrat verteilte Teststatistik → McNemar Test

• Exakt via Binomialtest

• 2-dimensionale Kreuztabellen sagen über Abhängigkeit in der Regel zu wenig aus

→ Simpson’s Paradox

• Kennzahlen für Abhängigkeit von zwei kategoriellen Variablen

• Absolute vs. relative Risiko-Differenz

• Odds

• Doppelverhältnis (odds ratio) als symmetrisches Mass für Abhängigkeit zweier

binärer Variablen.

Letztes Mal

Page 3: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

• Grundsituation für logistische Regression

• Binäre Zielvariable 𝑌𝑖 ∈ {0,1}

• Beliebige erklärende Variablen 𝑥𝑖(1), 𝑥𝑖

(2), … , 𝑥𝑖

(𝑚)

• Ansatz wie bei linearer Regression führt zum Modell

𝐸 𝑌𝑖 𝑥𝑖 = 𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝛽0 + 𝛽1𝑥𝑖(1)

+ 𝛽2𝑥𝑖(2)

+⋯+ 𝛽𝑚𝑥𝑖(𝑚)

und dem Problem, dass geschätzte Wahrscheinlichkeiten <0 oder >1 werden können.

Letztes Mal

Page 4: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Modell der logistischen Regression

𝑔 𝑃 𝑌𝑖 = 1 𝑥𝑖) = log𝑃 𝑌𝑖=1 𝑥𝑖)

𝑃 𝑌𝑖=0 𝑥𝑖)= 𝛽0 + 𝛽1𝑥𝑖

(1)+ 𝛽2𝑥𝑖

(2)+⋯+ 𝛽𝑚𝑥𝑖

𝑚

log odds(𝑌𝑖|𝑥𝑖)

Letztes Mal: Logistisches Regressionsmodell

Linearer Prädiktor 𝜂𝑖Link-Funktion (logit)

Page 5: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Kennt man den linearen Prädiktor 𝜂𝑖 (oder die Parameter 𝛽0, 𝛽1,…, 𝛽𝑚), dann erhält man die Wahrscheinlichkeit 𝑃 𝑌𝑖 = 1 𝑥𝑖) gemäss

𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝑔−1 𝜂𝑖 =exp{𝜂𝑖}

1+exp{𝜂𝑖}.

Entsprechend ist

𝑃 𝑌𝑖 = 0 𝑥𝑖) = 1 − 𝑃 𝑌𝑖 = 1 𝑥𝑖) =1

1+exp{𝜂𝑖}

Terminologie

• Die inverse Link-Funktion 𝑔−1 heisst logistische Funktion.

Letztes Mal: Inverse Link-Funktion 𝑔−1

Page 6: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Ader verengt (𝑌 = 1)

Ader nicht verengt (𝑌 = 0)

→ binäre Zielvariable

𝑌: Verengung (ja/nein)

→ erklärende Variablen

𝑉𝑜𝑙: Atem-Volumen

𝑅𝑎𝑡𝑒: Atem-Frequenz

Beispiel: Aderverengung

Logistisches Regressionsmodell:

𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = 𝛽0 + 𝛽1 ∙ 𝑉𝑜𝑙 + 𝛽2 ∙ 𝑅𝑎𝑡𝑒

Page 7: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Beispiel: Aderverengung Regressionsgleichung

(wie bei lm()) Logistische Regression

Koeffizienten መ𝛽0, መ𝛽1, መ𝛽2

Page 8: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Das angepasste logistische Regressionsmodell lautet:

𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = መ𝛽0 + መ𝛽1 ∙ 𝑉𝑜𝑙 + መ𝛽2 ∙ 𝑅𝑎𝑡𝑒

= −9.53 + 3.88 ∙ 𝑉𝑜𝑙 + 2.65 ∙ 𝑅𝑎𝑡𝑒

Punkte in der (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene mit gleichen Wahrscheinlichkeiten besitzen die

Eigenschaft, dass

−9.53 + 3.88 ∙ 𝑉𝑜𝑙 + 2.65 ∙ 𝑅𝑎𝑡𝑒 = konstant

Das heisst, 𝑅𝑎𝑡𝑒 hängt linear von 𝑉𝑜𝑙 ab.

Beispiel: Aderverengung

Page 9: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

𝑉𝑜𝑙

→ (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene

• Punkte mit gleichen Wahrscheinlichkeiten liegen auf einer Geraden

• Geraden für unterschiedliche Wahrscheinlichkeiten sind zueinander parallel

Beispiel: Aderverengung

Ra

te

𝑃 𝑌𝑖 = 1 𝑉𝑜𝑙𝑖 , 𝑅𝑎𝑡𝑒𝑖) > 0.5

𝑃 𝑌𝑖 = 1 𝑉𝑜𝑙𝑖 , 𝑅𝑎𝑡𝑒𝑖) < 0.5

Page 10: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Für ein Individuum mit 𝑉𝑜𝑙 = 2.3 und 𝑅𝑎𝑡𝑒 = 0.9 ergibt sich gemäss obigem

Modell eine geschätzte Wahrscheinlichkeit für eine Aderverengung von:

𝑃 𝑌 = 1 𝑉𝑜𝑙 = 2.3, 𝑅𝑎𝑡𝑒 = 0.9 = 𝑔−1 1.779 =exp{1.779}

1+exp{1.779}= 0.86.

Beispiel: Aderverengung

Ƹ𝜂

𝑃 𝑌 = 1 ො𝜂 =exp{ ො𝜂}

1 + exp{ො𝜂}

1.779

0.86

Page 11: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Ƹ𝜂

Beispiel: Aderverengung

Da 𝑃 𝑌 = 1 𝑉𝑜𝑙 = 2.3, 𝑅𝑎𝑡𝑒 = 0.9 = 0.86 > 0.5 würde man für das Individuum

eine Aderverengung (𝑌 = 1) vorhersagen.

True Positives (TP)

False Positives (FP)True Negatives (TN)

False Negatives (FN)

Page 12: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

eduApp: FP, FN

11

False Postives

False Negatives

Das hängt von der Anwendung ab

Was ist schlimmer? False Positives oder False Negatives?

Page 13: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

12

False Positives und False Negatives - Feueralarm

FeueralarmAlarm?

Ja NeinB

ren

nte

s? Ja

Feuer,

Alarm.

(“True Positive”)

Es brennt und der

Alarm geht nicht los.

(“False Negative”)

NeinFehlalarm!

(“False Positive”)

Kein Feuer

Kein Alarm

(“True Negative”)

* Beispiel und Darstellung übernommen und angepasst von Dr. D. Stekhoven, Vorlesung Mathematik IV: Statistik, HS 2017

Page 14: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

13

SpamfilterFilter?

Löscht E-Mail Lässt E-Mail durchS

pa

m?

Ja

E-Mail ist Spam und

wird gelöscht.

(“True Positive”)

E-Mail ist Spam,

kommt in Inbox an.

(“False Negative”)

Nein

Kein Spam,

E-Mail wird gelöscht!

(“False Positive”)

E-Mail ist kein Spam

und kommt an.

(“True Negative”)

* Beispiel und Darstellung übernommen und angepasst von Dr. D. Stekhoven, Vorlesung Mathematik IV: Statistik, HS 2017

False Positives und False Negatives - Spamfilter

Page 15: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Ƹ𝜂

Beispiel: Aderverengung

Anzahl False Positives / False Negatives kann durch Wahl des Klassifikations-

Schwellenwerts beeinflusst werden.

• Grösserer Schwellenwert (z.B. 0.75): Mehr False Negatives, weniger False Postives

• Kleinerer Schwellenwert (z.B. 0.25): Weniger False Negatives, mehr False Positives

True Positives (TP)

False Positives (FP)True Negatives (TN)

False Negatives (FN)

Page 16: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Erinnerung: Das Modell der logistischen Regression lautet:

log(odds(Y|x))=log𝑃 𝑌=1 𝑥)

𝑃 𝑌=0 𝑥)= 𝛽0 + 𝛽1𝑥

1 + 𝛽2𝑥2 +⋯+ 𝛽𝑚𝑥

𝑚

Wenn man 𝑥(𝑗) um eine Einheit erhöht (und alles andere fix lässt), dann

• Erhöhen sich die log-odds von 𝑌 = 1|𝑥 um 𝛽𝑗

• Ändern sich die odds von 𝑌 = 1|𝑥 um den Faktor exp 𝛽𝑗

• Für das Doppelverhältnis (odds ratio) gilt:

𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗+1)

𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗)= exp 𝛽𝑗 für beliebiges 𝑐𝑗.

.

Interpretation der Parameter

Page 17: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Logistische Regression:

Gruppierte Daten

Page 18: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Man hat zu den gleichen erklärenden Variablen mehrere Beobachtungen (Replikate)

der Zielvariable.

Beispiel: Frühgeburten

Angaben von 247 Säuglingen

Gruppierte Daten

Mittleres Gewicht

(Klasse 500-600g)

# Beobachtungen

in dieser Kategorie

# überlebende

Säuglinge

# nicht überle-

bende Säuglinge

Einteilung in 10 Gewichtsklassen

Page 19: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Notation

𝑚𝑙 Beobachtungen 𝑌𝑖 zu gleichen Bedingungen 𝑥𝑖 = 𝑥𝑙

Definiere ෨𝑌𝑙 =1

𝑚𝑙σ𝑖:𝑥𝑖= 𝑥𝑙

𝑌𝑖 (Anteil Erfolge)

Es gilt dann

→ 𝑌𝑖 mit 𝑥𝑖 = 𝑥𝑙 unabhängige Versuche mit Erfolgswahrscheinlichkeit 𝜋𝑙 = 𝑃 𝑌𝑖 = 1 𝑥𝑙 .

→ 𝑚𝑙෨𝑌𝑙 ~ 𝐵𝑖𝑛(𝑚𝑙 , 𝜋𝑙) binomialverteilt

→ 𝐸 ෨𝑌𝑙 = 𝜋𝑙

Wir verwenden das gleiche Modell wie vorher und modellieren:

𝑔 𝜋𝑙 = 𝑥𝑙𝑇𝛽

Gruppierte Daten

Page 20: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Die Grösse der Kreise ist

proportional zu der Anzahl

Beobachtungen 𝑚𝑙

Ante

il Ü

berlebe

nde

(෨ 𝑌 𝑙

)

Gewicht

Beispiel: Frühgeburten

Page 21: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Beispiel: Frühgeburten

Page 22: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

An

teil

Üb

erl

eb

en

de

(෨ 𝑌 𝑙

)

Gewicht

Beispiel: Frühgeburten

Page 23: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Logistische Regression:

Theorie

Page 24: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Schätzungen & Tests

Güte des Modells

R-Funktion summary(glm(…))

Page 25: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Logistische Regression:

Schätzungen & Tests

Page 26: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Frage: Wie schätzt man die Parameter 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚)?

Man verwendet das Maximum Likelihood Prinzip → man wählt die Parameter 𝛽 so,

dass die Wahrscheinlichkeit der beobachteten Ereignisse maximal ist.

Likelihood-Funktion

𝑙 𝛽 = 𝑃𝛽(𝑌1 = 𝑦1, 𝑌2 = 𝑦2,…, 𝑌𝑛 = 𝑦𝑛) = ς𝑖=1𝑛 𝑃𝛽(𝑌𝑖 = 𝑦𝑖)

wobei 𝑃𝛽 𝑌𝑖 = 𝑦𝑖 = 𝜋𝑖𝑦𝑖(1 − 𝜋𝑖)

1−𝑦𝑖 über 𝜋𝑖 von 𝛽 abhängt: 𝑔 𝜋𝑖 = 𝑥𝑖𝑇𝛽.

Fasst W’keiten des logistischen Modells in einem Ausdruck zusammen:

𝑃𝛽 𝑌𝑖 = 1 = 𝜋𝑖 und 𝑃𝛽 𝑌𝑖 = 0 = 1 − 𝜋𝑖

Logit-Funktion

Maximum Likelihood Schätzung

Page 27: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Um das Produkt zu vermeiden arbeitet man mit der log-Likelihood-Funktion:

𝑙𝑙 𝛽 = log 𝑙 𝛽

Man erhält durch Einsetzen von 𝜋𝑖 =exp 𝑥𝑖

𝑇𝛽

1+exp 𝑥𝑖𝑇𝛽

und Umformen

𝑙𝑙 𝛽 = σ𝑖=1𝑛 𝑦𝑖𝑥𝑖

𝑇𝛽 − log 1 + exp 𝑥𝑖𝑇𝛽 .

Maximieren bezüglich 𝛽 ergibt Parameterschätzer መ𝛽.

Bemerkungen:

• Im Gegensatz zur linearen Regression existiert keine geschlossen darstellbare

Lösung

• Lösung durch iterative numerische Verfahren

Maximum Likelihood Schätzung

Page 28: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Das numerische Lösungsverfahren mit gewichteten linearen Regressionsproblemen

liefert eine approximative Verteilung der geschätzten Parameter.

→ መ𝛽 ist approximativ multivariat normalverteilt mit Erwartungswert 𝛽 und einer

Kovarianzmatrix 𝑽(𝛽)

→ Approximative Tests und Vertrauensintervalle für die Koeffizienten:

Teststatistik (Wald Test)

𝑇𝑗 =𝛽𝑗−𝛽𝑗

𝑽𝑗𝑗

(𝛽)ist approximativ 𝑁(0,1)-verteilt.

Bemerkung

• 𝑽𝑗𝑗

(𝛽)bezeichnet das j-te Diagonalelement von 𝑽(𝛽) («Standardfehler von መ𝛽𝑗»)

Verteilung von መ𝛽

Page 29: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Beispiel: Aderverengung

Koeffizienten መ𝛽0, መ𝛽1, መ𝛽2 Standardfehler von መ𝛽0, መ𝛽1, መ𝛽2

Teststatistik (Wald-Tests)

Zugehörige p-Werte(𝐻0: 𝛽𝑗 = 0)

Page 30: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Logistische Regression:

Güte des Modells

Page 31: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

1. Anpassungstest, um zu testen, wie gut die Zielvariable durch die Einflussgrössen

erklärt wird → Vergleich von gefittetem Modell mit bestmöglichem («maximalem»)

Modell via Residuen-Devianz.

2. Vergleich zweier geschachtelter Modelle → Vergleich eines grösseren mit einem

kleineren Modell via Devianz-Differenz.

3. Hat das gefittete Modell überhaupt einen erklärenden Wert → Vergleich mit

«Nullmodell», das aussagt, dass erklärende Variablen keinen Effekt haben via

Null-Devianz.

→ Alle diese Fragestellungen können mittels Likelihood-Quotienten-Tests

beantwortet werden.

Drei Fragestellungen

Page 32: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

• Wie gut wird Zielvariable durch Einflussgrössen erklärt?

• Nur für gruppierte Daten sinnvoll.

• 𝐻0: Angepasstes Modell mit 𝑝 Parametern passt gut.

• 𝐻1: Maximales Modell 𝑀 (mit einem Parameter pro Gruppe) ist richtig.

• Teststatistik: 𝐷(𝑦; ො𝜋) = 2 𝑙𝑙 𝑀 − 𝑙𝑙( መ𝛽)

• Approximative Verteilung unter 𝐻0: 𝜒𝑑2 (falls 𝑚𝑙 genug gross)

Anzahl Freiheitsgrade 𝑑 = #Gruppen − #Parameter

1. Anpassungstest

Residuen-Devianz

Page 33: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Anpassungstest (Beispiel: Frühgeburten)

Residuen-Devianz 10 Gruppen – 2 Parameter

Page 34: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

• Vergleich zweier geschachtelter Modelle.

• Insbesondere auch geeignet um den Einfluss von kategoriellen erklärenden Variablen

auf die Zielgrösse zu prüfen.

• 𝐻0: Kleineres Modell 𝐾 ist richtig.

• 𝐻1: Grösseres Modell 𝐺 (welches Modell 𝐾 enthält) ist richtig.

• Teststatistik: 𝑇 = 2 𝑙𝑙 𝐺 − 𝑙𝑙 𝐾 = 𝐷(𝑦; ො𝜋(𝐾)) − 𝐷( 𝑦; ො𝜋(𝐾))

• Approximative Verteilung von 𝑇 unter 𝐻0: 𝜒𝑑2

Anzahl Freiheitsgrade 𝑑 ist die Differenz der Anzahl

Parameter der beiden Modelle: 𝑑 = 𝐺 − |𝐾|

2. Modellvergleich

Devianz-Differenz

Page 35: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Vergleich geschachtelter Modelle: R-Befehle

Residuen-Devianz 𝐷(𝑦; ො𝜋(𝐾))

Teststatistik ~ 𝜒12

(Devianz-Differenz)

Zugehöriger p-Wert

Residuen-Devianz 𝐷(𝑦; ො𝜋(𝐺))

Page 36: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Einfluss einzelner erklärender Variablen: R-Befehle

• Einfluss von kategoriellen erklärenden Variablen auf die Zielgrösse

Page 37: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

• 𝐻0: alle 𝛽𝑗 = 0, 𝑗 = 1,… ,𝑚.

• 𝐻1: mind. ein 𝛽𝑗 ≠ 0, 𝑗 = 1,… ,𝑚.

• Teststatistik: 𝑇 = 2 𝑙𝑙( መ𝛽) − 𝑙𝑙( መ𝛽(0)) = 𝐷( 𝑦; ො𝜋(0)) − 𝐷( 𝑦; ො𝜋)

• Approximative Verteilung von 𝑇 unter 𝐻0: 𝜒𝑚−12

• Hat das geschätzte Modell einen erklärenden Wert?

• Vergleich mit kleinstem sinnvollem Modell (Nullmodell), welches nur aus dem

Achsenabschnitt besteht, d.h. 𝜋𝑖 ist für alle Beobachtungen gleich:

ො𝜋(0) = σ𝑖=1𝑛 𝑦𝑖 /𝑛 (globaler Anteil «Erfolge»).

Gesamttest für die Regression

Residuen-DevianzNull-Devianz

Page 38: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Gesamttest für die Regression (Beispiel: Aderverengung)

Null-Devianz Residuen-Devianz

Page 39: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Logistische Regression:

Residuenanalyse

Page 40: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Es existieren mehrere mögliche Definitionen von Residuen.

• Rohe Residuen (response residuals)

• Prädiktor Residuen (working residuals, link residuals)

𝑅𝑙(𝐿)

= 𝑅𝑙𝑑𝜂

𝑑𝜋ො𝜋𝑙 = 𝑅𝑙

1

ෝ𝜋𝑙+

1

1−ෝ𝜋𝑙(nach 𝜂 projiziert)

• Pearson Residuen

• Devianz-Residuen

Residuen

Page 41: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

• QQ Plots machen in der Regel keinen Sinn

• Tukey-Anscombe Plots: z.B. Rohe Residuen gegen ො𝜋𝑙

TA-plot (Ungruppierte Daten)

Rohe R

esid

uen

ො𝜋

Page 42: Angewandte statistische Regression II Vorlesung 3 · Gesamttest für die Regression Null-Devianz Residuen-Devianz. Gesamttest für die Regression (Beispiel: Aderverengung) Null-Devianz

Pe

ars

on

Re

sid

ue

n

TA-plot (Gruppierte Daten)

ො𝜋