Vorlesung 10: Regressionsmodelle für Paneldateneswf.uni-koeln.de/lehre/04/04_03/aswf2_11.pdf ·...
Transcript of Vorlesung 10: Regressionsmodelle für Paneldateneswf.uni-koeln.de/lehre/04/04_03/aswf2_11.pdf ·...
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Stressymptome nach Unfällen• Überlebende von Hausbränden im Gebiet von
Philadelphia (USA)• Paneldaten: ptsd.dta (s. Handout)
– n=316 Personen– T=3 Wellen (3, 6 und 12 Monate nach Brand)
• Variablen– dichotome Zielvariable ptsd: posttraumatische Stresssymptome
(0=nein, 1=ja)– control: Kontrollüberzeugung (Skala)– problems: Probleme in verschiedenen Lebensbereichen (Anzahl)– sevent: Anzahl belastender Ereignisse seit letztem Interview– cohes: Familienzusammenhalt (Skala)
• Sequenzen: 111, 110, 101, 100, 011, 010, 001, 000• auch möglich: 333, 332, 322, 321 usw., wenn y polytom
Dauer beruflicher Tätigkeiten• Erwerbstätige Personen (simulierte Daten)• Paneldaten: jobyrs_complete.dta (s. Handout)
– n=100 Personen– T=5 Wellen (jährlich)
• Variablen– dichotome Zielvariable quitted: Tätigkeit beendet (0=nein,
1=selbst gekündigt)– ed: Ausbildung (Jahre)– prestige: Prestige der Tätigkeit (Skala)– salary: Einkommen (in 1000 $) zu Beginn der Tätigkeit
• Sequenzen: 00000, 00001, 00011, ..., 11111– Besonderheit: alle beginnen im gleichen Ausgangszustand (0)– eigentlich interessieren nur Wellen bis 1. Wechsel (jobyrs.dta)– alternativ ein Datensatz pro Person mit Dauer (jobdur.dta)
Analysemöglichkeiten
1. Frage: Was ist unter Berücksichtigung aller beobachteten Sequenzen die Wahrscheinlichkeit, die Ausprägung 1 zu beobachten?
2. Frage: Was ist die Wahrscheinlichkeit, im Ausgangszustand zu verbleiben bzw. diesen zu verlassen?
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Logistisches Regressionsmodell
ikkii
i
xx
xx
ii
xx
eey
ikki
ikki
βββπ
π
π βββ
βββ
+++=⎟⎟⎠
⎞⎜⎜⎝
⎛−
+=== +++
+++
K
K
K
1101
1
1
1lnLogit
1)1Pr(lichkeitWahrschein
110
110
0.2
.4.6
.81
Pr(
y=1)
-5 0 5x
Logistisches Regressionmodell (ß0=0, ß1=1)
Odds Ratio (Antilogarithmus)
( ) ( ) ( )
( ) ( ) ( )
usw. ,: Ratio Odds1
Odds
1 Odds
1 Odds
)exp(1
lnexp
10
1
110
110
10
101
1
1
1
1
1
1101
1
K
K
K
K
K
ββ
βββ
βββ
αα
αααπ
ππ
ππ
π
βββπ
π
ee
eee
eee
xx
iki
ikki
ikki
xk
x
i
i
xx
i
i
xx
i
i
ikkii
i
==
⋅⋅⋅=−
⋅⋅⋅=−
⋅⋅⋅=−
+++=⎟⎟⎠
⎞⎜⎜⎝
⎛⎟⎟⎠
⎞⎜⎜⎝
⎛−
Maximum Likelihood Schätzung• Verwende als Schätzwerte für die
(unbekannten) Parameter β die Werte, die die Likelihood (die „Wahrscheinlichkeit“) des vorliegenden Untersuchungsergebnisses maximeren.
• Was ist mit Untersuchungsergebnis gemeint?Die Untersuchungseinheiten mit ihren– jeweiligen Ausprägungen (0, 1) der abhängigen
Variablen und– den jeweiligen Ausprägungen der unabhängigen
Variablen.
Maximum Likelihood Schätzung
( ) ( )
)ln(2)ln(2LRTest-LR1
lnLikelihood-Log
)Pr(yln)Pr(ylnlnmaximiere
),,|Pr(y),,|Pr(yLikelihood
1
n1
1n1111
110
110
ru
n
ixx
xx
nknk
LLee
(L)
xxxxL
ikki
ikki
−=
⎟⎟⎠
⎞⎜⎜⎝
⎛+
=
++=
⋅⋅=
∑=
+++
+++
βββ
βββ
K
K
KKK
KKK
• Für das Maximum der Log-Likelihoodfunktion gibt es keine analytische Lösung (wie bei OLS-Schätzungen).
• Die Parameter β, die für die Daten (yi, xi) die Funktion ln(L) maximieren, müssen numerisch bestimmt werden.
• Dabei handelt es sich um die ML-Schätzer.• Tests: Likelihood-Verhältnis-Test (analog F-Test), Wald-
Test (analog T-Test)
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Wiederholung: Fixed Effects bei linearen Modellen• Elimination aller zeitkonstanten Personeneffekte• „aller“ = beobachtete und unbeobachtete Effekte• time-demeaned data = Restvarianz nach
Elimination der personenspezifischen Mittelwerte
• nur die zeitliche Variation wird berücksichtigt• FE Schätzer sind bedingte Schätzer: pooled
OLS gegeben personenspezifische Mittelwerte• Alternativ: pro Person eine Dummy-Variable
Logistisches Regressionsmodell für Paneldaten
∑∑= =
++++
++++
⎟⎟⎠
⎞⎜⎜⎝
⎛+
=
++++=⎟⎟⎠
⎞⎜⎜⎝
⎛−
n
i
T
txxa
xxa
itkkitiit
iti
itkkiti
itkkiti
ee(L)
xxaa
1 1
1101
1
110
110
1lnlnLikelihood-Log
1lnmit Modell
βββ
βββ
βββπ
π
K
K
K
• ai: personenspezifischer Fehlerterm (vit weggelassen, zu kompliziert)
• Problem: ai lässt sich nicht ohne weiteres aus der Schätzfunktion eliminieren.
• Alternative: Schätzung der ai über eine personen-spezifische Dummy-Variable ist nicht mit Maximum Likelihood vereinbar.
• Erklärung: ML-Schätzung ist nicht mehr konsistent, da die Anzahl zu schätzender Parameter bei Verwendung von Dummies mit der Anzahl der Beobachtungen linear zunimmt.
Elimination der ai durch ConditionalLikelihood (Teil 1)• Maximiere die bedingte Wahrscheinlichkeit, eine
bestimmte Sequenz zu beobachten, gegeben eine bestimmte Summe von Einsen in der Sequenz.
• Bei T=2 Wellen sind z.B. folgende Sequenzen möglich:– mit Summe 0: 00 (keine Veränderung von y)
Pr(00|Σ=0) = 1/1 = 1– mit Summe 1: 01 oder 10 (Veränderung von y)
Pr(01|Σ=1) < 1Pr(10|Σ=1) < 1
– mit Summe 2: 11 (keine Veränderung von y)Pr(11|Σ=2) = 1/1 = 1
• Sequenzen mit bedingter Wahrscheinlichkeit gleich Eins tragen nicht zur Likelihood bei (a priori sichere Ereignisse).
Elimination der ai durch ConditionalLikelihood (Teil 2)Beispiel Pr(01|Σ=1)
ββ
β
ββ
β
ββ
β
β
β
β
β
β
β
21
2
21
2
21
1
2
2
1
2
2
1
11
1111
111
))0 und 1(oder )1 und 0Pr(()1 und 0Pr(
2121
21
ii
i
iiii
ii
iiii
ii
ii
ii
ii
ii
ii
ii
xx
x
xaxa
xa
xaxa
xa
xa
xa
xa
xa
xa
xa
iiii
ii
eee
eee
eee
ee
e
ee
e
yyyyyy
′′
′
′+′+
′+
′+′+
′+
′+
′+
′+
′+
′+
′+
+=
+=
+⋅
++
+⋅
+
+⋅
+
=====
==
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Random Effects durch Faktorisierung der Likelihood• Faktorisierung der Likelihood nur möglich unter der
Annahme Corr(ai, x‘it) = 0• zusätzlich ist eine Verteilungsannahme für die
personenspezifischen Fehlerterme notwendig• f(a) ist die Dichtefunktion der ai (häufig Normalverteilung)• Annahme kann problematisch sein• Der Beitrag jeder Person i=1, ..., N zur Likelihood
errechnet sich wie folgt:
iiiitit
T
tiTii daafayYyyL )()|Pr()|,,Pr( 1 ∫ Π
+∞
∞−⎥⎦⎤
⎢⎣⎡ ′+=== βxX itK
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Stressymptome nach Unfällen
Koeff. Std. Koeff. Std. Koeff. Std.Konstante 1.4246 0.8287 2.3586 1.1833control -0.9594 0.2047 -1.3236 0.2968 -1.0983 0.4221problems 0.2956 0.0505 0.3544 0.0705 0.2139 0.1027sevent 0.3557 0.0804 0.4015 0.1086 0.2027 0.1343cohes -0.1782 0.0373 -0.2477 0.0625t1 0.3566 0.2055 0.5259 0.2518 0.7941 0.2972t2 0.2499 0.2041 0.3513 0.2394 0.4365 0.2597ln(L)PersonenBeobachtungen
-483.42 -462.66 -120.84
948 948 948316 316 316
Pooled Logit Random Effects Fixed EffectsVariable
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Grundlagen: Ereignisdatenanalyse
• Zielvariable: Zeitdauer bis zum Abgang aus dem Ausgangszustand (alternativ: Abgangsrate statt Zeitdauer mit identischen Ergebnissen)
• kontinuierliche oder zeitdiskrete Messung• Achtung: nicht bei allen Untersuchungseinheiten
wird im Untersuchungszeitraum ein Abgang zu beobachten sein (Zensierung)
• zensierte Beobachtungen müssen durch geeignete statistische Methoden mit berücksichtigt werden
Zeitdiskrete Ereignisdaten (Teil 1)
• Zielvariable: bedingte Wahrscheinlichkeit eines Abgangs (statt kontinuierlicher Abgangsrate)
• ohne Ereignis im Untersuchungszeitraum– Verbleib von Untersuchungseinheit i im
Ausgangszustand bis einschließlich Welle T=ti• Pr(Verbleib T=1) × ... × Pr(Verbleib T=ti)
• mit Ereignis im Untersuchungszeitraum– Verbleib von Untersuchungseinheit i im
Ausgangszustand bis Welle T=ti-1, dann Wechsel in Welle T=ti
• Pr(Verbleib T=1) × ... × Pr(Verbleib T=ti-1) × Pr(Abgang T=ti)• Alle Beobachtungen (mit und ohne Ereignis)
müssen berücksichtigt werden.
Zeitdiskrete Ereignisdaten (Teil 2)
itkkitTtTti
i
t
j
t
jjjii
t
jjii
i
iiii
xxddtλtλ
tλtλtλL
tλtλL
tttTtTtλ
i i
i
ββδδδ ++++++=⎟⎟⎠
⎞⎜⎜⎝
⎛−
−=−⋅−=
−⋅=
=≥==
∏ ∏
∏−
= =
−
=
KK 11221
1
1 1
1
1
)(1)(lnModell
))(1())(1())(1(Verbleib Likelihood
))(1()(Abgänge Likelihood
) bis VerbleibPr()in AbgangPr()|Pr()( W.bedingte
• Ergebnis: logistisches Modell, ML-Schätzung• modelliert wird Welle für Welle der mögliche Abgang aus
dem Ausgangszustand• Datenstruktur = logistische Regression für Paneldaten
Zeitdiskrete Ereignisdaten (Teil 3)• Datenstruktur und Vorgehen s. Handout• wichtig: Auflösung der Zeitdauern (jobdur.dta) in Paneldesign
(jobyrs.dta)• Um zu dem gleichen Ergebnis mit jobdur.dta zu kommen,
benötigt man spezielle Programme für Ereignisdatenanalyse (oder spezielle Befehle aus Stata).
• Vorteil der Auflösung in Paneldesign: zeitabhängige unabhängige Variablen können im Gegensatz zu jobdur.dtaeinfach berücksichtigt werden.
• Frage: Muss man personenspezifischen Fehlerterm berücksichtigen, da mehrere Beobachtungen pro Person vorliegen?
• Antwort: Nein, siehe Likelihood-Funktion! Erst notwendig bei wiederholbaren Ereignissen.
• Zeitdiskrete Ereignisanalyse erweiterbar auf polytomeEreignisse (konkurrierende Risiken) und wiederholbare Ereignisse
Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen
1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten
a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen
3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten
Verallgemeinerte lineare Modelle für Paneldaten• englische Bezeichnung: generalized estimating
equations (GEE)• pooled OLS, random effects sind Spezialfälle (s.
Fallstudie: wagepan.dta im Handout)• GEE erlaubt jedoch die Modellierung allgemeinerer
Korrelationsstrukturen• Anwendungen
– Abschnitt 8.3 in Allison, Paul D. (2001): Logistic Regression Using The SAS System - Theory and Application. Cary, NC: SAS Publishing
– Kap. 10 in Rabe-Hesketh, S. / Everitt, B. (2004): A Handbook of Statistical Analyses using Stata. Boca Raton et al.: Chapman & Hall/CRC
• Literatur– Hardin, J. / Hilbe, J. (2002): Generalized estimating equations.
Boca Raton et al.: Chapman & Hall/CRC
Zum Schluss
Zusammenfassung• Pr(y=1 | Sequenz): logistische Regression• Pr(T=t | Verbleib): zeitdiskrete Ereignisdatenanalyse
Analyse-strategien
• Annahme eines zeitdiskreten Prozesses• Zielvariable: bedingte Wahrscheinlichkeit für Ereignis• logistisches Regressionsmodell• nicht diskutiert:
– polytome Zielvariablen– wiederholbare Ereignisse
Ereignisdaten-analyse
• Fixed effects (keine zeitkonstanten x)• Random effects (unabhängige Fehlerterme a)• nicht diskutiert:
– polytome Zielvariablen– Modellierung der Vorgeschichte von y=1
Logistische Regression
Wichtige Fachausdrücke
logistic regressionLogistische RegressionOdds RatioOdds Ratio
conditionalprobability
bedingte Wahrschein-
lichkeit
conditionallikelihoodestimation
ConditionalLikelihoodSchätzung
event historyanalysis
Ereignisdaten-analyse
maximumlikelihoodestimation
Maximum LikelihoodSchätzung
likelihood ratiotest
Likelihood-Verhältnis-Test
Likelihoodfunction
Likelihood-Funktion
EnglischDeutschEnglischDeutsch
Weiterführende Literatur• Wooldridge (2003) diskutiert keine Modelle für Paneldaten mit
kategorialen Zielvariablen. Die notwendigen statistischen Grundlagen muss man sich daher aus (teilweise) voraussetzungsreicher Literatur zusammensuchen. Die programmtechnische Umsetzung kann ganz gut bei Allison nachgelesen werden:– Kap. 8 aus Allison, Paul D. (2001): Logistic Regression Using
The SAS System - Theory and Application. Cary, NC: SAS Publishing
– Kap. 7 aus Allison, Paul D. (1995): Survival Analysis Using SAS - A Practical Guide. Cary, NC: SAS Publishing
• Zum Einstieg in die statistischen Methoden:– Paneldaten: Kap. 21.5 aus Greene, William H. (): Econometric
Analysis. 5th edition. New Jersey: Prentice Hall– zeitdiskrete Ereignisdaten: Kap. 2 aus Allison, Paul D. (1984):
Event History Analysis - Regression for Longitudinal Event Data. Newbury Park et al.: Sage
– alternativ zeitdiskrete Ereignisdaten: Kap. 2 aus Yamaguchi, Kazuo (1991): Event History Analysis. Newbury Park et al.: Sage