Vorlesung 10: Regressionsmodelle für Paneldateneswf.uni-koeln.de/lehre/04/04_03/aswf2_11.pdf ·...

Vorlesung 10: Regressionsmodelle für PaneldatenTeil 2: kategoriale Zielvariablen

1. Paneldaten mit kategorialen Daten2. Logistische Regression für Paneldaten

a) Wiederholung: Querschnittsdatenb) Fixed Effectsc) Random Effectsd) Fallstudie: Stressymptome nach Unfällen

3. Alternativena) Modelle für zeitdiskrete Ereignisdatenb) Verallgemeinerte lineare Modelle für Paneldaten

Stressymptome nach Unfällen• Überlebende von Hausbränden im Gebiet von

Philadelphia (USA)• Paneldaten: ptsd.dta (s. Handout)

– n=316 Personen– T=3 Wellen (3, 6 und 12 Monate nach Brand)

• Variablen– dichotome Zielvariable ptsd: posttraumatische Stresssymptome

(0=nein, 1=ja)– control: Kontrollüberzeugung (Skala)– problems: Probleme in verschiedenen Lebensbereichen (Anzahl)– sevent: Anzahl belastender Ereignisse seit letztem Interview– cohes: Familienzusammenhalt (Skala)

• Sequenzen: 111, 110, 101, 100, 011, 010, 001, 000• auch möglich: 333, 332, 322, 321 usw., wenn y polytom

Dauer beruflicher Tätigkeiten• Erwerbstätige Personen (simulierte Daten)• Paneldaten: jobyrs_complete.dta (s. Handout)

– n=100 Personen– T=5 Wellen (jährlich)

• Variablen– dichotome Zielvariable quitted: Tätigkeit beendet (0=nein,

1=selbst gekündigt)– ed: Ausbildung (Jahre)– prestige: Prestige der Tätigkeit (Skala)– salary: Einkommen (in 1000 $) zu Beginn der Tätigkeit

• Sequenzen: 00000, 00001, 00011, ..., 11111– Besonderheit: alle beginnen im gleichen Ausgangszustand (0)– eigentlich interessieren nur Wellen bis 1. Wechsel (jobyrs.dta)– alternativ ein Datensatz pro Person mit Dauer (jobdur.dta)

Analysemöglichkeiten

1. Frage: Was ist unter Berücksichtigung aller beobachteten Sequenzen die Wahrscheinlichkeit, die Ausprägung 1 zu beobachten?

2. Frage: Was ist die Wahrscheinlichkeit, im Ausgangszustand zu verbleiben bzw. diesen zu verlassen?

Logistisches Regressionsmodell

ikkii

i

xx

xx

ii

xx

eey

ikki

ikki

βββπ

π

π βββ

βββ

+++=⎟⎟⎠

⎞⎜⎜⎝

⎛−

+=== +++

+++

K

K

K

1101

1

1

1lnLogit

1)1Pr(lichkeitWahrschein

110

110

0.2

.4.6

.81

Pr(

y=1)

-5 0 5x

Logistisches Regressionmodell (ß0=0, ß1=1)

Odds Ratio (Antilogarithmus)

( ) ( ) ( )

( ) ( ) ( )

usw. ,: Ratio Odds1

Odds

1 Odds

1 Odds

)exp(1

lnexp

10

1

110

110

10

101

1

1

1

1

1

1101

1

K

K

K

K

K

ββ

βββ

βββ

αα

αααπ

ππ

ππ

π

βββπ

π

ee

eee

eee

xx

iki

ikki

ikki

xk

x

i

i

xx

i

i

xx

i

i

ikkii

i

==

⋅⋅⋅=−

⋅⋅⋅=−

⋅⋅⋅=−

+++=⎟⎟⎠

⎞⎜⎜⎝

⎛⎟⎟⎠

⎞⎜⎜⎝

⎛−

Maximum Likelihood Schätzung• Verwende als Schätzwerte für die

(unbekannten) Parameter β die Werte, die die Likelihood (die „Wahrscheinlichkeit“) des vorliegenden Untersuchungsergebnisses maximeren.

• Was ist mit Untersuchungsergebnis gemeint?Die Untersuchungseinheiten mit ihren– jeweiligen Ausprägungen (0, 1) der abhängigen

Variablen und– den jeweiligen Ausprägungen der unabhängigen

Variablen.

Maximum Likelihood Schätzung

( ) ( )

)ln(2)ln(2LRTest-LR1

lnLikelihood-Log

)Pr(yln)Pr(ylnlnmaximiere

),,|Pr(y),,|Pr(yLikelihood

1

n1

1n1111

110

110

ru

n

ixx

xx

nknk

LLee

(L)

xxxxL

ikki

ikki

−=

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=

++=

⋅⋅=

∑=

+++

+++

βββ

βββ

K

K

KKK

KKK

• Für das Maximum der Log-Likelihoodfunktion gibt es keine analytische Lösung (wie bei OLS-Schätzungen).

• Die Parameter β, die für die Daten (yi, xi) die Funktion ln(L) maximieren, müssen numerisch bestimmt werden.

• Dabei handelt es sich um die ML-Schätzer.• Tests: Likelihood-Verhältnis-Test (analog F-Test), Wald-

Test (analog T-Test)

Wiederholung: Fixed Effects bei linearen Modellen• Elimination aller zeitkonstanten Personeneffekte• „aller“ = beobachtete und unbeobachtete Effekte• time-demeaned data = Restvarianz nach

Elimination der personenspezifischen Mittelwerte

• nur die zeitliche Variation wird berücksichtigt• FE Schätzer sind bedingte Schätzer: pooled

OLS gegeben personenspezifische Mittelwerte• Alternativ: pro Person eine Dummy-Variable

Logistisches Regressionsmodell für Paneldaten

∑∑= =

++++

++++

⎟⎟⎠

⎞⎜⎜⎝

⎛+

=

++++=⎟⎟⎠

⎞⎜⎜⎝

⎛−

n

i

T

txxa

xxa

itkkitiit

iti

itkkiti

itkkiti

ee(L)

xxaa

1 1

1101

1

110

110

1lnlnLikelihood-Log

1lnmit Modell

βββ

βββ

βββπ

π

K

K

K

• ai: personenspezifischer Fehlerterm (vit weggelassen, zu kompliziert)

• Problem: ai lässt sich nicht ohne weiteres aus der Schätzfunktion eliminieren.

• Alternative: Schätzung der ai über eine personen-spezifische Dummy-Variable ist nicht mit Maximum Likelihood vereinbar.

• Erklärung: ML-Schätzung ist nicht mehr konsistent, da die Anzahl zu schätzender Parameter bei Verwendung von Dummies mit der Anzahl der Beobachtungen linear zunimmt.

Elimination der ai durch ConditionalLikelihood (Teil 1)• Maximiere die bedingte Wahrscheinlichkeit, eine

bestimmte Sequenz zu beobachten, gegeben eine bestimmte Summe von Einsen in der Sequenz.

• Bei T=2 Wellen sind z.B. folgende Sequenzen möglich:– mit Summe 0: 00 (keine Veränderung von y)

Pr(00|Σ=0) = 1/1 = 1– mit Summe 1: 01 oder 10 (Veränderung von y)

Pr(01|Σ=1) < 1Pr(10|Σ=1) < 1

– mit Summe 2: 11 (keine Veränderung von y)Pr(11|Σ=2) = 1/1 = 1

• Sequenzen mit bedingter Wahrscheinlichkeit gleich Eins tragen nicht zur Likelihood bei (a priori sichere Ereignisse).

Elimination der ai durch ConditionalLikelihood (Teil 2)Beispiel Pr(01|Σ=1)

ββ

β

ββ

β

ββ

β

β

β

β

β

β

β

21

2

21

2

21

1

2

2

1

2

2

1

11

1111

111

))0 und 1(oder )1 und 0Pr(()1 und 0Pr(

2121

21

ii

i

iiii

ii

iiii

ii

ii

ii

ii

ii

ii

ii

xx

x

xaxa

xa

xaxa

xa

xa

xa

xa

xa

xa

xa

iiii

ii

eee

eee

eee

ee

e

ee

e

yyyyyy

′′

′

′+′+

′+

′+′+

′+

′+

′+

′+

′+

′+

′+

+=

+=

+⋅

++

+⋅

+

+⋅

+

=====

==

Random Effects durch Faktorisierung der Likelihood• Faktorisierung der Likelihood nur möglich unter der

Annahme Corr(ai, x‘it) = 0• zusätzlich ist eine Verteilungsannahme für die

personenspezifischen Fehlerterme notwendig• f(a) ist die Dichtefunktion der ai (häufig Normalverteilung)• Annahme kann problematisch sein• Der Beitrag jeder Person i=1, ..., N zur Likelihood

errechnet sich wie folgt:

iiiitit

T

tiTii daafayYyyL )()|Pr()|,,Pr( 1 ∫ Π

+∞

∞−⎥⎦⎤

⎢⎣⎡ ′+=== βxX itK

Stressymptome nach Unfällen

Koeff. Std. Koeff. Std. Koeff. Std.Konstante 1.4246 0.8287 2.3586 1.1833control -0.9594 0.2047 -1.3236 0.2968 -1.0983 0.4221problems 0.2956 0.0505 0.3544 0.0705 0.2139 0.1027sevent 0.3557 0.0804 0.4015 0.1086 0.2027 0.1343cohes -0.1782 0.0373 -0.2477 0.0625t1 0.3566 0.2055 0.5259 0.2518 0.7941 0.2972t2 0.2499 0.2041 0.3513 0.2394 0.4365 0.2597ln(L)PersonenBeobachtungen

-483.42 -462.66 -120.84

948 948 948316 316 316

Pooled Logit Random Effects Fixed EffectsVariable

Grundlagen: Ereignisdatenanalyse

• Zielvariable: Zeitdauer bis zum Abgang aus dem Ausgangszustand (alternativ: Abgangsrate statt Zeitdauer mit identischen Ergebnissen)

• kontinuierliche oder zeitdiskrete Messung• Achtung: nicht bei allen Untersuchungseinheiten

wird im Untersuchungszeitraum ein Abgang zu beobachten sein (Zensierung)

• zensierte Beobachtungen müssen durch geeignete statistische Methoden mit berücksichtigt werden

Zeitdiskrete Ereignisdaten (Teil 1)

• Zielvariable: bedingte Wahrscheinlichkeit eines Abgangs (statt kontinuierlicher Abgangsrate)

• ohne Ereignis im Untersuchungszeitraum– Verbleib von Untersuchungseinheit i im

Ausgangszustand bis einschließlich Welle T=ti• Pr(Verbleib T=1) × ... × Pr(Verbleib T=ti)

• mit Ereignis im Untersuchungszeitraum– Verbleib von Untersuchungseinheit i im

Ausgangszustand bis Welle T=ti-1, dann Wechsel in Welle T=ti

• Pr(Verbleib T=1) × ... × Pr(Verbleib T=ti-1) × Pr(Abgang T=ti)• Alle Beobachtungen (mit und ohne Ereignis)

müssen berücksichtigt werden.

Zeitdiskrete Ereignisdaten (Teil 2)

itkkitTtTti

i

t

j

t

jjjii

t

jjii

i

iiii

xxddtλtλ

tλtλtλL

tλtλL

tttTtTtλ

i i

i

ββδδδ ++++++=⎟⎟⎠

⎞⎜⎜⎝

⎛−

−=−⋅−=

−⋅=

=≥==

∏ ∏

∏−

= =

−

=

KK 11221

1

1 1

1

1

)(1)(lnModell

))(1())(1())(1(Verbleib Likelihood

))(1()(Abgänge Likelihood

) bis VerbleibPr()in AbgangPr()|Pr()( W.bedingte

• Ergebnis: logistisches Modell, ML-Schätzung• modelliert wird Welle für Welle der mögliche Abgang aus

dem Ausgangszustand• Datenstruktur = logistische Regression für Paneldaten

Zeitdiskrete Ereignisdaten (Teil 3)• Datenstruktur und Vorgehen s. Handout• wichtig: Auflösung der Zeitdauern (jobdur.dta) in Paneldesign

(jobyrs.dta)• Um zu dem gleichen Ergebnis mit jobdur.dta zu kommen,

benötigt man spezielle Programme für Ereignisdatenanalyse (oder spezielle Befehle aus Stata).

• Vorteil der Auflösung in Paneldesign: zeitabhängige unabhängige Variablen können im Gegensatz zu jobdur.dtaeinfach berücksichtigt werden.

• Frage: Muss man personenspezifischen Fehlerterm berücksichtigen, da mehrere Beobachtungen pro Person vorliegen?

• Antwort: Nein, siehe Likelihood-Funktion! Erst notwendig bei wiederholbaren Ereignissen.

• Zeitdiskrete Ereignisanalyse erweiterbar auf polytomeEreignisse (konkurrierende Risiken) und wiederholbare Ereignisse

Verallgemeinerte lineare Modelle für Paneldaten• englische Bezeichnung: generalized estimating

equations (GEE)• pooled OLS, random effects sind Spezialfälle (s.

Fallstudie: wagepan.dta im Handout)• GEE erlaubt jedoch die Modellierung allgemeinerer

Korrelationsstrukturen• Anwendungen

– Abschnitt 8.3 in Allison, Paul D. (2001): Logistic Regression Using The SAS System - Theory and Application. Cary, NC: SAS Publishing

– Kap. 10 in Rabe-Hesketh, S. / Everitt, B. (2004): A Handbook of Statistical Analyses using Stata. Boca Raton et al.: Chapman & Hall/CRC

• Literatur– Hardin, J. / Hilbe, J. (2002): Generalized estimating equations.

Boca Raton et al.: Chapman & Hall/CRC

Zum Schluss

Zusammenfassung• Pr(y=1 | Sequenz): logistische Regression• Pr(T=t | Verbleib): zeitdiskrete Ereignisdatenanalyse

Analyse-strategien

• Annahme eines zeitdiskreten Prozesses• Zielvariable: bedingte Wahrscheinlichkeit für Ereignis• logistisches Regressionsmodell• nicht diskutiert:

– polytome Zielvariablen– wiederholbare Ereignisse

Ereignisdaten-analyse

• Fixed effects (keine zeitkonstanten x)• Random effects (unabhängige Fehlerterme a)• nicht diskutiert:

– polytome Zielvariablen– Modellierung der Vorgeschichte von y=1

Logistische Regression

Wichtige Fachausdrücke

logistic regressionLogistische RegressionOdds RatioOdds Ratio

conditionalprobability

bedingte Wahrschein-

lichkeit

conditionallikelihoodestimation

ConditionalLikelihoodSchätzung

event historyanalysis

Ereignisdaten-analyse

maximumlikelihoodestimation

Maximum LikelihoodSchätzung

likelihood ratiotest

Likelihood-Verhältnis-Test

Likelihoodfunction

Likelihood-Funktion

EnglischDeutschEnglischDeutsch

Weiterführende Literatur• Wooldridge (2003) diskutiert keine Modelle für Paneldaten mit

kategorialen Zielvariablen. Die notwendigen statistischen Grundlagen muss man sich daher aus (teilweise) voraussetzungsreicher Literatur zusammensuchen. Die programmtechnische Umsetzung kann ganz gut bei Allison nachgelesen werden:– Kap. 8 aus Allison, Paul D. (2001): Logistic Regression Using

The SAS System - Theory and Application. Cary, NC: SAS Publishing

– Kap. 7 aus Allison, Paul D. (1995): Survival Analysis Using SAS - A Practical Guide. Cary, NC: SAS Publishing

• Zum Einstieg in die statistischen Methoden:– Paneldaten: Kap. 21.5 aus Greene, William H. (): Econometric

Analysis. 5th edition. New Jersey: Prentice Hall– zeitdiskrete Ereignisdaten: Kap. 2 aus Allison, Paul D. (1984):

Event History Analysis - Regression for Longitudinal Event Data. Newbury Park et al.: Sage

– alternativ zeitdiskrete Ereignisdaten: Kap. 2 aus Yamaguchi, Kazuo (1991): Event History Analysis. Newbury Park et al.: Sage

Vorlesung 10: Regressionsmodelle für Paneldateneswf.uni-koeln.de/lehre/04/04_03/aswf2_11.pdf ·...

Documents

Transcript of Vorlesung 10: Regressionsmodelle für Paneldateneswf.uni-koeln.de/lehre/04/04_03/aswf2_11.pdf ·...