Panelregression (und Mehrebenenanwendungen)eswf.uni-koeln.de/aktuelles/vortraege/Panelregression...

Post on 07-Jan-2020

3 views 0 download

Transcript of Panelregression (und Mehrebenenanwendungen)eswf.uni-koeln.de/aktuelles/vortraege/Panelregression...

Panelregression (und Mehrebenenanwendungen)

Henning LohmannUniversität zu Köln

Lehrstuhl für Empirische Sozial- und Wirtschaftsforschung

SOEP@Campus 2007, Universität Duisburg-Essen, 11. Oktober 2007

Überblick

1. Einführung- Datenstruktur, Vorteile/Probleme, mögliche

Vorgehensweisen2. Analyse von Paneldaten

- OLS-Regression mit robusten Standardfehlern, random effects Modelle, fixed effects Modelle

3. Ausblick4. Einführung in die Übungsaufgaben

1. Einführung

Paneldaten / Mehrebenendaten ?

• Paneldaten weisen wie Mehrebenendaten eine hierarchische Datenstruktur auf

– z.B. mehrere Beobachtungen einer Person– z.B. mehrere Personen eines Landes

• daher werden (teilweise) dieselben Analyseverfahren verwendet

• hier soll es aber allein um die Analyse von Paneldaten gehen

Paneldaten: hierarchische Datenstruktur

…Person 1

b1 b2 b3 b4 b5 … bt

Person 2

b1 b2 b3 b4 b5 … bt

Person i

b1 b2 b3 b4 b5 … bt

i*t Beobachtungen

Paneldaten / MehrebenendatenPaneldaten Mehrebenendaten

1. Ebene z.B. Personen z.B. Länder

2. Ebene i Personen mit Beobachtungen an t Zeitpunkten (N=i*t)

j Länder mit Beobachtungen von i

Personen (N=j*i)

i.d.R. i>t i.d.R. j<i

Datenmatrix (long-Format)persnr jahr geschlecht eink

1 2002 maennlich 29151 2003 maennlich 64001 2004 maennlich 01 2005 maennlich 43001 2006 maennlich 35002 2002 weiblich 3042 2003 weiblich 6722 2004 weiblich 5062 2006 weiblich 2603 2002 maennlich 31953 2003 maennlich 34003 2004 maennlich 32503 2005 maennlich 32353 2006 maennlich 3328

Beobach-tungen

Personen

konstant variabel

Vorteile/Probleme von Paneldaten

• bessere Möglichkeiten zur Kausalanalyse– Analyse von Veränderungen auf individueller Ebene

möglich – Analyse von Zugängen und Abgängen auf Aggregatebene

• Kontrolle unbeobachteter Heterogenität• aber: Beobachtungen einer Person voneinander

abhängig erfordert Verwendung geeigneter Analyseverfahren

• weitere Probleme: Panelmortalität, fehlende Daten, Lerneffekte, Wandel der Erhebungsinstrumente, Wandel der Grundgesamtheit

Mögliche Vorgehensweisen

• herkömmliche Regressionsmodelle mit robusten Standardfehlern

• random effects models (unterschiedliche Bezeichunungen mit unterschiedlicher Schwerpunktsetzung: mixed models, variance components models, hierarchicallinear model, multilevel model)

• fixed effects models

2. Analyse von Paneldaten

Modellierung

yit=β0+ β1x1it+β2x2it+...+βkxkit+vit

mit: vit= ai+ uit

[ai: konstanter personenspezifischer Fehlerterm, wegen ai ergibt sich corr(vit, vis)≠0 Autokorrelation]

aber: Unter der Annahme, dasscorr(ai,xit)=0 sind OLS-Schätzer unverzerrt.

a) OLS-Regression mit robusten Standardfehlern

Beispiel 1: Körpergröße Männer/Frauen

• Befragung von 100 an 3 Zeitpunkten• abhängige Variable: Körpergröße (zeitlich

invariant)• unabhängige Variable: Geschlecht (zeitlich

invariant)• zunächst werden nur Daten der ersten Welle

betrachtet• Frage: Welchen Einfluss hat Geschlecht auf

Körpergröße?

Beispiel 1: Mittelwerteuse groesse.dta, clear

sum groesse1 if frau==1sum groesse1 if frau==0

Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------

groesse1 | 50 173.84 16.55462 145 200

. sum groesse1 if frau==0

Variable | Obs Mean Std. Dev. Min Max-------------+--------------------------------------------------------

groesse1 | 50 178.34 17.50173 151 203

Beispiel 1: OLS-Regression/Querschnittreg groesse1 frau

Source | SS df MS Number of obs = 100-------------+------------------------------ F( 1, 98) = 1.74

Model | 506.25 1 506.25 Prob > F = 0.1896Residual | 28437.94 98 290.183061 R-squared = 0.0175

-------------+------------------------------ Adj R-squared = 0.0075Total | 28944.19 99 292.365556 Root MSE = 17.035

------------------------------------------------------------------------------groesse1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------frau | -4.5 3.406952 -1.32 0.190 -11.26099 2.260986_cons | 178.34 2.409079 74.03 0.000 173.5593 183.1207

Beispiel 1: „Umwandlung“ in Paneldatenuse groesse.dta, cleargen groesse2=groesse1gen groesse3=groesse2

corr groesse1 groesse2 groesse3groesse1 groesse2 groesse3

-------------+---------------------------groesse1 | 1.0000groesse2 | 1.0000 1.0000groesse3 | 1.0000 1.0000 1.0000

Beispiel 1: „Umwandlung“ in Paneldatenreshape long groesse, i(persnr) j(welle)

(note: j = 1 2 3)

Data wide -> long------------------------------------------------------Number of obs. 100 -> 300Number of variables 5 -> 4j variable (3 values) -> wellexij variables:

groesse1 groesse2 groesse3 -> groesse------------------------------------------------------

Beispiel 1: OLS-Regression/Panelreg groesse frau

Source | SS df MS Number of obs = 300-------------+------------------------------ F( 1, 298) = 5.30

Model | 1518.75 1 1518.75 Prob > F = 0.0220Residual | 85313.82 298 286.287987 R-squared = 0.0175

-------------+------------------------------ Adj R-squared = 0.0142Total | 86832.57 299 290.409933 Root MSE = 16.92

------------------------------------------------------------------------------groesse | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------frau | -4.5 1.953759 -2.30 0.022 -8.344912 -.6550878_cons | 178.34 1.381516 129.09 0.000 175.6212 181.0588

------------------------------------------------------------------------------

Die OLS-Regression auf Basis gepoolterPanelwellen ergibt ein signifikantes Ergebnis. Vergrößerung der Fallzahl, aber keine Erhöhung der Varianz, da nur zeitlich invariante Merkmale. Massive Unterschätzung des Standardfehlers!

Robuste Standardfehler

• auch bekannt als Huber-White Standardfehler (Huber 1967, White 1980)

• berücksichtigen bei der Berechnung Abhängigkeit von Beobachtungen innerhalb von Personen

• Koeffizienten bleiben unverändert, d.h. keine Korrektur für mögliche Verzerrung

Beispiel 1:OLS-Regression (robust)/Panelreg groesse frau, cluster(persnr)

Linear regression Number of obs = 300F( 1, 99) = 1.76Prob > F = 0.1881R-squared = 0.0175Root MSE = 16.92

(Std. Err. adjusted for 100 clusters in persnr)------------------------------------------------------------------------------

| Robustgroesse | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------frau | -4.5 3.395384 -1.33 0.188 -11.23718 2.237179_cons | 178.34 2.466715 72.30 0.000 173.4455 183.2345

------------------------------------------------------------------------------

Beispiel 1:Vergleich Ergebnisse

ols ols3 ols3_rb/se b/se b/se

frau -4,500 -4,500 * -4,5003,407 1,954 3,395

_cons 178,340 *** 178,340 *** 178,340 ***2,409 1,382 2,467

N 100 300 300*) <0,05, **) <0,01, ***) <0,001

Beispiel 2: Gewinn bei Glücksspielen

• Befragung von 100 Personen, die regelmäßig an Glücksspielen teilnehmen, an 3 Zeitpunkten

• abhängige Variable: Höhe des Gewinns• unabhängige Variable: Art des Glücksspiels

(Roulette vs. andere)• Frage: Welchen Einfluss hat Art des Spiels

auf Höhe des Gewinns?

Beispiel 2: OLS-Regression/Querschnittuse spieler.dta, clear

reg gewinn1 roulette1

Source | SS df MS Number of obs = 100-------------+------------------------------ F( 1, 98) = 0.72

Model | 26611.5785 1 26611.5785 Prob > F = 0.3996Residual | 3643468.42 98 37178.2492 R-squared = 0.0073

-------------+------------------------------ Adj R-squared = -0.0029Total | 3670080 99 37071.5152 Root MSE = 192.82

------------------------------------------------------------------------------gewinn1 | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------roulette1 | -32.65224 38.59421 -0.85 0.400 -109.2412 43.93671

_cons | 92.67308 26.73885 3.47 0.001 39.61069 145.7355

Beispiel 2: Korrelationencorr gewinn1 gewinn2 gewinn3(obs=100)

| gewinn1 gewinn2 gewinn3-------------+---------------------------

gewinn1 | 1.0000gewinn2 | -0.0444 1.0000gewinn3 | -0.0657 0.2460 1.0000

Beispiel 2: Umwandlung in long-Formatreshape long roulette gewinn, i(persnr) j(welle)

(note: j = 1 2 3)

Data wide -> long---------------------------------------------------------Number of obs. 100 -> 300Number of variables 7 -> 4j variable (3 values) -> wellexij variables:

roulette1 roulette2 roulette3 -> roulettegewinn1 gewinn2 gewinn3 -> gewinn

---------------------------------------------------------

Beispiel 2: OLS-Regression/Panelreg gewinn roulette

Source | SS df MS Number of obs = 300-------------+------------------------------ F( 1, 298) = 1.88

Model | 76638.7248 1 76638.7248 Prob > F = 0.1712Residual | 12139526.7 298 40736.6667 R-squared = 0.0063

-------------+------------------------------ Adj R-squared = 0.0029Total | 12216165.4 299 40856.7404 Root MSE = 201.83

------------------------------------------------------------------------------gewinn | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------roulette | -31.99199 23.32436 -1.37 0.171 -77.89332 13.90935

_cons | 90.72917 16.81944 5.39 0.000 57.62924 123.8291------------------------------------------------------------------------------

Beispiel 2:OLS-Regression (robust)/Panel. reg gewinn roulette, cluster(persnr)

Linear regression Number of obs = 300F( 1, 99) = 2.25Prob > F = 0.1371R-squared = 0.0063Root MSE = 201.83

(Std. Err. adjusted for 100 clusters in persnr)------------------------------------------------------------------------------

| Robustgewinn | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------roulette | -31.99199 21.34491 -1.50 0.137 -74.34493 10.36095

_cons | 90.72917 17.83315 5.09 0.000 55.34434 126.114------------------------------------------------------------------------------

Beispiel 2:Vergleich Ergebnisseols ols3 ols3_r

b/se b/se b/seroulette -32,652 -31,992 -31,992

38,594 23,324 21,345_cons 92,673 *** 90,729 *** 90,729 ***

26,739 16,819 17,833N 100 300 300*) <0,05, **) <0,01, ***) <0,001

b) random effects models

Random effects model• Ansatzpunkt: Autokorrelation ist bekannt und

schätzbar• Mit diesem Vorwissen kann man OLS Schätzung

verallgemeinern (generalised least squares, GLS)

• durch geeignete Transformation der Daten lässt sich (bekannte) Autokorrelation eliminieren (vgl. Wooldridge 2003: 469ff)

• Transformation erzeugt „quasi-demeaned data“• Es gilt aber weiterhin: Schätzer nur unverzerrt

wenn corr(ai,xit)=0

Beispiel Datenstruktur 1persnr welle eink

1 1 10001 2 20002 1 10002 2 20003 1 10003 2 20004 1 10004 2 20005 1 10005 2 2000

keine Varianz zwischen Personen

Beispiel Datenstruktur 2persnr welle eink

1 1 10001 2 10002 1 12502 2 12503 1 15003 2 15004 1 17504 2 17505 1 20005 2 2000

keine Varianz über die Zeit

Beispiel Datenstruktur 3persnr welle eink

1 1 10001 2 10502 1 12502 2 12503 1 15003 2 16004 1 17504 2 18005 1 20005 2 2010

realistischere Datenstruktur

Random effects model

• Im random effects model ist die Unterscheidung zwischen Varianz zwischen Personen und über die Zeit zentral (daher auch Varianzkomponentenmodell genannt).

• Bestimmung des Anteils der Varianz auf Personenebene: – Schätzung eines leeren Modells– rho: Verhältnis der Varianz von ai gegenüber der

Gesamtvarianz (ai+uit) wird als Anteil der Varianz auf Personenebene interpretiert

Beispiel 3: Höhe Stundenlöhne

• Befragung von 545 Personen in den USA an 8 Zeitpunkten (1981-1987)

• abhängige Variable: Stundenlohn• unabhängige Variablen: Bildung (in Jahren),

Berufserfahrung, Familienstand, ethnische Zugehörigkeit

• Frage: Welche Faktoren determinieren die Lohnhöhe?

Beispiel 3:random effects model (M0)use wage, clear

xtreg wage, i(nr)

Random-effects GLS regression Number of obs = 4360Group variable (i): nr Number of groups = 545

R-sq: within = 0.0000 Obs per group: min = 8between = 0.0000 avg = 8.0overall = 0.0000 max = 8

Random effects u_i ~ Gaussian Wald chi2(0) = 0.00corr(u_i, X) = 0 (assumed) Prob > chi2 = .

------------------------------------------------------------------------------wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------_cons | 5.919175 .1051957 56.27 0.000 5.712995 6.125355

-------------+----------------------------------------------------------------sigma_u | 2.3294828sigma_e | 2.1991973

rho | .52874519 (fraction of variance due to u_i)------------------------------------------------------------------------------

Anmerkung Stata-Notation

Die Notation in Stata weicht von der bisher verwendeten Notation ab. Die Zuordnung ist wie folgt:

sigma_e sigma_u u_i

uσσ a

ia

Beispiel 3:random effects model. xtreg wage educ exper married black, i(nr)

Random-effects GLS regression Number of obs = 4360Group variable (i): nr Number of groups = 545

R-sq: within = 0.1654 Obs per group: min = 8between = 0.1283 avg = 8.0overall = 0.1428 max = 8

Random effects u_i ~ Gaussian Wald chi2(4) = 832.91corr(u_i, X) = 0 (assumed) Prob > chi2 = 0.0000

------------------------------------------------------------------------------wage | Coef. Std. Err. z P>|z| [95% Conf. Interval]

-------------+----------------------------------------------------------------educ | .6602688 .0566542 11.65 0.000 .5492285 .771309exper | .3316711 .0143179 23.16 0.000 .3036085 .3597338

married | .3921496 .0970814 4.04 0.000 .2018736 .5824256black | -.6569594 .3070434 -2.14 0.032 -1.258753 -.0551653_cons | -4.107128 .6913064 -5.94 0.000 -5.462064 -2.752192

-------------+----------------------------------------------------------------sigma_u | 2.1686974sigma_e | 2.0095598

rho | .53803189 (fraction of variance due to u_i)------------------------------------------------------------------------------

Beispiel 3: OLS-Regression (robust)reg wage educ exper married black, cluster(nr)

Linear regression Number of obs = 4360F( 4, 544) = 50.47Prob > F = 0.0000R-squared = 0.1446

Number of clusters (nr) = 545 Root MSE = 2.963

------------------------------------------------------------------------------| Robust

wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]-------------+----------------------------------------------------------------

educ | .6255747 .0584198 10.71 0.000 .5108187 .7403307exper | .2696069 .0241648 11.16 0.000 .2221392 .3170747

married | .5794375 .1736113 3.34 0.001 .2384069 .9204682black | -.6010764 .2821706 -2.13 0.034 -1.155354 -.0467991_cons | -3.383233 .7654845 -4.42 0.000 -4.8869 -1.879565

------------------------------------------------------------------------------

c) fixed effects models

fixed effects model

• Ziel: Elimination der personenspezifischen Konstante ai

• Annahme, dass ai nicht mit xi korreliert ist, unproblematisch

• d.h. Schätzer auch bei Verletzung dieser Annahme unverzerrt (im Gegensatz zu OLS-Regression und random effects Modell)

Berechnung personenspezifischer Mittelwerte (2 Wellen)

Modell yit=β0+ β1x1it +β2x2i +uit + ai

t=1 yi1=β0+ β1x1i1+β2x2i+ ui1 +ai

t=2 yi2=β0+ β1x1i2+β2x2i+ ui2 +ai

Mittel yi =β0+ β1x1i +β2x2i +ui + ai

x1it : zeitlich variabel, x2i: zeitlich invariant

Elimination von ai durch Bildung von Differenzen zum Mittelwert

Mittel yi =β0+ β1x1i +β2x2i +ui + ai

t=1 yi1=β0+ β1x1i1+β2x2i+ ui1 +ai

t=2 yi2=β0+ β1x1i2+β2x2i+ ui2 +ai

t1 - t yi1-yi= β1(x1i1-x1i) +(ui1- ui)

t2 - t yi2-yi= β1(x1i2-x1i) +(ui2- ui)

yit= β1(x1it) +uit

Beispiel 3: fixed effects model. xtreg wage educ exper married black, i(nr) fe

Fixed-effects (within) regression Number of obs = 4360Group variable (i): nr Number of groups = 545

R-sq: within = 0.1655 Obs per group: min = 8between = 0.0115 avg = 8.0overall = 0.0272 max = 8

F(2,3813) = 378.00corr(u_i, Xb) = -0.1933 Prob > F = 0.0000

------------------------------------------------------------------------------wage | Coef. Std. Err. t P>|t| [95% Conf. Interval]

-------------+----------------------------------------------------------------educ | (dropped)exper | .3421192 .0146787 23.31 0.000 .3133403 .3708981

married | .3407313 .1039419 3.28 0.001 .1369442 .5445184black | (dropped)_cons | 3.5408 .0918589 38.55 0.000 3.360703 3.720898

-------------+----------------------------------------------------------------sigma_u | 2.5891138sigma_e | 2.0095598

rho | .624056 (fraction of variance due to u_i)------------------------------------------------------------------------------F test that all u_i=0: F(544, 3813) = 10.39 Prob > F = 0.0000

Beispiel 3:Vergleich Ergebnisseols_r re feb/se b/se b/se

educ 0.626 *** 0.660 *** (dropped)0.058 0.057

exper 0.270 *** 0.332 *** 0.342 ***0.024 0.014 0.015

married 0.579 *** 0.392 *** 0.341 **0.174 0.097 0.104

black -0.601 * -0.657 * (dropped)0.282 0.307

_cons -3,383 *** -4,107 *** 3,541 ***0.765 0.691 0.092

N 4360 4360 4360*) <0,05, **) <0,01, ***) <0,001

Abschließender Überblick

• OLS-Regression: Schätzer unverzerrt wenn ai nicht korreliert mit xij, aber Standardfehler wegen Korrelation zwischen vit und vis (i ungleich s) zu niedrig

• OLS-Regression mit robusten Standardfehlern: Schätzer unverzerrt wenn ainicht korreliert mit xij, Standardfehler korrigiert (Schätzer aber im Vergleich zu RE ineffizient)

Abschließender Überblick

• Random effects model: Schätzer unverzerrt und effizient wenn ai nicht korreliert mit xij, bessere Berücksichtigung der Datenstruktur als bei OLS-Regression

• Fixed effects model: Schätzer unverzerrt auch wenn ai korreliert mit xij, betrachtet aber nur Variation innerhalb von Personen, zeitlich invariante Variablen können nicht berücksichtigt werden

Stata Befehleuse Öffnen eines Datensatzesuse ..., clear ... mit Löschung des Speichersgen(erate) Bildung neuer Variablensum(marize) Mittelwertecorr(elate) Korrelationenreshape long ..., i(persnr) j(welle) Umwandlung in long-Formattsset … / xtset … Zuweisung IDs (Person, Welle)reg(ress) OLS-Regressionreg(ress) ... , cluster(persnr) ... mit robusten Standardfehlernxtreg ..., i(persnr) random effects model

Literatur

• Wooldridge, Jeffrey M. (2003): IntroductoryEconometrics. A Modern Approach, Mason: Thompson (insbesondere Kapitel 14)

• Snijders, Tom A. B./ Bosker, Roel J. (1999): Multilevel analysis. An introduction to basic and advanced multilevel modeling, London u.a.: Sage (insbesondere Kapitel 2 und 3)

3. Ausblick

Kategoriale abhängige Variablen

z.B.:• dichotom:

– Logit-Modell: xtlogit– Probit-Modell: xtprobit

• Zählvariable:– Poisson-Modell: xtpoisson– Negatives Binomialmodell: xtnbreg

Berücksichtigung des Faktors „Zeit“

• komplexere Modellierung von Autokorrelation• Berücksichtigung von lag-Variablen• Berücksichtigung von Periodeneffekten, z.B.

Jahresdummies

Weitere Zufallskomponenten

• Zufallseffekte der Steigungskoeffizienten (random slopes)

• Berücksichtigung weiterer Ebenen (z.B. Beobachtungen von Personen in unterschiedlichen Ländern)

Modellvergleich

• „Hybrid-Modell“: Kombination von randomeffects und fixed effects Modell

• Test auf Unterschiede zwischen Modellen (Hausman-Test, Test einzelner Koeffizienten im „Hybrid-Modell“)

4. Übung

Beispiele in Aufgaben• erfahrung.dta (für Beispiel aufbereiteter SOEP-

Datensatz): Einfluss von Berufserfahrung auf Stundenlohn (bei 20-30-jährigen)

• wage.dta (Beispiel 3): Einfluss von Gewerkschaftsmitgliedschaft auf Stundenlohn (USA)

• kp2004.dta (Klein/Pötschke 2004): Replikation von Analysen eines in der KZfSS veröffentlichten Artikels auf Basis von SOEP-Daten, Fragestellung: Verändern sich postmaterialistische Wertvorstellungen im Lebensverlauf?

• weitere Beispiele aus Vorlesung können auch gerechnet werden (groesse.dta, spieler.dta)

Inhalte in Aufgaben• Aufgabe 1:

– Wiederholung der Stata-Syntax– Umwandlung der Daten in long-Format,

• alle Aufgaben: – Schätzung der hier behandelten Modelle– Interpretation der Ergebnisse