Kapitel 1 - lsw.wiso.uni-erlangen.de€¦ · – Angrist, Joshua D. und Jörn-Steffen Pischke,...

1.1

Kapitel 1: Einführung

1.1 Technische Vorbemerkungen

1.2 Inhaltliche Gliederung und Ziele der Veranstaltung

1.2

1.1 Technische Vorbemerkungen

• Vorlesung 2 SWS, Übung 1 SWS

- Vorlesung (Riphahn): Mo. und Mi. 8:00-09:30

- Übung (Eschelbach): Do. 15:00-16:30 (LG 0.224) Beginn: 16.12.10, oder

Fr. 11:30-13.00 (Raum 4.109), Beginn: 17.12.2010

- Details und Aktuelles auf der Webseite des Lehrstuhls

• Sprechstunden:

- Riphahn: vor / nach Vorlesung o. nach Vereinbarung (Mittwoch 11-12)

- Eschelbach: vor / nach Übung, oder Montag 14-15 Uhr

1.3

• Keine Vorlesung: Mittwoch 15.12.10 und 26.1.11

Ersatztermine: Montag 13.12. (H1), 20.12.: 9:45-11:15 (0.144)

• Prüfung: Klausur (60 Min.), durch Prüfungsamt organisiert. Hilfsmittel: Ta-

schenrechner, ggf. Wörterbuch.

• Freiwillige Hausarbeit: In Gruppen bis zu 2 Personen möglich, anrechenbar

auf Endnote zu 20 Prozent, Anmeldung zur Hausarbeit (3-5 Textseiten) bis

zum 20.12.10 per E-Mail bei Martina Eschelbach (marti-

[email protected]). Themenausgabe: 23.12.10, Abgabe-

termin: 18.02.11

• Die Note der Hausarbeit verfällt nach dem SS2011.

1.4

• Anrechnungsmodus Mikroökonometrie für Studierende im Diplomprogramm:

(i) Mikroökonometrie 6 Kreditpunkte: Veranstaltung Panel- und Evaluations-

verfahren (WS) plus Veranstaltung Mikroökonometrie (SS), Prüfungsanmel-

dung im SS

(ii) Mikroökonometrie 4 Kreditpunkte: Veranstaltung Mikroökonometrie (SS)

plus Prüfungsleistung zum Themenbereich Paneldaten (entweder mündliche

Prüfung oder schriftliche Hausarbeit), Prüfungsanmeldung im SS

(iii) Mikroökonometrie 2 und 3 Kreditpunkte: Prüfung auf Basis der Veran-

staltung Mikroökonometrie (SS), Einzelfallabsprache, Prüfungsanmeldung

im SS

1.5

• Literatur: zu Kapitel 2 und 3 der Vorlesung: Marno Verbeek, 2008, A Guide

to Modern Econometrics, third edition, John Wiley & Sons Ltd., Chichester

UK. Preis (neu): € 39,95 (Stand Sept. 2009) daraus Kapitel 5 und 10.1-10.5.

• Zusätzlich: Textsammlung via STS.

• Weitere empfehlenswerte Literatur:

– Greene, William H., 2008, Econometric Analysis, 6th ed., Prentice Hall, New Jersey.

– Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, MIT Press, Cambridge/Mass.

– Cameron, Colin A. and Pravin K. Trivedi, 2005, Microeconometrics. Me-thods and Applications, Cambridge Univ. Press

– Cameron, Colin A. and Pravin K. Trivedi, 2009, Microeconometrics Using Stata, Stata Press

– Angrist, Joshua D. und Jörn-Steffen Pischke, 2009, Mostly Harmless Eco-nometrics. An Empiricists Companion, Princeton Univ. Press

1.6

1.2 Inhaltliche Gliederung und Ziele der Veranstaltung

• Gliederung:

1. Einführung

2. Endogenität, Instrumentvariablen und GMM (Verbeek Kapitel 5)

3. Lineare Modelle für Paneldaten (Verbeek Kapitel 10)

4. Evaluationsverfahren

5. Quantilsregression

1.7

• Ziel: - Vermittlung fortgeschrittener ökonometrischer Methoden, die in

empirischen Analysen von Arbeitsmarkt, Finanzmärkten und

Marktforschung angewendet werden

- Diskussion der dem linearen Regressionsmodell unterliegenden

Annahmen und von ggf. überlegenen Verfahren

- Einüben der Verfahren unter Anwendung der Software STATA

- Fokus auf Intuition und Beispieldiskussion statt formaler Ablei-

tung

2.1

Kapitel 2: Endogenität, Instrumentvariablen und GMM

2.1 Überblick über die Eigenschaften des KQ-Schätzers

2.2 Fälle, in denen der KQ-Schätzer unangemessen ist

2.3 Der Instrumentvariablen (IV)-Schätzer

2.4 Illustration: Schätzung der Rendite von Schulbildung

2.5 Generalisierte IV-Schätzer

2.6 Der generalisierte Momentenschätzer (GMM)

2.7.Illustration: Schätzung des Intertemporalen Asset Pricing Modells

2.2

2.1 Überblick über die Eigenschaften des KQ-Schätzers

• Wir nutzen folgende Annahmen-Notation:

A 1 0E i =ε i = 1,2,...N

A 2 1 Nx , x… und 1 N,ε ε… sind unabhängig

A 3 2

iV ε = σ i = 1,2,…N

A 4 i jcov , 0ε ε = i,j = 1,…N, i ≠ j

A 5 ε ~ N (0,σ2 IN)

A 5' εi ~ NID (0,σ2)

A 6 N

i ii 1

1x x '

N =∑ konvergiert gegen eine finite nichtsinguläre Matrix Σxx.

A 7 Exi εi = 0 Unkorreliertheit

2.3

A 8 xt und εt sind für gegebenes t statistisch unabhängig (stärker als A 7)

A 9 2 2 2

iV x Diag hε = σ = σ Ψ

A 10 Eε⎮X = 0 stärker als A 7, schwächer als A 8, A 2.

A 11 εt ~ IID (0, σ2)

A 12 εt ist über die Zeit unkorreliert, mit Erwartungswert 0.

• Modell: t t ty x'= β + ε , t = 1,2,3,…,T (5.1)

bzw. y X= β + ε. (5.2)

• Hinweis: Formelnummerierung entspricht Verbeek.

• Der KQ Schätzer für β ist unverzerrt und konsistent, wenn der Störterm, mit

E(ε) = 0 (A1), unabhängig von allen erklärenden Variablen ist (A2).

2.4

• Unverzerrtheit und Konsistenz gelten auch noch, solange E 0ε = (A1) und

E X 0ε = (A10). A10 besagt, dass man aus der Kenntnis von (Elementen

von) X nichts über den Erwartungswert von ε lernt.

• A2 ist die allgemeinere Annahme und fordert statistische Unabhängigkeit

von X und ε. Statistische Unabhängigkeit impliziert zusätzlich zu A10, dass

die z.B. Varianz von ε nicht von X abhängt.

• A10 ist stärker als für Konsistenz nötig, und ist nicht immer erfüllt.

• Beispiel: Hypothese effizienter Märkte: die Rendite eines Aktivums (y) ist

nicht mit Hilfe öffentlich verfügbarer Informationen, z.B. aufgrund ihrer ver-

gangenen Entwicklung, vorhersagbar. Dies lässt sich als H0: β2 = β3 = 0 mit

folgendem Modell testen:

2.5

t 1 2 t 1 3 t 2 ty y y− −= β + β + β + ε . (5.3)

In diesem Fall ist die Annahme E X 0ε = nicht immer erfüllt, da die (yt-1,

yt-2) Zufallsvariablen sind, die von den verzögerten Werten von ( )t t 1 t 2,− −ε ε ε

abhängen. Es existieren Korrelationsmuster zwischen „X“ und ε, was A10

widerspricht.

• Auch unter anderen gegenüber A2 abgeschwächten Annahmen lassen sich

konsistente KQ-Schätzer für β bestimmen:

xt und εt sind für jede Beobachtung t unabhängig, (A8)

( )2

t ~ i.i.d. 0,ε σ . (A11)

A8 besagt, dass xt von εs abhängen darf, solange t ≠ s. Das ist die Situation

bei verzögerten endogenen Variablen auf der rechten Seite der Modellglei-

2.6

chung. A11 besagt, dass die εt unabhängig und identisch verteilt sind, mit

Erwartungswert 0 und Varianz σ2.

• Unter weiteren Annahmen, z.B., dass ∑ xx eine endliche, invertierbare Mat-

rix mit T

t txxT t 1

1plim x x '

T→∞ =

=∑ ∑ (A6) ist, ist KQ dann konsistent und asymptotisch

normalverteilt mit der Kovarianzmatrix 12

xx

−σ ∑ , so dass

( ) ( )2 1

xxT b N 0, −− β → σ ∑ . (5.4)

Für kleine Stichproben gilt approximativ

1Ta

2

t tt 1

b ~ N , x x '−

=

⎛ ⎞⎛ ⎞β σ⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠∑ . (5.5)

• Im Unterschied zur Situation unter den Annahmen A1-A5 folgt unter den An-

nahmen A8 und A11 die Normalverteilung in (5.5) nur approximativ, aufgrund

2.7

des asymptotischen Ergebnisses (5.4). Damit sind t-, F- und Wald-Tests un-

ter A6, A8 und A11 nur approximativ gültig.

• Unter A6, A8 und A11 führen verzögerte endogene erklärende Variablen da-

zu, dass die Eigenschaften des KQ-Schätzers für kleine Stichproben

(Unverzerrtheit, Effizienz) nicht mehr gelten. Die asymptotischen Eigenschaf-

ten bleiben erhalten (Konsistenz, asymptotische Effizienz).

• A11 schließt Heteroskedastie und Autokorrelation aus. Im Beispiel sprächen

autokorrelierte Störterme gegen die Annahme effizienter Märkte: Teile der

Störterme wären (unausgenutzt) systematisch prognostizierbar.

• Ohne A11 ergibt 2 1

xx

−σ ∑ nicht mehr die korrekte Varianz-Kovarianz-Matrix

des Schätzers und (5.5) gilt nicht mehr. Konsistenz und asymptotische Nor-

malverteilung gelten noch immer.

2.8

• Die Varianz-Kovarianz-Matrix lässt sich ohne A11 noch auf andere Weisen

schätzen:

• Fall 1: Unterstellen wir t tE x 0ε = für alle t, (A7)

und Unabhängigkeit der εt über die Zeit, mit tE 0ε = . (A12)

A7 fordert Unkorreliertheit von xt und εt. A12 erlaubt Heteroskedastie, jedoch

nicht Autokorrelation. Nun ist KQ (unter weiteren Bedingungen) konsistent

und asymptotisch normalverteilt mit

( ) ( )1 1

xx xxT b N 0, − −− β → ∑ ∑∑ (5.6)

wobei T

2

t t tt 1

plim x x '=

≡ ε∑ ∑ .

2.9

• Hinweis zu A7: wenn entweder tE x 0= oder tE z 0= , dann

t t t tE x z cov x ,z 0= = .

• Die asymptotische Varianz-Kovarianz-Matrix kann bei Heteroskedastie und

unter A6 mit dem White Schätzer konsistent geschätzt werden. Mit den re-

sultierenden Standardfehlern sind herkömmliche Tests asymptotisch gültig.

• Fall 2: Liegt in den Daten auf H Perioden begrenzte Autokorrelation vor, so

lassen sich Konsistenz und asymptotische Normalverteilung des KQ-

Schätzers nachweisen, solange A7 gilt und die Varianz-Kovarianz-Matrix mit

Hilfe des Newey-West-Schätzers (Abschnitt 4.10) bestimmt wird.

• So sind herkömmliche Tests sogar bei Heteroskedastie und auf H Perioden

begrenzte Autokorrelation gültig.

2.10

• Insgesamt gilt Unverzerrtheit nur unter A2 oder A10, während Konsistenz

auch bei (i) A8/A6/A11, (ii) A7/A12 oder (iii) A7 und auf H Perioden begrenz-

ter Autokorrelation nachweisbar ist.

2.11

2.2 Fälle, in denen der KQ-Schätzer unangemessen ist

• Mit der schwachen Annahme t tE x 0ε = (A7) und White- oder Newey-West-

Standardfehlern lässt sich ein konsistenter KQ-Schätzer mit angemessenen

Standardfehlern selbst bei Autokorrelation und Heteroskedastie bestimmen.

• Gilt A7 nicht mehr, so ist der KQ-Schätzer verzerrt und inkonsistent und es

müssen andere Verfahren genutzt werden.

• Dies ist der Fall bei Autokorrelation im Störterm bei verzögerten endogenen

Variablen, Messfehlern in erklärenden Variablen, endogenen erklärenden

Variablen, und Simultaneitätsproblemen.

2.12

2.2.1 Autokorrelation mit einer verzögerten endogenen Variable

• Modell: t 1 2 t 3 t 1 ty x y −= β + β + β + ε . (5.12)

KQ ist konsistent, solange t t t 1 tE x E y 0−ε = ε = . Bei Autokorrelation erster

Ordnung für ε t t 1 t−ε = ρε + ν (5.13)

kann man schreiben:

t 1 2 t 3 t 1 t-1 ty x y −= β + β + β + ρε + ν . (5.14)

Da ebenfalls gilt

t-1 1 2 t-1 3 t 2 t 1y x y − −= β + β + β + ε , (5.15)

ist εt über εt-1 mit yt-1 korreliert. Solange ρ ≠ 0, lässt sich (5.12) mit KQ nicht

konsistent schätzen. A7 gilt nicht mehr.

2.13

• Wegen yt-1 ist für (5.12) der Durbin-Watson-Test nicht gültig. Der Breusch-

Godfrey-Test kann angewendet werden: Als Hilfsregression wird geschätzt

et = α0 + ρ et-1 + α1xt + υt

und R2 bestimmt.

T0 × R2 ist 2

1χ -verteilt. Die Anzahl der Beobachtungen der Hilfsregression, T0,

richtet sich nach der Anzahl der lags. Für (5.13) ergibt sich T0 = T – 1.

• Hier entspricht das lineare Regressionsmodell nicht der auf xt und yt-1 be-

dingten Erwartung von yt. yt-1 ist mit dem Erwartungswert des Störterms kor-

reliert. KQ ist daher inkonsistent.

2.14

2.2.2 Messfehler in erklärenden Variablen

• KQ ist ebenfalls meist inkonsistent, wenn eine der erklärenden Variablen

Messfehler aufweist. Angenommen, yt hängt von wt ab:

t 1 2 t ty w= β + β + ν , (5.17)

wobei νt ein Störterm mit Erwartungswert 0 und konstanter Varianz 2

νσ ist.

Wenn wir annehmen, dass t tE w 0ν = , gilt t t 1 2 tE y w w= β + β .

• Angenommen, yt beschreibt die Haushaltsersparnis und wt das verfügbare

Einkommen. Letzteres ist nicht genau messbar (z.B. wegen falscher Anga-

ben) und wird durch den Wert xt abgebildet. Für jedes t unterscheiden sich xt

und wt durch den Messfehler ut:

xt = wt + ut (5.18)

2.15

• Wir unterstellen für ut einen Erwartungswert von Null und konstante Varianz 2

uσ , sowie dass ut und νt unabhängig sind. Schließlich sei der Messfehler un-

abhängig von wt. Aus 5.17 und 5.18 ergibt sich

t 1 2 t ty x= β + β + ε , mit t t 2 tuε = ν − β (5.19)

• Hier ergibt KQ inkonsistente Schätzer für β1 und β2, da xt und εt durch ge-

meinsame Abhängigkeit von ut korreliert sind: t tE x 0ε ≠ .

• Wir können β2 im einfachen Modell schreiben als

( )( )

( )

T

t tt 1

2 T2

tt 1

x x y yb

x x

=

=

− −=

−

∑

∑. (5.20)

Setzt man für yt ein, folgt

2.16

( ) ( )( )

( ) ( )

T

t tt 1

2 2 T2

tt 1

1 x xTb

1 x xT

=

=

− ε − ε= β +

−

∑

∑. (5.21)

• Für T → ∞ konvergieren Stichprobenmomente gegen Bevölkerungsmomen-

te. Daher

( ) ( )( )

( ) ( )

T

t tt tt 1

2 2 2T2

tt

t 1

1plim x x E xTplim b

V x1plim x xT

=

=

− ε − ε ε= β + = β +

−

∑

∑. (5.22)

Der letzte Ausdruck ist von Null verschieden:

( )( ) 2

t t t t t 2 t 2 uE x E w u v uε = + − β = −β σ

und

2.17

2 2

t t t w uV x V w u= + = σ + σ , wobei 2

w tV wσ = .

• Es folgt somit

2

u2 2 2 2

w u

plim b 1⎛ ⎞σ

= β −⎜ ⎟σ + σ⎝ ⎠. (5.23)

• b2 ist nur dann konsistent, wenn 2

u 0σ = , d.h. wenn kein Messfehler vorliegt.

Je größer 2

uσ relativ zu 2

wσ , umso größer ist der Messfehler, der dazu führt,

dass b2 gegen 0 hin verzerrt ist (attenuation bias). Bei 2 2

u wσ σ spricht man

vom noise-to-signal ratio, das Verhältnis der Varianz des Messfehlers (noi-

se) zur Varianz des tatsächlichen Wertes (signal). Je größer das Verhältnis,

umso größer die Verzerrung des KQ-Schätzers.

• Die Inkonsistenz von b2 betrifft auch den Schätzer der Konstanten b1, mit

1 t 2 tE y x :β = − β

2.18

( ) ( )1 2 t 2 t1plim b plim y b x E y E x− β = − − + β

( ) 2 2 tplim b E x= − − β . (5.24)

Für tE x 0> ergibt eine Unterschätzung des Steigungsparameters eine

Überschätzung des Achsenabschnitts.

• Auch hier ergibt das Schätzmodell nicht den auf xt bedingten Erwartungswert

von yt:

t t 1 2 t 2 t tE y x x E u x= β + β − β .

Der letzte Term ist wegen (5.18) nicht Null.

2.19

2.2.3 Endogenität und Omitted Variable Bias

• Omitted variable bias tritt auf, wenn eine relevante erklärende Variable, die

mit berücksichtigten erklärenden Variablen korreliert ist, im Modell nicht be-

rücksichtigt wird.

• Dies gilt unabhängig davon, ob die ausgelassenen Variablen beobachtbar

sind, solange sie mit berücksichtigten erklärenden Variablen korreliert sind.

Man spricht von (un-)observed heterogeneity.

• In diesem Fall ist die kausale Interpretation von KQ-Koeffizienten nicht mehr

gerechtfertigt. Die ceteris paribus Bedingung greift nicht, da nicht alle rele-

vanten Größen konstant gehalten werden.

2.20

• Beispiel: yi sei der individuelle log-Lohn, x1i ein Vektor von individuellen

Charakteristika (incl. Konstante), x2i die Anzahl der Ausbildungsjahre, ui sei

ein Maß der unbeobachteten Fähigkeit von i:

yi = x1i' β1 + x2i β2 + ui γ + υi (5.25)

• Wir erwarten γ > 0 sowie ( )i icov u ,x 0> . Tatsächlich kann nur das beobacht-

bare Modell geschätzt werden:

yi = xi' β + εi

wobei xi' = (x1i', x2i), β' = (β1', β2) und εi = ui γ + υi.

• Nun gilt für den KQ-Schätzer für β: 1 1N N N N

i i i i i i i ii 1 i 1 i 1 i 1

b x x ' x u x x ' x− −

= = = =

⎛ ⎞ ⎛ ⎞= β + γ + υ⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠∑ ∑ ∑ ∑ .

2.21

• Unter der Annahme i iE x 0υ = folgt:

1xx i iplim b E x u−= β + γ∑ (5.26)

Wenn γ ≠ 0 ist KQ nur dann konsistent, wenn i iE x u 0= , d.h. ui muss mit al-

len erklärenden Variablen einschließlich Bildung unkorreliert sein.

• KQ misst nicht den kausalen Effekt der Bildung, sondern den mittleren Lohn-

unterschied von Personen mit unterschiedlicher Bildung. Dieser mittlere

Lohnunterschied geht z.T. auf Bildung und z.T. auf ui zurück.

• Erklärende Variablen, die mit dem Störterm des Modells korreliert sind, nennt

man endogen. Sie generieren verzerrte und inkonsistente KQ-Schätzer.

2.22

2.2.4 Simultaneität und umgekehrte Kausalität

• Eine besondere Form von Endogenität ist das reverse causality – Problem.

Hier beeinflusst nicht nur xi das yi, sondern auch umgekehrt.

• Beispiel: Kriminalitätsrate = f (Ausgaben für innere Sicherheit)

Da die Ausgaben von der Kriminalität beeinflusst sein können, können die

Schätzer des Modells verzerrt sein.

• Das Problem stellt sich in Makromodellen, in denen mehrere Variablen si-

multan bestimmt werden. Im Modell mit Angebot, Nachfrage und Preis hän-

gen bspw. alle Größen voneinander ab.

2.23

• Beispiel: Bei der keynesianischen Konsumfunktion hängt der nationale pro-

Kopf-Konsum yt vom nationalen Pro-Kopf-Einkommen x2t ab, mit t = 1, 2, ...,

T Jahresbeobachtungen:

yt = β1 + β2 x2t + εt. (5.27)

β2 ist die marginale Konsumneigung, wir erwarten 0 < β2 < 1. Die kausale In-

terpretation lautet: wenn Individuen 1 Einheit mehr Einkommen haben, kon-

sumieren sie β2 Einheiten mehr. Allerdings ist x2t nicht exogen, sondern be-

stimmt durch:

x2t = yt + z2t. (5.28)

Einkommen entspricht der Summe von Konsum (yt) und Investitionen (z2t).

Wir unterstellen, dass z2t im Gegensatz zu x2t und yt exogen ist, d.h.

2.24

2t tE z 0ε = . (5.29)

x2t und yt werden mit dem in (5.27) – (5.29) beschriebenen Strukturmodells

determiniert.

• Da yt das x2t durch (5.28) beeinflusst, sind x2t und εt korreliert. Damit ist der

KQ-Schätzer für β2 verzerrt und inkonsistent. Das Strukturmodell in (5.27)

und (5.28) kann in seine reduzierte Form umgeformt werden. Dabei werden

x2t und yt nur als Funktion exogener Größen beschrieben:

12t 2t t

2 2 2

1 1x z

1 1 1

β= + + ε

− β − β − β (5.30)

1 2t 2t t

2 2 2

1y z

1 1 1

β β= + + ε

− β − β − β (5.31)

Daraus folgt

2.25

2

2t t 2t t t

2 2 2

1 1cov x , cov z , V 0

1 1 1

σε = ε + ε = ≠

− β − β − β .

Somit kann (5.27) nicht konsistent und unverzerrt per KQ geschätzt werden.

• Es lässt sich zeigen, dass

2t t

2 2

2t

cov x ,plim b

V x

ε= β + ,

wobei ( )

( )2

2t 2t t 2t2

2 2 2

1 1 1V x V z V z

1 1 1

⎧ ⎫= + ε = + σ⎨ ⎬

− β − β − β⎩ ⎭,

so dass

( ) 2

2 2 2 2

2t

plim b 1V z

σ= β + − β

+ σ. (5.32)

2.26

2.3 Der Instrumentvariablen (IV)-Schätzer

2.3.1 Schätzung mit einem endogenen Regressor und einem Instrument

• Angenommen, wir versuchen den individuellen Lohnsatz durch einen Vektor

persönlicher Merkmale x1i sowie durch die individuelle Anzahl gearbeiteter

Stunden (x2i) mit einem linearen Modell zu erklären:

i 1i 1 2i 2 iy x ' x= β + β + ε (5.33)

Nur mit Annahmen für εi kann man dieses Modell interpretieren – andernfalls

könnten β1 und β2 beliebige Werte annehmen und εi würde so definiert, dass

die Gleichung immer zutrifft.

• Die Interpretation, dass (5.33) die beste lineare Approximation von yi für ge-

gebene Werte x1i und x2i angibt, erfordert die Annahmen

2.27

i 1iE x 0ε = , (5.34)

i 2iE x 0ε = . (5.35)

Unter diesen Annahmen ist KQ konsistent. Gelten sie nicht, so gibt das Mo-

dell nicht mehr die auf x1i und x2i bedingten erwarteten yi-Werte an.

• Im Lohnmodell enthält der Störterm auch unbeobachtbare Faktoren (z.B.

Fähigkeit, Motivation, Intelligenz). Diese können ebenfalls x2i, die Anzahl der

gearbeiteten Stunden, beeinflussen. In dieser Situation schätzt man den auf

die gearbeitete Stundenzahl bedingten Stundenlohn konsistent, aber nicht

den kausalen Effekt der Stundenzahl (x2i) auf den Lohn. β2 beschreibt den

Lohnunterschied, der sich für zwei sonst hinsichtlich ihrer beobachtbaren

Merkmale identische (ceteris paribus) Personen ergibt, wenn eine x2 + 1 und

die andere x2 Stunden arbeitet. Der Lohneffekt für eine beliebige Person, die

2.28

ihr Arbeitsangebot von x2 auf x2 + 1 Stunden erhöht, wird dadurch nicht ge-

messen. β2 misst den mittleren Lohnunterschied, ohne die unbeobachtbaren

Merkmale konstant zu halten.

• Eine kausale Interpretation des Modells würde erfordern, dass auch die un-

beobachteten, nicht kontrollierten Variablen konstant gehalten werden. Das

leistet dieses Modell nicht.

• Wenn man den Koeffizienten einer Variablen als ihren kausalen Effekt auf

die abhängige Variable interpretieren möchte, muss die Gültigkeit der An-

nahmen (5.34) und (5.35) überprüft werden. Wenn i 2iE x 0ε ≠ , so sagt man,

dass x2i hinsichtlich des kausalen Effekts β2 endogen ist.

• Beispiel: In Lohngleichungen wird oft argumentiert, dass Familienstand, Be-

ruf oder Gewerkschaftsmitgliedschaft endogen sind. Dies bedeutet, dass es

2.29

unbeobachtete und evtl. unbeobachtbare Faktoren gibt, die sowohl den Lohn

beeinflussen (und daher in ε stecken) als auch den Familienstand, die Be-

rufswahl oder die Entscheidung, Gewerkschaftsmitglied zu werden.

• Man stellt empirisch fest, dass im Mittel die Löhne der Verheirateten ober-

halb derjenigen der Unverheirateten liegen. Dies muss kein kausaler Effekt

des Ehestands sein, sondern hängt auch damit zusammen, dass Verheirate-

te und Unverheiratete sich auch in nicht beobachtbaren Eigenschaften un-

terscheiden, die auch den Lohn beeinflussen.

• Sobald i i2E x 0ε ≠ , erzeugt der KQ-Schätzer verzerrte und inkonsistente

Ergebnisse. Um einen konsistenten Schätzer abzuleiten, muss das Modell

statistisch identifiziert sein. Um ein Modell mit K Parametern zu identifizieren,

2.30

benötigen wir K Momentenbedingungen. Aus (5.34) und (5.35) ergeben sich

beispielsweise zwei Momentenbedingungen:

( ) i 1i 1 2i 2 1iE y x ' x x 0− β − β = (5.36)

( ) i 1i 1 2i 2 2iE y x ' x x 0− β − β = (5.37)

• Bei der Ableitung der Bedingungen erster Ordnung des KQ-Schätzers haben

wir genau so viele Normalgleichungen, wie Parameter zu schätzen sind.

( )1 2b b' ,b '= ist die Lösung von

( )N

i 1i 1 2i 2 1ii 1

1y x ' b x b x 0

N =

− − =∑ (5.38)

( )N

i 1i 1 2i 2 2ii 1

1y x ' b x b x 0

N =

− − =∑ (5.39)

2.31

Da es so viele Bedingungen wie Parameter gibt, lässt sich das System ein-

deutig lösen. Wenn allerdings (5.35), i 2iE x 0ε = , nicht gilt, gilt auch (5.39)

nicht. Das System ist nicht mehr lösbar, β1 und β2 sind nicht identifiziert.

• Um β1 und β2 zu identifizieren, benötigen wir eine Ersatzbedingung, die sich

über Instrumente bzw. Instrumentvariablen ableiten lässt. Eine Variable z2i

ist dann eine Instrumentvariable, wenn sie mit εi unkorreliert ist und mit der

endogenen erklärenden Variable x2i korreliert ist. In dem Fall kann (5.37) er-

setzt werden durch

( ) i 1i 1 2i 2 2iE y x ' x z 0− β − β = (5.40)

• Wenn diese Momentenbedingung nicht lediglich eine Kombination der ande-

ren darstellt (z.B. wenn z2i eine Linearkombination der Variablen in x1i ist),

2.32

dann ist sie "zusätzlich" und erlaubt, die K Parameter β1 und β2 zu identifizie-

ren. Den IV-Schätzer IVβ erhält man als Lösung der Bedingungen:

( )N

i 1i 1,IV 2i 2,IV 1ii 1

1 ˆ ˆy x ' x x 0N =

− β − β =∑ (5.41)

( )N

i 1i 1,IV 2i 2,IV 2ii 1

1 ˆ ˆy x ' x z 0N =

− β − β =∑ (5.42)

Dies führt zu folgendem Ausdruck:

1N N

IV i i i ii 1 i 1

ˆ z x ' z y−

= =

⎛ ⎞β = ⎜ ⎟⎝ ⎠∑ ∑ , (5.43)

mit ( )i 1i 2ix ' x ' ,x= und ( )i 1i 2iz ' x ' ,z= . Wenn z2i = x2i ergibt sich der KQ-

Schätzer.

2.33

• Wenn die Momentenbedingung (5.36) und (5.40) sowie weitere Regularitäts-

annahmen gelten, ist der IV-Schätzer konsistent und asymptotisch normal-

verteilt. Zu den Regularitätsannahmen zählt beispielsweise, dass z2i mit x2i

korreliert ist und keine Linearkombination der Elemente von x1i darstellt.

• Unterstellen wir, dass ( )2

i ~ i.i.d. 0,ε σ und dass εi unabhängig von zi ist, so

folgt für die asymptotische Verteilung des IV-Schätzers:

( ) ( )( )12 1

IV xz zz zxˆN N 0,

−−β − β → σ ∑ ∑ ∑ , (5.45)

wobei zx xz'=∑ ∑ ; N

zz i ii 1

1plim zz '

N =

≡∑ ∑ wird als invertierbar unterstellt, d.h.

die K Elemente von zi sind nicht multikollinear.

• Die Varianz-Kovarianz-Matrix von IVβ lässt sich in endlichen Stichproben wie

folgt schätzen:

2.34

11N N N

2

IV i i i i i ii 1 i 1 i 1

ˆ ˆV ˆ x z ' zz ' z x '

−−

= = =

⎛ ⎞⎛ ⎞⎛ ⎞ ⎛ ⎞β = σ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠∑ ∑ ∑ (5.46)

Als konsistenten Schätzer für σ2 kann man nutzen

( )N 2

2

i i IVi 1

1 ˆˆ y x 'N-K =

σ = − β∑ (5.47)

• Das Hauptproblem des IV-Schätzers ist meist, geeignete Instrument-

variablen zu finden. Im Beispiel brauchen wir ein zi, das (partiell) mit Arbeits-

stunden, aber nicht mit Fähigkeit oder den anderen unbeobachteten Elemen-

ten von εi korreliert ist. Man könnte die Familienstruktur nutzen, z.B. Kinder-

zahl.

2.35

• Ein anderes Problem des IV-Schätzers liegt in den damit häufig verbunde-

nen großen Standardfehlern. Dies gilt besonders dann, wenn die Korrelation

zwischen Instrument und endogener Variable gering ist.

• Die identifizierenden Annahmen der Momentenbedingungen lassen sich sta-

tistisch nur dann überprüfen, wenn mehr Bedingungen vorliegen als erforder-

lich sind.

• Wenn man die Gültigkeit einer Instrumentvariablen z2i unterstellt, lässt sich

die Endogenität von x2i empirisch überprüfen. Eine Form des Hausman-

Tests besteht darin, die KQ- und IV-Schätzwerte zu vergleichen: Ist x2i en-

dogen, sollten sie sich unterscheiden, da KQ inkonsistent ist. Andernfalls

sollte es keinen signifikanten Unterschied zwischen den Schätzwerten ge-

ben, da ohne Endogenität beide Schätzverfahren konsistent sind.

2.36

• Eine einfach durchführbare Version des (Durbin-Wu-)Hausman-Tests nutzt

eine Hilfsregression: Man regressiert die potentiell endogene Variable x2i auf

x1i und z2i und bestimmt die vorhergesagten Residuen iν . Dieser Wert wird

dem Originalmodell hinzugefügt und man schätzt per KQ

i 1i 1 2i 2 i iˆy x ' x e= β + β + ν γ + .

Wenn ein t-Test H0: γ = 0 nicht verwerfen kann, schließt man, dass x2i exo-

gen ist, sonst nicht. Der Test geht davon aus, dass ein valides Instrument z2i

vorliegt.

2.37

2.3.2 Zurück zum Keynesianischen Modell

• In einem Makromodell mit simultanem Gleichungssystem lässt sich das

Problem der Instrumentwahl so lösen: Jede exogene Variable des Systems,

die in einer konkreten Gleichung nicht vorkommt, wird als Instrument ge-

nutzt, solange sie mit der endogenen Variablen korreliert ist und im Struk-

turmodell nicht vorkommt. Die Korrelation lässt sich anhand einer Hilfsre-

gression überprüfen.

• Somit können Investitionen (zt) als Instrument des Einkommens x2t genutzt

werden. Der IV-Schätzer im Modell

t 1 2 2t ty x= β + β + ε

2t t tx y z= +

2.38

lautet dann

( )1

T T

IV 2t tt 1 t 12t 2t

1 1ˆ 1 x yz z

−

= =

⎡ ⎤⎛ ⎞ ⎛ ⎞β = ⎢ ⎥⎜ ⎟ ⎜ ⎟

⎝ ⎠ ⎝ ⎠⎣ ⎦∑ ∑ .

Für 2,IVβ ergibt sich

( )( )

( )( )

T

2t 2 tt 1

2,IV T

2t 2 2t 2t 1

z z y yˆ

z z x x

=

=

− −β =

− −

∑

∑, (5.48)

wobei 2z ,y und 2x die Stichprobenmittelwerte sind.

• Der Schätzer lässt sich auch vom Strukturmodell (5.25) ableiten, indem man

auf beiden Seiten der Gleichung die Kovarianz mit dem Instrument z2t be-

rechnet:

2.39

t 2t 2 2t 2t t 2tcov y ,z cov x ,z cov ,z= β + ε . (5.49)

Wenn z2t exogen ist, folgt t 2tcov ,z 0ε = . Für das Instrument z2t muss gelten

2t 2tcov x ,z 0≠ , so dass

t 2t

2

2t 2t

cov y ,z

cov x ,zβ = . (5.50)

• Der IV-Schätzer für β2 ergibt sich, wenn man die Kovarianzen für die Grund-

gesamtheit durch ihre Stichprobenwerte ersetzt (vergleiche 5.43):

( ) ( )( )

( ) ( )( )

T

2t 2 tt 1

2,IV T

2t 2 2t 2t 1

1 z z y yTˆ1 z z x xT

=

=

− −β =

− −

∑

∑. (5.51)

• Der Schätzer ist konsistent, da die Stichprobenmomente zu den Momenten

der Grundgesamtheit konvergieren.

2.40

2.3.3 Zurück zum Messfehlerproblem

• In der Regression von Ersparnis (yt) auf beobachtetes verfügbares Einkom-

men (xt) t 1 2 t ty x= β + β + ε führt ein Messfehler in xt zu einer Korrelation zwi-

schen xt und εt.

• Es ist schwierig, Instrumentvariablen zu finden, die mit xt, aber nicht mit dem

Messfehler ut und mit εt korreliert sind. Daher, und da die Auswirkungen von

Messfehlern in den erklärenden Variablen abschätzbar sind, wird das Prob-

lem oft ignoriert.

2.41

2.3.4 Mehrere endogene Regressoren

• Gibt es mehrere endogene Regressoren, so berücksichtigen wir das zu-

nächst in der Dimension von x2i:

i 1i 1 2i 2 iy x' x'= β + β + ε .

Man benötigt für jede endogene erklärende Variable ein eigenes Instrument.

• Beschreibt man den Vektor der Instrumente als z2i, so bleibt es bei der Dar-

stellung des IV-Schätzers aus (5.43) 1N N

IV i i i ii 1 i 1

ˆ z x ' z y−

= =

⎛ ⎞β = ⎜ ⎟⎝ ⎠∑ ∑ ,

wobei jetzt ( )i 1i 2ix ' x ' ,x '= und ( )i 1i 2iz ' x ' ,z '= . Gelegentlich wird der gesamte

Vektor exogener Variablen zi als Instrumentenvektor bezeichnet, dabei sind

2.42

die Elemente von x1i ihre eigenen Instrumente. Gibt es keine endogenen Va-

riablen, so ist zi = xi und KQ

IVˆ bβ = .

• Im Rahmen simultaner Gleichungssysteme ist es wichtig, mindestens genau

so viele Instrumente wie endogene erklärende Variablen vorliegen zu haben.

Das Modell ist überidentifiziert, wenn mehr Instrumente als endogene Reg-

ressoren vorliegen. Die Effizienz der Schätzung steigt, wenn alle verfügbaren

Instrumente genutzt werden.

2.43

2.4 Illustration: Schätzung der Rendite von Schulbildung

• Personen mit höherer Bildung haben höhere Löhne. Unklar ist, ob dies einen

Kausal- oder einen Selektions- oder einen Sortiereffekt beschreibt. Mögli-

cherweise sortieren sich Personen mit höherem Verdienstpotential in höhere

Bildung. Dann beschreibt der KQ-Schätzer für den Bildungseffekt diese Un-

terschiede in den unbeobachteten Charakteristika der Erwerbstätigen. Ein

Anstieg der Schulbildung, z.B. infolge institutioneller Änderungen, hätte keine

Auswirkung auf die Löhne.

• Untersuchungen hierzu nutzen meist die klassische Verdienstfunktion

2

i 1 2 i 3 i 4 i iw S E E= β + β + β + β + ε ,

2.44

wobei wi die logarithmierten Löhne sind, Si die Jahre der Schulbildung, Ei die

Jahre der Berufserfahrung. Letztere werden häufig approximiert als Ei =

Alteri – Si – 6. Zusätzlich finden oft auch andere Variablen, wie Geschlecht,

Region oder ethnischer Hintergrund Berücksichtigung im Modell. Außerdem

wird oft argumentiert, dass die Rendite der Schulbildung individuell unter-

schiedlich ausfällt.

• Wir nutzen als Lohngleichung

i i i i iw z ' S u= β + γ +

i i iz ' S= β + γ + ε (5.52)

2.45

wobei εi = ui + (γi – γ)Si. zi enthält alle Variablen außer Si. Wir unterstellen

i i iS z '= π + υ , sowie i iE z 0ε = . Uns interessiert iE γ = γ , die durchschnittli-

che Rendite eines zusätzlichen Jahres Schulbildung.

• Der KQ-Schätzer für β und γ in (5.52) ist konsistent, wenn

i i i iE S E 0ε = ε υ = , d.h. wenn es keine unbeobachteten Faktoren gibt, die

sowohl Si als auch wi für eine Person i beeinflussen. Aus drei Gründen muss

diese Annahme nicht unbedingt gelten:

• 1) Ability bias: Wenn Fähigkeit sowohl zu höherem Verdienst als auch zu

höherer Schulbildung führt, sind εi und υi positiv korreliert und der KQ-

Schätzer für γ ist nach oben verzerrt.

2.46

2) Messfehler: Wenn Si ungenau gemessen ist, ergibt sich eine negative Kor-

relation zwischen εi und υi und der KQ-Schätzer ist nach unten verzerrt

(attenuation bias).

3) γi: Wenn die individuellen Renditen (γi) für Bildung besonders für Personen

mit geringer Schulbildung hoch sind, ist die unbeobachtete Komponente von

εi, also (γi – γ) ⋅ Si, negativ mit Si korreliert. Der KQ-Schätzer ist auf Null hin

(nach unten) verzerrt.

• Da alle exogenen Variablen in der Schätzgleichung bereits direkt vorkom-

men, fehlt eine Momentenbedingung (bzw. ein Instrument), um die Koeffi-

zienten β und γ zu identifizieren. Findet man ein weiteres zi, welches Si be-

stimmt, aber nicht wi, hätten wir das Modell über

( ) i i i i i iE z E w z' S z 0ε = − β − γ =

2.47

genau identifiziert und könnten β und γ konsistent schätzen.

• Als Instrumente werden manchmal Indikatoren der Elternbildung oder institu-

tionelle Faktoren gewählt (z.B. Geburtsmonat, Entfernung zur nächsten Uni).

• Als Modell in reduzierter Form spezifizieren wir

i i iS z '= π + υ (5.53)

mit i iE z 0υ = . (5.53) hat nicht unbedingt eine ökonomische Interpretation.

• Wir betrachten Arbeitsmarktinformationen für 3010 amerikanische Männer im

Alter zwischen 24 und 34 Jahren aus dem Jahr 1976.

• Tabelle 5.1 beschreibt die Lohnregression für diese Stichprobe. Der Dummy

smsa steht für Metropolregion, black für Afro-Amerikaner und south für eine

Herkunft aus den Südstaaten.

2.48

Tab. 5.1 Lohngleichung – KQ-Schätzung

• Die mittlere Bildungsrendite beträgt ca. 7,4% pro Jahr Schulbildung. Die Be-

rücksichtigung weiterer erklärender Variablen in anderen Schätzungen än-

dert daran wenig, das Ergebnis ist robust gegenüber Spezifikationsänderun-

gen.

2.49

• Wenn die Schulbildung endogen ist, muss das auch für die damit definierten

beiden experience Variablen gelten. Wir haben 3 endogene Variablen im

Modell und benötigen entsprechend 3 Instrumente. Für die Erfahrungsvari-

ablen bieten sich Alter und Alter2 an. Für Schulbildung könnte man Uni-Nähe

nutzen, wenn dieser Indikator dazu beiträgt, den Bildungserfolg zu erklären.

Dies wird in der Hilfsregression in Tab. 5.2 überprüft.

2.50

Tab. 5.2 Reduzierte Form der Bildungsgleichung – KQ-Schätzung

• Das Modell in Tabelle 5.2 ist kein Modell zur Erklärung der Bildungsent-

scheidung, sondern eine reduzierte Form zur linearen Approximation der ab-

hängigen Variablen. Es zeigt sich ein signifikanter Effekt für die Variable

„lived near college“.

2.51

• Die zweite Bedingung an eine Instrumentvariable, dass sie nicht mit dem

Störterm der Strukturgleichung korreliert ist, lässt sich nicht testen, da wir

ohne Instrument keine konsistenten Schätzer für β und γ und damit für ε ha-

ben. Ein Instrument lässt sich nur dann testen, wenn die konsistente Schät-

zung bereits auf Basis anderer Schätzergebnisse vorläge.

• Mithilfe der 3 Instrumente Uni-Nähe, Alter und Alter2 erhalten wir die Ergeb-

nisse in Tabelle 5.3.

2.52

Tab. 5.3 Lohngleichung – IV-Schätzung

• Die Bildungsrendite beträgt nun ca. 13% gegenüber 7,4% in der KQ-

Schätzung. Sie ist nun aber weniger präzise geschätzt. Große Standardfeh-

ler ergeben sich insbesondere bei geringer Erklärungskraft der

Instrumentvariablen. In Tabelle 5.2 hatten wir ein R2 von lediglich 0,1185. Je

2.53

schwächer die Korrelation der Instrumente mit den endogenen Variablen,

umso größer die Standardfehler der IV-Schätzung.

• Für den IV-Schätzer wird kein R2-Wert ausgewiesen, da es sich nicht um ein

KQ-Verfahren handelt. Das Ziel ist hier nicht Minimierung der Fehlerquadrat-

summe, sondern konsistente Schätzergebnisse.

• Für Instrumente sollte gelten, dass sie keinen direkten Einfluss auf die ab-

hängige Variable im Strukturmodell (hier log(wage)) haben. Das könnte man

hier anzweifeln, wenn Familien mit hohem Einkommen und großer Bildungs-

nähe bevorzugt in Universitätsstädte ziehen und auch Kinder mit höherem

Einkommen haben. Allerdings lässt es sich nicht testen.

• Hier wird die Bildungsrendite durch den KQ-Schätzer unterschätzt. Das wi-

derspricht der Vermutung von „ability bias“, welche zu einer Überschätzung

2.54

geführt hätte, findet sich in der Literatur jedoch häufiger. Mögliche Erklärun-

gen sind Messfehler, fehlerhafte Instrumente oder individuelle Renditen.

• Wenn die Bildungsrenditen nicht für alle gleich sind, d.h. relevant ist nicht γ

sondern γi, schätzt der IV-Schätzer die Renditen für diejenigen, die durch die

Ausprägung des Instrumentes zusätzliche Bildung erworben haben

("compliers"). Man spricht vom LATE, local average treatment effect (ver-

gleiche Kapitel 4).

2.55

2.5 Generalisierte IV-Schätzer

2.5.1 Mehrere endogene Regressoren bei beliebig vielen Instrumenten

• Wir betrachten das Modell

i i iy x '= β + ε , (5.54)

mit xi der Dimension K. Der KQ-Schätzer nutzt K Momentenbedingungen

( ) i i i i iE x E y x ' x 0ε = − β = .

• Wenn der Vektor zi R Instrumente enthält, die z.T. auch in xi vorkommen,

erhalten wir R Momentenbedingungen

( ) i i i i iE z E y x ' z 0ε = − β = . (5.55)

2.56

• Fall 1: Wenn R = K, kann der Instrumentenschätzer aus den

Momentenbedingungen für die Stichprobe bestimmt werden. Aus

( )N

i i IV ii 1

1 ˆy x ' z 0N =

− β =∑

erhalten wir 1N N

IV i i i ii 1 i 1

ˆ z x ' z y−

= =

⎛ ⎞β = ⎜ ⎟⎝ ⎠∑ ∑ .

• Schreibt man das Modell y = X β + ε, mit der N × R Matrix Z für die Instru-

mente, so lässt sich der IV-Schätzer wie folgt darstellen

( ) 1

IVˆ Z ' X Z' y

−β = . (5.56)

• Fall 2: Wenn R > K, gibt es mehr Instrumente als Regressoren und man

kann (5.55) nicht einfach durch die Stichprobenwerte ersetzen. Es gibt mehr

2.57

Gleichungen als Unbekannte. Statt nun Instrumente unberücksichtigt zu las-

sen und Effizienz zu verlieren, schätzt man β so, dass alle verfügbaren R

Stichprobenmomente

( )N

i i ii 1

1y x ' z

N =

− β∑

so nah wie möglich bei 0 sind. Dazu minimieren wir die quadratische Form

( ) ( ) ( )N N

N i i i N i i ii 1 i 1

1 1Q y x ' z ' W y x ' z

N N= =

⎡ ⎤ ⎡ ⎤β = − β − β⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦∑ ∑ . (5.57)

• WN ist eine positiv definite R × R Gewichtsmatrix. Die Gewichte geben an,

welche Bedeutung jeder der R Momentenbedingungen oder ihren Linear-

kombinationen zukommt. In Matrixnotation:

( ) ( ) ( )N N

1 1Q Z' y X ' W Z' y X

N N⎡ ⎤ ⎡ ⎤β = − β − β⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦

. (5.58)

2.58

• Die erste Ableitung nach β ergibt als Bedingung erster Ordnung

N N IVˆ2 X' Z W Z'y 2 X'Z W Z' X 0− + β =

N N IVˆX'Z W Z'y X'Z W Z' X⇔ = β , (5.59)

ein System aus K Gleichungen und mit K unbekannten Elementen von IVβ ,

wobei X’Z die Dimension K × R hat und Z’y die Dimension R × 1. Wenn X’Z

den Rang K hat, lautet die Lösung

( ) 1

IV N Nˆ X'Z W Z' X X'Z W Z'y

−β = , (5.60)

was von WN abhängt.

• Wenn R = K, ist X’Z quadratisch und invertierbar. Somit

( ) ( ) ( )1 1 11

IV N Nˆ Z ' X W X'Z X'Z W Z'y Z' X Z' y

− − −−β = = .

2.59

• Dies entspricht dann (5.56) und WN ist irrelevant. Man sagt, β ist genau oder

exakt identifiziert. Hier kann QN(β) (5.58) den Wert Null annehmen, durch

angemessene Wahl von β werden alle Stichprobenmomente genau 0.

• Fall 3: Wenn R < K, müssen mehr Parameter geschätzt werden, als Bedin-

gungen vorliegen; β ist nicht identifiziert, da nicht genug Information vorliegt.

Ohne weitere Informationen kann β nicht konsistent geschätzt werden.

• Wenn R > K, gibt es mehr Momentenbedingungen als zu schätzende Para-

meter. Man nennt β überidentifiziert; es liegt mehr Information für β vor als

erforderlich ist, um es konsistent zu schätzen. Je nach WN erhalten wir un-

terschiedliche Schätzer für β, die alle konsistent sind, solange WN asympto-

tisch positiv definit ist. Dabei minimiert man eine quadratische „Verlustfunkti-

2.60

on“ der Stichprobenmomente. Die Bevölkerungsmomente für die wahren β-

Werte sind Null (siehe 5.55).

• Die optimale Gewichtungsmatrix WN generiert den effizienten

Instrumentvariablenschätzer. Sie ist umgekehrt proportional zur Varianz-

Kovarianz-Matrix der Stichprobenmomente, so dass die Momente mit kleiner

Varianz genaue Information über β erzeugen und mit hohem Gewicht in die

Schätzung eingehen (und umgekehrt).

• Die Varianz-Kovarianz-Matrix der Stichprobenmomente N

i ii 1

1z

N =

ε∑ hängt von

unseren Annahmen bezüglich εi und zi ab. Wir unterstellen ( )2

i ~ i.i.d. 0,ε σ ,

sowie dass εi und zi statistisch unabhängig voneinander sind. Dann ist die

Varianz-Kovarianz-Matrix der Stichprobenmomente

2.61

N2 2

i izzi 1

1plim zz '

N =

σ = σ∑ ∑ .

Die optimale Gewichtungsmatrix ist 1 1N

opt

N i ii 1

1 1W zz' Z 'Z

N N

− −

=

⎛ ⎞ ⎛ ⎞= =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑ .

und der IV-Schätzer ist

( )( ) ( )11 1

IVˆ X'Z Z'Z Z' X X'Z Z'Z Z' y

−− −β = . (5.61)

Dieser wird auch als verallgemeinerter IV-Schätzer (GIVE) oder als two-

stage-least-squares (2SLS)-Schätzer bezeichnet.

• Bei nicht-sphärischen Störtermen (Heteroskedastie oder Autokorrelation)

muss WN angepasst werden.

2.62

• Die asymptotische Verteilung von IVβ ergibt sich aus

( ) ( )( )12 1

IV xz zz zxˆN N 0,

−−β − β → σ ∑ ∑ ∑ ,

wobei ∑ xz und ∑ zz nun anders dimensioniert sind als beim einfachen IV-

Schätzer.

• Ein Schätzer für die Varianz-Kovarianz-Matrix des Schätzers ist

( )( ) 112

IVˆ ˆV ˆ X'Z Z'Z Z' X

−−β = σ , (5.62)

2σ ergibt sich hierbei mit i i IVˆˆ y x 'ε = − β aus

N2 2

ii 1

1ˆˆ

N =

σ = ε∑ . Für unverzerrte

Schätzung ist eine Korrektur der Freiheitsgrade erforderlich: 1

N K−.

2.63

2.5.2 2SLS und das Keynesianische Modell

• Der GIVE-Schätzer (5.61) heißt auch 2SLS-Schätzer, da er auch als zwei-

stufiger KQ-Schätzer bestimmt werden kann. Dazu wird im ersten Schritt je-

de endogene Variable auf alle Instrumente regressiert. In der zweiten Stufe

werden die ursprünglichen Strukturmodelle geschätzt, wobei die endogenen

erklärenden Variablen durch vorhergesagte Größen ersetzt werden.

• Illustration: Die reduzierte Form der k-ten erklärenden Variable sei

k k kx Z= π + ν . Der mit KQ vorhergesagte Wert ist ( ) 1

k k kx Z ˆ Z Z'Z Z' x−

= π = .

Wenn xk exogen ist, ergibt sich k kx x= . Die Matrix der vorhergesagten Vari-

ablen ist ( ) 1X Z Z'Z Z' X

−= mit den Spalten kx für k = 1,2,…,K.

• Der KQ-Schätzer für die zweite Stufe ist dann

2.64

( ) 1

IVˆ ˆ ˆˆ X' X X' y

−

β = . (5.63)

Das ist exakt identisch mit 5.61, dem GIVE-Schätzer. Der Vorteil von 2SLS

ist, dass einfache KQ-Schätzungen ausreichen, wobei allerdings auf der 2.

Stufe die KQ-Standardfehler korrigiert werden müssen:

• Im Modell i 0 1 i iy x u= β + β + werde xi durch ix ersetzt. (a)

Sei xi nicht nutzbar. Mit i i iˆx x= + ε (b)

folgt *

i 0 1 i iˆy x u= β + β + (c)

mit *

i i 1 iu u= + β ε (d)

Eine KQ-Schätzung von Gleichung (c) ergibt ( )2

u*1 2

i

ˆvarx

σβ =

∑, wobei (e)

2.65

( )22*i 0 1 ii2

u*

ˆ ˆ ˆy xuˆ

N 2 N 2

− β − βσ = =

− −∑∑ . (f)

Allerdings unterscheiden sich 2

u*σ und 2

uσ (siehe (d)). Um den wahren Wert 2

uσ

zu erhalten, berechnet man i i 0 1 iˆ ˆu y x= − β − β , wobei das originale xi sowie die

konsistent geschätzten Werte für 0β und 1β eingesetzt werden. Damit ergibt

sich

( )2i 0 1 i2

u

ˆ ˆy xˆ

N 2

− β − βσ =

−∑

. (g)

Hat man (g), so können die Standardfehler der Koeffizienten aus der Schät-

zung auf der zweiten Stufe durch Multiplikation mit u u*ˆ ˆσ σ korrigiert werden.

Je höher das R2 auf der ersten Stufe, umso ähnlicher sind xi und ix und um-

so näher liegt u u*ˆ ˆσ σ bei 1, d.h. die Korrektur verändert nicht viel.

2.66

• Man kann den GIVE-Schätzer auch mittels der X-Werte beschreiben, indem

die K Spalten von X als Instrumente interpretiert werden:

( ) 1

IVˆ ˆˆ X' X X' y

−

β = .

• Illustration: Enthält das keynesianische Modell zusätzlich zur Konsumfunk-

tion die Identität t t t tY C G I= + + , dann können Gt und It als Instrumente für y

in der Konsumfunktion genutzt werden. Der effizienteste Schätzer verwendet

beide Instrumente gleichzeitig. Damit ist der GIVE:

( )( ) ( )11 1

IVˆ X'Z Z'Z Z' X X'Z Z'Z Z' y

−− −β = ,

wobei die Reihen der Matrizen Z, X und y gegeben sind durch

( ) ( )t t t t tz ' 1,G ,I , x ' 1,Y= = und yt = Ct.

2.67

2.5.3 Spezifikationstests

• Alle Ergebnisse zu Konsistenz und asymptotischer Verteilung des GIVE-

Schätzers bauen darauf auf, dass das Modell richtig spezifiziert ist und dass

die Momentenbedingungen zutreffen.

• Wenn das Modell exakt identifiziert ist, muss N

i ii 1

1ˆ z 0

N =

ε =∑ gelten, unabhän-

gig davon, ob dies für die Grundgesamtheit gilt. Die K = R Bedingungen sind

nicht prüfbar.

• Wenn das Modell überidentifiziert ist, werden nur K der R Elemente in

i i

1ˆ z

Nε∑ gleich Null gesetzt, aber wir erwarten, dass alle Bedingungen ge-

gen Null konvergieren. Dies kann man testen.

2.68

( )1N N N

2

N IV i i i i i ii 1 i 1 i 1

ˆ ˆ ˆNQ z ' ˆ z z ' z−

= = =

⎛ ⎞ ⎛ ⎞ ⎛ ⎞ξ = β = ε σ ε⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠∑ ∑ ∑ (5.64)

ist asymptotisch χ2-verteilt mit R – K Freiheitsgraden (R = Anzahl der

Momentenbedingungen, K = Anzahl der geschätzten Parameter). Dieser

Test wird als Sargan Test oder als Test der überidentifizierenden Bedin-

gungen (overidentifying restrictions test) bezeichnet.

• ξ kann vereinfacht bestimmt werden als N ⋅ R2 einer Regression der IV-

Residuen iε auf alle Instrumente zi. Die Nullhypothese besagt, dass die Da-

ten mit den R Momentenbedingungen übereinstimmen. Wird sie verworfen,

bleibt jedoch ungeklärt, welche der Bedingungen problematisch ist.

• Weiß man vorher, dass ein Teil der R Bedingungen, z.B. R1 gilt, so lassen

sich die übrigen R – R1 Bedingungen testen, wenn das Modell mit R1 identi-

2.69

fiziert ist, d.h. 1R K≥ . Man bestimmt zunächst ξ für alle R Bedingungen und

anschließend ξ1 für die R1 gültigen Bedingungen. Die Teststatistik für die R –

R1 unsicheren Bedingungen lautet dann ξ – ξ1. Sie ist unter H0 approximativ

χ2-verteilt mit R – R1 Freiheitsgraden. Dieser Test ist mit dem Sargan-Test

identisch, wenn R1 = K.

2.70

2.5.4 Schwache Instrumente

• Wenn die Instrumentvariablen nur schwach mit den endogenen Variablen

korrelieren, kann der IV-Schätzer stark verzerrt und inkonsistent sein. Seine

Verteilung kann sich stark von der Normalverteilung unterscheiden.

• Wenn das Instrument gültig ist, ist der Schätzer konsistent und konvergiert

gegen

i i

2

i i

cov z ,y

cov z ,xβ = .

Ist das Instrument nicht mit xi korreliert, konvergiert der Nenner gegen 0. 2,IVβ

ist inkonsistent und der Schätzer konvergiert nicht gegen die Normalvertei-

lung.

2.71

• Um zu prüfen, ob ein Instrument gültig ist, betrachtet man die Erklärungs-

kraft der Instrumente einer Hilfsregression. Im Modell mit der endogenen Va-

riable x2i i 1i 1 2i 2 iy x ' x= β + β + ε

mit exogenem x1i, 1i iE x 0ε = und mit dem Instrument z2 mit 2i iE z 0ε =

schätzt man

2i 1i 1 2i 2 ix x ' z '= π + π + υ .

Wenn π2 = 0, sind die Instrumente nicht gültig und der IV-Schätzer ist inkon-

sistent. Ist π2 nahe bei Null, sind die Instrumente schwach. Als Daumenregel

sagt man, dass man auf die Instrumente vertrauen kann, wenn die F-

Statistik für H0: π2 = 0 größer als 10 ist. Bei F-Werten kleiner als 5 ist mit fini-

te sample bias im IV-Schätzer zu rechnen. Daher werden die F-Statistiken

2.72

der Schätzung der reduzierten Form bei IV-Schätzern in der Regel mit an-

gegeben.

• Bei schwachen Instrumenten ist deren Exogenität besonders wichtig, da sich

andernfalls Inkonsistenzen der IV-Schätzung ergeben, die weit größer sind

als das Ausgangsproblem der KQ-Schätzung. Für das einfache Regressi-

onsmodell y x u= β + mit Instrument z gilt

( )( ) ( )

IV

KQ

ˆ Cor z,uplim 1ˆ Cor x,u Cor z,xplim

β − β= ×

β − β

Wenn bspw. Cor (z, x) = 0,1, dann ist der IV-Schätzer schlechter als der KQ-

Schätzer sobald Cor (z, u) / Cor (x, u) > 0,1.

• Eine weitere Konsequenz schwacher Instrumente ist die geringe Präzision von IV-Schätzern. Im einfachen Modell gilt: ( ) ( ) 2

IV KQ xzˆ ˆVar Var / rβ = β , wobei 2

xzr

2.73

der quadrierte Stichprobenkorrelationskoeffizient für x und z ist. Somit zeigt

ein im Vergleich zum KQ-Standardfehler großer Standardfehler der instru-

mentierten endogenen erklärenden Variablen ein schwaches Instrument z.

• Beispiel: Uni-Nähe wird als Instrument der Schulbildung (s) in einer Lohnre-

gression verwendet. Das Polynom zweiter Ordnung für potentielle Arbeits-

markerfahrung (e) wird durch ein Alterspolynom ersetzt. Das Lohnmodell

lautet:

2

i 1 i 2 i 3 i 2 i ilnw s e e x ' u= α + β + β + β + γ + .

x2 ist ein Vektor exogener Kontrollvariablen.

2.74

Ist Alter ein gutes Instrument? ja, da hoch korreliert mit Erfahrung; nein wenn

korreliert mit unbeobachteten Größen (z.B. soziale Fähigkeiten), die auch

Löhne beeinflussen können.

2.75

Tabelle 4.5. Returns to Schooling: Instrumental Variables Estimatesa

OLS IV

Schooling (s) 0.073 0.132 (0.004) (0.049)

R2 0.304 0.207

Shea's partial R2 - 0.0064

First-stage F-statistic for s - 8.07 a Sample of 3,010 young males. Dependent variable is log hourly wage. Coefficient and standard error for schooling given; estimates for experience, experience squared, 26 control variables, and an intercept are not reported. For the three endo-genous regressors - schooling (s), experience (e), and experience squared (e2) – the three instruments are an indicator for whether a four-year college (col) is nearby, age, and age squared. The partial R2 and first-stage F-statistic are weak instruments di-agnostics explained in the test.

Quelle: Cameron und Trivedi, 2005, S.111.

2.76

Der KQ-Schätzer von 0,073 ist inkonsistent, wenn unbeobachtete Größen

eine Rolle spielen. Der IV-Schätzer ergibt 0,132 aber mit deutlich größerem

Standardfehler. Im Modell mit mehreren endogenen erklärenden Variablen

gilt

( ) ( )1,2SLS 1,KQ pˆ ˆse se /Rβ = β

wobei 2

pR das partielle R2 der Regression der um den Effekt anderer erklä-

render Variablen bereinigten endogenen Variable auf das ebenso bereinigte

Instrument ist:

( ) ( )1 1x x z z '− = − γ + υ

1x und z sind vorhergesagte Größen.

2.77

Das partielle 2

pR der schooling-Variable beträgt hier 0,0064 = 0,082. Tatsäch-

lich ist der IV-Standardfehler nicht um p

1 112,5

R 0,08= = sondern um den

Faktor ( )( )

1,2SLS

1,KQ

ˆse β 0,04912,25

ˆ 0,004se β= = größer, fast exakt wie erwartet. Das In-

strument scheint keine enge Korrelation mit s zu haben, der t-Wert von 1β

fällt von 19,64 im KQ-Fall auf 2,68 im IV-Fall. Schon eine kleine Korrelation

des Instruments mit u kann zu Inkonsistenz von IV

1β führen.

Der F-Wert für die gemeinsame Signifikanz der drei Instrumente in Bezug

auf s beträgt 8,07.

(s. Cameron & Trivedi 2005, Kapitel 4.9.6)

2.78

2.5.5 Indirect Least Squares

• Ein gelegentlich verwendetes Schätzverfahren verfährt wie folgt:

• Schätzgleichung mit einer endogenen Variable w:

yi = β0 + x'1i β1 + β2 wi + εi

• Reduzierte Form für wi mit Instrument Zi:

wi = α0 + x'1i α1 +α2 Zi + ui

• Einsetzen für wi ergibt:

yi = (β0 + β2 α0) + x'1i (β1 + β2 α1) + α2 β2 Zi + β2 ui + εi

= γ0 + x'1i γ1 + γ3 Zi + υi

2.79

• Schätzt man sowohl γ3 als auch α2 mit KQ, lässt sich aus dem Verhältnis β2

bestimmen: β2 = γ3 / α2. Dies ist der indirect least squares Schätzer.

• Beispiel: Identifikation von Bildungsrenditen über Verlängerung der Pflicht-

schulzeit auf 9 Jahre (Ninth Grade).

schoolingi = ... + 0,190 Ninth Gradei + ... (KQ)

(0,039)

log wagei = ... + 0,010 Ninth Gradei + ... (KQ)

(0,008)

log wagei = ... + 0,058 schoolingi + ... (IV)

(0,038)

Der ILS-Schätzer beträgt 0,010

0,05260,190

= , was nahe am IV-Ergebnis liegt.

Quelle: Pischke und von Wachter, 2008, S. 595

2.80

2.6 Der generalisierte Momentenschätzer (GMM)

• Der GMM-Ansatz schätzt Parameter direkt auf Basis der durch ein Modell

vorgegebenen Momentenbedingungen, die linear oder nichtlinear in den Pa-

rametern sein können. Der IV-Schätzer ist ein (linearer) Spezialfall des all-

gemeineren GMM-Ansatzes. Damit Parameter schätzbar sind, muss es min-

destens so viele Bedingungen wie unbekannte Parameter geben. Im nächs-

ten Abschnitt werden nichtlineare Momentbedingungen beispielhaft aus der

Theorie abgeleitet.

2.81

2.6.1 Beispiel

• Ein Agent maximiere seinen erwarteten Nutzen aus jetzigem und zukünfti-

gem Konsum

( )S

s

t t sCs 0

max E U C +=

⎧ ⎫δ⎨ ⎬⎩ ⎭∑ , (5.65)

wobei Ct+s der Konsum in Periode t + s sei, U(Ct+s), der damit verbundene

Nutzen, δ der Diskontierungsfaktor ( )0 1≤ δ ≤ und Et der auf die zum Zeit-

punkt t verfügbare Information bedingte Erwartungsoperator.

• Die intertemporale Budgetbeschränkung sei

( )t s t s t s t s t s 1C q w 1 r q+ + + + + −+ = + + , (5.66)

2.82

wobei qt+s das Vermögen am Ende der Periode t+s beschreibt, rt+s gibt die

Rendite auf Vermögen an, und wt+s ist das Arbeitseinkommen. Gemäß Bud-

getbeschränkung werden Arbeits- und Vermögenseinkommen auf Konsum

(Ct+s) und Ersparnis (qt+s) verwendet.

• Wenngleich das Problem analytisch schwer zu lösen ist, können die unbe-

kannten Parameter über die Bedingungen erster Ordnung bestimmt werden:

( )( ) ( )t t 1 t 1 tE U' C 1 r U' C+ +δ + = ,

d.h. der Grenznutzen eines heute konsumierten Euros muss im Optimum

dem Grenznutzen des in der nächsten Periode anfallenden und dann auf

das (1 + rt+1)-fache gewachsenen Euros entsprechen. Nach Division durch

U'(C) und Umstellen lässt sich nun schreiben

2.83

( )( ) ( )t 1

t t 1

t

U' CE 1 r 1 0

U' C

++

⎧ ⎫δ⎪ ⎪+ − =⎨ ⎬⎪ ⎪⎩ ⎭

. (5.67)

• Bei Annahme einer konkreten funktionalen Form für U kann (5.67) als

Momentenbedingung genutzt werden, um die unbekannten Parameter der

Nutzenfunktion zu schätzen.

• Befindet sich zt in der Informationsmenge zum Zeitpunkt t, so sollte zt über

den Erwartungswert von

( )( ) ( )t 1

t 1

t

U' C1 r 1

U' C

++

δ+ −

2.84

keine Information beisteuern, der Erwartungswert sollte auch bedingt auf zt

gleich Null sein und da allgemein 1 2E x x 0= impliziert, dass

( ) 1 2E x g x 0= , sollte gelten:

( )( ) ( )t 1

t t 1 t

t

U' CE 1 r 1 z 0

U' C

++

⎧ ⎫⎛ ⎞δ⎪ ⎪⎜ ⎟+ − =⎨ ⎬⎜ ⎟⎪ ⎪⎝ ⎠⎩ ⎭

. (5.68)

• Bei optimalem Verhalten des Agenten ist zt also ein gültiges Instrument.

• Unterstellen wir für die Nutzenfunktion die Form

( )1C

U C1

−γ

=− γ

,

dann lässt sich (5.68) konkretisieren:

2.85

( )t 1t 1 t

t

CE 1 r 1 z 0

C

−γ

++

⎧ ⎫⎛ ⎞⎛ ⎞⎪ ⎪⎜ ⎟δ + − =⎨ ⎬⎜ ⎟⎜ ⎟⎝ ⎠⎪ ⎪⎝ ⎠⎩ ⎭. (5.69)

Dies ergibt so viele Momentenbedingungen wie zt Elemente hat und erlaubt,

die unbekannten Parameter δ und γ zu identifizieren und konsistent zu

schätzen, sofern Daten für Ct, Ct+1 , rt+1 und zt vorliegen.

2.86

2.6.2 Der GMM-Schätzer

• Im Allgemeinen lassen sich die R Momentenbedingungen darstellen als

( ) t tE f w ,z , 0θ = , (5.70)

wobei f eine Vektorfunktion mit R Elementen ist, θ ist ein K-dimensionaler

Vektor mit unbekannten Parametern, wt sind endogene oder exogene Vari-

ablen und zt ist der Vektor der Instrumente, z.B. ( )t t 1 t t 1w ' C C ,r+ += oder in

Abschnitt 2.5 ( )t t tw ' y ,x '= .

• Um θ zu schätzen, betrachten wir das Stichprobenäquivalent von (5.70):

( ) ( )T

T t tt 1

1g f w ,z ,

T =

θ ≡ θ∑ . (5.71)

2.87

• Wenn R = K, kann man alle R Elemente von (5.71) gleich Null setzen und

eindeutig nach θ auflösen, um einen konsistenten Schätzer zu erhalten. Das

ist analytisch nicht immer möglich, wenn f nichtlinear ist. In diesem Fall ver-

wendet man numerisch iterative Verfahren, um θ zu approximieren.

• Wenn R < K, ist θ nicht identifiziert.

• Wenn R > K, lässt sich aus (5.71) keine eindeutige Lösung durch Gleichset-

zen mit Null bestimmen. Stattdessen wird eine quadratische Form der

Momentenbedingung durch geeignete Wahl von θ minimiert:

( ) ( ) ( )T T T TminQ min g ' W gθ θ

θ = θ θ . (5.72)

2.88

WT ist wie zuvor eine positiv definite Gewichtungsmatrix mit TplimW W= .

Die Lösung für dieses Problem ist der GMM-Schätzer θ, der unter schwa-

chen Bedingungen konsistent und asymptotisch normalverteilt ist.

• Zumeist wird der GMM-Schätzer durch numerisch iterative Verfahren be-

stimmt. Dabei ergeben sich je nach WT unterschiedliche, konsistente Schät-

zer mit unterschiedlichen asymptotischen Varianz-Kovarianz-Matrizen. Die

kleinste Varianz-Kovarianz-Matrix für den GMM-Schätzer erhält man (solan-

ge keine Autokorrelation vorliegt), wenn man die inverse Varianz-Kovarianz-

Matrix der Stichprobenmomente heranzieht:

( ) ( ) ( ) 1opt

t t t tW E f w ,z , f w ,z , '−

= θ θ .

2.89

• Allerdings hängt Wopt von θ ab. Daher geht man in mehreren Schritten vor:

(i) Nutze einen Ersatz für WT, z.B. die Identitätsmatrix I, um 1θ konsistent zu

bestimmen.

(ii) Schätze Wopt konsistent durch

( ) ( )1T

opt

T t t 1 t t 1t 1

1 ˆ ˆW f w ,z , f w ,z , 'T

−

=

⎛ ⎞= θ θ⎜ ⎟⎝ ⎠∑ . (5.73)

(iii) Berechne den effizienten GMMθ -Schätzer mit Hilfe von optTW . Die asympto-

tische Verteilung ist

( ) ( )GMMˆT N 0,Vθ − θ → . (5.74)

Die asymptotische Varianz-Kovarianz-Matrix des effizienten GMMθ lautet

( ) 1optV D W D'−

= , (5.75)

2.90

wobei D die K × R-Matrix der ersten Ableitungen der Momentenbedingungen

darstellt:

( )t tf w ,z ,

D E'

⎧ ⎫∂ θ= ⎨ ⎬

∂θ⎩ ⎭. (5.76)

• Damit beschreibt D, wie empfindlich eine einzelne Bedingung auf kleine Än-

derungen in θ reagiert. Je größer die Reaktion, umso stärker die Bedeutung

dieses θ-Wertes für die Zielfunktion QT(θ). Umgekehrt werden diese Elemen-

te dann besonders präzise, d.h. mit kleiner Varianz geschätzt.

• Man schätzt V, indem die Werte von D und Wopt für die Grundgesamtheit

durch ihre Stichprobenwerte ersetzt werden, die an GMMθ bewertet werden.

• Zentrale Vorteile des GMM-Verfahrens sind:

2.91

(1) Verteilungsannahmen sind nicht erforderlich;

(2) Heteroskedastie unbekannter Form stellt kein Problem dar;

(3) auch wenn das Modell analytisch nicht lösbar ist, können Parameter auf

Basis der Bedingungen erster Ordnung geschätzt werden, die z.B. direkt

aus der Theorie abgeleitet werden.

(4) bei dynamischen Modellen können verzögerte Werte von Variablen als

Instrumente genutzt werden.

• Jede Variable kann als Instrument genutzt werden, wenn sie z.B. im Infor-

mationsstand der Periode t auftaucht und die Bedingung (5.67) gilt.

• Eine Schwäche des GMM-Verfahrens ist, dass sich die Stichprobenvertei-

lung der GMM-Schätzer kaum an die asymptotische Normalverteilung in

2.92

(5.74) annähert. Ebenfalls ist das Problem schwacher Instrumente auch für

den GMM-Schätzer relevant.

• Der Test auf Überidentifikation (overidentifying restrictions test) lässt sich

auf nichtlineare Modelle übertragen. Wenn die Momentenbedingung für die

Grundgesamtheit, ( ) t tE f w ,z , 0θ = , gilt, dann sollte auch für die Stichprobe

gelten ( )T GMMˆg 0θ ≈ . Unter der Nullhypothese, dass alle Momenten-

bedingungen zutreffen, ist die Teststatistik

( ) ( )opt

T GMM T T GMMˆ ˆT g ' W gξ = θ θ

asymptotisch χ2-verteilt mit R-K Freiheitsgraden. GMMθ ist dabei der optimale

GMM-Schätzer, optTW ist die auf Basis eines konsistenten Schätzers für θ

bestimmte optimale Gewichtungsmatrix.

2.93

2.6.3 Einfache Beispiele

• Beispiel 1: Wir möchten den Mittelwert μ einer Zufallsvariable yi in der Be-

völkerung mittels der Ausprägungen in einer Stichprobe mit N Beobachtun-

gen schätzen (i = 1,2,…,N). Die Momentenbedingung dieses „Modells“ lau-

tet:

iE y 0− μ =

Für die Stichprobe gilt: ( )N

ii 1

1y 0

N =

− μ =∑ , so dass der Momentenschätzer

i

1ˆ y

Nμ = ∑

und damit der Stichprobenmittelwert ist.

2.94

• Beispiel 2: Im linearen Modell i i iy x '= β + ε ist die Momentenbedingung mit

einem Instrumentenvektor zi:

( ) i i i i iE z E y x ' z 0ε = − β = .

Wenn εi ∼ i.i.d.(0, σ2) ist, ist der optimale GMM-Schätzer der IV-Schätzer.

Die optimale Gewichtungsmatrix ist

( ) 1opt 2

i i iW E z z '−

= ε ,

was geschätzt werden kann mit 1N

opt 2

N i i ii 1

1ˆW z z'

N

−

=

⎛ ⎞= ε⎜ ⎟⎝ ⎠∑ ,

wobei ε das Residuum eines konsistenten Schätzers ist. Solange ε ∼ i.i.d.

(0, σ2) kann man auch nutzen

2.95

1Nopt

N i ii 1

1W zz '

N

−

=

⎛ ⎞= ⎜ ⎟⎝ ⎠∑ .

Um die Varianz des geschätzten Koeffizienten zu bestimmen, nutzen wir die

K × R Matrix der ersten Ableitungen der Momentenbedingung nach β:

i iD E x z '= .

Dies kann für die Stichprobe konsistent geschätzt werden durch N

N i ii 1

1D x z '

N =

= ∑ .

Damit kann die Varianz-Kovarianz-Matrix des optimalen GMM- oder GIV-

Schätzers β für β geschätzt werden als (vgl. 5.75)

( )1 1N N N

2

i i i i i i ii 1 i 1 i 1

ˆ ˆ ˆV x z ' z z ' z x '− −

= = =

⎛ ⎞ ⎛ ⎞β = ε⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑ ∑ ∑ . (5.77)

2.96

In dieser Form berücksichtigt die Varianz des GMM-Schätzers automatisch

eine White-Korrektur für heteroskedastische Störterme.

2.97

2.7 Illustration: Schätzung des Intertemporalen Asset Pricing Modells

• Asset Pricing Modelle versuchen, die erwartete Rendite verschiedener ris-

kanter Investitionen zu erklären. Da dem Investor für riskantere Investitionen

Risikoprämien bezahlt werden sollten, erwarten wir, dass sich die erwarteten

Renditen über die verschiedenen Aktiva hinweg unterscheiden.

• Wir betrachten alternative Investitionsmöglichkeiten für Finanzvermögen. Die

Renditen für J riskante Aktiva seien rj,t+1 mit j = 1, 2,…, J, die für eine risiko-

freie Investition sei rf,t+1. Wenn der Agent sein Portfolio optimal bestimmt, im-

plizieren die Bedingungen erster Ordnung

( )( ) ( )t t 1 f ,t 1 tE U' C 1 r U' C+ +δ + =

( )( ) ( )t t 1 j,t 1 tE U' C 1 r U' C+ +δ + = , j = 1,…, J.

2.98

• D.h. der erwartete Grenznutzen aus dem Konsum eines Euro heute muss

identisch sein mit dem Grenznutzen aus der Investition des Geldbetrages in

ein Aktivum j und über alle verschiedenen Aktiva j hinweg. Wenn

γ−=

γ−

1

C)C(U

1

lässt sich einsetzen und umformen:

( )t 1f ,t 1

t

CE 1 r 1

C

−γ

++

⎧ ⎫⎛ ⎞⎪ ⎪δ + =⎨ ⎬⎜ ⎟⎝ ⎠⎪ ⎪⎩ ⎭

(5.78)

( )t 1j,t 1 f ,t 1

t

CE r r 0

C

−γ

++ +

⎧ ⎫⎛ ⎞⎪ ⎪δ − =⎨ ⎬⎜ ⎟⎝ ⎠⎪ ⎪⎩ ⎭

j, = 1,…, J. (5.79)

Die Differenz j,t 1 f ,t 1r r+ +− bezeichnet man als Überschussrendite, excess re-

turn, über die risikofreie Rendite.

• Wir ersetzen die intertemporale Grenzrate der Substitution durch

2.99

( ) t 1t 1

t

Cm

C

−γ

++

⎛ ⎞θ ≡ δ ⎜ ⎟

⎝ ⎠.

θ enthält die unbekannten Parameter δ und γ und wird auch als „stochasti-

scher Diskontfaktor“ bezeichnet. Wenn mt+1(θ) vorliegt, haben wir ein Modell

für die erwarteten Renditen. Dazu nutzen wir, dass für 2 Zufallsvariablen gilt

( ) ( )E xy cov x,y E x E y= + und wenden es auf (5.79) an:

( ) ( ) t 1 j,t 1 f ,t 1 t 1 j,t 1 f ,t 1cov m ,r r E m E r r 0+ + + + + +θ − + θ − =

( ) ( )

t 1 j,t 1 f ,t 1

j,t 1 f ,t 1

t 1

cov m ,r rE r r

E m

+ + +

+ +

+

θ −⇔ − = −

θ . (5.80)

• Die erwartete Überschussrendite für Aktivum j ist eine Risikoprämie, die di-

rekt mit der Kovarianz der Überschussrendite und dem stochastischen Dis-

kontfaktor schwankt. Wenn mt+1(θ) bekannt ist, lässt sich die

2.100

Querschnittsvariation der erwarteten (Überschuss-)Rendite über die Aktiva

hinweg erklären. Im Gleichgewicht muss die Rendite von Aktiva, die positiv

mit dem Konsumwachstum kovariieren, höher ausfallen als die Rendite von

Aktiva, die das nicht tun. Erstere führen zu höherer Volatilität zukünftigen

Konsums, was durch höhere erwartete Renditen ausgeglichen werden

muss.

• Die Parameter δ und γ können durch die Momentenbedingungen (5.78) und

(5.79) geschätzt werden. Dazu wurden Daten von Febr. 1959 bis Nov. 1993

zu monatlichen Renditen genutzt. Betrachtet werden 10 Aktienportfolios für

unterschiedlich große, an der New Yorker Börse gehandelte Aktienpakete.

Als risikolose Rendite gilt die Rendite für 3-monatige US-Bonds. Weiter

2.101

werden die gesamten US-amerikanischen Konsumausgaben für nicht-

langlebige Konsumgüter und Dienstleistungen herangezogen.

• Mit J = 10 und einem risikofreien Asset ergeben sich aus (5.78) und (5.79)

11 Momentenbedingungen, mit denen wir 2 Parameter schätzen wollen. Die

GMM-Schätzung kann entweder mit einer suboptimalen Gewichtungsmatrix

(z.B. W = I) bestimmt werden oder sie kann in zwei Schritten vorgehen (1:

W =I und θ[1] schätzen, 2: mit W = Wopt θ[2] schätzen) oder ein iteratives Ver-

fahren nutzen. Bei letzterem führt man den Anpassungsprozess des Zwei-

Schritt-Schätzers fort, bestimmt auf Basis von θ[2] ein verbessertes Wopt,

damit ein besseres θ[3] und so fort, bis sowohl θ als auch W zu stabilen

Werten hin konvergieren.

2.102

• Mit den Daten wurden ein suboptimaler und ein iterativer GMM-Schätzer

bestimmt. Tabelle 5.4:

• Die Schätzer für γ sind extrem groß und haben große Standardfehler. Gege-

ben unsere Nutzenfunktion, entspricht γ dem Koeffizienten relativer Risiko-

aversion (= ( ) ( )C U'' C U' C− ⋅ ; Koeffizient absoluter Risikoaversion:

( ) ( )U'' C U' C− ), der die intertemporale Substitutionselastizität für den Kon-

sum in verschiedenen Perioden misst. Im Beispiel kann eine Konsumreduk-

tion in Periode t um 1% nur durch eine Erhöhung des Konsums in Periode

2.103

t+1 um 91 bzw. 57% ausgeglichen werden, wenn der Nutzen gleich bleiben

soll. Die Individuen sind extrem risikoscheu.

• Mit einem „overidentifying restrictions“-Test lässt sich prüfen, ob alle R = 11

Momentenbedingungen zutreffen. Die Ergebnisse in Tabelle 5.4 ergeben,

dass diese Nullhypothese nicht verworfen werden kann. Bei R – K = 11 – 2

= 9 Freiheitsgraden beträgt der kritische χ2-Wert am 5%-Niveau 16,92. Sta-

tistisch ist das Modell nicht zu verwerfen, inhaltlich sind die Schätzergebnis-

se wenig plausibel.

2.104

Literatur

Verbeek, 2004, 5. Kapitel

Angrist, Joshua A. und Jörn-Steffen Pischke, 2009, Mostly Harmless Econome-trics, Chapter 4: Instrumental Variables in Action.

Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, MIT Press, Chapter 5: Instrumental Variables Estimation of Single-Equation Linear Models.

Cameron, Colin A. und Pravin K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge Univ. Press, Chapter 4.8 und 4.9.

Pischke, Jörn-Steffen und Till von Wachter, 2008, Zero Returns to Compulsory Schooling in Germany: Evidence and Interpretation, Review of Economics and Statistics 90 (3), 592 - 598.

3.1

Kapitel 3: Paneldatenmodelle

3.1 Einführung

3.2 Das statische lineare Modell

3.3 Illustration: Modelle für individuelle Löhne

3.4 Dynamische lineare Modelle

3.5 Illustration: Lohnelastizität der Arbeisnachfrage

3.6 Illustration: Kapitalstruktur von Unternehmen

3.2

3.1 Einführung

• Paneldaten bestehen aus wiederholten Beobachtungen für gegebene Einhei-

ten. Daher sind einzelne Beobachtungen nicht wie bei Querschnittsdaten un-

abhängig voneinander.

• Qualität von Paneldaten häufig durch fehlende Beobachtungen einge-

schränkt: Panelausfall (Panelattrition, Panelmortalität); balanced vs.

unbalanced panels (vollständige und unvollständige Datensätze).

• Vorteil von Paneldaten: Verhaltensänderungen von Beobachtungseinheiten

messbar. Paneldaten erlauben, Beobachtungseinheiten mit sich selbst in ei-

ner anderen Periode zu vergleichen.

3.3

• Beispiel: Es lässt sich feststellen, ob ein mittlerer Konsumanstieg um 2% da-

rauf zurückzuführen ist, ob alle um 2% mehr konsumieren oder z.B. ein Teil

um 4% und der andere um 0%.

• Indices: Beobachtungseinheit i = 1,2,…,N, Periode t = 1,2,…,T. Im linearen

Modell

it 0 it ity x '= β + β + ε (3.1)

wird unterstellt, dass Steigungsparameter konstant sind für alle i und t. Unter

herkömmlichen Annahmen ist KQ unverzerrt, konsistent und effizient. Aller-

dings sind bei Paneldaten oft i-spezifische Störterme über Perioden hinweg

korreliert. Dann ist KQ ineffizient.

• Bei Paneldaten wird häufig unterstellt

3.4

it i ituε = α + . (3.2)

Für uit wird Homoskedastie angenommen. αi ist konstant unbeobachtet, i-

spezifisch und über die Individuen hinweg homoskedastisch. Das Modell wird

als error components oder random effects Modell bezeichnet. Eine FGLS-

Schätzung wäre effizienter als KQ.

• Die Annahme Exit εit = 0 besagt, dass die Regressoren weder mit uit noch

mit αi korreliert und exogen sind. Exit αi = 0 ist oft unzutreffend.

• Frage: Kennen Sie ein Beispiel, bei dem Exit αi ≠ 0?

• Bei Querschnittsdaten verwendet man in dieser Situation IV, bei Paneldaten

gibt es andere Möglichkeiten.

• Im fixed effects Modell

3.5

it i it ity x ' u= α + β + (3.3)

sind αi (i = 1, 2, …, N) unbekannte Konstanten, die gemeinsam mit β ge-

schätzt werden können. Die Konstante β0 entfällt und wird durch die αi aufge-

fangen. Durch αi wird zugelassen, dass sich das Niveau von y systematisch

von Beobachtung zu Beobachtung, z.B. wegen unbeobachteter Variablen,

unterscheiden kann (Mittelwertunterschiede).

• Für uit wird Unabhängigkeit und identische Verteilung über alle i und t mit

itE u 0= und konstanter Varianz 2

uσ unterstellt. Wenn die iα als unbekannte

Parameter betrachtet werden, spricht man vom fixed effects Modell. Dann

ist die Annahme Exit αi = 0 des random effects Modells für konsistente

Schätzung nicht erforderlich.

3.6

3.1.1 Vorteile von Paneldaten

• Weil Paneldatensätze typischerweise groß sind und die erklärenden Variab-

len sowohl über „i“ als auch über „t“ variieren, sind die Schätzer in der Regel

effizienter als bei Querschnittsverfahren. Das kann sogar gelten, wenn die

gleiche Zahl von Beobachtungen vorliegt.

• Identifikation individueller Dynamik: Häufig haben Individuen, die ein Ereignis

erleben (z.B. Arbeitslosigkeit), eine höhere Wahrscheinlichkeit, dieses noch

mal zu erleben als andere. 2 mögliche Erklärungen: (a) Durch das Erlebnis

werden die Präferenzen oder Restriktionen so beeinflusst, dass ein erneutes

Ereignis wahrscheinlicher wird (state dependence, Zustandsabhängigkeit).

(b) Die Individuen werden nicht durch das Erlebnis beeinflusst, sondern un-

terscheiden sich grundsätzlich in ihrer Wahrscheinlichkeit, das Ereignis zu er-

3.7

leben (spurious state dependence). Mit Paneldaten lässt sich überprüfen,

welche der beiden Erklärungen zutrifft.

• Verzerrung aufgrund ausgelassener Variablen: Verzerrte Parameterschätzer

ergeben sich, wenn die berücksichtigten Variablen mit den ausgelassenen

korreliert sind. So ist beispielsweise der Output yit eines Unternehmens nicht

nur von den Inputs xit, sondern auch von der unbeobachteten Qualität des

Managements mi abhängig. Da bessere Manager weniger Inputs benötigen,

sind mi und xi korreliert. Schätzt man eine Produktionsfunktion

it 0 it 1 i 2 ity x ' m u= β + β + β + (3.5)

ohne mi, so ergeben sich verzerrte Werte für β0 und β1. Wenn Paneldaten

vorliegen, lässt sich das Problem lösen, da unternehmensspezifische Effekte

i 0 i 2mα = β + β als fixe Effekte mitgeschätzt werden können:

3.8

it i it 1 ity x ' u= α + β + (3.5a)

• Durch Berücksichtigung von Zeitindikatoren (Periodendummies) kann man al-

le periodenspezifischen Effekte herausrechnen, die für alle Beobachtungen

gleich sind (z.B. Konjunktureffekte). Auch dadurch lassen sich potentielle

Verzerrungen durch ausgelassene erklärende Variablen abfangen.

• Eine fixed effects Schätzung eliminiert konstante unbeobachtbare Größen

aus dem Störterm und löst dadurch verursachte Endogenitätsprobleme.

• Interne Instrumente: Besonders hilfreich können Paneldaten sein, wenn

Instrumentvariablen für endogene Regressoren oder bei Messfehlern erfor-

derlich sind. Da Transformationen der Originalvariablen (z.B. it it iw = x - x ) mit

dem zeitkonstanten unbeobachteten Störterm des Modells unkorreliert, aber

mit den erklärenden Variablen korreliert sind, eignen sie sich als Instrumente.

3.9

3.2 Das statische lineare Modell

3.2.1 Das fixed effects Modell

• Unterstellt wird ein lineares Modell mit einer von i abhängigen Konstante und

exogenen xit:

( )2

it i it it it uy x ' u , u ~ i.i.d. 0,= α + β + σ (3.6)

Die individuelle Heterogenität (αi) ist additiv verknüpft und wird als konstant

angenommen.

Das Modell kann ebenfalls mit Hilfe von N Dummyvariablen dij für jede Be-

obachtung i dargestellt werden:

N

it j ij it itj 1

y d x ' u=

= α + β +∑ (3.7)

3.10

Wenn i = j, nimmt dij den Wert 1 an, sonst 0. In diesem Modell sind neben den

Parametern für β N verschiedene α Parameter zu schätzen. Man spricht vom

„Least Squares Dummy Variables“ (LSDV) Schätzer.

• Frage: Was ist der Wert von N

i ijj 1

k d=

= ∑ ?

• Wenn N groß ist, ist ein anderes Verfahren günstiger. Dabei werden die fixen

Effekte αi durch Transformation der Daten eliminiert; zunächst schreiben wir

die Gleichung in Mittelwerten, mit ∑=t

iti yT

1y

i i i iy x ' u= α + β + (3.8)

Dann ergibt sich für ein Modell in Abweichungen von individuellen Durch-

schnitten

3.11

( ) ( )it i it i it iy y x x ' u u− = − β + − , (3.9)

dass sich die αi-Werte heraus kürzen. Diese Transformation bezeichnet man

als within-Transformation, den KQ-Schätzer für β aus diesem Modell als

within-Schätzer oder fixed effects-Schätzer. Er ist exakt identisch mit dem

LSDV-Schätzer aus (3.7):

( ) ( )( ) ( ) ( )-1N T N T

FE it i it i it i it ii=1 t=1 i=1 t=1

β = x - x x - x ' x - x y - y∑∑ ∑∑

(3.10)

• Wenn alle xit von allen uit unabhängig sind (vgl. Annahme A2), dann ist der fi-

xed effects-Schätzer für β unverzerrt. Er ist normalverteilt, wenn uit normalver-

teilt ist. Die Voraussetzung für Konsistenz ist

( ) it i itE x x u 0− = (3.11)

3.12

• Hinreichend für diese Voraussetzung ist, dass xit und uit unkorreliert sind und

dass ix nicht mit dem Störterm korreliert ist. Beide Bedingungen werden

durch

it isE x u 0= für alle s,t (3.12)

impliziert. Wenn (3.12) gilt, nennen wir xit strikt exogen. Strikt exogene Reg-

ressoren sind weder mit vergangenen, kontemporären noch mit zukünftigen

Störtermen korreliert. Dies schließt sowohl verzögerte endogene Variablen

als Regressoren (z.B. yi,t-1) aus (warum?), als auch solche xit, die mit vergan-

genen Werten von yit korreliert sind.

• Beispiel: Strikte Exogenität schließt aus, dass man in einer Arbeitsangebots-

gleichung Arbeitsmarkterfahrung berücksichtigt, weil diese dem Arbeitsange-

bot der vergangenen Perioden entspricht.

3.13

• Die N Achsenabschnitte ergeben sich bei Unabhängigkeit von xit und uit aus:

i i i FEˆα = y - x' β , i = 1,2,…,N.

• Sie sind konsistent nur für T → ∞; eine hohe Anzahl von Beobachtungseinhei-

ten N verbessert nicht die Konsistenz der einzelnen Schätzer von αi. iy und ix

bleiben unverändert.

• Die Varianz-Kovarianz-Matrix von FEβ lautet hier:

( ) ( )1N T

2

FE u it i it ii 1 t 1

ˆV x x x x '−

= =

⎛ ⎞β = σ − −⎜ ⎟⎝ ⎠∑∑ . (3.13)

• Der KQ-Schätzer auf Basis der within Regression (3.9) unterschätzt die wah-

re Varianz, es sei denn, dass T sehr groß ist. Der Grund dafür ist, dass die

individuellen, transformierten Residuen sich zu Null addieren und die

3.14

Störterm-Kovarianz-Matrix singulär ist. Die Varianz von ( )it iu u− ist nicht 2

uσ ,

sondern 2

u

T 1

T

−σ .

• Wenn ( )it it i it FE it i it i FEˆ ˆˆ ˆu y x ' y y x x '= − α − β = − − − β , dann lautet ein konsistenter

Schätzer für 2

uσ :

( )N T

2 2

u iti 1 t 1

1ˆˆ u

N T 1 = =

σ =− ∑∑ (3.14)

Für Unverzerrtheit ist noch eine Korrektur für die Freiheitsgrade erforderlich,

also ( ) .K1TN

1

−−

• Im LSDV-Modell werden die Freiheitsgrade der Varianz automatisch korri-

giert.

3.15

• Unter schwachen Annahmen ist der fixed effects-Schätzer asymptotisch nor-

malverteilt, so dass herkömmliche Inferenzverfahren genutzt werden können

(z.B. t- und Wald-Tests).

• Der fixed effects-Schätzer nutzt Informationen für gegebene Individuen. Es

wird erklärt, warum yit sich von iy unterscheidet, während bei

Querschnittsverfahren erklärt wird, warum sich yi und yj unterscheiden.

• Gleichzeitig wird durch die Formulierung des Modells unterstellt, dass eine

Änderung in x zwischen Periode t und s für Beobachtung i den gleichen Effekt

hat wie zwischen zwei verschiedenen Beobachtungen i und j. Dabei stammt

die Information zur Schätzung der β nicht aus dem Vergleich von Beobach-

tungen i und j, sondern aus dem Vergleich der verschiedenen Ausprägungen

für gegebene Beobachtungen.

3.16

3.2.2 Der First Difference Schätzer

• Eine andere Möglichkeit, αi zu eliminieren, besteht darin, erste Differenzen zu

betrachten:

( ) ( )it it 1 it it 1 it it 1

it it it

y y x x ' u u

y x ' u t 2,3,...,T− − −− = − β + −

⇔ Δ = Δ β + Δ = (3.15)

• Wie zuvor beim within-Schätzer können zeitkonstante Variablen nicht berück-

sichtigt werden.

• Der KQ-Schätzer für dieses Modell ist der first difference Schätzer:

1N T N T

FD it it it iti 1 t 2 i 1 t 2

ˆ x x ' x y−

= = = =

⎛ ⎞β = Δ Δ Δ Δ⎜ ⎟⎝ ⎠∑ ∑ ∑ ∑ . (3.16)

• Der Schätzer ist konsistent, wenn gilt

3.17

( )( ) it it it it 1 it it 1E x u E x x u u 0− −Δ Δ = − − = (3.17)

• Diese Bedingung ist schwächer als die Bedingung strikter Exogenität in

(3.12), bspw. lässt sie zu, dass Exit uit-2 ≠ 0.

• Der first difference Schätzer ist weniger effizient als der within Schätzer, falls

die Störterme homoskedastisch und seriell unkorreliert sind.

• Unterstellt man statt seriell unkorrelierten uit seriell unkorrelierte Δuit, d.h. eit =

Δuit = uit - uit-1, und bspw. einen random walk für uit mit uit = uit-1 + eit, so ist der

first difference Schätzer effizienter als der within Schätzer.

• Serielle Unkorreliertheit von eit = Δuit lässt sich mittels t-Test überprüfen:

it i t 1 itˆ ˆe e t 3,4,...,T i 1,2,...,N.−= ρ + υ = =

3.18

• Wenn uit seriell unkorreliert ist, muss eit autokorreliert sein mit

corr(eit, eit-1) = -0,5.

• Wenn T = 2, sind within und first difference Schätzer identisch, vorausgesetzt,

dass der first difference Schätzer eine Regressionskonstante enthält und im

within Schätzer ein Dummy für Periode 2 berücksichtigt ist. Unterscheiden

sich die Schätzergebnisse stark, gilt u.U. Annahme (3.12) nicht.

• Der difference-in-differences Schätzer ist eine Anwendung des first difference

Schätzers. Das fixed effects Modell für yit laute

it it t i ity r u= δ + μ + α +

mit rit = 1 für die i, die in Periode t das treatment erhielten (sonst rit = 0), μ ist

ein Zeiteffekt, weitere Regressoren werden vernachlässigt.

3.19

• Mit Paneldaten können wir Personen mit und ohne treatment vorher und

nachher vergleichen. Durch first difference-Transformationen werden fixe Ef-

fekte αi eliminiert:

it it t ity r uΔ = δΔ + Δμ + Δ (3.18)

• δ kann mit KQ konsistent geschätzt werden, wenn EΔrit Δuit = 0. Es ist dabei

zulässig, dass αi mit rit und uit korreliert ist.

• Gibt es nur 2 Zeitperioden, so ergibt sich für die treated mit ri2 = 1 und die

nontreated mit ri2 = 0:

treated nontreated

i2 i2ˆ y yδ = Δ − Δ , da

3.20

treated

i2 t it

nontreated

i2 t it

treated nontreated

i2 i2

ˆy 1 u

y u

ˆy y

Δ = δ ⋅ + Δμ + Δ

Δ = Δμ + Δ

Δ − Δ = δ

• Dabei wird unterstellt, dass der Zeiteffekt Δμt für beide Gruppen identisch ist.

• Das Verfahren wird oft im Zusammenhang mit natürlichen Experimenten an-

gewendet.

3.21

3.2.3 Das random effects-Modell

• Es wird unterstellt, dass αi Zufallsfaktoren sind, die unabhängig und identisch

über die Beobachtungseinheiten verteilt sind. Das Modell lautet

( ) ( )2 2

it it i it it u iy x ' u , u ~ i.i.d. 0, ; ~ i.i.d. 0, α= μ + β + α + σ α σ (3.19)

• Der Störterm ist αi + uit und besteht aus einer i-spezifischen Komponente, die

über die Zeit konstant ist, und einem Residualterm, der über die Zeit

unkorreliert ist. Es wird unterstellt, dass αi und uit unabhängig voneinander

und von allen xjs (für alle j und s) sind.

• Das Modell wird auch als one way error component Modell bezeichnet.

3.22

• Die Struktur des Störterms impliziert Autokorrelation (wegen 2ασ ). Dadurch

sind die KQ-Standardfehler nicht korrekt und ein effizienterer GLS-Schätzer

kann verwendet werden.

• Für Beobachtung i lassen sich alle T beobachteten Störterme als αi jT + ui

übereinanderschreiben, wobei jT = (1,1,..,1)' und ui = (ui1,…,uiT)' die Dimensi-

on T × 1 haben. Die Varianz-Kovarianz-Matrix für diesen Vektor ist

2 2

i t i α T T u TV α j + u =Ω = σ j j' +σ I

wobei IT die T-dimensionale Einheitsmatrix ist. Für z.B. T = 3 ergibt sich für

jedes i 2 2 2 2

α u α α

2 2 2 2 2 2

i α u α α u α

2 2 2 2

α α α u

σ +σ σ σ1 1 1 1 0 0

Ω = σ 1 1 1 +σ 0 1 0 = σ σ +σ σ

1 1 1 0 0 1 σ σ σ +σ

⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥⋅ ⋅ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ .

3.23

• Damit kann der GLS-Schätzer für die Parameter in (3.19) abgeleitet werden.

Die Daten werden für jede Beobachtung i durch Vormultiplizieren mit 1−Ω

transformiert. Dabei gilt 2

-1 -2 αu T T T2 2

u α

σΩ = σ I - j j'

σ + Tσ

⎡ ⎤⎢ ⎥⎣ ⎦

-2

u T T T T T

1 1= σ I - j j' +ψ j j'

T T

⎡ ⎤⎛ ⎞⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦

wobei 2

u

2 2

u T α

σψ =

σ + σ.

• Der Faktor T T T

1I j j '

T− führt bei Multiplikation mit den Daten zur Darstellung

der Daten als Abweichung von ihrem Mittelwert, vormultiplizieren mit T T

1j j '

T

ergibt die Mittelwerte der Daten.

3.24

• Um effiziente Schätzer zu erzeugen, werden im GLS-Verfahren die Daten

entsprechend der Varianz-Kovarianz-Matrix des ursprünglichen Störterms

transformiert. Für den random effects-Schätzer ergibt sich:

( ) ( ) ( ) ( )( )-1N T N

GLS it i it i i ii=1 t=1 i=1

β = x - x x - x ' +ψT x - x x - x '∑∑ ∑

( ) ( ) ( ) ( )( )N T N

it i it i i ii=1 t=1 i=1

x - x y - y +ψT x - x y - y⋅ ∑∑ ∑ (3.20)

bzw. 1N N

1 1

GLS i i i ii 1 i 1

ˆ ˆ ˆβ X ' X X ' y−

− −

= =

⎛ ⎞ ⎛ ⎞= Ω Ω⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑ ∑

Dabei ist iti,t

1x = x

NT∑ der Durchschnitt über alle xit und Xi ist eine T×K Matrix,

wobei Zeile t x'it entspricht. Für ψ = 0 ergibt sich der fixed effects-Schätzer

(3.10). Da für T → ∞ ψ → 0, ergibt sich, dass bei großen T fixed- und random

3.25

effects-Schätzer identisch sind. Wenn ψ = 1 ist Ω diagonal und der GLS-

Schätzer entspricht dem KQ-Schätzer, da 2 0ασ = .

• Es lässt sich ableiten, dass ( )GLS B k FEˆ ˆ ˆβ = β + I - βΔ Δ , wobei

( ) ( )( ) ( ) ( )-1N N

B i i i ii=1 i=1

β = x - x x - x ' x - x y - y∑ ∑

der so genannte between-Schätzer für β ist. Dies ist der KQ-Schätzer, für ein

Modell individueller Mittelwerte:

i i i iy x ' u= μ + β + α + i = 1,…,N. (3.21)

• Durch die Gewichtsmatrix Δ erhält der präzisere Schätzer von between und

within Schätzer das größere Gewicht. Dadurch ist der GLS-Schätzer effizien-

ter als die einzelnen Schätzer.

3.26

• Der GLS-Schätzer ist unverzerrt, wenn die erklärenden Variablen unabhängig

von allen uit und allen αi sind. Er ist konsistent, wenn N → ∞ oder T → ∞ oder

beides und wenn neben (3.11) ebenfalls gilt, dass i iE x u 0= , sowie dass

i iE x α = 0 (3.22)

• Der GLS-Schätzer kann als KQ-Schätzer für folgendes Modell bestimmt wer-

den:

( ) ( ) ( )it i it i ity - Jy = μ 1- J + x - Jx 'β+υ , (3.23)

wobei 12J = 1-ψ . uit ist i.i.d. über i und t. Wenn ψ = 0, liegt der within-Schätzer

mit J = 1 vor. Hier wird ein fester Anteil J der individuellen Mittelwerte abge-

zogen (mit 0 ≤ J ≤ 1), um das transformierte Modell zu erhalten.

3.27

• Da 2

ασ und 2

uσ unbekannt sind, müssen sie in einem ersten Schritt eines

FGLS-Verfahrens geschätzt werden.

• Der FGLS-random effects-Schätzer REβ wird auch als Balestra-Nerlove-

Schätzer bezeichnet. Er ist asymptotisch normalverteilt mit der Varianz-

Kovarianz-Matrix:

( ) ( ) ( ) ( )( )-1N T N2

RE u it i it i i ii=1 t=1 i=1

ˆV β = σ x - x x - x ' +ψT x - x x - x '∑∑ ∑

(3.26)

Solange ψ > 0, ist der random effects-Schätzer effizienter als der fixed effects-

Schätzer, da zusätzlich die between-Information in den Daten genutzt wird.

Die Varianz-Kovarianz-Matrix (3.26) ergibt sich aus der KQ-Schätzung von

(3.23).

• Wir haben 5 Schätzverfahren für β betrachtet:

3.28

1: Der between-Schätzer als KQ-Schätzer gemittelter Daten. Für N → ∞ ist

er konsistent, wenn i i i iE x u 0 und E x 0= α = , d.h. bei strikter

Exogenität der Regressoren ix und Unkorreliertheit mit αi.

2: Der fixed effects (within)-Schätzer nutzt nur Abweichungen vom indivi-

duellen Mittelwert. Für T → ∞ oder N → ∞ ist er für β konsistent, wenn

( ) it i itE x x u 0− = , d.h. strikte Exogenität der Regressoren x (keine Restrik-

tionen bezüglich der Korrelation zwischen αi und xit).

3: Der KQ-Schätzer nutzt between und within Information, aber ist nicht effi-

zient. Für T → ∞ oder N → ∞ ist er konsistent, wenn ( ) it it iE x u 0+ α = ,

d.h. keine Korrelation der xit mit αi und keine kontemporäre Korrelation

zwischen xit und uit (strikte Exogenität nicht erforderlich).

3.29

4: Der (FGLS) random effects-Schätzer kombiniert auf effiziente Weise

between und within Schätzer. Er ist konsistent für T → ∞ oder N → ∞,

wenn die Bedingungen für 1 und 2 gelten.

5: Der first difference Schätzer nutzt KQ auf differenzierte Daten. Unter der

Bedingung it itE x u 0Δ Δ = ist er konsistent, aber u.U. weniger effizient als

der within Schätzer, wenn uitN iid und T > 2 ist.

3.30

3.2.4 Fixed Effects oder Random Effects?

• Bei kleinem T und großem N kann die Modellwahl zu deutlich unterschiedli-

chen Ergebnissen führen. Der fixed effects-Ansatz ergibt auf αi bedingte Er-

gebnisse für die konkreten Beobachtungen in der Stichprobe. Der random ef-

fects-Schätzer ergibt Schätzergebnisse für β, die für die Grundgesamtheit –

nicht für die konkret vorliegende Stichprobe – abgeleitet werden:

it it itE y x = x' β

Fixed effects-Schätzer beschreiben

it it i it iE y x ,α = x' β+ α .

3.31

• Wenn αi und xit korreliert sind, wäre der random effects-Schätzer inkonsistent,

der fixed effects-Schätzer jedoch nicht. Daher ist dieser Punkt oft ausschlag-

gebend für die Wahl des Schätzers.

• Die Nullhypothese, dass xit und αi unkorreliert sind H0: E(xit αi) = 0, kann mit

dem Hausman-Test überprüft werden. Die Testidee ist, zwei Schätzer zu

vergleichen, von denen einer (der fixed effects-Schätzer) unter Null- und Al-

ternativhypothese konsistent ist und der andere (der random effects-Schätzer)

nur unter H0 konsistent ist. Unterscheiden sich die beiden Schätzer stark, so

wird H0 verworfen. Hausman hat gezeigt, dass

FE RE FE REˆ ˆ ˆ ˆV β -β = V β - V β , (3.27)

wodurch die Teststatistik einfacher berechenbar wird:

3.32

( ) ( )

-1

H FE RE FE RE FE REˆ ˆ ˆ ˆ ˆ ˆˆ ˆξ = β -β ' V β - V β β -β⎡ ⎤

⎣ ⎦ (3.28)

V beschreibt die geschätzte Varianz-Kovarianz-Matrix. Unter H0 gilt plim

( )FE REˆ ˆβ -β = 0 und 2

H Kξ ~ χ , wobei K die Anzahl der Elemente von β ist.

• Unter H0 ist der random effects-Schätzer effizient, d.h. RE FEˆ ˆV β < V β .

3.33

3.2.5 Schätzgüte

• Das R2-Maß kann als Quadrat des Korrelationskoeffizienten der beobachteten

und der vorhergesagten Werte interpretiert werden.

• Im Fall von Paneldaten kann die gesamte Variation von yit als Summe von

within und between-Variation dargestellt werden:

( ) ( ) ( )2 2 2

it it i ii,t i,t i

1 1 1y y y y y y

NT NT N− = − + −∑ ∑ ∑

wobei y den Stichprobenmittelwert und iy den Mittelwert der Beobachtungen

für i angibt.

• Je nach Interesse lassen sich nun 3 verschiedene R2-Werte definieren.

• Das within-R2 mit ( ) ( )FE FE

it i it i FEˆˆ ˆy - y = x - x 'β lautet

3.34

( ) 2 2 FE FE

within FE it i it iˆ ˆ ˆR β = corr y - y ,y - y (3.29)

• Der between-Schätzer maximiert als KQ-Schätzer

( ) 2 2 B

between B i iˆ ˆR β = corr y ,y (3.30)

wobei B

i i Bˆy = x'β .

• Der KQ-Schätzer maximiert das gesamte R2 mit it ity x ' b= ,

( ) 2 2

overall it itˆ ˆR β = corr y ,y (3.31)

• Die drei R2-Maße lassen sich für jeden beliebigen Schätzer β definieren, wo-

bei folgende vorhergesagte Werte genutzt werden: it it i itt

1ˆˆ ˆ ˆy = x' β, y = yT∑ , und

iti,t

1ˆ ˆy = y

NT∑ .

3.35

• Die fixed effects-Schätzer für αi werden nicht mit einbezogen, da diese die

Variation zwischen den Beobachtungseinheiten nicht „erklären“.

• Die R2-Maße, die auf Basis von REβ berechnet werden, sind per definitionem

kleiner als diejenigen, die jeweils auf Basis von between, within oder KQ-

Schätzungen bestimmt werden, da letztere Verfahren explizit versuchen, die

Variation der in der Berechnung betrachteten ungewichteten Residuen zu mi-

nimieren. Dies bestätigt, dass das R2 kein geeignetes Kriterium für die Wahl

von Schätzverfahren darstellt.

3.36

3.2.6 Alternative IV-Schätzer

• Nachteil des fixed effect-Schätzers: durch Ausdifferenzieren (ebenso wie im

LSDV-Verfahren) können zeitkonstante erklärende Variablen nicht berück-

sichtigt werden. Das Problem der Korrelation der erklärenden Variablen mit αi

im Modell it it i ity x ' u= μ + β + α + lässt sich auch über IV-Verfahren lösen.

• Der fixed effects-Schätzer kann wie folgt umformuliert werden

( ) ( )( ) ( ) ( )

-1N T N T

FE it i it i it i it ii=1 t=1 i=1 t=1

β = x - x x - x ' x - x y - y∑∑ ∑∑

( ) ( )-1N T N T

it i it it i iti=1 t=1 i=1 t=1

= x - x x' x - x y⎛ ⎞⎜ ⎟⎝ ⎠∑∑ ∑∑ (3.32)

• Ein Vergleich etwa mit dem IV-Schätzer

( )-1N N

IV i i i ii=1 i=1

β = z x' z y∑ ∑

3.37

zeigt, dass (3.32) auch als IV-Schätzer interpretiert werden kann, wobei die

erklärenden Variablen durch ihre eigenen Abweichungen vom beobachtungs-

spezifischen Mittelwert instrumentiert werden: it it iz = x - x .

• Der IV-Schätzer ist konsistent, wenn ( ) it i itE x x u 0− = , was bei strikter

Exogenität von xit folgt. Ebenfalls muss gelten ( ) it i iE x - x α = 0, was durch

die Definition des Instruments selbst bereits gegeben ist. Für Variablen, die

nicht mit αi korreliert sind, ist keine Instrumentierung erforderlich, so dass bei-

spielsweise unkorrelierte zeitkonstante Variablen als ihre eigenen Instrumente

mit berücksichtigt werden können.

• Im Modell

it 1,it 1 2,it 2 1i 1 2i 2 i ity = μ+ x ' β + x' β + w ' γ + w ' γ + α + u (3.33)

3.38

sind die x-Variablen zeitlich variabel und die w-Variablen zeitkonstant. Wir un-

terstellen, dass lediglich die Variablen mit Index 2 mit αi (aber nicht mit uit)

korreliert sind. Der fixed effects-Schätzer könnte nur β1 und β2, aber nicht γ1

und γ2 identifizieren.

• Der Hausman-Taylor-Schätzer würde (3.33) mit folgenden Instrumenten

schätzen: 1,it 2,it 2i 1i 1ix ,x - x ,w und x . Die exogenen x1 und w1 sind ihre eigenen

Instrumente, x2 wird über Differenzierung instrumentiert (wie bei fixed effects)

und w2 über die individuellen Mittelwerte des exogenen x1,it (vorausgesetzt x1

hat mindestens so viele Elemente wie w2). Sonst müssten weitere Instrumen-

te berücksichtigt werden. Auf diese Weise lassen sich alle Parameter identifi-

zieren.

3.39

• Der Schätzansatz wurde von Amemiya und McCurdy (1986) verallgemeinert,

die vorschlagen, auch zeitlich invariable Instrumente 1,i1 1ix - x bis 1,iT 1ix - x zur

Identifikation von γ2 zu nutzen. Breusch et al. (1989) schlagen vor, zusätzlich

2,i1 2ix - x bis 2,iT 2ix - x als Instrument zu nutzen.

3.40

3.2.7 Robuste Inferenz

• Wenn die Zufallsstörterme uit autokorreliert oder heteroskedastisch sind, sind

die Standardfehler und Tests für fixed effects- und random effects-Schätzer

ungültig und die Verfahren nicht mehr effizient.

• Das Problem ist lösbar, indem die Standardfehler für allgemeine Formen von

Heteroskedastie und Autokorrelation korrigiert werden. Im Modell

it it ity = x' β+ ε (3.34)

enthält xit die Konstante und εit hat eine Fehlerkomponentenstruktur (s. 3.2).

• Der gepoolte KQ-Schätzer

( )( )-1N T N T

it it it iti=1 t=1 i=1 t=1

b = x x' x y∑∑ ∑∑ (3.35)

3.41

ist konsistent, wenn

it itE x 0ε = (3.36)

Unter der Voraussetzung, dass die Störterme für verschiedene Beobachtun-gen unkorreliert sind ( )it jsE 0 für alle i jε ε = ≠ , lässt sich die KQ

Kovarianzmatrix durch eine Variante des Newey-West-Schätzers schätzen:

1 1N T N T T N T

it it it is it is it iti 1 t 1 i 1 t 1 s 1 i 1 t 1

ˆ ˆ ˆV b x x ' x x ' x x '− −

= = = = = = =

⎛ ⎞ ⎛ ⎞= ε ε⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑∑ ∑∑∑ ∑∑ (3.37)

Auf ähnliche Weise lässt sich die Kovarianzmatrix für den random effects- und

fixed effects-Schätzer umformen.

• Die Schätzer können effizienter werden, wenn konkrete Annahmen über die

Form von Autokorrelation und Heteroskedastie nutzbar sind.

3.42

3.2.8 Heteroskedastie- und Autokorrelationstests

• Tests sind im random effects-Rahmen deutlich komplexer als im fixed effects

(KQ) Zusammenhang. Da fixed effects-Schätzer auch konsistent sind, wenn

die random effects Annahmen zutreffen (d.h. αi ist i.i.d. und unabhängig von

den Regressoren), gelten die fixed effects-Tests auch für random effects-

Schätzzusammenhänge.

• Der Durbin Watson-Test der H0: ρ = 0 gegen H1: ρ < 0 oder ρ > 0 für den

Modellrahmen

uit = ρ ui,t-1 + vit (3.39)

wurde für den Panelfall verallgemeinert. Dabei sind itu die Residuen einer

within- oder LSDV-Schätzung. Die Teststatistik lautet hier

•

•

Bhargav

gigkeit n

Tab. 3.1

Der Tes

va et al. (

nicht nur

1: 5% kri

st gilt glei

(1983) ha

von N un

tische W

chermaß

Pdw =

aben die

nd K, son

Werte für d

ßen für fix

(N T

i 1 t 2

N

i 1

u= =

=

=∑∑

∑

kritische

ndern zus

den Pane

xed- und

)2

it i,t 1

T2

itt 1

ˆ ˆu u

u

−

=

−

∑

en Werte

sätzlich vo

el Durbin-

random e

2

für den P

on T abg

-Watson-

effects-M

Panelfall

geleitet:

-Test

Modell.

3.4

(3.40

in Abhän

43

0)

n-

3.44

• Als Test auf Heteroskedastie lässt sich der Breusch-Pagan-Test für den Pa-

neldatenfall verallgemeinern. Dazu werden die quadrierten Residuen einer fi-

xed effects-Schätzung 2

itu auf eine Konstante und die J erklärenden Variablen

zit der Alternativhypothese

( )2

it itV u h z '= σ α (3.41)

regressiert, wobei H0: α = 0. Die Teststatistik ( ) 2N T -1 R⋅ ist unter H0 asympto-

tisch χ2-verteilt mit J Freiheitsgraden.

3.45

3.3 Illustration: Modelle für individuelle Löhne

• Daten: Amerikanische NLSY Befragung 1980 – 87, 545 Männer, die 1980 die

Schule verließen. Erklärende Variablen sind die Merkmale Schuljahre, Ar-

beitsmarkterfahrung, Gewerkschaftsmitgliedschaft, beschäftigt im öffentlichen

Dienst, verheiratet, schwarz, spanisch.

Tab. 3.22: Schätzzergebnissse der LLohngleicchung

3.4

46

3.47

• Die Tabelle zeigt, dass beim fixed effects-Schätzer die zeitkonstanten Variab-

len aus dem Modell herausfallen. Die geschätzten Koeffizienten variieren zum

Teil sehr stark.

• Wenn αi mit den erklärenden Variablen korreliert ist, sind der random effects-

Schätzer ebenso wie between- und KQ-Schätzer inkonsistent. Dies kann mit-

tels eines Hausman-Tests überprüft werden, der prüft, ob die Koeffizienten

aus random effects- und fixed effects-Schätzung signifikant voneinander ab-

weichen. Die Teststatistik hat den Wert 31,75. Der kritische Wert der χ2-

Verteilung mit 5 Freiheitsgraden am 5%-Niveau beträgt 11,07, so dass

H0: Exit αi = 0 verworfen werden muss.

• Frage: Woraus ergeben sich die 5 Freiheitsgrade?

3.48

• Deutliche Unterschiede finden sich beispielsweise beim Koeffizienten der Va-

riable „married“. Es ist nicht plausibel, dass der Familienstand starke kausale

Lohneffekte hat. Allerdings kann der Familienstand durchaus mit dem un-

beobachteten Effekt korrelieren, wodurch der ohne fixed effects geschätzte

Koeffizient inkonsistent würde. Empirisch ergeben sich deutlich unterschiedli-

che Schätzergebnisse.

• Frage: Warum kann der Koeffizient von married geschätzt werden und der

von black nicht?

• Alle Koeffizienten des fixed effect-Schätzers werden ausschließlich durch Än-

derungen der Werte für gegebene Personen identifiziert (within). Unterschiede

zwischen den Individuen werden durch die Mittelwertbereinigung bei allen Va-

riablen eliminiert.

3.49

• Die KQ-Standardfehler sind nicht korrekt, da sie die Korrelation der Störterme

für gegebene Personen nicht berücksichtigen, sondern alle Beobachtungen

als unabhängig betrachten.

• Die Varianzen 2

ασ und 2

uσ für den FGLS random effects-Schätzer können auf

Basis der within- und between-Schätzer bestimmt werden. Mit 2

Bσ = 0,1209

und 2

uσ = 0,1234 kann 2

ασ als 0,1209 – 0,1234/8 = 0,1055 ermittelt werden. Für

ψ und J ergibt sich dann ψ = 0,1276 und 12ˆ ˆJ = 1-ψ = 0,6428, so dass der

FGLS random effects-Schätzer sich durch Differenzieren mit dem 0,64-fachen

des individuellen Mittelwertes für alle Variablen ergibt (vgl. 3.23). Da beim KQ-

Schätzer J = 0 und beim fixed effects-Schätzer J = 1 unterstellt wird, liegt der

random effects-Schätzer zwischen den beiden.

3.50

• Wie zu erwarten, haben die between-Schätzer den höchsten Wert für das

between R2, der fixed effects- (within-)Schätzer den höchsten Wert für das

within R2 und der KQ-Schätzer das höchste Gesamt-R2. Aber auch die

Schätzgüte des random effect-Schätzers fällt hoch aus.

3.51

3.4 Dynamische lineare Modelle

• Dank Paneldaten kann man Modelle schätzen, bei denen das gegenwärtige

Verhalten von Beobachtungseinheiten als Funktion ihres früheren Verhaltens

betrachtet wird, was in vielen theoretischen Ansätzen unterstellt wird. Der

Zeitindex läuft nun von 0 bis T: t = 0, 1, ..., T.

3.52

3.4.1 Ein autoregressives Paneldatenmodell

• Unser Modell sei

( )2

it it i,t 1 i it it uy x ' y u wobei u ~ IID 0,−= β + γ + α + σ

Da auch yi,t-1 von αi abhängt, sind die Ergebnisse für statische Modelle nicht

einfach zu übertragen. Dies lässt sich an einem vereinfachten Modell zeigen.

• Der fixed effects-Schätzer für γ in

it i,t 1 i ity y u , 1−= γ + α + γ < . (3.42)

lautet

( ) ( )

( )

N T

it i i,t -1 i,-1i=1 t=1

FE N T2

i,t -1 i,-1i=1 t=1

y - y y - yˆ =

y - yγ

∑∑

∑∑ (3.43)

3.53

wobei T

i itt=1

1y = y

T∑ und

T

i,-1 i,t -1t=1

1y = y

T∑ . Setzt man (3.42) in (3.43) ein, ergibt sich

( ) ( )

( )

N T

it i i,t -1 i,-1i=1 t=1

FE N T2

i,t -1 i,-1i=1 t=1

1u - u y - y

NTˆ = +1

y - yNT

γ γ∑∑

∑∑ (3.44)

• Dieser Schätzer ist bei gegebenem T für N → ∞ verzerrt und inkonsistent. Es

lässt sich zeigen, dass FEγ bei gegebenem T inkonsistent ist, weil die trans-

formierte verzögerte endogene erklärende Variable mit dem transformierten

Störterm korreliert ist. Wenn T → ∞ ist der Schätzer ist konsistent. Die Verzer-

rung kann jedoch auch bei größeren T noch substantiell sein.

• Die Lösung für das Problem beginnt mit einer first difference-Transformation

für den fixed effects-Schätzer, die αi ausdifferenziert:

3.54

( ) ( )it i,t 1 i,t 1 i,t 2 it i,t 1y y y y u u− − − −− = γ − + − , t = 2,…,T. (3.46)

• Eine KQ-Schätzung dieses Modells wäre selbst bei T → ∞ inkonsistent, da

yi,t–1 und ui,t–1 korreliert sind. Es bietet sich jedoch ein IV-Schätzer an. Solange

uit nicht autokorreliert ist, was wir unterstellt haben, ist yi,t–2 wohl mit

( )2t,i1t,i yy −− − , aber nicht mit ui,t–1 korreliert. Ein möglicher IV-Schätzer für γ ist:

( )

( )

N T

i,t -2 it i,t -1i=1 t=2

IV N T

i,t -2 i,t -1 i,t -2i=1 t=2

y y - yˆ =

y y - yγ

∑∑

∑∑

(3.47)

• Dieser ist konsistent, wenn für T → ∞ und N → ∞

( ) ( )

N T

it i,t 1 i,t 2i 1 t 2

1plim u u y 0

N T 1 − −= =

− =− ∑∑ (3.48)

3.55

• Alternativ kann statt yi,t–2 auch ( )i,t -2 i,t -3y - y als Instrument genutzt werden.

Dann lautet der Schätzer

( ) ( )

( ) ( )

N T

i,t 2 i,t 3 it i,t 1(2) i 1 t 3IV N T

i,t 2 i,t 3 i,t 1 i,t 2i 1 t 3

y y y yˆ

y y y y

− − −= =

− − − −= =

− −γ =

− −

∑∑

∑∑, (3.49)

der konsistent ist, wenn

( ) ( ) ( )

N T

it i,t 1 i,t 2 i,t 3i 1 t 3

1plim u u y y 0.

N T 2 − − −= =

− − =− ∑∑ (3.50)

Solange uit nicht autokorreliert ist, trifft dies zu. Sonst ist yit-2 mit uit-1 = ρuit-2 +

υit-1 korreliert und das Instrument ungültig. Durch die verzögerten Werte yi,t–3

geht im Vergleich zum ersten IV-Schätzer eine Beobachtung pro „i“ verloren.

Beide, (3.47) und (3.49) sind als Anderson-Hsiao Schätzer bekannt.

3.56

• Mit Hilfe eines Method of Moments-Ansatzes können beide IV-Schätzer

gleichzeitig verwendet werden, da

( ) ( ) ( )

N T

it i,t 1 i,t 2 it i,t 1 i,t 2i 1 t 2

1plim u u y E u u y 0

N T 1 − − − −= =

− = − =− ∑∑ (3.51)

und

( ) ( ) ( ) ( )( ) N T

it i,t 1 i,t 2 i,t 3 it i,t 1 i,t 2 i,t 3i 1 t 3

1plim u u y y E u u y y 0

N T 2 − − − − − −= =

− − = − − =− ∑∑ (3.52)

unabhängige Momentenbedingungen sind.

• Da die Momentenschätzer mit wachsender Zahl von Momentenbedingungen

an Effizienz gewinnen, haben Arrellano und Bond (1991) vorgeschlagen,

weitere Bedingungen in Abhängigkeit von T zu berücksichtigen. Bei z.B. T =

4, gilt:

3.57

für t = 2 gilt ( ) i2 i1 i0E u u y 0− = ,

für t = 3 gelten sowohl ( ) i3 i2 i1E u u y 0− =

als auch ( ) i3 i2 i0E u u y 0− = ,

für t = 4 gibt es 3 Instrumente: ( ) i4 i3 i0E u u y 0− =

( ) i4 i3 i1E u u y 0− =

( ) i4 i3 i2E u u y 0− = .

• Der GMM-Schätzer nutzt also den Vektor transformierter Störterme

i2 i1

i

i,T i,T 1

u u

u

u u −

−⎛ ⎞⎜ ⎟Δ = ⎜ ⎟⎜ ⎟−⎝ ⎠

(3.53)

und Zi als Matrix der Instrumente

3.58

[ ][ ]

[ ]⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

=

−2T,i0i

1i0i

0i

i

y,y00

0y,y0

00y

Z

,

(3.54)

so dass

i iE Z ' u 0Δ = . (3.55)

• Insgesamt gibt es 1 + 2 + 3 + … + T–1 Momentenbedingungen:

( ) i i i,-1E Z' Δy Δy = 0− γ

(3.56)

Hinweis: ( ) ( ) ( )it it 1 it 1 it 2 it it 1y y y y u u .− − − −− − γ − = −

• γ wird geschätzt durch Minimieren von

( ) ( )N N

i i i, 1 N i i i, 1i 1 i 1

1 1min Z' y y ' W Z' y y

N N− −γ= =

⎡ ⎤ ⎡ ⎤Δ − γ Δ Δ − γ Δ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦∑ ∑ (3.57)

3.59

wobei WN eine symmetrische, positiv-definite Gewichtungsmatrix ist.

• Für γ ergibt sich

( ) ( )( ) ( ) ( )-1N N N N

GMM i,-1 i N i i,-1 i,-1 i N i ii=1 i=1 i=1 i=1

ˆ = Δy' Z W Z'Δy Δy' Z W Z'Δyγ ∑ ∑ ∑ ∑ (3.58)

was konsistent ist, solange WN positiv definit ist. Die optimale Gewichtungs-

matrix ist proportional zur invertierten Kovarianzmatrix der Stichprobenmo-

mente. Das bedeutet hier

-1 -1

N i i i i i iN

plimW = V Z'Δu = E Z'ΔuΔu' Z→∞

. (3.59)

Dies lässt sich im Standardfall schätzen als

-1

Nopt

N i i i ii=1

1ˆ ˆ ˆW = Z'Δu Δu' ZN⎛ ⎞

∑⎜ ⎟⎝ ⎠

(3.60)

3.60

• Wenn zusätzlich die Restriktion genutzt wird, dass die Störterme weder auto-

korreliert noch heteroskedastisch sind, vereinfacht sich die Vorgehensweise.

3.61

3.4.2 Dynamische Modelle mit exogenen Variablen

• Auch das Modell

it it i,t 1 i ity x ' y u−= β + γ + α + (3.64)

lässt sich per GMM schätzen. Wenn die xit strikt exogen sind, gilt

is itE x Δu = 0 für alle s,t (3.65)

und die xi1,…,xiT sind zusätzliche Instrumente, die weitere Zeilen in Zi bilden

können.

• Alternativ und zur Effizienzsteigerung können auch die ersten Differenzen

von xit als Instrumente genutzt werden:

it itE x u 0 für alle t.Δ Δ = (3.66)

3.62

Dann folgt für die Matrix der Instrumente:

[ ][ ]

[ ]⎟⎟⎟⎟⎟

⎠

⎞

⎜⎜⎜⎜⎜

⎝

⎛

Δ

Δ

Δ

=

− iT2T,i0i

3i1i0i

2i0i

i

'x,y,y00

0'x,y,y0

00'x,y

Z

• Sind die xit nicht strikt exogen (unkorreliert mit allen uis), betrachtet man

predeterminierte xit: xit und xi,t–1 sind unkorreliert mit uit, aber möglicherweise

korreliert mit früheren Ausprägungen von ui. it isE x u 0= gilt nur für s ≥ t.

• Statt der ersten Differenzen lauten die Momentenbedingungen dann

i,t j itE x u 0 für j 1, ,t 1− Δ = = −… (für alle t). (3.67)

3.63

• Wenn sowohl strikt exogene als auch predeterminierte xit Variablen berück-

sichtigt werden, können beiden Arten von Momentenbedingungen kombiniert

werden.

• Neben dem Sargan Test, der die Gültigkeit der Gesamtheit der

Momentenbedingungen überprüft, werden im Rahmen von dynamischen Pa-

nelmodellen auch Tests auf Autokorrelation der Residuen uit durchgeführt.

Wenn uit einem AR(1)-Prozess folgt, kann yit-2 bei einem Störterm Δuit nicht

exogen sein.

• Der Arellano Bond Test auf Autokorrelation wird mit den Residuen in ersten

Differenzen durchgeführt. Dabei sind Δuit und Δuit-1 wegen uit-1 automatisch

korreliert. AR(1) in uit würde sich in AR(2)-Prozessen in ersten Differenzen

spiegeln und dies wird getestet, um die Gültigkeit der Instrumente zu prüfen.

3.64

3.5 Illustration: Lohnelastizität der Arbeitsnachfrage (Verbeek 2.A.)

• Daten: 2800 große belgische Unternehmen 1986 – 1994

• Das statische Arbeitsnachfragemodell lautet für Unternehmen i im Jahr t

it 1 2 it 3 it 4 it 5 jt itlogL = β +β logw +β logK +β logY +β logw + ε

L ist die Arbeitsnachfrage, w der Lohn, K und Y sind Kapitalstock und Output,

wjt ist der Branchendurchschnittslohn, der Rückschlüsse auf die Verhand-

lungsmacht der Gewerkschaft zulässt. Die Gleichung gilt für die lange Frist

und lässt Anpassungskosten unberücksichtigt.

• Für die kurze Frist sind Anpassungsreaktionen von Interesse und das Modell

lautet:

it 1 2 it 3 it 4 it 5 jt i,t -1 i itlogL = β +β logw +β logK +β logY +β logw + γ logL + α + u

3.65

• Die Fehlertermkomponente αi beschreibt unbeobachtete unternehmensspezi-

fische zeitkonstante Heterogenität. αi kann durch Differenzenbildung elimi-

niert werden, aber das resultierende Modell kann nicht konsistent mit KQ ge-

schätzt werden: Zum einen korrelieren i,t -1Δlog L und itΔu , zum anderen sind

die Löhne potentiell endogen. Da diese gleichzeitig mit der Arbeitsnachfrage

L bestimmt werden, ist zu erwarten, dass it itE Δlogw Δu 0≠ . itΔlogw kann

mit i,t -2logw , i,t -3logw ,... ähnlich instrumentiert werden wie i,t -1ΔlogL .

• Die Schätzergebnisse für das statische und dynamische Modell (beide in ers-

ten Differenzen) finden sich in Tab. 3.3. In beiden Fällen wurde log wit instru-

mentiert.

• Es wird ein Arellano Bond-Verfahren genutzt und alle Momentenbedingungen

für log L und log w ab t-3 werden verwendet.

•

Tab. 3.3

Der ov

Moment

3.a Arbeit

veridenti

tenbeding

ξ =

tsnachfra

ifying r

gungen e

( GMMˆN g 'θ

ageschätz

restrictio

erfüllt sind

) (Opt

M W g

zungen

ons tes

d. Die Te

( )GMMθ ξ

t (Sarg

eststatisti

2

R K−ξ χ∼

an Test

k lautet

t) prüft,

3.6

ob di

66

ie

3.67

wobei ( )ˆg θ die an den Schätzwerten bewerteten Momentenbedingungen dar-

stellen. Die Freiheitsgrade der χ2-Teststatistik ergeben sich aus der Anzahl

der Restriktionen minus der geschätzten Parameterzahl (R – K). Die Bedin-

gungen werden für beide Modelle am 5%-Niveau von den Daten verworfen.

Daher sind die Koeffizienten nicht konsistent geschätzt.

• Der verzögerte Arbeitsnachfrageterm hat einen statistisch signifikanten Koef-

fizienten. Die Lohnelastizität ist sowohl im statischen wie auch im dynami-

schen Modell recht hoch.

• Der Arellano Bond Test auf AR(2) in Δuit ergibt für das statische Modell eine

z-Statistik von -1,055 und für das dynamische Modell von -1,379 und somit

kein Problem.

3.68

3.6 Illustration: Kapitalstruktur von Unternehmen

• Flannery und Rangan (2006) untersuchen den Anpassungsprozess in der

Fremdkapitalquote (MDR) von Unternehmen. Fremdkapitalfinanzierung birgt

finanzielle Risiken, hat aber steuerliche Vorteile. Man definiert

itit

it it it

DMDR

D S P=

+

wobei Dit der Buchwert des Fremdkapitals von Unternehmen i in Periode t ist.

S ist die Anzahl und P der Preis der eigenen Aktien.

• Es wird unterstellt, dass ein Unternehmen eine latente, d.h. unbeobachtbare

Zielgröße itMDR∗ hat, die von den Charakteristika des Unternehmens in der

Vorperiode t-1 bestimmt werden:

it i, t 1 itMDR x '∗−= β + η

3.69

η ist ein Störterm mit Erwartungswert Null.

• Die Anpassung an die Zielgröße kann wie folgt modelliert werden:

( )( )it i, t 1 it i, t 1MDR MDR 1 MDR MDR , mit 0 1.∗− −− = − γ − ≤ γ ≤

Wir unterstellen für alle Unternehmen einen einheitlichen Wert γ. Wenn γ = 0,

erfolgt kurzfristig eine vollständige Anpassung an itMDR∗ .

• Setzt man für itMDR∗ ein, ergibt sich

( ) ( )it i, t 1 i, t 1 itMDR MDR x ' 1 1 .− −= γ + β − γ + − γ η

• Lässt man zeitkonstante unbeobachtete Unternehmenseffekte αi zu, ergibt

sich ein dynamisches Panelmodell:

it i, t 1 i, t 1 i itMDR MDR x' * .− −= γ + β + α + η (3.68)

3.70

• Es werden Daten von 3777 Unternehmen für die Jahre 1987-2001 in Form

eines unbalanced panel verwendet. Die Variablen lauten:

ebit_ta Gewinne vor Zinsen und Steuern geteilt durch Summe der Aktiva

mb Markt geteilt durch Buchwert der Aktiva

dep_ta Abschreibungen geteilt durch Summe des Anlagevermögens

log(ta) Logarithmus der Gesamtaktiva

fa_ta Anteil Anlagevermögen

rd_ta F&E Ausgaben geteilt durch Gesamtaktiva (0 wenn missing)

rd_dum Indikator (=1) wenn rd_ta fehlt

inmedian Branchendurchschnitt für Fremdkapitalquote

rated Unternehmen wurde geratet (=1)

• Tabelle 3.3.b weist KQ, within und first difference Schätzergebnisse aus:

3.71

Variable OLS within first-difference

MDRt-1 0,884 0,535 -0,114 (0,005) (0,012) (0,012)

ebit_ta -0,032 -0,050 -0,045 (0,007) (0,011) (0,010)

mb 0,0016 0,0023 0,0028 (0,0007) (0,0010) (0,0011)

dep_ta -0,261 -0,124 0,110 (0,035) (0,071) (0,079)

log(ta) -0,0007 0,038 0,064 (0,0006) (0,003) (0,005)

fa_ta 0,020 0,059 0,106 (0,006) (0,017) (0,018)

rd_dum 0,007 0,0001 -0,017 (0,002) (0,0081) (0,009)

rd_ta -0,120 -0,066 -0,059 (0,013) (0,026) (0,029)

inmedian 0,032 0,167 0,182 (0,010) (0,022) (0,026)

rated 0,007 0,021 0,009 (0,003) (0,006) (0,007)

within R2 0,340 between R2 0,641 overall R2 0,741 0,563 0,028

3.72

• Die Schätzer sind alle bei gegebenem T und N → ∞ inkonsistent (warum?).

KQ sollte (für γ > 0) γ überschätzen, der within-Schätzer sollte γ unterschätzen

(vgl. 3.44).

• Die Schätzergebnisse in Tabelle 3.3.b variieren deutlich; gemäß KQ beträgt

die jährliche Anpassung an die Zielquote 11,7%, nach within-Schätzung sind

es 46,5% und die first difference Schätzung ist kaum sinnvoll interpretierbar.

Wir vermuten somit einen wahren Wert zwischen 11,7 und 46,5 Prozent.

• Auch andere Schätzergebnisse fallen deutlich unterschiedlich aus (z.B. für

log(ta)).

• Tabelle 3.4 weist die Anderson-Hsiao (AH) und Arellano-Bond (AB) Ergebnis-

se aus:

3.73

Anderson-Hsiao IV Arellano-Bond GMM Variable IV (3.49) IV (3.47) one-step two-step

MDRt-1 7,033 1,358 0,749 0,772 (7,325) (0,091) (0,032) (0,036)

ebit_ta 1,208 0,203 0,099 0,098 (1,305) (0,026) (0,012) (0,015)

mb 0,244 0,047 0,029 0,026 (0,247) (0,004) (0,002) (0,002)

dep_ta -1,858 -0,227 -0,066 -0,003 (2,116) (0,151) (0,087) (0,106)

log(ta) -0,521 -0,053 0,005 0,003 (0,607) (0,013) (0,005) (0,007)

fa_ta -1,091 -0,166 -0,062 -0,052 (1,238) (0,039) (0,021) (0,025)

rd_dum -0,023 -0,021 -0,0178 -0,017 (0,079) (0,016) (0,0100) (0,11)

rd_ta 0,882 0,127 0,064 0,055 (1,038) (0,050) (0,037) (0,035)

inmedian -3,378 -0,584 -0,061 -0,095 (3,668) (0,061) (0,034) (0,032)

rated -0,272 -0,052 -0,021 -0,029 (0,294) (0,012) (0,008) (0,008)

Overidentifying restrictions test (df = 104) 887,17 (p = 0,0000) 437,11 (p = 0,0000)

Test for second order autocorrelation in Δuit -3,39 (p = 0,0007) -2,73 (p = 0,0063)

instruments ΔMDRt-2 MDRt-2 MDRt-2, MDRt-3, … (for each t)

3.74

• Der AH-Schätzer wurde mit verschiedenen Instrumentvariablen durchgeführt,

was zu deutlich unterschiedlichen Ergebnissen führte. Die Ergebnisse mit

MDRi,t-2 als Instrument wirken realistischer, obgleich ˆ 1γ > .

• Frage: Was versteht man unter schwachen Instrumenten?

• Um zu überprüfen, ob im AH Schätzer schwache Instrumente vorliegen,

wurde MDRi,t-1 auf Δxi,t-1 sowie jeweils das Instrument regressiert. Der Koeffi-

zient für ΔMDRi,t-2 war insignifikant, somit ist dieses Instrument schwach. Der

Koeffizient für MDRi,t-2 war hoch signifikant. Der unplausible Wert von

ˆ 1,358γ = lässt sich u.U. durch Autokorrelation in uit erklären.

• Der AB-Schätzer verwendet zusätzliche verzögerte Werte von MDR als In-

strument für MDRi,t-1 in einer Schätzgleichung in ersten Differenzen. Die ein-

und zweistufigen Ergebnisse unterscheiden sich in der verwendeten Gewich-

3.75

tungsmatrix (mit oder ohne Korrektur für nicht-sphärische Störterme, d.h. für

Autokorrelation oder Heteroskedastie).

• Die Ergebnisse sind vergleichbar und implizieren Anpassungsraten von 25,1

und 22,8 Prozent.

• Der unter Homoskedastie gültige Sargan-Test ist für beide Schätzer signifi-

kant. Dies bedeutet, dass nicht alle Momentenbedingungen zutreffen, d.h. wir

verwenden ungültige Instrumentvariablen.

• Zusätzlich kann Autokorrelation in Δuit nicht verworfen werden.

• Insgesamt ergibt keines der verwendeten Verfahren überzeugende Ergebnis-

se.

3.76

• Wenn der wahre Koeffizient γ nahe eins ist, sind die verzögerten MDR-Werte,

die von AB als Instrumente verwendet werden, für das Modell in ersten Diffe-

renzen ungeeignet. Niveaugrößen aus der Vergangenheit können kaum zu-

künftige Änderungen erklären. Arellano und Bover (1995) und Bundell und

Bond (1998) schlagen vor, in dieser Situation die nicht differenzierte Glei-

chung simultan mit zu schätzen und hierfür verzögerte Werte in ersten Diffe-

renzen als Instrument zu verwenden (System-GMM-Schätzer).

3.77

Literatur

Bond, Stephen R., 2002, Dynamic Panel Data Models: A Guide to Micro Data methods and Practice, Portuguese Economic Journal 1, 141 – 162.

Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and Applications, Cambridge: Cambridge University Press. Kapitel 21, 22

Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata, Stata Press. Kapitel 8, 9

Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice Hall, 6. Auflage. Kapitel 9, 12.8 und 15.6.

Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley & Sons, 3. Auflage. Kapitel 10.1 - 10.5

Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, Cambridge: The MIT Press. Kapitel 10

4–1

Kapitel 4: Evaluationsverfahren

4.1 Evaluationsproblem und kausale Effekte

4.2 Evaluation bei "selection on observables"

4.3 Beispielstudien

4.4 Evaluation bei "selection on unobservables"

4.5 Beispielstudie

4–2

4.1 Evaluationsproblem und kausale Effekte

4.1.1 Kausale Effekte einer Intervention

• Beispiele für Interventionen und ihre Effekte:

- staatliche Zuschüsse für Investitionen auf die Investitionstätigkeit

- Präventionskampagne auf das Auftreten einer Krankheit

- Fortbildungsmaßnahme auf Beschäftigungschancen.

• Wir sprechen von einem Treatment durch die Intervention und sind daran in-

teressiert, wie das Treatment die Ergebnisvariablen (outcomes) der Wirt-

schaftssubjekte verändert.

• Beispiel: Um die Wirkung von Fortbildung auf Beschäftigung quantifizieren zu

4–3

können, müssen wir wissen, wie sich die Beschäftigung sowohl mit als auch

ohne Treatment entwickelt hätte.

• Wir definieren für Beobachtungseinheit i:

i

1 bei TreatmentD

0 ohne Treatment

⎧= ⎨⎩

( )( )( )

i

i

i

y 1 Ergebnisvariable bei Treatmenty

y 0 Ergebnisvariable ohneTreatment

⎧⎪⋅ = ⎨⎪⎩

• Das beobachtete Ergebnis (outcome) für i lautet:

( ) ( ) ( )i i i i iy D y 1 1 D y 0 .= ⋅ + − ⋅

• Der kausale Effekt des Treatments ist:

( ) ( )i i iy 1 y 0 ,Δ = −

4–4

wobei es nicht möglich ist, für ein i sowohl yi(1) als auch yi(0) zu beobachten.

Es fehlt immer die kontrafaktische Evidenz.

• yi(1) und yi(0) stellen potentielle Ergebnisse dar. Daher spricht die Literatur

vom potential outcome approach, auch Roy-Rubin-Modell genannt.

• Um kausale Treatmenteffekte individuell bestimmen zu können, müssten wir

für eine Beobachtungseinheit zum gleichen Zeitpunkt die abhängige Variable

yi mit und ohne Treatment messen können, was unmöglich ist.

• Man unterscheidet verschiedene Erwartungswerte des Treatmenteffektes:

(i) Durchschnittlicher Treatmenteffekt in der Bevölkerung (Average Treat-

ment Effect, ATE):

[ ] ( ) ( )i i iE E y 1 E y 0⎡ ⎤ ⎡ ⎤Δ = −⎣ ⎦ ⎣ ⎦ .

4–5

(ii) Durchschnittlicher Treatmenteffekt für eine ausgewählte Personengrup-

pe, z.B. Personen ohne Berufsausbildung:

[ ] ( ) ( )i i i i i i i i iE |X x E y 1 | X x E y 0 | X x⎡ ⎤ ⎡ ⎤Δ = = = − =⎣ ⎦ ⎣ ⎦ .

(iii) Treatmenteffekt für die Gruppe von Personen, die das Treatment erhält:

( ) ( )i,ATT i i i iE E y 1 | D 1 E y 0 | D 1⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦ ,

(Average Treatment Effect on the Treated, ATT). Da sich Maßnah-

men oft auf ausgewählte Personengruppen konzentrieren, wird der ATT

oft untersucht.

(iv) Treatmenteffekt für diejenigen, deren Teilnahme am Treatment durch

die Ausprägung einer Größe Z determiniert wurde, d.h. die bei Ausprä-

gung Zi* Treatment erhalten, aber nicht bei Ausprägung Zi**:

4–6

E [Δi, LATE] = E [yi(1) – yi(0) | Di(Zi*) = 1, Di(Zi**) = 0].

Man spricht vom Local Average Treatment Effect (LATE).

• Für welchen Treatmenteffekt wir uns interessieren, hängt vom Einzelfall ab.

ATE misst einen durchschnittlichen Effekt, wenn Programme z.B. für ganze

Regionen eingeführt oder abgeschafft werden. ATT schließt Personen von der

Betrachtung aus, die nicht teilnehmen können.

• Wichtig: Wir können die gleiche Einheit nie in beiden Situationen beobachten

und nie gleichzeitig das Ergebnis mit und ohne Treatment feststellen. Dies ist

das fundamentale Problem kausaler Inferenz oder das fundamentale Eva-

luationsproblem: die kontrafaktische Situation, d.h. y(0) für die Treated

und y(1) für die Non-Treated, ist unbeobachtbar. Daher müssen wir Annah-

4–7

men treffen, um Treatmenteffekte zu identifizieren und zu schätzen.

4–8

4.1.2 Identifikation der Effekte

• Um die Effekte identifizieren zu können, muss in den meisten Fällen eine Se-

lektionsproblematik gelöst werden. Würden wir einfach Einheiten mit und oh-

ne Treatment vergleichen, z.B. um den ATT zu schätzen, dann würde gelten:

( ) ( )( ) ( ) ( ) ( )

( ) ( )

i i i i

i i i i i i i i

i,ATT i i i i

Bias

E y 1 |D 1 E y 0 |D 0

E y 1 |D 1 E y 0 |D 1 E y 0 |D 1 E y 0 |D 0

E E y 0 |D 1 E y 0 |D 0

⎡ ⎤ ⎡ ⎤= − =⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = − = + = − =⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤ ⎡ ⎤= Δ + = − =⎣ ⎦ ⎣ ⎦⎣ ⎦

• Der zweite Term der rechten Seite der Gleichung wäre eine Verzerrung

(Bias), wenn das erwartete (kontrafaktische) Ergebnis für die Treated ohne

Politikintervention nicht den gleichen Wert annimmt wie für die Non-Treated.

4–9

• Genau das erwarten wir, wenn das Treatment nicht zufällig stattfindet. Dann

hängt die Wahrscheinlichkeit eines Treatments von beobachtbaren und

unbeobachtbaren Faktoren ab, die ebenfalls einen Einfluss auf die Ergebnis-

variable y(0) ohne Intervention haben können.

• Beispiel: Lohnwirkung eines studentischen Auslandsaufenthaltes; hier könnte

man vermuten ( ) ( )i i i iE y 0 | D 1 E y 0 | D 0⎡ ⎤ ⎡ ⎤= ≠ =⎣ ⎦ ⎣ ⎦ .

• Unter diesen Bedingungen gibt es verschiedene Möglichkeiten, den ATT zu

identifizieren:

(a) Experimentell: Aus einer Gruppe von Personen, die für das Treatment in

Frage kommen, werden zufällig Personen ausgewählt (random

assignment), die die Intervention erhalten. Die restlichen Personen die-

4–10

ser Gruppe bilden die Vergleichsgruppe (control group). Der

Treatmenteffekt ergibt sich als Differenz zwischen dem Mittelwert der Er-

gebnisvariable der Treatment- und der Vergleichsgruppe.

Beachte: Nicht jedes Experiment genügt den Bedingungen. Sofern

Treatments abgebrochen werden oder nicht ausgewählte Kandidaten sich

Ersatztreatments suchen oder ausgewählte Kandidaten nicht vollständig

kooperieren (non-compliance), ist die Zufälligkeit eingeschränkt. Oft sind

Experimente auch aus ethischen oder gesetzlichen Gründen nicht mög-

lich.

(b) Nicht-experimentell: Das Evaluationsproblem lässt sich als zweistufiges

Gleichungssystem beschreiben:

4–11

• Eine Selektionsgleichung beschreibt den Prozess der Auswahl

(assignment rule) ins Treatment. Der Selektionsprozess kann sowohl vom

Verhalten der Personen selbst als auch von anderen Akteuren abhängen, die

über Treatments entscheiden.

Stufe 1: Selektionsgleichung *i i

*i

i *i

D ' z

1 falls D 0D

0 fallsD 0

= α + ε

⎧ >⎪= ⎨≤⎪⎩

Di* ist die latente, Di die beobachtete Variable.

• Frage: Welchen Wert sollte α bei random assignment annehmen?

• Beispiel: Ob es zu einer Fortbildung für eine arbeitslose Person kommt,

4–12

hängt davon ab, ob die Person an der Fortbildung teilnehmen will und davon,

ob die Arbeitsagentur die Fortbildung des Arbeitslosen finanziert.

• Die Outcomegleichungen beschreiben, wie verschiedene Faktoren die Er-

gebnisvariable determinieren, die durch das Treatment beeinflusst wird.

Stufe 2: Outcomegleichungen (bspw.)

( )( )

'i 1 1 i i,1 i

'i 0 0 i i,0 i

y 1 x u falls D 1

y 0 x u falls D 0

= γ + β + =

= γ + β + =

• Diese Spezifikation der Outcomegleichungen unterstellt, dass das Treatment

für alle i in gleicher Weise sowohl die Konstante als auch die Parameter der

Regressoren beeinflusst. Falls es nur einen konstanten, homogenen

Treatmenteffekt gibt, hätten wir

4–13

'i 0 i 0 i iy D x u= γ + Δ ⋅ + β + .

• Frage: Wie sähe ein Modell für einen konstanten heterogenen

Treatmenteffekt aus?

• Wir treffen nun noch zwei Annahmen:

(a) Das Treatment beeinflusst das Verhalten der Wirtschaftssubjekte nicht

bereits bevor die Politikintervention stattfindet.

(b) Stable Unit Treatment Value Assumption (SUTVA): Die potentiellen

Outcomes und Treatments einer Beobachtungseinheit i sind unabhängig

von potentiellen Treatments und Outcomes aller anderen Beobachtungs-

einheiten j = 1, …, n mit j ≠ i, d.h.:

4–14

( ) ( )( ) ( )

i 1 2 n i i

i 1 2 i n 1 n i i i

D z ,z ,...,z D z

y z ,z ,...,z ,...,z ,D ,...,D y z ,D

=

=

Es gibt also keine Zusammenhänge zwischen den verschiedenen Einhei-

ten und auch keine allgemeinen Gleichgewichtseffekte. Das Outcome der

Person i hängt nicht vom Treatment-Status anderer Personen ab. Das

Treatment von i beeinflusst nur die Outcomes von i.

• Beispiel: Die Lohnwirkung eines studentischen Auslandsaufenthaltes ist unter

SUTVA unabhängig davon, wie viele Studierende im Ausland waren.

• Wie können wir in der nicht-experimentellen Situation Treatmenteffekte schät-

zen?

Fall 1: Kein systematischer Zusammenhang zwischen den Störtermen der

4–15

Outcome- und Selektionsgleichung; Selektion nur aufgrund von beobachtba-

ren Faktoren. Man spricht von selection on observables, unconfounded-

ness, Exogenität, ignorability, conditional independence. Der Treatmenteffekt

ist dann für die oben spezifizierten Outcomegleichungen:

( ) ( ) ( ) ( )i i i i i i 1 0 1 0 iE y 1 | D 1,x E y 0 | D 0,x ' x⎡ ⎤ ⎡ ⎤= − = = γ − γ + β − β⎣ ⎦ ⎣ ⎦ .

Lösungsansatz: Regressions- oder Matchingverfahren.

Fall 2: Systematischer Zusammenhang zwischen den Störtermen der

Outcome- und Selektionsgleichung, z.B. Personen mit besonders hohem

Outcome-Wert haben eine besonders hohe Wahrscheinlichkeit das Treatment

zu erhalten; es gibt Selektion aufgrund unbeobachteter Faktoren. Man spricht

von selection on unobservables, Endogenität, non-ignorability.

4–16

Lösungsansätze: Bei natürlichen Experimenten difference-in-differences

Schätzer, Instrumentvariablen, regression discontinuity design, control-

function Ansatz.

• Unterschieden wird, ob der Treatmenteffekt für alle einheitlich ausfällt, oder

über die Individuen hinweg heterogen ist. Bei homogenem Effekt gilt automa-

tisch: ATE = ATE | (X = xi) = ATT.

• Ursprünglich betrachtete die Literatur nur mittlere Effekte. Bei heterogenen Ef-

fekten sind auch die Verteilung von potential outcomes und ihre Quantile von

Interesse.

4–17

4.2 Evaluation bei "selection on observables"

4.2.1 Grundidee des Matching-Schätzers

• In einem Experiment vergleichen wir die Outcomes von zufällig bestimmten

Treated und Non-Treated, um den Average Treatment Effect on the Treated

(ATT) zu bestimmen. Diese Situation wird in der nicht-experimentellen Welt

nachgestellt, da experimentelle Daten fehlen.

• Wir ordnen dazu jeder Person mit Treatment eine (oder mehrere) Vergleichs-

person(en) zu, so dass es in dieser Paarung (match) Zufall ist, wer das

Treatment erhalten hat. Dann können wir (wie im Experiment) durch den Ver-

gleich der mittleren Outcomes der Treated und zugeordneten Vergleichsper-

sonen den ATT konsistent schätzen:

4–18

( ) ( )i,ATT i i i iE E y 1 |D 1 E y 0 | D 1⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦

• Eine Schätzung des ATT durch Mittelwertvergleich der Outcomes von Treated

und allen potentiellen Vergleichspersonen

( ) ( )i,ATT i i i iE E y 1 | D 1 E y 0 |D 0⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦

ist verzerrt, wegen der potentiellen Selektion ins Treatment:

( ) ( )i i i iE y 0 | D 1 E y 0 | D 0⎡ ⎤ ⎡ ⎤= ≠ =⎣ ⎦ ⎣ ⎦ .

• Zentrale identifizierende Annahme des Matching Verfahrens: Conditional In-

dependence Assumption (CIA) / Unconfoundedness

( ) ( )y 0 ,y 1 D | x

bedeutet “unabhängig von”. CIA impliziert, dass gegeben den Vektor von

4–19

beobachtbaren Faktoren (x), die Outcomes mit und ohne Treatment nicht von

der Selektion ins Treatment beeinflusst sind. x enthält alle beobachtbaren Va-

riablen, die sowohl die Selektion ins Treatment als auch das Outcome deter-

minieren, die nicht vom Treatment beeinflusst sind und vor dem Zeitpunkt des

Treatments gemessen werden.

• Implikation: Wenn wir das Ergebnis einer Person mit Treatment mit dem Er-

gebnis einer anderen, bezüglich x äquivalenten Person ohne Treatment (ein

„statistischer Zwilling“) vergleichen, dann geht der Unterschied zwischen den

Ergebnissen ausschließlich auf das Treatment zurück und nicht auf die Selek-

tion ins Treatment. Gegeben x ist das assignment zufällig.

• Unbeobachtbare Unterschiede zwischen den beiden Personen könnten be-

wirken, dass sich ihre Outcomes unterscheiden. Wenn jedoch x genügend

4–20

Variablen enthält, die in einem systematischen Zusammenhang mit

unbeobachtbaren Determinanten der Outcomes stehen, kann es gelingen,

dass die beiden Personen auch bezüglich unbeobachtbarer Determinanten

„Zwillinge“ sind.

• Wir könnten prinzipiell jeder Beobachtungseinheit, die ein Treatment erhalten

hat, eine Beobachtungseinheit aus der Gruppe der Non-Treated zuordnen.

Ein Mittelwertvergleich der Outcomes schätzt den Treatmenteffekt. Dies wäre

ein exaktes Matching.

• Wie unterscheidet sich exaktes Matching von linearer Regression, die genau-

so die Determinanten des Treatments x konstant hält und ebenfalls "selection

on observables" unterstellt? Die Regression unterstellt eine lineare additive

funktionale Form für den Treatmenteffekt und den Einfluss der x.

4–21

• In der Praxis besteht der Vektor x allerdings aus zu vielen Variablen, so dass

es nahezu unmöglich wird, exakt gleiche Partner von Treatment- und Ver-

gleichspersonen zu finden (dimensionality problem).

• Daher betrachtet man die Conditional Independence Assumption bei gegebe-

nem Propensity Score, p(x). Unter einem Propensity Score versteht man die

auf x bedingte Wahrscheinlichkeit, das Treatment zu erhalten.

• Rosenbaum und Rubin (1983) haben gezeigt, dass unter CIA gilt:

( ) ( )y 0 ,y 1 D | p(x).

• Der Propensity-Score ist ein stetiges Maß der Neigung zum Treatment, das

umso höhere Werte annimmt, je eher ein Treatment für eine Person zu erwar-

ten ist. Er wird bspw. durch Vorhersagen der Treatmentwahrscheinlichkeit auf

4–22

Basis von Schätzungen für Di bestimmt.

• Implikation: Wenn eine Paarung von Treated und Vergleichsperson im

Propensity Score übereinstimmt, ist die Differenz ihrer Ergebnisse nur auf das

Treatment zurückzuführen und nicht auf die Selektion ins Treatment.

• Intuition: Wenn wir einer Treated eine Non-Treated Beobachtung mit gleichem

Propensity Score zuweisen, ist es ähnlich wie in einem sozialen Experiment

nur noch Zufall, welche der beiden Beobachtungen die Intervention erhalten

hat. Der Unterschied in ihren Ergebnissen (nach Treatment) ist der kausale

Effekt des Treatments.

• Die Unconfoundedness-Annahme (CIA) kann nicht getestet werden. Daher ist

es wichtig, überzeugende Argumente dafür zu haben, dass der zur Verfügung

4–23

stehende Variablenvektor x tatsächlich die wichtigsten Faktoren enthält, die

die Selektion ins Treatment und die Outcomes determinieren.

• Bedingung dafür, dass sich Vergleichspersonen mit ähnlichem Propensity-

Score finden lassen, ist die Common Support-(Overlap)-Bedingung:

( ) ( )i i i0 P D 1| x P x 1< = = < . Sie besagt, dass es für jede Ausprägung von x

sowohl Treatment- als auch Kontrollbeobachtungen gibt, d.h. es darf keine In-

tervalle des geschätzten Propensity Score geben, für die es nur Treatments,

aber keine Vergleichspersonen gibt.

• Ist diese Bedingung nicht erfüllt, dann hätten wir i mit P(Di = 1 | xi) = 1 und alle

Personen mit einem bestimmten xi erhalten das Treatment. Für sie existieren

keine Vergleichspersonen ohne Treatment. Befinden sich in der potentiellen

Vergleichsgruppe i mit P(Di = 1 | xi) = 0, so erhalten diese niemals Treatment

4–24

und eignen sich nie als Vergleichspersonen für die Treatments.

• Beispiel: Für die Treatmentgruppe finden wir Propensity Scores über den ge-

samten Bereich 0 < P(Di = 1 | xi) < 1, für die Vergleichsgruppe hingegen nur

für 0 < P(Di = 1 | xi) < 0,7. Wie können dann nur Personen der

Treatmentgruppe mit 0 < P(Di = 1 | xi) < 0,7 in die Analyse einbeziehen, da in

unserer Stichprobe bei P(xi) ≥ 0,7 die Treatmentwahrscheinlichkeit 1 beträgt.

In diesem Bereich sind keine Vergleichspersonen verfügbar. Der

Treatmenteffekt wird hier nur für die abgedeckte Region des common support

identifiziert. Dieser kann sich dann vom ATT unterscheiden.

• Unter CIA, SUTVA und der overlap-Bedingung lässt sich der ATT wie folgt

schätzen:

4–25

( ) ( )( ) ( ) ( ) ( )

( ) ( ) ( ) ( )

i,ATT i i i i

i i i i i i

i i i i i i i

E E y 1 | D 1 E y 0 | D 1

E y 1 | D 1,P x E y 0 | D 1,P x

E E y 1 | D 1,P x E y 0 | D 0,P x | D 1

⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦⎡ ⎤ ⎡ ⎤= = − =⎣ ⎦ ⎣ ⎦

⎡ ⎤ ⎡ ⎤= = − = =⎣ ⎦ ⎣ ⎦

Der äußere Erwartungswert bezieht sich dabei auf die Verteilung des

Propensity Scores.

• Gemeinsam werden die CIA und overlap-Bedingung als "strong ignorability"

Annahmen bezeichnet. Wenn sie zutreffen, wird der ATE identifiziert.

• Gilt hingegen statt CIA nur

( )y 0 D |x= ,

genannt "unconfoundedness for controls", und statt overlap nur die weak

overlap Bedingung

4–26

P (Di = 1| xi) < 1,

so identifiziert der matching Schätzer den ATT.

• In diesem Fall wird Selektion ins Treatment auf Basis der Ausprägungen von

y(0) ausgeschlossen, nicht aber auf Basis heterogener Treatmenteffekte. Für

alle Beobachtungen der Treatmentgruppe gibt es eine Vergleichsbeobach-

tung, aber nicht zwingend für alle Vergleichsbeobachtungen ein Treatment.

4–27

4.2.2 Verschiedene Matching-Schätzer

• Angenommen wir haben eine Treatmentgruppe (T) mit i = 1, …, NT Personen,

und für die potentielle Kontrollgruppe ohne Treatment (K) j = 1, …, NK Perso-

nen. Ferner definieren wir die absolute Distanz zwischen dem Propensity Sco-

re P(x) einer Person i aus der Treatmentgruppe und einer Person j aus der

Vergleichsgruppe:

( ) ( )i, j i jd P x P x= − .

• Nearest-Neighbour-Matching wählt für Person i die Vergleichsperson j wie

folgt aus:

( ) i, jj

K i min d=

4–28

K(i) ist die Vergleichsperson j, deren Propensity Score den geringsten absolu-

ten Abstand zu dem von i aufweist, also der nächste Nachbar.

• Dabei sind mehrere Variationen möglich, die auch kombiniert werden können:

- Nearest-Neighbour-Matching mit n Nachbarn: Es werden jedem Treated, als

nächste Nachbarn n Vergleichspersonen mit den kleinsten Werten von di,j

zugewiesen. K(i) stellt nun eine Gruppe von n Vergleichspersonen dar.

- Nearest-Neighbour-Matching ohne Zurücklegen: Jede Vergleichsperson

kann nur einer Person mit Treatment zugewiesen werden.

- Nearest-Neighbour-Matching mit Zurücklegen: Jede Vergleichsperson kann

mehreren Personen mit Treatment zugewiesen werden.

- Nearest-Neighbour-Matching mit Caliper r:

4–29

( ) i, j i, jj

K i min d |d r= <

Hierbei werden Paare mit einer Distanz, die r übersteigt, nicht zugelassen.

Damit wird verhindert, dass Vergleichspersonen einem Treated i zugewiesen

werden, die sich zu stark von i unterscheiden. Dies bewirkt oft, dass einige

Treated aus der Analyse ausgeschlossen werden, weil sich für sie keine Ver-

gleichspersonen finden, mit di,j < r.

• Radius-Caliper Matching wählt für Person i alle Personen aus der Kontroll-

gruppe als Partner aus, für die gilt:

( ) i, jK i d r= <

wobei r wieder den Caliper darstellt. Im Gegensatz zum Nearest-Neighbour-

4–30

Matching ist hierbei die Anzahl der Vergleichspersonen, die einem Treated

zugewiesen sind, variabel.

• Der Matching-Algorithmus führt für jede Treatmentbeobachtung einen Ver-

gleich zu jeder möglichen Kontrollbeobachtung durch und bestimmt anhand

der vorgegebenen Kriterien, ob eine Zuweisung einer Vergleichsbeobachtung

zur Treatmentbeobachtung erfolgt.

• Der Matching-Schätzer des ATT beruht nun nur noch auf einem Mittelwert-

vergleich. Definieren wir zunächst noch Gewichte für die Vergleichspersonen

in der Menge K(i) mit i, j

K (i)

1w

N= , wobei NK(i) die Anzahl der Vergleichsperso-

nen in K(i) darstellt.

• Unser Schätzer für den ATT ist dann:

4–31

( )

( )

T K

ATT i i, j ji T j K iT

T K

i i, j ji T i T j K iT

T K

i j ji T j KT T

1y w y

N

1y w y

N

1 1y w y

N N

∈ ∈

∈ ∈ ∈

∈ ∈

⎡ ⎤Δ = − ⋅⎢ ⎥

⎣ ⎦⎡ ⎤

= − ⋅⎢ ⎥⎣ ⎦

= − ⋅

∑ ∑

∑ ∑ ∑

∑ ∑

mit j i, ji T

w w∈

= ∑ . Dabei entspricht wj der Anzahl der Treatmentbeobachtungen,

denen die Vergleichsperson j als statistischer Zwilling zugewiesen wurde.

• Der Schätzer unterstellt keinen festen funktionalen Zusammenhang zwischen

Regressoren und Ergebnisvariable y. Ebenso wenig unterstellt der Schätzer,

dass die Treatmenteffekte für unterschiedliche Personen konstant sind.

4–32

• Die Varianz des Schätzers lautet

( ) ( ) ( )

( ) ( )

( ) ( )

T 2 K

ATT 2 ji T j KT

T 2 K

T2 jj KT

2

jj KT K

2

T T

1ˆV V y w V yN

1n V y w V y

N

w1

V y V yN N

∈ ∈

∈

∈

⎡ ⎤Δ = − ⋅⎢ ⎥

⎣ ⎦⎡ ⎤

= ⋅ − ⋅⎢ ⎥⎣ ⎦

= −

∑ ∑

∑

∑

• Analytische Varianzen können nur konsistent geschätzt werden, wenn der

Propensity Score a priori bekannt ist. Da der Propensity Score allerdings

selbst geschätzt wird, wird von vielen Autoren eine Schätzung der Varianzen

mit Hilfe von Bootstrap-Methoden vorgezogen.

• Dabei werden aus der Gesamtstichprobe mit N Beobachtungen zufällig N Be-

4–33

obachtungen mit Zurücklegen gezogen und damit erneut ATTΔ geschätzt. Dies

wird l-Mal wiederholt, so dass wir l unterschiedliche Beobachtungen für den

Schätzer erhalten und damit Varianz und Standardfehler von ATTΔ mit einer

simplen Varianzformel schätzen können. Bei Nearest-Neighbour-Matching-

Schätzern führt diese Methode allerdings nicht zu konsistenten Schätzern der

Varianzen.

• Bei kleinen Stichproben ist auch beim Matching-Schätzer davon auszugehen,

dass Treatmenteffekte verzerrt geschätzt werden. Die Wahl des Matching-

Algorithmus beeinflusst Verzerrung und Varianz:

- Nutzt man viele Nachbarn, dann kann dies zu einem höheren Bias führen,

da die ausgewählten Nachbarn im Schnitt eine höhere Distanz vom

Propensity Score der Treated aufweisen als wenn wir z.B. nur einen Nach-

4–34

barn zuordnen. Dafür wird die Varianz des Schätzers gesenkt.

- Entscheiden wir uns für Matching mit statt ohne Zurücklegen, reduziert dies

den Bias, da wir dadurch sicherstellen können, dass ähnlichere Vergleichs-

personen für die Treated gefunden werden. Dafür steigt aber die Varianz

des Schätzers.

- Nutzen wir Nearest-Neighbour-Matching mit statt ohne Caliper, senkt das

den Bias, erhöht aber die Varianz des Schätzers, weil wir weniger Beobach-

tungen verwenden.

• Neben diesen Schätzern gibt es noch einige andere Matching-Algorithmen

(z.B. Stratification Matching, Kernel Matching, Local Linear Matching).

4–35

4.2.3 Implementation von Matching-Schätzern

• Schritt 1: Auswahl einer potentiellen Vergleichsgruppe für die Treated

• Common Support-Bedingung muss gelten und ähnliche Rahmenbedingungen

für beide Gruppen vorliegen. Potentielle Vergleichsbeobachtungen sollten

über den gleichen Zeitraum beobachtet werden wie die Treatments und fak-

tisch ein Treatment erhalten können.

• Beispiel: Treatment sei eine Fortbildung für Arbeitslose, die von Arbeitsagen-

turen finanziert wird. Wenn gesetzlich geregelt ist, dass Fortbildungen für Ar-

beitslose mit Universitätsabschluss nicht finanziert werden und Arbeitslose in

bestimmten Regionen faktisch nie ein Treatment erhalten, dann würden wir

diese Personengruppen von vornherein nicht in die potentielle Vergleichs-

4–36

gruppe aufnehmen.

• Schritt 2: Entscheidung für exaktes oder Propensity Score Matching

Exaktes Matching bezüglich eines Vektors x ist praktikabel, wenn x aus einer

kleinen Anzahl von Regressoren besteht und/oder wenn wir in der Stichprobe

pro Treatmentbeobachtung viele potentielle Vergleichspersonen haben. Ande-

renfalls werden wir eher Propensity Score Matching anwenden.

• Schritt 3: Wahl der Regressoren, Schätzung des Propensity Score, Common

Support, Overlap

- Bei der Auswahl von x ist darauf zu achten, dass es sich um Determinanten

von Propensity Score P(Di = 1 | xi) und Outcome y handelt.

- Alle wichtigen Determinanten müssen vorliegen. Sonst sind die Matching-

4–37

Schätzer des Treatmenteffekts stark verzerrt, weil sich die Outcomes von

Treatments und Kontrollpersonen aufgrund der vernachlässigten Faktoren

und nicht aufgrund des Treatments unterscheiden.

• Common Support/Overlap: Nach der Schätzung von P(Di = 1 | xi) werden für

alle Beobachtungen die Treatmentwahrscheinlichkeiten vorhergesagt. Wir

prüfen, ob es möglich ist, für alle Treatments Vergleichspersonen mit ähnli-

chem Propensity Score zu finden. Durch einen Vergleich zwischen der Vertei-

lung der Propensity Scores der Treatments und der potentiellen Vergleichs-

beobachtungen ist dies erkennbar:

4–38

4–39

4–40

• Schritt 4: Wahl des Matching-Algorithmus

Entscheidung situationsabhängig (siehe Beispiel unter Schritt 5), trade-offs

zwischen Bias und Varianz. Bei wenigen Treatmentbeobachtungen mit hohen

Standardfehlern des Schätzers könnten wir uns für einen Matching-

Algorithmus mit möglichst niedriger Varianz entscheiden, z.B. Nearest-

Neighbour-Matching mit mehreren Nachbarn.

• Schritt 5: Überprüfung der Qualität des Matchings

Durch Matching haben wir eine Stichprobe generiert, die nur aus den Treated

und den zugewiesenen Vergleichsbeobachtungen besteht. Dadurch sollte das

Treatment in dieser Stichprobe nicht mehr von x abhängen und die Durch-

schnittswerte einzelner Regressoren der Treatment- und Vergleichsgruppe

4–41

nahezu gleich sein. Das lässt sich prüfen:

0

4–42

• Die standardisierte Bias wird dem t-Test vorgezogen, weil sie von der Stich-

probengröße unabhängig ist.

• Ergebnis dieser Analyse könnte sein, dass nach Matching für einige Regres-

soren weiterhin Unterschiede zwischen Treatments und Vergleichspersonen

vorliegen. Der geschätzte Treatment-Effekt könnte dann nicht allein auf das

Treatment, sondern auch auf diese Unterschiede zurückzuführen sein. Um

diese Verzerrung zu vermeiden, kann der Zuordnungsmechanismus verbes-

sert werden:

• Entweder gehen wir zurück zu Schritt 3 und wählen x neu, z.B. indem wir für

die Regressoren, bei denen sich auch nach dem Matching Unterschiede zwi-

schen Treatment- und Kontrollpersonen finden, nicht-lineare Terme oder In-

teraktionen mit anderen Regressoren in die Probit- oder Logitmodelle auf-

4–43

nehmen. Dann wird Schritt 3 bis Schritt 5 wiederholt.

• Alternativ wählen wir einen anderen Matching-Algorithmus, z.B. statt Nearest-

Neighbour-Matching mit einem Nachbarn und ohne Zurücklegen, erlauben wir

das Zurücklegen. Dadurch können Vergleichsbeobachtungen, die sich von

vielen Treatments kaum in ihrem Propensity Score unterscheiden, mehreren

Treatmentbeobachtungen zugeordnet werden. Dafür fallen einige Vergleichs-

beobachtungen, für die das Gegenteil zutrifft, weg. Danach überprüfen wir er-

neut die Matchqualität.

• Schritt 6: Robustheit der Resultate

• Schätzung des ATT mit weiteren Matching-Algorithmen und Vergleich der Er-

gebnisse.

4–44

• Prüfen, ob die Conditional Independence Annahme plausibel ist (s. Imbens

und Wooldridge, 2009, Abschnitt 5.11), z.B. Vergleich von zwei verschiede-

nen Kontrollgruppen zum Test, ob tatsächlich kein Effekt vorliegt, oder kausa-

len Effekt auf eine Outcomegröße bestimmen, die durch das Treatment nicht

beeinflusst worden sein kann (bspw. aus der Vorperiode).

4–45

4.3 Beispielstudien

4.3.1 Beispielstudie 1

• Gesucht ist der kausale Effekt von Fortbildung arbeitsloser koreanischer

Frauen auf die logarithmierte Gesamtdauer der Arbeitslosigkeit.

• Die Frauen wurden zwischen Jan. 1999 und März 2000 arbeitslos. N=973 er-

hielten Treatment (T), N=9312 sind in der Kontrollgruppe (C). Folgende Vari-

ablen stehen zur Verfügung:

C-Group T-Group mean SD mean SD ln (unemployment days) 5.39 0.68 5.51 0.37 age in years 34.9 10.8 27.8 5.57 employment days at ex-firm 901.5 481.1 653.9 806.6 education years 12.13 2.5 13.07 1.76

4–46

• Im Mittel ist die Arbeitslosigkeitsdauer der Treatmentgruppe deutlich länger.

• Überprüfung der Qualität von sequentiellem Nearest Neighbour Matching oh-

ne (greedy) und mit Zurücklegen (non-greedy):

Balance of covariates with pair matching

After sequential pair matching Before matching

Greedy Non-greedy

T C t-value T C t-value T C t-value

age 27.7 28.4 -6.1 27.8 28.1 -2.9 27.8 34.9 -76.8

job experience

(yrs)

1.8 1.9 -1.4 1.8 1.8 0.9 1.8 2.5 -21.4

last unemp. dur.

(days)

65.1 53.3 11.0 65.0 58.1 7.1 65.1 33.6 41.1

4–47

• Ergebnisse mit Zurücklegen günstiger als ohne (vgl. t-Werte). Insgesamt hat

Matching die Unterschiede zwischen den Gruppen (T, C) deutlich reduziert.

• Uns liegen die geschätzten Treatmenteffekte nach Nearest-Neighbour-

Matching ohne Zurücklegen mit Caliper vor:

Greedy pair matching with calipered propensity score

Caliper: 0.00001 Caliper: 0.0001

effect on treated (t-value) 0.248 (5.94) 0.326 (11.38)

% treated used 39% 91%

• Die Schätzer unterscheiden sich darin, dass bei einem kleinen Caliper deut-

lich weniger Beobachtungen der Treatment Group verwendet werden (39 statt

4–48

91%). Der Treatmenteffekt selbst ist in beiden Fällen ähnlich und besagt, dass

die logarithmierte Arbeitslosigkeitsdauer bei Fortbildung zwischen 0,248 und

0,326 also grob 25-33% länger ist. Beide Schätzer sind signifikant. (Quelle:

Lee, 2005, S. 90, 97)

4–49

4.3.2 Beispielstudie 2 (Girma und Paton, 2006)

• Gesucht ist der kausale Effekt der Verfügbarkeit der „Pille danach“ auf

Schwangerschaften von Teenagern in England. Dort wird seit 2000 die Ver-

fügbarkeit von Emergency Birth Control (EBC) regional ausgeweitet.

• Die abhängige Variable beschreibt die Änderung regionaler Teenager-

Schwangerschafts-Raten über die Zeit:

it s it s it 1ˆ ˆ ˆy y y+ + −Δ = −

• Die Treatmentgruppe enthält Regionen i, die EBC verfügbar gemacht haben,

die Kontrollgruppe enthält Regionen i, die EBC nicht bereit stellen.

• Gesucht ist der ATT:

4–50

1 0 1 0

i t s i t s it i t s it i t s itE y y | EBC 1 E y | EBC 1 E y | EBC 1+ + + +Δ − Δ = = Δ = − Δ =

Es handelt sich um einen Difference-in-Differences Matching Schätzer.

• 147 Regionen werden über 8 Quartale beobachtet, 59 haben EBC angeboten.

• Es wird ein Propensity Score Matching verwendet, das die Wahrscheinlichkeit

des Treatments (EBCit = 1) mittels erklärender Variablen vorhersagt.

• Propensity Score Matching generiert verlässliche Ergebnisse, wenn die Ver-

teilung der Kovariaten gemessen vor dem Treatment und bedingt auf den

Propensity Score von der Programmteilnahme unabhängig sind. Diese

balancing condition muss geprüft werden, bspw. mittels standardisierter

Bias-Maße.

• Tabelle 2 zeigt, dass bei einigen Kovariaten (z.B. target 2004, contallr,

4–51

practicer) die standardisierten Bias-Maße ebenso wie die p-Werte des Mittel-

wertvergleichs in der gematchten Stichprobe günstiger ausfallen, als in der

nicht gematchten Stichprobe:

4–52

Mean t-test for equality

of means

Variable Sample Treated Control Bias (%) Bias re-duction

(%) t p > |t|

year Unmatched 2000.9 2000.8 7.9 0.46 0.650 Matched 2000.9 2001.1 -24.5 -209.8 -1.20 0.235 target2004 Unmatched 14.407 14.726 -22.8 -1.38 0.170 Matched 14.63 14.769 -10.0 56.4 -1.27 0.207 target2010 Unmatched 50.932 49.695 29.0 1.68 0.096 Matched 50.833 49.352 34.7 -19.8 1.93 0.057 cur18ch Unmatched 3.553 3.1775 2.4 0.14 0.885 Matched 3.3089 5.3797 -13.3 -451.5 -0.57 0.568 contallr Unmatched 0.02774 0.02665 16.3 0.96 0.340 Matched 0.02721 0.02716 0.8 95.2 0.43 0.669 practicer Unmatched 11.185 10.336 22.4 1.35 0.178 Matched 10.801 10.572 6.0 73.1 0.75 0.452

4–53

• Die nächste Tabelle gibt Treatment-Effekte in Abhängigkeit vom Zeitpunkt der

Programmeinführung bei unterschiedlichen Matching-Verfahren an.

Nearest neighbour Nearest 3 neighbours

Time period Effect t-stat Effect t-stat

Year 1 0.167 0.111 -1.209 -0.845

Year 2 2.928 1.512 1.870 0.732

Quarter 1 -0.322 -0.590 -0.474 -0.925

Quarter 2 -0.159 -0.291 -0.003 -0.005

...

• Die Effekte sind klein und insignifikant. Entweder die Maßnahmen haben kei-

ne Wirkung, oder die Wirkungen sind zu klein um messbar zu sein, oder Ju-

4–54

gendliche haben bei Einführung von EBC ihr Verhalten gegenläufig ange-

passt.

4–55

4.4 Evaluation bei "selection on unobservables"

• Wir betrachten 4 Verfahren, die ohne die CIA Annahme arbeiten.

4–56

4.4.1 Natürliche Experimente und Diff-in-Diff

• Natürliche Experimente liegen vor, wenn aus exogenen Gründen für eine

Gruppe von Beobachtungen die Rahmenbedingungen geändert werden und

deren Outcomes mit denjenigen einer Gruppe ohne Änderung der Rahmen-

bedingungen verglichen werden können. Exogen bestimmte Treatment- und

Kontrollgruppe können verglichen werden.

• Das Difference-in-Differences Verfahren vergleicht vorher-nachher Ände-

rungen für beide Gruppen. Durch Differenzenbildung werden systematische

Unterschiede zwischen den Gruppen in beobachtbaren und unbeobachtbaren

Größen ausdifferenziert. Konstante individuelle unbeobachtbare Größen sind

zulässig und unproblematisch, zeitlich variable nicht.

4–57

• Beispiel 1: Erwerbstätigkeit von ursprünglich erwerbstätigen Müttern, die ihre

Kinder unmittelbar vor und nach der Elterngeldreform bekamen. Unterschiede

können kausale Effekte der Reform sein.

• Beispiel 2: Führt punktuelle Zuwanderung geringqualifizierter Arbeiter zu ei-

nem Anstieg der Arbeitslosigkeit? Vergleich vor und nach "1980 Mariel

Boatlift" von Miami und Vergleichsstädten, die ähnliche Arbeitslosigkeitsent-

wicklung hatten:

vorher

1979

nachher

1981

Differenz

Miami (T) 5,1 3,9 -1,2

Vergleichsstädte (NT) 4,4 4,3 -0,1

Differenz 0,7 -0,4 -1,1

4–58

Die Differenz der Differenzen (DID) zeigt eine Senkung der Arbeitslosigkeit

durch den Boatlift. Formal:

y0i = i's Beschäftigung ohne Zuwanderung

y1i = i's Beschäftigung mit Zuwanderung

E (y0i | c,t) = Arbeitslosigkeit in Stadt c in Jahr t ohne Zuwanderung

E (y1i | c,t) = Arbeitslosigkeit in Stadt c in Jahr t mit Zuwanderung

Unterstellt wird: E (y0i | c,t) = βt + γc, fixe Zeit-(β)- und Ort-(γ)-Effekte

E (y1i | c,t) = E (y0i | c,t) + δ, konstanter Anstieg.

Auf Individualebene:

yi = βt + γc + δ Mi + ui,

4–59

wobei: E (ui | c,t) = 0,

Mi = 1 Interaktionsterm: i lebt in Miami nach 1980, sonst Mi = 0.

Der DID-Schätzer ergibt sich durch Differenzenbildung:

E (yi | c = Miami, t = 1981) - E (yi | c = Vergleich, t = 1981)

- E (yi | c = Miami, t = 1979) - E (yi | c = Vergleich, t = 1979) = δ

Zusätzlich können Kontrollvariablen (x) berücksichtigt werden

yi = Xi' β0 + βt + γc + δ Mi + ui.

• Annahme 1: Zeiteffekte sind für beide Gruppen gleich, d.h. ohne Intervention

keine signifikanten Unterschiede. Dies ist durch Vergleich der Zeittrends in T

(Treatment) und NT (Non-Treatment) Gruppe vor und nach dem Ereignis

4–60

überprüfbar.

• Annahme 2: Die Zusammensetzung der Gruppen ändert sich nicht.

• Allgemeine Darstellung für Querschnittsdaten:

i gehört zu einer Gruppe Gi ∈ (T, NT) und ist in Periode Pi ∈ (0, 1) beobachet.

Standardmodell für Ergebnis Y ohne Treatment mit Parametern α, β, γ:

Yi (0) = α + β Pi + γ Gi + ui

Für ui wird unterstellt ( ) ( )i i i iu G ,P , und E u 0= .

Outcome Yi(1) bei treatment: Yi (1) = Yi (0) + τDID

τDID ist die Differenz der Differenzen der Erwartungswerte bei Gi = T und

Gi = NT über die Zeit und im linearen Modell schätzbar:

4–61

Yi = α + β1 Pi + γ1 Gi + τDID (Pi ⋅ Gi) + ui

Somit ( ) ( )DID 11 10 01 00ˆ Y Y Y Yτ = − − − .

• DIDτ vergleicht die Änderung im outcome der Treatmentgruppe mit dem der

Kontrollgruppe. Dies identifiziert den ATT.

• Die Vorgehensweise lässt sich auch bei weiteren Gruppen und Perioden

durch Bildung relevanter Interaktionsterme anwenden.

• Die Standardfehler des linearen Modells sind falsch, wenn Outcomes inner-

halb von Gruppen und Perioden korrelieren, bspw. wenn ui = ηGi,Pi + υi. Insbe-

sondere Autokorrelationsmuster der Form ηg, t = ηg, t-1 + ωg, t werden in der Li-

teratur diskutiert, wobei g die Gruppe G und t bzw. t-1 die Periode P indiziert.

• Schwächen des D-i-D Ansatzes:

4–62

− Keine Kontrolle für zeitlich variable unbeobachtete Effekte möglich. Klassi-

sche Wirkung Ashenfelter's Dip: Treatmentwahrscheinlichkeit hängt von

Ausprägung des Outcomes vor Treatment ab. Bei negativem Zufallsaus-

schlag erhöhte Treatmentwahrscheinlichkeit und überschätzte Treatment-

effekte.

− Voraussetzung identischer Trends (=Zeiteffekte) für Treatment- und Kont-

rollgruppe nicht immer gegeben. Beispiel 1: T und NT sind in unterschiedli-

chen Arbeitsmärkten tätig. Beispiel 2: Bevölkerungsgruppen sind von zykli-

schen Arbeitslosigkeitsschwankungen unterschiedlich stark betroffen (z.B.

Jugendarbeitslosigkeit ist volatiler).

− Zusammensetzung von T und NT Gruppen darf sich nicht ändern, sonst ver-

fälschte vorher-nachher Vergleiche.

4–63

− Typischerweise wird ein additiv separabler und homogener kausaler Effekt

unterstellt. Neuere Verfahren lockern diese Form der Modellierung.

4–64

4.4.2 Instrumentvariablen (IV) und heterogene Treatmenteffekte

(B&D, 2009, VI)

• IV-Verfahren sind anwendbar bei selection on unobservables. Es wird unter-

stellt, dass mindestens eine Determinante des assignment Mechanismus (das

Instrument z) keinen direkten Effekt auf y hat.

• Potentielle Outcomes sind von z unabhängig, Outcome-Unterschiede entlang

der Ausprägungen von z gehen auf Unterschiede in der Treatment-

wahrscheinlichkeit zurück.

• Bei homogenem Treatmenteffekt gilt αATE = αATT = αi = α.

• Unter 3 Bedingungen kann ein Instrument z α identifizieren:

4–65

(IV1) αi = α für alle i

(IV2) P (d = 1 | z) ≠ P (d = 1)

(IV3) E (u | z) = E (u)

wobei d ein Treatmentindikator ist und u das Residuum in yi = β + αi di + ui.

Schreibt man zur Abkürzung P (z) = P (d = 1 | z), so folgt

E (yi | zi) = β + α E (di | zi) + E (ui | zi)

= β + α P (zi) + E (ui)

= E (yi | P (zi)).

Unterschiedliche Ausprägungen von z (z*, z**) generieren Variation in P(z), so

dass der Standard IV-Schätzer resultiert:

4–66

( ) ( )

( ) ( )i i i iE y |z z * E y |z z * *

P z * P z * *

= − =α =

− für diskrete z,

bzw. bei kontinuierlichen z: ( )( )

cov y,z

cov d,zα = .

• Problem: IV3 ist oft nicht erfüllt, oder zi hat wenig Erklärungskraft für d (weak

instrument). In dem Fall wird α nur unpräzise geschätzt.

• Wenn IV1, die Homogenitätsannahme, nicht zutrifft, dann gilt auch die

exclusion restriction nicht mehr, da nun zi mit dem Störterm der Outcome-

Gleichung korreliert ist:

yi = β + αATE di + [ui + di (αi - αATE)]

Nur wenn di und (αi - αATE), d.h. die individuellen Vorteile aus dem Treatment,

4–67

unkorreliert sind, kann IV den ATE noch identifizieren. Andernfalls kann weder

ATE noch ATT identifiziert werden.

• Stattdessen lässt sich bei heterogenen Treatmenteffekten αLATE identifizieren,

d.h. die Wirkung von "lokalen" Unterschieden im Wert von z. Gemessen wird

der Treatmenteffekt für diejenigen Beobachtungen, für die die unterschiedli-

chen Ausprägungen von z den Treatment-Status bestimmen. Dies ist weder

ATE noch ATT. LATE ist der mittlere Effekt für solche Beobachtungen, die

aufgrund der Ausprägung von z den Treatment-Status ändern.

• Folgende Annahmen sind erforderlich:

(LATE 1) P (d = 1 | z) ≠ P (d = 1)

(LATE 2) E (u | z) = E (u)

4–68

(LATE 3) (α, ε) ⊥ z

Die ersten beiden entsprechen IV2 und IV3. LATE 3 besagt, dass das Instru-

ment weder mit dem Treatmenteffekt noch mit dem Störterm der Partizipati-

onsgleichung ε korreliert sein darf:

i

i

1 wenn d * 0d

0 sonst

≥⎧= ⎨⎩

( ) ( ) ( )( )i iiwobei d * g z , , d z 1 g z, 0= ε = ε > . 1(...) beschreibt die Indikatorfunkti-

on, die für wahre Aussagen den Wert 1, sonst 0 annimmt.

Wäre z mit ε korreliert wenn gleichzeitig ε mit u korreliert ist, so wäre z kein

gültiges Instrument mehr.

• Für yi ergibt sich

4–69

E (yi | zi) = β + P(di (z) = 1) ⋅ E(αi | di (z) = 1).

• Unter der zusätzlichen Annahme

(LATE 4) d(z) ist eine monotone Funktion von z

lässt sich der Effekt des Treatments für diejenigen Individuen ableiten, die

vom Status Nontreatment zum Status Treatment wechseln, wenn z den Wert

z** statt z* annimmt:

( ) ( ) ( )( ) ( )

i iLATEE y | z * * E y |z *

z*,z * *P z * * P z *

−α =

−

• Beispiel: In der Lohngleichung wird Bildung durch Nähe zum College (z) in-

strumentiert. αLATE misst den Lohneffekt der Bildung für diejenigen, deren

Tertiärbildungsentscheidung tatsächlich von z abhängt.

4–70

• Man findet folgende Aufteilung von Personengruppen, vereinfacht bei einem

binären Instrument, z.B. zi = 1 für College ist nah, zi = 0 für College ist weit:

zi = 0

di(0) = 0 di(0) = 1

zi = 1 di(1) = 0 Never taker Defier

di(1) = 1 Complier Always-taker

• αLATE ist der Effekt für die compliers. Der Effekt hängt davon ab, welches In-

strument gewählt wurde, da verschiedene Instrumente verschiedene Gruppen

4–71

von compliers generieren. Diese können unterschiedlich umfassend, typisch

oder politikrelevant sein.

4–72

4.4.3 Regression Discontinuity Design (RDD)

• Im Experiment ist die Treatmententscheidung zufällig. RDD stellt eine quasi-

experimentelle Situation dadurch her, dass die Treatmententscheidung von

einer kontinuierlichen, beobachtbaren Größe abhängt.

• Beispiel 1: Maimonides Rule, gesucht ist der Effekt der Klassengröße auf den

Lernerfolg von Schülern. Ab Klassenstärke 40 (80) werden diskontinuierlich 2

(3) Schulklassen gebildet. Die Gesamtschülerzahl kann als Instrument für die

Klassenstärke genutzt werden, oder man vergleicht die Leistung von Schülern

in Schulen mit z.B. ± 5 Schülern um den Schwellenwert.

• Beispiel 2: Gesucht ist der Effekt der Förderung durch Stipendien auf den

Studienerfolg. Stipendien erhalten diejenigen High School Schüler, deren

4–73

Testergebnis über einem Schwellenwert liegt. Man vergleicht die Schüler mit

Ergebnissen knapp über und knapp unter dem Schwellenwert.

4–74

• Der RDD Schätzer identifiziert einen local average treatment Effekt. Treat-

ment hängt in diskontinuierlicher Form von einer Variable z ab. Man unter-

scheidet zwei RDD Formen: sharp und fuzzy.

• Sharp RD-Design: Ausschließlich die Ausprägung von z (relativ zu einem

Schwellenwert z*) determiniert das Treatment für alle i. Es gibt keine individu-

ellen unbeobachtbaren Effekte, sondern selection on observables. Da kein

"overlap" von treatment und nontreatment vorliegt, ist matching nicht möglich.

• Man benötigt ausschließlich die Annahme, dass der erwartete Störterm der

outcome Gleichung auf beiden Seiten des Schwellenwertes (z*-, z*+) gleich

ausfällt:

E (ui | z*-) = E (ui | z*+)

4–75

dann folgt αRDD (z*) = E (yi | z*+) - E (yi | z*-)

• Beispiel: Elterngeldregime hängt von der Geburt des Kindes am 31.12.2006

vs. 01.01.2007 ab.

• Fuzzy RD-Design: Andere Faktoren als z (auch unbeobachtete) beeinflussen

den Treatment-Status. Auf beiden Seiten von z* finden Teilnahme und Nicht-

teilnahme statt.

4–76

4–77

• Beispiel: Einige israelische Schulen teilen Klassen bereits bevor oder nach-

dem 40 Schüler erreicht sind.

• Neues Problem: Die treatment Entscheidung kann nun wieder endogen sein,

nur ein Teil der Beobachtungen gehört wirklich zu exogen bestimmten

"compliers".

• Als zusätzliche Annahme muss unterstellt werden, dass in der Umgebung von

z* der Treatmenteffekt konstant und unabhängig vom Treatment-Status ist:

E (αi | d, z) = E (α | z) für z in der Nähe von z*.

• Dies ist eine starke Annahme, da es ausschließt, dass über Treatment in Ab-

hängigkeit von seinem individuellen Effekt entschieden wird. αRDD wird wieder

als local average treatment Effekt geschätzt:

4–78

( ) ( ) ( )

( ) ( ) ( )i iRDD

i

E y | z * E y |z *z * E | z z *

P z * P z *

+ −

+ −

−α = = α =

−

der mittlere Effekt des Treatments für eine zufällig gezogene Beobachtung mit

Merkmal z = z*.

• Unter der zusätzlichen Annahme gilt αRDD = ATE = ATT.

• Nachteile des RDD:

- nur ein lokaler Effekt ist identifizierbar

- z* könnte manipulierbar sein

- Individuen ändern wegen z* ihr Verhalten (z.B. Numerus clausus, Einleitung

von Geburten etc.)

- durch enge Fenster um z* sind die Stichprobengrößen klein

4–79

• Beispiel 1: Maimonides-Rule - OLS and fuzzy RD estimates of the effect of class size on fifth-grade math scores (Quelle: Angrist u. Pischke, 2009, S.266) OLS 2SLS

Full Sample Discontinuity Samples

± 5

(1) (2) (3) (4) (5) (6) (7)

Class size 0.322 0.076 0.019 -0.230 -0.261 -0.185 -0.443 (0.039) (0.036) (0.044) (0.092) (0.113) (0.151) (0.236)

% disadvantaged -0.340 -0.332 -0.350 -0.350 -0.459 -0.435 (0.018) (0.018) (0.019) (0.019) (0.049) (0.049)

Enrollment 0.017 0.041 0.062 0.079 (0.009) (0.012) (0.037) (0.036)

Enrollment2 /100 -0.010

R2 0.048 0.249 0.252

Number of classes 2,018 2,018 471

Note: The table reports estimates using class averages. Standard errors, re-ported in parentheses, are corrected for within-school correlation.

4–80

• Beispiel 2: Effekt des Ruhestands auf Konsumausgaben

Bei unterstellter Optimierung im Lebenszyklus ist es schwer zu erklären, wa-

rum bei Renteneintritt die Konsumausgaben sinken. Der kausale Effekt wird

anhand italienischer Rentenzugangsregelung identifiziert, da Rentenzugang in

einer Konsumausgabengleichung potentiell endogen ist.

1 wenn Haushaltsvorstand im Ruhestand

R0 sonst

⎧= ⎨⎩

S = Zeit seit Rentenanspruch besteht, gemessen in Abhängigkeit von Alter

und Beitragsjahren. Bei S < 0 Rentenzugang nicht möglich, bei S ≥ 0

aber auch nicht verpflichtend, Diskontinuität bei S = 0.

4–81

( ) 1 wenn Rentenanspruch bestehtI S 0

0 sonst

⎧≥ = ⎨

⎩

β = Y1 – Y0 kausaler Effekt des Ruhestands auf Konsumausgaben (Y).

Wenn S = 0+ und S = 0- Individuen kurz nach und kurz vor Zugangszeitpunkt

beschreibt, lautet der kausale Effekt:

E Y| S 0 E Y| S 0E | R 1, S 0 .

E R | S 0

+ −

+

+

= − =β = = =

=

Unter der Annahme, dass ohne die Zugangsgrenze der Verlauf von Y zum

Zeitpunkt der Zugangsgrenze kontinuierlich wäre, kann der diskontinuierliche

Sprung in Y zum Zeitpunkt S = 0 als kausaler Effekt des Eintritts in den Ruhe-

stand interpretiert werden.

4–82

Daten: Bank of Italy Survey on Household Income and Wealth 1993 – 2004

Stichprobe: Mittelwerte pro Kalenderjahr (t) für männliche Individuen gleicher

Ausprägung von S.

Bei 6 Jahren und Werten (-10, +10) ergeben sich 120 Beobachtungen.

IV-Schätzgleichung 2. Stufe: Ys,t = β0 + β1 Rs,t + β2 S + β3 S2 + εs,t

Schätzgleichung 1. Stufe: Rs,t = γ0 + γ1 J (S ≥ 0) + γ2 S + γ3 S2 + υs,t

Ergebnis 1. Stufe: 1ˆ 0,435γ = ( )1

ˆSE 0,038γ = ; R2 = 0,92

4–83

Ergebnis 2. Stufe:

Log Nondurable Exp. Log Food Exp.

Retired -0,098 (0,057) * -0,141 (0,054) **

S -0,006 (0,003) ** -0,003 (0,003)

S2 -0,000 (0,000) ** -0,000 (0,000)

Note: Standard errors are robust to heteroskedasticity.

Es ergibt sich ein signifikanter Konsumrückgang von ca. 9,8 bzw. ca. 14,1

Prozent als kausaler Effekt des Ruhestands.

Quelle: Battistin et al. (2009), American Economic Review, S. 2209-2226.

4–84

4.4.4 Control Function Approach

• Kernidee ist hier, im Fall von selection on unobservables, die Endogenität des

Treatmentindikators als Problem fehlender Variablen zu interpretieren. Dabei

wird in der Outcomegleichung explizit für die (beobachtbaren und insbesonde-

re unbeobachtbaren) Determinanten der Zuweisung des Treatments kontrol-

liert.

• Dazu können parametrische Annahmen an die gemeinsame Verteilung der

Störterme aus Outcome- und Selektionsgleichung getroffen werden, z.B.

bivariate Normalverteilung und Vorgehen wie bei Heckman-Korrektur.

• Alternativ wurden ebenfalls nichtparametrische Verfahren entwickelt.

4–85

• Gelegentlich wird es als Kontrollfunktionsansatz bezeichnet, wenn die

Outcomegleichung zusätzlich für potentielle und beobachtbare Determinanten

der Partizipationsgleichung kontrolliert. Dies ist ausreichend, wenn man von

selection on observables ausgeht.

4–86

4.5 Beispielstudie

• National Supported Work (NSW) Projekt: Experiment mit zufälliger Zuweisung

von Training (= Treatment) auf Treatmentgruppe, nicht auf die Kontrollgruppe.

Gesucht ist der kausale Effekt der Maßnahme auf spätere Verdienste.

• Treatment (D = 1): 185 Männer, Training 1976 – 1977.

Control (D = 0): 2490 Männer unter Alter 55 aus PSID (Panel Study of Income

Dynamics)

• Die Merkmale der Gruppen sind in Tabelle 25.3 zusammengefasst:

4–87

4–88

• Zum Teil unterscheiden sich Treatment- und Kontrollgruppen deutlich.

• Zielgröße sind die real earnings 1978 (RE78). Der Vergleich zwischen beiden

Gruppen (treatment control comparison) ergibt einen substantiellen Unter-

schied der Realeinkommen von -15.205 $. Dies wäre der kausale Trainingsef-

fekt im perfekten Experiment oder der Koeffizient des Treatmentindikators (D)

in der Regression von RE78 auf eine Konstante und D, bei gepoolter Stich-

probe.

• In unserem Fall steckt auch der große Unterschied in den beiden Gruppen

hinter dem Abstand der Verdienste, weil die Kontrollgruppe keine statistischen

Zwillinge der Treatments sind. Dies lässt sich per KQ herausrechnen:

RE78i = xi' β + α Di + ui i = 1, 2, ..., 2675

4–89

Kontrolliert man für age, agesq, educ, nodegree, black, hisp, RE74, RE75 so

erhält man ˆ 218α = . Dies kann als control function-Schätzer bezeichnet

werden, da potentielle Determinanten von D kontrolliert werden.

• Alternativ lässt sich ein vorher-nachher-Vergleich der Treatmentgruppe

durchführen. Dieser ergibt RE78 - RE75 = 4817 $.

• Dabei sind allgemeine Zeittrends nicht herausgerechnet. Um dies zu tun, bie-

tet sich ein Difference-in-Differences Ansatz an. Die Differenz RE78 - RE75

ergibt für die Kontrollgruppe 21.554 – 19.063 = 2.491. Somit ergibt sich als

Difference-in-Differences Schätzer des kausalen Trainingseffektes 4.817 -

2.491 = 2.326 $.

4–90

• Der DiD-Schätzer kann auch in folgender Schätzgleichung als Schätzer für α

gewonnen werden:

REit = ϕ + δ D78it + γ Di + α (D78it ⋅ Di) + ui I = 1, …, 2675 t = 75,78

REit beschreibt die Verdienste in beiden Perioden, D78 ist ein Indikator dafür,

ob die Beobachtung aus dem Jahr 1978 stammt (D78 = 1) oder nicht (D78 =

0). Di indiziert die Treatmentgruppe, (D78 ⋅ Di) ist ein Interaktionsterm für

Treatments 1978.

• Alternativ kann die Konstante ϕ durch xit'β ersetzt werden. Das Verfahren

kann auf Querschnitts- wie auf Paneldaten angewendet werden.

4–91

• Bei der Berechnung des Vergleichswertes von -15.205 $ haben wir die mittle-

re Beobachtung der Treatment- mit der mittleren Beobachtung der Kontroll-

gruppe verglichen. In der Schätzung der Kontrollfunktion haben wir unterstellt,

dass sich Treatment- und Kontrollgruppeneinkommen um einen konstanten

additiven Term α unterscheiden: E(RE78 | x) = x'β + α ⋅ D.

4–92

• Alternativ könnte man ausschließlich solche Beobachtungspaare verwenden,

die die gleichen Merkmalsausprägungen x haben. So ein matching on reg-

ressors setzt voraus, dass tatsächlich exakte Duplikatbeobachtungen vorlie-

gen, was oft nicht der Fall ist.

• Daher verknüpft man stattdessen Beobachtungen mit gleichem Propensity

Score, also gleicher bedingter Treatmentwahrscheinlichkeit Pr (D = 1 | x).

• Der Propensity Score wird für jedes i, z.B. mittels Logit und erklärenden Vari-

ablen von 1975, geschätzt und vorhergesagt:

Pr (Di = 1 | x) = Λ (xi' β) i = 1, ..., 2675.

4–93

4–94

• Die Abbildung zeigt, dass die meisten Beobachtungen der Kontrollgruppe

niedrige Propensity Scores und die meisten Beobachtungen der

Treatmentgruppe hohe Scores haben. Wir können nun an jedem Punkt der

Verteilung der Propensity Scores die mittleren Einkommen der Treatment-

und Kontrollgruppe vergleichen. Vor allem im Bereich höherer Werte des

Propensity Scores sind die mittleren Verdienste in der Treatmentgruppe ober-

halb derjenigen der Kontrollgruppe.

• Es gibt viele Möglichkeiten der Zuordnung von Treatment- und Kontrollgrup-

pe:

- Nearest Neighbor Matching: jede Treatmentbeobachtung erhält den nächs-

ten Nachbarn (im Propensity Score) zugewiesen.

4–95

- Stratification Matching: Wenn die Propensity Score Bereiche der Gruppen

übereinstimmen, lassen sich Mittelwerte in bestimmten Wertebereichen

des Propensity Score für beide Gruppen berechnen und vergleichen. Ein

Stratum s umfasst z.B. 0,0 < p(x) ≤ 0,1 ein nächstes 0,1 < p(x) ≤ 0,2 etc.

Man gewichtet die Mittelwerte pro Stratum s dann mit der relativen Häu-

figkeit der Beobachtungen in diesem Stratum (ws) und bestimmt

( )s,D 1 s,D 0s sw RE78 RE78 .= =−∑

• In unserem Fall liegt die Verteilung der Propensity Scores in der

Treatmentgruppe zwischen 0,0005 bis 0,9420 und in der Kontrollgruppe zwi-

schen 0,000 und 0,9371. Beobachtungen außerhalb des gemeinsamen Be-

4–96

reichs entfallen und für die Gesamtstichprobe ergibt sich ein Treatmenteffekt

von 995 $.

• Um weitere Matching Ergebnisse zu betrachten, nutzen wir alternative

Logitmodelle, die Propensity Scores unterschiedlich vorhersagen:

(a): Pr [treat = 1] = h (CONSTANT, AGE, AGE2, EDU, EDU2, MARRIED, NO-

DEGREE, BLACK, HISPANIC, RE74, RE742, RE75, U74, U75,

U74*HISPANIC)

(b): Pr [treat = 1] = h (CONSTANT, AGE, AGE2, EDU, EDU2, MARRIED, NO-

DEGREE, BLACK, HISPANIC, RE74, RE742, RE75, RE752, RE74*RE75,

U74*HISPANIC)

4–97

• Vorgehensweise: Bestimme ( )p x , sortiere Treatment- und Kontrollbeobach-

tungen in Strata s gemäß ( )p x . Prüfe, ob innerhalb jedes s die Mittelwerte der

Charakteristika von Kontroll- und Treatmentgruppe signifikant verschieden

sind. Wenn ja, engeres Stratum wählen. Wenn viele Unterschiede, dann

Interaktionsterme in Gleichung zur Vorhersage von p (x).

• Verwende nur Beobachtungen, für deren ( )p x sowohl Treatment- als auch

Kontrollbeobachtungen vorliegen.

• Im Beispiel verbleiben bei Spezifikation (a) des Logitmodells von 2490 nur

1086 Beobachtungen in der Kontrollgruppe.

Wählt man Spezifikation (b), verbleiben 1146 Kontrollgruppen-

Beobachtungen.

4–98

4–99

• Die Schätzergebnisse variieren stark mit der gewählten Vorgehensweise und

liegen zwischen 2385 $ und 560 $. Dies zeigt, wie sensibel Matchingschätzer

auf die Annahmen reagieren können.

• In Tabelle 25.6 wird 1794 $ als Benchmark verwendet. Dies ist ein Regressi-

onsschätzer für den Dummykoeffizienten in der gematchten Stichprobe nach

Dehija und Wahba (2002).

4–100

4–101

Literatur:

Angrist, J.D. und A.B. Krueger, 1999, Empirical Strategies in Labor Economics, Chapter 23 in Ashenfelter & Card (Hrsg.), Handbook of Labor Economics 3A, 1277-1366.

Battistin, Erich, Agar Brugiavini, Enrico Rettore und Guglielmo Weber, 2009, The Retirement Consumption Puzzle: Evidence from a Regression Discontinuity Approach, American Economic Review 99(5), 2209-2226.

Blundell, Richard und Monica Costa Dias, 2009, Alternative Approaches to Evaluation in Empirical Microeconomics, Journal of Human Resources 44(3), 565-640.

Caliendo, Marco, 2008, Some Practical Guidance for the Implementation of Pro-pensity Score Matching, Journal of Economic Surveys 22(1), 31-72.

Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and Applications, Cambridge: Cambridge University Press. Kapitel 25

Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata, Sta-ta Press. Kapitel 10

4–102

Girma, Souravel und David Paton, 2006, Matching Estimates of the Impact of over the counter emergency birth control on teenage pregnancy, Health Economics 15, 1021-32.

Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice Hall, 6. Auflage. Kapitel 24.5.6

Heckman, James J., 2010, Building Bridges between Structural and Program Evaluation Approaches to Evaluating Policy, Journal of Economic Literature 48(2), 356-398.

Imbens, G.W. und J.M. Wooldridge, 2009, Recent Developments in the Econo-metrics of Program Evaluation, Journal of Economic Literature, 47(1), 5-86.

Imbens, G.W., 2010, Better LATE than nothing, Journal of Economic Literature 48(2), 399-423.

Lee, Myoung-Jae, 2005, Micro-Econometrics for Policy, Program, and Treat-ment Effects, Oxford Univ. Press, Oxford.

Lee, David S. und Thomas Lemieux, 2010, Regression Discontinuity Designs in Economics, Journal of Economic Literature 48(2), 281-355.

4–103

Rosenbaum, P.B. und D.B. Rubin, 1983, The central role of the propensity score in observational studies for causal effects, Biometrica 70, 41-55.

Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley & Sons, 3. Auflage. Kapitel 7.7

Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer Verlag, Heidelberg, Kapitel 7.4.

Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, Cambridge: The MIT Press. Kapitel 18

5.1

Kapitel 5: LAD- und Quantilsregression

5.1 Begriffe und Motivation

5.2 Schätzverfahren

5.3 Beispiele

5.4 Eigenschaften und Interpretation

5.5 Erweiterungen

5.2

5.1 Begriffe und Motivation

• Quantil und Perzentil sind synonym. Das Quantil q einer Zufallsvariable y,

mit q ∈ (0,1), ist der Wert von y, unterhalb dessen q und oberhalb dessen 1-

q Prozent der Verteilung von y liegen:

F(yq) = q und yq = F-1(q) (5.1)

F ist die kumulative Dichtefunktion von y und F-1 ihre Umkehrfunktion.

• Beispiel: Wenn y0,99 = 200 dann ist die Wahrscheinlichkeit ein y zu finden,

das nicht größer als 200 ist, 99 Prozent.

• Das lineare Regressionsmodell beschreibt den mittleren Zusammenhang

zwischen einer abhängigen Variablen y und Regressoren x: E( y | x ). Es

5.3

wird nur das erste zentrale Moment der auf x bedingten Verteilung von y und

der mittlere Zusammenhang zwischen x und y betrachtet.

• Quantilsregressionen erweitern die Perspektive auf die Betrachtung des

Zusammenhangs an verschiedenen Stellen der auf x bedingten Verteilung

von y.

• Quantilsregressionen modellieren die auf x bedingten Quantile von y, man

schreibt Qq(y|x) = F-1(q|x). Betrachtet man q = 0,5 so spricht man auch von

Medianregression. Während der Standardfall der Quantilsregression linear

in Parametern ist, gibt es auch nicht lineare Ansätze.

• Beispiel: Wie hoch sind die Renditen auf Schulbildung und unterscheiden

sie sich über die Perzentile der Lohnverteilung hinweg? Der KQ-Schätzer

5.4

bestimmt die mittlere Bildungsrendite für die gesamte Stichprobe.

Quantilsregressionen bestimmen die Bildungsrendite getrennt für

unterschiedliche Quantile. Sie beschreiben marginale Effekte der Kovariaten

an unterschiedlichen Perzentilen der Verteilung der abhängigen Variablen.

5.5

Quelle: Andini, Corrado, 2008, The Total Impact of Schooling on Within-Groups Wage Inequality in Portugal, Applied Economics Letters 15(1-3), 85-90

5.6

Die Schätzergebnisse zeigen, dass der Renditeunterschied zwischen dem

1. und dem 9. Dezil der auf x bedingten Verteilung von y erheblich ist.

• Formal lassen sich alternative Regressionsmodelle durch die Bestimmung

einer Verlustfunktion motivieren. Dazu definieren wir den Vorhersagefehler e

als Differenz zwischen dem beobachteten Wert y und dem als Funktion von

x vorher gesagten y : e ≡ y – y .

• Die Verlustfunktion entspricht in diesem Fall

( ) ( )ˆL e L y y= − . (5.2)

• Je größer der Betrag von Vorhersagefehler e, umso größer L. E[L(e)] ist zu

minimieren. Insofern y von x abhängt, lässt sich schreiben

5.7

( )( )ˆE L y y |x⎡ ⎤−⎣ ⎦ . (5.3)

• Der optimale Vorhersagewert für y erfüllt nun

( )( )

y

ˆmin E L y y |x⎡ ⎤−⎣ ⎦ (5.4)

• Für die Spezifikation von L gibt es verschiedene Alternativen. Am häufigsten

wird eine quadratische Verlustfunktion unterstellt: L(e) = e2. Hier minimiert

der optimale Vorhersagewert E[L(e|x)] = E[e2|x].

• Wir betrachten drei Verlustfunktionen

5.8

Tab. 4.1. Loss Functions and Corresponding Optimal Predictors

Type of Loss Function Definition Optimal Predictor

Squared error loss ( ) 2L e e= E [y | x]

Absolute error loss ( )L e e= med [y | x]

Asymmetric absolute loss ( )( )1 e if e 0

L ee if e 0

⎧ − α <⎪= ⎨α ≥⎪⎩

qα [y | x]

Quelle: Cameron & Trivedi, 2005, S. 67

• Die typische Vorgehensweise bei der Verwendung der quadratischen

Verlustfunktion besteht darin, für den optimal predictor eine lineare oder

5.9

nicht-lineare Funktion E[y|x] = g(x, β) zu spezifizieren, wobei β einen Vektor

von zu bestimmenden Parametern darstellt.

• Die optimale Vorhersage: y = g(x, β) wird bestimmt, in dem die Stichproben-

verlustfunktion über die Wahl von β minimiert wird:

( ) ( )( )

N N N22

i i i ii 1 i 1 i 1

L e e y g x ,= = =

= = − β∑ ∑ ∑ . (5.5)

• Je nachdem, ob g linear oder nichtlinear in β ist, verwendet man lineare oder

nichtlineare Kleinstquadrateschätzer.

• Wenn die Verlustfunktion aus dem Absolutwert des Vorhersagefehlers

besteht, so ist der optimale Prediktor der Median von y gegeben x. Ist die

bedingte Medianfunktion linear, so kann man den least absolute deviation

5.10

(LAD) Schätzer verwenden, der die Summe der Beträge der

Vorhersagefehler minimiert:

i i iy x '− β∑ . (5.6)

• In diesen Fällen ist die Verlustfunktion symmetrisch, Abweichungen nach

oben und unten werden gleich gewichtet. Bei asymmetrischen absoluten

Verlustfunktionen finden Gewichte (1-α) Berücksichtigung. α liegt im

Intervall (0,1), Symmetrie ergibt sich, wenn α = 0,5. Als optimaler

Vorhersagewert ergibt sich das bedingte Quantil, qα[y|x]. Wenn α = 0,5 ist

dies der Median, andernfalls das bedingte α-Quantil.

• Insgesamt muss der Prediktor für y gemäß der Verlustfunktion geschätzt

werden. Das lineare Regressionsmodell impliziert eine quadratische

5.11

Verlustfunktion und unterstellt, dass der bedingte Mittelwert E[y|x] linear ist.

Jede Verlustfunktion erfordert einen anderen der grundsätzlich gleich-

wertigen Regressionsansätze.

5.12

5.2 Schätzverfahren

• Die Schätzung von Quantilsregressionen nutzt zur Minimierung der

Verlustfunktion lineare Optimierungsverfahren.

• Die Intuition des Verfahrens lässt sich wie folgt erläutern:

Wir unterstellen eine univariat verteilte Zufallsvariable y, mit N

Beobachtungen. Quantil q lässt sich bestimmen, in dem man zunächst die

Ausprägungen ordnet und dann die (N*q). Beobachtung (auf die nächst

höhere Zahl aufgerundet) herausnimmt.

• Beispiel: N = 97, q = 0,25. N*q = 97*0,25 = 24,25 – hier beschreibt der Wert

der 25. Beobachtung die Obergrenze des unteren Quartils (25. Perzentil).

5.13

• Koenker und Bassett haben 1978 gezeigt, dass das q. Stichproben-Quantil

durch Minimierung nach β bestimmt werden kann:

( )

N N

i ii: y i: yi i

q y 1 q y≥β <β

− β + − − β∑ ∑ . (5.7)

• Beispiel 1: Wenn q = 0,5 ergibt sich daraus bei N=99

( )i

i

y − β∑ . (5.8)

Wenn der wahre Wert der 50. Beobachtung 10 beträgt, würde β = 10 diesen

Ausdruck minimieren. Würde stattdessen β = 11 gewählt, so wäre für die

ersten 50 Beobachtungen die Differenz um 1 größer und für die letzten 49

Beobachtungen die Differenz um 1 geringer. Insgesamt steigt die absolute

5.14

Summe um 1, so dass die Verwendung des wahren Medianwertes

tatsächlich den Ausdruck minimiert.

yi = ... 8 9 10 11 12 ... Summe

|yi - β| bei β = 10 2 1 0 1 2 6

|yi - β| bei β = 11 3 2 1 0 1 7

• Beispiel 2: Wenn q = 0,25 ergibt sich daraus bei N = 7

( )i i

i ii: y i: y

0,25 y 1 0,25 y .≥β <β

− β + − − β∑ ∑

Wenn die 7 Ausprägungen 0, 0, 1, 1, 2, 3, 4 sind, ist der Wert des 0,25.

Quantils 7⋅0,25 = 1,75, d.h. aufgerundet der Wert der zweiten Beobachtung

5.15

der Ausprägungen, hier 0. Es lässt sich einfach zeigen, dass β = 0 den

Ausdruck minimiert:

yi = 0 0 1 1 2 3 4 Summe

bei β = 0 0 0 0,25 0,25 0,5 0,75 1 2,75

bei β = 1 0,75 0,75 0 0 0,25 0,5 0,75 3,00

• Die Zielfunktion wird zur Regression, indem der bislang konstante Wert β

parametrisiert wird:

( ) ( )

N N

N q i i q i i qi: y x ' i: y x 'i i i i

Q q y x ' 1 q y x '≥ β < β

β = − β + − − β∑ ∑ (5.9)

5.16

Zusätzlich erhält der Koeffizientenvektor einen Index q, der anzeigt, dass er

für jedes Quantil einen anderen Wert annehmen kann. Für den Fall dass q =

0,5 spricht man von der Medianregression, bzw. dem Least Absolute

Deviation (LAD) Schätzer.

• Grundsätzlich lässt sich der Standardfehler der βq berechnen, einfacher ist

jedoch die Verwendung von Bootstrapverfahren.

5.17

5.3 Beispiele

5.3.1 Bildungsrenditen (Quelle: Angrist und Pischke, 2009, Kapitel 7.1)

• In den 80er und 90er Jahren stieg in USA die Lohnungleichheit zwischen

verschiedenen Bildungsgruppen.

• Unklar ist, ob die Lohnungleichheit auch innerhalb der Gruppen von

Arbeitnehmern mit gleicher Bildung stieg. Dies lässt sich mit

Quantilsregressionen untersuchen.

5.18

Tab. 7.1.1 Quantile regression coefficients for schooling

Desc. Stats.

Quantile Regression Estimates OLS

Estimates

Census Obs. Mean SD 0.1 0.25 0.5 0.75 0.9 Coeff.

1980 65.023 6,4 0,67 0,074 0,074 0,068 0,070 0,079 0,072

(0,002) (0,001) (0,001) (0,001) (0,001) (0,001)

1990 86.785 6,5 0,69 0,112 0,110 0,106 0,111 0,137 0,114

(0,003) (0,001) (0,001) (0,001) (0,003) (0,001)

2000 97.397 6,5 0,75 0,092 0,105 0,111 0,120 0,157 0,114

(0,002) (0,001) (0,001) (0,001) (0,004) (0,001)

Notes: The table reports quantile regression estimates of the returns to schooling in a model for log wages, with OLS estimates shown at the right for comparison. The sample includes U.S.-born white and black man aged 40-49. The sample size and the mean and standard deviation of log wages

5.19

in each census extract are shown at the left. Standard errors are reported in parentheses. All models control for race and potential experience.

Quelle: Angrist und Pischke, 2009, S. 273

• Die Tabelle zeigt Quantilsgressions- und KQ-Koeffizienten der

Bildungsvariable im Lohnmodell getrennt für die Jahre 1980, 1990 und 2000.

Die beschreibende Statistik zeigt, dass die Streuung der Löhne über die Zeit

gestiegen ist.

• Wäre die bedingte Verteilung der Log-Löhne symmetrisch, sollten sich für

Medianregression und Kleinstquadrateschätzer die gleichen Koeffizienten

ergeben. Die Werte unterscheiden sich nicht stark.

5.20

• 1980 sind die Koeffizienten an allen Lohnquantilen ähnlich. Egal wo man

sich in der Verteilung der auf die erklärenden Variablen bedingten Löhne

befindet, ist der Zusammenhang mit der Bildung ähnlich: Ein weiteres Jahr

Bildung erhöht die Löhne um ca. 7 Prozent.

• 2000 ergeben sich deutliche Unterschiede der Bildungsrenditen über die

bedingte log-Lohn-Verteilung. Da die höchsten Renditen bei den höchsten

Lohnquantilen zu finden sind, hat die Ungleichverteilung also auch innerhalb

der Bildungsgruppen über die Zeit zugenommen.

• Frage: Wie interpretieren wir Änderungen der geschätzten Koeffizienten

über die Zeit? Wie interpretieren wir Unterschiede in den geschätzten

Koeffizienten zwischen den Quantilen?

5.21

5.22

5.3.2 Engelkurven (Quelle: Cameron und Trivedi, 2005, Kapitel 4.6.4)

• Fragestellung: Zusammenhang zwischen Haushaltseinkommen und

Ausgaben für medizinische Versorgung in Vietnam 1997. Es werden

Elastizitäten der Ausgaben in Bezug auf Einkommen geschätzt.

• Daten: Vietnam Living Standards Survey (Weltbank), N=5006 Haushalte mit

positiven Ausgaben für medizinische Versorgung (meist für Medikamente).

Gesamte Haushaltsausgaben als einzige erklärende Variable und als

Approximation der Haushaltseinkommen.

• KQ ergibt eine Elastizität von 0,57 (Standardfehler 0,032), was als

einkommensunelastisch interpretiert wird.

5.23

• Die Quantilsregression wurde für 19 Quantile durchgeführt mit q = 0,05; 0,1;

0,15; …; 0,95. Die Standardfehler der Koeffizienten wurden mit 50

Replikationen durch Bootstrap bestimmt.

5.24

Quelle: Cameron & Trivedi, 2005, S. 89.

5.25

• Abb. 4.1 zeigt die Elastizitäten und ihr Konfidenzintervall über die Quantile

der Ausgabenverteilung hinweg. Die Ausprägungen variieren deutlich und

statistisch signifikant zwischen 0,15 und 0,80.

• Hier ergibt der konstante KQ-Parameter nur ein unvollständiges Bild des

Zusammenhangs.

• Abb. 4.2 zeigt, dass sich die Regressionsgraden der Ausgabenquantile

unterscheiden. Die KQ-Regressionsgerade ähnelt der des Medians.

Ursprünglich wurde die Quantilsregression von Koenker und Bassett (1982)

zum Test für Heteroskedastie entwickelt. Verlaufen die Linien nicht parallel,

liegt im einfachen linearen Modell Heteroskedastie nahe.

5.26

Quelle: Cameron & Trivedi, 2005, S. 90.

5.27

5.4 Eigenschaften und Interpretation

• Bei der Interpretation von Koeffizienten der Quantilsregression ist stets zu

beachten, dass sie nicht Individuen, sondern die bedingte Verteilung der

abhängigen Variable beschreiben.

• Beispiel: Positiver Effekt von Weiterbildung auf das erste Dezil der

Lohnverteilung. Dies bedeutet, dass die Löhne im untersten Dezil bei

Weiterbildung höher ausfallen, nicht dass eine Person im untersten Dezil

durch Weiterbildung besser verdient. Die Interpretation trifft für einzelne

Beobachtungen nur unter der Bedingung zu, dass sie bei Änderung der

erklärenden Variablen im gleichen Quantil bleiben.

5.28

• Da erklärende Variablen auf alle Quantile gleichzeitig wirken, ist es nicht

trivial, ihre marginalen Effekte zu bestimmen. Die Ausprägung der

erklärenden Variable bestimmt nicht nur die abhängige Variable am

betrachteten Quantil sondern auch die Verteilung der Beobachtungen über

die Quantile.

• Es lassen sich quantils-spezifische marginale Effekte wie folgt bestimmen:

( ) ( )q i i

q i i i q q j

j

Q y |xWenn Q y |x x ' , dann .

x

∂= β = β

∂

• Eine Quantilsregression bringt gegenüber KQ nur dann zusätzliche

Information, wenn das betrachtete Modell heteroskedastisch ist. Sonst gilt

βq = β = const für alle q ∈ (0, 1). Dies muss auch bei der Berechnung der

5.29

Standardfehler berücksichtigt werden (in der Regel wird Bootstrap

verwendet).

• Um kausale Effekte zu identifizieren, wurden in den letzten Jahren auch für

Quantilsregressionen IV- und 2SLS-Verfahren entwickelt.

• Quantils- und LAD-Schätzer sind im Gegensatz zu Kleinstquadrateverfahren

nicht von Ausreisserbeobachtungen beeinflusst.

• Auch bei von oben zensierten abhängigen Variablen lassen sich mit

Quantilsregressionen die Effekte der Kovariaten unverzerrt schätzen.

• Da die Zielfunktion der Quantilsregression nicht überall differenzierbar ist,

kann nicht nach den Schätzwerten abgeleitet werden. Stattdessen muss ein

rechenaufwändiges lineares Optimierungsproblem formuliert werden.

5.30

• Der Ansatz der Quantilsregressionen ist semiparametrisch, da keine

Verteilungsannahmen an den Störterm erforderlich sind.

• Die Quantilsregression erlaubt es, den Effekt einer erklärenden Variable an

verschiedenen Stellen der Verteilung zu bewerten.

• Es gibt Panelverfahren für Quantilsregressionen.

• Ein wichtiger Beitrag ist Machado und Mata (2005), die die Oaxaca-Blinder-

Dekomposition auf Quantilsregressionen übertragen.

5.31

Literatur

Andini, Corrado, 2008, The total impact of schooling in within-groups wage inequality in Portugal, Applied Economics Letters, 15, 85-90.

Angrist, Joshua D. und Jörn-Steffen Pischke, 2009, Mostly Harmless Econometrics. An Empiricists Companion, Princeton Univ. Press, Kapitel 7.

Cameron, Colin A. und Pravin K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge Univ. Press, Kapitel 4.6

Cameron, Colin A. und Pravin K. Trivedi, 2009, Microeconometrics using Stata, Stata Press, Kapitel 7.

Koenker, Roger und Gilbert Bassett, 1978, Regression Quantiles, Econometrica 46, 33-50.

Koenker, Roger und Gilbert Bassett, 1982, Robust Tests for Heteroscedasticity Based on Regression Quantiles, Econometrica 50, 43-62.

Machado, Jose A.F. und Jose Mata, 2005, Counterfactual Decomposition of Changes in Wage Distributions using Quantile Regression, Journal of Applied Econometrics 20, 445-465.

5.32

Weitere Beispiele

Bechtel, Stephan, 2006, Verdienststrukturen in Baden-Württemberg: Eine empirische Analyse mit Hilfe von Quantilsregressionen, Wirtschaft und Statistik 3, 316-328.

Koenker, Roger, 2005, Quantile Regression, Cambridge Univ. Press, Cambridge, Kapitel 1.5.

Kapitel 1 - lsw.wiso.uni-erlangen.de€¦ · – Angrist, Joshua D. und Jörn-Steffen Pischke,...

Documents

Transcript of Kapitel 1 - lsw.wiso.uni-erlangen.de€¦ · – Angrist, Joshua D. und Jörn-Steffen Pischke,...