Princeton Universityppettit/papers/Unveiling_BJPS_1990.pdfCreated Date 5/23/2006 12:33:05 PM
Kapitel 1 - lsw.wiso.uni-erlangen.de€¦ · – Angrist, Joshua D. und Jörn-Steffen Pischke,...
Transcript of Kapitel 1 - lsw.wiso.uni-erlangen.de€¦ · – Angrist, Joshua D. und Jörn-Steffen Pischke,...
1.1
Kapitel 1: Einführung
1.1 Technische Vorbemerkungen
1.2 Inhaltliche Gliederung und Ziele der Veranstaltung
1.2
1.1 Technische Vorbemerkungen
• Vorlesung 2 SWS, Übung 1 SWS
- Vorlesung (Riphahn): Mo. und Mi. 8:00-09:30
- Übung (Eschelbach): Do. 15:00-16:30 (LG 0.224) Beginn: 16.12.10, oder
Fr. 11:30-13.00 (Raum 4.109), Beginn: 17.12.2010
- Details und Aktuelles auf der Webseite des Lehrstuhls
• Sprechstunden:
- Riphahn: vor / nach Vorlesung o. nach Vereinbarung (Mittwoch 11-12)
- Eschelbach: vor / nach Übung, oder Montag 14-15 Uhr
1.3
• Keine Vorlesung: Mittwoch 15.12.10 und 26.1.11
Ersatztermine: Montag 13.12. (H1), 20.12.: 9:45-11:15 (0.144)
• Prüfung: Klausur (60 Min.), durch Prüfungsamt organisiert. Hilfsmittel: Ta-
schenrechner, ggf. Wörterbuch.
• Freiwillige Hausarbeit: In Gruppen bis zu 2 Personen möglich, anrechenbar
auf Endnote zu 20 Prozent, Anmeldung zur Hausarbeit (3-5 Textseiten) bis
zum 20.12.10 per E-Mail bei Martina Eschelbach (marti-
[email protected]). Themenausgabe: 23.12.10, Abgabe-
termin: 18.02.11
• Die Note der Hausarbeit verfällt nach dem SS2011.
1.4
• Anrechnungsmodus Mikroökonometrie für Studierende im Diplomprogramm:
(i) Mikroökonometrie 6 Kreditpunkte: Veranstaltung Panel- und Evaluations-
verfahren (WS) plus Veranstaltung Mikroökonometrie (SS), Prüfungsanmel-
dung im SS
(ii) Mikroökonometrie 4 Kreditpunkte: Veranstaltung Mikroökonometrie (SS)
plus Prüfungsleistung zum Themenbereich Paneldaten (entweder mündliche
Prüfung oder schriftliche Hausarbeit), Prüfungsanmeldung im SS
(iii) Mikroökonometrie 2 und 3 Kreditpunkte: Prüfung auf Basis der Veran-
staltung Mikroökonometrie (SS), Einzelfallabsprache, Prüfungsanmeldung
im SS
1.5
• Literatur: zu Kapitel 2 und 3 der Vorlesung: Marno Verbeek, 2008, A Guide
to Modern Econometrics, third edition, John Wiley & Sons Ltd., Chichester
UK. Preis (neu): € 39,95 (Stand Sept. 2009) daraus Kapitel 5 und 10.1-10.5.
• Zusätzlich: Textsammlung via STS.
• Weitere empfehlenswerte Literatur:
– Greene, William H., 2008, Econometric Analysis, 6th ed., Prentice Hall, New Jersey.
– Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, MIT Press, Cambridge/Mass.
– Cameron, Colin A. and Pravin K. Trivedi, 2005, Microeconometrics. Me-thods and Applications, Cambridge Univ. Press
– Cameron, Colin A. and Pravin K. Trivedi, 2009, Microeconometrics Using Stata, Stata Press
– Angrist, Joshua D. und Jörn-Steffen Pischke, 2009, Mostly Harmless Eco-nometrics. An Empiricists Companion, Princeton Univ. Press
1.6
1.2 Inhaltliche Gliederung und Ziele der Veranstaltung
• Gliederung:
1. Einführung
2. Endogenität, Instrumentvariablen und GMM (Verbeek Kapitel 5)
3. Lineare Modelle für Paneldaten (Verbeek Kapitel 10)
4. Evaluationsverfahren
5. Quantilsregression
1.7
• Ziel: - Vermittlung fortgeschrittener ökonometrischer Methoden, die in
empirischen Analysen von Arbeitsmarkt, Finanzmärkten und
Marktforschung angewendet werden
- Diskussion der dem linearen Regressionsmodell unterliegenden
Annahmen und von ggf. überlegenen Verfahren
- Einüben der Verfahren unter Anwendung der Software STATA
- Fokus auf Intuition und Beispieldiskussion statt formaler Ablei-
tung
2.1
Kapitel 2: Endogenität, Instrumentvariablen und GMM
2.1 Überblick über die Eigenschaften des KQ-Schätzers
2.2 Fälle, in denen der KQ-Schätzer unangemessen ist
2.3 Der Instrumentvariablen (IV)-Schätzer
2.4 Illustration: Schätzung der Rendite von Schulbildung
2.5 Generalisierte IV-Schätzer
2.6 Der generalisierte Momentenschätzer (GMM)
2.7.Illustration: Schätzung des Intertemporalen Asset Pricing Modells
2.2
2.1 Überblick über die Eigenschaften des KQ-Schätzers
• Wir nutzen folgende Annahmen-Notation:
A 1 0E i =ε i = 1,2,...N
A 2 1 Nx , x… und 1 N,ε ε… sind unabhängig
A 3 2
iV ε = σ i = 1,2,…N
A 4 i jcov , 0ε ε = i,j = 1,…N, i ≠ j
A 5 ε ~ N (0,σ2 IN)
A 5' εi ~ NID (0,σ2)
A 6 N
i ii 1
1x x '
N =∑ konvergiert gegen eine finite nichtsinguläre Matrix Σxx.
A 7 Exi εi = 0 Unkorreliertheit
2.3
A 8 xt und εt sind für gegebenes t statistisch unabhängig (stärker als A 7)
A 9 2 2 2
iV x Diag hε = σ = σ Ψ
A 10 Eε⎮X = 0 stärker als A 7, schwächer als A 8, A 2.
A 11 εt ~ IID (0, σ2)
A 12 εt ist über die Zeit unkorreliert, mit Erwartungswert 0.
• Modell: t t ty x'= β + ε , t = 1,2,3,…,T (5.1)
bzw. y X= β + ε. (5.2)
• Hinweis: Formelnummerierung entspricht Verbeek.
• Der KQ Schätzer für β ist unverzerrt und konsistent, wenn der Störterm, mit
E(ε) = 0 (A1), unabhängig von allen erklärenden Variablen ist (A2).
2.4
• Unverzerrtheit und Konsistenz gelten auch noch, solange E 0ε = (A1) und
E X 0ε = (A10). A10 besagt, dass man aus der Kenntnis von (Elementen
von) X nichts über den Erwartungswert von ε lernt.
• A2 ist die allgemeinere Annahme und fordert statistische Unabhängigkeit
von X und ε. Statistische Unabhängigkeit impliziert zusätzlich zu A10, dass
die z.B. Varianz von ε nicht von X abhängt.
• A10 ist stärker als für Konsistenz nötig, und ist nicht immer erfüllt.
• Beispiel: Hypothese effizienter Märkte: die Rendite eines Aktivums (y) ist
nicht mit Hilfe öffentlich verfügbarer Informationen, z.B. aufgrund ihrer ver-
gangenen Entwicklung, vorhersagbar. Dies lässt sich als H0: β2 = β3 = 0 mit
folgendem Modell testen:
2.5
t 1 2 t 1 3 t 2 ty y y− −= β + β + β + ε . (5.3)
In diesem Fall ist die Annahme E X 0ε = nicht immer erfüllt, da die (yt-1,
yt-2) Zufallsvariablen sind, die von den verzögerten Werten von ( )t t 1 t 2,− −ε ε ε
abhängen. Es existieren Korrelationsmuster zwischen „X“ und ε, was A10
widerspricht.
• Auch unter anderen gegenüber A2 abgeschwächten Annahmen lassen sich
konsistente KQ-Schätzer für β bestimmen:
xt und εt sind für jede Beobachtung t unabhängig, (A8)
( )2
t ~ i.i.d. 0,ε σ . (A11)
A8 besagt, dass xt von εs abhängen darf, solange t ≠ s. Das ist die Situation
bei verzögerten endogenen Variablen auf der rechten Seite der Modellglei-
2.6
chung. A11 besagt, dass die εt unabhängig und identisch verteilt sind, mit
Erwartungswert 0 und Varianz σ2.
• Unter weiteren Annahmen, z.B., dass ∑ xx eine endliche, invertierbare Mat-
rix mit T
t txxT t 1
1plim x x '
T→∞ =
=∑ ∑ (A6) ist, ist KQ dann konsistent und asymptotisch
normalverteilt mit der Kovarianzmatrix 12
xx
−σ ∑ , so dass
( ) ( )2 1
xxT b N 0, −− β → σ ∑ . (5.4)
Für kleine Stichproben gilt approximativ
1Ta
2
t tt 1
b ~ N , x x '−
=
⎛ ⎞⎛ ⎞β σ⎜ ⎟⎜ ⎟⎝ ⎠⎝ ⎠∑ . (5.5)
• Im Unterschied zur Situation unter den Annahmen A1-A5 folgt unter den An-
nahmen A8 und A11 die Normalverteilung in (5.5) nur approximativ, aufgrund
2.7
des asymptotischen Ergebnisses (5.4). Damit sind t-, F- und Wald-Tests un-
ter A6, A8 und A11 nur approximativ gültig.
• Unter A6, A8 und A11 führen verzögerte endogene erklärende Variablen da-
zu, dass die Eigenschaften des KQ-Schätzers für kleine Stichproben
(Unverzerrtheit, Effizienz) nicht mehr gelten. Die asymptotischen Eigenschaf-
ten bleiben erhalten (Konsistenz, asymptotische Effizienz).
• A11 schließt Heteroskedastie und Autokorrelation aus. Im Beispiel sprächen
autokorrelierte Störterme gegen die Annahme effizienter Märkte: Teile der
Störterme wären (unausgenutzt) systematisch prognostizierbar.
• Ohne A11 ergibt 2 1
xx
−σ ∑ nicht mehr die korrekte Varianz-Kovarianz-Matrix
des Schätzers und (5.5) gilt nicht mehr. Konsistenz und asymptotische Nor-
malverteilung gelten noch immer.
2.8
• Die Varianz-Kovarianz-Matrix lässt sich ohne A11 noch auf andere Weisen
schätzen:
• Fall 1: Unterstellen wir t tE x 0ε = für alle t, (A7)
und Unabhängigkeit der εt über die Zeit, mit tE 0ε = . (A12)
A7 fordert Unkorreliertheit von xt und εt. A12 erlaubt Heteroskedastie, jedoch
nicht Autokorrelation. Nun ist KQ (unter weiteren Bedingungen) konsistent
und asymptotisch normalverteilt mit
( ) ( )1 1
xx xxT b N 0, − −− β → ∑ ∑∑ (5.6)
wobei T
2
t t tt 1
plim x x '=
≡ ε∑ ∑ .
2.9
• Hinweis zu A7: wenn entweder tE x 0= oder tE z 0= , dann
t t t tE x z cov x ,z 0= = .
• Die asymptotische Varianz-Kovarianz-Matrix kann bei Heteroskedastie und
unter A6 mit dem White Schätzer konsistent geschätzt werden. Mit den re-
sultierenden Standardfehlern sind herkömmliche Tests asymptotisch gültig.
• Fall 2: Liegt in den Daten auf H Perioden begrenzte Autokorrelation vor, so
lassen sich Konsistenz und asymptotische Normalverteilung des KQ-
Schätzers nachweisen, solange A7 gilt und die Varianz-Kovarianz-Matrix mit
Hilfe des Newey-West-Schätzers (Abschnitt 4.10) bestimmt wird.
• So sind herkömmliche Tests sogar bei Heteroskedastie und auf H Perioden
begrenzte Autokorrelation gültig.
2.10
• Insgesamt gilt Unverzerrtheit nur unter A2 oder A10, während Konsistenz
auch bei (i) A8/A6/A11, (ii) A7/A12 oder (iii) A7 und auf H Perioden begrenz-
ter Autokorrelation nachweisbar ist.
2.11
2.2 Fälle, in denen der KQ-Schätzer unangemessen ist
• Mit der schwachen Annahme t tE x 0ε = (A7) und White- oder Newey-West-
Standardfehlern lässt sich ein konsistenter KQ-Schätzer mit angemessenen
Standardfehlern selbst bei Autokorrelation und Heteroskedastie bestimmen.
• Gilt A7 nicht mehr, so ist der KQ-Schätzer verzerrt und inkonsistent und es
müssen andere Verfahren genutzt werden.
• Dies ist der Fall bei Autokorrelation im Störterm bei verzögerten endogenen
Variablen, Messfehlern in erklärenden Variablen, endogenen erklärenden
Variablen, und Simultaneitätsproblemen.
2.12
2.2.1 Autokorrelation mit einer verzögerten endogenen Variable
• Modell: t 1 2 t 3 t 1 ty x y −= β + β + β + ε . (5.12)
KQ ist konsistent, solange t t t 1 tE x E y 0−ε = ε = . Bei Autokorrelation erster
Ordnung für ε t t 1 t−ε = ρε + ν (5.13)
kann man schreiben:
t 1 2 t 3 t 1 t-1 ty x y −= β + β + β + ρε + ν . (5.14)
Da ebenfalls gilt
t-1 1 2 t-1 3 t 2 t 1y x y − −= β + β + β + ε , (5.15)
ist εt über εt-1 mit yt-1 korreliert. Solange ρ ≠ 0, lässt sich (5.12) mit KQ nicht
konsistent schätzen. A7 gilt nicht mehr.
2.13
• Wegen yt-1 ist für (5.12) der Durbin-Watson-Test nicht gültig. Der Breusch-
Godfrey-Test kann angewendet werden: Als Hilfsregression wird geschätzt
et = α0 + ρ et-1 + α1xt + υt
und R2 bestimmt.
T0 × R2 ist 2
1χ -verteilt. Die Anzahl der Beobachtungen der Hilfsregression, T0,
richtet sich nach der Anzahl der lags. Für (5.13) ergibt sich T0 = T – 1.
• Hier entspricht das lineare Regressionsmodell nicht der auf xt und yt-1 be-
dingten Erwartung von yt. yt-1 ist mit dem Erwartungswert des Störterms kor-
reliert. KQ ist daher inkonsistent.
2.14
2.2.2 Messfehler in erklärenden Variablen
• KQ ist ebenfalls meist inkonsistent, wenn eine der erklärenden Variablen
Messfehler aufweist. Angenommen, yt hängt von wt ab:
t 1 2 t ty w= β + β + ν , (5.17)
wobei νt ein Störterm mit Erwartungswert 0 und konstanter Varianz 2
νσ ist.
Wenn wir annehmen, dass t tE w 0ν = , gilt t t 1 2 tE y w w= β + β .
• Angenommen, yt beschreibt die Haushaltsersparnis und wt das verfügbare
Einkommen. Letzteres ist nicht genau messbar (z.B. wegen falscher Anga-
ben) und wird durch den Wert xt abgebildet. Für jedes t unterscheiden sich xt
und wt durch den Messfehler ut:
xt = wt + ut (5.18)
2.15
• Wir unterstellen für ut einen Erwartungswert von Null und konstante Varianz 2
uσ , sowie dass ut und νt unabhängig sind. Schließlich sei der Messfehler un-
abhängig von wt. Aus 5.17 und 5.18 ergibt sich
t 1 2 t ty x= β + β + ε , mit t t 2 tuε = ν − β (5.19)
• Hier ergibt KQ inkonsistente Schätzer für β1 und β2, da xt und εt durch ge-
meinsame Abhängigkeit von ut korreliert sind: t tE x 0ε ≠ .
• Wir können β2 im einfachen Modell schreiben als
( )( )
( )
T
t tt 1
2 T2
tt 1
x x y yb
x x
=
=
− −=
−
∑
∑. (5.20)
Setzt man für yt ein, folgt
2.16
( ) ( )( )
( ) ( )
T
t tt 1
2 2 T2
tt 1
1 x xTb
1 x xT
=
=
− ε − ε= β +
−
∑
∑. (5.21)
• Für T → ∞ konvergieren Stichprobenmomente gegen Bevölkerungsmomen-
te. Daher
( ) ( )( )
( ) ( )
T
t tt tt 1
2 2 2T2
tt
t 1
1plim x x E xTplim b
V x1plim x xT
=
=
− ε − ε ε= β + = β +
−
∑
∑. (5.22)
Der letzte Ausdruck ist von Null verschieden:
( )( ) 2
t t t t t 2 t 2 uE x E w u v uε = + − β = −β σ
und
2.17
2 2
t t t w uV x V w u= + = σ + σ , wobei 2
w tV wσ = .
• Es folgt somit
2
u2 2 2 2
w u
plim b 1⎛ ⎞σ
= β −⎜ ⎟σ + σ⎝ ⎠. (5.23)
• b2 ist nur dann konsistent, wenn 2
u 0σ = , d.h. wenn kein Messfehler vorliegt.
Je größer 2
uσ relativ zu 2
wσ , umso größer ist der Messfehler, der dazu führt,
dass b2 gegen 0 hin verzerrt ist (attenuation bias). Bei 2 2
u wσ σ spricht man
vom noise-to-signal ratio, das Verhältnis der Varianz des Messfehlers (noi-
se) zur Varianz des tatsächlichen Wertes (signal). Je größer das Verhältnis,
umso größer die Verzerrung des KQ-Schätzers.
• Die Inkonsistenz von b2 betrifft auch den Schätzer der Konstanten b1, mit
1 t 2 tE y x :β = − β
2.18
( ) ( )1 2 t 2 t1plim b plim y b x E y E x− β = − − + β
( ) 2 2 tplim b E x= − − β . (5.24)
Für tE x 0> ergibt eine Unterschätzung des Steigungsparameters eine
Überschätzung des Achsenabschnitts.
• Auch hier ergibt das Schätzmodell nicht den auf xt bedingten Erwartungswert
von yt:
t t 1 2 t 2 t tE y x x E u x= β + β − β .
Der letzte Term ist wegen (5.18) nicht Null.
2.19
2.2.3 Endogenität und Omitted Variable Bias
• Omitted variable bias tritt auf, wenn eine relevante erklärende Variable, die
mit berücksichtigten erklärenden Variablen korreliert ist, im Modell nicht be-
rücksichtigt wird.
• Dies gilt unabhängig davon, ob die ausgelassenen Variablen beobachtbar
sind, solange sie mit berücksichtigten erklärenden Variablen korreliert sind.
Man spricht von (un-)observed heterogeneity.
• In diesem Fall ist die kausale Interpretation von KQ-Koeffizienten nicht mehr
gerechtfertigt. Die ceteris paribus Bedingung greift nicht, da nicht alle rele-
vanten Größen konstant gehalten werden.
2.20
• Beispiel: yi sei der individuelle log-Lohn, x1i ein Vektor von individuellen
Charakteristika (incl. Konstante), x2i die Anzahl der Ausbildungsjahre, ui sei
ein Maß der unbeobachteten Fähigkeit von i:
yi = x1i' β1 + x2i β2 + ui γ + υi (5.25)
• Wir erwarten γ > 0 sowie ( )i icov u ,x 0> . Tatsächlich kann nur das beobacht-
bare Modell geschätzt werden:
yi = xi' β + εi
wobei xi' = (x1i', x2i), β' = (β1', β2) und εi = ui γ + υi.
• Nun gilt für den KQ-Schätzer für β: 1 1N N N N
i i i i i i i ii 1 i 1 i 1 i 1
b x x ' x u x x ' x− −
= = = =
⎛ ⎞ ⎛ ⎞= β + γ + υ⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠∑ ∑ ∑ ∑ .
2.21
• Unter der Annahme i iE x 0υ = folgt:
1xx i iplim b E x u−= β + γ∑ (5.26)
Wenn γ ≠ 0 ist KQ nur dann konsistent, wenn i iE x u 0= , d.h. ui muss mit al-
len erklärenden Variablen einschließlich Bildung unkorreliert sein.
• KQ misst nicht den kausalen Effekt der Bildung, sondern den mittleren Lohn-
unterschied von Personen mit unterschiedlicher Bildung. Dieser mittlere
Lohnunterschied geht z.T. auf Bildung und z.T. auf ui zurück.
• Erklärende Variablen, die mit dem Störterm des Modells korreliert sind, nennt
man endogen. Sie generieren verzerrte und inkonsistente KQ-Schätzer.
2.22
2.2.4 Simultaneität und umgekehrte Kausalität
• Eine besondere Form von Endogenität ist das reverse causality – Problem.
Hier beeinflusst nicht nur xi das yi, sondern auch umgekehrt.
• Beispiel: Kriminalitätsrate = f (Ausgaben für innere Sicherheit)
Da die Ausgaben von der Kriminalität beeinflusst sein können, können die
Schätzer des Modells verzerrt sein.
• Das Problem stellt sich in Makromodellen, in denen mehrere Variablen si-
multan bestimmt werden. Im Modell mit Angebot, Nachfrage und Preis hän-
gen bspw. alle Größen voneinander ab.
2.23
• Beispiel: Bei der keynesianischen Konsumfunktion hängt der nationale pro-
Kopf-Konsum yt vom nationalen Pro-Kopf-Einkommen x2t ab, mit t = 1, 2, ...,
T Jahresbeobachtungen:
yt = β1 + β2 x2t + εt. (5.27)
β2 ist die marginale Konsumneigung, wir erwarten 0 < β2 < 1. Die kausale In-
terpretation lautet: wenn Individuen 1 Einheit mehr Einkommen haben, kon-
sumieren sie β2 Einheiten mehr. Allerdings ist x2t nicht exogen, sondern be-
stimmt durch:
x2t = yt + z2t. (5.28)
Einkommen entspricht der Summe von Konsum (yt) und Investitionen (z2t).
Wir unterstellen, dass z2t im Gegensatz zu x2t und yt exogen ist, d.h.
2.24
2t tE z 0ε = . (5.29)
x2t und yt werden mit dem in (5.27) – (5.29) beschriebenen Strukturmodells
determiniert.
• Da yt das x2t durch (5.28) beeinflusst, sind x2t und εt korreliert. Damit ist der
KQ-Schätzer für β2 verzerrt und inkonsistent. Das Strukturmodell in (5.27)
und (5.28) kann in seine reduzierte Form umgeformt werden. Dabei werden
x2t und yt nur als Funktion exogener Größen beschrieben:
12t 2t t
2 2 2
1 1x z
1 1 1
β= + + ε
− β − β − β (5.30)
1 2t 2t t
2 2 2
1y z
1 1 1
β β= + + ε
− β − β − β (5.31)
Daraus folgt
2.25
2
2t t 2t t t
2 2 2
1 1cov x , cov z , V 0
1 1 1
σε = ε + ε = ≠
− β − β − β .
Somit kann (5.27) nicht konsistent und unverzerrt per KQ geschätzt werden.
• Es lässt sich zeigen, dass
2t t
2 2
2t
cov x ,plim b
V x
ε= β + ,
wobei ( )
( )2
2t 2t t 2t2
2 2 2
1 1 1V x V z V z
1 1 1
⎧ ⎫= + ε = + σ⎨ ⎬
− β − β − β⎩ ⎭,
so dass
( ) 2
2 2 2 2
2t
plim b 1V z
σ= β + − β
+ σ. (5.32)
2.26
2.3 Der Instrumentvariablen (IV)-Schätzer
2.3.1 Schätzung mit einem endogenen Regressor und einem Instrument
• Angenommen, wir versuchen den individuellen Lohnsatz durch einen Vektor
persönlicher Merkmale x1i sowie durch die individuelle Anzahl gearbeiteter
Stunden (x2i) mit einem linearen Modell zu erklären:
i 1i 1 2i 2 iy x ' x= β + β + ε (5.33)
Nur mit Annahmen für εi kann man dieses Modell interpretieren – andernfalls
könnten β1 und β2 beliebige Werte annehmen und εi würde so definiert, dass
die Gleichung immer zutrifft.
• Die Interpretation, dass (5.33) die beste lineare Approximation von yi für ge-
gebene Werte x1i und x2i angibt, erfordert die Annahmen
2.27
i 1iE x 0ε = , (5.34)
i 2iE x 0ε = . (5.35)
Unter diesen Annahmen ist KQ konsistent. Gelten sie nicht, so gibt das Mo-
dell nicht mehr die auf x1i und x2i bedingten erwarteten yi-Werte an.
• Im Lohnmodell enthält der Störterm auch unbeobachtbare Faktoren (z.B.
Fähigkeit, Motivation, Intelligenz). Diese können ebenfalls x2i, die Anzahl der
gearbeiteten Stunden, beeinflussen. In dieser Situation schätzt man den auf
die gearbeitete Stundenzahl bedingten Stundenlohn konsistent, aber nicht
den kausalen Effekt der Stundenzahl (x2i) auf den Lohn. β2 beschreibt den
Lohnunterschied, der sich für zwei sonst hinsichtlich ihrer beobachtbaren
Merkmale identische (ceteris paribus) Personen ergibt, wenn eine x2 + 1 und
die andere x2 Stunden arbeitet. Der Lohneffekt für eine beliebige Person, die
2.28
ihr Arbeitsangebot von x2 auf x2 + 1 Stunden erhöht, wird dadurch nicht ge-
messen. β2 misst den mittleren Lohnunterschied, ohne die unbeobachtbaren
Merkmale konstant zu halten.
• Eine kausale Interpretation des Modells würde erfordern, dass auch die un-
beobachteten, nicht kontrollierten Variablen konstant gehalten werden. Das
leistet dieses Modell nicht.
• Wenn man den Koeffizienten einer Variablen als ihren kausalen Effekt auf
die abhängige Variable interpretieren möchte, muss die Gültigkeit der An-
nahmen (5.34) und (5.35) überprüft werden. Wenn i 2iE x 0ε ≠ , so sagt man,
dass x2i hinsichtlich des kausalen Effekts β2 endogen ist.
• Beispiel: In Lohngleichungen wird oft argumentiert, dass Familienstand, Be-
ruf oder Gewerkschaftsmitgliedschaft endogen sind. Dies bedeutet, dass es
2.29
unbeobachtete und evtl. unbeobachtbare Faktoren gibt, die sowohl den Lohn
beeinflussen (und daher in ε stecken) als auch den Familienstand, die Be-
rufswahl oder die Entscheidung, Gewerkschaftsmitglied zu werden.
• Man stellt empirisch fest, dass im Mittel die Löhne der Verheirateten ober-
halb derjenigen der Unverheirateten liegen. Dies muss kein kausaler Effekt
des Ehestands sein, sondern hängt auch damit zusammen, dass Verheirate-
te und Unverheiratete sich auch in nicht beobachtbaren Eigenschaften un-
terscheiden, die auch den Lohn beeinflussen.
• Sobald i i2E x 0ε ≠ , erzeugt der KQ-Schätzer verzerrte und inkonsistente
Ergebnisse. Um einen konsistenten Schätzer abzuleiten, muss das Modell
statistisch identifiziert sein. Um ein Modell mit K Parametern zu identifizieren,
2.30
benötigen wir K Momentenbedingungen. Aus (5.34) und (5.35) ergeben sich
beispielsweise zwei Momentenbedingungen:
( ) i 1i 1 2i 2 1iE y x ' x x 0− β − β = (5.36)
( ) i 1i 1 2i 2 2iE y x ' x x 0− β − β = (5.37)
• Bei der Ableitung der Bedingungen erster Ordnung des KQ-Schätzers haben
wir genau so viele Normalgleichungen, wie Parameter zu schätzen sind.
( )1 2b b' ,b '= ist die Lösung von
( )N
i 1i 1 2i 2 1ii 1
1y x ' b x b x 0
N =
− − =∑ (5.38)
( )N
i 1i 1 2i 2 2ii 1
1y x ' b x b x 0
N =
− − =∑ (5.39)
2.31
Da es so viele Bedingungen wie Parameter gibt, lässt sich das System ein-
deutig lösen. Wenn allerdings (5.35), i 2iE x 0ε = , nicht gilt, gilt auch (5.39)
nicht. Das System ist nicht mehr lösbar, β1 und β2 sind nicht identifiziert.
• Um β1 und β2 zu identifizieren, benötigen wir eine Ersatzbedingung, die sich
über Instrumente bzw. Instrumentvariablen ableiten lässt. Eine Variable z2i
ist dann eine Instrumentvariable, wenn sie mit εi unkorreliert ist und mit der
endogenen erklärenden Variable x2i korreliert ist. In dem Fall kann (5.37) er-
setzt werden durch
( ) i 1i 1 2i 2 2iE y x ' x z 0− β − β = (5.40)
• Wenn diese Momentenbedingung nicht lediglich eine Kombination der ande-
ren darstellt (z.B. wenn z2i eine Linearkombination der Variablen in x1i ist),
2.32
dann ist sie "zusätzlich" und erlaubt, die K Parameter β1 und β2 zu identifizie-
ren. Den IV-Schätzer IVβ erhält man als Lösung der Bedingungen:
( )N
i 1i 1,IV 2i 2,IV 1ii 1
1 ˆ ˆy x ' x x 0N =
− β − β =∑ (5.41)
( )N
i 1i 1,IV 2i 2,IV 2ii 1
1 ˆ ˆy x ' x z 0N =
− β − β =∑ (5.42)
Dies führt zu folgendem Ausdruck:
1N N
IV i i i ii 1 i 1
ˆ z x ' z y−
= =
⎛ ⎞β = ⎜ ⎟⎝ ⎠∑ ∑ , (5.43)
mit ( )i 1i 2ix ' x ' ,x= und ( )i 1i 2iz ' x ' ,z= . Wenn z2i = x2i ergibt sich der KQ-
Schätzer.
2.33
• Wenn die Momentenbedingung (5.36) und (5.40) sowie weitere Regularitäts-
annahmen gelten, ist der IV-Schätzer konsistent und asymptotisch normal-
verteilt. Zu den Regularitätsannahmen zählt beispielsweise, dass z2i mit x2i
korreliert ist und keine Linearkombination der Elemente von x1i darstellt.
• Unterstellen wir, dass ( )2
i ~ i.i.d. 0,ε σ und dass εi unabhängig von zi ist, so
folgt für die asymptotische Verteilung des IV-Schätzers:
( ) ( )( )12 1
IV xz zz zxˆN N 0,
−−β − β → σ ∑ ∑ ∑ , (5.45)
wobei zx xz'=∑ ∑ ; N
zz i ii 1
1plim zz '
N =
≡∑ ∑ wird als invertierbar unterstellt, d.h.
die K Elemente von zi sind nicht multikollinear.
• Die Varianz-Kovarianz-Matrix von IVβ lässt sich in endlichen Stichproben wie
folgt schätzen:
2.34
11N N N
2
IV i i i i i ii 1 i 1 i 1
ˆ ˆV ˆ x z ' zz ' z x '
−−
= = =
⎛ ⎞⎛ ⎞⎛ ⎞ ⎛ ⎞β = σ ⎜ ⎟⎜ ⎟⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠ ⎝ ⎠⎝ ⎠∑ ∑ ∑ (5.46)
Als konsistenten Schätzer für σ2 kann man nutzen
( )N 2
2
i i IVi 1
1 ˆˆ y x 'N-K =
σ = − β∑ (5.47)
• Das Hauptproblem des IV-Schätzers ist meist, geeignete Instrument-
variablen zu finden. Im Beispiel brauchen wir ein zi, das (partiell) mit Arbeits-
stunden, aber nicht mit Fähigkeit oder den anderen unbeobachteten Elemen-
ten von εi korreliert ist. Man könnte die Familienstruktur nutzen, z.B. Kinder-
zahl.
2.35
• Ein anderes Problem des IV-Schätzers liegt in den damit häufig verbunde-
nen großen Standardfehlern. Dies gilt besonders dann, wenn die Korrelation
zwischen Instrument und endogener Variable gering ist.
• Die identifizierenden Annahmen der Momentenbedingungen lassen sich sta-
tistisch nur dann überprüfen, wenn mehr Bedingungen vorliegen als erforder-
lich sind.
• Wenn man die Gültigkeit einer Instrumentvariablen z2i unterstellt, lässt sich
die Endogenität von x2i empirisch überprüfen. Eine Form des Hausman-
Tests besteht darin, die KQ- und IV-Schätzwerte zu vergleichen: Ist x2i en-
dogen, sollten sie sich unterscheiden, da KQ inkonsistent ist. Andernfalls
sollte es keinen signifikanten Unterschied zwischen den Schätzwerten ge-
ben, da ohne Endogenität beide Schätzverfahren konsistent sind.
2.36
• Eine einfach durchführbare Version des (Durbin-Wu-)Hausman-Tests nutzt
eine Hilfsregression: Man regressiert die potentiell endogene Variable x2i auf
x1i und z2i und bestimmt die vorhergesagten Residuen iν . Dieser Wert wird
dem Originalmodell hinzugefügt und man schätzt per KQ
i 1i 1 2i 2 i iˆy x ' x e= β + β + ν γ + .
Wenn ein t-Test H0: γ = 0 nicht verwerfen kann, schließt man, dass x2i exo-
gen ist, sonst nicht. Der Test geht davon aus, dass ein valides Instrument z2i
vorliegt.
2.37
2.3.2 Zurück zum Keynesianischen Modell
• In einem Makromodell mit simultanem Gleichungssystem lässt sich das
Problem der Instrumentwahl so lösen: Jede exogene Variable des Systems,
die in einer konkreten Gleichung nicht vorkommt, wird als Instrument ge-
nutzt, solange sie mit der endogenen Variablen korreliert ist und im Struk-
turmodell nicht vorkommt. Die Korrelation lässt sich anhand einer Hilfsre-
gression überprüfen.
• Somit können Investitionen (zt) als Instrument des Einkommens x2t genutzt
werden. Der IV-Schätzer im Modell
t 1 2 2t ty x= β + β + ε
2t t tx y z= +
2.38
lautet dann
( )1
T T
IV 2t tt 1 t 12t 2t
1 1ˆ 1 x yz z
−
= =
⎡ ⎤⎛ ⎞ ⎛ ⎞β = ⎢ ⎥⎜ ⎟ ⎜ ⎟
⎝ ⎠ ⎝ ⎠⎣ ⎦∑ ∑ .
Für 2,IVβ ergibt sich
( )( )
( )( )
T
2t 2 tt 1
2,IV T
2t 2 2t 2t 1
z z y yˆ
z z x x
=
=
− −β =
− −
∑
∑, (5.48)
wobei 2z ,y und 2x die Stichprobenmittelwerte sind.
• Der Schätzer lässt sich auch vom Strukturmodell (5.25) ableiten, indem man
auf beiden Seiten der Gleichung die Kovarianz mit dem Instrument z2t be-
rechnet:
2.39
t 2t 2 2t 2t t 2tcov y ,z cov x ,z cov ,z= β + ε . (5.49)
Wenn z2t exogen ist, folgt t 2tcov ,z 0ε = . Für das Instrument z2t muss gelten
2t 2tcov x ,z 0≠ , so dass
t 2t
2
2t 2t
cov y ,z
cov x ,zβ = . (5.50)
• Der IV-Schätzer für β2 ergibt sich, wenn man die Kovarianzen für die Grund-
gesamtheit durch ihre Stichprobenwerte ersetzt (vergleiche 5.43):
( ) ( )( )
( ) ( )( )
T
2t 2 tt 1
2,IV T
2t 2 2t 2t 1
1 z z y yTˆ1 z z x xT
=
=
− −β =
− −
∑
∑. (5.51)
• Der Schätzer ist konsistent, da die Stichprobenmomente zu den Momenten
der Grundgesamtheit konvergieren.
2.40
2.3.3 Zurück zum Messfehlerproblem
• In der Regression von Ersparnis (yt) auf beobachtetes verfügbares Einkom-
men (xt) t 1 2 t ty x= β + β + ε führt ein Messfehler in xt zu einer Korrelation zwi-
schen xt und εt.
• Es ist schwierig, Instrumentvariablen zu finden, die mit xt, aber nicht mit dem
Messfehler ut und mit εt korreliert sind. Daher, und da die Auswirkungen von
Messfehlern in den erklärenden Variablen abschätzbar sind, wird das Prob-
lem oft ignoriert.
2.41
2.3.4 Mehrere endogene Regressoren
• Gibt es mehrere endogene Regressoren, so berücksichtigen wir das zu-
nächst in der Dimension von x2i:
i 1i 1 2i 2 iy x' x'= β + β + ε .
Man benötigt für jede endogene erklärende Variable ein eigenes Instrument.
• Beschreibt man den Vektor der Instrumente als z2i, so bleibt es bei der Dar-
stellung des IV-Schätzers aus (5.43) 1N N
IV i i i ii 1 i 1
ˆ z x ' z y−
= =
⎛ ⎞β = ⎜ ⎟⎝ ⎠∑ ∑ ,
wobei jetzt ( )i 1i 2ix ' x ' ,x '= und ( )i 1i 2iz ' x ' ,z '= . Gelegentlich wird der gesamte
Vektor exogener Variablen zi als Instrumentenvektor bezeichnet, dabei sind
2.42
die Elemente von x1i ihre eigenen Instrumente. Gibt es keine endogenen Va-
riablen, so ist zi = xi und KQ
IVˆ bβ = .
• Im Rahmen simultaner Gleichungssysteme ist es wichtig, mindestens genau
so viele Instrumente wie endogene erklärende Variablen vorliegen zu haben.
Das Modell ist überidentifiziert, wenn mehr Instrumente als endogene Reg-
ressoren vorliegen. Die Effizienz der Schätzung steigt, wenn alle verfügbaren
Instrumente genutzt werden.
2.43
2.4 Illustration: Schätzung der Rendite von Schulbildung
• Personen mit höherer Bildung haben höhere Löhne. Unklar ist, ob dies einen
Kausal- oder einen Selektions- oder einen Sortiereffekt beschreibt. Mögli-
cherweise sortieren sich Personen mit höherem Verdienstpotential in höhere
Bildung. Dann beschreibt der KQ-Schätzer für den Bildungseffekt diese Un-
terschiede in den unbeobachteten Charakteristika der Erwerbstätigen. Ein
Anstieg der Schulbildung, z.B. infolge institutioneller Änderungen, hätte keine
Auswirkung auf die Löhne.
• Untersuchungen hierzu nutzen meist die klassische Verdienstfunktion
2
i 1 2 i 3 i 4 i iw S E E= β + β + β + β + ε ,
2.44
wobei wi die logarithmierten Löhne sind, Si die Jahre der Schulbildung, Ei die
Jahre der Berufserfahrung. Letztere werden häufig approximiert als Ei =
Alteri – Si – 6. Zusätzlich finden oft auch andere Variablen, wie Geschlecht,
Region oder ethnischer Hintergrund Berücksichtigung im Modell. Außerdem
wird oft argumentiert, dass die Rendite der Schulbildung individuell unter-
schiedlich ausfällt.
• Wir nutzen als Lohngleichung
i i i i iw z ' S u= β + γ +
i i iz ' S= β + γ + ε (5.52)
2.45
wobei εi = ui + (γi – γ)Si. zi enthält alle Variablen außer Si. Wir unterstellen
i i iS z '= π + υ , sowie i iE z 0ε = . Uns interessiert iE γ = γ , die durchschnittli-
che Rendite eines zusätzlichen Jahres Schulbildung.
• Der KQ-Schätzer für β und γ in (5.52) ist konsistent, wenn
i i i iE S E 0ε = ε υ = , d.h. wenn es keine unbeobachteten Faktoren gibt, die
sowohl Si als auch wi für eine Person i beeinflussen. Aus drei Gründen muss
diese Annahme nicht unbedingt gelten:
• 1) Ability bias: Wenn Fähigkeit sowohl zu höherem Verdienst als auch zu
höherer Schulbildung führt, sind εi und υi positiv korreliert und der KQ-
Schätzer für γ ist nach oben verzerrt.
2.46
2) Messfehler: Wenn Si ungenau gemessen ist, ergibt sich eine negative Kor-
relation zwischen εi und υi und der KQ-Schätzer ist nach unten verzerrt
(attenuation bias).
3) γi: Wenn die individuellen Renditen (γi) für Bildung besonders für Personen
mit geringer Schulbildung hoch sind, ist die unbeobachtete Komponente von
εi, also (γi – γ) ⋅ Si, negativ mit Si korreliert. Der KQ-Schätzer ist auf Null hin
(nach unten) verzerrt.
• Da alle exogenen Variablen in der Schätzgleichung bereits direkt vorkom-
men, fehlt eine Momentenbedingung (bzw. ein Instrument), um die Koeffi-
zienten β und γ zu identifizieren. Findet man ein weiteres zi, welches Si be-
stimmt, aber nicht wi, hätten wir das Modell über
( ) i i i i i iE z E w z' S z 0ε = − β − γ =
2.47
genau identifiziert und könnten β und γ konsistent schätzen.
• Als Instrumente werden manchmal Indikatoren der Elternbildung oder institu-
tionelle Faktoren gewählt (z.B. Geburtsmonat, Entfernung zur nächsten Uni).
• Als Modell in reduzierter Form spezifizieren wir
i i iS z '= π + υ (5.53)
mit i iE z 0υ = . (5.53) hat nicht unbedingt eine ökonomische Interpretation.
• Wir betrachten Arbeitsmarktinformationen für 3010 amerikanische Männer im
Alter zwischen 24 und 34 Jahren aus dem Jahr 1976.
• Tabelle 5.1 beschreibt die Lohnregression für diese Stichprobe. Der Dummy
smsa steht für Metropolregion, black für Afro-Amerikaner und south für eine
Herkunft aus den Südstaaten.
2.48
Tab. 5.1 Lohngleichung – KQ-Schätzung
• Die mittlere Bildungsrendite beträgt ca. 7,4% pro Jahr Schulbildung. Die Be-
rücksichtigung weiterer erklärender Variablen in anderen Schätzungen än-
dert daran wenig, das Ergebnis ist robust gegenüber Spezifikationsänderun-
gen.
2.49
• Wenn die Schulbildung endogen ist, muss das auch für die damit definierten
beiden experience Variablen gelten. Wir haben 3 endogene Variablen im
Modell und benötigen entsprechend 3 Instrumente. Für die Erfahrungsvari-
ablen bieten sich Alter und Alter2 an. Für Schulbildung könnte man Uni-Nähe
nutzen, wenn dieser Indikator dazu beiträgt, den Bildungserfolg zu erklären.
Dies wird in der Hilfsregression in Tab. 5.2 überprüft.
2.50
Tab. 5.2 Reduzierte Form der Bildungsgleichung – KQ-Schätzung
• Das Modell in Tabelle 5.2 ist kein Modell zur Erklärung der Bildungsent-
scheidung, sondern eine reduzierte Form zur linearen Approximation der ab-
hängigen Variablen. Es zeigt sich ein signifikanter Effekt für die Variable
„lived near college“.
2.51
• Die zweite Bedingung an eine Instrumentvariable, dass sie nicht mit dem
Störterm der Strukturgleichung korreliert ist, lässt sich nicht testen, da wir
ohne Instrument keine konsistenten Schätzer für β und γ und damit für ε ha-
ben. Ein Instrument lässt sich nur dann testen, wenn die konsistente Schät-
zung bereits auf Basis anderer Schätzergebnisse vorläge.
• Mithilfe der 3 Instrumente Uni-Nähe, Alter und Alter2 erhalten wir die Ergeb-
nisse in Tabelle 5.3.
2.52
Tab. 5.3 Lohngleichung – IV-Schätzung
• Die Bildungsrendite beträgt nun ca. 13% gegenüber 7,4% in der KQ-
Schätzung. Sie ist nun aber weniger präzise geschätzt. Große Standardfeh-
ler ergeben sich insbesondere bei geringer Erklärungskraft der
Instrumentvariablen. In Tabelle 5.2 hatten wir ein R2 von lediglich 0,1185. Je
2.53
schwächer die Korrelation der Instrumente mit den endogenen Variablen,
umso größer die Standardfehler der IV-Schätzung.
• Für den IV-Schätzer wird kein R2-Wert ausgewiesen, da es sich nicht um ein
KQ-Verfahren handelt. Das Ziel ist hier nicht Minimierung der Fehlerquadrat-
summe, sondern konsistente Schätzergebnisse.
• Für Instrumente sollte gelten, dass sie keinen direkten Einfluss auf die ab-
hängige Variable im Strukturmodell (hier log(wage)) haben. Das könnte man
hier anzweifeln, wenn Familien mit hohem Einkommen und großer Bildungs-
nähe bevorzugt in Universitätsstädte ziehen und auch Kinder mit höherem
Einkommen haben. Allerdings lässt es sich nicht testen.
• Hier wird die Bildungsrendite durch den KQ-Schätzer unterschätzt. Das wi-
derspricht der Vermutung von „ability bias“, welche zu einer Überschätzung
2.54
geführt hätte, findet sich in der Literatur jedoch häufiger. Mögliche Erklärun-
gen sind Messfehler, fehlerhafte Instrumente oder individuelle Renditen.
• Wenn die Bildungsrenditen nicht für alle gleich sind, d.h. relevant ist nicht γ
sondern γi, schätzt der IV-Schätzer die Renditen für diejenigen, die durch die
Ausprägung des Instrumentes zusätzliche Bildung erworben haben
("compliers"). Man spricht vom LATE, local average treatment effect (ver-
gleiche Kapitel 4).
2.55
2.5 Generalisierte IV-Schätzer
2.5.1 Mehrere endogene Regressoren bei beliebig vielen Instrumenten
• Wir betrachten das Modell
i i iy x '= β + ε , (5.54)
mit xi der Dimension K. Der KQ-Schätzer nutzt K Momentenbedingungen
( ) i i i i iE x E y x ' x 0ε = − β = .
• Wenn der Vektor zi R Instrumente enthält, die z.T. auch in xi vorkommen,
erhalten wir R Momentenbedingungen
( ) i i i i iE z E y x ' z 0ε = − β = . (5.55)
2.56
• Fall 1: Wenn R = K, kann der Instrumentenschätzer aus den
Momentenbedingungen für die Stichprobe bestimmt werden. Aus
( )N
i i IV ii 1
1 ˆy x ' z 0N =
− β =∑
erhalten wir 1N N
IV i i i ii 1 i 1
ˆ z x ' z y−
= =
⎛ ⎞β = ⎜ ⎟⎝ ⎠∑ ∑ .
• Schreibt man das Modell y = X β + ε, mit der N × R Matrix Z für die Instru-
mente, so lässt sich der IV-Schätzer wie folgt darstellen
( ) 1
IVˆ Z ' X Z' y
−β = . (5.56)
• Fall 2: Wenn R > K, gibt es mehr Instrumente als Regressoren und man
kann (5.55) nicht einfach durch die Stichprobenwerte ersetzen. Es gibt mehr
2.57
Gleichungen als Unbekannte. Statt nun Instrumente unberücksichtigt zu las-
sen und Effizienz zu verlieren, schätzt man β so, dass alle verfügbaren R
Stichprobenmomente
( )N
i i ii 1
1y x ' z
N =
− β∑
so nah wie möglich bei 0 sind. Dazu minimieren wir die quadratische Form
( ) ( ) ( )N N
N i i i N i i ii 1 i 1
1 1Q y x ' z ' W y x ' z
N N= =
⎡ ⎤ ⎡ ⎤β = − β − β⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦∑ ∑ . (5.57)
• WN ist eine positiv definite R × R Gewichtsmatrix. Die Gewichte geben an,
welche Bedeutung jeder der R Momentenbedingungen oder ihren Linear-
kombinationen zukommt. In Matrixnotation:
( ) ( ) ( )N N
1 1Q Z' y X ' W Z' y X
N N⎡ ⎤ ⎡ ⎤β = − β − β⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦
. (5.58)
2.58
• Die erste Ableitung nach β ergibt als Bedingung erster Ordnung
N N IVˆ2 X' Z W Z'y 2 X'Z W Z' X 0− + β =
N N IVˆX'Z W Z'y X'Z W Z' X⇔ = β , (5.59)
ein System aus K Gleichungen und mit K unbekannten Elementen von IVβ ,
wobei X’Z die Dimension K × R hat und Z’y die Dimension R × 1. Wenn X’Z
den Rang K hat, lautet die Lösung
( ) 1
IV N Nˆ X'Z W Z' X X'Z W Z'y
−β = , (5.60)
was von WN abhängt.
• Wenn R = K, ist X’Z quadratisch und invertierbar. Somit
( ) ( ) ( )1 1 11
IV N Nˆ Z ' X W X'Z X'Z W Z'y Z' X Z' y
− − −−β = = .
2.59
• Dies entspricht dann (5.56) und WN ist irrelevant. Man sagt, β ist genau oder
exakt identifiziert. Hier kann QN(β) (5.58) den Wert Null annehmen, durch
angemessene Wahl von β werden alle Stichprobenmomente genau 0.
• Fall 3: Wenn R < K, müssen mehr Parameter geschätzt werden, als Bedin-
gungen vorliegen; β ist nicht identifiziert, da nicht genug Information vorliegt.
Ohne weitere Informationen kann β nicht konsistent geschätzt werden.
• Wenn R > K, gibt es mehr Momentenbedingungen als zu schätzende Para-
meter. Man nennt β überidentifiziert; es liegt mehr Information für β vor als
erforderlich ist, um es konsistent zu schätzen. Je nach WN erhalten wir un-
terschiedliche Schätzer für β, die alle konsistent sind, solange WN asympto-
tisch positiv definit ist. Dabei minimiert man eine quadratische „Verlustfunkti-
2.60
on“ der Stichprobenmomente. Die Bevölkerungsmomente für die wahren β-
Werte sind Null (siehe 5.55).
• Die optimale Gewichtungsmatrix WN generiert den effizienten
Instrumentvariablenschätzer. Sie ist umgekehrt proportional zur Varianz-
Kovarianz-Matrix der Stichprobenmomente, so dass die Momente mit kleiner
Varianz genaue Information über β erzeugen und mit hohem Gewicht in die
Schätzung eingehen (und umgekehrt).
• Die Varianz-Kovarianz-Matrix der Stichprobenmomente N
i ii 1
1z
N =
ε∑ hängt von
unseren Annahmen bezüglich εi und zi ab. Wir unterstellen ( )2
i ~ i.i.d. 0,ε σ ,
sowie dass εi und zi statistisch unabhängig voneinander sind. Dann ist die
Varianz-Kovarianz-Matrix der Stichprobenmomente
2.61
N2 2
i izzi 1
1plim zz '
N =
σ = σ∑ ∑ .
Die optimale Gewichtungsmatrix ist 1 1N
opt
N i ii 1
1 1W zz' Z 'Z
N N
− −
=
⎛ ⎞ ⎛ ⎞= =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑ .
und der IV-Schätzer ist
( )( ) ( )11 1
IVˆ X'Z Z'Z Z' X X'Z Z'Z Z' y
−− −β = . (5.61)
Dieser wird auch als verallgemeinerter IV-Schätzer (GIVE) oder als two-
stage-least-squares (2SLS)-Schätzer bezeichnet.
• Bei nicht-sphärischen Störtermen (Heteroskedastie oder Autokorrelation)
muss WN angepasst werden.
2.62
• Die asymptotische Verteilung von IVβ ergibt sich aus
( ) ( )( )12 1
IV xz zz zxˆN N 0,
−−β − β → σ ∑ ∑ ∑ ,
wobei ∑ xz und ∑ zz nun anders dimensioniert sind als beim einfachen IV-
Schätzer.
• Ein Schätzer für die Varianz-Kovarianz-Matrix des Schätzers ist
( )( ) 112
IVˆ ˆV ˆ X'Z Z'Z Z' X
−−β = σ , (5.62)
2σ ergibt sich hierbei mit i i IVˆˆ y x 'ε = − β aus
N2 2
ii 1
1ˆˆ
N =
σ = ε∑ . Für unverzerrte
Schätzung ist eine Korrektur der Freiheitsgrade erforderlich: 1
N K−.
2.63
2.5.2 2SLS und das Keynesianische Modell
• Der GIVE-Schätzer (5.61) heißt auch 2SLS-Schätzer, da er auch als zwei-
stufiger KQ-Schätzer bestimmt werden kann. Dazu wird im ersten Schritt je-
de endogene Variable auf alle Instrumente regressiert. In der zweiten Stufe
werden die ursprünglichen Strukturmodelle geschätzt, wobei die endogenen
erklärenden Variablen durch vorhergesagte Größen ersetzt werden.
• Illustration: Die reduzierte Form der k-ten erklärenden Variable sei
k k kx Z= π + ν . Der mit KQ vorhergesagte Wert ist ( ) 1
k k kx Z ˆ Z Z'Z Z' x−
= π = .
Wenn xk exogen ist, ergibt sich k kx x= . Die Matrix der vorhergesagten Vari-
ablen ist ( ) 1X Z Z'Z Z' X
−= mit den Spalten kx für k = 1,2,…,K.
• Der KQ-Schätzer für die zweite Stufe ist dann
2.64
( ) 1
IVˆ ˆ ˆˆ X' X X' y
−
β = . (5.63)
Das ist exakt identisch mit 5.61, dem GIVE-Schätzer. Der Vorteil von 2SLS
ist, dass einfache KQ-Schätzungen ausreichen, wobei allerdings auf der 2.
Stufe die KQ-Standardfehler korrigiert werden müssen:
• Im Modell i 0 1 i iy x u= β + β + werde xi durch ix ersetzt. (a)
Sei xi nicht nutzbar. Mit i i iˆx x= + ε (b)
folgt *
i 0 1 i iˆy x u= β + β + (c)
mit *
i i 1 iu u= + β ε (d)
Eine KQ-Schätzung von Gleichung (c) ergibt ( )2
u*1 2
i
ˆvarx
σβ =
∑, wobei (e)
2.65
( )22*i 0 1 ii2
u*
ˆ ˆ ˆy xuˆ
N 2 N 2
− β − βσ = =
− −∑∑ . (f)
Allerdings unterscheiden sich 2
u*σ und 2
uσ (siehe (d)). Um den wahren Wert 2
uσ
zu erhalten, berechnet man i i 0 1 iˆ ˆu y x= − β − β , wobei das originale xi sowie die
konsistent geschätzten Werte für 0β und 1β eingesetzt werden. Damit ergibt
sich
( )2i 0 1 i2
u
ˆ ˆy xˆ
N 2
− β − βσ =
−∑
. (g)
Hat man (g), so können die Standardfehler der Koeffizienten aus der Schät-
zung auf der zweiten Stufe durch Multiplikation mit u u*ˆ ˆσ σ korrigiert werden.
Je höher das R2 auf der ersten Stufe, umso ähnlicher sind xi und ix und um-
so näher liegt u u*ˆ ˆσ σ bei 1, d.h. die Korrektur verändert nicht viel.
2.66
• Man kann den GIVE-Schätzer auch mittels der X-Werte beschreiben, indem
die K Spalten von X als Instrumente interpretiert werden:
( ) 1
IVˆ ˆˆ X' X X' y
−
β = .
• Illustration: Enthält das keynesianische Modell zusätzlich zur Konsumfunk-
tion die Identität t t t tY C G I= + + , dann können Gt und It als Instrumente für y
in der Konsumfunktion genutzt werden. Der effizienteste Schätzer verwendet
beide Instrumente gleichzeitig. Damit ist der GIVE:
( )( ) ( )11 1
IVˆ X'Z Z'Z Z' X X'Z Z'Z Z' y
−− −β = ,
wobei die Reihen der Matrizen Z, X und y gegeben sind durch
( ) ( )t t t t tz ' 1,G ,I , x ' 1,Y= = und yt = Ct.
2.67
2.5.3 Spezifikationstests
• Alle Ergebnisse zu Konsistenz und asymptotischer Verteilung des GIVE-
Schätzers bauen darauf auf, dass das Modell richtig spezifiziert ist und dass
die Momentenbedingungen zutreffen.
• Wenn das Modell exakt identifiziert ist, muss N
i ii 1
1ˆ z 0
N =
ε =∑ gelten, unabhän-
gig davon, ob dies für die Grundgesamtheit gilt. Die K = R Bedingungen sind
nicht prüfbar.
• Wenn das Modell überidentifiziert ist, werden nur K der R Elemente in
i i
1ˆ z
Nε∑ gleich Null gesetzt, aber wir erwarten, dass alle Bedingungen ge-
gen Null konvergieren. Dies kann man testen.
2.68
( )1N N N
2
N IV i i i i i ii 1 i 1 i 1
ˆ ˆ ˆNQ z ' ˆ z z ' z−
= = =
⎛ ⎞ ⎛ ⎞ ⎛ ⎞ξ = β = ε σ ε⎜ ⎟ ⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ ⎝ ⎠∑ ∑ ∑ (5.64)
ist asymptotisch χ2-verteilt mit R – K Freiheitsgraden (R = Anzahl der
Momentenbedingungen, K = Anzahl der geschätzten Parameter). Dieser
Test wird als Sargan Test oder als Test der überidentifizierenden Bedin-
gungen (overidentifying restrictions test) bezeichnet.
• ξ kann vereinfacht bestimmt werden als N ⋅ R2 einer Regression der IV-
Residuen iε auf alle Instrumente zi. Die Nullhypothese besagt, dass die Da-
ten mit den R Momentenbedingungen übereinstimmen. Wird sie verworfen,
bleibt jedoch ungeklärt, welche der Bedingungen problematisch ist.
• Weiß man vorher, dass ein Teil der R Bedingungen, z.B. R1 gilt, so lassen
sich die übrigen R – R1 Bedingungen testen, wenn das Modell mit R1 identi-
2.69
fiziert ist, d.h. 1R K≥ . Man bestimmt zunächst ξ für alle R Bedingungen und
anschließend ξ1 für die R1 gültigen Bedingungen. Die Teststatistik für die R –
R1 unsicheren Bedingungen lautet dann ξ – ξ1. Sie ist unter H0 approximativ
χ2-verteilt mit R – R1 Freiheitsgraden. Dieser Test ist mit dem Sargan-Test
identisch, wenn R1 = K.
2.70
2.5.4 Schwache Instrumente
• Wenn die Instrumentvariablen nur schwach mit den endogenen Variablen
korrelieren, kann der IV-Schätzer stark verzerrt und inkonsistent sein. Seine
Verteilung kann sich stark von der Normalverteilung unterscheiden.
• Wenn das Instrument gültig ist, ist der Schätzer konsistent und konvergiert
gegen
i i
2
i i
cov z ,y
cov z ,xβ = .
Ist das Instrument nicht mit xi korreliert, konvergiert der Nenner gegen 0. 2,IVβ
ist inkonsistent und der Schätzer konvergiert nicht gegen die Normalvertei-
lung.
2.71
• Um zu prüfen, ob ein Instrument gültig ist, betrachtet man die Erklärungs-
kraft der Instrumente einer Hilfsregression. Im Modell mit der endogenen Va-
riable x2i i 1i 1 2i 2 iy x ' x= β + β + ε
mit exogenem x1i, 1i iE x 0ε = und mit dem Instrument z2 mit 2i iE z 0ε =
schätzt man
2i 1i 1 2i 2 ix x ' z '= π + π + υ .
Wenn π2 = 0, sind die Instrumente nicht gültig und der IV-Schätzer ist inkon-
sistent. Ist π2 nahe bei Null, sind die Instrumente schwach. Als Daumenregel
sagt man, dass man auf die Instrumente vertrauen kann, wenn die F-
Statistik für H0: π2 = 0 größer als 10 ist. Bei F-Werten kleiner als 5 ist mit fini-
te sample bias im IV-Schätzer zu rechnen. Daher werden die F-Statistiken
2.72
der Schätzung der reduzierten Form bei IV-Schätzern in der Regel mit an-
gegeben.
• Bei schwachen Instrumenten ist deren Exogenität besonders wichtig, da sich
andernfalls Inkonsistenzen der IV-Schätzung ergeben, die weit größer sind
als das Ausgangsproblem der KQ-Schätzung. Für das einfache Regressi-
onsmodell y x u= β + mit Instrument z gilt
( )( ) ( )
IV
KQ
ˆ Cor z,uplim 1ˆ Cor x,u Cor z,xplim
β − β= ×
β − β
Wenn bspw. Cor (z, x) = 0,1, dann ist der IV-Schätzer schlechter als der KQ-
Schätzer sobald Cor (z, u) / Cor (x, u) > 0,1.
• Eine weitere Konsequenz schwacher Instrumente ist die geringe Präzision von IV-Schätzern. Im einfachen Modell gilt: ( ) ( ) 2
IV KQ xzˆ ˆVar Var / rβ = β , wobei 2
xzr
2.73
der quadrierte Stichprobenkorrelationskoeffizient für x und z ist. Somit zeigt
ein im Vergleich zum KQ-Standardfehler großer Standardfehler der instru-
mentierten endogenen erklärenden Variablen ein schwaches Instrument z.
• Beispiel: Uni-Nähe wird als Instrument der Schulbildung (s) in einer Lohnre-
gression verwendet. Das Polynom zweiter Ordnung für potentielle Arbeits-
markerfahrung (e) wird durch ein Alterspolynom ersetzt. Das Lohnmodell
lautet:
2
i 1 i 2 i 3 i 2 i ilnw s e e x ' u= α + β + β + β + γ + .
x2 ist ein Vektor exogener Kontrollvariablen.
2.74
Ist Alter ein gutes Instrument? ja, da hoch korreliert mit Erfahrung; nein wenn
korreliert mit unbeobachteten Größen (z.B. soziale Fähigkeiten), die auch
Löhne beeinflussen können.
2.75
Tabelle 4.5. Returns to Schooling: Instrumental Variables Estimatesa
OLS IV
Schooling (s) 0.073 0.132 (0.004) (0.049)
R2 0.304 0.207
Shea's partial R2 - 0.0064
First-stage F-statistic for s - 8.07 a Sample of 3,010 young males. Dependent variable is log hourly wage. Coefficient and standard error for schooling given; estimates for experience, experience squared, 26 control variables, and an intercept are not reported. For the three endo-genous regressors - schooling (s), experience (e), and experience squared (e2) – the three instruments are an indicator for whether a four-year college (col) is nearby, age, and age squared. The partial R2 and first-stage F-statistic are weak instruments di-agnostics explained in the test.
Quelle: Cameron und Trivedi, 2005, S.111.
2.76
Der KQ-Schätzer von 0,073 ist inkonsistent, wenn unbeobachtete Größen
eine Rolle spielen. Der IV-Schätzer ergibt 0,132 aber mit deutlich größerem
Standardfehler. Im Modell mit mehreren endogenen erklärenden Variablen
gilt
( ) ( )1,2SLS 1,KQ pˆ ˆse se /Rβ = β
wobei 2
pR das partielle R2 der Regression der um den Effekt anderer erklä-
render Variablen bereinigten endogenen Variable auf das ebenso bereinigte
Instrument ist:
( ) ( )1 1x x z z '− = − γ + υ
1x und z sind vorhergesagte Größen.
2.77
Das partielle 2
pR der schooling-Variable beträgt hier 0,0064 = 0,082. Tatsäch-
lich ist der IV-Standardfehler nicht um p
1 112,5
R 0,08= = sondern um den
Faktor ( )( )
1,2SLS
1,KQ
ˆse β 0,04912,25
ˆ 0,004se β= = größer, fast exakt wie erwartet. Das In-
strument scheint keine enge Korrelation mit s zu haben, der t-Wert von 1β
fällt von 19,64 im KQ-Fall auf 2,68 im IV-Fall. Schon eine kleine Korrelation
des Instruments mit u kann zu Inkonsistenz von IV
1β führen.
Der F-Wert für die gemeinsame Signifikanz der drei Instrumente in Bezug
auf s beträgt 8,07.
(s. Cameron & Trivedi 2005, Kapitel 4.9.6)
2.78
2.5.5 Indirect Least Squares
• Ein gelegentlich verwendetes Schätzverfahren verfährt wie folgt:
• Schätzgleichung mit einer endogenen Variable w:
yi = β0 + x'1i β1 + β2 wi + εi
• Reduzierte Form für wi mit Instrument Zi:
wi = α0 + x'1i α1 +α2 Zi + ui
• Einsetzen für wi ergibt:
yi = (β0 + β2 α0) + x'1i (β1 + β2 α1) + α2 β2 Zi + β2 ui + εi
= γ0 + x'1i γ1 + γ3 Zi + υi
2.79
• Schätzt man sowohl γ3 als auch α2 mit KQ, lässt sich aus dem Verhältnis β2
bestimmen: β2 = γ3 / α2. Dies ist der indirect least squares Schätzer.
• Beispiel: Identifikation von Bildungsrenditen über Verlängerung der Pflicht-
schulzeit auf 9 Jahre (Ninth Grade).
schoolingi = ... + 0,190 Ninth Gradei + ... (KQ)
(0,039)
log wagei = ... + 0,010 Ninth Gradei + ... (KQ)
(0,008)
log wagei = ... + 0,058 schoolingi + ... (IV)
(0,038)
Der ILS-Schätzer beträgt 0,010
0,05260,190
= , was nahe am IV-Ergebnis liegt.
Quelle: Pischke und von Wachter, 2008, S. 595
2.80
2.6 Der generalisierte Momentenschätzer (GMM)
• Der GMM-Ansatz schätzt Parameter direkt auf Basis der durch ein Modell
vorgegebenen Momentenbedingungen, die linear oder nichtlinear in den Pa-
rametern sein können. Der IV-Schätzer ist ein (linearer) Spezialfall des all-
gemeineren GMM-Ansatzes. Damit Parameter schätzbar sind, muss es min-
destens so viele Bedingungen wie unbekannte Parameter geben. Im nächs-
ten Abschnitt werden nichtlineare Momentbedingungen beispielhaft aus der
Theorie abgeleitet.
2.81
2.6.1 Beispiel
• Ein Agent maximiere seinen erwarteten Nutzen aus jetzigem und zukünfti-
gem Konsum
( )S
s
t t sCs 0
max E U C +=
⎧ ⎫δ⎨ ⎬⎩ ⎭∑ , (5.65)
wobei Ct+s der Konsum in Periode t + s sei, U(Ct+s), der damit verbundene
Nutzen, δ der Diskontierungsfaktor ( )0 1≤ δ ≤ und Et der auf die zum Zeit-
punkt t verfügbare Information bedingte Erwartungsoperator.
• Die intertemporale Budgetbeschränkung sei
( )t s t s t s t s t s 1C q w 1 r q+ + + + + −+ = + + , (5.66)
2.82
wobei qt+s das Vermögen am Ende der Periode t+s beschreibt, rt+s gibt die
Rendite auf Vermögen an, und wt+s ist das Arbeitseinkommen. Gemäß Bud-
getbeschränkung werden Arbeits- und Vermögenseinkommen auf Konsum
(Ct+s) und Ersparnis (qt+s) verwendet.
• Wenngleich das Problem analytisch schwer zu lösen ist, können die unbe-
kannten Parameter über die Bedingungen erster Ordnung bestimmt werden:
( )( ) ( )t t 1 t 1 tE U' C 1 r U' C+ +δ + = ,
d.h. der Grenznutzen eines heute konsumierten Euros muss im Optimum
dem Grenznutzen des in der nächsten Periode anfallenden und dann auf
das (1 + rt+1)-fache gewachsenen Euros entsprechen. Nach Division durch
U'(C) und Umstellen lässt sich nun schreiben
2.83
( )( ) ( )t 1
t t 1
t
U' CE 1 r 1 0
U' C
++
⎧ ⎫δ⎪ ⎪+ − =⎨ ⎬⎪ ⎪⎩ ⎭
. (5.67)
• Bei Annahme einer konkreten funktionalen Form für U kann (5.67) als
Momentenbedingung genutzt werden, um die unbekannten Parameter der
Nutzenfunktion zu schätzen.
• Befindet sich zt in der Informationsmenge zum Zeitpunkt t, so sollte zt über
den Erwartungswert von
( )( ) ( )t 1
t 1
t
U' C1 r 1
U' C
++
δ+ −
2.84
keine Information beisteuern, der Erwartungswert sollte auch bedingt auf zt
gleich Null sein und da allgemein 1 2E x x 0= impliziert, dass
( ) 1 2E x g x 0= , sollte gelten:
( )( ) ( )t 1
t t 1 t
t
U' CE 1 r 1 z 0
U' C
++
⎧ ⎫⎛ ⎞δ⎪ ⎪⎜ ⎟+ − =⎨ ⎬⎜ ⎟⎪ ⎪⎝ ⎠⎩ ⎭
. (5.68)
• Bei optimalem Verhalten des Agenten ist zt also ein gültiges Instrument.
• Unterstellen wir für die Nutzenfunktion die Form
( )1C
U C1
−γ
=− γ
,
dann lässt sich (5.68) konkretisieren:
2.85
( )t 1t 1 t
t
CE 1 r 1 z 0
C
−γ
++
⎧ ⎫⎛ ⎞⎛ ⎞⎪ ⎪⎜ ⎟δ + − =⎨ ⎬⎜ ⎟⎜ ⎟⎝ ⎠⎪ ⎪⎝ ⎠⎩ ⎭. (5.69)
Dies ergibt so viele Momentenbedingungen wie zt Elemente hat und erlaubt,
die unbekannten Parameter δ und γ zu identifizieren und konsistent zu
schätzen, sofern Daten für Ct, Ct+1 , rt+1 und zt vorliegen.
2.86
2.6.2 Der GMM-Schätzer
• Im Allgemeinen lassen sich die R Momentenbedingungen darstellen als
( ) t tE f w ,z , 0θ = , (5.70)
wobei f eine Vektorfunktion mit R Elementen ist, θ ist ein K-dimensionaler
Vektor mit unbekannten Parametern, wt sind endogene oder exogene Vari-
ablen und zt ist der Vektor der Instrumente, z.B. ( )t t 1 t t 1w ' C C ,r+ += oder in
Abschnitt 2.5 ( )t t tw ' y ,x '= .
• Um θ zu schätzen, betrachten wir das Stichprobenäquivalent von (5.70):
( ) ( )T
T t tt 1
1g f w ,z ,
T =
θ ≡ θ∑ . (5.71)
2.87
• Wenn R = K, kann man alle R Elemente von (5.71) gleich Null setzen und
eindeutig nach θ auflösen, um einen konsistenten Schätzer zu erhalten. Das
ist analytisch nicht immer möglich, wenn f nichtlinear ist. In diesem Fall ver-
wendet man numerisch iterative Verfahren, um θ zu approximieren.
• Wenn R < K, ist θ nicht identifiziert.
• Wenn R > K, lässt sich aus (5.71) keine eindeutige Lösung durch Gleichset-
zen mit Null bestimmen. Stattdessen wird eine quadratische Form der
Momentenbedingung durch geeignete Wahl von θ minimiert:
( ) ( ) ( )T T T TminQ min g ' W gθ θ
θ = θ θ . (5.72)
2.88
WT ist wie zuvor eine positiv definite Gewichtungsmatrix mit TplimW W= .
Die Lösung für dieses Problem ist der GMM-Schätzer θ, der unter schwa-
chen Bedingungen konsistent und asymptotisch normalverteilt ist.
• Zumeist wird der GMM-Schätzer durch numerisch iterative Verfahren be-
stimmt. Dabei ergeben sich je nach WT unterschiedliche, konsistente Schät-
zer mit unterschiedlichen asymptotischen Varianz-Kovarianz-Matrizen. Die
kleinste Varianz-Kovarianz-Matrix für den GMM-Schätzer erhält man (solan-
ge keine Autokorrelation vorliegt), wenn man die inverse Varianz-Kovarianz-
Matrix der Stichprobenmomente heranzieht:
( ) ( ) ( ) 1opt
t t t tW E f w ,z , f w ,z , '−
= θ θ .
2.89
• Allerdings hängt Wopt von θ ab. Daher geht man in mehreren Schritten vor:
(i) Nutze einen Ersatz für WT, z.B. die Identitätsmatrix I, um 1θ konsistent zu
bestimmen.
(ii) Schätze Wopt konsistent durch
( ) ( )1T
opt
T t t 1 t t 1t 1
1 ˆ ˆW f w ,z , f w ,z , 'T
−
=
⎛ ⎞= θ θ⎜ ⎟⎝ ⎠∑ . (5.73)
(iii) Berechne den effizienten GMMθ -Schätzer mit Hilfe von optTW . Die asympto-
tische Verteilung ist
( ) ( )GMMˆT N 0,Vθ − θ → . (5.74)
Die asymptotische Varianz-Kovarianz-Matrix des effizienten GMMθ lautet
( ) 1optV D W D'−
= , (5.75)
2.90
wobei D die K × R-Matrix der ersten Ableitungen der Momentenbedingungen
darstellt:
( )t tf w ,z ,
D E'
⎧ ⎫∂ θ= ⎨ ⎬
∂θ⎩ ⎭. (5.76)
• Damit beschreibt D, wie empfindlich eine einzelne Bedingung auf kleine Än-
derungen in θ reagiert. Je größer die Reaktion, umso stärker die Bedeutung
dieses θ-Wertes für die Zielfunktion QT(θ). Umgekehrt werden diese Elemen-
te dann besonders präzise, d.h. mit kleiner Varianz geschätzt.
• Man schätzt V, indem die Werte von D und Wopt für die Grundgesamtheit
durch ihre Stichprobenwerte ersetzt werden, die an GMMθ bewertet werden.
• Zentrale Vorteile des GMM-Verfahrens sind:
2.91
(1) Verteilungsannahmen sind nicht erforderlich;
(2) Heteroskedastie unbekannter Form stellt kein Problem dar;
(3) auch wenn das Modell analytisch nicht lösbar ist, können Parameter auf
Basis der Bedingungen erster Ordnung geschätzt werden, die z.B. direkt
aus der Theorie abgeleitet werden.
(4) bei dynamischen Modellen können verzögerte Werte von Variablen als
Instrumente genutzt werden.
• Jede Variable kann als Instrument genutzt werden, wenn sie z.B. im Infor-
mationsstand der Periode t auftaucht und die Bedingung (5.67) gilt.
• Eine Schwäche des GMM-Verfahrens ist, dass sich die Stichprobenvertei-
lung der GMM-Schätzer kaum an die asymptotische Normalverteilung in
2.92
(5.74) annähert. Ebenfalls ist das Problem schwacher Instrumente auch für
den GMM-Schätzer relevant.
• Der Test auf Überidentifikation (overidentifying restrictions test) lässt sich
auf nichtlineare Modelle übertragen. Wenn die Momentenbedingung für die
Grundgesamtheit, ( ) t tE f w ,z , 0θ = , gilt, dann sollte auch für die Stichprobe
gelten ( )T GMMˆg 0θ ≈ . Unter der Nullhypothese, dass alle Momenten-
bedingungen zutreffen, ist die Teststatistik
( ) ( )opt
T GMM T T GMMˆ ˆT g ' W gξ = θ θ
asymptotisch χ2-verteilt mit R-K Freiheitsgraden. GMMθ ist dabei der optimale
GMM-Schätzer, optTW ist die auf Basis eines konsistenten Schätzers für θ
bestimmte optimale Gewichtungsmatrix.
2.93
2.6.3 Einfache Beispiele
• Beispiel 1: Wir möchten den Mittelwert μ einer Zufallsvariable yi in der Be-
völkerung mittels der Ausprägungen in einer Stichprobe mit N Beobachtun-
gen schätzen (i = 1,2,…,N). Die Momentenbedingung dieses „Modells“ lau-
tet:
iE y 0− μ =
Für die Stichprobe gilt: ( )N
ii 1
1y 0
N =
− μ =∑ , so dass der Momentenschätzer
i
1ˆ y
Nμ = ∑
und damit der Stichprobenmittelwert ist.
2.94
• Beispiel 2: Im linearen Modell i i iy x '= β + ε ist die Momentenbedingung mit
einem Instrumentenvektor zi:
( ) i i i i iE z E y x ' z 0ε = − β = .
Wenn εi ∼ i.i.d.(0, σ2) ist, ist der optimale GMM-Schätzer der IV-Schätzer.
Die optimale Gewichtungsmatrix ist
( ) 1opt 2
i i iW E z z '−
= ε ,
was geschätzt werden kann mit 1N
opt 2
N i i ii 1
1ˆW z z'
N
−
=
⎛ ⎞= ε⎜ ⎟⎝ ⎠∑ ,
wobei ε das Residuum eines konsistenten Schätzers ist. Solange ε ∼ i.i.d.
(0, σ2) kann man auch nutzen
2.95
1Nopt
N i ii 1
1W zz '
N
−
=
⎛ ⎞= ⎜ ⎟⎝ ⎠∑ .
Um die Varianz des geschätzten Koeffizienten zu bestimmen, nutzen wir die
K × R Matrix der ersten Ableitungen der Momentenbedingung nach β:
i iD E x z '= .
Dies kann für die Stichprobe konsistent geschätzt werden durch N
N i ii 1
1D x z '
N =
= ∑ .
Damit kann die Varianz-Kovarianz-Matrix des optimalen GMM- oder GIV-
Schätzers β für β geschätzt werden als (vgl. 5.75)
( )1 1N N N
2
i i i i i i ii 1 i 1 i 1
ˆ ˆ ˆV x z ' z z ' z x '− −
= = =
⎛ ⎞ ⎛ ⎞β = ε⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑ ∑ ∑ . (5.77)
2.96
In dieser Form berücksichtigt die Varianz des GMM-Schätzers automatisch
eine White-Korrektur für heteroskedastische Störterme.
2.97
2.7 Illustration: Schätzung des Intertemporalen Asset Pricing Modells
• Asset Pricing Modelle versuchen, die erwartete Rendite verschiedener ris-
kanter Investitionen zu erklären. Da dem Investor für riskantere Investitionen
Risikoprämien bezahlt werden sollten, erwarten wir, dass sich die erwarteten
Renditen über die verschiedenen Aktiva hinweg unterscheiden.
• Wir betrachten alternative Investitionsmöglichkeiten für Finanzvermögen. Die
Renditen für J riskante Aktiva seien rj,t+1 mit j = 1, 2,…, J, die für eine risiko-
freie Investition sei rf,t+1. Wenn der Agent sein Portfolio optimal bestimmt, im-
plizieren die Bedingungen erster Ordnung
( )( ) ( )t t 1 f ,t 1 tE U' C 1 r U' C+ +δ + =
( )( ) ( )t t 1 j,t 1 tE U' C 1 r U' C+ +δ + = , j = 1,…, J.
2.98
• D.h. der erwartete Grenznutzen aus dem Konsum eines Euro heute muss
identisch sein mit dem Grenznutzen aus der Investition des Geldbetrages in
ein Aktivum j und über alle verschiedenen Aktiva j hinweg. Wenn
γ−=
γ−
1
C)C(U
1
lässt sich einsetzen und umformen:
( )t 1f ,t 1
t
CE 1 r 1
C
−γ
++
⎧ ⎫⎛ ⎞⎪ ⎪δ + =⎨ ⎬⎜ ⎟⎝ ⎠⎪ ⎪⎩ ⎭
(5.78)
( )t 1j,t 1 f ,t 1
t
CE r r 0
C
−γ
++ +
⎧ ⎫⎛ ⎞⎪ ⎪δ − =⎨ ⎬⎜ ⎟⎝ ⎠⎪ ⎪⎩ ⎭
j, = 1,…, J. (5.79)
Die Differenz j,t 1 f ,t 1r r+ +− bezeichnet man als Überschussrendite, excess re-
turn, über die risikofreie Rendite.
• Wir ersetzen die intertemporale Grenzrate der Substitution durch
2.99
( ) t 1t 1
t
Cm
C
−γ
++
⎛ ⎞θ ≡ δ ⎜ ⎟
⎝ ⎠.
θ enthält die unbekannten Parameter δ und γ und wird auch als „stochasti-
scher Diskontfaktor“ bezeichnet. Wenn mt+1(θ) vorliegt, haben wir ein Modell
für die erwarteten Renditen. Dazu nutzen wir, dass für 2 Zufallsvariablen gilt
( ) ( )E xy cov x,y E x E y= + und wenden es auf (5.79) an:
( ) ( ) t 1 j,t 1 f ,t 1 t 1 j,t 1 f ,t 1cov m ,r r E m E r r 0+ + + + + +θ − + θ − =
( ) ( )
t 1 j,t 1 f ,t 1
j,t 1 f ,t 1
t 1
cov m ,r rE r r
E m
+ + +
+ +
+
θ −⇔ − = −
θ . (5.80)
• Die erwartete Überschussrendite für Aktivum j ist eine Risikoprämie, die di-
rekt mit der Kovarianz der Überschussrendite und dem stochastischen Dis-
kontfaktor schwankt. Wenn mt+1(θ) bekannt ist, lässt sich die
2.100
Querschnittsvariation der erwarteten (Überschuss-)Rendite über die Aktiva
hinweg erklären. Im Gleichgewicht muss die Rendite von Aktiva, die positiv
mit dem Konsumwachstum kovariieren, höher ausfallen als die Rendite von
Aktiva, die das nicht tun. Erstere führen zu höherer Volatilität zukünftigen
Konsums, was durch höhere erwartete Renditen ausgeglichen werden
muss.
• Die Parameter δ und γ können durch die Momentenbedingungen (5.78) und
(5.79) geschätzt werden. Dazu wurden Daten von Febr. 1959 bis Nov. 1993
zu monatlichen Renditen genutzt. Betrachtet werden 10 Aktienportfolios für
unterschiedlich große, an der New Yorker Börse gehandelte Aktienpakete.
Als risikolose Rendite gilt die Rendite für 3-monatige US-Bonds. Weiter
2.101
werden die gesamten US-amerikanischen Konsumausgaben für nicht-
langlebige Konsumgüter und Dienstleistungen herangezogen.
• Mit J = 10 und einem risikofreien Asset ergeben sich aus (5.78) und (5.79)
11 Momentenbedingungen, mit denen wir 2 Parameter schätzen wollen. Die
GMM-Schätzung kann entweder mit einer suboptimalen Gewichtungsmatrix
(z.B. W = I) bestimmt werden oder sie kann in zwei Schritten vorgehen (1:
W =I und θ[1] schätzen, 2: mit W = Wopt θ[2] schätzen) oder ein iteratives Ver-
fahren nutzen. Bei letzterem führt man den Anpassungsprozess des Zwei-
Schritt-Schätzers fort, bestimmt auf Basis von θ[2] ein verbessertes Wopt,
damit ein besseres θ[3] und so fort, bis sowohl θ als auch W zu stabilen
Werten hin konvergieren.
2.102
• Mit den Daten wurden ein suboptimaler und ein iterativer GMM-Schätzer
bestimmt. Tabelle 5.4:
• Die Schätzer für γ sind extrem groß und haben große Standardfehler. Gege-
ben unsere Nutzenfunktion, entspricht γ dem Koeffizienten relativer Risiko-
aversion (= ( ) ( )C U'' C U' C− ⋅ ; Koeffizient absoluter Risikoaversion:
( ) ( )U'' C U' C− ), der die intertemporale Substitutionselastizität für den Kon-
sum in verschiedenen Perioden misst. Im Beispiel kann eine Konsumreduk-
tion in Periode t um 1% nur durch eine Erhöhung des Konsums in Periode
2.103
t+1 um 91 bzw. 57% ausgeglichen werden, wenn der Nutzen gleich bleiben
soll. Die Individuen sind extrem risikoscheu.
• Mit einem „overidentifying restrictions“-Test lässt sich prüfen, ob alle R = 11
Momentenbedingungen zutreffen. Die Ergebnisse in Tabelle 5.4 ergeben,
dass diese Nullhypothese nicht verworfen werden kann. Bei R – K = 11 – 2
= 9 Freiheitsgraden beträgt der kritische χ2-Wert am 5%-Niveau 16,92. Sta-
tistisch ist das Modell nicht zu verwerfen, inhaltlich sind die Schätzergebnis-
se wenig plausibel.
2.104
Literatur
Verbeek, 2004, 5. Kapitel
Angrist, Joshua A. und Jörn-Steffen Pischke, 2009, Mostly Harmless Econome-trics, Chapter 4: Instrumental Variables in Action.
Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, MIT Press, Chapter 5: Instrumental Variables Estimation of Single-Equation Linear Models.
Cameron, Colin A. und Pravin K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge Univ. Press, Chapter 4.8 und 4.9.
Pischke, Jörn-Steffen und Till von Wachter, 2008, Zero Returns to Compulsory Schooling in Germany: Evidence and Interpretation, Review of Economics and Statistics 90 (3), 592 - 598.
3.1
Kapitel 3: Paneldatenmodelle
3.1 Einführung
3.2 Das statische lineare Modell
3.3 Illustration: Modelle für individuelle Löhne
3.4 Dynamische lineare Modelle
3.5 Illustration: Lohnelastizität der Arbeisnachfrage
3.6 Illustration: Kapitalstruktur von Unternehmen
3.2
3.1 Einführung
• Paneldaten bestehen aus wiederholten Beobachtungen für gegebene Einhei-
ten. Daher sind einzelne Beobachtungen nicht wie bei Querschnittsdaten un-
abhängig voneinander.
• Qualität von Paneldaten häufig durch fehlende Beobachtungen einge-
schränkt: Panelausfall (Panelattrition, Panelmortalität); balanced vs.
unbalanced panels (vollständige und unvollständige Datensätze).
• Vorteil von Paneldaten: Verhaltensänderungen von Beobachtungseinheiten
messbar. Paneldaten erlauben, Beobachtungseinheiten mit sich selbst in ei-
ner anderen Periode zu vergleichen.
3.3
• Beispiel: Es lässt sich feststellen, ob ein mittlerer Konsumanstieg um 2% da-
rauf zurückzuführen ist, ob alle um 2% mehr konsumieren oder z.B. ein Teil
um 4% und der andere um 0%.
• Indices: Beobachtungseinheit i = 1,2,…,N, Periode t = 1,2,…,T. Im linearen
Modell
it 0 it ity x '= β + β + ε (3.1)
wird unterstellt, dass Steigungsparameter konstant sind für alle i und t. Unter
herkömmlichen Annahmen ist KQ unverzerrt, konsistent und effizient. Aller-
dings sind bei Paneldaten oft i-spezifische Störterme über Perioden hinweg
korreliert. Dann ist KQ ineffizient.
• Bei Paneldaten wird häufig unterstellt
3.4
it i ituε = α + . (3.2)
Für uit wird Homoskedastie angenommen. αi ist konstant unbeobachtet, i-
spezifisch und über die Individuen hinweg homoskedastisch. Das Modell wird
als error components oder random effects Modell bezeichnet. Eine FGLS-
Schätzung wäre effizienter als KQ.
• Die Annahme Exit εit = 0 besagt, dass die Regressoren weder mit uit noch
mit αi korreliert und exogen sind. Exit αi = 0 ist oft unzutreffend.
• Frage: Kennen Sie ein Beispiel, bei dem Exit αi ≠ 0?
• Bei Querschnittsdaten verwendet man in dieser Situation IV, bei Paneldaten
gibt es andere Möglichkeiten.
• Im fixed effects Modell
3.5
it i it ity x ' u= α + β + (3.3)
sind αi (i = 1, 2, …, N) unbekannte Konstanten, die gemeinsam mit β ge-
schätzt werden können. Die Konstante β0 entfällt und wird durch die αi aufge-
fangen. Durch αi wird zugelassen, dass sich das Niveau von y systematisch
von Beobachtung zu Beobachtung, z.B. wegen unbeobachteter Variablen,
unterscheiden kann (Mittelwertunterschiede).
• Für uit wird Unabhängigkeit und identische Verteilung über alle i und t mit
itE u 0= und konstanter Varianz 2
uσ unterstellt. Wenn die iα als unbekannte
Parameter betrachtet werden, spricht man vom fixed effects Modell. Dann
ist die Annahme Exit αi = 0 des random effects Modells für konsistente
Schätzung nicht erforderlich.
3.6
3.1.1 Vorteile von Paneldaten
• Weil Paneldatensätze typischerweise groß sind und die erklärenden Variab-
len sowohl über „i“ als auch über „t“ variieren, sind die Schätzer in der Regel
effizienter als bei Querschnittsverfahren. Das kann sogar gelten, wenn die
gleiche Zahl von Beobachtungen vorliegt.
• Identifikation individueller Dynamik: Häufig haben Individuen, die ein Ereignis
erleben (z.B. Arbeitslosigkeit), eine höhere Wahrscheinlichkeit, dieses noch
mal zu erleben als andere. 2 mögliche Erklärungen: (a) Durch das Erlebnis
werden die Präferenzen oder Restriktionen so beeinflusst, dass ein erneutes
Ereignis wahrscheinlicher wird (state dependence, Zustandsabhängigkeit).
(b) Die Individuen werden nicht durch das Erlebnis beeinflusst, sondern un-
terscheiden sich grundsätzlich in ihrer Wahrscheinlichkeit, das Ereignis zu er-
3.7
leben (spurious state dependence). Mit Paneldaten lässt sich überprüfen,
welche der beiden Erklärungen zutrifft.
• Verzerrung aufgrund ausgelassener Variablen: Verzerrte Parameterschätzer
ergeben sich, wenn die berücksichtigten Variablen mit den ausgelassenen
korreliert sind. So ist beispielsweise der Output yit eines Unternehmens nicht
nur von den Inputs xit, sondern auch von der unbeobachteten Qualität des
Managements mi abhängig. Da bessere Manager weniger Inputs benötigen,
sind mi und xi korreliert. Schätzt man eine Produktionsfunktion
it 0 it 1 i 2 ity x ' m u= β + β + β + (3.5)
ohne mi, so ergeben sich verzerrte Werte für β0 und β1. Wenn Paneldaten
vorliegen, lässt sich das Problem lösen, da unternehmensspezifische Effekte
i 0 i 2mα = β + β als fixe Effekte mitgeschätzt werden können:
3.8
it i it 1 ity x ' u= α + β + (3.5a)
• Durch Berücksichtigung von Zeitindikatoren (Periodendummies) kann man al-
le periodenspezifischen Effekte herausrechnen, die für alle Beobachtungen
gleich sind (z.B. Konjunktureffekte). Auch dadurch lassen sich potentielle
Verzerrungen durch ausgelassene erklärende Variablen abfangen.
• Eine fixed effects Schätzung eliminiert konstante unbeobachtbare Größen
aus dem Störterm und löst dadurch verursachte Endogenitätsprobleme.
• Interne Instrumente: Besonders hilfreich können Paneldaten sein, wenn
Instrumentvariablen für endogene Regressoren oder bei Messfehlern erfor-
derlich sind. Da Transformationen der Originalvariablen (z.B. it it iw = x - x ) mit
dem zeitkonstanten unbeobachteten Störterm des Modells unkorreliert, aber
mit den erklärenden Variablen korreliert sind, eignen sie sich als Instrumente.
3.9
3.2 Das statische lineare Modell
3.2.1 Das fixed effects Modell
• Unterstellt wird ein lineares Modell mit einer von i abhängigen Konstante und
exogenen xit:
( )2
it i it it it uy x ' u , u ~ i.i.d. 0,= α + β + σ (3.6)
Die individuelle Heterogenität (αi) ist additiv verknüpft und wird als konstant
angenommen.
Das Modell kann ebenfalls mit Hilfe von N Dummyvariablen dij für jede Be-
obachtung i dargestellt werden:
N
it j ij it itj 1
y d x ' u=
= α + β +∑ (3.7)
3.10
Wenn i = j, nimmt dij den Wert 1 an, sonst 0. In diesem Modell sind neben den
Parametern für β N verschiedene α Parameter zu schätzen. Man spricht vom
„Least Squares Dummy Variables“ (LSDV) Schätzer.
• Frage: Was ist der Wert von N
i ijj 1
k d=
= ∑ ?
• Wenn N groß ist, ist ein anderes Verfahren günstiger. Dabei werden die fixen
Effekte αi durch Transformation der Daten eliminiert; zunächst schreiben wir
die Gleichung in Mittelwerten, mit ∑=t
iti yT
1y
i i i iy x ' u= α + β + (3.8)
Dann ergibt sich für ein Modell in Abweichungen von individuellen Durch-
schnitten
3.11
( ) ( )it i it i it iy y x x ' u u− = − β + − , (3.9)
dass sich die αi-Werte heraus kürzen. Diese Transformation bezeichnet man
als within-Transformation, den KQ-Schätzer für β aus diesem Modell als
within-Schätzer oder fixed effects-Schätzer. Er ist exakt identisch mit dem
LSDV-Schätzer aus (3.7):
( ) ( )( ) ( ) ( )-1N T N T
FE it i it i it i it ii=1 t=1 i=1 t=1
β = x - x x - x ' x - x y - y∑∑ ∑∑
(3.10)
• Wenn alle xit von allen uit unabhängig sind (vgl. Annahme A2), dann ist der fi-
xed effects-Schätzer für β unverzerrt. Er ist normalverteilt, wenn uit normalver-
teilt ist. Die Voraussetzung für Konsistenz ist
( ) it i itE x x u 0− = (3.11)
3.12
• Hinreichend für diese Voraussetzung ist, dass xit und uit unkorreliert sind und
dass ix nicht mit dem Störterm korreliert ist. Beide Bedingungen werden
durch
it isE x u 0= für alle s,t (3.12)
impliziert. Wenn (3.12) gilt, nennen wir xit strikt exogen. Strikt exogene Reg-
ressoren sind weder mit vergangenen, kontemporären noch mit zukünftigen
Störtermen korreliert. Dies schließt sowohl verzögerte endogene Variablen
als Regressoren (z.B. yi,t-1) aus (warum?), als auch solche xit, die mit vergan-
genen Werten von yit korreliert sind.
• Beispiel: Strikte Exogenität schließt aus, dass man in einer Arbeitsangebots-
gleichung Arbeitsmarkterfahrung berücksichtigt, weil diese dem Arbeitsange-
bot der vergangenen Perioden entspricht.
3.13
• Die N Achsenabschnitte ergeben sich bei Unabhängigkeit von xit und uit aus:
i i i FEˆα = y - x' β , i = 1,2,…,N.
• Sie sind konsistent nur für T → ∞; eine hohe Anzahl von Beobachtungseinhei-
ten N verbessert nicht die Konsistenz der einzelnen Schätzer von αi. iy und ix
bleiben unverändert.
• Die Varianz-Kovarianz-Matrix von FEβ lautet hier:
( ) ( )1N T
2
FE u it i it ii 1 t 1
ˆV x x x x '−
= =
⎛ ⎞β = σ − −⎜ ⎟⎝ ⎠∑∑ . (3.13)
• Der KQ-Schätzer auf Basis der within Regression (3.9) unterschätzt die wah-
re Varianz, es sei denn, dass T sehr groß ist. Der Grund dafür ist, dass die
individuellen, transformierten Residuen sich zu Null addieren und die
3.14
Störterm-Kovarianz-Matrix singulär ist. Die Varianz von ( )it iu u− ist nicht 2
uσ ,
sondern 2
u
T 1
T
−σ .
• Wenn ( )it it i it FE it i it i FEˆ ˆˆ ˆu y x ' y y x x '= − α − β = − − − β , dann lautet ein konsistenter
Schätzer für 2
uσ :
( )N T
2 2
u iti 1 t 1
1ˆˆ u
N T 1 = =
σ =− ∑∑ (3.14)
Für Unverzerrtheit ist noch eine Korrektur für die Freiheitsgrade erforderlich,
also ( ) .K1TN
1
−−
• Im LSDV-Modell werden die Freiheitsgrade der Varianz automatisch korri-
giert.
3.15
• Unter schwachen Annahmen ist der fixed effects-Schätzer asymptotisch nor-
malverteilt, so dass herkömmliche Inferenzverfahren genutzt werden können
(z.B. t- und Wald-Tests).
• Der fixed effects-Schätzer nutzt Informationen für gegebene Individuen. Es
wird erklärt, warum yit sich von iy unterscheidet, während bei
Querschnittsverfahren erklärt wird, warum sich yi und yj unterscheiden.
• Gleichzeitig wird durch die Formulierung des Modells unterstellt, dass eine
Änderung in x zwischen Periode t und s für Beobachtung i den gleichen Effekt
hat wie zwischen zwei verschiedenen Beobachtungen i und j. Dabei stammt
die Information zur Schätzung der β nicht aus dem Vergleich von Beobach-
tungen i und j, sondern aus dem Vergleich der verschiedenen Ausprägungen
für gegebene Beobachtungen.
3.16
3.2.2 Der First Difference Schätzer
• Eine andere Möglichkeit, αi zu eliminieren, besteht darin, erste Differenzen zu
betrachten:
( ) ( )it it 1 it it 1 it it 1
it it it
y y x x ' u u
y x ' u t 2,3,...,T− − −− = − β + −
⇔ Δ = Δ β + Δ = (3.15)
• Wie zuvor beim within-Schätzer können zeitkonstante Variablen nicht berück-
sichtigt werden.
• Der KQ-Schätzer für dieses Modell ist der first difference Schätzer:
1N T N T
FD it it it iti 1 t 2 i 1 t 2
ˆ x x ' x y−
= = = =
⎛ ⎞β = Δ Δ Δ Δ⎜ ⎟⎝ ⎠∑ ∑ ∑ ∑ . (3.16)
• Der Schätzer ist konsistent, wenn gilt
3.17
( )( ) it it it it 1 it it 1E x u E x x u u 0− −Δ Δ = − − = (3.17)
• Diese Bedingung ist schwächer als die Bedingung strikter Exogenität in
(3.12), bspw. lässt sie zu, dass Exit uit-2 ≠ 0.
• Der first difference Schätzer ist weniger effizient als der within Schätzer, falls
die Störterme homoskedastisch und seriell unkorreliert sind.
• Unterstellt man statt seriell unkorrelierten uit seriell unkorrelierte Δuit, d.h. eit =
Δuit = uit - uit-1, und bspw. einen random walk für uit mit uit = uit-1 + eit, so ist der
first difference Schätzer effizienter als der within Schätzer.
• Serielle Unkorreliertheit von eit = Δuit lässt sich mittels t-Test überprüfen:
it i t 1 itˆ ˆe e t 3,4,...,T i 1,2,...,N.−= ρ + υ = =
3.18
• Wenn uit seriell unkorreliert ist, muss eit autokorreliert sein mit
corr(eit, eit-1) = -0,5.
• Wenn T = 2, sind within und first difference Schätzer identisch, vorausgesetzt,
dass der first difference Schätzer eine Regressionskonstante enthält und im
within Schätzer ein Dummy für Periode 2 berücksichtigt ist. Unterscheiden
sich die Schätzergebnisse stark, gilt u.U. Annahme (3.12) nicht.
• Der difference-in-differences Schätzer ist eine Anwendung des first difference
Schätzers. Das fixed effects Modell für yit laute
it it t i ity r u= δ + μ + α +
mit rit = 1 für die i, die in Periode t das treatment erhielten (sonst rit = 0), μ ist
ein Zeiteffekt, weitere Regressoren werden vernachlässigt.
3.19
• Mit Paneldaten können wir Personen mit und ohne treatment vorher und
nachher vergleichen. Durch first difference-Transformationen werden fixe Ef-
fekte αi eliminiert:
it it t ity r uΔ = δΔ + Δμ + Δ (3.18)
• δ kann mit KQ konsistent geschätzt werden, wenn EΔrit Δuit = 0. Es ist dabei
zulässig, dass αi mit rit und uit korreliert ist.
• Gibt es nur 2 Zeitperioden, so ergibt sich für die treated mit ri2 = 1 und die
nontreated mit ri2 = 0:
treated nontreated
i2 i2ˆ y yδ = Δ − Δ , da
3.20
treated
i2 t it
nontreated
i2 t it
treated nontreated
i2 i2
ˆy 1 u
y u
ˆy y
Δ = δ ⋅ + Δμ + Δ
Δ = Δμ + Δ
Δ − Δ = δ
• Dabei wird unterstellt, dass der Zeiteffekt Δμt für beide Gruppen identisch ist.
• Das Verfahren wird oft im Zusammenhang mit natürlichen Experimenten an-
gewendet.
3.21
3.2.3 Das random effects-Modell
• Es wird unterstellt, dass αi Zufallsfaktoren sind, die unabhängig und identisch
über die Beobachtungseinheiten verteilt sind. Das Modell lautet
( ) ( )2 2
it it i it it u iy x ' u , u ~ i.i.d. 0, ; ~ i.i.d. 0, α= μ + β + α + σ α σ (3.19)
• Der Störterm ist αi + uit und besteht aus einer i-spezifischen Komponente, die
über die Zeit konstant ist, und einem Residualterm, der über die Zeit
unkorreliert ist. Es wird unterstellt, dass αi und uit unabhängig voneinander
und von allen xjs (für alle j und s) sind.
• Das Modell wird auch als one way error component Modell bezeichnet.
3.22
• Die Struktur des Störterms impliziert Autokorrelation (wegen 2ασ ). Dadurch
sind die KQ-Standardfehler nicht korrekt und ein effizienterer GLS-Schätzer
kann verwendet werden.
• Für Beobachtung i lassen sich alle T beobachteten Störterme als αi jT + ui
übereinanderschreiben, wobei jT = (1,1,..,1)' und ui = (ui1,…,uiT)' die Dimensi-
on T × 1 haben. Die Varianz-Kovarianz-Matrix für diesen Vektor ist
2 2
i t i α T T u TV α j + u =Ω = σ j j' +σ I
wobei IT die T-dimensionale Einheitsmatrix ist. Für z.B. T = 3 ergibt sich für
jedes i 2 2 2 2
α u α α
2 2 2 2 2 2
i α u α α u α
2 2 2 2
α α α u
σ +σ σ σ1 1 1 1 0 0
Ω = σ 1 1 1 +σ 0 1 0 = σ σ +σ σ
1 1 1 0 0 1 σ σ σ +σ
⎡ ⎤⎡ ⎤ ⎡ ⎤⎢ ⎥⎢ ⎥ ⎢ ⎥⋅ ⋅ ⎢ ⎥⎢ ⎥ ⎢ ⎥⎢ ⎥⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦ ⎣ ⎦ .
3.23
• Damit kann der GLS-Schätzer für die Parameter in (3.19) abgeleitet werden.
Die Daten werden für jede Beobachtung i durch Vormultiplizieren mit 1−Ω
transformiert. Dabei gilt 2
-1 -2 αu T T T2 2
u α
σΩ = σ I - j j'
σ + Tσ
⎡ ⎤⎢ ⎥⎣ ⎦
-2
u T T T T T
1 1= σ I - j j' +ψ j j'
T T
⎡ ⎤⎛ ⎞⎜ ⎟⎢ ⎥⎝ ⎠⎣ ⎦
wobei 2
u
2 2
u T α
σψ =
σ + σ.
• Der Faktor T T T
1I j j '
T− führt bei Multiplikation mit den Daten zur Darstellung
der Daten als Abweichung von ihrem Mittelwert, vormultiplizieren mit T T
1j j '
T
ergibt die Mittelwerte der Daten.
3.24
• Um effiziente Schätzer zu erzeugen, werden im GLS-Verfahren die Daten
entsprechend der Varianz-Kovarianz-Matrix des ursprünglichen Störterms
transformiert. Für den random effects-Schätzer ergibt sich:
( ) ( ) ( ) ( )( )-1N T N
GLS it i it i i ii=1 t=1 i=1
β = x - x x - x ' +ψT x - x x - x '∑∑ ∑
( ) ( ) ( ) ( )( )N T N
it i it i i ii=1 t=1 i=1
x - x y - y +ψT x - x y - y⋅ ∑∑ ∑ (3.20)
bzw. 1N N
1 1
GLS i i i ii 1 i 1
ˆ ˆ ˆβ X ' X X ' y−
− −
= =
⎛ ⎞ ⎛ ⎞= Ω Ω⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑ ∑
Dabei ist iti,t
1x = x
NT∑ der Durchschnitt über alle xit und Xi ist eine T×K Matrix,
wobei Zeile t x'it entspricht. Für ψ = 0 ergibt sich der fixed effects-Schätzer
(3.10). Da für T → ∞ ψ → 0, ergibt sich, dass bei großen T fixed- und random
3.25
effects-Schätzer identisch sind. Wenn ψ = 1 ist Ω diagonal und der GLS-
Schätzer entspricht dem KQ-Schätzer, da 2 0ασ = .
• Es lässt sich ableiten, dass ( )GLS B k FEˆ ˆ ˆβ = β + I - βΔ Δ , wobei
( ) ( )( ) ( ) ( )-1N N
B i i i ii=1 i=1
β = x - x x - x ' x - x y - y∑ ∑
der so genannte between-Schätzer für β ist. Dies ist der KQ-Schätzer, für ein
Modell individueller Mittelwerte:
i i i iy x ' u= μ + β + α + i = 1,…,N. (3.21)
• Durch die Gewichtsmatrix Δ erhält der präzisere Schätzer von between und
within Schätzer das größere Gewicht. Dadurch ist der GLS-Schätzer effizien-
ter als die einzelnen Schätzer.
3.26
• Der GLS-Schätzer ist unverzerrt, wenn die erklärenden Variablen unabhängig
von allen uit und allen αi sind. Er ist konsistent, wenn N → ∞ oder T → ∞ oder
beides und wenn neben (3.11) ebenfalls gilt, dass i iE x u 0= , sowie dass
i iE x α = 0 (3.22)
• Der GLS-Schätzer kann als KQ-Schätzer für folgendes Modell bestimmt wer-
den:
( ) ( ) ( )it i it i ity - Jy = μ 1- J + x - Jx 'β+υ , (3.23)
wobei 12J = 1-ψ . uit ist i.i.d. über i und t. Wenn ψ = 0, liegt der within-Schätzer
mit J = 1 vor. Hier wird ein fester Anteil J der individuellen Mittelwerte abge-
zogen (mit 0 ≤ J ≤ 1), um das transformierte Modell zu erhalten.
3.27
• Da 2
ασ und 2
uσ unbekannt sind, müssen sie in einem ersten Schritt eines
FGLS-Verfahrens geschätzt werden.
• Der FGLS-random effects-Schätzer REβ wird auch als Balestra-Nerlove-
Schätzer bezeichnet. Er ist asymptotisch normalverteilt mit der Varianz-
Kovarianz-Matrix:
( ) ( ) ( ) ( )( )-1N T N2
RE u it i it i i ii=1 t=1 i=1
ˆV β = σ x - x x - x ' +ψT x - x x - x '∑∑ ∑
(3.26)
Solange ψ > 0, ist der random effects-Schätzer effizienter als der fixed effects-
Schätzer, da zusätzlich die between-Information in den Daten genutzt wird.
Die Varianz-Kovarianz-Matrix (3.26) ergibt sich aus der KQ-Schätzung von
(3.23).
• Wir haben 5 Schätzverfahren für β betrachtet:
3.28
1: Der between-Schätzer als KQ-Schätzer gemittelter Daten. Für N → ∞ ist
er konsistent, wenn i i i iE x u 0 und E x 0= α = , d.h. bei strikter
Exogenität der Regressoren ix und Unkorreliertheit mit αi.
2: Der fixed effects (within)-Schätzer nutzt nur Abweichungen vom indivi-
duellen Mittelwert. Für T → ∞ oder N → ∞ ist er für β konsistent, wenn
( ) it i itE x x u 0− = , d.h. strikte Exogenität der Regressoren x (keine Restrik-
tionen bezüglich der Korrelation zwischen αi und xit).
3: Der KQ-Schätzer nutzt between und within Information, aber ist nicht effi-
zient. Für T → ∞ oder N → ∞ ist er konsistent, wenn ( ) it it iE x u 0+ α = ,
d.h. keine Korrelation der xit mit αi und keine kontemporäre Korrelation
zwischen xit und uit (strikte Exogenität nicht erforderlich).
3.29
4: Der (FGLS) random effects-Schätzer kombiniert auf effiziente Weise
between und within Schätzer. Er ist konsistent für T → ∞ oder N → ∞,
wenn die Bedingungen für 1 und 2 gelten.
5: Der first difference Schätzer nutzt KQ auf differenzierte Daten. Unter der
Bedingung it itE x u 0Δ Δ = ist er konsistent, aber u.U. weniger effizient als
der within Schätzer, wenn uitN iid und T > 2 ist.
3.30
3.2.4 Fixed Effects oder Random Effects?
• Bei kleinem T und großem N kann die Modellwahl zu deutlich unterschiedli-
chen Ergebnissen führen. Der fixed effects-Ansatz ergibt auf αi bedingte Er-
gebnisse für die konkreten Beobachtungen in der Stichprobe. Der random ef-
fects-Schätzer ergibt Schätzergebnisse für β, die für die Grundgesamtheit –
nicht für die konkret vorliegende Stichprobe – abgeleitet werden:
it it itE y x = x' β
Fixed effects-Schätzer beschreiben
it it i it iE y x ,α = x' β+ α .
3.31
• Wenn αi und xit korreliert sind, wäre der random effects-Schätzer inkonsistent,
der fixed effects-Schätzer jedoch nicht. Daher ist dieser Punkt oft ausschlag-
gebend für die Wahl des Schätzers.
• Die Nullhypothese, dass xit und αi unkorreliert sind H0: E(xit αi) = 0, kann mit
dem Hausman-Test überprüft werden. Die Testidee ist, zwei Schätzer zu
vergleichen, von denen einer (der fixed effects-Schätzer) unter Null- und Al-
ternativhypothese konsistent ist und der andere (der random effects-Schätzer)
nur unter H0 konsistent ist. Unterscheiden sich die beiden Schätzer stark, so
wird H0 verworfen. Hausman hat gezeigt, dass
FE RE FE REˆ ˆ ˆ ˆV β -β = V β - V β , (3.27)
wodurch die Teststatistik einfacher berechenbar wird:
3.32
( ) ( )
-1
H FE RE FE RE FE REˆ ˆ ˆ ˆ ˆ ˆˆ ˆξ = β -β ' V β - V β β -β⎡ ⎤
⎣ ⎦ (3.28)
V beschreibt die geschätzte Varianz-Kovarianz-Matrix. Unter H0 gilt plim
( )FE REˆ ˆβ -β = 0 und 2
H Kξ ~ χ , wobei K die Anzahl der Elemente von β ist.
• Unter H0 ist der random effects-Schätzer effizient, d.h. RE FEˆ ˆV β < V β .
3.33
3.2.5 Schätzgüte
• Das R2-Maß kann als Quadrat des Korrelationskoeffizienten der beobachteten
und der vorhergesagten Werte interpretiert werden.
• Im Fall von Paneldaten kann die gesamte Variation von yit als Summe von
within und between-Variation dargestellt werden:
( ) ( ) ( )2 2 2
it it i ii,t i,t i
1 1 1y y y y y y
NT NT N− = − + −∑ ∑ ∑
wobei y den Stichprobenmittelwert und iy den Mittelwert der Beobachtungen
für i angibt.
• Je nach Interesse lassen sich nun 3 verschiedene R2-Werte definieren.
• Das within-R2 mit ( ) ( )FE FE
it i it i FEˆˆ ˆy - y = x - x 'β lautet
3.34
( ) 2 2 FE FE
within FE it i it iˆ ˆ ˆR β = corr y - y ,y - y (3.29)
• Der between-Schätzer maximiert als KQ-Schätzer
( ) 2 2 B
between B i iˆ ˆR β = corr y ,y (3.30)
wobei B
i i Bˆy = x'β .
• Der KQ-Schätzer maximiert das gesamte R2 mit it ity x ' b= ,
( ) 2 2
overall it itˆ ˆR β = corr y ,y (3.31)
• Die drei R2-Maße lassen sich für jeden beliebigen Schätzer β definieren, wo-
bei folgende vorhergesagte Werte genutzt werden: it it i itt
1ˆˆ ˆ ˆy = x' β, y = yT∑ , und
iti,t
1ˆ ˆy = y
NT∑ .
3.35
• Die fixed effects-Schätzer für αi werden nicht mit einbezogen, da diese die
Variation zwischen den Beobachtungseinheiten nicht „erklären“.
• Die R2-Maße, die auf Basis von REβ berechnet werden, sind per definitionem
kleiner als diejenigen, die jeweils auf Basis von between, within oder KQ-
Schätzungen bestimmt werden, da letztere Verfahren explizit versuchen, die
Variation der in der Berechnung betrachteten ungewichteten Residuen zu mi-
nimieren. Dies bestätigt, dass das R2 kein geeignetes Kriterium für die Wahl
von Schätzverfahren darstellt.
3.36
3.2.6 Alternative IV-Schätzer
• Nachteil des fixed effect-Schätzers: durch Ausdifferenzieren (ebenso wie im
LSDV-Verfahren) können zeitkonstante erklärende Variablen nicht berück-
sichtigt werden. Das Problem der Korrelation der erklärenden Variablen mit αi
im Modell it it i ity x ' u= μ + β + α + lässt sich auch über IV-Verfahren lösen.
• Der fixed effects-Schätzer kann wie folgt umformuliert werden
( ) ( )( ) ( ) ( )
-1N T N T
FE it i it i it i it ii=1 t=1 i=1 t=1
β = x - x x - x ' x - x y - y∑∑ ∑∑
( ) ( )-1N T N T
it i it it i iti=1 t=1 i=1 t=1
= x - x x' x - x y⎛ ⎞⎜ ⎟⎝ ⎠∑∑ ∑∑ (3.32)
• Ein Vergleich etwa mit dem IV-Schätzer
( )-1N N
IV i i i ii=1 i=1
β = z x' z y∑ ∑
3.37
zeigt, dass (3.32) auch als IV-Schätzer interpretiert werden kann, wobei die
erklärenden Variablen durch ihre eigenen Abweichungen vom beobachtungs-
spezifischen Mittelwert instrumentiert werden: it it iz = x - x .
• Der IV-Schätzer ist konsistent, wenn ( ) it i itE x x u 0− = , was bei strikter
Exogenität von xit folgt. Ebenfalls muss gelten ( ) it i iE x - x α = 0, was durch
die Definition des Instruments selbst bereits gegeben ist. Für Variablen, die
nicht mit αi korreliert sind, ist keine Instrumentierung erforderlich, so dass bei-
spielsweise unkorrelierte zeitkonstante Variablen als ihre eigenen Instrumente
mit berücksichtigt werden können.
• Im Modell
it 1,it 1 2,it 2 1i 1 2i 2 i ity = μ+ x ' β + x' β + w ' γ + w ' γ + α + u (3.33)
3.38
sind die x-Variablen zeitlich variabel und die w-Variablen zeitkonstant. Wir un-
terstellen, dass lediglich die Variablen mit Index 2 mit αi (aber nicht mit uit)
korreliert sind. Der fixed effects-Schätzer könnte nur β1 und β2, aber nicht γ1
und γ2 identifizieren.
• Der Hausman-Taylor-Schätzer würde (3.33) mit folgenden Instrumenten
schätzen: 1,it 2,it 2i 1i 1ix ,x - x ,w und x . Die exogenen x1 und w1 sind ihre eigenen
Instrumente, x2 wird über Differenzierung instrumentiert (wie bei fixed effects)
und w2 über die individuellen Mittelwerte des exogenen x1,it (vorausgesetzt x1
hat mindestens so viele Elemente wie w2). Sonst müssten weitere Instrumen-
te berücksichtigt werden. Auf diese Weise lassen sich alle Parameter identifi-
zieren.
3.39
• Der Schätzansatz wurde von Amemiya und McCurdy (1986) verallgemeinert,
die vorschlagen, auch zeitlich invariable Instrumente 1,i1 1ix - x bis 1,iT 1ix - x zur
Identifikation von γ2 zu nutzen. Breusch et al. (1989) schlagen vor, zusätzlich
2,i1 2ix - x bis 2,iT 2ix - x als Instrument zu nutzen.
3.40
3.2.7 Robuste Inferenz
• Wenn die Zufallsstörterme uit autokorreliert oder heteroskedastisch sind, sind
die Standardfehler und Tests für fixed effects- und random effects-Schätzer
ungültig und die Verfahren nicht mehr effizient.
• Das Problem ist lösbar, indem die Standardfehler für allgemeine Formen von
Heteroskedastie und Autokorrelation korrigiert werden. Im Modell
it it ity = x' β+ ε (3.34)
enthält xit die Konstante und εit hat eine Fehlerkomponentenstruktur (s. 3.2).
• Der gepoolte KQ-Schätzer
( )( )-1N T N T
it it it iti=1 t=1 i=1 t=1
b = x x' x y∑∑ ∑∑ (3.35)
3.41
ist konsistent, wenn
it itE x 0ε = (3.36)
Unter der Voraussetzung, dass die Störterme für verschiedene Beobachtun-gen unkorreliert sind ( )it jsE 0 für alle i jε ε = ≠ , lässt sich die KQ
Kovarianzmatrix durch eine Variante des Newey-West-Schätzers schätzen:
1 1N T N T T N T
it it it is it is it iti 1 t 1 i 1 t 1 s 1 i 1 t 1
ˆ ˆ ˆV b x x ' x x ' x x '− −
= = = = = = =
⎛ ⎞ ⎛ ⎞= ε ε⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠∑∑ ∑∑∑ ∑∑ (3.37)
Auf ähnliche Weise lässt sich die Kovarianzmatrix für den random effects- und
fixed effects-Schätzer umformen.
• Die Schätzer können effizienter werden, wenn konkrete Annahmen über die
Form von Autokorrelation und Heteroskedastie nutzbar sind.
3.42
3.2.8 Heteroskedastie- und Autokorrelationstests
• Tests sind im random effects-Rahmen deutlich komplexer als im fixed effects
(KQ) Zusammenhang. Da fixed effects-Schätzer auch konsistent sind, wenn
die random effects Annahmen zutreffen (d.h. αi ist i.i.d. und unabhängig von
den Regressoren), gelten die fixed effects-Tests auch für random effects-
Schätzzusammenhänge.
• Der Durbin Watson-Test der H0: ρ = 0 gegen H1: ρ < 0 oder ρ > 0 für den
Modellrahmen
uit = ρ ui,t-1 + vit (3.39)
wurde für den Panelfall verallgemeinert. Dabei sind itu die Residuen einer
within- oder LSDV-Schätzung. Die Teststatistik lautet hier
•
•
Bhargav
gigkeit n
Tab. 3.1
Der Tes
va et al. (
nicht nur
1: 5% kri
st gilt glei
(1983) ha
von N un
tische W
chermaß
Pdw =
aben die
nd K, son
Werte für d
ßen für fix
(N T
i 1 t 2
N
i 1
u= =
=
=∑∑
∑
kritische
ndern zus
den Pane
xed- und
)2
it i,t 1
T2
itt 1
ˆ ˆu u
u
−
=
−
∑
en Werte
sätzlich vo
el Durbin-
random e
2
für den P
on T abg
-Watson-
effects-M
Panelfall
geleitet:
-Test
Modell.
3.4
(3.40
in Abhän
43
0)
n-
3.44
• Als Test auf Heteroskedastie lässt sich der Breusch-Pagan-Test für den Pa-
neldatenfall verallgemeinern. Dazu werden die quadrierten Residuen einer fi-
xed effects-Schätzung 2
itu auf eine Konstante und die J erklärenden Variablen
zit der Alternativhypothese
( )2
it itV u h z '= σ α (3.41)
regressiert, wobei H0: α = 0. Die Teststatistik ( ) 2N T -1 R⋅ ist unter H0 asympto-
tisch χ2-verteilt mit J Freiheitsgraden.
3.45
3.3 Illustration: Modelle für individuelle Löhne
• Daten: Amerikanische NLSY Befragung 1980 – 87, 545 Männer, die 1980 die
Schule verließen. Erklärende Variablen sind die Merkmale Schuljahre, Ar-
beitsmarkterfahrung, Gewerkschaftsmitgliedschaft, beschäftigt im öffentlichen
Dienst, verheiratet, schwarz, spanisch.
Tab. 3.22: Schätzzergebnissse der LLohngleicchung
3.4
46
3.47
• Die Tabelle zeigt, dass beim fixed effects-Schätzer die zeitkonstanten Variab-
len aus dem Modell herausfallen. Die geschätzten Koeffizienten variieren zum
Teil sehr stark.
• Wenn αi mit den erklärenden Variablen korreliert ist, sind der random effects-
Schätzer ebenso wie between- und KQ-Schätzer inkonsistent. Dies kann mit-
tels eines Hausman-Tests überprüft werden, der prüft, ob die Koeffizienten
aus random effects- und fixed effects-Schätzung signifikant voneinander ab-
weichen. Die Teststatistik hat den Wert 31,75. Der kritische Wert der χ2-
Verteilung mit 5 Freiheitsgraden am 5%-Niveau beträgt 11,07, so dass
H0: Exit αi = 0 verworfen werden muss.
• Frage: Woraus ergeben sich die 5 Freiheitsgrade?
3.48
• Deutliche Unterschiede finden sich beispielsweise beim Koeffizienten der Va-
riable „married“. Es ist nicht plausibel, dass der Familienstand starke kausale
Lohneffekte hat. Allerdings kann der Familienstand durchaus mit dem un-
beobachteten Effekt korrelieren, wodurch der ohne fixed effects geschätzte
Koeffizient inkonsistent würde. Empirisch ergeben sich deutlich unterschiedli-
che Schätzergebnisse.
• Frage: Warum kann der Koeffizient von married geschätzt werden und der
von black nicht?
• Alle Koeffizienten des fixed effect-Schätzers werden ausschließlich durch Än-
derungen der Werte für gegebene Personen identifiziert (within). Unterschiede
zwischen den Individuen werden durch die Mittelwertbereinigung bei allen Va-
riablen eliminiert.
3.49
• Die KQ-Standardfehler sind nicht korrekt, da sie die Korrelation der Störterme
für gegebene Personen nicht berücksichtigen, sondern alle Beobachtungen
als unabhängig betrachten.
• Die Varianzen 2
ασ und 2
uσ für den FGLS random effects-Schätzer können auf
Basis der within- und between-Schätzer bestimmt werden. Mit 2
Bσ = 0,1209
und 2
uσ = 0,1234 kann 2
ασ als 0,1209 – 0,1234/8 = 0,1055 ermittelt werden. Für
ψ und J ergibt sich dann ψ = 0,1276 und 12ˆ ˆJ = 1-ψ = 0,6428, so dass der
FGLS random effects-Schätzer sich durch Differenzieren mit dem 0,64-fachen
des individuellen Mittelwertes für alle Variablen ergibt (vgl. 3.23). Da beim KQ-
Schätzer J = 0 und beim fixed effects-Schätzer J = 1 unterstellt wird, liegt der
random effects-Schätzer zwischen den beiden.
3.50
• Wie zu erwarten, haben die between-Schätzer den höchsten Wert für das
between R2, der fixed effects- (within-)Schätzer den höchsten Wert für das
within R2 und der KQ-Schätzer das höchste Gesamt-R2. Aber auch die
Schätzgüte des random effect-Schätzers fällt hoch aus.
3.51
3.4 Dynamische lineare Modelle
• Dank Paneldaten kann man Modelle schätzen, bei denen das gegenwärtige
Verhalten von Beobachtungseinheiten als Funktion ihres früheren Verhaltens
betrachtet wird, was in vielen theoretischen Ansätzen unterstellt wird. Der
Zeitindex läuft nun von 0 bis T: t = 0, 1, ..., T.
3.52
3.4.1 Ein autoregressives Paneldatenmodell
• Unser Modell sei
( )2
it it i,t 1 i it it uy x ' y u wobei u ~ IID 0,−= β + γ + α + σ
Da auch yi,t-1 von αi abhängt, sind die Ergebnisse für statische Modelle nicht
einfach zu übertragen. Dies lässt sich an einem vereinfachten Modell zeigen.
• Der fixed effects-Schätzer für γ in
it i,t 1 i ity y u , 1−= γ + α + γ < . (3.42)
lautet
( ) ( )
( )
N T
it i i,t -1 i,-1i=1 t=1
FE N T2
i,t -1 i,-1i=1 t=1
y - y y - yˆ =
y - yγ
∑∑
∑∑ (3.43)
3.53
wobei T
i itt=1
1y = y
T∑ und
T
i,-1 i,t -1t=1
1y = y
T∑ . Setzt man (3.42) in (3.43) ein, ergibt sich
( ) ( )
( )
N T
it i i,t -1 i,-1i=1 t=1
FE N T2
i,t -1 i,-1i=1 t=1
1u - u y - y
NTˆ = +1
y - yNT
γ γ∑∑
∑∑ (3.44)
• Dieser Schätzer ist bei gegebenem T für N → ∞ verzerrt und inkonsistent. Es
lässt sich zeigen, dass FEγ bei gegebenem T inkonsistent ist, weil die trans-
formierte verzögerte endogene erklärende Variable mit dem transformierten
Störterm korreliert ist. Wenn T → ∞ ist der Schätzer ist konsistent. Die Verzer-
rung kann jedoch auch bei größeren T noch substantiell sein.
• Die Lösung für das Problem beginnt mit einer first difference-Transformation
für den fixed effects-Schätzer, die αi ausdifferenziert:
3.54
( ) ( )it i,t 1 i,t 1 i,t 2 it i,t 1y y y y u u− − − −− = γ − + − , t = 2,…,T. (3.46)
• Eine KQ-Schätzung dieses Modells wäre selbst bei T → ∞ inkonsistent, da
yi,t–1 und ui,t–1 korreliert sind. Es bietet sich jedoch ein IV-Schätzer an. Solange
uit nicht autokorreliert ist, was wir unterstellt haben, ist yi,t–2 wohl mit
( )2t,i1t,i yy −− − , aber nicht mit ui,t–1 korreliert. Ein möglicher IV-Schätzer für γ ist:
( )
( )
N T
i,t -2 it i,t -1i=1 t=2
IV N T
i,t -2 i,t -1 i,t -2i=1 t=2
y y - yˆ =
y y - yγ
∑∑
∑∑
(3.47)
• Dieser ist konsistent, wenn für T → ∞ und N → ∞
( ) ( )
N T
it i,t 1 i,t 2i 1 t 2
1plim u u y 0
N T 1 − −= =
− =− ∑∑ (3.48)
3.55
• Alternativ kann statt yi,t–2 auch ( )i,t -2 i,t -3y - y als Instrument genutzt werden.
Dann lautet der Schätzer
( ) ( )
( ) ( )
N T
i,t 2 i,t 3 it i,t 1(2) i 1 t 3IV N T
i,t 2 i,t 3 i,t 1 i,t 2i 1 t 3
y y y yˆ
y y y y
− − −= =
− − − −= =
− −γ =
− −
∑∑
∑∑, (3.49)
der konsistent ist, wenn
( ) ( ) ( )
N T
it i,t 1 i,t 2 i,t 3i 1 t 3
1plim u u y y 0.
N T 2 − − −= =
− − =− ∑∑ (3.50)
Solange uit nicht autokorreliert ist, trifft dies zu. Sonst ist yit-2 mit uit-1 = ρuit-2 +
υit-1 korreliert und das Instrument ungültig. Durch die verzögerten Werte yi,t–3
geht im Vergleich zum ersten IV-Schätzer eine Beobachtung pro „i“ verloren.
Beide, (3.47) und (3.49) sind als Anderson-Hsiao Schätzer bekannt.
3.56
• Mit Hilfe eines Method of Moments-Ansatzes können beide IV-Schätzer
gleichzeitig verwendet werden, da
( ) ( ) ( )
N T
it i,t 1 i,t 2 it i,t 1 i,t 2i 1 t 2
1plim u u y E u u y 0
N T 1 − − − −= =
− = − =− ∑∑ (3.51)
und
( ) ( ) ( ) ( )( ) N T
it i,t 1 i,t 2 i,t 3 it i,t 1 i,t 2 i,t 3i 1 t 3
1plim u u y y E u u y y 0
N T 2 − − − − − −= =
− − = − − =− ∑∑ (3.52)
unabhängige Momentenbedingungen sind.
• Da die Momentenschätzer mit wachsender Zahl von Momentenbedingungen
an Effizienz gewinnen, haben Arrellano und Bond (1991) vorgeschlagen,
weitere Bedingungen in Abhängigkeit von T zu berücksichtigen. Bei z.B. T =
4, gilt:
3.57
für t = 2 gilt ( ) i2 i1 i0E u u y 0− = ,
für t = 3 gelten sowohl ( ) i3 i2 i1E u u y 0− =
als auch ( ) i3 i2 i0E u u y 0− = ,
für t = 4 gibt es 3 Instrumente: ( ) i4 i3 i0E u u y 0− =
( ) i4 i3 i1E u u y 0− =
( ) i4 i3 i2E u u y 0− = .
• Der GMM-Schätzer nutzt also den Vektor transformierter Störterme
i2 i1
i
i,T i,T 1
u u
u
u u −
−⎛ ⎞⎜ ⎟Δ = ⎜ ⎟⎜ ⎟−⎝ ⎠
(3.53)
und Zi als Matrix der Instrumente
3.58
[ ][ ]
[ ]⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
=
−2T,i0i
1i0i
0i
i
y,y00
0y,y0
00y
Z
,
(3.54)
so dass
i iE Z ' u 0Δ = . (3.55)
• Insgesamt gibt es 1 + 2 + 3 + … + T–1 Momentenbedingungen:
( ) i i i,-1E Z' Δy Δy = 0− γ
(3.56)
Hinweis: ( ) ( ) ( )it it 1 it 1 it 2 it it 1y y y y u u .− − − −− − γ − = −
• γ wird geschätzt durch Minimieren von
( ) ( )N N
i i i, 1 N i i i, 1i 1 i 1
1 1min Z' y y ' W Z' y y
N N− −γ= =
⎡ ⎤ ⎡ ⎤Δ − γ Δ Δ − γ Δ⎢ ⎥ ⎢ ⎥⎣ ⎦ ⎣ ⎦∑ ∑ (3.57)
3.59
wobei WN eine symmetrische, positiv-definite Gewichtungsmatrix ist.
• Für γ ergibt sich
( ) ( )( ) ( ) ( )-1N N N N
GMM i,-1 i N i i,-1 i,-1 i N i ii=1 i=1 i=1 i=1
ˆ = Δy' Z W Z'Δy Δy' Z W Z'Δyγ ∑ ∑ ∑ ∑ (3.58)
was konsistent ist, solange WN positiv definit ist. Die optimale Gewichtungs-
matrix ist proportional zur invertierten Kovarianzmatrix der Stichprobenmo-
mente. Das bedeutet hier
-1 -1
N i i i i i iN
plimW = V Z'Δu = E Z'ΔuΔu' Z→∞
. (3.59)
Dies lässt sich im Standardfall schätzen als
-1
Nopt
N i i i ii=1
1ˆ ˆ ˆW = Z'Δu Δu' ZN⎛ ⎞
∑⎜ ⎟⎝ ⎠
(3.60)
3.60
• Wenn zusätzlich die Restriktion genutzt wird, dass die Störterme weder auto-
korreliert noch heteroskedastisch sind, vereinfacht sich die Vorgehensweise.
3.61
3.4.2 Dynamische Modelle mit exogenen Variablen
• Auch das Modell
it it i,t 1 i ity x ' y u−= β + γ + α + (3.64)
lässt sich per GMM schätzen. Wenn die xit strikt exogen sind, gilt
is itE x Δu = 0 für alle s,t (3.65)
und die xi1,…,xiT sind zusätzliche Instrumente, die weitere Zeilen in Zi bilden
können.
• Alternativ und zur Effizienzsteigerung können auch die ersten Differenzen
von xit als Instrumente genutzt werden:
it itE x u 0 für alle t.Δ Δ = (3.66)
3.62
Dann folgt für die Matrix der Instrumente:
[ ][ ]
[ ]⎟⎟⎟⎟⎟
⎠
⎞
⎜⎜⎜⎜⎜
⎝
⎛
Δ
Δ
Δ
=
− iT2T,i0i
3i1i0i
2i0i
i
'x,y,y00
0'x,y,y0
00'x,y
Z
• Sind die xit nicht strikt exogen (unkorreliert mit allen uis), betrachtet man
predeterminierte xit: xit und xi,t–1 sind unkorreliert mit uit, aber möglicherweise
korreliert mit früheren Ausprägungen von ui. it isE x u 0= gilt nur für s ≥ t.
• Statt der ersten Differenzen lauten die Momentenbedingungen dann
i,t j itE x u 0 für j 1, ,t 1− Δ = = −… (für alle t). (3.67)
3.63
• Wenn sowohl strikt exogene als auch predeterminierte xit Variablen berück-
sichtigt werden, können beiden Arten von Momentenbedingungen kombiniert
werden.
• Neben dem Sargan Test, der die Gültigkeit der Gesamtheit der
Momentenbedingungen überprüft, werden im Rahmen von dynamischen Pa-
nelmodellen auch Tests auf Autokorrelation der Residuen uit durchgeführt.
Wenn uit einem AR(1)-Prozess folgt, kann yit-2 bei einem Störterm Δuit nicht
exogen sein.
• Der Arellano Bond Test auf Autokorrelation wird mit den Residuen in ersten
Differenzen durchgeführt. Dabei sind Δuit und Δuit-1 wegen uit-1 automatisch
korreliert. AR(1) in uit würde sich in AR(2)-Prozessen in ersten Differenzen
spiegeln und dies wird getestet, um die Gültigkeit der Instrumente zu prüfen.
3.64
3.5 Illustration: Lohnelastizität der Arbeitsnachfrage (Verbeek 2.A.)
• Daten: 2800 große belgische Unternehmen 1986 – 1994
• Das statische Arbeitsnachfragemodell lautet für Unternehmen i im Jahr t
it 1 2 it 3 it 4 it 5 jt itlogL = β +β logw +β logK +β logY +β logw + ε
L ist die Arbeitsnachfrage, w der Lohn, K und Y sind Kapitalstock und Output,
wjt ist der Branchendurchschnittslohn, der Rückschlüsse auf die Verhand-
lungsmacht der Gewerkschaft zulässt. Die Gleichung gilt für die lange Frist
und lässt Anpassungskosten unberücksichtigt.
• Für die kurze Frist sind Anpassungsreaktionen von Interesse und das Modell
lautet:
it 1 2 it 3 it 4 it 5 jt i,t -1 i itlogL = β +β logw +β logK +β logY +β logw + γ logL + α + u
3.65
• Die Fehlertermkomponente αi beschreibt unbeobachtete unternehmensspezi-
fische zeitkonstante Heterogenität. αi kann durch Differenzenbildung elimi-
niert werden, aber das resultierende Modell kann nicht konsistent mit KQ ge-
schätzt werden: Zum einen korrelieren i,t -1Δlog L und itΔu , zum anderen sind
die Löhne potentiell endogen. Da diese gleichzeitig mit der Arbeitsnachfrage
L bestimmt werden, ist zu erwarten, dass it itE Δlogw Δu 0≠ . itΔlogw kann
mit i,t -2logw , i,t -3logw ,... ähnlich instrumentiert werden wie i,t -1ΔlogL .
• Die Schätzergebnisse für das statische und dynamische Modell (beide in ers-
ten Differenzen) finden sich in Tab. 3.3. In beiden Fällen wurde log wit instru-
mentiert.
• Es wird ein Arellano Bond-Verfahren genutzt und alle Momentenbedingungen
für log L und log w ab t-3 werden verwendet.
•
Tab. 3.3
Der ov
Moment
3.a Arbeit
veridenti
tenbeding
ξ =
tsnachfra
ifying r
gungen e
( GMMˆN g 'θ
ageschätz
restrictio
erfüllt sind
) (Opt
M W g
zungen
ons tes
d. Die Te
( )GMMθ ξ
t (Sarg
eststatisti
2
R K−ξ χ∼
an Test
k lautet
t) prüft,
3.6
ob di
66
ie
3.67
wobei ( )ˆg θ die an den Schätzwerten bewerteten Momentenbedingungen dar-
stellen. Die Freiheitsgrade der χ2-Teststatistik ergeben sich aus der Anzahl
der Restriktionen minus der geschätzten Parameterzahl (R – K). Die Bedin-
gungen werden für beide Modelle am 5%-Niveau von den Daten verworfen.
Daher sind die Koeffizienten nicht konsistent geschätzt.
• Der verzögerte Arbeitsnachfrageterm hat einen statistisch signifikanten Koef-
fizienten. Die Lohnelastizität ist sowohl im statischen wie auch im dynami-
schen Modell recht hoch.
• Der Arellano Bond Test auf AR(2) in Δuit ergibt für das statische Modell eine
z-Statistik von -1,055 und für das dynamische Modell von -1,379 und somit
kein Problem.
3.68
3.6 Illustration: Kapitalstruktur von Unternehmen
• Flannery und Rangan (2006) untersuchen den Anpassungsprozess in der
Fremdkapitalquote (MDR) von Unternehmen. Fremdkapitalfinanzierung birgt
finanzielle Risiken, hat aber steuerliche Vorteile. Man definiert
itit
it it it
DMDR
D S P=
+
wobei Dit der Buchwert des Fremdkapitals von Unternehmen i in Periode t ist.
S ist die Anzahl und P der Preis der eigenen Aktien.
• Es wird unterstellt, dass ein Unternehmen eine latente, d.h. unbeobachtbare
Zielgröße itMDR∗ hat, die von den Charakteristika des Unternehmens in der
Vorperiode t-1 bestimmt werden:
it i, t 1 itMDR x '∗−= β + η
3.69
η ist ein Störterm mit Erwartungswert Null.
• Die Anpassung an die Zielgröße kann wie folgt modelliert werden:
( )( )it i, t 1 it i, t 1MDR MDR 1 MDR MDR , mit 0 1.∗− −− = − γ − ≤ γ ≤
Wir unterstellen für alle Unternehmen einen einheitlichen Wert γ. Wenn γ = 0,
erfolgt kurzfristig eine vollständige Anpassung an itMDR∗ .
• Setzt man für itMDR∗ ein, ergibt sich
( ) ( )it i, t 1 i, t 1 itMDR MDR x ' 1 1 .− −= γ + β − γ + − γ η
• Lässt man zeitkonstante unbeobachtete Unternehmenseffekte αi zu, ergibt
sich ein dynamisches Panelmodell:
it i, t 1 i, t 1 i itMDR MDR x' * .− −= γ + β + α + η (3.68)
3.70
• Es werden Daten von 3777 Unternehmen für die Jahre 1987-2001 in Form
eines unbalanced panel verwendet. Die Variablen lauten:
ebit_ta Gewinne vor Zinsen und Steuern geteilt durch Summe der Aktiva
mb Markt geteilt durch Buchwert der Aktiva
dep_ta Abschreibungen geteilt durch Summe des Anlagevermögens
log(ta) Logarithmus der Gesamtaktiva
fa_ta Anteil Anlagevermögen
rd_ta F&E Ausgaben geteilt durch Gesamtaktiva (0 wenn missing)
rd_dum Indikator (=1) wenn rd_ta fehlt
inmedian Branchendurchschnitt für Fremdkapitalquote
rated Unternehmen wurde geratet (=1)
• Tabelle 3.3.b weist KQ, within und first difference Schätzergebnisse aus:
3.71
Variable OLS within first-difference
MDRt-1 0,884 0,535 -0,114 (0,005) (0,012) (0,012)
ebit_ta -0,032 -0,050 -0,045 (0,007) (0,011) (0,010)
mb 0,0016 0,0023 0,0028 (0,0007) (0,0010) (0,0011)
dep_ta -0,261 -0,124 0,110 (0,035) (0,071) (0,079)
log(ta) -0,0007 0,038 0,064 (0,0006) (0,003) (0,005)
fa_ta 0,020 0,059 0,106 (0,006) (0,017) (0,018)
rd_dum 0,007 0,0001 -0,017 (0,002) (0,0081) (0,009)
rd_ta -0,120 -0,066 -0,059 (0,013) (0,026) (0,029)
inmedian 0,032 0,167 0,182 (0,010) (0,022) (0,026)
rated 0,007 0,021 0,009 (0,003) (0,006) (0,007)
within R2 0,340 between R2 0,641 overall R2 0,741 0,563 0,028
3.72
• Die Schätzer sind alle bei gegebenem T und N → ∞ inkonsistent (warum?).
KQ sollte (für γ > 0) γ überschätzen, der within-Schätzer sollte γ unterschätzen
(vgl. 3.44).
• Die Schätzergebnisse in Tabelle 3.3.b variieren deutlich; gemäß KQ beträgt
die jährliche Anpassung an die Zielquote 11,7%, nach within-Schätzung sind
es 46,5% und die first difference Schätzung ist kaum sinnvoll interpretierbar.
Wir vermuten somit einen wahren Wert zwischen 11,7 und 46,5 Prozent.
• Auch andere Schätzergebnisse fallen deutlich unterschiedlich aus (z.B. für
log(ta)).
• Tabelle 3.4 weist die Anderson-Hsiao (AH) und Arellano-Bond (AB) Ergebnis-
se aus:
3.73
Anderson-Hsiao IV Arellano-Bond GMM Variable IV (3.49) IV (3.47) one-step two-step
MDRt-1 7,033 1,358 0,749 0,772 (7,325) (0,091) (0,032) (0,036)
ebit_ta 1,208 0,203 0,099 0,098 (1,305) (0,026) (0,012) (0,015)
mb 0,244 0,047 0,029 0,026 (0,247) (0,004) (0,002) (0,002)
dep_ta -1,858 -0,227 -0,066 -0,003 (2,116) (0,151) (0,087) (0,106)
log(ta) -0,521 -0,053 0,005 0,003 (0,607) (0,013) (0,005) (0,007)
fa_ta -1,091 -0,166 -0,062 -0,052 (1,238) (0,039) (0,021) (0,025)
rd_dum -0,023 -0,021 -0,0178 -0,017 (0,079) (0,016) (0,0100) (0,11)
rd_ta 0,882 0,127 0,064 0,055 (1,038) (0,050) (0,037) (0,035)
inmedian -3,378 -0,584 -0,061 -0,095 (3,668) (0,061) (0,034) (0,032)
rated -0,272 -0,052 -0,021 -0,029 (0,294) (0,012) (0,008) (0,008)
Overidentifying restrictions test (df = 104) 887,17 (p = 0,0000) 437,11 (p = 0,0000)
Test for second order autocorrelation in Δuit -3,39 (p = 0,0007) -2,73 (p = 0,0063)
instruments ΔMDRt-2 MDRt-2 MDRt-2, MDRt-3, … (for each t)
3.74
• Der AH-Schätzer wurde mit verschiedenen Instrumentvariablen durchgeführt,
was zu deutlich unterschiedlichen Ergebnissen führte. Die Ergebnisse mit
MDRi,t-2 als Instrument wirken realistischer, obgleich ˆ 1γ > .
• Frage: Was versteht man unter schwachen Instrumenten?
• Um zu überprüfen, ob im AH Schätzer schwache Instrumente vorliegen,
wurde MDRi,t-1 auf Δxi,t-1 sowie jeweils das Instrument regressiert. Der Koeffi-
zient für ΔMDRi,t-2 war insignifikant, somit ist dieses Instrument schwach. Der
Koeffizient für MDRi,t-2 war hoch signifikant. Der unplausible Wert von
ˆ 1,358γ = lässt sich u.U. durch Autokorrelation in uit erklären.
• Der AB-Schätzer verwendet zusätzliche verzögerte Werte von MDR als In-
strument für MDRi,t-1 in einer Schätzgleichung in ersten Differenzen. Die ein-
und zweistufigen Ergebnisse unterscheiden sich in der verwendeten Gewich-
3.75
tungsmatrix (mit oder ohne Korrektur für nicht-sphärische Störterme, d.h. für
Autokorrelation oder Heteroskedastie).
• Die Ergebnisse sind vergleichbar und implizieren Anpassungsraten von 25,1
und 22,8 Prozent.
• Der unter Homoskedastie gültige Sargan-Test ist für beide Schätzer signifi-
kant. Dies bedeutet, dass nicht alle Momentenbedingungen zutreffen, d.h. wir
verwenden ungültige Instrumentvariablen.
• Zusätzlich kann Autokorrelation in Δuit nicht verworfen werden.
• Insgesamt ergibt keines der verwendeten Verfahren überzeugende Ergebnis-
se.
3.76
• Wenn der wahre Koeffizient γ nahe eins ist, sind die verzögerten MDR-Werte,
die von AB als Instrumente verwendet werden, für das Modell in ersten Diffe-
renzen ungeeignet. Niveaugrößen aus der Vergangenheit können kaum zu-
künftige Änderungen erklären. Arellano und Bover (1995) und Bundell und
Bond (1998) schlagen vor, in dieser Situation die nicht differenzierte Glei-
chung simultan mit zu schätzen und hierfür verzögerte Werte in ersten Diffe-
renzen als Instrument zu verwenden (System-GMM-Schätzer).
3.77
Literatur
Bond, Stephen R., 2002, Dynamic Panel Data Models: A Guide to Micro Data methods and Practice, Portuguese Economic Journal 1, 141 – 162.
Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and Applications, Cambridge: Cambridge University Press. Kapitel 21, 22
Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata, Stata Press. Kapitel 8, 9
Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice Hall, 6. Auflage. Kapitel 9, 12.8 und 15.6.
Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley & Sons, 3. Auflage. Kapitel 10.1 - 10.5
Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, Cambridge: The MIT Press. Kapitel 10
4–1
Kapitel 4: Evaluationsverfahren
4.1 Evaluationsproblem und kausale Effekte
4.2 Evaluation bei "selection on observables"
4.3 Beispielstudien
4.4 Evaluation bei "selection on unobservables"
4.5 Beispielstudie
4–2
4.1 Evaluationsproblem und kausale Effekte
4.1.1 Kausale Effekte einer Intervention
• Beispiele für Interventionen und ihre Effekte:
- staatliche Zuschüsse für Investitionen auf die Investitionstätigkeit
- Präventionskampagne auf das Auftreten einer Krankheit
- Fortbildungsmaßnahme auf Beschäftigungschancen.
• Wir sprechen von einem Treatment durch die Intervention und sind daran in-
teressiert, wie das Treatment die Ergebnisvariablen (outcomes) der Wirt-
schaftssubjekte verändert.
• Beispiel: Um die Wirkung von Fortbildung auf Beschäftigung quantifizieren zu
4–3
können, müssen wir wissen, wie sich die Beschäftigung sowohl mit als auch
ohne Treatment entwickelt hätte.
• Wir definieren für Beobachtungseinheit i:
i
1 bei TreatmentD
0 ohne Treatment
⎧= ⎨⎩
( )( )( )
i
i
i
y 1 Ergebnisvariable bei Treatmenty
y 0 Ergebnisvariable ohneTreatment
⎧⎪⋅ = ⎨⎪⎩
• Das beobachtete Ergebnis (outcome) für i lautet:
( ) ( ) ( )i i i i iy D y 1 1 D y 0 .= ⋅ + − ⋅
• Der kausale Effekt des Treatments ist:
( ) ( )i i iy 1 y 0 ,Δ = −
4–4
wobei es nicht möglich ist, für ein i sowohl yi(1) als auch yi(0) zu beobachten.
Es fehlt immer die kontrafaktische Evidenz.
• yi(1) und yi(0) stellen potentielle Ergebnisse dar. Daher spricht die Literatur
vom potential outcome approach, auch Roy-Rubin-Modell genannt.
• Um kausale Treatmenteffekte individuell bestimmen zu können, müssten wir
für eine Beobachtungseinheit zum gleichen Zeitpunkt die abhängige Variable
yi mit und ohne Treatment messen können, was unmöglich ist.
• Man unterscheidet verschiedene Erwartungswerte des Treatmenteffektes:
(i) Durchschnittlicher Treatmenteffekt in der Bevölkerung (Average Treat-
ment Effect, ATE):
[ ] ( ) ( )i i iE E y 1 E y 0⎡ ⎤ ⎡ ⎤Δ = −⎣ ⎦ ⎣ ⎦ .
4–5
(ii) Durchschnittlicher Treatmenteffekt für eine ausgewählte Personengrup-
pe, z.B. Personen ohne Berufsausbildung:
[ ] ( ) ( )i i i i i i i i iE |X x E y 1 | X x E y 0 | X x⎡ ⎤ ⎡ ⎤Δ = = = − =⎣ ⎦ ⎣ ⎦ .
(iii) Treatmenteffekt für die Gruppe von Personen, die das Treatment erhält:
( ) ( )i,ATT i i i iE E y 1 | D 1 E y 0 | D 1⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦ ,
(Average Treatment Effect on the Treated, ATT). Da sich Maßnah-
men oft auf ausgewählte Personengruppen konzentrieren, wird der ATT
oft untersucht.
(iv) Treatmenteffekt für diejenigen, deren Teilnahme am Treatment durch
die Ausprägung einer Größe Z determiniert wurde, d.h. die bei Ausprä-
gung Zi* Treatment erhalten, aber nicht bei Ausprägung Zi**:
4–6
E [Δi, LATE] = E [yi(1) – yi(0) | Di(Zi*) = 1, Di(Zi**) = 0].
Man spricht vom Local Average Treatment Effect (LATE).
• Für welchen Treatmenteffekt wir uns interessieren, hängt vom Einzelfall ab.
ATE misst einen durchschnittlichen Effekt, wenn Programme z.B. für ganze
Regionen eingeführt oder abgeschafft werden. ATT schließt Personen von der
Betrachtung aus, die nicht teilnehmen können.
• Wichtig: Wir können die gleiche Einheit nie in beiden Situationen beobachten
und nie gleichzeitig das Ergebnis mit und ohne Treatment feststellen. Dies ist
das fundamentale Problem kausaler Inferenz oder das fundamentale Eva-
luationsproblem: die kontrafaktische Situation, d.h. y(0) für die Treated
und y(1) für die Non-Treated, ist unbeobachtbar. Daher müssen wir Annah-
4–7
men treffen, um Treatmenteffekte zu identifizieren und zu schätzen.
4–8
4.1.2 Identifikation der Effekte
• Um die Effekte identifizieren zu können, muss in den meisten Fällen eine Se-
lektionsproblematik gelöst werden. Würden wir einfach Einheiten mit und oh-
ne Treatment vergleichen, z.B. um den ATT zu schätzen, dann würde gelten:
( ) ( )( ) ( ) ( ) ( )
( ) ( )
i i i i
i i i i i i i i
i,ATT i i i i
Bias
E y 1 |D 1 E y 0 |D 0
E y 1 |D 1 E y 0 |D 1 E y 0 |D 1 E y 0 |D 0
E E y 0 |D 1 E y 0 |D 0
⎡ ⎤ ⎡ ⎤= − =⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤ ⎡ ⎤ ⎡ ⎤= = − = + = − =⎣ ⎦ ⎣ ⎦ ⎣ ⎦ ⎣ ⎦⎡ ⎤ ⎡ ⎤ ⎡ ⎤= Δ + = − =⎣ ⎦ ⎣ ⎦⎣ ⎦
• Der zweite Term der rechten Seite der Gleichung wäre eine Verzerrung
(Bias), wenn das erwartete (kontrafaktische) Ergebnis für die Treated ohne
Politikintervention nicht den gleichen Wert annimmt wie für die Non-Treated.
4–9
• Genau das erwarten wir, wenn das Treatment nicht zufällig stattfindet. Dann
hängt die Wahrscheinlichkeit eines Treatments von beobachtbaren und
unbeobachtbaren Faktoren ab, die ebenfalls einen Einfluss auf die Ergebnis-
variable y(0) ohne Intervention haben können.
• Beispiel: Lohnwirkung eines studentischen Auslandsaufenthaltes; hier könnte
man vermuten ( ) ( )i i i iE y 0 | D 1 E y 0 | D 0⎡ ⎤ ⎡ ⎤= ≠ =⎣ ⎦ ⎣ ⎦ .
• Unter diesen Bedingungen gibt es verschiedene Möglichkeiten, den ATT zu
identifizieren:
(a) Experimentell: Aus einer Gruppe von Personen, die für das Treatment in
Frage kommen, werden zufällig Personen ausgewählt (random
assignment), die die Intervention erhalten. Die restlichen Personen die-
4–10
ser Gruppe bilden die Vergleichsgruppe (control group). Der
Treatmenteffekt ergibt sich als Differenz zwischen dem Mittelwert der Er-
gebnisvariable der Treatment- und der Vergleichsgruppe.
Beachte: Nicht jedes Experiment genügt den Bedingungen. Sofern
Treatments abgebrochen werden oder nicht ausgewählte Kandidaten sich
Ersatztreatments suchen oder ausgewählte Kandidaten nicht vollständig
kooperieren (non-compliance), ist die Zufälligkeit eingeschränkt. Oft sind
Experimente auch aus ethischen oder gesetzlichen Gründen nicht mög-
lich.
(b) Nicht-experimentell: Das Evaluationsproblem lässt sich als zweistufiges
Gleichungssystem beschreiben:
4–11
• Eine Selektionsgleichung beschreibt den Prozess der Auswahl
(assignment rule) ins Treatment. Der Selektionsprozess kann sowohl vom
Verhalten der Personen selbst als auch von anderen Akteuren abhängen, die
über Treatments entscheiden.
Stufe 1: Selektionsgleichung *i i
*i
i *i
D ' z
1 falls D 0D
0 fallsD 0
= α + ε
⎧ >⎪= ⎨≤⎪⎩
Di* ist die latente, Di die beobachtete Variable.
• Frage: Welchen Wert sollte α bei random assignment annehmen?
• Beispiel: Ob es zu einer Fortbildung für eine arbeitslose Person kommt,
4–12
hängt davon ab, ob die Person an der Fortbildung teilnehmen will und davon,
ob die Arbeitsagentur die Fortbildung des Arbeitslosen finanziert.
• Die Outcomegleichungen beschreiben, wie verschiedene Faktoren die Er-
gebnisvariable determinieren, die durch das Treatment beeinflusst wird.
Stufe 2: Outcomegleichungen (bspw.)
( )( )
'i 1 1 i i,1 i
'i 0 0 i i,0 i
y 1 x u falls D 1
y 0 x u falls D 0
= γ + β + =
= γ + β + =
• Diese Spezifikation der Outcomegleichungen unterstellt, dass das Treatment
für alle i in gleicher Weise sowohl die Konstante als auch die Parameter der
Regressoren beeinflusst. Falls es nur einen konstanten, homogenen
Treatmenteffekt gibt, hätten wir
4–13
'i 0 i 0 i iy D x u= γ + Δ ⋅ + β + .
• Frage: Wie sähe ein Modell für einen konstanten heterogenen
Treatmenteffekt aus?
• Wir treffen nun noch zwei Annahmen:
(a) Das Treatment beeinflusst das Verhalten der Wirtschaftssubjekte nicht
bereits bevor die Politikintervention stattfindet.
(b) Stable Unit Treatment Value Assumption (SUTVA): Die potentiellen
Outcomes und Treatments einer Beobachtungseinheit i sind unabhängig
von potentiellen Treatments und Outcomes aller anderen Beobachtungs-
einheiten j = 1, …, n mit j ≠ i, d.h.:
4–14
( ) ( )( ) ( )
i 1 2 n i i
i 1 2 i n 1 n i i i
D z ,z ,...,z D z
y z ,z ,...,z ,...,z ,D ,...,D y z ,D
=
=
Es gibt also keine Zusammenhänge zwischen den verschiedenen Einhei-
ten und auch keine allgemeinen Gleichgewichtseffekte. Das Outcome der
Person i hängt nicht vom Treatment-Status anderer Personen ab. Das
Treatment von i beeinflusst nur die Outcomes von i.
• Beispiel: Die Lohnwirkung eines studentischen Auslandsaufenthaltes ist unter
SUTVA unabhängig davon, wie viele Studierende im Ausland waren.
• Wie können wir in der nicht-experimentellen Situation Treatmenteffekte schät-
zen?
Fall 1: Kein systematischer Zusammenhang zwischen den Störtermen der
4–15
Outcome- und Selektionsgleichung; Selektion nur aufgrund von beobachtba-
ren Faktoren. Man spricht von selection on observables, unconfounded-
ness, Exogenität, ignorability, conditional independence. Der Treatmenteffekt
ist dann für die oben spezifizierten Outcomegleichungen:
( ) ( ) ( ) ( )i i i i i i 1 0 1 0 iE y 1 | D 1,x E y 0 | D 0,x ' x⎡ ⎤ ⎡ ⎤= − = = γ − γ + β − β⎣ ⎦ ⎣ ⎦ .
Lösungsansatz: Regressions- oder Matchingverfahren.
Fall 2: Systematischer Zusammenhang zwischen den Störtermen der
Outcome- und Selektionsgleichung, z.B. Personen mit besonders hohem
Outcome-Wert haben eine besonders hohe Wahrscheinlichkeit das Treatment
zu erhalten; es gibt Selektion aufgrund unbeobachteter Faktoren. Man spricht
von selection on unobservables, Endogenität, non-ignorability.
4–16
Lösungsansätze: Bei natürlichen Experimenten difference-in-differences
Schätzer, Instrumentvariablen, regression discontinuity design, control-
function Ansatz.
• Unterschieden wird, ob der Treatmenteffekt für alle einheitlich ausfällt, oder
über die Individuen hinweg heterogen ist. Bei homogenem Effekt gilt automa-
tisch: ATE = ATE | (X = xi) = ATT.
• Ursprünglich betrachtete die Literatur nur mittlere Effekte. Bei heterogenen Ef-
fekten sind auch die Verteilung von potential outcomes und ihre Quantile von
Interesse.
4–17
4.2 Evaluation bei "selection on observables"
4.2.1 Grundidee des Matching-Schätzers
• In einem Experiment vergleichen wir die Outcomes von zufällig bestimmten
Treated und Non-Treated, um den Average Treatment Effect on the Treated
(ATT) zu bestimmen. Diese Situation wird in der nicht-experimentellen Welt
nachgestellt, da experimentelle Daten fehlen.
• Wir ordnen dazu jeder Person mit Treatment eine (oder mehrere) Vergleichs-
person(en) zu, so dass es in dieser Paarung (match) Zufall ist, wer das
Treatment erhalten hat. Dann können wir (wie im Experiment) durch den Ver-
gleich der mittleren Outcomes der Treated und zugeordneten Vergleichsper-
sonen den ATT konsistent schätzen:
4–18
( ) ( )i,ATT i i i iE E y 1 |D 1 E y 0 | D 1⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦
• Eine Schätzung des ATT durch Mittelwertvergleich der Outcomes von Treated
und allen potentiellen Vergleichspersonen
( ) ( )i,ATT i i i iE E y 1 | D 1 E y 0 |D 0⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦
ist verzerrt, wegen der potentiellen Selektion ins Treatment:
( ) ( )i i i iE y 0 | D 1 E y 0 | D 0⎡ ⎤ ⎡ ⎤= ≠ =⎣ ⎦ ⎣ ⎦ .
• Zentrale identifizierende Annahme des Matching Verfahrens: Conditional In-
dependence Assumption (CIA) / Unconfoundedness
( ) ( )y 0 ,y 1 D | x
bedeutet “unabhängig von”. CIA impliziert, dass gegeben den Vektor von
4–19
beobachtbaren Faktoren (x), die Outcomes mit und ohne Treatment nicht von
der Selektion ins Treatment beeinflusst sind. x enthält alle beobachtbaren Va-
riablen, die sowohl die Selektion ins Treatment als auch das Outcome deter-
minieren, die nicht vom Treatment beeinflusst sind und vor dem Zeitpunkt des
Treatments gemessen werden.
• Implikation: Wenn wir das Ergebnis einer Person mit Treatment mit dem Er-
gebnis einer anderen, bezüglich x äquivalenten Person ohne Treatment (ein
„statistischer Zwilling“) vergleichen, dann geht der Unterschied zwischen den
Ergebnissen ausschließlich auf das Treatment zurück und nicht auf die Selek-
tion ins Treatment. Gegeben x ist das assignment zufällig.
• Unbeobachtbare Unterschiede zwischen den beiden Personen könnten be-
wirken, dass sich ihre Outcomes unterscheiden. Wenn jedoch x genügend
4–20
Variablen enthält, die in einem systematischen Zusammenhang mit
unbeobachtbaren Determinanten der Outcomes stehen, kann es gelingen,
dass die beiden Personen auch bezüglich unbeobachtbarer Determinanten
„Zwillinge“ sind.
• Wir könnten prinzipiell jeder Beobachtungseinheit, die ein Treatment erhalten
hat, eine Beobachtungseinheit aus der Gruppe der Non-Treated zuordnen.
Ein Mittelwertvergleich der Outcomes schätzt den Treatmenteffekt. Dies wäre
ein exaktes Matching.
• Wie unterscheidet sich exaktes Matching von linearer Regression, die genau-
so die Determinanten des Treatments x konstant hält und ebenfalls "selection
on observables" unterstellt? Die Regression unterstellt eine lineare additive
funktionale Form für den Treatmenteffekt und den Einfluss der x.
4–21
• In der Praxis besteht der Vektor x allerdings aus zu vielen Variablen, so dass
es nahezu unmöglich wird, exakt gleiche Partner von Treatment- und Ver-
gleichspersonen zu finden (dimensionality problem).
• Daher betrachtet man die Conditional Independence Assumption bei gegebe-
nem Propensity Score, p(x). Unter einem Propensity Score versteht man die
auf x bedingte Wahrscheinlichkeit, das Treatment zu erhalten.
• Rosenbaum und Rubin (1983) haben gezeigt, dass unter CIA gilt:
( ) ( )y 0 ,y 1 D | p(x).
• Der Propensity-Score ist ein stetiges Maß der Neigung zum Treatment, das
umso höhere Werte annimmt, je eher ein Treatment für eine Person zu erwar-
ten ist. Er wird bspw. durch Vorhersagen der Treatmentwahrscheinlichkeit auf
4–22
Basis von Schätzungen für Di bestimmt.
• Implikation: Wenn eine Paarung von Treated und Vergleichsperson im
Propensity Score übereinstimmt, ist die Differenz ihrer Ergebnisse nur auf das
Treatment zurückzuführen und nicht auf die Selektion ins Treatment.
• Intuition: Wenn wir einer Treated eine Non-Treated Beobachtung mit gleichem
Propensity Score zuweisen, ist es ähnlich wie in einem sozialen Experiment
nur noch Zufall, welche der beiden Beobachtungen die Intervention erhalten
hat. Der Unterschied in ihren Ergebnissen (nach Treatment) ist der kausale
Effekt des Treatments.
• Die Unconfoundedness-Annahme (CIA) kann nicht getestet werden. Daher ist
es wichtig, überzeugende Argumente dafür zu haben, dass der zur Verfügung
4–23
stehende Variablenvektor x tatsächlich die wichtigsten Faktoren enthält, die
die Selektion ins Treatment und die Outcomes determinieren.
• Bedingung dafür, dass sich Vergleichspersonen mit ähnlichem Propensity-
Score finden lassen, ist die Common Support-(Overlap)-Bedingung:
( ) ( )i i i0 P D 1| x P x 1< = = < . Sie besagt, dass es für jede Ausprägung von x
sowohl Treatment- als auch Kontrollbeobachtungen gibt, d.h. es darf keine In-
tervalle des geschätzten Propensity Score geben, für die es nur Treatments,
aber keine Vergleichspersonen gibt.
• Ist diese Bedingung nicht erfüllt, dann hätten wir i mit P(Di = 1 | xi) = 1 und alle
Personen mit einem bestimmten xi erhalten das Treatment. Für sie existieren
keine Vergleichspersonen ohne Treatment. Befinden sich in der potentiellen
Vergleichsgruppe i mit P(Di = 1 | xi) = 0, so erhalten diese niemals Treatment
4–24
und eignen sich nie als Vergleichspersonen für die Treatments.
• Beispiel: Für die Treatmentgruppe finden wir Propensity Scores über den ge-
samten Bereich 0 < P(Di = 1 | xi) < 1, für die Vergleichsgruppe hingegen nur
für 0 < P(Di = 1 | xi) < 0,7. Wie können dann nur Personen der
Treatmentgruppe mit 0 < P(Di = 1 | xi) < 0,7 in die Analyse einbeziehen, da in
unserer Stichprobe bei P(xi) ≥ 0,7 die Treatmentwahrscheinlichkeit 1 beträgt.
In diesem Bereich sind keine Vergleichspersonen verfügbar. Der
Treatmenteffekt wird hier nur für die abgedeckte Region des common support
identifiziert. Dieser kann sich dann vom ATT unterscheiden.
• Unter CIA, SUTVA und der overlap-Bedingung lässt sich der ATT wie folgt
schätzen:
4–25
( ) ( )( ) ( ) ( ) ( )
( ) ( ) ( ) ( )
i,ATT i i i i
i i i i i i
i i i i i i i
E E y 1 | D 1 E y 0 | D 1
E y 1 | D 1,P x E y 0 | D 1,P x
E E y 1 | D 1,P x E y 0 | D 0,P x | D 1
⎡ ⎤ ⎡ ⎤ ⎡ ⎤Δ = = − =⎣ ⎦ ⎣ ⎦⎣ ⎦⎡ ⎤ ⎡ ⎤= = − =⎣ ⎦ ⎣ ⎦
⎡ ⎤ ⎡ ⎤= = − = =⎣ ⎦ ⎣ ⎦
Der äußere Erwartungswert bezieht sich dabei auf die Verteilung des
Propensity Scores.
• Gemeinsam werden die CIA und overlap-Bedingung als "strong ignorability"
Annahmen bezeichnet. Wenn sie zutreffen, wird der ATE identifiziert.
• Gilt hingegen statt CIA nur
( )y 0 D |x= ,
genannt "unconfoundedness for controls", und statt overlap nur die weak
overlap Bedingung
4–26
P (Di = 1| xi) < 1,
so identifiziert der matching Schätzer den ATT.
• In diesem Fall wird Selektion ins Treatment auf Basis der Ausprägungen von
y(0) ausgeschlossen, nicht aber auf Basis heterogener Treatmenteffekte. Für
alle Beobachtungen der Treatmentgruppe gibt es eine Vergleichsbeobach-
tung, aber nicht zwingend für alle Vergleichsbeobachtungen ein Treatment.
4–27
4.2.2 Verschiedene Matching-Schätzer
• Angenommen wir haben eine Treatmentgruppe (T) mit i = 1, …, NT Personen,
und für die potentielle Kontrollgruppe ohne Treatment (K) j = 1, …, NK Perso-
nen. Ferner definieren wir die absolute Distanz zwischen dem Propensity Sco-
re P(x) einer Person i aus der Treatmentgruppe und einer Person j aus der
Vergleichsgruppe:
( ) ( )i, j i jd P x P x= − .
• Nearest-Neighbour-Matching wählt für Person i die Vergleichsperson j wie
folgt aus:
( ) i, jj
K i min d=
4–28
K(i) ist die Vergleichsperson j, deren Propensity Score den geringsten absolu-
ten Abstand zu dem von i aufweist, also der nächste Nachbar.
• Dabei sind mehrere Variationen möglich, die auch kombiniert werden können:
- Nearest-Neighbour-Matching mit n Nachbarn: Es werden jedem Treated, als
nächste Nachbarn n Vergleichspersonen mit den kleinsten Werten von di,j
zugewiesen. K(i) stellt nun eine Gruppe von n Vergleichspersonen dar.
- Nearest-Neighbour-Matching ohne Zurücklegen: Jede Vergleichsperson
kann nur einer Person mit Treatment zugewiesen werden.
- Nearest-Neighbour-Matching mit Zurücklegen: Jede Vergleichsperson kann
mehreren Personen mit Treatment zugewiesen werden.
- Nearest-Neighbour-Matching mit Caliper r:
4–29
( ) i, j i, jj
K i min d |d r= <
Hierbei werden Paare mit einer Distanz, die r übersteigt, nicht zugelassen.
Damit wird verhindert, dass Vergleichspersonen einem Treated i zugewiesen
werden, die sich zu stark von i unterscheiden. Dies bewirkt oft, dass einige
Treated aus der Analyse ausgeschlossen werden, weil sich für sie keine Ver-
gleichspersonen finden, mit di,j < r.
• Radius-Caliper Matching wählt für Person i alle Personen aus der Kontroll-
gruppe als Partner aus, für die gilt:
( ) i, jK i d r= <
wobei r wieder den Caliper darstellt. Im Gegensatz zum Nearest-Neighbour-
4–30
Matching ist hierbei die Anzahl der Vergleichspersonen, die einem Treated
zugewiesen sind, variabel.
• Der Matching-Algorithmus führt für jede Treatmentbeobachtung einen Ver-
gleich zu jeder möglichen Kontrollbeobachtung durch und bestimmt anhand
der vorgegebenen Kriterien, ob eine Zuweisung einer Vergleichsbeobachtung
zur Treatmentbeobachtung erfolgt.
• Der Matching-Schätzer des ATT beruht nun nur noch auf einem Mittelwert-
vergleich. Definieren wir zunächst noch Gewichte für die Vergleichspersonen
in der Menge K(i) mit i, j
K (i)
1w
N= , wobei NK(i) die Anzahl der Vergleichsperso-
nen in K(i) darstellt.
• Unser Schätzer für den ATT ist dann:
4–31
( )
( )
T K
ATT i i, j ji T j K iT
T K
i i, j ji T i T j K iT
T K
i j ji T j KT T
1y w y
N
1y w y
N
1 1y w y
N N
∈ ∈
∈ ∈ ∈
∈ ∈
⎡ ⎤Δ = − ⋅⎢ ⎥
⎣ ⎦⎡ ⎤
= − ⋅⎢ ⎥⎣ ⎦
= − ⋅
∑ ∑
∑ ∑ ∑
∑ ∑
mit j i, ji T
w w∈
= ∑ . Dabei entspricht wj der Anzahl der Treatmentbeobachtungen,
denen die Vergleichsperson j als statistischer Zwilling zugewiesen wurde.
• Der Schätzer unterstellt keinen festen funktionalen Zusammenhang zwischen
Regressoren und Ergebnisvariable y. Ebenso wenig unterstellt der Schätzer,
dass die Treatmenteffekte für unterschiedliche Personen konstant sind.
4–32
• Die Varianz des Schätzers lautet
( ) ( ) ( )
( ) ( )
( ) ( )
T 2 K
ATT 2 ji T j KT
T 2 K
T2 jj KT
2
jj KT K
2
T T
1ˆV V y w V yN
1n V y w V y
N
w1
V y V yN N
∈ ∈
∈
∈
⎡ ⎤Δ = − ⋅⎢ ⎥
⎣ ⎦⎡ ⎤
= ⋅ − ⋅⎢ ⎥⎣ ⎦
= −
∑ ∑
∑
∑
• Analytische Varianzen können nur konsistent geschätzt werden, wenn der
Propensity Score a priori bekannt ist. Da der Propensity Score allerdings
selbst geschätzt wird, wird von vielen Autoren eine Schätzung der Varianzen
mit Hilfe von Bootstrap-Methoden vorgezogen.
• Dabei werden aus der Gesamtstichprobe mit N Beobachtungen zufällig N Be-
4–33
obachtungen mit Zurücklegen gezogen und damit erneut ATTΔ geschätzt. Dies
wird l-Mal wiederholt, so dass wir l unterschiedliche Beobachtungen für den
Schätzer erhalten und damit Varianz und Standardfehler von ATTΔ mit einer
simplen Varianzformel schätzen können. Bei Nearest-Neighbour-Matching-
Schätzern führt diese Methode allerdings nicht zu konsistenten Schätzern der
Varianzen.
• Bei kleinen Stichproben ist auch beim Matching-Schätzer davon auszugehen,
dass Treatmenteffekte verzerrt geschätzt werden. Die Wahl des Matching-
Algorithmus beeinflusst Verzerrung und Varianz:
- Nutzt man viele Nachbarn, dann kann dies zu einem höheren Bias führen,
da die ausgewählten Nachbarn im Schnitt eine höhere Distanz vom
Propensity Score der Treated aufweisen als wenn wir z.B. nur einen Nach-
4–34
barn zuordnen. Dafür wird die Varianz des Schätzers gesenkt.
- Entscheiden wir uns für Matching mit statt ohne Zurücklegen, reduziert dies
den Bias, da wir dadurch sicherstellen können, dass ähnlichere Vergleichs-
personen für die Treated gefunden werden. Dafür steigt aber die Varianz
des Schätzers.
- Nutzen wir Nearest-Neighbour-Matching mit statt ohne Caliper, senkt das
den Bias, erhöht aber die Varianz des Schätzers, weil wir weniger Beobach-
tungen verwenden.
• Neben diesen Schätzern gibt es noch einige andere Matching-Algorithmen
(z.B. Stratification Matching, Kernel Matching, Local Linear Matching).
4–35
4.2.3 Implementation von Matching-Schätzern
• Schritt 1: Auswahl einer potentiellen Vergleichsgruppe für die Treated
• Common Support-Bedingung muss gelten und ähnliche Rahmenbedingungen
für beide Gruppen vorliegen. Potentielle Vergleichsbeobachtungen sollten
über den gleichen Zeitraum beobachtet werden wie die Treatments und fak-
tisch ein Treatment erhalten können.
• Beispiel: Treatment sei eine Fortbildung für Arbeitslose, die von Arbeitsagen-
turen finanziert wird. Wenn gesetzlich geregelt ist, dass Fortbildungen für Ar-
beitslose mit Universitätsabschluss nicht finanziert werden und Arbeitslose in
bestimmten Regionen faktisch nie ein Treatment erhalten, dann würden wir
diese Personengruppen von vornherein nicht in die potentielle Vergleichs-
4–36
gruppe aufnehmen.
• Schritt 2: Entscheidung für exaktes oder Propensity Score Matching
Exaktes Matching bezüglich eines Vektors x ist praktikabel, wenn x aus einer
kleinen Anzahl von Regressoren besteht und/oder wenn wir in der Stichprobe
pro Treatmentbeobachtung viele potentielle Vergleichspersonen haben. Ande-
renfalls werden wir eher Propensity Score Matching anwenden.
• Schritt 3: Wahl der Regressoren, Schätzung des Propensity Score, Common
Support, Overlap
- Bei der Auswahl von x ist darauf zu achten, dass es sich um Determinanten
von Propensity Score P(Di = 1 | xi) und Outcome y handelt.
- Alle wichtigen Determinanten müssen vorliegen. Sonst sind die Matching-
4–37
Schätzer des Treatmenteffekts stark verzerrt, weil sich die Outcomes von
Treatments und Kontrollpersonen aufgrund der vernachlässigten Faktoren
und nicht aufgrund des Treatments unterscheiden.
• Common Support/Overlap: Nach der Schätzung von P(Di = 1 | xi) werden für
alle Beobachtungen die Treatmentwahrscheinlichkeiten vorhergesagt. Wir
prüfen, ob es möglich ist, für alle Treatments Vergleichspersonen mit ähnli-
chem Propensity Score zu finden. Durch einen Vergleich zwischen der Vertei-
lung der Propensity Scores der Treatments und der potentiellen Vergleichs-
beobachtungen ist dies erkennbar:
4–38
4–39
4–40
• Schritt 4: Wahl des Matching-Algorithmus
Entscheidung situationsabhängig (siehe Beispiel unter Schritt 5), trade-offs
zwischen Bias und Varianz. Bei wenigen Treatmentbeobachtungen mit hohen
Standardfehlern des Schätzers könnten wir uns für einen Matching-
Algorithmus mit möglichst niedriger Varianz entscheiden, z.B. Nearest-
Neighbour-Matching mit mehreren Nachbarn.
• Schritt 5: Überprüfung der Qualität des Matchings
Durch Matching haben wir eine Stichprobe generiert, die nur aus den Treated
und den zugewiesenen Vergleichsbeobachtungen besteht. Dadurch sollte das
Treatment in dieser Stichprobe nicht mehr von x abhängen und die Durch-
schnittswerte einzelner Regressoren der Treatment- und Vergleichsgruppe
4–41
nahezu gleich sein. Das lässt sich prüfen:
0
4–42
• Die standardisierte Bias wird dem t-Test vorgezogen, weil sie von der Stich-
probengröße unabhängig ist.
• Ergebnis dieser Analyse könnte sein, dass nach Matching für einige Regres-
soren weiterhin Unterschiede zwischen Treatments und Vergleichspersonen
vorliegen. Der geschätzte Treatment-Effekt könnte dann nicht allein auf das
Treatment, sondern auch auf diese Unterschiede zurückzuführen sein. Um
diese Verzerrung zu vermeiden, kann der Zuordnungsmechanismus verbes-
sert werden:
• Entweder gehen wir zurück zu Schritt 3 und wählen x neu, z.B. indem wir für
die Regressoren, bei denen sich auch nach dem Matching Unterschiede zwi-
schen Treatment- und Kontrollpersonen finden, nicht-lineare Terme oder In-
teraktionen mit anderen Regressoren in die Probit- oder Logitmodelle auf-
4–43
nehmen. Dann wird Schritt 3 bis Schritt 5 wiederholt.
• Alternativ wählen wir einen anderen Matching-Algorithmus, z.B. statt Nearest-
Neighbour-Matching mit einem Nachbarn und ohne Zurücklegen, erlauben wir
das Zurücklegen. Dadurch können Vergleichsbeobachtungen, die sich von
vielen Treatments kaum in ihrem Propensity Score unterscheiden, mehreren
Treatmentbeobachtungen zugeordnet werden. Dafür fallen einige Vergleichs-
beobachtungen, für die das Gegenteil zutrifft, weg. Danach überprüfen wir er-
neut die Matchqualität.
• Schritt 6: Robustheit der Resultate
• Schätzung des ATT mit weiteren Matching-Algorithmen und Vergleich der Er-
gebnisse.
4–44
• Prüfen, ob die Conditional Independence Annahme plausibel ist (s. Imbens
und Wooldridge, 2009, Abschnitt 5.11), z.B. Vergleich von zwei verschiede-
nen Kontrollgruppen zum Test, ob tatsächlich kein Effekt vorliegt, oder kausa-
len Effekt auf eine Outcomegröße bestimmen, die durch das Treatment nicht
beeinflusst worden sein kann (bspw. aus der Vorperiode).
4–45
4.3 Beispielstudien
4.3.1 Beispielstudie 1
• Gesucht ist der kausale Effekt von Fortbildung arbeitsloser koreanischer
Frauen auf die logarithmierte Gesamtdauer der Arbeitslosigkeit.
• Die Frauen wurden zwischen Jan. 1999 und März 2000 arbeitslos. N=973 er-
hielten Treatment (T), N=9312 sind in der Kontrollgruppe (C). Folgende Vari-
ablen stehen zur Verfügung:
C-Group T-Group mean SD mean SD ln (unemployment days) 5.39 0.68 5.51 0.37 age in years 34.9 10.8 27.8 5.57 employment days at ex-firm 901.5 481.1 653.9 806.6 education years 12.13 2.5 13.07 1.76
4–46
• Im Mittel ist die Arbeitslosigkeitsdauer der Treatmentgruppe deutlich länger.
• Überprüfung der Qualität von sequentiellem Nearest Neighbour Matching oh-
ne (greedy) und mit Zurücklegen (non-greedy):
Balance of covariates with pair matching
After sequential pair matching Before matching
Greedy Non-greedy
T C t-value T C t-value T C t-value
age 27.7 28.4 -6.1 27.8 28.1 -2.9 27.8 34.9 -76.8
job experience
(yrs)
1.8 1.9 -1.4 1.8 1.8 0.9 1.8 2.5 -21.4
last unemp. dur.
(days)
65.1 53.3 11.0 65.0 58.1 7.1 65.1 33.6 41.1
4–47
• Ergebnisse mit Zurücklegen günstiger als ohne (vgl. t-Werte). Insgesamt hat
Matching die Unterschiede zwischen den Gruppen (T, C) deutlich reduziert.
• Uns liegen die geschätzten Treatmenteffekte nach Nearest-Neighbour-
Matching ohne Zurücklegen mit Caliper vor:
Greedy pair matching with calipered propensity score
Caliper: 0.00001 Caliper: 0.0001
effect on treated (t-value) 0.248 (5.94) 0.326 (11.38)
% treated used 39% 91%
• Die Schätzer unterscheiden sich darin, dass bei einem kleinen Caliper deut-
lich weniger Beobachtungen der Treatment Group verwendet werden (39 statt
4–48
91%). Der Treatmenteffekt selbst ist in beiden Fällen ähnlich und besagt, dass
die logarithmierte Arbeitslosigkeitsdauer bei Fortbildung zwischen 0,248 und
0,326 also grob 25-33% länger ist. Beide Schätzer sind signifikant. (Quelle:
Lee, 2005, S. 90, 97)
4–49
4.3.2 Beispielstudie 2 (Girma und Paton, 2006)
• Gesucht ist der kausale Effekt der Verfügbarkeit der „Pille danach“ auf
Schwangerschaften von Teenagern in England. Dort wird seit 2000 die Ver-
fügbarkeit von Emergency Birth Control (EBC) regional ausgeweitet.
• Die abhängige Variable beschreibt die Änderung regionaler Teenager-
Schwangerschafts-Raten über die Zeit:
it s it s it 1ˆ ˆ ˆy y y+ + −Δ = −
• Die Treatmentgruppe enthält Regionen i, die EBC verfügbar gemacht haben,
die Kontrollgruppe enthält Regionen i, die EBC nicht bereit stellen.
• Gesucht ist der ATT:
4–50
1 0 1 0
i t s i t s it i t s it i t s itE y y | EBC 1 E y | EBC 1 E y | EBC 1+ + + +Δ − Δ = = Δ = − Δ =
Es handelt sich um einen Difference-in-Differences Matching Schätzer.
• 147 Regionen werden über 8 Quartale beobachtet, 59 haben EBC angeboten.
• Es wird ein Propensity Score Matching verwendet, das die Wahrscheinlichkeit
des Treatments (EBCit = 1) mittels erklärender Variablen vorhersagt.
• Propensity Score Matching generiert verlässliche Ergebnisse, wenn die Ver-
teilung der Kovariaten gemessen vor dem Treatment und bedingt auf den
Propensity Score von der Programmteilnahme unabhängig sind. Diese
balancing condition muss geprüft werden, bspw. mittels standardisierter
Bias-Maße.
• Tabelle 2 zeigt, dass bei einigen Kovariaten (z.B. target 2004, contallr,
4–51
practicer) die standardisierten Bias-Maße ebenso wie die p-Werte des Mittel-
wertvergleichs in der gematchten Stichprobe günstiger ausfallen, als in der
nicht gematchten Stichprobe:
4–52
Mean t-test for equality
of means
Variable Sample Treated Control Bias (%) Bias re-duction
(%) t p > |t|
year Unmatched 2000.9 2000.8 7.9 0.46 0.650 Matched 2000.9 2001.1 -24.5 -209.8 -1.20 0.235 target2004 Unmatched 14.407 14.726 -22.8 -1.38 0.170 Matched 14.63 14.769 -10.0 56.4 -1.27 0.207 target2010 Unmatched 50.932 49.695 29.0 1.68 0.096 Matched 50.833 49.352 34.7 -19.8 1.93 0.057 cur18ch Unmatched 3.553 3.1775 2.4 0.14 0.885 Matched 3.3089 5.3797 -13.3 -451.5 -0.57 0.568 contallr Unmatched 0.02774 0.02665 16.3 0.96 0.340 Matched 0.02721 0.02716 0.8 95.2 0.43 0.669 practicer Unmatched 11.185 10.336 22.4 1.35 0.178 Matched 10.801 10.572 6.0 73.1 0.75 0.452
4–53
• Die nächste Tabelle gibt Treatment-Effekte in Abhängigkeit vom Zeitpunkt der
Programmeinführung bei unterschiedlichen Matching-Verfahren an.
Nearest neighbour Nearest 3 neighbours
Time period Effect t-stat Effect t-stat
Year 1 0.167 0.111 -1.209 -0.845
Year 2 2.928 1.512 1.870 0.732
Quarter 1 -0.322 -0.590 -0.474 -0.925
Quarter 2 -0.159 -0.291 -0.003 -0.005
...
• Die Effekte sind klein und insignifikant. Entweder die Maßnahmen haben kei-
ne Wirkung, oder die Wirkungen sind zu klein um messbar zu sein, oder Ju-
4–54
gendliche haben bei Einführung von EBC ihr Verhalten gegenläufig ange-
passt.
4–55
4.4 Evaluation bei "selection on unobservables"
• Wir betrachten 4 Verfahren, die ohne die CIA Annahme arbeiten.
4–56
4.4.1 Natürliche Experimente und Diff-in-Diff
• Natürliche Experimente liegen vor, wenn aus exogenen Gründen für eine
Gruppe von Beobachtungen die Rahmenbedingungen geändert werden und
deren Outcomes mit denjenigen einer Gruppe ohne Änderung der Rahmen-
bedingungen verglichen werden können. Exogen bestimmte Treatment- und
Kontrollgruppe können verglichen werden.
• Das Difference-in-Differences Verfahren vergleicht vorher-nachher Ände-
rungen für beide Gruppen. Durch Differenzenbildung werden systematische
Unterschiede zwischen den Gruppen in beobachtbaren und unbeobachtbaren
Größen ausdifferenziert. Konstante individuelle unbeobachtbare Größen sind
zulässig und unproblematisch, zeitlich variable nicht.
4–57
• Beispiel 1: Erwerbstätigkeit von ursprünglich erwerbstätigen Müttern, die ihre
Kinder unmittelbar vor und nach der Elterngeldreform bekamen. Unterschiede
können kausale Effekte der Reform sein.
• Beispiel 2: Führt punktuelle Zuwanderung geringqualifizierter Arbeiter zu ei-
nem Anstieg der Arbeitslosigkeit? Vergleich vor und nach "1980 Mariel
Boatlift" von Miami und Vergleichsstädten, die ähnliche Arbeitslosigkeitsent-
wicklung hatten:
vorher
1979
nachher
1981
Differenz
Miami (T) 5,1 3,9 -1,2
Vergleichsstädte (NT) 4,4 4,3 -0,1
Differenz 0,7 -0,4 -1,1
4–58
Die Differenz der Differenzen (DID) zeigt eine Senkung der Arbeitslosigkeit
durch den Boatlift. Formal:
y0i = i's Beschäftigung ohne Zuwanderung
y1i = i's Beschäftigung mit Zuwanderung
E (y0i | c,t) = Arbeitslosigkeit in Stadt c in Jahr t ohne Zuwanderung
E (y1i | c,t) = Arbeitslosigkeit in Stadt c in Jahr t mit Zuwanderung
Unterstellt wird: E (y0i | c,t) = βt + γc, fixe Zeit-(β)- und Ort-(γ)-Effekte
E (y1i | c,t) = E (y0i | c,t) + δ, konstanter Anstieg.
Auf Individualebene:
yi = βt + γc + δ Mi + ui,
4–59
wobei: E (ui | c,t) = 0,
Mi = 1 Interaktionsterm: i lebt in Miami nach 1980, sonst Mi = 0.
Der DID-Schätzer ergibt sich durch Differenzenbildung:
E (yi | c = Miami, t = 1981) - E (yi | c = Vergleich, t = 1981)
- E (yi | c = Miami, t = 1979) - E (yi | c = Vergleich, t = 1979) = δ
Zusätzlich können Kontrollvariablen (x) berücksichtigt werden
yi = Xi' β0 + βt + γc + δ Mi + ui.
• Annahme 1: Zeiteffekte sind für beide Gruppen gleich, d.h. ohne Intervention
keine signifikanten Unterschiede. Dies ist durch Vergleich der Zeittrends in T
(Treatment) und NT (Non-Treatment) Gruppe vor und nach dem Ereignis
4–60
überprüfbar.
• Annahme 2: Die Zusammensetzung der Gruppen ändert sich nicht.
• Allgemeine Darstellung für Querschnittsdaten:
i gehört zu einer Gruppe Gi ∈ (T, NT) und ist in Periode Pi ∈ (0, 1) beobachet.
Standardmodell für Ergebnis Y ohne Treatment mit Parametern α, β, γ:
Yi (0) = α + β Pi + γ Gi + ui
Für ui wird unterstellt ( ) ( )i i i iu G ,P , und E u 0= .
Outcome Yi(1) bei treatment: Yi (1) = Yi (0) + τDID
τDID ist die Differenz der Differenzen der Erwartungswerte bei Gi = T und
Gi = NT über die Zeit und im linearen Modell schätzbar:
4–61
Yi = α + β1 Pi + γ1 Gi + τDID (Pi ⋅ Gi) + ui
Somit ( ) ( )DID 11 10 01 00ˆ Y Y Y Yτ = − − − .
• DIDτ vergleicht die Änderung im outcome der Treatmentgruppe mit dem der
Kontrollgruppe. Dies identifiziert den ATT.
• Die Vorgehensweise lässt sich auch bei weiteren Gruppen und Perioden
durch Bildung relevanter Interaktionsterme anwenden.
• Die Standardfehler des linearen Modells sind falsch, wenn Outcomes inner-
halb von Gruppen und Perioden korrelieren, bspw. wenn ui = ηGi,Pi + υi. Insbe-
sondere Autokorrelationsmuster der Form ηg, t = ηg, t-1 + ωg, t werden in der Li-
teratur diskutiert, wobei g die Gruppe G und t bzw. t-1 die Periode P indiziert.
• Schwächen des D-i-D Ansatzes:
4–62
− Keine Kontrolle für zeitlich variable unbeobachtete Effekte möglich. Klassi-
sche Wirkung Ashenfelter's Dip: Treatmentwahrscheinlichkeit hängt von
Ausprägung des Outcomes vor Treatment ab. Bei negativem Zufallsaus-
schlag erhöhte Treatmentwahrscheinlichkeit und überschätzte Treatment-
effekte.
− Voraussetzung identischer Trends (=Zeiteffekte) für Treatment- und Kont-
rollgruppe nicht immer gegeben. Beispiel 1: T und NT sind in unterschiedli-
chen Arbeitsmärkten tätig. Beispiel 2: Bevölkerungsgruppen sind von zykli-
schen Arbeitslosigkeitsschwankungen unterschiedlich stark betroffen (z.B.
Jugendarbeitslosigkeit ist volatiler).
− Zusammensetzung von T und NT Gruppen darf sich nicht ändern, sonst ver-
fälschte vorher-nachher Vergleiche.
4–63
− Typischerweise wird ein additiv separabler und homogener kausaler Effekt
unterstellt. Neuere Verfahren lockern diese Form der Modellierung.
4–64
4.4.2 Instrumentvariablen (IV) und heterogene Treatmenteffekte
(B&D, 2009, VI)
• IV-Verfahren sind anwendbar bei selection on unobservables. Es wird unter-
stellt, dass mindestens eine Determinante des assignment Mechanismus (das
Instrument z) keinen direkten Effekt auf y hat.
• Potentielle Outcomes sind von z unabhängig, Outcome-Unterschiede entlang
der Ausprägungen von z gehen auf Unterschiede in der Treatment-
wahrscheinlichkeit zurück.
• Bei homogenem Treatmenteffekt gilt αATE = αATT = αi = α.
• Unter 3 Bedingungen kann ein Instrument z α identifizieren:
4–65
(IV1) αi = α für alle i
(IV2) P (d = 1 | z) ≠ P (d = 1)
(IV3) E (u | z) = E (u)
wobei d ein Treatmentindikator ist und u das Residuum in yi = β + αi di + ui.
Schreibt man zur Abkürzung P (z) = P (d = 1 | z), so folgt
E (yi | zi) = β + α E (di | zi) + E (ui | zi)
= β + α P (zi) + E (ui)
= E (yi | P (zi)).
Unterschiedliche Ausprägungen von z (z*, z**) generieren Variation in P(z), so
dass der Standard IV-Schätzer resultiert:
4–66
( ) ( )
( ) ( )i i i iE y |z z * E y |z z * *
P z * P z * *
= − =α =
− für diskrete z,
bzw. bei kontinuierlichen z: ( )( )
cov y,z
cov d,zα = .
• Problem: IV3 ist oft nicht erfüllt, oder zi hat wenig Erklärungskraft für d (weak
instrument). In dem Fall wird α nur unpräzise geschätzt.
• Wenn IV1, die Homogenitätsannahme, nicht zutrifft, dann gilt auch die
exclusion restriction nicht mehr, da nun zi mit dem Störterm der Outcome-
Gleichung korreliert ist:
yi = β + αATE di + [ui + di (αi - αATE)]
Nur wenn di und (αi - αATE), d.h. die individuellen Vorteile aus dem Treatment,
4–67
unkorreliert sind, kann IV den ATE noch identifizieren. Andernfalls kann weder
ATE noch ATT identifiziert werden.
• Stattdessen lässt sich bei heterogenen Treatmenteffekten αLATE identifizieren,
d.h. die Wirkung von "lokalen" Unterschieden im Wert von z. Gemessen wird
der Treatmenteffekt für diejenigen Beobachtungen, für die die unterschiedli-
chen Ausprägungen von z den Treatment-Status bestimmen. Dies ist weder
ATE noch ATT. LATE ist der mittlere Effekt für solche Beobachtungen, die
aufgrund der Ausprägung von z den Treatment-Status ändern.
• Folgende Annahmen sind erforderlich:
(LATE 1) P (d = 1 | z) ≠ P (d = 1)
(LATE 2) E (u | z) = E (u)
4–68
(LATE 3) (α, ε) ⊥ z
Die ersten beiden entsprechen IV2 und IV3. LATE 3 besagt, dass das Instru-
ment weder mit dem Treatmenteffekt noch mit dem Störterm der Partizipati-
onsgleichung ε korreliert sein darf:
i
i
1 wenn d * 0d
0 sonst
≥⎧= ⎨⎩
( ) ( ) ( )( )i iiwobei d * g z , , d z 1 g z, 0= ε = ε > . 1(...) beschreibt die Indikatorfunkti-
on, die für wahre Aussagen den Wert 1, sonst 0 annimmt.
Wäre z mit ε korreliert wenn gleichzeitig ε mit u korreliert ist, so wäre z kein
gültiges Instrument mehr.
• Für yi ergibt sich
4–69
E (yi | zi) = β + P(di (z) = 1) ⋅ E(αi | di (z) = 1).
• Unter der zusätzlichen Annahme
(LATE 4) d(z) ist eine monotone Funktion von z
lässt sich der Effekt des Treatments für diejenigen Individuen ableiten, die
vom Status Nontreatment zum Status Treatment wechseln, wenn z den Wert
z** statt z* annimmt:
( ) ( ) ( )( ) ( )
i iLATEE y | z * * E y |z *
z*,z * *P z * * P z *
−α =
−
• Beispiel: In der Lohngleichung wird Bildung durch Nähe zum College (z) in-
strumentiert. αLATE misst den Lohneffekt der Bildung für diejenigen, deren
Tertiärbildungsentscheidung tatsächlich von z abhängt.
4–70
• Man findet folgende Aufteilung von Personengruppen, vereinfacht bei einem
binären Instrument, z.B. zi = 1 für College ist nah, zi = 0 für College ist weit:
zi = 0
di(0) = 0 di(0) = 1
zi = 1 di(1) = 0 Never taker Defier
di(1) = 1 Complier Always-taker
• αLATE ist der Effekt für die compliers. Der Effekt hängt davon ab, welches In-
strument gewählt wurde, da verschiedene Instrumente verschiedene Gruppen
4–71
von compliers generieren. Diese können unterschiedlich umfassend, typisch
oder politikrelevant sein.
4–72
4.4.3 Regression Discontinuity Design (RDD)
• Im Experiment ist die Treatmententscheidung zufällig. RDD stellt eine quasi-
experimentelle Situation dadurch her, dass die Treatmententscheidung von
einer kontinuierlichen, beobachtbaren Größe abhängt.
• Beispiel 1: Maimonides Rule, gesucht ist der Effekt der Klassengröße auf den
Lernerfolg von Schülern. Ab Klassenstärke 40 (80) werden diskontinuierlich 2
(3) Schulklassen gebildet. Die Gesamtschülerzahl kann als Instrument für die
Klassenstärke genutzt werden, oder man vergleicht die Leistung von Schülern
in Schulen mit z.B. ± 5 Schülern um den Schwellenwert.
• Beispiel 2: Gesucht ist der Effekt der Förderung durch Stipendien auf den
Studienerfolg. Stipendien erhalten diejenigen High School Schüler, deren
4–73
Testergebnis über einem Schwellenwert liegt. Man vergleicht die Schüler mit
Ergebnissen knapp über und knapp unter dem Schwellenwert.
4–74
• Der RDD Schätzer identifiziert einen local average treatment Effekt. Treat-
ment hängt in diskontinuierlicher Form von einer Variable z ab. Man unter-
scheidet zwei RDD Formen: sharp und fuzzy.
• Sharp RD-Design: Ausschließlich die Ausprägung von z (relativ zu einem
Schwellenwert z*) determiniert das Treatment für alle i. Es gibt keine individu-
ellen unbeobachtbaren Effekte, sondern selection on observables. Da kein
"overlap" von treatment und nontreatment vorliegt, ist matching nicht möglich.
• Man benötigt ausschließlich die Annahme, dass der erwartete Störterm der
outcome Gleichung auf beiden Seiten des Schwellenwertes (z*-, z*+) gleich
ausfällt:
E (ui | z*-) = E (ui | z*+)
4–75
dann folgt αRDD (z*) = E (yi | z*+) - E (yi | z*-)
• Beispiel: Elterngeldregime hängt von der Geburt des Kindes am 31.12.2006
vs. 01.01.2007 ab.
• Fuzzy RD-Design: Andere Faktoren als z (auch unbeobachtete) beeinflussen
den Treatment-Status. Auf beiden Seiten von z* finden Teilnahme und Nicht-
teilnahme statt.
4–76
4–77
• Beispiel: Einige israelische Schulen teilen Klassen bereits bevor oder nach-
dem 40 Schüler erreicht sind.
• Neues Problem: Die treatment Entscheidung kann nun wieder endogen sein,
nur ein Teil der Beobachtungen gehört wirklich zu exogen bestimmten
"compliers".
• Als zusätzliche Annahme muss unterstellt werden, dass in der Umgebung von
z* der Treatmenteffekt konstant und unabhängig vom Treatment-Status ist:
E (αi | d, z) = E (α | z) für z in der Nähe von z*.
• Dies ist eine starke Annahme, da es ausschließt, dass über Treatment in Ab-
hängigkeit von seinem individuellen Effekt entschieden wird. αRDD wird wieder
als local average treatment Effekt geschätzt:
4–78
( ) ( ) ( )
( ) ( ) ( )i iRDD
i
E y | z * E y |z *z * E | z z *
P z * P z *
+ −
+ −
−α = = α =
−
der mittlere Effekt des Treatments für eine zufällig gezogene Beobachtung mit
Merkmal z = z*.
• Unter der zusätzlichen Annahme gilt αRDD = ATE = ATT.
• Nachteile des RDD:
- nur ein lokaler Effekt ist identifizierbar
- z* könnte manipulierbar sein
- Individuen ändern wegen z* ihr Verhalten (z.B. Numerus clausus, Einleitung
von Geburten etc.)
- durch enge Fenster um z* sind die Stichprobengrößen klein
4–79
• Beispiel 1: Maimonides-Rule - OLS and fuzzy RD estimates of the effect of class size on fifth-grade math scores (Quelle: Angrist u. Pischke, 2009, S.266) OLS 2SLS
Full Sample Discontinuity Samples
± 5
(1) (2) (3) (4) (5) (6) (7)
Class size 0.322 0.076 0.019 -0.230 -0.261 -0.185 -0.443 (0.039) (0.036) (0.044) (0.092) (0.113) (0.151) (0.236)
% disadvantaged -0.340 -0.332 -0.350 -0.350 -0.459 -0.435 (0.018) (0.018) (0.019) (0.019) (0.049) (0.049)
Enrollment 0.017 0.041 0.062 0.079 (0.009) (0.012) (0.037) (0.036)
Enrollment2 /100 -0.010
R2 0.048 0.249 0.252
Number of classes 2,018 2,018 471
Note: The table reports estimates using class averages. Standard errors, re-ported in parentheses, are corrected for within-school correlation.
4–80
• Beispiel 2: Effekt des Ruhestands auf Konsumausgaben
Bei unterstellter Optimierung im Lebenszyklus ist es schwer zu erklären, wa-
rum bei Renteneintritt die Konsumausgaben sinken. Der kausale Effekt wird
anhand italienischer Rentenzugangsregelung identifiziert, da Rentenzugang in
einer Konsumausgabengleichung potentiell endogen ist.
1 wenn Haushaltsvorstand im Ruhestand
R0 sonst
⎧= ⎨⎩
S = Zeit seit Rentenanspruch besteht, gemessen in Abhängigkeit von Alter
und Beitragsjahren. Bei S < 0 Rentenzugang nicht möglich, bei S ≥ 0
aber auch nicht verpflichtend, Diskontinuität bei S = 0.
4–81
( ) 1 wenn Rentenanspruch bestehtI S 0
0 sonst
⎧≥ = ⎨
⎩
β = Y1 – Y0 kausaler Effekt des Ruhestands auf Konsumausgaben (Y).
Wenn S = 0+ und S = 0- Individuen kurz nach und kurz vor Zugangszeitpunkt
beschreibt, lautet der kausale Effekt:
E Y| S 0 E Y| S 0E | R 1, S 0 .
E R | S 0
+ −
+
+
= − =β = = =
=
Unter der Annahme, dass ohne die Zugangsgrenze der Verlauf von Y zum
Zeitpunkt der Zugangsgrenze kontinuierlich wäre, kann der diskontinuierliche
Sprung in Y zum Zeitpunkt S = 0 als kausaler Effekt des Eintritts in den Ruhe-
stand interpretiert werden.
4–82
Daten: Bank of Italy Survey on Household Income and Wealth 1993 – 2004
Stichprobe: Mittelwerte pro Kalenderjahr (t) für männliche Individuen gleicher
Ausprägung von S.
Bei 6 Jahren und Werten (-10, +10) ergeben sich 120 Beobachtungen.
IV-Schätzgleichung 2. Stufe: Ys,t = β0 + β1 Rs,t + β2 S + β3 S2 + εs,t
Schätzgleichung 1. Stufe: Rs,t = γ0 + γ1 J (S ≥ 0) + γ2 S + γ3 S2 + υs,t
Ergebnis 1. Stufe: 1ˆ 0,435γ = ( )1
ˆSE 0,038γ = ; R2 = 0,92
4–83
Ergebnis 2. Stufe:
Log Nondurable Exp. Log Food Exp.
Retired -0,098 (0,057) * -0,141 (0,054) **
S -0,006 (0,003) ** -0,003 (0,003)
S2 -0,000 (0,000) ** -0,000 (0,000)
Note: Standard errors are robust to heteroskedasticity.
Es ergibt sich ein signifikanter Konsumrückgang von ca. 9,8 bzw. ca. 14,1
Prozent als kausaler Effekt des Ruhestands.
Quelle: Battistin et al. (2009), American Economic Review, S. 2209-2226.
4–84
4.4.4 Control Function Approach
• Kernidee ist hier, im Fall von selection on unobservables, die Endogenität des
Treatmentindikators als Problem fehlender Variablen zu interpretieren. Dabei
wird in der Outcomegleichung explizit für die (beobachtbaren und insbesonde-
re unbeobachtbaren) Determinanten der Zuweisung des Treatments kontrol-
liert.
• Dazu können parametrische Annahmen an die gemeinsame Verteilung der
Störterme aus Outcome- und Selektionsgleichung getroffen werden, z.B.
bivariate Normalverteilung und Vorgehen wie bei Heckman-Korrektur.
• Alternativ wurden ebenfalls nichtparametrische Verfahren entwickelt.
4–85
• Gelegentlich wird es als Kontrollfunktionsansatz bezeichnet, wenn die
Outcomegleichung zusätzlich für potentielle und beobachtbare Determinanten
der Partizipationsgleichung kontrolliert. Dies ist ausreichend, wenn man von
selection on observables ausgeht.
4–86
4.5 Beispielstudie
• National Supported Work (NSW) Projekt: Experiment mit zufälliger Zuweisung
von Training (= Treatment) auf Treatmentgruppe, nicht auf die Kontrollgruppe.
Gesucht ist der kausale Effekt der Maßnahme auf spätere Verdienste.
• Treatment (D = 1): 185 Männer, Training 1976 – 1977.
Control (D = 0): 2490 Männer unter Alter 55 aus PSID (Panel Study of Income
Dynamics)
• Die Merkmale der Gruppen sind in Tabelle 25.3 zusammengefasst:
4–87
4–88
• Zum Teil unterscheiden sich Treatment- und Kontrollgruppen deutlich.
• Zielgröße sind die real earnings 1978 (RE78). Der Vergleich zwischen beiden
Gruppen (treatment control comparison) ergibt einen substantiellen Unter-
schied der Realeinkommen von -15.205 $. Dies wäre der kausale Trainingsef-
fekt im perfekten Experiment oder der Koeffizient des Treatmentindikators (D)
in der Regression von RE78 auf eine Konstante und D, bei gepoolter Stich-
probe.
• In unserem Fall steckt auch der große Unterschied in den beiden Gruppen
hinter dem Abstand der Verdienste, weil die Kontrollgruppe keine statistischen
Zwillinge der Treatments sind. Dies lässt sich per KQ herausrechnen:
RE78i = xi' β + α Di + ui i = 1, 2, ..., 2675
4–89
Kontrolliert man für age, agesq, educ, nodegree, black, hisp, RE74, RE75 so
erhält man ˆ 218α = . Dies kann als control function-Schätzer bezeichnet
werden, da potentielle Determinanten von D kontrolliert werden.
• Alternativ lässt sich ein vorher-nachher-Vergleich der Treatmentgruppe
durchführen. Dieser ergibt RE78 - RE75 = 4817 $.
• Dabei sind allgemeine Zeittrends nicht herausgerechnet. Um dies zu tun, bie-
tet sich ein Difference-in-Differences Ansatz an. Die Differenz RE78 - RE75
ergibt für die Kontrollgruppe 21.554 – 19.063 = 2.491. Somit ergibt sich als
Difference-in-Differences Schätzer des kausalen Trainingseffektes 4.817 -
2.491 = 2.326 $.
4–90
• Der DiD-Schätzer kann auch in folgender Schätzgleichung als Schätzer für α
gewonnen werden:
REit = ϕ + δ D78it + γ Di + α (D78it ⋅ Di) + ui I = 1, …, 2675 t = 75,78
REit beschreibt die Verdienste in beiden Perioden, D78 ist ein Indikator dafür,
ob die Beobachtung aus dem Jahr 1978 stammt (D78 = 1) oder nicht (D78 =
0). Di indiziert die Treatmentgruppe, (D78 ⋅ Di) ist ein Interaktionsterm für
Treatments 1978.
• Alternativ kann die Konstante ϕ durch xit'β ersetzt werden. Das Verfahren
kann auf Querschnitts- wie auf Paneldaten angewendet werden.
4–91
• Bei der Berechnung des Vergleichswertes von -15.205 $ haben wir die mittle-
re Beobachtung der Treatment- mit der mittleren Beobachtung der Kontroll-
gruppe verglichen. In der Schätzung der Kontrollfunktion haben wir unterstellt,
dass sich Treatment- und Kontrollgruppeneinkommen um einen konstanten
additiven Term α unterscheiden: E(RE78 | x) = x'β + α ⋅ D.
4–92
• Alternativ könnte man ausschließlich solche Beobachtungspaare verwenden,
die die gleichen Merkmalsausprägungen x haben. So ein matching on reg-
ressors setzt voraus, dass tatsächlich exakte Duplikatbeobachtungen vorlie-
gen, was oft nicht der Fall ist.
• Daher verknüpft man stattdessen Beobachtungen mit gleichem Propensity
Score, also gleicher bedingter Treatmentwahrscheinlichkeit Pr (D = 1 | x).
• Der Propensity Score wird für jedes i, z.B. mittels Logit und erklärenden Vari-
ablen von 1975, geschätzt und vorhergesagt:
Pr (Di = 1 | x) = Λ (xi' β) i = 1, ..., 2675.
4–93
4–94
• Die Abbildung zeigt, dass die meisten Beobachtungen der Kontrollgruppe
niedrige Propensity Scores und die meisten Beobachtungen der
Treatmentgruppe hohe Scores haben. Wir können nun an jedem Punkt der
Verteilung der Propensity Scores die mittleren Einkommen der Treatment-
und Kontrollgruppe vergleichen. Vor allem im Bereich höherer Werte des
Propensity Scores sind die mittleren Verdienste in der Treatmentgruppe ober-
halb derjenigen der Kontrollgruppe.
• Es gibt viele Möglichkeiten der Zuordnung von Treatment- und Kontrollgrup-
pe:
- Nearest Neighbor Matching: jede Treatmentbeobachtung erhält den nächs-
ten Nachbarn (im Propensity Score) zugewiesen.
4–95
- Stratification Matching: Wenn die Propensity Score Bereiche der Gruppen
übereinstimmen, lassen sich Mittelwerte in bestimmten Wertebereichen
des Propensity Score für beide Gruppen berechnen und vergleichen. Ein
Stratum s umfasst z.B. 0,0 < p(x) ≤ 0,1 ein nächstes 0,1 < p(x) ≤ 0,2 etc.
Man gewichtet die Mittelwerte pro Stratum s dann mit der relativen Häu-
figkeit der Beobachtungen in diesem Stratum (ws) und bestimmt
( )s,D 1 s,D 0s sw RE78 RE78 .= =−∑
• In unserem Fall liegt die Verteilung der Propensity Scores in der
Treatmentgruppe zwischen 0,0005 bis 0,9420 und in der Kontrollgruppe zwi-
schen 0,000 und 0,9371. Beobachtungen außerhalb des gemeinsamen Be-
4–96
reichs entfallen und für die Gesamtstichprobe ergibt sich ein Treatmenteffekt
von 995 $.
• Um weitere Matching Ergebnisse zu betrachten, nutzen wir alternative
Logitmodelle, die Propensity Scores unterschiedlich vorhersagen:
(a): Pr [treat = 1] = h (CONSTANT, AGE, AGE2, EDU, EDU2, MARRIED, NO-
DEGREE, BLACK, HISPANIC, RE74, RE742, RE75, U74, U75,
U74*HISPANIC)
(b): Pr [treat = 1] = h (CONSTANT, AGE, AGE2, EDU, EDU2, MARRIED, NO-
DEGREE, BLACK, HISPANIC, RE74, RE742, RE75, RE752, RE74*RE75,
U74*HISPANIC)
4–97
• Vorgehensweise: Bestimme ( )p x , sortiere Treatment- und Kontrollbeobach-
tungen in Strata s gemäß ( )p x . Prüfe, ob innerhalb jedes s die Mittelwerte der
Charakteristika von Kontroll- und Treatmentgruppe signifikant verschieden
sind. Wenn ja, engeres Stratum wählen. Wenn viele Unterschiede, dann
Interaktionsterme in Gleichung zur Vorhersage von p (x).
• Verwende nur Beobachtungen, für deren ( )p x sowohl Treatment- als auch
Kontrollbeobachtungen vorliegen.
• Im Beispiel verbleiben bei Spezifikation (a) des Logitmodells von 2490 nur
1086 Beobachtungen in der Kontrollgruppe.
Wählt man Spezifikation (b), verbleiben 1146 Kontrollgruppen-
Beobachtungen.
4–98
4–99
• Die Schätzergebnisse variieren stark mit der gewählten Vorgehensweise und
liegen zwischen 2385 $ und 560 $. Dies zeigt, wie sensibel Matchingschätzer
auf die Annahmen reagieren können.
• In Tabelle 25.6 wird 1794 $ als Benchmark verwendet. Dies ist ein Regressi-
onsschätzer für den Dummykoeffizienten in der gematchten Stichprobe nach
Dehija und Wahba (2002).
4–100
4–101
Literatur:
Angrist, J.D. und A.B. Krueger, 1999, Empirical Strategies in Labor Economics, Chapter 23 in Ashenfelter & Card (Hrsg.), Handbook of Labor Economics 3A, 1277-1366.
Battistin, Erich, Agar Brugiavini, Enrico Rettore und Guglielmo Weber, 2009, The Retirement Consumption Puzzle: Evidence from a Regression Discontinuity Approach, American Economic Review 99(5), 2209-2226.
Blundell, Richard und Monica Costa Dias, 2009, Alternative Approaches to Evaluation in Empirical Microeconomics, Journal of Human Resources 44(3), 565-640.
Caliendo, Marco, 2008, Some Practical Guidance for the Implementation of Pro-pensity Score Matching, Journal of Economic Surveys 22(1), 31-72.
Cameron Colin A. und P.K. Trivedi, 2005, Microceconometrics. Methods and Applications, Cambridge: Cambridge University Press. Kapitel 25
Cameron Colin A. und P.K. Trivedi, 2009, Microceconometrics Using Stata, Sta-ta Press. Kapitel 10
4–102
Girma, Souravel und David Paton, 2006, Matching Estimates of the Impact of over the counter emergency birth control on teenage pregnancy, Health Economics 15, 1021-32.
Greene, William H., 2008, Econometric Analysis, Upper Saddle River: Prentice Hall, 6. Auflage. Kapitel 24.5.6
Heckman, James J., 2010, Building Bridges between Structural and Program Evaluation Approaches to Evaluating Policy, Journal of Economic Literature 48(2), 356-398.
Imbens, G.W. und J.M. Wooldridge, 2009, Recent Developments in the Econo-metrics of Program Evaluation, Journal of Economic Literature, 47(1), 5-86.
Imbens, G.W., 2010, Better LATE than nothing, Journal of Economic Literature 48(2), 399-423.
Lee, Myoung-Jae, 2005, Micro-Econometrics for Policy, Program, and Treat-ment Effects, Oxford Univ. Press, Oxford.
Lee, David S. und Thomas Lemieux, 2010, Regression Discontinuity Designs in Economics, Journal of Economic Literature 48(2), 281-355.
4–103
Rosenbaum, P.B. und D.B. Rubin, 1983, The central role of the propensity score in observational studies for causal effects, Biometrica 70, 41-55.
Verbeek, Marno, 2008, A Guide to Modern Econometrics, Chichester: Wiley & Sons, 3. Auflage. Kapitel 7.7
Winkelmann, Rainer und Stefan Boes, 2006, Analysis of Microdata, Springer Verlag, Heidelberg, Kapitel 7.4.
Wooldridge, Jeffrey M., 2002, Econometric Analysis of Cross Section and Panel Data, Cambridge: The MIT Press. Kapitel 18
5.1
Kapitel 5: LAD- und Quantilsregression
5.1 Begriffe und Motivation
5.2 Schätzverfahren
5.3 Beispiele
5.4 Eigenschaften und Interpretation
5.5 Erweiterungen
5.2
5.1 Begriffe und Motivation
• Quantil und Perzentil sind synonym. Das Quantil q einer Zufallsvariable y,
mit q ∈ (0,1), ist der Wert von y, unterhalb dessen q und oberhalb dessen 1-
q Prozent der Verteilung von y liegen:
F(yq) = q und yq = F-1(q) (5.1)
F ist die kumulative Dichtefunktion von y und F-1 ihre Umkehrfunktion.
• Beispiel: Wenn y0,99 = 200 dann ist die Wahrscheinlichkeit ein y zu finden,
das nicht größer als 200 ist, 99 Prozent.
• Das lineare Regressionsmodell beschreibt den mittleren Zusammenhang
zwischen einer abhängigen Variablen y und Regressoren x: E( y | x ). Es
5.3
wird nur das erste zentrale Moment der auf x bedingten Verteilung von y und
der mittlere Zusammenhang zwischen x und y betrachtet.
• Quantilsregressionen erweitern die Perspektive auf die Betrachtung des
Zusammenhangs an verschiedenen Stellen der auf x bedingten Verteilung
von y.
• Quantilsregressionen modellieren die auf x bedingten Quantile von y, man
schreibt Qq(y|x) = F-1(q|x). Betrachtet man q = 0,5 so spricht man auch von
Medianregression. Während der Standardfall der Quantilsregression linear
in Parametern ist, gibt es auch nicht lineare Ansätze.
• Beispiel: Wie hoch sind die Renditen auf Schulbildung und unterscheiden
sie sich über die Perzentile der Lohnverteilung hinweg? Der KQ-Schätzer
5.4
bestimmt die mittlere Bildungsrendite für die gesamte Stichprobe.
Quantilsregressionen bestimmen die Bildungsrendite getrennt für
unterschiedliche Quantile. Sie beschreiben marginale Effekte der Kovariaten
an unterschiedlichen Perzentilen der Verteilung der abhängigen Variablen.
5.5
Quelle: Andini, Corrado, 2008, The Total Impact of Schooling on Within-Groups Wage Inequality in Portugal, Applied Economics Letters 15(1-3), 85-90
5.6
Die Schätzergebnisse zeigen, dass der Renditeunterschied zwischen dem
1. und dem 9. Dezil der auf x bedingten Verteilung von y erheblich ist.
• Formal lassen sich alternative Regressionsmodelle durch die Bestimmung
einer Verlustfunktion motivieren. Dazu definieren wir den Vorhersagefehler e
als Differenz zwischen dem beobachteten Wert y und dem als Funktion von
x vorher gesagten y : e ≡ y – y .
• Die Verlustfunktion entspricht in diesem Fall
( ) ( )ˆL e L y y= − . (5.2)
• Je größer der Betrag von Vorhersagefehler e, umso größer L. E[L(e)] ist zu
minimieren. Insofern y von x abhängt, lässt sich schreiben
5.7
( )( )ˆE L y y |x⎡ ⎤−⎣ ⎦ . (5.3)
• Der optimale Vorhersagewert für y erfüllt nun
( )( )
y
ˆmin E L y y |x⎡ ⎤−⎣ ⎦ (5.4)
• Für die Spezifikation von L gibt es verschiedene Alternativen. Am häufigsten
wird eine quadratische Verlustfunktion unterstellt: L(e) = e2. Hier minimiert
der optimale Vorhersagewert E[L(e|x)] = E[e2|x].
• Wir betrachten drei Verlustfunktionen
5.8
Tab. 4.1. Loss Functions and Corresponding Optimal Predictors
Type of Loss Function Definition Optimal Predictor
Squared error loss ( ) 2L e e= E [y | x]
Absolute error loss ( )L e e= med [y | x]
Asymmetric absolute loss ( )( )1 e if e 0
L ee if e 0
⎧ − α <⎪= ⎨α ≥⎪⎩
qα [y | x]
Quelle: Cameron & Trivedi, 2005, S. 67
• Die typische Vorgehensweise bei der Verwendung der quadratischen
Verlustfunktion besteht darin, für den optimal predictor eine lineare oder
5.9
nicht-lineare Funktion E[y|x] = g(x, β) zu spezifizieren, wobei β einen Vektor
von zu bestimmenden Parametern darstellt.
• Die optimale Vorhersage: y = g(x, β) wird bestimmt, in dem die Stichproben-
verlustfunktion über die Wahl von β minimiert wird:
( ) ( )( )
N N N22
i i i ii 1 i 1 i 1
L e e y g x ,= = =
= = − β∑ ∑ ∑ . (5.5)
• Je nachdem, ob g linear oder nichtlinear in β ist, verwendet man lineare oder
nichtlineare Kleinstquadrateschätzer.
• Wenn die Verlustfunktion aus dem Absolutwert des Vorhersagefehlers
besteht, so ist der optimale Prediktor der Median von y gegeben x. Ist die
bedingte Medianfunktion linear, so kann man den least absolute deviation
5.10
(LAD) Schätzer verwenden, der die Summe der Beträge der
Vorhersagefehler minimiert:
i i iy x '− β∑ . (5.6)
• In diesen Fällen ist die Verlustfunktion symmetrisch, Abweichungen nach
oben und unten werden gleich gewichtet. Bei asymmetrischen absoluten
Verlustfunktionen finden Gewichte (1-α) Berücksichtigung. α liegt im
Intervall (0,1), Symmetrie ergibt sich, wenn α = 0,5. Als optimaler
Vorhersagewert ergibt sich das bedingte Quantil, qα[y|x]. Wenn α = 0,5 ist
dies der Median, andernfalls das bedingte α-Quantil.
• Insgesamt muss der Prediktor für y gemäß der Verlustfunktion geschätzt
werden. Das lineare Regressionsmodell impliziert eine quadratische
5.11
Verlustfunktion und unterstellt, dass der bedingte Mittelwert E[y|x] linear ist.
Jede Verlustfunktion erfordert einen anderen der grundsätzlich gleich-
wertigen Regressionsansätze.
5.12
5.2 Schätzverfahren
• Die Schätzung von Quantilsregressionen nutzt zur Minimierung der
Verlustfunktion lineare Optimierungsverfahren.
• Die Intuition des Verfahrens lässt sich wie folgt erläutern:
Wir unterstellen eine univariat verteilte Zufallsvariable y, mit N
Beobachtungen. Quantil q lässt sich bestimmen, in dem man zunächst die
Ausprägungen ordnet und dann die (N*q). Beobachtung (auf die nächst
höhere Zahl aufgerundet) herausnimmt.
• Beispiel: N = 97, q = 0,25. N*q = 97*0,25 = 24,25 – hier beschreibt der Wert
der 25. Beobachtung die Obergrenze des unteren Quartils (25. Perzentil).
5.13
• Koenker und Bassett haben 1978 gezeigt, dass das q. Stichproben-Quantil
durch Minimierung nach β bestimmt werden kann:
( )
N N
i ii: y i: yi i
q y 1 q y≥β <β
− β + − − β∑ ∑ . (5.7)
• Beispiel 1: Wenn q = 0,5 ergibt sich daraus bei N=99
( )i
i
y − β∑ . (5.8)
Wenn der wahre Wert der 50. Beobachtung 10 beträgt, würde β = 10 diesen
Ausdruck minimieren. Würde stattdessen β = 11 gewählt, so wäre für die
ersten 50 Beobachtungen die Differenz um 1 größer und für die letzten 49
Beobachtungen die Differenz um 1 geringer. Insgesamt steigt die absolute
5.14
Summe um 1, so dass die Verwendung des wahren Medianwertes
tatsächlich den Ausdruck minimiert.
yi = ... 8 9 10 11 12 ... Summe
|yi - β| bei β = 10 2 1 0 1 2 6
|yi - β| bei β = 11 3 2 1 0 1 7
• Beispiel 2: Wenn q = 0,25 ergibt sich daraus bei N = 7
( )i i
i ii: y i: y
0,25 y 1 0,25 y .≥β <β
− β + − − β∑ ∑
Wenn die 7 Ausprägungen 0, 0, 1, 1, 2, 3, 4 sind, ist der Wert des 0,25.
Quantils 7⋅0,25 = 1,75, d.h. aufgerundet der Wert der zweiten Beobachtung
5.15
der Ausprägungen, hier 0. Es lässt sich einfach zeigen, dass β = 0 den
Ausdruck minimiert:
yi = 0 0 1 1 2 3 4 Summe
bei β = 0 0 0 0,25 0,25 0,5 0,75 1 2,75
bei β = 1 0,75 0,75 0 0 0,25 0,5 0,75 3,00
• Die Zielfunktion wird zur Regression, indem der bislang konstante Wert β
parametrisiert wird:
( ) ( )
N N
N q i i q i i qi: y x ' i: y x 'i i i i
Q q y x ' 1 q y x '≥ β < β
β = − β + − − β∑ ∑ (5.9)
5.16
Zusätzlich erhält der Koeffizientenvektor einen Index q, der anzeigt, dass er
für jedes Quantil einen anderen Wert annehmen kann. Für den Fall dass q =
0,5 spricht man von der Medianregression, bzw. dem Least Absolute
Deviation (LAD) Schätzer.
• Grundsätzlich lässt sich der Standardfehler der βq berechnen, einfacher ist
jedoch die Verwendung von Bootstrapverfahren.
5.17
5.3 Beispiele
5.3.1 Bildungsrenditen (Quelle: Angrist und Pischke, 2009, Kapitel 7.1)
• In den 80er und 90er Jahren stieg in USA die Lohnungleichheit zwischen
verschiedenen Bildungsgruppen.
• Unklar ist, ob die Lohnungleichheit auch innerhalb der Gruppen von
Arbeitnehmern mit gleicher Bildung stieg. Dies lässt sich mit
Quantilsregressionen untersuchen.
5.18
Tab. 7.1.1 Quantile regression coefficients for schooling
Desc. Stats.
Quantile Regression Estimates OLS
Estimates
Census Obs. Mean SD 0.1 0.25 0.5 0.75 0.9 Coeff.
1980 65.023 6,4 0,67 0,074 0,074 0,068 0,070 0,079 0,072
(0,002) (0,001) (0,001) (0,001) (0,001) (0,001)
1990 86.785 6,5 0,69 0,112 0,110 0,106 0,111 0,137 0,114
(0,003) (0,001) (0,001) (0,001) (0,003) (0,001)
2000 97.397 6,5 0,75 0,092 0,105 0,111 0,120 0,157 0,114
(0,002) (0,001) (0,001) (0,001) (0,004) (0,001)
Notes: The table reports quantile regression estimates of the returns to schooling in a model for log wages, with OLS estimates shown at the right for comparison. The sample includes U.S.-born white and black man aged 40-49. The sample size and the mean and standard deviation of log wages
5.19
in each census extract are shown at the left. Standard errors are reported in parentheses. All models control for race and potential experience.
Quelle: Angrist und Pischke, 2009, S. 273
• Die Tabelle zeigt Quantilsgressions- und KQ-Koeffizienten der
Bildungsvariable im Lohnmodell getrennt für die Jahre 1980, 1990 und 2000.
Die beschreibende Statistik zeigt, dass die Streuung der Löhne über die Zeit
gestiegen ist.
• Wäre die bedingte Verteilung der Log-Löhne symmetrisch, sollten sich für
Medianregression und Kleinstquadrateschätzer die gleichen Koeffizienten
ergeben. Die Werte unterscheiden sich nicht stark.
5.20
• 1980 sind die Koeffizienten an allen Lohnquantilen ähnlich. Egal wo man
sich in der Verteilung der auf die erklärenden Variablen bedingten Löhne
befindet, ist der Zusammenhang mit der Bildung ähnlich: Ein weiteres Jahr
Bildung erhöht die Löhne um ca. 7 Prozent.
• 2000 ergeben sich deutliche Unterschiede der Bildungsrenditen über die
bedingte log-Lohn-Verteilung. Da die höchsten Renditen bei den höchsten
Lohnquantilen zu finden sind, hat die Ungleichverteilung also auch innerhalb
der Bildungsgruppen über die Zeit zugenommen.
• Frage: Wie interpretieren wir Änderungen der geschätzten Koeffizienten
über die Zeit? Wie interpretieren wir Unterschiede in den geschätzten
Koeffizienten zwischen den Quantilen?
5.21
5.22
5.3.2 Engelkurven (Quelle: Cameron und Trivedi, 2005, Kapitel 4.6.4)
• Fragestellung: Zusammenhang zwischen Haushaltseinkommen und
Ausgaben für medizinische Versorgung in Vietnam 1997. Es werden
Elastizitäten der Ausgaben in Bezug auf Einkommen geschätzt.
• Daten: Vietnam Living Standards Survey (Weltbank), N=5006 Haushalte mit
positiven Ausgaben für medizinische Versorgung (meist für Medikamente).
Gesamte Haushaltsausgaben als einzige erklärende Variable und als
Approximation der Haushaltseinkommen.
• KQ ergibt eine Elastizität von 0,57 (Standardfehler 0,032), was als
einkommensunelastisch interpretiert wird.
5.23
• Die Quantilsregression wurde für 19 Quantile durchgeführt mit q = 0,05; 0,1;
0,15; …; 0,95. Die Standardfehler der Koeffizienten wurden mit 50
Replikationen durch Bootstrap bestimmt.
5.24
Quelle: Cameron & Trivedi, 2005, S. 89.
5.25
• Abb. 4.1 zeigt die Elastizitäten und ihr Konfidenzintervall über die Quantile
der Ausgabenverteilung hinweg. Die Ausprägungen variieren deutlich und
statistisch signifikant zwischen 0,15 und 0,80.
• Hier ergibt der konstante KQ-Parameter nur ein unvollständiges Bild des
Zusammenhangs.
• Abb. 4.2 zeigt, dass sich die Regressionsgraden der Ausgabenquantile
unterscheiden. Die KQ-Regressionsgerade ähnelt der des Medians.
Ursprünglich wurde die Quantilsregression von Koenker und Bassett (1982)
zum Test für Heteroskedastie entwickelt. Verlaufen die Linien nicht parallel,
liegt im einfachen linearen Modell Heteroskedastie nahe.
5.26
Quelle: Cameron & Trivedi, 2005, S. 90.
5.27
5.4 Eigenschaften und Interpretation
• Bei der Interpretation von Koeffizienten der Quantilsregression ist stets zu
beachten, dass sie nicht Individuen, sondern die bedingte Verteilung der
abhängigen Variable beschreiben.
• Beispiel: Positiver Effekt von Weiterbildung auf das erste Dezil der
Lohnverteilung. Dies bedeutet, dass die Löhne im untersten Dezil bei
Weiterbildung höher ausfallen, nicht dass eine Person im untersten Dezil
durch Weiterbildung besser verdient. Die Interpretation trifft für einzelne
Beobachtungen nur unter der Bedingung zu, dass sie bei Änderung der
erklärenden Variablen im gleichen Quantil bleiben.
5.28
• Da erklärende Variablen auf alle Quantile gleichzeitig wirken, ist es nicht
trivial, ihre marginalen Effekte zu bestimmen. Die Ausprägung der
erklärenden Variable bestimmt nicht nur die abhängige Variable am
betrachteten Quantil sondern auch die Verteilung der Beobachtungen über
die Quantile.
• Es lassen sich quantils-spezifische marginale Effekte wie folgt bestimmen:
( ) ( )q i i
q i i i q q j
j
Q y |xWenn Q y |x x ' , dann .
x
∂= β = β
∂
• Eine Quantilsregression bringt gegenüber KQ nur dann zusätzliche
Information, wenn das betrachtete Modell heteroskedastisch ist. Sonst gilt
βq = β = const für alle q ∈ (0, 1). Dies muss auch bei der Berechnung der
5.29
Standardfehler berücksichtigt werden (in der Regel wird Bootstrap
verwendet).
• Um kausale Effekte zu identifizieren, wurden in den letzten Jahren auch für
Quantilsregressionen IV- und 2SLS-Verfahren entwickelt.
• Quantils- und LAD-Schätzer sind im Gegensatz zu Kleinstquadrateverfahren
nicht von Ausreisserbeobachtungen beeinflusst.
• Auch bei von oben zensierten abhängigen Variablen lassen sich mit
Quantilsregressionen die Effekte der Kovariaten unverzerrt schätzen.
• Da die Zielfunktion der Quantilsregression nicht überall differenzierbar ist,
kann nicht nach den Schätzwerten abgeleitet werden. Stattdessen muss ein
rechenaufwändiges lineares Optimierungsproblem formuliert werden.
5.30
• Der Ansatz der Quantilsregressionen ist semiparametrisch, da keine
Verteilungsannahmen an den Störterm erforderlich sind.
• Die Quantilsregression erlaubt es, den Effekt einer erklärenden Variable an
verschiedenen Stellen der Verteilung zu bewerten.
• Es gibt Panelverfahren für Quantilsregressionen.
• Ein wichtiger Beitrag ist Machado und Mata (2005), die die Oaxaca-Blinder-
Dekomposition auf Quantilsregressionen übertragen.
5.31
Literatur
Andini, Corrado, 2008, The total impact of schooling in within-groups wage inequality in Portugal, Applied Economics Letters, 15, 85-90.
Angrist, Joshua D. und Jörn-Steffen Pischke, 2009, Mostly Harmless Econometrics. An Empiricists Companion, Princeton Univ. Press, Kapitel 7.
Cameron, Colin A. und Pravin K. Trivedi, 2005, Microeconometrics. Methods and Applications, Cambridge Univ. Press, Kapitel 4.6
Cameron, Colin A. und Pravin K. Trivedi, 2009, Microeconometrics using Stata, Stata Press, Kapitel 7.
Koenker, Roger und Gilbert Bassett, 1978, Regression Quantiles, Econometrica 46, 33-50.
Koenker, Roger und Gilbert Bassett, 1982, Robust Tests for Heteroscedasticity Based on Regression Quantiles, Econometrica 50, 43-62.
Machado, Jose A.F. und Jose Mata, 2005, Counterfactual Decomposition of Changes in Wage Distributions using Quantile Regression, Journal of Applied Econometrics 20, 445-465.
5.32
Weitere Beispiele
Bechtel, Stephan, 2006, Verdienststrukturen in Baden-Württemberg: Eine empirische Analyse mit Hilfe von Quantilsregressionen, Wirtschaft und Statistik 3, 316-328.
Koenker, Roger, 2005, Quantile Regression, Cambridge Univ. Press, Cambridge, Kapitel 1.5.