4 Multiple lineare Regression Multikollinearitat 4.9
Multikollinearitat
Erinnerung: Unter der (gemaß Modellannahmen ausgeschlossenen) perfektenMultikollinearitat versteht man eine perfekte lineare Abhangigkeit unter denRegressoren (einschließlich des
”Absolutglieds“).
Bei perfekter Multikollinearitat ist eine Schatzung des Modells mit demvorgestellten Verfahren nicht moglich.
Im Unterschied zur perfekten Multikollinearitat spricht man von imperfekterMultikollinearitat, wenn die Regressoren (einschließlich des
”Absolutglieds“)
beinahe (in einem noch genauer zu spezifizierenden Sinn!) lineareAbhangigkeiten aufweisen.
Eine (konventionelle) Schatzung des Modells ist dann (abgesehen vonnumerischen Schwierigkeiten in sehr extremen Fallen) moglich, die Ergebnissekonnen aber (i.d.R. unerwunschte) Besonderheiten aufweisen.
Okonometrie (SS 2014) Folie 241
4 Multiple lineare Regression Multikollinearitat 4.9
Perfekte Multikollinearitat I
Perfekte Multikollinearitat tritt in linearen Modellen mit Absolutglied (wiehier betrachtet) zum Beispiel dann auf, wenn Modelle mit sog.Dummy-Variablen falsch spezifiziert werden.
Unter Dummy-Variablen versteht man Regressoren, die nur die Werte 0 und 1annehmen.
Oft werden nominalskalierte Regressoren mit Hilfe von Dummy-Variablen inlineare Modelle einbezogen, indem den vorhandenen (!) Auspragungenseparate Dummy-Variablen zugeordnet werden, die jeweils den Wert 1annehmen, wenn die entsprechende Auspragung vorliegt, und 0 sonst.
Wird zu jeder vorhandenen Auspragung eine solche Dummy-Variabledefiniert, hat offensichtlich immer genau eine der Dummy-Variablen den Wert1, alle anderen den Wert 0.
Damit ist aber offensichtlich die Summe uber alle Dummy-Variablen stetsgleich 1 und damit identisch mit dem (und insbesondere linear abhangig zum)Absolutglied.
Okonometrie (SS 2014) Folie 242
4 Multiple lineare Regression Multikollinearitat 4.9
Perfekte Multikollinearitat II
Losung: (Genau) eine Dummy-Variable wird weggelassen.
Damit nimmt die zu dieser Dummy-Variablen gehorende Auspragung desMerkmals eine Art
”Benchmark“ oder Bezugsgroße ein.
Die Koeffizienten vor den im Modell verbliebenen Dummy-Variablen zu denanderen Merkmalsauspragungen sind dann als Anderung gegenuber dieserBenchmark zu interpretieren, wahrend der
”Effekt“ der Benchmark selbst im
Absolutglied enthalten (und ohnehin nicht separat zu messen) ist.
Beispiel: Einbeziehung des Merkmals”Geschlecht“ mit den beiden (auch im
Datensatz auftretenden!) Auspragungen weiblich und mannlich mit Hilfeeiner Dummy-Variablen weiblich (oder alternativ mannlich) ist korrekt,wahrend Aufnahme der beiden Variablen weiblich und mannlich
zwangslaufig zu perfekter Multikollinearitat fuhrt.
Lineare Abhangigkeiten zwischen Regressoren konnen auch ohne (fehlerhafte)Verwendung von Dummy-Variablen auftreten.
Okonometrie (SS 2014) Folie 243
4 Multiple lineare Regression Multikollinearitat 4.9
Perfekte Multikollinearitat III
Beispiel 1: Sind in einem Modell die Regressoren”durchschnittl.
Monatseinkommen“ (Monat),”Jahressonderzahlung“ (Sonderzahlung) und
”Jahreseinkommen“ (Jahr) enthalten, besteht wegen des Zusammenhangs
Jahr = 12 · Monat + Sonderzahlung
offensichtlich perfekte Multikollinearitat.
Beispiel 2: Sind gleichzeitig die Regressoren”Nettoeinnahmen mit reduz.
MWSt.“ (NettoReduziert),”Nettoeinnahmen mit regul. MWSt.“
(NettoRegular) und”Bruttoeinnahmen“ (Brutto) enthalten, besteht wegen
des Zusammenhangs
Brutto = 1.07 · NettoReduziert + 1.19 · NettoRegular
ebenfalls perfekte Multikollinearitat.
Losung: Eine der Variablen im linearen Zusammenhang weglassen (wird vonStatistik-Software meist automatisch erledigt).
Okonometrie (SS 2014) Folie 244
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat I
Imperfekte Multikollinearitat kann im Beispiel 1 aus Folie 244 auch nachElimination des Regressors Jahr auftreten:
Oft ist die Jahressonderzahlung (mehr oder weniger) linear vomdurchschnittlichen Monatseinkommen abhangig (
”13. Monatsgehalt“). Dies
kann zu”beinahe“ linearen Abhangigkeiten zwischen den Regressoren fuhren.
In einem (fiktiven) linearen Modell werden die monalichen Ausgaben furNahrungs- und Genussmittel in Haushalten (NuG) durch die Anzahl Personenim Haushalt (Personen), das durchschn. Monatseinkommen (Monat) und diejahrliche Sonderzahlung (Sonderzahlung) erklart.
Im (ebenfalls fiktiven) Datensatz der Lange n = 25 betragt die Korrelationzwischen den Regressoren Monat und Sonderzahlung 0.972, wie auch imfolgenden Plot visualisiert ist.
Okonometrie (SS 2014) Folie 245
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat IIDarstellung der Regressoren Monat und Sonderzahlung
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
1500 2000 2500 3000 3500 4000 4500 5000
1500
2000
2500
3000
3500
4000
4500
5000
Punktwolke der Regressoren Monat und Sonderzahlung
Monat x2i
Son
derz
ahlu
ng x
3i
Okonometrie (SS 2014) Folie 246
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat IIISchatzergebnisse des vollstandigen Modells
Call:
lm(formula = NuG ~ Personen + Monat + Sonderzahlung)
Residuals:
Min 1Q Median 3Q Max
-268.49 -109.97 -0.13 122.96 248.30
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 61.44311 124.97001 0.492 0.628
Personen 159.57520 29.13033 5.478 1.96e-05 ***
Monat 0.17848 0.11854 1.506 0.147
Sonderzahlung 0.07205 0.12413 0.580 0.568
---
Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 153.3 on 21 degrees of freedom
Multiple R-squared: 0.8242, Adjusted R-squared: 0.7991
F-statistic: 32.82 on 3 and 21 DF, p-value: 4.097e-08
Okonometrie (SS 2014) Folie 247
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat IV
In der Schatzung des vollstandigen Modells ist nur der Koeffizient desRegressors Personen signifikant von Null verschieden (zu gangigenSignifikanzniveaus).
Insbesondere die (geschatzten) Koeffizienten zu den Regressoren Monat undSonderzahlung sind zwar (wie zu erwarten) positiv, durch dievergleichsweise großen Standardfehler jedoch insignifikant.
Es liegt die Vermutung nahe, dass die Schatzung der Koeffizienten deshalb so
”ungenau“ ausfallt, weil die Effekte der beiden Regressoren wegen der hohen
Korrelation im linearen Modellansatz kaum zu trennen sind.
Die imperfekte, aber große (lineare) Abhangigkeit der beiden RegressorenMonat und Sonderzahlung ubertragt sich auf einen stark ausgepragten(negativen!) Zusammenhang der Koeffizientenschatzer zu diesen Regressoren,was sich auch in Konfidenzellipsen zu den entsprechenden Parameternwiderspiegelt:
Okonometrie (SS 2014) Folie 248
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat VKonfidenzellipse (1− α = 0.95) fur β2 und β3 im vollstandigen Modell
−0.1 0.0 0.1 0.2 0.3 0.4 0.5
−0.
2−
0.1
0.0
0.1
0.2
0.3
0.4
Monat β2
Son
derz
ahlu
ng β
3
●
Okonometrie (SS 2014) Folie 249
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat VI
Bei Betrachtung der Konfidenzellipse fallt auf, dass die Ellipse sehr”flach“ ist.
Grund hierfur ist die bereits erwahnte starke negative (geschatzte)
Korrelation der Schatzfunktionen β2 und β3, die sich aus der geschatztenVarianz-Kovarianzmatrix
V(β) =
15617.50443 −2322.95496 −3.52136 0.76131−2322.95496 848.57606 0.76545 −0.69665−3.52136 0.76545 0.01405 −0.014310.76131 −0.69665 −0.01431 0.01541
als Korr(β2, β3) =
−0.01431√0.01405 · 0.01541
= −0.973 errechnen lasst.
Fasst man die Regressoren Monat und Sonderzahlung in dem Regressor
Jahr = 12 · Monat + Sonderzahlung
zusammen, erhalt man folgende Ergebnisse:
Okonometrie (SS 2014) Folie 250
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat VIIModell mit Regressor Jahr statt Regressoren Monat und Sonderzahlung
Call:
lm(formula = NuG ~ Personen + Jahr)
Residuals:
Min 1Q Median 3Q Max
-263.159 -109.291 5.702 121.542 262.347
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 58.0719 122.3825 0.475 0.64
Personen 162.0057 28.0344 5.779 8.18e-06 ***
Jahr 0.0190 0.0021 9.044 7.27e-09 ***
---
Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 150.5 on 22 degrees of freedom
Multiple R-squared: 0.8227, Adjusted R-squared: 0.8066
F-statistic: 51.04 on 2 and 22 DF, p-value: 5.449e-09
Okonometrie (SS 2014) Folie 251
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat VIII
Nun ist auch der Koeffizient zum (aggregierten) Regressor Jahr (hoch)signifikant von Null verschieden (und wie zu erwarten positiv).
Trotz der Reduzierung der Zahl der Regressoren bleibt der Anteil dererklarten Varianz beinahe unverandert, das adjustierte Bestimmtheitsmaßvergroßert sich sogar.
Nicht wesentlich andere Resultate sind zu beobachten, wenn man einen derRegressoren Monat oder Sonderzahlung aus dem ursprunglichen Modellentfernt.
Ist das Weglassen von Regressoren oder eine Umspezifikation des Modellsmoglich und sinnvoll, kann man das Problem der (imperfekten)Multikollinearitat also dadurch umgehen.
Ansonsten kann man den bisher dargestellten Folgen von imperfekterMultikollinearitat nur durch einen vergroßerten Stichprobenumfangentgegenwirken.
Okonometrie (SS 2014) Folie 252
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat IXModell ohne Regressor Sonderzahlung
Call:
lm(formula = NuG ~ Personen + Monat)
Residuals:
Min 1Q Median 3Q Max
-261.656 -109.348 7.655 109.174 267.646
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 57.88292 122.92403 0.471 0.642
Personen 162.83304 28.15048 5.784 8.08e-06 ***
Monat 0.24538 0.02726 9.003 7.88e-09 ***
---
Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 151 on 22 degrees of freedom
Multiple R-squared: 0.8214, Adjusted R-squared: 0.8052
F-statistic: 50.59 on 2 and 22 DF, p-value: 5.901e-09
Okonometrie (SS 2014) Folie 253
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat XModell ohne Regressor Monat
Call:
lm(formula = NuG ~ Personen + Sonderzahlung)
Residuals:
Min 1Q Median 3Q Max
-299.94 -113.54 25.03 87.79 293.15
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 106.1682 124.8342 0.850 0.404
Personen 149.8531 29.2120 5.130 3.85e-05 ***
Sonderzahlung 0.2538 0.0298 8.515 2.06e-08 ***
---
Signif. codes:
0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 157.7 on 22 degrees of freedom
Multiple R-squared: 0.8052, Adjusted R-squared: 0.7875
F-statistic: 45.48 on 2 and 22 DF, p-value: 1.53e-08
Okonometrie (SS 2014) Folie 254
4 Multiple lineare Regression Multikollinearitat 4.9
Beispiel: Imperfekte Multikollinearitat XI
Das Vorliegen von imperfekter Multikollinearitat bedeutet im Ubrigen nicht,dass die Resultate der Schatzung nicht mehr nutzlich oder gar falsch sind,insbesondere bleiben verwertbare Prognosen meist moglich.
Im vollstandigen Modell erhalt man außerdem beispielsweise mit demKonfidenzintervall zum Konfidenzniveau 1− α = 0.95 fur die Summeβ2 + β3, also fur a′β mit a =
[0 0 1 1
]′, mit
[0.1781, 0.3219]
eine deutlich prazisere Schatzung als fur die einzelnen Koeffizientenβ2 (Konfidenzintervall zum Niveau 1− α = 0.95: [−0.0681, 0.425]) undβ3 (Konfidenzintervall zum Niveau 1− α = 0.95: [−0.1861, 0.3302]).
Werden die”schlecht zu trennenden“ Effekte also (z.B. durch geeignete
Linearkombination) zusammengefasst, sind wieder prazisere Schlusse moglich.
Auch die Frage, ob wenigstens einer der Koeffizienten β2 bzw. β3 signifikant(α = 0.05) von Null verschieden ist, kann mit einem Blick auf dieKonfidenzellipse auf Folie 249 (oder mit einem passenden F -Test) klar positivbeantwortet werden.
Okonometrie (SS 2014) Folie 255
4 Multiple lineare Regression Multikollinearitat 4.9
Messung von imperfekter Multikollinearitat I
Ausstehend ist noch die prazisere Festlegung einer Schwelle fur die lineareAbhangigkeit zwischen den Regressoren, ab der man ublicherweise vonimperfekter Multikollinearitat spricht.
Man benotigt zunachst ein Maß fur die lineare Abhangigkeit der Regressoren.Dazu setzt man zunachst jeden der K (echten) Regressoren separat alsabhangige Variable in jeweils ein neues Regressionsmodell ein und verwendetals unabhangige, erklarende Variablen jeweils alle ubrigen Regressoren in derfolgenden Gestalt:
x1i = γ0 + γ2x2i + γ3x3i + . . .+ γK−1x(K−1)i + γK xKi + ui ,
x2i = γ0 + γ1x1i + γ3x3i + . . .+ γK−1x(K−1)i + γK xKi + ui ,
......
......
x(K−1)i = γ0 + γ1x1i + γ2x2i + γ3x3i + . . . + γK xKi + ui ,
xKi = γ0 + γ1x1i + γ2x2i + γ3x3i + . . .+ γK−1x(K−1)i + ui .
Okonometrie (SS 2014) Folie 256
4 Multiple lineare Regression Multikollinearitat 4.9
Messung von imperfekter Multikollinearitat II
Die K resultierenden Bestimmtheitsmaße R2k (k ∈ {1, . . . ,K}) werden dann
verwendet, um die sogenannten Varianz-Inflations-Faktoren (VIF)
VIFk :=1
1− R2k
zu definieren.
Offensichtlich gilt VIFk ≥ 1, und VIFk wachst mit zunehmendem R2k
(es gilt genauer VIFk = 1 ⇐⇒ R2k = 0 und VIFk →∞ ⇐⇒ R2
k → 1).
Sind Regressoren mit einem Varianz-Inflations-Faktor von mehr als 10 imModell enthalten, spricht man in der Regel vom Vorliegen von imperfekterMultikollinearitat oder vom Multikollinearitatsproblem, es existieren aberauch einige andere
”Faustregeln“.
Okonometrie (SS 2014) Folie 257
4 Multiple lineare Regression Multikollinearitat 4.9
Messung von imperfekter Multikollinearitat III
In der Darstellung (mit den Abkurzung xk und skk aus Folie 191)
Var(βk ) =σ2
n · skk· VIFk =
σ2∑ni=1(xki − xk )2
· VIFk
der geschatzten Varianz der Parameterschatzer βk ist die Bezeichnung
”Varianz-Inflations-Faktor“ selbsterklarend.
In der im Beispiel durchgefuhrten Schatzung des vollstandigen Modellsergeben sich die folgenden Varianz-Inflations-Faktoren:
Regressor Personen Monat Sonderzahlung
VIF 1.062 18.765 18.531
Nach der oben genannten”Faustregel“ liegt also ein Multikollinearitatsproblem
bei den Regressoren Monat und Sonderzahlung vor.
Okonometrie (SS 2014) Folie 258
4 Multiple lineare Regression Heteroskedastische Storgroßen 4.10
Heteroskedastie der Storgroßen I
Die Annahme 2 an die Storgroßen ui auf Folie 186 lautet Var(ui ) = σ2 furalle i ∈ {1, . . . , n}, es wird also die Gleichheit aller Storgroßenvarianzengefordert.
Die Gleichheit der Varianz mehrerer Zufallsvariablen wird auch alsHomoskedastie oder Homoskedastizitat dieser Zufallsvariablen bezeichnet.Man spricht bei Erfullung der Annahme 2 an die Storgroßen damit auch vonhomoskedastischen Storgroßen.
Das Gegenteil von Homoskedastie wird mit Heteroskedastie oderHeteroskedastizitat bezeichnet.Ist Annahme 2 an die Storgroßen verletzt, gilt also (mit σ2
i := Var(ui ))σ2
i 6= σ2j fur mindestens eine Kombination i , j ∈ {1, . . . , n}, so spricht man
von heteroskedastischen Storgroßen.
Okonometrie (SS 2014) Folie 259
4 Multiple lineare Regression Heteroskedastische Storgroßen 4.10
Heteroskedastie der Storgroßen II
Im Folgenden untersuchen wir die Auswirkungen des Vorliegensheteroskedastischer, aber (nach wie vor) unkorrelierter Storgroßen.
Es gelte also
V(u) = diag(σ21 , . . . , σ
2n) :=
σ2
1 0 0 · · · 0 0 00 σ2
2 0 · · · 0 0 0...
. . ....
0 0 0 · · · 0 σ2n−1 0
0 0 0 · · · 0 0 σ2n
,
V(u) ist also eine Diagonalmatrix.
Sind die Storgroßen gemeinsam normalverteilt (gilt also Annahme 4 ), sosind die ui noch unabhangig, aber nicht mehr identisch verteilt.
Okonometrie (SS 2014) Folie 260
4 Multiple lineare Regression Heteroskedastische Storgroßen 4.10
Heteroskedastie der Storgroßen III
Auswirkungen von Heteroskedastie in den Storgroßenbei Schatzung des Modells mit der OLS-/KQ-Methode
I Der Vektor von Schatzfunktionen β bleibt unverzerrt fur β.(Die Koeffizientenschatzer bleiben prinzipiell sinnvoll und gut einsetzbar.)
I β ist nicht mehr effizient (varianzminimal).(Je nach Situation, insbesondere bei bekannter Struktur der Heteroskedastie, sindprazisere Schatzfunktionen konstruierbar. Dies wird in dieser Veranstaltung abernicht weiter besprochen.)
I Konfidenzintervalle und Tests werden in der bisherigen Ausgestaltungunbrauchbar!
Ursachlich fur den letzten (und folgenreichsten) Aspekt ist, dass bei der
Herleitung bzw. Berechnung von V(β) bzw. V(β) regelmaßig die (beiHeteroskedastie falsche!) Spezifikation V(u) = σ2In eingesetzt bzw.verwendet wurde.
Okonometrie (SS 2014) Folie 261
4 Multiple lineare Regression Heteroskedastische Storgroßen 4.10
Schatzung von V(β) bei Heteroskedastie I
Bei Vorliegen von Heteroskedastie in den Storgroßen kann V(β) nicht mehrso stark wie auf Folie 198 vereinfacht werden, man erhalt lediglich
V(β) = E
[(β − E(β)
)(β − E(β)
)′]= E
[((X′X)−1X′u
) ((X′X)−1X′u
)′]= E
[(X′X)−1X′uu′X(X′X)−1
]= (X′X)−1X′ E(uu′)X(X′X)−1
= (X′X)−1X′ V(u)X(X′X)−1 .
Bei unbekannter Form von Heteroskedastie wurde als (unter moderatenBedingungen) konsistenter Schatzer fur V(u) von White zunachst(Econometrica, 1980) die folgende Funktion vorgeschlagen:
Vhc0(u) := diag(u21 , . . . , u
2n) =
u2
1 0 0 · · · 0 0 00 u2
2 0 · · · 0 0 0...
. . ....
0 0 0 · · · 0 u2n−1 0
0 0 0 · · · 0 0 u2n
Okonometrie (SS 2014) Folie 262
4 Multiple lineare Regression Heteroskedastische Storgroßen 4.10
Schatzung von V(β) bei Heteroskedastie II
Auf dieser Basis wurden weitere”heteroskedastie-konsistente“ Schatzer
entwickelt, einer davon ist die (fur bessere Eigenschaften in kleinenStichproben um Freiheitsgrade korrigierte) Variante
Vhc1(u) :=n
n − (K + 1)diag(u2
1 , . . . , u2n)
=n
n − (K + 1)
u2
1 0 0 · · · 0 0 00 u2
2 0 · · · 0 0 0...
. . ....
0 0 0 · · · 0 u2n−1 0
0 0 0 · · · 0 0 u2n
.
Einsetzen in die Darstellung von V(β) aus Folie 262 liefert dann z.B.
Vhc1(β) := (X′X)−1X′Vhc1(u)X(X′X)−1
als (konsistenten) Schatzer fur die Varianz-Kovarianz-Matrix V(β).
Okonometrie (SS 2014) Folie 263
4 Multiple lineare Regression Heteroskedastische Storgroßen 4.10
Konfidenz-, Prognoseintervalle und Hypothesentests Ibei heteroskedastischen Storgroßen
Konfidenz- und Prognoseintervalle sowie Hypothesentests mussen nun auf derVerteilungsaussage
β ∼ N(β, (X′X)−1X′ V(u)X(X′X)−1)
bzw.β•∼ N(β, (X′X)−1X′ V(u)X(X′X)−1)
aufbauen, die durch eine geeignete Schatzung von V(u) nutzbar gemachtwird.
Die Verwendung eines heteroskedastie-konsistenten Schatzers Vhc(u) fur V(u)
bzw. Vhc(β) fur V(β) fuhrt dazu, dass viele bei Homoskedastie (zumindestbei gemeinsam normalverteilen Storgroßen) exakt gultigenVerteilungsaussagen nur noch asymptotisch und damit fur endlicheStichprobenumfange nur noch naherungsweise (approximativ) gelten (selbstbei gemeinsam normalverteilten Storgroßen).
Okonometrie (SS 2014) Folie 264
Top Related