Multikollinearit at - Lehrstab Statistik .separate Dummy-Variablen zugeordnet werden, die jeweils

download Multikollinearit at - Lehrstab Statistik  .separate Dummy-Variablen zugeordnet werden, die jeweils

of 24

  • date post

    28-Aug-2019
  • Category

    Documents

  • view

    212
  • download

    0

Embed Size (px)

Transcript of Multikollinearit at - Lehrstab Statistik .separate Dummy-Variablen zugeordnet werden, die jeweils

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Multikollinearität

    Erinnerung: Unter der (gemäß Modellannahmen ausgeschlossenen) perfekten Multikollinearität versteht man eine perfekte lineare Abhängigkeit unter den Regressoren (einschließlich des

    ” Absolutglieds“).

    Bei perfekter Multikollinearität ist eine Schätzung des Modells mit dem vorgestellten Verfahren nicht möglich.

    Im Unterschied zur perfekten Multikollinearität spricht man von imperfekter Multikollinearität, wenn die Regressoren (einschließlich des

    ” Absolutglieds“)

    beinahe (in einem noch genauer zu spezifizierenden Sinn!) lineare Abhängigkeiten aufweisen.

    Eine (konventionelle) Schätzung des Modells ist dann (abgesehen von numerischen Schwierigkeiten in sehr extremen Fällen) möglich, die Ergebnisse können aber (i.d.R. unerwünschte) Besonderheiten aufweisen.

    Ökonometrie (SS 2014) Folie 241

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Perfekte Multikollinearität I

    Perfekte Multikollinearität tritt in linearen Modellen mit Absolutglied (wie hier betrachtet) zum Beispiel dann auf, wenn Modelle mit sog. Dummy-Variablen falsch spezifiziert werden.

    Unter Dummy-Variablen versteht man Regressoren, die nur die Werte 0 und 1 annehmen.

    Oft werden nominalskalierte Regressoren mit Hilfe von Dummy-Variablen in lineare Modelle einbezogen, indem den vorhandenen (!) Ausprägungen separate Dummy-Variablen zugeordnet werden, die jeweils den Wert 1 annehmen, wenn die entsprechende Ausprägung vorliegt, und 0 sonst.

    Wird zu jeder vorhandenen Ausprägung eine solche Dummy-Variable definiert, hat offensichtlich immer genau eine der Dummy-Variablen den Wert 1, alle anderen den Wert 0.

    Damit ist aber offensichtlich die Summe über alle Dummy-Variablen stets gleich 1 und damit identisch mit dem (und insbesondere linear abhängig zum) Absolutglied.

    Ökonometrie (SS 2014) Folie 242

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Perfekte Multikollinearität II

    Lösung: (Genau) eine Dummy-Variable wird weggelassen.

    Damit nimmt die zu dieser Dummy-Variablen gehörende Ausprägung des Merkmals eine Art

    ” Benchmark“ oder Bezugsgröße ein.

    Die Koeffizienten vor den im Modell verbliebenen Dummy-Variablen zu den anderen Merkmalsausprägungen sind dann als Änderung gegenüber dieser Benchmark zu interpretieren, während der

    ” Effekt“ der Benchmark selbst im

    Absolutglied enthalten (und ohnehin nicht separat zu messen) ist.

    Beispiel: Einbeziehung des Merkmals ” Geschlecht“ mit den beiden (auch im

    Datensatz auftretenden!) Ausprägungen weiblich und männlich mit Hilfe einer Dummy-Variablen weiblich (oder alternativ männlich) ist korrekt, während Aufnahme der beiden Variablen weiblich und männlich zwangsläufig zu perfekter Multikollinearität führt.

    Lineare Abhängigkeiten zwischen Regressoren können auch ohne (fehlerhafte) Verwendung von Dummy-Variablen auftreten.

    Ökonometrie (SS 2014) Folie 243

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Perfekte Multikollinearität III

    Beispiel 1: Sind in einem Modell die Regressoren ” durchschnittl.

    Monatseinkommen“ (Monat), ” Jahressonderzahlung“ (Sonderzahlung) und

    ” Jahreseinkommen“ (Jahr) enthalten, besteht wegen des Zusammenhangs

    Jahr = 12 · Monat + Sonderzahlung

    offensichtlich perfekte Multikollinearität.

    Beispiel 2: Sind gleichzeitig die Regressoren ” Nettoeinnahmen mit reduz.

    MWSt.“ (NettoReduziert), ” Nettoeinnahmen mit regul. MWSt.“

    (NettoRegulär) und ” Bruttoeinnahmen“ (Brutto) enthalten, besteht wegen

    des Zusammenhangs

    Brutto = 1.07 · NettoReduziert + 1.19 · NettoRegulär

    ebenfalls perfekte Multikollinearität.

    Lösung: Eine der Variablen im linearen Zusammenhang weglassen (wird von Statistik-Software meist automatisch erledigt).

    Ökonometrie (SS 2014) Folie 244

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Beispiel: Imperfekte Multikollinearität I

    Imperfekte Multikollinearität kann im Beispiel 1 aus Folie 244 auch nach Elimination des Regressors Jahr auftreten:

    Oft ist die Jahressonderzahlung (mehr oder weniger) linear vom durchschnittlichen Monatseinkommen abhängig (

    ” 13. Monatsgehalt“). Dies

    kann zu ” beinahe“ linearen Abhängigkeiten zwischen den Regressoren führen.

    In einem (fiktiven) linearen Modell werden die monalichen Ausgaben für Nahrungs- und Genussmittel in Haushalten (NuG) durch die Anzahl Personen im Haushalt (Personen), das durchschn. Monatseinkommen (Monat) und die jährliche Sonderzahlung (Sonderzahlung) erklärt.

    Im (ebenfalls fiktiven) Datensatz der Länge n = 25 beträgt die Korrelation zwischen den Regressoren Monat und Sonderzahlung 0.972, wie auch im folgenden Plot visualisiert ist.

    Ökonometrie (SS 2014) Folie 245

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Beispiel: Imperfekte Multikollinearität II Darstellung der Regressoren Monat und Sonderzahlung

    1500 2000 2500 3000 3500 4000 4500 5000

    15 00

    20 00

    25 00

    30 00

    35 00

    40 00

    45 00

    50 00

    Punktwolke der Regressoren Monat und Sonderzahlung

    Monat x2i

    S on

    de rz

    ah lu

    ng x

    3i

    Ökonometrie (SS 2014) Folie 246

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Beispiel: Imperfekte Multikollinearität III Schätzergebnisse des vollständigen Modells

    Call:

    lm(formula = NuG ~ Personen + Monat + Sonderzahlung)

    Residuals:

    Min 1Q Median 3Q Max

    -268.49 -109.97 -0.13 122.96 248.30

    Coefficients:

    Estimate Std. Error t value Pr(>|t|)

    (Intercept) 61.44311 124.97001 0.492 0.628

    Personen 159.57520 29.13033 5.478 1.96e-05 ***

    Monat 0.17848 0.11854 1.506 0.147

    Sonderzahlung 0.07205 0.12413 0.580 0.568

    ---

    Signif. codes:

    0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

    Residual standard error: 153.3 on 21 degrees of freedom

    Multiple R-squared: 0.8242, Adjusted R-squared: 0.7991

    F-statistic: 32.82 on 3 and 21 DF, p-value: 4.097e-08

    Ökonometrie (SS 2014) Folie 247

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Beispiel: Imperfekte Multikollinearität IV

    In der Schätzung des vollständigen Modells ist nur der Koeffizient des Regressors Personen signifikant von Null verschieden (zu gängigen Signifikanzniveaus).

    Insbesondere die (geschätzten) Koeffizienten zu den Regressoren Monat und Sonderzahlung sind zwar (wie zu erwarten) positiv, durch die vergleichsweise großen Standardfehler jedoch insignifikant.

    Es liegt die Vermutung nahe, dass die Schätzung der Koeffizienten deshalb so

    ” ungenau“ ausfällt, weil die Effekte der beiden Regressoren wegen der hohen

    Korrelation im linearen Modellansatz kaum zu trennen sind.

    Die imperfekte, aber große (lineare) Abhängigkeit der beiden Regressoren Monat und Sonderzahlung überträgt sich auf einen stark ausgeprägten (negativen!) Zusammenhang der Koeffizientenschätzer zu diesen Regressoren, was sich auch in Konfidenzellipsen zu den entsprechenden Parametern widerspiegelt:

    Ökonometrie (SS 2014) Folie 248

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Beispiel: Imperfekte Multikollinearität V Konfidenzellipse (1− α = 0.95) für β2 und β3 im vollständigen Modell

    −0.1 0.0 0.1 0.2 0.3 0.4 0.5

    − 0.

    2 −

    0. 1

    0. 0

    0. 1

    0. 2

    0. 3

    0. 4

    Monat β2

    S on

    de rz

    ah lu

    ng β

    3

    Ökonometrie (SS 2014) Folie 249

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Beispiel: Imperfekte Multikollinearität VI

    Bei Betrachtung der Konfidenzellipse fällt auf, dass die Ellipse sehr ” flach“ ist.

    Grund hierfür ist die bereits erwähnte starke negative (geschätzte)

    Korrelation der Schätzfunktionen β̂2 und β̂3, die sich aus der geschätzten Varianz-Kovarianzmatrix

    V̂(β̂) =

     15617.50443 −2322.95496 −3.52136 0.76131 −2322.95496 848.57606 0.76545 −0.69665 −3.52136 0.76545 0.01405 −0.01431 0.76131 −0.69665 −0.01431 0.01541

     als K̂orr(β̂2, β̂3) =

    −0.01431√ 0.01405 · 0.01541

    = −0.973 errechnen lässt.

    Fasst man die Regressoren Monat und Sonderzahlung in dem Regressor

    Jahr = 12 · Monat + Sonderzahlung

    zusammen, erhält man folgende Ergebnisse:

    Ökonometrie (SS 2014) Folie 250

  • 4 Multiple lineare Regression Multikollinearität 4.9

    Beispiel: Imperfekte Multikollinearität VII Modell mit Regressor Jahr statt Regressoren Monat und Sonderzahlung

    Call:

    lm(formula = NuG ~ Personen + Jahr)

    Residuals:

    Min 1Q Median 3Q Max

    -263.159 -109.291 5.702 121.5