Multiple Regression

Vertiefungsrichtung Marktforschung • Sommersemester 2006 • Christian Reinboth

Vertiefungsrichtung Marktforschung

Sommersemester 2006

Dipl.-WiInf.(FH) Christian Reinboth

Multiple Regression

TestenBeschreiben

Darstellen Erkennen


Multiple Regression● Vielseitiges, strukturprüfendes und am häufigsten eingesetztes multivariates Analyseverfahren● Ziel: Analyse von Beziehungen zwischen einer abhängigen Variablen und einer (univariater Fall)

oder mehreren (multivariater Fall) unabhängigen Variablen● Anwendung: Beschreibung und Erklärung von Zusammenhängen und Durchführung von Prognosen● Beispiel: Hängt die Absatzmenge eines bestimmten Produktes von den Ausgaben für die Qualitätssicherung,

den Ausgaben für die Werbung oder bzw. und der Anzahl der Verkaufsstellen ab?● Wenn ja, wie stark fallen die jeweiligen Zusammenhänge aus? Wie wird sich die Absatzmenge entwickeln,

wenn bestimmte Ausgaben erhöht oder gesenkt werden?


Inhalte: Multiple Regression● Die Multiple Regression● Exkurs: Korrelation und Kausalität● Formulierung des Regressionsmodells● Analysevoraussetzungen● Transformation nichtlinearer Variablen● Berechnung des Regressionsmodells

● Schätzung der Regressionsfunktion● Auswahl einer Geraden● Methode der kleinsten Quadrate● Aufstellung der Regressionsgleichung● Regressions- und Beta-Koeffizienten

● Messung der Anpassungsgüte● R² und korrigiertes R²● Standardfehler der Schätzung● F-Statistik

● Prüfung der Regressionskoeffizienten● t-Test der Regressionskoeffizienten● Konfidenzintervalle um die Koeffizienten

● Prüfung der Modellprämissen● Tests an den Residualgrößen

● Test auf Normalverteilung ● Histogramm & P-P-Diagramm● Kolmogoroff-Smirnov-Anpassungstest

● Test auf Homoskedastizität● Streudiagramm & Box-Plot● Levene-Test auf Homoskedastizität

● Test auf Autokorrelation● Test an den Variablen

● Test auf Multikollinearität● Korrelationsmatrix● Toleranz & Varianzinflationsfaktor● Zerlegung der Varianzanteile

● Test auf linearen Zusammenhang


Die Multiple Regression● Die Regressionsanalyse ist das flexibelste und am häufigsten eingesetzte multivariate Analyseverfahren● Untersucht wird die Beziehung zwischen einer abhängigen und einer oder mehrerer unabhängigen Variablen

● Sie wird verwendet um:● Zusammenhänge quantitativ darzustellen und zu erklären (Ursachenanalyse)● Werte der abhängigen Variablen zu prognostizieren (Wirkungsprognose)

● Beispiel: Wie verändert sich die Absatzmenge (abhängige Variable) bei Veränderungen am Produktpreis, den Werbeausgaben oder der Anzahl der öffentlichen Verkaufsveranstaltungen (unabhängige Variablen)?

● Ergebnis des Verfahrens ist die Regressionsfunktion:● Y = f(X) > einfache Regression (eine abhängige und eine unabhängige Variable)● Y = f(X1, X2, X3...Xn) > multiple Regression (eine abhängige und mehrere unabhängige Variablen)

● Problemfall interdependente Beziehungen: ● Beeinflusst der Bekanntheitsgrad die Absatzmenge oder beeinflusst die Absatzmenge den Bekanntheitsgrad?● Dieses System ist nicht in einer einzelnen Gleichung erfassbar, sondern nur im Mehrgleichungsmodell


Exkurs: Korrelation und Kausalität

Drei Formen der Korrelation:

1 2 3

Durch die Regressionsanalyse lassen sich keine Kausalitäten nachweisen!

Korrelation ist eine notwendige aber keine hinreichende Bedingung für Kausalität!

Variable A

Variable B

Variable A

Variable B

Variable A

Variable B

Variable A beeinflusst Variable B Variable B beeinflusst Variable A Beeinflussung beider Variablen durch C

Gemeinsame Hintergrund-variable C


Ablauf der Multiplen Regressionanalyse

Schritt 1Formulierung des Modells

Prüfung der Grundvoraussetzungen

Schritt 2Schätzung der Regressionsfunktion

Aufstellung der Regressionsfunktion

Schritt 3Prüfung der Regressionsfunktion undPrüfung der Regressionskoeffizienten

Schritt 4Prüfung der Modellvoraussetzungen

Interpretation der Ergebnisse

Zunächst werden die abhängige sowie die unabhängigen Variablenbestimmt, wobei hier fachliche Überlegungen im Vordergrund stehenmüssen. Außerdem sind die Grundvorraussetzungen bezüglich des Skalenniveaus und des vermuteten Kausalgeflechtes zu überprüfen.

Im zweiten Schritt werden die Regressionskoeffizienten anhand der Methode der kleinsten Quadrate berechnet und anschließend die Regressionsfunktion aufgestellt.

Bevor man die Regressionsfunktion inhaltlich interpretiert ist zu prüfen ob (a) die gefundene Funktion als Ganzes die abhängige Variable Y gut erklären kann und (b) welchen Beitrag die einzelnen unabhängigen Variablen zur Erklärung von Y leisten.

Abschließend ist noch zu prüfen, ob sämtliche Modellprämissen eingehalten wurden, d.h. ob keine Autokorrelation der Residuen vorliegt und sich diese näherungsweise normal verteilen etc. Ist das gefundene Modell valide, kann es inhaltlich interpretiert werden.


Formulierung des Modells

● Die Regressionsanalyse ist ein struktur-prüfendes Verfahren und dient nicht der Entdeckung unbekannter Zusammenhänge

● Das zu untersuchende Regressionsmodell muss vor Beginn der Analyse auf Basis von Sachinformationen gebildet werden

● Das Modell sollte so konstruiert werden, dass eine möglichst vollständige Abbildung der Ursache-Wirkungs-Beziehungen vermutet werden kann

● Zur Hilfe beim Auffinden der für das Modell geeigneten Variablen eignen sich Streudiagramme (univariate Fälle) und Matrixdiagramme (multivariate Fälle)

● Ein linearer Zusammenhang zwischen zwei Variablen ist immer dann zu vermuten, wenn die Punkte im Diagramm eng um eine gedachte Gerade streuen


Analysevoraussetzungen● Grundvoraussetzungen:

● Das Kausalgeflecht (abhängige und unabhängige Variable(n)) muss bekannt sein oder vermutet werden● Der Zusammenhang zwischen abhängiger und unabhängigen Variablen muss linear sein

● Ein quadratischer, logarithmischer, monotoner oder anders gerarteter Zusammenhang wird nicht aufgedeckt● Alle verwendeten Variablen müssen metrisch skaliert sein (Verfahren arbeitet mit dem Standardmittelwert)

● Für die unabhängigen Variablen lassen sich auch nominalskalierte Dummy-Variablen einsetzen

Die Grundvoraussetzungen sind stets vor Beginn der Regressionsanalyse zu überprüfen!

● Weitere Modellvoraussetzungen:● Die unabhängigen Variablen dürfen nicht untereinander korrelieren (Multikollinearität)● Die standardisierten Residuen (durch das Modell nicht erklärte Abweichungen) müssen:

● näherungsweise normalverteilt sein● die gleiche Varianz besitzen (Homoskedastizität)● und dürfen nicht untereinander korrelieren (Autokorrelation)

Die übrigen Modellvoraussetzungen sind stets im Anschluss an die Regressionsanalyse zu überprüfen!


Transformation nichtlinearer Variablen● Das lineare Regressionsmodell dient nicht der Bestimmung der optimalen Kurvenanpassung in allen Fällen● Es setzt einen linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen voraus

● Liegen nichtlineare Zusammenhänge vor, ist die Transformation einzelner Variablen möglich

● Beispiel: Bei Wachstumsprozessen kommt es häufig vor, dass sich die unabhängige Variable linear, die abhängige Variable aber exponentiell verändert (z.b. bei der Schadstoffkonzentration)

● Bei einer solchen zeitgebundenen exponentiellen Entwicklung, lässt sich der Zusammenhang zwischen der Schadstoffkonzentration (abhängige Variable) und der Zeit (unabhängige Variable) darstellen als:● Dieser Zusammenhang ist nichtlinear und damit für die Regressionsanalyse ungeeignet● Wird die Gleichung logarithmiert ergibt sich dagegen folgendes Bild:● Dieser Zusammenhang ist linear und lässt eine Regressionsanalyse zu ● Als abhängige Variable sind die logarithmierten Werte von Y zu verwenden

Y=a∗eb∗t ln Y =ln ab∗t > Transformation (ln) >


Schätzung der Regressionsfunktion● Grundprinzip am Beispiel einer einfachen linearen Regression:

● Der Zusammenhang zwischen den beiden Variablen im Streudiagramm ist nicht perfekt● Beide Variablen bewegen sich jedoch tendenziell in die gleiche Richtung, ein linearer Trend ist erkennbar● Es kommen theoretisch mehrere Geraden in Frage um den Verlauf der Punkte nachzuzeichnen

● Entscheidende Frage: Welche der möglichen Geraden beschreibt den Zusammenhang am besten?


Auswahl einer Geraden● Welche der möglichen Geraden liefert die „besten“ Schätzwerte?

● Ermittlung der senkrechten Abstände zwischen geschätzten und beobachteten „wahren“ Punkten● Da die Punkte auf beiden Seiten der Geraden liegen, ergeben sich positive wie negative Abstände● Auswahl derjenigen Geraden, bei der sich positive und negative Abstände gegenseitig aufheben● Bei dieser Geraden beträgt der durchschnittliche Schätzfehler Null, die Punkte sind gleichmäßig verteilt

● Welches Problem ergibt sich bei diesem Auswahlverfahren?


Auswahl einer Geraden● Beispielrechnung:

● Der senkrechte Abstand des Punktes i zur Geraden berechnet sich als:● Für eine Untersuchung mit 100 Fällen kann i die Werte 1 bis 100 annehmen● Die Summe aller Abstände berechnet sich daher als:● Sollen die Summen der Abstände Null sein gilt: ● Dividiert durch die Zahl der Beobachtungen:

● Diese Rechnung führt zu dem Schluss, dass die Summe der Abstände stets Null beträgt, wenn:● Diese Bedingung trifft aber auf alle Geraden zu, die

● durch den Punkt aus den beiden Mittelwerten laufen, wobei● die Steigung der Geraden vollkommen irrelevant wäre

● Diese Vorgehensweise ist daher zur Ermittlung der optimalen Regressionsgerade ungeeignet

● Besser geeignet ist die sogenannte „Methode der kleinsten Quadrate“ (Statistik I)

e i=Y i−ab∗X iY=ab∗X

∑ e i=∑ Y i−ab∗X i=∑ Y i−100∗a−b∗∑ X i

∑Y i−100∗a−b∗∑ X i=0

∑Y i

100−a−b∗∑ X i

100 Y−a−b∗X=0

Y=ab∗X


Methode der kleinsten Quadrate● Minimierung der Summe der Abweichungsquadrate = Methode der kleinsten Quadrate

● Auch die Methode der kleinsten Quadrate arbeitet mit den senkrechten Abständen der realen Werte von der Gerade● Die Abstände werden jedoch quadriert, so dass sämtliche negativen Vorzeichen wegfallen● Eine Kompensation der positiven und negativen Abstände wird dadurch vermieden● Es wird diejenige Gerade selektiert, bei der die Summe der quadrierten Abstände minimal ist

● Durch Umformung der Zielfunktion erhält man die Parameter der Regressionsfunktion:

● Regressionskoeffizient:

● Konstantes Glied/Konstante:

● Die Gleichung der Regressionsgeraden im Einfaktoren-Fall lautet:● Die Gleichung der Regressionsgeraden im Mehrfaktoren-Fall lautet dagegen:

● Die Berechnung der Regressionsparameter erfolgt analog zur Berechnung im Einfaktoren-Fall

∑k=1

K

ek2=∑

k=1

k

[ yk−ab∗xk ]2min !

b=I ∑ xI∗yk −∑ xI∗∑ yI

I ∑ xk2 −∑ xk

2

a=y−b∗x

Y=a∗bX

Y=b0b1∗X 1b2∗X 2b j∗X jbJ∗X J


Aufstellung der Regressionsgleichung● Einfaktoren-Fall:

● Gehalt mit 40 in Abhängigkeit vom Anfangsgehalt bei Berufseinstieg

● Jeder Euro Mehrverdienst bei Berufseinstiegführt zu zwei Euro mehr Gehalt mit 40?

● Mehrfaktoren-Fall:

● Gehalt mit 40 in Abhängigkeit vomAnfangsgehalt bei Berufseinstieg undder Ausbildungsdauer (in Jahren)

● Jedes zusätzliche Ausbildungsjahr führtzu über 1000 Euro mehr Gehalt mit 40?

● Wie lässt sich dies vermutlich erklären?● Was zeigen die standardisierten Koeffizienten?

Y=1928,211,91∗X

Y=1928,211,91∗X 11020,40∗X 2

Vorsicht: Mit SPSS lässt sich IMMER eine Regressionsfunktion berechnen!


Regressions- und Beta-Koeffizienten● Häufig ist es interessant festzustellen, welchen Einfluß die einzelnen unabhängigen Variablen auf Y ausüben● Welche der Variablen liefert den höchsten, welche den niedrigsten Erklärungsbeitrag für Y?

● Zur Beantwortung dieser Frage ist ein einfacher Vergleich der Koeffizienten nicht ausreichend● Grund: Die erklärenden Variablen können unterschiedliche Dimensionen aufweisen● Wenn dies der Fall ist, werden auch die Koeffizienten in unterschiedlichen Dimensionen geschätzt● Eine Änderung der Dimension (z.B. Prozent- statt Absolutwerte) hat unmittelbaren Einfluss auf den Koeffizienten● Eine solche Änderung hat jedoch keinen Einfluß auf den Erklärungsgehalt der Variablen● Darum dürfen die Koeffizienten bezüglich des Erklärungsgehalts nicht direkt miteinander verglichen werden

● Die Lösung besteht in der Berechnung der standardisierten Beta-Koeffizienten● Diese ergeben sich durch die Z-Transformation aller Variablen vor Beginn der Regressionsanalyse● Alternativ lassen sie sich auch direkt aus den Koeffizienten berechnen: betai=bi∗

sxis y

betai = Beta-Koeffizient der unabhängigen Variablen i

b1 = Regressionskoeffizient der unabhängigen Variablen i

sxi = Standardabweichung der unabhängigen Variablen i

sy = Standardabweichung der abhängigen Variablen Y


Messung der Anpassungsgüte● Da sich mit SPSS immer eine Regressionsfunktion berechnen lässt, stellt sich die Frage nach deren Güte● Wie gut wird die abhängige Variable Y durch das gefundene Regressionsmodell erklärt?

● Zur Feststellung der Anpassungsgüte existieren drei Kennwerte:● Bestimmtheitsmaß R² und korrigiertes R² (bei multivariaten Verfahren)● Standardfehler der Schätzung● F-Statistik

Wie aussagekräftig ist das Regressionsmodell insgesamt?


R² und korrigiertes R²

Regressionsgerade

X

Y

YiXi/Yi

_Y

Y*

_X Xi

{Nicht erklärte Abweichung ei

{Erklärte Abweichung

} Gesamte Abweichung

Residuum


R² und korrigiertes R²● Die Regressionsgerade gibt Zusammenhänge, die nicht perfekt linear sind, nicht perfekt wieder● Es ist daher mit der Regressionsfunktion nur selten möglich, alle Veränderungen in Y durch die Koeffizienten zu erklären● In der Regel wird ein Teil der Veränderungen erklärt werden können, ein anderer Teil wird unaufgeklärt bleiben

● Das Verhältnis von erklärter Streuung zur Gesamtstreuung ist ein gutes Maß für die Güte des Regressionsmodells● Residuen werden quadriert, damit sich positive und negative Abweichungen nicht aufheben

● Berechnung des Güßtemaßes R² mit:● TSS = Total Sum of Squares = Summe aller quadrierten Abweichungen● ESS = Explained Sum of Squares = Summe aller erklärten quadrierten Abweichungen● RSS = Residual Sum of Squares = Summe aller nicht erklärten quadrierten Abweichungen

● Die Relation zwischen erklärter Streuung und Gesamtstreuung wird mit R² bezeichnet:

● Der Wert von R² gibt den Anteil der erklärten Streuung an der Gesamtstreuung wieder > Güte der Anpassung● R² ist als prozentualer Wert zu verstehen und liegt daher stets zwischen 0 und 1● R² = 1 > Gesamte Streuung wird erklärt, es besteht ein perfekter linearer Zusammenhang● Je kleiner R² ausfällt, desto mehr weicht der vorliegende Fall vom linearen Zusammenhang ab● Beachte: R² ist lediglich ein Maß für den linearen Zusammenhang, nicht für andere Zusammenhänge

R2= ESSTSS


R² und korrigiertes R²● Zusätzlich zu R² wird von SPSS für multivariate Regressionsanalysen noch das korrigierte R² berechnet● Warum ist ein zusätzliches Gütemaß neben R² erforderlich?

● Die Aufnahme zusätzlicher erklärender Variablen führt nie zu einer Verschlechterung von R² ● Besteht gar kein Zusammenhang mit Y bleibt R² unverändert● Besteht ein minimaler Zusammenhang mit Y steigt R² dagegen leicht an● Ergebnis: wahllos viele Variablen werden ins Regressionsmodell aufgenommen● Dadurch ergibt sich ein hohes R² und ein vermeintlich gutes Regressionsmodell● Aber: die prognostizierten Werte werden mit steigender Variablenzahl unzuverlässiger● Daher: keine Variablen zur Minimalsteigerung von R² ins Regressionsmodell aufnehmen

● Rechtfertigt der Erklärungsanteil einer Variablen die Zunahme an Unsicherheit? > korrigiertes R²● Herleitung der Berechnungsvorschrift erfolgt aus R²: ● Da sich TSS aus ESS und RSS zusammensetzt, lässt sich R² auch berechnen als:● Das korrigierte R² berechnet sich dann als: ● Wird eine erklärende Variable hinzugefügt, ergeben sich zwei gegenläufige Effekte:

● RSS verringert sich, wodurch sich das korrigierte R² erhöht● Der Wert für k erhöht sich, wodurch sich das korrigierte R² verringert

● Je nachdem, welcher Effekt überwiegt, sollte die erklärende Variable ins Modell aufgenommen werden oder nicht

R2= ESSTSS

R2=TSS−RSS

TSS=TSSTSS

− RSSTSS

=1− RSSTSS

Rkorr2 =1−RSS /n−k

TSS /n−1


Standardfehler der Schätzung● Residuen können sowohl positiv als auch negativ ausfallen, liegen im Durchschnitt der Beobachtungen aber bei Null

● Dies impliziert, dass die prognostizierten Werte falsch sein können, im Durchschnitt aber korrekt ausfallen● Es stellt sich die Frage, ob die prognostizierten Werte in der Nähe der wahren Werte liegen oder stark abweichen● Theoretisch denkbar sind gewaltige Abweichungen in beide Richtungen, die sich im Durchschnitt neutralisieren

● Um den positiv-negativ-Effekt zu neutralisieren, werden die Residuen zunächst quadriert● Die Summe der quadrierten Residuen wird anschließend durch die Anzahl der Beobachtungswerte geteilt● Dadurch wird die sich ergebende Kennzahl von der Stichprobengröße unabhängig (Vergleichbarkeit): ● Da der Mittelwert der Residuen gleich Null ist, gilt ebenfalls: (Varianz der Residuen)● Aus methodischen Gründen wird oft nicht durch n sondern durch n abzüglich der erklärenden Variablen dividiert● Es ergibt sich folgender Term: (Beachte: auch die Konstante gehört zu den erklärenden Variablen)● Die Quadratwurzel dieses Terms ergibt die Standardabweichung der Residuen (=Standardfehler der Schätzung):

● Der Standardfehler der Schätzung ist ein Maß für die Anpassungsgüte der Regressionsgleichung● Er ist vergleichbar mit R² und korrigiertem R² und inhaltlich ähnlich zu interpretieren

∑ e i2

n∑ e i2

n=∑ e i

2−en

∑ e i2

n−k

∑ e i2

n−k


F-Statistik● R² und korrigiertes R² zeigen die Anpassung der Regressionsgeraden an die beobachteten Werte● Es stellt sich die Frage, ob das Regressionsmodell auch über die Stichprobenwerte hinaus Gültigkeit besitzt

● Ein geeignetes Prüfkriterium bildet die F-Statistik, in welche eingehen:● die Streuungszerlegung● der Umfang der Stichprobe

● Die Regressionsfunktion der Stichprobe lässt sich darstellen als:● Sie ist die Realisation der „wahren“ Regressionsfunktion:● Die neue Variable u wird als Störgröße bezeichnet

● Sie repräsentiert alle zufälligen Einflüsse außerhalb der betrachteten Variablen● Die Störgröße selbst kann nicht beobachtet werden, zeigt sich aber in den Residuen

● Durch den Einfluss von u wird Y zu einer Zufallsvariablen, ebenso wie die Schätzwerte der Regressionsparameter● Würde man die Stichprobe wiederholen würden sich andere Regressionsparameter ergeben● Bei wiederholten Stichproben würden diese Parameter um die „wahren“ Parameter schwanken

Y=b0b1∗X 1b2∗X 2b j∗X jbJ∗X J

Y=01∗X 12∗X 2 j∗X jJ∗X Ju


F-Statistik● Annahme der Regressionsanalyse: kausaler Zusammenhang zwischen abhängiger und unabhängigen Variablen● Besteht ein solche Zusammenhang tatsächlich, können die „wahren“ Regressionsparameter unmöglich Null sein

● Zur Überprüfung dieser Annahme wird das Regressionsmodell mit Hilfe eines F-Tests varianzanalytisch untersucht● Die Nullhypothese H0 dieses Tests lautet:

● Es besteht kein wirklicher Zusammenhang zwischen abhängigen und unabhängigen Variablen● Alle „wahren“ Regressionskoeffizienten in der Grundgesamtheit sind daher gleich Null

● Vorgehensweise des F-Tests:● Berechnung eines empirischen Werts aus der F-Statistik● Vergleich dieses Werts mit einem kritischen Wert● Bei Gültigkeit von H0 ist ein F-Wert von Eins zu erwarten● Abweichungen von Null machen H0 unwahrscheinlich● Bei deutlichen Abweichungen kann H0 verworfen werden ● Schlußfolgerung: Zusammenhang in der Grundgesamtheit

● Vorsicht: Es kann nichts darüber gesagt werden, zwischenwelchen Variablen Zusammenhänge bestehen, nur dassnicht alle wahren Parameter bei Null liegen (!)

H 0: 1=2==J=0

F m ,n =

m2

mn

2

n

Ausdruck der F-Verteilung

F-verteilte Größe mit m und n Freiheitsgraden


Dichtefunktionen der F-Verteilung


Prüfung der Regressionskoeffizienten● Wenn die Validität des Modells feststeht, stellt sich die Frage nach der Validität der einzelnen Koeffizienten● Gehören alle im Regressionsmodell untergebrachten Variablen auch in dieses Modell?

● Zur Feststellung der Güte der Koeffizienten existieren zwei Kriterien:● t-Test der Regressionskoeffizienten● Konfidenzintervalle um die Regressionskoeffizienten

Wie aussagekräftig sind die einzelnen Regressionskoeffizienten?


t-Test der Regressionskoeffizienten● Wird die Nullhypothese im F-Test verworfen, bedeutet dies dass es mindestens einen Zusammenhang geben muss● Es bedeutet hingegen nicht, dass alle unabhängigen Variablen ins Regressionsmodell gehören● Es erscheint daher logisch, einen identischen Test für jeden einzelen Regressionskoeffizienten durchzuführen● Ein geeignetes Prüfkriterium für diesen Test ist die t-Statistik

● Der T-Wert einer unabhängigen Variable wird berechnet, indem deren Regressionskoeffizient durch dessen Standardfehler dividiert wird:● Nullhypothese H0: die t-Statistik folgt der bekannten t-Verteilung (Student-Verteilung) um den Mittelwert Null● Bei Gültigkeit der Nullhypothese ist für die t-Statistik ein Wert von Null zu erwarten● Weicht der empirische t-Wert stark von Null ab, so ist es unwahrscheinlich, dass H0 korrekt ist● In diesem Fall ist diese zu verwerfen● Daraus ist zu folgern, dass der „wahre“ Regressionskoeffizient ungleich Null sein muss● Dies wiederum bedeutet, dass in der Grundgesamtheit ein Zusammenhang zwischen Y und der X-Variablen besteht

t emp=b j− jsbj


Konfidenzintervalle um die Koeffizienten● Mit einem Konfidenzintervall (Vertrauensbereich) lässt sich die

Lage eines Parameters mit einer bestimmten Wahrscheinlichkeitabschätzen

● Ist das Konfidenzintervall um einen Regressionskoeffizienten zu breit, muss die geschätzte Regressionsgerade als unsicher betrachtet werden

● Dies gilt insbesondere dann, wenn innerhalb des Konfidenzintervallsein Vorzeichenwechsel vorliegt, sich der Einfluss also umkehren kann

b j−t∗sbjß jb jt∗sbjßj = wahrer Regressionskoeffizient (unbekannt)bj = geschätzter Regressionskoeffizientt = t-Wert aus der Student-Verteilungsbj = Standardfehler des Regressionskoeffizienten


Übersicht der ModellprämissenA1. mit k = 1, 2, ..., K und K > J+1

Das Modell ist richtig spezifiziert, d.h.● Alle entscheidenden unabhängigen Variablen sind im Modell erfasst● Es besteht ein linearer Zusammenhang zwischen abhängigen und unabhängigen Variablen● Die Zahl der zu schätzenden Parameter (J+1) ist kleiner als die Zahl der Beobachtungen (K)

A2. Die Störgrößen haben den Erwartungswert Null

● Diese Annahme wird verletzt, wenn Y mit einem konstanten Fehler gemessen wird● Dies wird durch die Methode der kleinsten Quadrate erzwungen ● Der dadurch entstehende Fehler geht in das konstante Glied der Regressionsgleichung ein

A3. Unabhängige Variablen und Residuen korrelieren nicht

A4. Die Residuen haben eine konstante Varianz (Homoskedastizität)

A5. Die Residuen sind unkorreliert (keine Autokorrelation)

A6. Zwischen den unabhängigen Variablen besteht kein linearer Zusammenhang (keine Multikollinearität)

A7. Die Residuen uk sind normalverteilt

yk= ß0∑j=1

J

ß j∗x jk uk

Erw uk =0

Cov uk , x jk =0Var uk = 2

Cov uk ,u kr =0


Tests zur Prüfung der Modellprämissen● Tests an den Residualgrößen

● Test auf Normalverteilung der Residualgrößen (Histogramm, P-P-Diagramm, Kolmogoroff-Smirnov)● Test auf Varianzgleichheit/Homoskedastizität der Residualgrößen (Streudiagramm, Box-Plot, Levene-Test)● Test auf Autokorrelation der Residualgrößen (Durbin-Watson-Test)

● Tests an den abhängigen und unabhängigen Variablen● Test auf Multikollinearität der unabhängigen Variablen (Korrelationsmatrix, Toleranz & VIF, Varianzanteile)● Test auf linearen Zusammenhang zwischen abhängigen und unabhängigen Variablen (Streudiagramm, Scatterplot)

Sind alle Modellprämissen erfüllt?


Prüfung der Residualgrößen● Residuen = Differenzen zwischen empirischen und durch die Regressionsfunktion geschätzten Variablenwerten

● Zentrale Forderung des Regressionsmodells: Residuen müssen zufällig verteilt sein● Bei der Untersuchung der Residuen dürfen keine erkennbaren Muster gefunden werden● Gibt es Muster so ist zu vermuten, dass das geschätzte Regressionsmodell fehlerhaft ist

● Ein Fehler der zu einem Muster in den Residuen führt, kann verschiedene Ursachen haben:● Es wurden wichtige Variablen nicht in die Analyse mit einbezogen● Der Zusammenhang ist nicht linear, sondern quadratisch, monoton, etc.

● Residuen sollten daher zufällig auftreten und normalverteilt sein● Normalverteilung ist keine Voraussetzung für die Schätzung der Regressionsgraden● Sie ist aber ausschlaggebend für die Aussagekraft von F-Test und t-Test● Grafischer Test auf Normalverteilung mit Histogramm und P-P-Diagramm● Statistischer Test auf Normalverteilung (Levene-Test)


Normalverteilungsprüfung: Einführung● Die Gauß- oder Normalverteilung ist die wichtigste kontinuierliche Wahrscheinlichkeitsverteilung

● Die zugehörige Dichtefunktion ist als Gaußsche Glockenkurve bekannt

● Eigenschaften:● Dichtefunktion ist

glockenförmig undsymmetrisch

● Erwartungswert, Medianund Modus sind gleich

● Zufallsvariable hat eineunendliche Spannweite

● Viele statistische Verfahren setzen die Normalverteilung der Daten in der Grundgesamtheit voraus

● Es ist daher häufig zu prüfen,ob von einer solchen Verteilungausgegangen werden kann (auch näherungsweise)

f x = 12

e−1

2x−

2

µErwartungswert

MedianModus


Normalverteilungsprüfung: Dichtefunktion


Normalverteilungsprüfung: Histogramm● Grafische Analyse mit Histogramm und überlagerter Normalverteilungskurve

● Die Balken des Histogramms spiegeln die Breite der Wertebereiche wieder – da zudem für leere Wertebereiche ein Freiraum ausgegeben wird, kommt im Histogramm die gesamte empirische Verteilung der Variablen zum Ausdruck

● Dies ermöglicht den direkten Vergleich mit einereingezeichneten theoretischen Verteilung, wie beispielsweise der Normalverteilung

● Der Grad der Abweichung einer Normalverteilunglässt sich auch anhand verschiedener Maßzahlen wieExzeß (Kurtosis) und Schiefe bestimmen


Normalverteilungsprüfung: Q-Q● Grafische Analyse mit Q-Q-Diagramm und trendbereinigtem Q-Q-Diagramm


Normalverteilungsprüfung: K-S-A● Die Prüfung auf Vorliegen einer Normalverteilung kann auch mit einem Anpassungstests erfolgen● In SPSS lässt sich dazu beispielsweise der Kolmogorov-Smirnov-Anpassungstest nutzen● Der Test arbeitet mit der kumulierten empirischen und der kumulierten erwarteten Referenzverteilung ● Die maximale Differenz zwischen beiden Verteilungen wird zur Berechnung der Prüfgröße Z nach Kolmogorov-Smirnov

verwendet, mit der dann aus einer Tabelle der für einen Stichprobenumfang n kritische Wert für die maximale Differenz bei einem gegebenen Signifikanzniveau abgelesen werden kann

● Nullhypothese H0 des SPSS-Tests: die Werte der untersuchten Variablen sind normalverteilt● Berechnet wird die Wahrscheinlichkeit, mit der das Zurückweisen dieser Hypothese falsch ist (Signifikanzwert)● Je größer diese Wahrscheinlichkeit ausfällt, desto eher ist von einer Normalverteilung der Werte auszugehen

● Im nebenstehenden Beispiel eines Kolmogorov-Smirnov-Tests fälltder Signifikanzwert mit 0,00 so niedrig aus, dass die Annahme derNormalverteilung zurückzuweisen ist

● Bei der Interpretation ist zu beachten,dass es sich um einen Test auf perfekteNormalverteilung handelt

● Anzuraten ist daher die Kombination mit einem der grafischen Prüfverfahren


Homoskedastizitätsprüfung: Levene-Test● Viele statistische Verfahren setzen voraus, dass die Varianzen innerhalb verschiedener Fallgruppen gleich sind

(beispielsweise Signifikanztests und Mittelwertvergleiche)● Gleichheit der Varianzen = Homoskedastizität ● Ungleichheit der Varianzen = Hetroskedastizität

● Mit dem Signifikanztest nach Levene wird die Nullhypothese H0 überprüft, dass die Varianzen in der Grundgesamtheit in allen Gruppen homogen (gleich) sind● Der Test arbeitet mit dem F-Wert als statistischem Prüfmaß mit bekannter Verteilung● Es wird getestet, mit welcher Wahrscheinlichkeit die beobachteten Abweichungen in den Varianzen

auftreten können, wenn in der Grundgesamtheit absolute Varianzgleichheit herrscht● Diese Wahrscheinlichkeit wird als Testergebnis ausgewiesen● Eine geringe Wahrscheinlichkeit weist auf eine Varianzungleichheit hin


Grafische Homoskedastizitätsprüfung● Eine grafische Prüfung auf Homoskedastizität kann mit Streudiagrammen oder Boxplots durchgeführt werden● Hierbei ist auf die unterschiedlichen Streuungen und die Höhe des Medians zu achten


Test auf Autokorrelation der Residuen● Was ist unter Autokorrelation zu verstehen?

● Frage: Bestehen zwischen den Residuen nebeneinanderliegender Fälle systematische Zusammenhänge?● Beispiel: Auf große positive Residuen folgen regelmäßig große negative Residuen● Eine derartige Systematik wird als Autokorrelation der Residuen bezeichnet

● Wie kann es zu Autokorrelation kommen?● Die Möglichkeit einer Autokorrelation besteht immer, wenn die Fälle nicht zufällig angeordnet sind● Dies ist beispielsweise bei Zeitreihenanalysen der Fall, wo die Fälle zeitlich geordnet vorliegen

● Worauf deutet eine Autokorrelation hin?● Erklärungsrelevante Variablen wurden nicht in das Regressionsmodell aufgenommen● Falscher funktionaler Zusammenhang (z.B. quadratisch statt linear) wurde vorausgesetzt

● Autokorrelation führt dazu, dass die Standardfehler zu gering geschätzt werden● Die Ergebnisse der Signifikanztests sind damit nicht mehr zuverlässig ● Koeffizienten werden als signifikanter eingestuft als sie es tatsächlich sind

● Zur Suche nach Autokorrelationen wird der Durbin-Watson-Test durchgeführt


Durbin-Watson-Test auf Autokorrelation● Der Durbin-Watson-Koeffizient kann Werte zwischen 0 und 4 annehmen● Je näher der Koeffizient am Wert von 2 liegt, desto geringer ist das Ausmaß der Autokorrelation● Werte deutlich unter 2 weisen auf eine positive Autokorrelation hin, Werte deutlich über 2 auf eine negative● Faustregel: Werte zwischen 1,5 und 2,5 sind akzeptabel, Werte unter 1 oder über 3 deuten auf Autokorrelation hin

● Einschränkung: Der Durbin-Watson-Test misst lediglich Autokorrelationen der 1. Ordnung ● Eine Autokorrelation der 1. Ordnung liegt vor, wenn direkt benachbarte Fälle miteinander verknüpft sind● Bei quartalsweise erhobenen Daten ist jedoch auch eine Autokorrelation der 4. Ordnung denkbar● In diesem Fall sollte auf den Wallis-Test auf Autokorrelationen 4. Ordnung zurückgegriffen werden

● Der Durbin-Watson-Test kann nur unter zwei Voraussetzungen korrekt interpretiert werden:● Die Regressionsgleichung muss einen konstanten Term enthalten● Die abhängige Variable darf nicht zeitverzögert als erklärende Variable verwendet werden (Zeitreihenanalysen!)

● Beispiel: Erklärende Variable für aktuelle Schadstoffbelastung ist die Belastung des Vormonats

0 1 2 3 4


Kollinearitätsdiagnostik● Was ist Kollinearität?

● Kollinearität liegt vor, wenn zwei oder mehr unabhängige Variablen untereinander korrelieren● Beispiel: Ernteertäge (Y) sollen durch Sonnenscheindauer (X1) und Durchschnittstemperatur (X2) erklärt werden● Annahme: Eine lange Sonnenscheindauer sorgt für steigende Durschnittstemperaturen● Es liegt also ein Korrelation zwischen den beiden erklärenden Variablen vor● Es ist nicht festzustellen, zu welchen Teilen eine Veränderung in Y auf X1 und X2 zurückzuführen ist

● Bei perfekter Kollinearität lässt sich eine erklärende Variable über eine andere erklärende Variable berechnen● Liegt eine perfekte Kollinearität vor, kann eine der betroffenen Variablen leicht erkannt und ausgeschlossen werden● Bei einer imperfekten Kollinearität lässt sich die Regressionsgleichung mathematisch wie bisher durchführen● Es ergibt sich ein unverzerrtes R², die Schätzung der Parameter liefert jedoch unzuverlässige Ergebnisse● Zu befürchten ist, dass der Koeffizient einer Variablen über- und einer korrelierten Variablen unterschätzt wird● Der gemeinsame Einfluss beider Variablen wird korrekt ausgewiesen, die Verteilung des Einflusses aber nicht

● Es gibt drei Möglichkeiten, um die unabhängigen Variablen auf Kollinearität zu prüfen● Erstellung einer Korrelationsmatrix für alle unabhängigen Variablen● Berechnung von Toleranz und Varianzinflationsfaktor● Berechnung der Varianzanteile


Kollinearität: Korrelationsmatrix● Vor der Durchführung der Regressionsanalyse kann eine Korrelationsmatrix der erklärenden Variablen erstellt werden● Ergibt sich ein hoher Korrelationskoeffizient (Bravais-Pearson) zwischen zwei Variablen, kann Kollinearität vorliegen● In solchen Fällen sollte eine der Variablen aus dem Modell ausgeschlossen und ggf. ersetzt werden

● Denkbar sind beispielsweise Korrelationen zwischen Variablenkombinationen anstatt zwischen zwei Einzelvariablen● Aus diesem Grund müssen auch Toleranz und Varianzinflationsfaktor berechnet werden

● Im vorliegenden Beispiel fällt die deutliche negative Korrelation auf● Die Möglichkeit einer Korrelation der beiden Variablen sollte näher untersucht werden (inhaltlich wahrscheinlich)


Kollinearität: Toleranz & VIF● Die Tolerenz ist definiert als: ● Ri ist dabei definiert als der multiple Korrelationskoeffizient● Fällt der Toleranzwert sehr klein aus, deutet dies auf eine Kollinearität hin● Faustregel: Toleranzen unter 0,1 sind verdächtig, Toleranzen unter 0,01 eindeutig zu niedrig

● Der Varianzinflationsfaktor (VIF) wird als Kehrwert der Toleranz berechnet● Entsprechend wird interpretiert: VIF-Werte über 10 sind verdächtig, VIF-Werte über 100 eindeutig zu hoch

● Im vorliegenden Beispiel sprechen die Ergebnisse nicht gegen die Verwertbarkeit des Regressionsmodells

Toleranz i=1−Ri2


Kollinearität: Varianzanteile● Die Varianzen der Regressionskoeffizienten lassen sich in Komponenten zerlegen und den Eigenwerten zuordnen● Die Summe aller Komponenten beträgt für jeden Regressionskoeffizienten genau Eins● Wenn derselbe Eigenwert die Varianz mehrerer Regressionskoeffizienten in hohem Maße erklärt, deutet dies auf eine

Abhängigkeit der betreffenden Variablen hin


Linearitätsprüfung● Die Prüfung auf Linearität kann sowohl grafisch als auch statistisch erfolgen

● Grafische Prüfung: Auswertung von Streudiagrammen oder Scatterplots● Statistische Prüfung: Analyse der Residuen oder Regressionsanalyse


Gibt es noch Fragen?

Multiple Regression

Education

Transcript of Multiple Regression