Tutorat Statistik II im SS 09 Multiple Regression [email protected].

47
Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t- online.de

Transcript of Tutorat Statistik II im SS 09 Multiple Regression [email protected].

Page 1: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Tutorat Statistik II im SS 09Multiple Regression

[email protected]

Page 2: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Organisatorisches: Tutoratsformat

Gliederung- Memo & Fragen zum Thema der letzten Stunde sowie

Fragen zu den Aufgaben (ca. 15 min)- Inhaltlicher Teil zum aktuellen Thema (ca. 30 min)- Übungen (ca. 60 min)

Kontakt: [email protected]

Folien:

http://www.psychologie.unifreiburg.de/abteilungen/Sozialpsychologie.Methodenlehre/courses/ss-09/spss-und-statistik/tutorate

Page 3: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Organisatorisches: Übungsaufgaben

Struktur der Vorlesung:

Multiple KorrelationMultiple RegressionEinführung in die MatrizenrechnungDas Allgemeine Lineare ModellVarianzanalyse IVarianzanalyseIIVarianzanalyse IIIKovarianzanalyseFaktorenanalyse

Struktur des Ordners:Multiple Korrelation

Multiple Regression

Einfaktorielle Varianzanalyse

Mehrfaktorielle Varianzanalyse & Kontraste

Kovarianzanalyse

Faktorenanalyse

Allgemeines Lineares Modell & Matrizenrechnung

Spezielle Regressionsanalysen: Moderator- und Mediatoranalyse, logistische Regression

gemischte Aufgaben

Page 4: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Memo: Multiple Korrelation

Was fällt euch noch ein?

Page 5: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Inkrementelle Validität

Definition:

Eine Variable besitzt inkrementelle Validität, wenn ihre Aufnahme als zusätzlicher Prädiktor den Anteil der aufgeklärten Varianz (R²) am Kriterium erhöht – also die Vorhersage verbessert.

y

x

z

Page 6: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Partial- & Semipartialkorrelation

o Partialkorrelation rxy.z

Herauspartialisieren eines dritten Merkmals aus beiden VariablenKonstanthalten von Störvariablen

o Semipartialkorrelation rx(y.z)

Herauspartialisieren eines dritten Merkmals aus nur einer VariableBerechnung des zusätzlichen (inkrementellen) Erklärungswerts (Varianzaufklärung) des verbleibenden Prädiktors

y.zx.z

x y.z

Page 7: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

ryx = rxy

(einfache Korrelation)

Ry.xz

(multiple Korrelation)

y

x

z2

xyr

y

x

z2.xzyR

Multiple Korrelation

Page 8: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Supressor-Effekt

Ein Prädiktor verbessert die multiple Korrelation ohne dass er mit dem Kriterium korreliert

Page 9: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Supressor-Effekt

y

x

z2.xzyR

221

212122

21

21. 1

2

xx

yxyxxxyxyxxxy r

rrrrrR

y xz

Page 10: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Thema: Multiple Regression

Page 11: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Gliederung

I. Wiederholung lineare Regression

II. Berechnung der multiplen Regression

III. Signifikanzprüfung & Korrektur

Page 12: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

I. Wiederholung

Page 13: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

oDas Ziel einer linearen Regression ist die Vorhersage einer Variable y durch eine Variable x. Wörtlich: Rückführung

oEine solche Vorhersage ist nur möglich, wenn x und y zusammenhängen, also miteinander korrelieren.

oDie vorherzusagende Variable (y) heißt Kriteriumsvariable.

oDie zur Vorhersage verwendete Variable (x) heißt Prädiktorvariable.

Anwendungsbeispiele:- Werte von X wurden bereits erhoben, Werte von Y sind

nicht bekannt- X kann zum jetzigen Zeitpunkt erfasst werden, Y erst viel

später- X ist leicht (einfach, preiswert, schnell) zu erfassen, Y nur

durch teure, aufwändige Untersuchung zu erheben

Page 14: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Lineare Regression - grafisch

OPT

1801601401201008060

RIS

IKO

50

40

30

20

10

0

Prinzip: Es wird eine Gerade ermittelt, die den Zusammenhang zwischen x und y beschreibt.

Mit einer solchen Gerade kann zu jedem Wert von x ein Wert von y vorausgesagt werden.

z.B. x=120 y=30

x=80 y=13

Page 15: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Mathematisches Prinzip: Methode der kleinsten Quadrate

Für einen Datensatz (eine Punktewolke) werden a und b so gewählt, dass der quadrierte Vorhersagefehler über alle Probanden minimal ist:

Für die Ermittlung der Regressionsgleichung wird die Differenz der tatsächlichen von den vorhergesagten y-Werten also quadriert. Das hat 2 Vorteile…(1) Abweichungswerte sind immer positiv.

(2) Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.

minyyN

i ii 1

Page 16: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Strukturformel der Linearen Regression

wobei b für die Steigung und a für den y-Achsen-Abschnitt steht.

axby Allgemeine Funktion einer Gerade:

xyixyi axby ..ˆ

Abschnitt)-Achsen-(y Konstante additive:

iPerson der Wert x:

(Steigung)nt skoeffizieRegression:

iPerson der Wert ygter vorhergesa:ˆ

.

.

xy

i

xy

i

a

x

b

y

mit

Bei der Regression schreibt man:

Page 17: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Voraussetzungen

o Intervallskalenniveau von x und y

o Normalverteilung von x und y

o Homoskedastizität

o (Unabhängigkeit und Normalverteilung der Residuen)

o Nur lineare Zusammenhänge!

Page 18: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

II. Berechnung

Page 19: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Problem:- Komplexe Welt: Kriterium hängt meist nicht nur von

einem Prädiktor ab.- Zusammenhänge mit vielen Variablen

Beispiel: Erfolg in Statistik II hängt ab von… - Mathematischen Fähigkeiten- Anzahl der Vorlesungs- und Tutoratsbesuche- Anzahl der Arbeitsstunden zu Hause- Motivation / Interesse- IQ- …

Multiple Regression

Page 20: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Strukturgleichung – Multiple Regression

– Erweiterung der einfachen linearen Regression

mehrere Prädiktorvariablen– Bestimmung über die Methode der kleinsten Quadrate

ikikkiii

kikkiii

eaxbxbxby

axbxbxby

...23.12211

...23.12211

...

...ˆ

min)ˆ(1

2

1

2

N

ii

N

iii eyy

Page 21: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Regressionskoeffizienten (b)

• „b-Gewichte“ der einzelnen Prädiktorvariablen (auch Partialregressionskoeffizienten) relatives Gewicht einer Prädiktorvariablen in der Vorhersage

221

2112

222

21

2121

11 11 xx

xxyxyx

x

yx

xx

xxyxyx

x

yx r

rrr

s

sb

r

rrr

s

sb

Die Regressionsgewichte können mit einem t-Test auf Signifikanz geprüft werden.

Page 22: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Konstante (a)

kxkxx xbxbxbya ...2211

Auch die Regressionskonstante wird mit einem t-Test auf Signifikanz geprüft!

Page 23: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Standardisierte Regressionsgewichte(β – Gewichte)

Die Regressionsgerade kann auch in einer standardisierten Form beschrieben werden:

kikkiii axbxbxby ...23.12211 ...ˆ

ikkiiyi zzzz ...ˆ 2211

unstandardisiert:

standardisiert:

Vorteil: Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an. Sie können wie Korrelationskoeffizienten interpretiert werden.

Die additive Konstante (a) entfällt, da die zy einen Mittelwert von Null hat.

Page 24: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

III. Signifikanzprüfung & Korrektur

Page 25: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Signifikanztest dermultiplen Regression und Korrelation

Die multiple Regression wird mit einem F-Test auf Signifikanz getestet.

Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil.

resregtotal SSSSSS

Die Quadratsumme (SS = „sum of squares“) ist einunstandardisiertes Maß für die Variabilität.

2)( yySS i

Page 26: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

n

iiires

n

iireg

n

iitotal

yySS

yySS

yySS

1

1

1

)²ˆ(

)²ˆ(

)²(

res

reg

resres

regreg

MS

MSF

KN

SSMS

K

SSMS

1

Quadratsummen

unstandardisiert:„Sums of Squares“

standardisiert:„Mean Sums of Squares“

K: Anzahl der Prädiktoren

N: Anzahl der Probanden

Page 27: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

1df

n)Prädiktoreder (Anzahl df

:mit

,/1

/

/

/

2

1

22

12

2

1

kN

k

dfR

dfR

dfSS

dfSSF

res

regemp

Wenn Femp > Fkrit ist das Testergebnis signifikant Die Prädiktoren weisen dann insgesamt einen bedeutsamen Zusammenhang mit dem Kriterium auf.

Signifikanztest der mult. Regression

Page 28: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Signifikanztest - Beispiel

Y X1 X2

Y 1.0 .45 .60

X1 1.0 .30

X2 1.050

44.

66.2

21.

21.

N

R

R

xxy

xxy

/1

/

22

12

dfR

dfRFemp

46.18.012

.22

47/56.

2/44.empF

18.347;2 NdfZdfkritF

Es besteht ein bedeut-samer Zusammenhang zwischen dem Kriterium und den Prädiktoren

Page 29: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Multiple Korrelation/Regression: Korrigiertes R²

R überschätzt Populationszusammenhang!• Die Vorhersage in einer Stichprobe überschätzt Vorhersage

in anderen Stichproben bzw. in der Population • Je kleiner die Stichprobe und je größer die Anzahl der

Prädiktoren desto größer die Überschätzung von R² (Capitalization of Chance)

• Bei einem Nullzusammenhang in Population ergibt sichein Erwartungswert für R² von E(R²) = (k-1)/(N-1)

• Beispiel: k=3; N=10: E(R²) = 2/9 = .22• Empfehlung: Verhältnis N/K von mind. 20, besser 30• Beispiel: k=2, N=40: E(R²) = 1/39 = .03

k=2, N=60: E(R²) = 1/59 = .02

Page 30: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Korrigiertes R²

Schrumpfungskorrektur nach Olkin & Pratt:

22 ²)1(2

²)1(2

31ˆ R

KNR

KN

NR

40.)50(.17

2)50(.

15

171ˆ 22

R

Beispiel: k=3; N=20; R² = .50

Page 31: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Vielen Dank für eure Aufmerksamkeit!

Page 32: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Aufgabe 1

Eine Regressionsanalyse ergab folgende Zusammenhänge:

Koeffizientena

1,065 ,607 1,755 ,085

,033 ,011 ,314 3,065 ,004

,067 ,012 ,564 5,504 ,000

(Konstante)

Computerken.

Umgangsformen

Modell1

BStandardf

ehler

Nicht standardisierteKoeffizienten

Beta

Standardisierte

Koeffizienten

T Signifikanz

Abhängige Variable: zeugnisa.

Page 33: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Aufgabe 1

Berechnen sie für die drei Personen mit folgenden Prädiktorwerten den vorhergesagten Kriteriumswert:Computerk. 4, Umgangsformen 9Computerk. 6, Umgansformen 6Computerk. 8, Umgangsformen 3Nehmt an, dies sei das statistisch aggregierte Ergebnis eines Assessment-Centers und hohe Werte weisen auf hohe Eignung hin. Welchen der drei Bewerber stellt ihr aufgrund der vorliegenden Vorhersage seiner Passung zum Unternehmen ein?

Page 34: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Lösung Aufgabe 1

a) 4 x 0,033 + 9 x 0,067 + 1,065 = 1,8

b) 6 x 0,033 + 6 x 0,067 + 1,065 = 1,67

c) 8 x 0,033 + 3 x 0,067 + 1,065 = 1,53

Bewerber a), da er die höchsten Werte und damit voraussichtlich die beste Eignung aufweist.

Page 35: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Aufgabe 2

Nennen sie die Vorteile der Standardisierung der Koeffizienten bei der multiplen Regression.

Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an und können damit wie Korrelationskoeffizienten interpretiert werden – d.h. ihr relativer Einfluss auf die Vorhersage wird direkt und zwischen verschiedenen Vorhersagen vergleichbar deutlich.

Page 36: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Aufgabe 3

Welche Vor- und Nachteile hat die Verwendung des Einschlussverfahrens bei der Bestimmung der Anzahl der Prädiktoren für eine multiple Regression?

Page 37: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Lösung Aufgabe 3

Vorteile:– Hypothesengeleitetes Vorgehen– Keine Capitalization of Chance

Nachteile:– Möglicherweise Aufnahme von mehr Prädiktoren

als unbedingt erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten)

– Möglicherweise werden wichtige Prädiktoren „übersehen“ bzw. „vergessen“

Page 38: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Arbeitsblatt Aufgabe 1

Eine Regressionsanalyse ergab folgende Zusammenhänge:

Berechnen Sie den vorhergesagten Wert für „Note“ für (a) eine Person mit rating02=3 und rating13=6, und (b) für eine Person mit rating02=8 und rating13=8.

axbxbxby ikkiii ...ˆ 2211

Page 39: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Ergebnis Aufgabe 1

Page 40: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Arbeitsblatt Aufgabe 2

Eine Multiple Korrelation mit 3 Prädiktoren klärt 60% der Varianz des Kriteriums auf. Die Stichprobe besteht aus 40 Probanden. Ist dieser Zusammenhang signifikant?

1df

n)Prädiktoreder (Anzahl df

:mit

,/1

/

/

/

2

1

22

12

2

1

kN

k

dfR

dfR

dfSS

dfSSF

res

regemp Fkrit = 2,92

Page 41: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Ergebnis Aufgabe 2

Der Zusammenhang des Kriteriums mit den Prädiktoren ist statistisch bedeutsam.

Page 42: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Arbeitsblatt Aufgabe 3

Beschreiben Sie kurz das Vorgehen der „Rückwärts-Eliminierung“

Page 43: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Ergebnis Aufgabe 3

Zunächst werden alle Prädiktoren in die Regression eingeschlossen. In jedem Schritt wird jeweils der Prädiktor, der am wenigsten zur Vorhersage beiträgt, weggelassen. Diese Schritte werden wiederholt, bis es zu einer signifikanten Verschlechterung der Vorhersage kommt.

Page 44: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Arbeitsblatt Aufgabe 4

(a) Ist der Zusammenhang statistisch bedeutsam? Begründen Sie Ihre Antwort.

(b) Wie groß war die Stichprobe? Wie viele Prädiktoren gab es?

(c) Ist die Stichprobengröße „ausreichend“? Begründen Sie Ihre Antwort.

Eine Regressionsanalyse ergab folgendes Ergebnis:

Page 45: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Ergebnis Aufgabe 4

Für so viele Prädiktoren sollte eine wesentlich größere Stichprobe gewählt werden (Mindestens k*20 = 100 Vpn).

Page 46: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Arbeitsblatt Aufgabe 5

Aus folgender Ergebnistabelle wurden einige Angaben gelöscht. Ergänzen Sie alle fehlenden Zahlen!

Page 47: Tutorat Statistik II im SS 09 Multiple Regression ch-langrock@t-online.de.

Ergebnis Aufgabe 5