Tutorat Statistik II im SS 09 Multiple Regression [email protected].
-
Upload
benedikt-schmeckpeper -
Category
Documents
-
view
110 -
download
2
Transcript of Tutorat Statistik II im SS 09 Multiple Regression [email protected].
Tutorat Statistik II im SS 09Multiple Regression
Organisatorisches: Tutoratsformat
Gliederung- Memo & Fragen zum Thema der letzten Stunde sowie
Fragen zu den Aufgaben (ca. 15 min)- Inhaltlicher Teil zum aktuellen Thema (ca. 30 min)- Übungen (ca. 60 min)
Kontakt: [email protected]
Folien:
http://www.psychologie.unifreiburg.de/abteilungen/Sozialpsychologie.Methodenlehre/courses/ss-09/spss-und-statistik/tutorate
Organisatorisches: Übungsaufgaben
Struktur der Vorlesung:
Multiple KorrelationMultiple RegressionEinführung in die MatrizenrechnungDas Allgemeine Lineare ModellVarianzanalyse IVarianzanalyseIIVarianzanalyse IIIKovarianzanalyseFaktorenanalyse
Struktur des Ordners:Multiple Korrelation
Multiple Regression
Einfaktorielle Varianzanalyse
Mehrfaktorielle Varianzanalyse & Kontraste
Kovarianzanalyse
Faktorenanalyse
Allgemeines Lineares Modell & Matrizenrechnung
Spezielle Regressionsanalysen: Moderator- und Mediatoranalyse, logistische Regression
gemischte Aufgaben
Memo: Multiple Korrelation
Was fällt euch noch ein?
Inkrementelle Validität
Definition:
Eine Variable besitzt inkrementelle Validität, wenn ihre Aufnahme als zusätzlicher Prädiktor den Anteil der aufgeklärten Varianz (R²) am Kriterium erhöht – also die Vorhersage verbessert.
y
x
z
Partial- & Semipartialkorrelation
o Partialkorrelation rxy.z
Herauspartialisieren eines dritten Merkmals aus beiden VariablenKonstanthalten von Störvariablen
o Semipartialkorrelation rx(y.z)
Herauspartialisieren eines dritten Merkmals aus nur einer VariableBerechnung des zusätzlichen (inkrementellen) Erklärungswerts (Varianzaufklärung) des verbleibenden Prädiktors
y.zx.z
x y.z
ryx = rxy
(einfache Korrelation)
Ry.xz
(multiple Korrelation)
y
x
z2
xyr
y
x
z2.xzyR
Multiple Korrelation
Supressor-Effekt
Ein Prädiktor verbessert die multiple Korrelation ohne dass er mit dem Kriterium korreliert
Supressor-Effekt
y
x
z2.xzyR
221
212122
21
21. 1
2
xx
yxyxxxyxyxxxy r
rrrrrR
y xz
Thema: Multiple Regression
Gliederung
I. Wiederholung lineare Regression
II. Berechnung der multiplen Regression
III. Signifikanzprüfung & Korrektur
I. Wiederholung
oDas Ziel einer linearen Regression ist die Vorhersage einer Variable y durch eine Variable x. Wörtlich: Rückführung
oEine solche Vorhersage ist nur möglich, wenn x und y zusammenhängen, also miteinander korrelieren.
oDie vorherzusagende Variable (y) heißt Kriteriumsvariable.
oDie zur Vorhersage verwendete Variable (x) heißt Prädiktorvariable.
Anwendungsbeispiele:- Werte von X wurden bereits erhoben, Werte von Y sind
nicht bekannt- X kann zum jetzigen Zeitpunkt erfasst werden, Y erst viel
später- X ist leicht (einfach, preiswert, schnell) zu erfassen, Y nur
durch teure, aufwändige Untersuchung zu erheben
Lineare Regression - grafisch
OPT
1801601401201008060
RIS
IKO
50
40
30
20
10
0
Prinzip: Es wird eine Gerade ermittelt, die den Zusammenhang zwischen x und y beschreibt.
Mit einer solchen Gerade kann zu jedem Wert von x ein Wert von y vorausgesagt werden.
z.B. x=120 y=30
x=80 y=13
Mathematisches Prinzip: Methode der kleinsten Quadrate
Für einen Datensatz (eine Punktewolke) werden a und b so gewählt, dass der quadrierte Vorhersagefehler über alle Probanden minimal ist:
Für die Ermittlung der Regressionsgleichung wird die Differenz der tatsächlichen von den vorhergesagten y-Werten also quadriert. Das hat 2 Vorteile…(1) Abweichungswerte sind immer positiv.
(2) Große Abweichungen werden stärker berücksichtigt als kleine Abweichungen.
minyyN
i ii 1
2ˆ
Strukturformel der Linearen Regression
wobei b für die Steigung und a für den y-Achsen-Abschnitt steht.
axby Allgemeine Funktion einer Gerade:
xyixyi axby ..ˆ
Abschnitt)-Achsen-(y Konstante additive:
iPerson der Wert x:
(Steigung)nt skoeffizieRegression:
iPerson der Wert ygter vorhergesa:ˆ
.
.
xy
i
xy
i
a
x
b
y
mit
Bei der Regression schreibt man:
Voraussetzungen
o Intervallskalenniveau von x und y
o Normalverteilung von x und y
o Homoskedastizität
o (Unabhängigkeit und Normalverteilung der Residuen)
o Nur lineare Zusammenhänge!
II. Berechnung
Problem:- Komplexe Welt: Kriterium hängt meist nicht nur von
einem Prädiktor ab.- Zusammenhänge mit vielen Variablen
Beispiel: Erfolg in Statistik II hängt ab von… - Mathematischen Fähigkeiten- Anzahl der Vorlesungs- und Tutoratsbesuche- Anzahl der Arbeitsstunden zu Hause- Motivation / Interesse- IQ- …
Multiple Regression
Strukturgleichung – Multiple Regression
– Erweiterung der einfachen linearen Regression
mehrere Prädiktorvariablen– Bestimmung über die Methode der kleinsten Quadrate
ikikkiii
kikkiii
eaxbxbxby
axbxbxby
...23.12211
...23.12211
...
...ˆ
min)ˆ(1
2
1
2
N
ii
N
iii eyy
Regressionskoeffizienten (b)
• „b-Gewichte“ der einzelnen Prädiktorvariablen (auch Partialregressionskoeffizienten) relatives Gewicht einer Prädiktorvariablen in der Vorhersage
221
2112
222
21
2121
11 11 xx
xxyxyx
x
yx
xx
xxyxyx
x
yx r
rrr
s
sb
r
rrr
s
sb
Die Regressionsgewichte können mit einem t-Test auf Signifikanz geprüft werden.
Konstante (a)
kxkxx xbxbxbya ...2211
Auch die Regressionskonstante wird mit einem t-Test auf Signifikanz geprüft!
Standardisierte Regressionsgewichte(β – Gewichte)
Die Regressionsgerade kann auch in einer standardisierten Form beschrieben werden:
kikkiii axbxbxby ...23.12211 ...ˆ
ikkiiyi zzzz ...ˆ 2211
unstandardisiert:
standardisiert:
Vorteil: Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an. Sie können wie Korrelationskoeffizienten interpretiert werden.
Die additive Konstante (a) entfällt, da die zy einen Mittelwert von Null hat.
III. Signifikanzprüfung & Korrektur
Signifikanztest dermultiplen Regression und Korrelation
Die multiple Regression wird mit einem F-Test auf Signifikanz getestet.
Der F-Test beruht auf einer Zerlegung der Varianz des Kriteriums in einen erklärten und einen nicht erklärten Teil.
resregtotal SSSSSS
Die Quadratsumme (SS = „sum of squares“) ist einunstandardisiertes Maß für die Variabilität.
2)( yySS i
n
iiires
n
iireg
n
iitotal
yySS
yySS
yySS
1
1
1
)²ˆ(
)²ˆ(
)²(
res
reg
resres
regreg
MS
MSF
KN
SSMS
K
SSMS
1
Quadratsummen
unstandardisiert:„Sums of Squares“
standardisiert:„Mean Sums of Squares“
K: Anzahl der Prädiktoren
N: Anzahl der Probanden
1df
n)Prädiktoreder (Anzahl df
:mit
,/1
/
/
/
2
1
22
12
2
1
kN
k
dfR
dfR
dfSS
dfSSF
res
regemp
Wenn Femp > Fkrit ist das Testergebnis signifikant Die Prädiktoren weisen dann insgesamt einen bedeutsamen Zusammenhang mit dem Kriterium auf.
Signifikanztest der mult. Regression
Signifikanztest - Beispiel
Y X1 X2
Y 1.0 .45 .60
X1 1.0 .30
X2 1.050
44.
66.2
21.
21.
N
R
R
xxy
xxy
/1
/
22
12
dfR
dfRFemp
46.18.012
.22
47/56.
2/44.empF
18.347;2 NdfZdfkritF
Es besteht ein bedeut-samer Zusammenhang zwischen dem Kriterium und den Prädiktoren
Multiple Korrelation/Regression: Korrigiertes R²
R überschätzt Populationszusammenhang!• Die Vorhersage in einer Stichprobe überschätzt Vorhersage
in anderen Stichproben bzw. in der Population • Je kleiner die Stichprobe und je größer die Anzahl der
Prädiktoren desto größer die Überschätzung von R² (Capitalization of Chance)
• Bei einem Nullzusammenhang in Population ergibt sichein Erwartungswert für R² von E(R²) = (k-1)/(N-1)
• Beispiel: k=3; N=10: E(R²) = 2/9 = .22• Empfehlung: Verhältnis N/K von mind. 20, besser 30• Beispiel: k=2, N=40: E(R²) = 1/39 = .03
k=2, N=60: E(R²) = 1/59 = .02
Korrigiertes R²
Schrumpfungskorrektur nach Olkin & Pratt:
22 ²)1(2
²)1(2
31ˆ R
KNR
KN
NR
40.)50(.17
2)50(.
15
171ˆ 22
R
Beispiel: k=3; N=20; R² = .50
Vielen Dank für eure Aufmerksamkeit!
Aufgabe 1
Eine Regressionsanalyse ergab folgende Zusammenhänge:
Koeffizientena
1,065 ,607 1,755 ,085
,033 ,011 ,314 3,065 ,004
,067 ,012 ,564 5,504 ,000
(Konstante)
Computerken.
Umgangsformen
Modell1
BStandardf
ehler
Nicht standardisierteKoeffizienten
Beta
Standardisierte
Koeffizienten
T Signifikanz
Abhängige Variable: zeugnisa.
Aufgabe 1
Berechnen sie für die drei Personen mit folgenden Prädiktorwerten den vorhergesagten Kriteriumswert:Computerk. 4, Umgangsformen 9Computerk. 6, Umgansformen 6Computerk. 8, Umgangsformen 3Nehmt an, dies sei das statistisch aggregierte Ergebnis eines Assessment-Centers und hohe Werte weisen auf hohe Eignung hin. Welchen der drei Bewerber stellt ihr aufgrund der vorliegenden Vorhersage seiner Passung zum Unternehmen ein?
Lösung Aufgabe 1
a) 4 x 0,033 + 9 x 0,067 + 1,065 = 1,8
b) 6 x 0,033 + 6 x 0,067 + 1,065 = 1,67
c) 8 x 0,033 + 3 x 0,067 + 1,065 = 1,53
Bewerber a), da er die höchsten Werte und damit voraussichtlich die beste Eignung aufweist.
Aufgabe 2
Nennen sie die Vorteile der Standardisierung der Koeffizienten bei der multiplen Regression.
Die Beta-Gewichte nehmen nur Werte zwischen -1 und +1 an und können damit wie Korrelationskoeffizienten interpretiert werden – d.h. ihr relativer Einfluss auf die Vorhersage wird direkt und zwischen verschiedenen Vorhersagen vergleichbar deutlich.
Aufgabe 3
Welche Vor- und Nachteile hat die Verwendung des Einschlussverfahrens bei der Bestimmung der Anzahl der Prädiktoren für eine multiple Regression?
Lösung Aufgabe 3
Vorteile:– Hypothesengeleitetes Vorgehen– Keine Capitalization of Chance
Nachteile:– Möglicherweise Aufnahme von mehr Prädiktoren
als unbedingt erforderlich (Prädiktoren, die keinen signifikanten Beitrag leisten)
– Möglicherweise werden wichtige Prädiktoren „übersehen“ bzw. „vergessen“
Arbeitsblatt Aufgabe 1
Eine Regressionsanalyse ergab folgende Zusammenhänge:
Berechnen Sie den vorhergesagten Wert für „Note“ für (a) eine Person mit rating02=3 und rating13=6, und (b) für eine Person mit rating02=8 und rating13=8.
axbxbxby ikkiii ...ˆ 2211
Ergebnis Aufgabe 1
Arbeitsblatt Aufgabe 2
Eine Multiple Korrelation mit 3 Prädiktoren klärt 60% der Varianz des Kriteriums auf. Die Stichprobe besteht aus 40 Probanden. Ist dieser Zusammenhang signifikant?
1df
n)Prädiktoreder (Anzahl df
:mit
,/1
/
/
/
2
1
22
12
2
1
kN
k
dfR
dfR
dfSS
dfSSF
res
regemp Fkrit = 2,92
Ergebnis Aufgabe 2
Der Zusammenhang des Kriteriums mit den Prädiktoren ist statistisch bedeutsam.
Arbeitsblatt Aufgabe 3
Beschreiben Sie kurz das Vorgehen der „Rückwärts-Eliminierung“
Ergebnis Aufgabe 3
Zunächst werden alle Prädiktoren in die Regression eingeschlossen. In jedem Schritt wird jeweils der Prädiktor, der am wenigsten zur Vorhersage beiträgt, weggelassen. Diese Schritte werden wiederholt, bis es zu einer signifikanten Verschlechterung der Vorhersage kommt.
Arbeitsblatt Aufgabe 4
(a) Ist der Zusammenhang statistisch bedeutsam? Begründen Sie Ihre Antwort.
(b) Wie groß war die Stichprobe? Wie viele Prädiktoren gab es?
(c) Ist die Stichprobengröße „ausreichend“? Begründen Sie Ihre Antwort.
Eine Regressionsanalyse ergab folgendes Ergebnis:
Ergebnis Aufgabe 4
Für so viele Prädiktoren sollte eine wesentlich größere Stichprobe gewählt werden (Mindestens k*20 = 100 Vpn).
Arbeitsblatt Aufgabe 5
Aus folgender Ergebnistabelle wurden einige Angaben gelöscht. Ergänzen Sie alle fehlenden Zahlen!
Ergebnis Aufgabe 5