X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test...

27
1 Statistik 2 für SoziologInnen 1 © Marcus Hudec Regression Korrelationskoeffizient Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y. Er ist durch folgende Formel charakterisiert: 2 2 2 2 2 2 i i i i i i i i i i i i XY xy y y n x x n y x y x n y y x x y y x x corr r Statistik 2 für SoziologInnen 2 © Marcus Hudec Regression Konzept der Kovarianz ) ( x x i ) ( y y i

Transcript of X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test...

Page 1: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

1

Statistik 2 für SoziologInnen 1

© M

arcus Hudec

Regression

Korrelationskoeffizient

Der Korrelationskoeffizient ist ein Maß für den linearen Zusammenhang zwischen zwei Variablen X und Y.

Er ist durch folgende Formel charakterisiert:

2222

22

iiii

iiii

ii

iiXYxy

yynxxn

yxyxn

yyxx

yyxxcorrr

Statistik 2 für SoziologInnen 2

© M

arcus Hudec

Regression

Konzept der Kovarianz

)( xxi

)( yyi

Page 2: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

2

Statistik 2 für SoziologInnen 3

© M

arcus Hudec

Regression

Test auf Signifikanz

Will man Hypothesen der Form H0: corr=0 versus Ha: corr0 (zweiseitig)

bzw.

H0: corr<0 versus Ha: corr>0 (einseitig)

testen, so kann dies unter der Annahme einer 2-dimensionalen Normalverteilung mit folgender Statistik erfolgen:

Diese Teststatistik ist unter der Nullhypothese t verteilt mit n-2 Freiheitsgraden

radenFreiheitsgnmitr

nrt 2

1

22

Statistik 2 für SoziologInnen 4

© M

arcus Hudec

Regression

Bivariate Normalverteilung

Page 3: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

3

Statistik 2 für SoziologInnen 5

© M

arcus Hudec

Regression

0 1 2 3 4 5 6

01

23

45

6

0 1 2 3 4 5 6

0

1

2

3

4

5

6

123456789

101112131415

Counts

Simulation aus einer 2-dimensionalen Normalverteilung

Statistik 2 für SoziologInnen 6

© M

arcus Hudec

Regression

Beispiel

i X Y X² XY Y²1 65 68 4225 4420 46242 63 66 3969 4158 43563 67 68 4489 4556 46244 64 65 4096 4160 42255 68 69 4624 4692 47616 62 66 3844 4092 43567 70 68 4900 4760 46248 66 65 4356 4290 42259 68 71 4624 4828 5041

10 67 67 4489 4489 448911 69 68 4761 4692 462412 71 70 5041 4970 4900

Summe 800 811 53418 54107 54849

Kovarianz Sxy 484Varianz X Sxx 1016Varianz Y Syy 467

Korrelation Rxy 0,70

Teststatistik Zähler 2,22Nenner 0,71t 3,12

Tabellenwert tn-2;0,975 2,23 ==> Ho ablehnen

Wir wollen die Null-hypothese testen, dass die Merkmale X und Y unkorreliert sind.

Page 4: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

4

Statistik 2 für SoziologInnen 7

© M

arcus Hudec

Regression

Anderes Beispiel mit SPSS

Statistik 2 für SoziologInnen 8

© M

arcus Hudec

Regression

CO2 Emissionen

Page 5: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

5

Statistik 2 für SoziologInnen 9

© M

arcus Hudec

Regression

Nichtparametrische Korrelation

Praktisch keine Korrelation !

Nutzung der Ranginformation!

Statistik 2 für SoziologInnen 10

© M

arcus Hudec

Regression

Korrelation nach Spearman

Page 6: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

6

Statistik 2 für SoziologInnen 11

© M

arcus Hudec

Regression

Nichtparametrische Korrelation

Statistik 2 für SoziologInnen 12

© M

arcus Hudec

Regression

Analyse des Datensatzes mit Bravais Pearson

Page 7: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

7

Statistik 2 für SoziologInnen 13

© M

arcus Hudec

Regression

Elimination des Ausreißers

Statistik 2 für SoziologInnen 14

© M

arcus Hudec

Regression

Reduktion des Skalenniveaus

Page 8: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

8

Statistik 2 für SoziologInnen 15

© M

arcus Hudec

Regression

Beispiel

Leistung in kw und Kraftstoff-Verbrauch in l pro 100 km von sieben

verschiedenen VW-Golf Benzinmotoren[1]

kw l/100km55 6,474 7,677 6,885 7,9

110 9,3150 10,8

[1] Quelle: http://www.vw-online.de/golf/index_.htm

Statistik 2 für SoziologInnen 16

© M

arcus Hudec

Regression

Streudiagramm: Leistung - Verbrauch

0

2

4

6

8

10

12

0 50 100 150 200

Leistung in kW

Kra

ftst

off

verb

rau

ch in

l/10

0km

Page 9: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

9

Statistik 2 für SoziologInnen 17

© M

arcus Hudec

Regression

Grundmodell

Zielgröße (abhängige Variable; Regressand) Y

Einflussgröße (unabhängige Variable; Regressor) X

Im Beispiel:– Y ... Kraftstoffverbrauch– X ... Leistung

Annahme:Es besteht ein funktionaler Zusammenhang zwischen den beiden Merkmalen: Y = f(X)

Statistik 2 für SoziologInnen 18

© M

arcus Hudec

Regression

Die Regressionsanalyse ist ein Instrument zur Untersuchung eines funktionalen Zusammenhangszwischen zwei Merkmalen.

Im Unterschied zur Korrelationsanalyse handelt es sich also um ein gerichtetes Modell

Mit der Regressionsanalyse kann

– ein funktionaler Zusammenhang erkannt werden

– man eine solche Beziehung statistisch nachweisen

– Art und Größe eines Zusammenhangs geschätzt werden

– fehlende oder zukünftige Werte prognostiziert werden

Page 10: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

10

Statistik 2 für SoziologInnen 19

© M

arcus Hudec

Regression

Dabei handelt es sich nicht um eine exakte Funktion im streng mathematischen Sinne

Aufgrund von Messfehlern und Zufallseinflüssen werden die einzelne Messungen nicht idealtypisch auf dem Funktionsgraphen liegen, sondern zufällig abweichen

Wir erweitern unser Modell daher um einen Fehlerterm (zufällige Komponente) e, wie folgt:

Y = f(X) + e

Statistik 2 für SoziologInnen 20

© M

arcus Hudec

Regression

Stochastischer Funktionszusammenhang

0

5

10

15

20

25

30

35

0 2 4 6 8 10 12

Page 11: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

11

Statistik 2 für SoziologInnen 21

© M

arcus Hudec

Regression

Lineare Regression

Die einfachste Form eines funktionalen Zusammenhanges stellt eine lineare Funktion dar

Modellvorstellung: der Zusammenhang zwischen X und Y kann (zumindest stückweise) durch eine Grade beschrieben werden:

Y = b0 + b1X + e

b0 ... Abstand der Gerade vom Ursprung auf der Ordinate

b1 ... Steigung der Gerade

Statistik 2 für SoziologInnen 22

© M

arcus Hudec

Regression

Linearer stochastischer Funktionszusammenhang

0

10

20

30

40

50

0 2 4 6 8 10 12

b0

Anstieg: b1

Page 12: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

12

Statistik 2 für SoziologInnen 23

© M

arcus Hudec

Regression

Notation

Den Ausgangspunkt bilden n Beobachtungspaare (xi,yi), die wir als Datenpunkte in einem Streudiagramm visualisieren können.

X Y

x1 y1

x2 y2

... ...

xi yi

... ...xn yn

Statistik 2 für SoziologInnen 24

© M

arcus Hudec

Regression

Linearer stochastischer Funktionszusammenhang

0

10

20

30

40

50

0 2 4 6 8 10 12

b0

yi

Anstieg: b1

xi

ii xbby 10ˆ

iii yye ˆ

Page 13: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

13

Statistik 2 für SoziologInnen 25

© M

arcus Hudec

Regression

Bestimmung der Regressionsgeraden

1. Idee: Gerade durch alle Punkte legen in der Praxis nicht möglich

2. Idee: Gerade durch 2 zufällige Punkte legen Nachteil: Die Geradekann dadurch eine unpassende Lage annehmen (siehe Grafik):

x

y

Statistik 2 für SoziologInnen 26

© M

arcus Hudec

Regression

Bestimmung der Regressionsgeraden

3. Idee: Gerade so wählen, dass die SUMME aller Abweichungen minimal wird. Nachteil: keine eindeutige Lösung, da positive und negative Abweichungen einander aufheben können.

+

-

min!xbbyn

1ii10i

x

y

Page 14: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

14

Statistik 2 für SoziologInnen 27

© M

arcus Hudec

Regression

Bestimmung der Regressionsgeraden

4. Idee: Gerade so legen, daß die Summe des BETRAGES aller Abweichungen minimal wirdNachteile:

•Mathematisch aufwändig (Betragsfunktion nicht zweimaldifferenzierbar)

•hat in der Praxis relativ geringere Bedeutung

min!xbbyn

1ii10i

Statistik 2 für SoziologInnen 28

© M

arcus Hudec

Regression

Bestimmung der Regressionsgeraden

5.Idee: Gerade so legen, daß die Summe der QUADRATE allerAbweichungen minimal wird.

Kleinst-Quadrate-PrinzipDie optimale Regressionsgerade ergibt sich dann durch Lösung

folgender Optimierung:

min!xbbyeSn

1i

2i10i

n

1i

2i

Page 15: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

15

Statistik 2 für SoziologInnen 29

© M

arcus Hudec

Regression

Mathematische Herleitung

021

100

n

iii xbby

b

S

02

110

1

n

iiii xxbby

b

S

(i) y nb b xii

n

ii

n

1

0 11

(ii) x y b x b xi ii

n

ii

n

ii

n

1

01

12

1

Aus i b y b x0 1

nach Substitution: 2

11

2

1111

n

ii

n

ii

n

ii

n

ii

n

iii

xxn

yxyxnb

Statistik 2 für SoziologInnen 30

© M

arcus Hudec

Regression

Interpretation der Formeln für Koeffizienten

Steigung der Regressionsgerade:

Kovarianz von X und Y dividiert durch die Varianz von X

Abstand auf der Ordinate:

Lineare Regressionsgerade verläuft durch den Schwerpunkt der Punkte

1 1 11 2

2

1 1

cov( , )ˆvar( )

n n n

i i i ii i i

n n

i ii i

n x y x yX Y

bX

n x x

xbyb 10ˆ

Page 16: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

16

Statistik 2 für SoziologInnen 31

© M

arcus Hudec

Regression

Tabellarisches Rechenschema

Nr. Xi Yi Xi2 Xi*Yi Yi2

1 55 6,4 3025 352 40,96

2 74 7,6 5476 562,4 57,76

3 77 6,8 5929 523,6 46,24

4 85 7,9 7225 671,5 62,41

5 110 9,3 12100 1023 86,49

6 150 10,8 22500 1620 116,64

Summe 551 48,8 56255 4752,5 410,5

Mittelwert von X: 91,83Mittelwert von Y: 8,13

Berechnung von b1:

Nenner 33929,00 b1 = 0,05

Zähler 1626,20 b0 = 3,73

2

11

2

1111

n

ii

n

ii

n

ii

n

ii

n

iii

xxn

yxyxnb

b y b x0 1

Statistik 2 für SoziologInnen 32

© M

arcus Hudec

Regression

Graphische Darstellung

Streudiagramm: Leistung - Verbrauch

y = 0,05x + 3,73

0

2

4

6

8

10

12

40,00 60,00 80,00 100,00 120,00 140,00 160,00 180,00

Leistung in kW

Kra

ftst

off

verb

rau

ch in

l/10

0km

Page 17: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

17

Statistik 2 für SoziologInnen 33

© M

arcus Hudec

Regression

Automatisierte Berechnung mit EXCEL

Statistik 2 für SoziologInnen 34

© M

arcus Hudec

Regression

Ergebnis mit SPSS

Page 18: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

18

Statistik 2 für SoziologInnen 35

© M

arcus Hudec

Regression

Regressionsgerade als Instrument zur Vorhersage

Wert von x Schätzwert für y40 5,65

Prognose-Szenarien

Basierend auf den geschätzten Parametern können wir für einen x Wert den zugehörigen y Wert schätzen

Statistik 2 für SoziologInnen 36

© M

arcus Hudec

Regression

Gefahren und Grenzen der Prognostik

Wieweit kann ein linearer Trendsinnvoll fortgeschrieben werden?

Erkennen von Wendepunkten

Problem von Strukturbrüchen

0

5

10

15

20

25

2 4 6 8 10 12

0

50

100

150

200

250

0 2 4 6 8 10 12

0

20

40

60

80

100

120

140

0 2 4 6 8 10 12

Page 19: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

19

Statistik 2 für SoziologInnen 37

© M

arcus Hudec

Regression

Wichtige Eigenschaften der Regressionsgeraden

„Fehlerausgleichende Gerade“

Die Summe der Abweichungen von der nach dem Kl. Quadrate Prinzip optimalen Geraden ist gleich Null.

Regressionsgerade läuft durch Schwerpunkt

01

n

iie

xbby 10

Statistik 2 für SoziologInnen 38

© M

arcus Hudec

Regression

K.Q. - Gerade geht durch den Schwerpunkt

0

10

20

30

40

0 2 4 6 8 10 12

y

x

Page 20: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

20

Statistik 2 für SoziologInnen 39

© M

arcus Hudec

Regression

Variabilität der Regression

iyyyyyy iiii

n

ii yySQT

1

2

n

i

n

iiii eyySQR

1 1

22ˆ

n

ii yySQE

1

Totale Quadratsumme der Abweichungen vom arithmetischen Mittel

nicht erklärte (residuale)Abweichungsquadratsumme

erklärte Abweichungsquadratsumme

iy )y,x(P ii

y

xix

iy

y

xbby 10

yyi

ii yy

Statistik 2 für SoziologInnen 40

© M

arcus Hudec

Regression

Page 21: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

21

Statistik 2 für SoziologInnen 41

© M

arcus Hudec

Regression

Zerlegung der Quadratsummen

n

ii

n

ii

n

ii yyeyy

SQESQRSQT

1

2

1

2

1

2 ˆ

n

ii

n

ii

yy

yy

SQT

SQEr

1

2

1

2

2

ˆ

r = Korrelationskoeffizient

r2 = Bestimmtheitsmaß

Anteil der erklärten Varianz an der gesamten Varianz

Statistik 2 für SoziologInnen 42

© M

arcus Hudec

Regression

Interpretation von r²

r² kann Werte zwischen – Null (kein Zusammenhang zwischen Y und X)

und– Eins (alle Punkte liegen exakt auf einer Geraden)

annehmen

Je näher r² bei eins liegt, desto besser wird Y durch X mittels einer linearen Regression erklärt

r² ist der Anteil der Variation von Y, der durch X erklärt werden kann

Page 22: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

22

Statistik 2 für SoziologInnen 43

© M

arcus Hudec

Regression

Bestimmung von r² im Beispiel

Nr. Xi Yi Xi2 Xi*Yi Yi2 ei ei2

1 55 6,4 3025 352 40,96 6,37 0,03 0,00 3,00 -1,77 3,12

2 74 7,6 5476 562,4 57,76 7,28 0,32 0,10 0,28 -0,85 0,73

3 77 6,8 5929 523,6 46,24 7,42 -0,62 0,39 1,78 -0,71 0,51

4 85 7,9 7225 671,5 62,41 7,81 0,09 0,01 0,05 -0,33 0,11

5 110 9,3 12100 1023 86,49 9,00 0,30 0,09 1,36 0,87 0,76

6 150 10,8 22500 1620 116,64 10,92 -0,12 0,01 7,11 2,79 7,77

Summe 551 48,8 56255 4752,5 410,5 48,80 0,00 0,60 13,59 0,00 12,99

Mittelwert von X: 91,83Mittelwert von Y: 8,13

Berechnung von b1:Nenner 33929,00 b1 = 0,05

Zähler 1626,20 b0 = 3,73

SQT 13,59 100,0%SQR 0,60 4,4%SQE 12,99 95,6%

yy i ˆ2)( yyi iy 2ˆ yy i

Statistik 2 für SoziologInnen 44

© M

arcus Hudec

Regression

Inferenzstatistik

Es wird angenommen, daß die Werte der unabhängigen Variablen feste (nichtzufällige) Größen sind.

Es wird angenommen, daß sich die Beobachtungen der abhängigen Variablen durch einen in X linearen Term plus einer zufälligen Störkomponente ergeben.

Über die Störkomponente werden folgende Annahmen getroffen– Keine systematische Störung, d.h. Erwartungswert ist null E(ei) = 0

– Konstante Streuung der Störkomponente Var(ei) = const.

– Die Störungen sind unabhängig voneinander Cov(ei, ej) = 0

– Die Störkomponente sei normalverteilt mit Erwartungswert 0 und der Varianz ²

Page 23: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

23

Statistik 2 für SoziologInnen 45

© M

arcus Hudec

Regression

Modellannahme

Die bedingten Dichten von Y für gegebenen Wert von X unterscheiden sich nur in ihrem Erwartungswert

Statistik 2 für SoziologInnen 46

© M

arcus Hudec

Regression

Signifikanz der Regressionsbeziehung

Frage ist der Anteil der erklärten Varianz signifikant?

Antwort: F-Test

Erklärte durch nichterklärte mittlere Quadratsumme (das ist die Quadratsumme durch die Zahl der Freiheitsgrade dividiert)

Diese Prüfgröße ist F-verteilt mit 1 und n-2 Freiheitsgraden

)2/()1(

1/

)2/(

1/2

2

nr

r

nSQR

SQEF

Page 24: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

24

Statistik 2 für SoziologInnen 47

© M

arcus Hudec

Regression

Durchführung des Tests

ANOVA (Analysis of Variance)

Freiheitsgrade (df)Quadratsummen

(SS bzw. SQ)Mittlere

Quadratsumme Prüfgröße (F) P-WertRegression 1 12,990 12,990 86,195 0,0007Residuen 4 0,603 0,151Gesamt 5 13,593

r²= 0,956(1-r²)= 0,044

(1-r²)/4= 0,011

Statistik 2 für SoziologInnen 48

© M

arcus Hudec

Regression

Schätzung von ²

n

iie

n 1

22

2

1

Die Schätzung der unbekannten Varianz der Störkomponente ist die Voraussetzung für Inferenz über die Parameter bzw. für Konfidenzintervalle für Prognosewerte.

Naheliegend ist die nachstehende Formel (E(e)=0!)

Die positive Quadratwurzel führt zum Standardfehler der Residuen (Residual Standard Error)

Page 25: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

25

Statistik 2 für SoziologInnen 49

© M

arcus Hudec

Regression

Konfidenzintervalle und Tests für Regressionskoeffizienten

2

1

2

1

2

2 ˆ)(

ˆ0

n

ii

n

ii

b

xxn

x

n

ii

b

xx1

2

22

)(

ˆˆ

1

Schätzung der Varianz der Regressionskoeffizienten

Interpretation:

Bei großen Werten von x ist die Variabilität der Konstanten ceteris paribus größer.

Je stärker die x-Werte streuen, desto geringer ist ceteris paribus die Streuung beider Koeffizienten

Statistik 2 für SoziologInnen 50

© M

arcus Hudec

Regression

Test für die Regressionskoeffizienten

Nullhypothese: bi=0

Interpretation: – b0=0 ... Geht die Regression durch den Ursprung?– b1=0 ... Ist die Steigung signifikant von Null verschieden?

Das entspricht im Fall der Einfachregression der zuvor diskutierten Fragestellung:Ist der Anteil der erklärten Varianz signifikant?

Hinweis: Vergleiche den p-value für die Steigung mit dem F-Test

Koeffizient Standardfehler t-Statistik P-Wert

b0 3,732 0,500 7,465 0,0017

b1 0,048 0,005 9,284 0,0007

1

2

2 2 2 2

1 1

2

ˆ 0,60 / 4 0,15

( ) 56.255 6 91,83 5.654,8

0,15ˆ 0,005

5.654,8

n n

i ii i

b

x x x nx

Page 26: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

26

Statistik 2 für SoziologInnen 51

© M

arcus Hudec

Regression

Konfidenzintervall für den durchschnittlichen Prognosewert

1)tSY)Y(EtSY(Pii YiiYi

iY

ii

S

)Y(EYT

t-verteilt mit n-2 Freiheitsgraden

Für eine konkrete Stichprobe ergibt sich damit das folgende Konfidenzintervall für den durchschnittlichen Prognosewert (Vertrauensintervall)

ii YiiYi tsy)Y(Etsy

mitii xbby 10 und

2

ˆ2

1

( )1ˆ

( )i

inY

jj

x xs

n x x

Statistik 2 für SoziologInnen 52

© M

arcus Hudec

Regression

Prognoseintervall für individuellen Prognosewert Yi

1)tSYYtSY(P FiiFi

F

ii

S

YYT

t-verteilt mit n-2 Freiheitsgraden

Aus einer konkreten Stichprobe ergibt sich somit das folgende Konfidenzintervall für die Prognose eines bestimmten Einzelwertes an der Stelle xi:

FiiFi tsyYtsy

mitii xbby 10 und

2

2

1

( )1ˆ 1

( )

iF n

jj

x xs

n x x

Page 27: X und Y. - Universität Wien · 2 Statistik 2 für SoziologInnen 3 © Marcus Hudec Regression Test auf Signifikanz Will man Hypothesen der Form H0: corr=0 versus Ha: corr 0 (zweiseitig)

27

Statistik 2 für SoziologInnen 53

© M

arcus Hudec

Regression

Anwendung im Beispiel

xi SF Prognose UG OG

se 0,388 50 0,4717 6,12828 4,818722 7,437843t: 2,78 55 0,4604 6,36793 5,089596 7,646264

60 0,4504 6,60758 5,357137 7,858018

65 0,4416 6,84723 5,621119 8,07333170 0,4342 7,08687 5,881326 8,29241975 0,4282 7,32652 6,137561 8,51547980 0,4237 7,56617 6,389658 8,74267785 0,4208 7,80582 6,637483 8,97414790 0,4194 8,04546 6,880947 9,20997995 0,4196 8,28511 7,120006 9,450214100 0,4214 8,52476 7,354668 9,694847105 0,4248 8,76441 7,584988 9,943822110 0,4297 9,00405 7,811069 10,19704115 0,4360 9,2437 8,033051 10,45435120 0,4438 9,48335 8,251113 10,71558

Prognoseintervall für Einzelwerte (individuelle Prognosewerte)

Statistik 2 für SoziologInnen 54

© M

arcus Hudec

Regression

Vertrauens- und Prognoseintervall

50 100 150 200

05

10

15

20

Leistung in kW

Kra

ftsto

ffve

rbra

uch

in l/

10

0km

VertrauensintervallPrognoseintervall