Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate...

24
Kovarianz, Korrelation und Regression Bivariate Regressionsanalyse Jost Reinecke Universit¨ at Bielefeld 15. M¨ arz 2005 Jost Reinecke Bivariate Regressionsanalyse

Transcript of Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate...

Page 1: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Bivariate Regressionsanalyse

Jost Reinecke

Universitat Bielefeld

15. Marz 2005

Jost Reinecke Bivariate Regressionsanalyse

Page 2: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Kovarianz, Korrelation und Regression

Jost Reinecke Bivariate Regressionsanalyse

Page 3: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Kovarianz, Korrelation und Regression

Ausgangspunkt ist folgende Datenmatrix:

Variablen1 2 . . . NI

1 x11 x12 . . . x1k

2 x21 x22 . . . x2k

3 x31 x32 . . . x3k

Statistische 4 . . . .

Einheiten 5 . . . .

. . . . .

. . . . .

. . . . .

NOBS xN1 xN2 . . . xNk

Jost Reinecke Bivariate Regressionsanalyse

Page 4: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

1. Kovarianz zwischen xi und xj :

cov(xi , xj) =

∑N

1(xi − xi) ∗ (xj − xj)

N(1)

mit

xi =

∑N

1(xi)

N(2)

xj =

∑N

1(xj)

N(3)

Erklarung: Summe der korrespondierenden Abweichungenvon ihrem Mittelwert. Die Werte der Kovarianz sindabhangig von der Skalierung der Variablen.

Jost Reinecke Bivariate Regressionsanalyse

Page 5: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

2. Produkt-Moment Korrelation zwischen xi und xj (PearsonKorrelation):

rij =cov(xi , xj)

sxi∗ sxj

(4)

mit

sxi=

∑N

1(xi − xi)2

N(5)

sxj=

∑N

1(xj − xj)2

N(6)

Erklarung: Kovarianz zwischen xi und xj , dividiert durchdas Produkt der Standardabweichungen. Die Werte desKorrelationskoeffizienten liegen zwischen −1 und +1.

Jost Reinecke Bivariate Regressionsanalyse

Page 6: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Korrelation als standardisiertes Zusammenhangsmaß:

zi =xi − x i

sxi

mit z i = 0 und szi= 1

zj =xj − x j

sxj

mit z j = 0 und szj= 1

rxixj=

(xi − x i)(xj − x j)

N sxi· sxj

=1

N

zi · zj

Jost Reinecke Bivariate Regressionsanalyse

Page 7: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

1. Jede der Variablen ist standardisiert.

2. Fur jede Untersuchungseinheit wird das Produkt derStandardwerte z1 und z2 gebildet.

3. Die Produkte werden aufsummiert.

4. Die Summe wird durch N dividiert, d.h. es wird derMittelwert der Produkte gebildet.

Der Korrelationskoeffizient beschreibt die Starke des linearenZusammenhangs zwischen zwei Merkmalen. Der Wertebereichliegt zwischen −1 und +1:

−1: perfekter negativer Zusammenhang+1: perfekter positiver Zusammenhang

Jost Reinecke Bivariate Regressionsanalyse

Page 8: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

-

6

u

uu

u

u

u

u

u

u

u

u

u

u

u

u

u

xi

xj

Graphische Darstellung einer positiven KorrelationJost Reinecke Bivariate Regressionsanalyse

Page 9: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

-

6

u

uu

u

u

u

u

u

u

u

u

u

u

u

u

u

xi

xj

Graphische Darstellung einer negativen KorrelationJost Reinecke Bivariate Regressionsanalyse

Page 10: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

-

6

u

u

u

u

u

u

u

u

u u

uu

u

u

u

u

u

u

xi

xj

Graphische Darstellung einer 0-KorrelationJost Reinecke Bivariate Regressionsanalyse

Page 11: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Eine Gerade, die den Zusammenhang zwischen den Variablenmoglichst gut beschreibt, lat sich durch eine lineareFunktionsgleichung angeben:

xj = a + bxi (7)

I a = Achsenabschnitt (Schnittpunkt der Geraden mit dery-Achse)

I b = Steigung der Geraden

Da aber kein perfekter linearer Zuammenhang zwischen xi undxj besteht, sind die Vorhersagewerte fehlerbehaftet:

xj = a + bxi + e

wobei gilt:xj = xj + e ⇔ e = xj − xj

Jost Reinecke Bivariate Regressionsanalyse

Page 12: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

-

6

u

uu

u

u

u

u

u

u

u

u

u

u

u

u

u

xi

xj

xi

xj

xj

Jost Reinecke Bivariate Regressionsanalyse

Page 13: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Die Gute der Approximation der xj -Werte durch diegeschatzten Werte wird uber eine quadratische Fehlerfunktionfestgestellt:

xj = a + bxi + e −→ e = xj − bxi − a −→

Q(e) :=∑

e2 =∑

(xj − bxi − a)2

Es wird die Gerade gesucht, bei der die Summe derquadrierten Abweichungen am kleinsten ist:

e2

i = f (a, b)

Die Bestimmung der Werte fur a und b, bei denen∑

e2

i

minimal ist, erfolgt uber partielle Ableitungen:

∂ (∑

e2

i )

∂a= 0;

∂ (∑

e2

i )

∂b= 0

Jost Reinecke Bivariate Regressionsanalyse

Page 14: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Der Regressionskoeffizient b ist demnach:

b =Cov(xi , xj)

s2xi

Danach laßt sich auch a berechnen:

a = x j − b · x i

Jost Reinecke Bivariate Regressionsanalyse

Page 15: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Beispiel: Variablen und Daten des ALLBUS 1994

Variable V175: Treimanberufsprestige-SkalaVariable V176: Magnitudeberufsprestige-SkalaVariable V261: EinkommenVariable V263: Haushaltsgroße

Jost Reinecke Bivariate Regressionsanalyse

Page 16: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Univariate Statistik: Mittelwerte und Standardabweichungen

Variable N x sx

V175 929 37,903 11,234

V176 929 52,495 25,265

V261 929 1156,904 1071,652

V263 929 2,482 1,335

Jost Reinecke Bivariate Regressionsanalyse

Page 17: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Bivariate Statistik: Korrelationskoeffizienten

V175 V176 V261 V263

V175 1,0000 ,8542 ,2500 ,0027

V176 ,8542 1,0000 ,2428 ,0243

V261 ,2500 ,2428 1,0000 -,3049

V263 ,0027 ,0243 -,3049 1,0000

Jost Reinecke Bivariate Regressionsanalyse

Page 18: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

P l o t o f V 1 7 5 w i t h V 1 7 6

M a g n i t u d e p r e s t i g e

2 0 0 1 0 0 0

T r e

i m a

n p

r e

s t i g

e

8 0

6 0

4 0

2 0

0

Jost Reinecke Bivariate Regressionsanalyse

Page 19: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

P l o t o f V 2 6 1 w i t h V 2 6 3

H a u s h a l t s g r o e s s e

2 0 1 0 0

E i n

k o

m m

e n

1 4 0 0 0

1 2 0 0 0

1 0 0 0 0

8 0 0 0

6 0 0 0

4 0 0 0

2 0 0 0

0

Jost Reinecke Bivariate Regressionsanalyse

Page 20: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Varianzzerlegung im linearen Regressionsmodell

Die Summe der quadrierten Abweichungen derBeobachtungswerte vom arithmetischen Mittel(Gesamtvariation) kann zerlegt werden in

1. die Summe der quadrierten Abweichungen derBeobachtungswerte von den Regressionswerten (nicht

erklarte Variation) und in

2. die Summe der quadrierten Abweichungen derRegressionswerte vom arithmetischen Mittel (erklarteVariation)

Jost Reinecke Bivariate Regressionsanalyse

Page 21: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

-

6

t

tt

t

t

t

t

t

t

t

t

t t

xi

xj

xi

xj

xj

xj − xj

}

{

xj − xj

xj − xj

Jost Reinecke Bivariate Regressionsanalyse

Page 22: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

1. Die Differenz xj − xj ist die Abweichung des Meßwertes xj

vom Mittelwert xj , der auch als zu erklarende

Abweichung bezeichnet wird.

2. Die Differenz xj − xj ist die Abweichung des Meßwertes xj

vom Wert der Regressionsgeraden xj , der auch als nicht

erklarte Abweichung bezeichnet wird.

3. Die Differenz xj − xj ist die Abweichung des Wertes derRegressionsgeraden xj vom Mittelwerte xj , der auch alserklarte Abweichung bezeichnet wird.

Jost Reinecke Bivariate Regressionsanalyse

Page 23: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

xj − xj = (xj − xj) + (xj − xj)

GVar. = EVar. + NEVar.

(xj−xj)2

(xj−xj)2 =

(xj−xj)2

(xj−xj)2 +

(xj−xj)2

(xj−xj)2

Gesamt-SAQGesamt-SAQ

= erkl.-SAQGesamt-SAQ

+ n.-erkl.-SAQGesamt-SAQ

1 = r 2 + 1 − r 2

GV = EV + NEV

Jost Reinecke Bivariate Regressionsanalyse

Page 24: Jost Reinecke - uni-bielefeld.de SS05/Folien/REG1.pdf · Jost Reinecke Bivariate Regressionsanalyse. Kovarianz, Korrelation und Regression-6 t t t t t t t t t t t t t xi xj x„ x„j

Kovarianz, Korrelation und Regression

Der Vorhersagewert fur die Variable xj ist der Mittelwert xj .Nach Auswertung der Information uber die Variable xi , d.h.nach Bestimmung der Regressionsgeraden, wird derRegressionswert xj berechnet. Die Gesamtabweichungzwischen Meß- und Vorhersagewert (Mittelwert) xj − xj wird ineinen erklarten Anteil (xj − xj) und einen nicht erklarten Anteil(xj − xj) zerlegt.

Jost Reinecke Bivariate Regressionsanalyse