1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

1

STATISIK

LV Nr.: 1375

SS 2005

14. April 2005

2

Varianzanalyse

Varianzanalyse od. ANOVA

• Frage: Hat ein Faktor Einfluss auf ein Merkmal?

• Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen

• Merkmal (durch Faktor beeinflusst): Metrische Größe

3

Varianzanalyse

• Einfache Varianzanalyse: Ein Faktor

• Zweifache Varianzanalyse: Zwei Faktoren

• …

4

Varianzanalyse

• Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. – Test, ob die Differenz der arithmetischen Mittel

von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist.

5

Varianzanalyse

• Modellannahmen der Varinazanalyse: – Unabhängigkeit der Stichproben (i=1,…,r)

– Normalverteilung der Merkmale mit µi und σi²

– Varianzhomogenität (Homoskedastizität), d.h. σi² = σ²

6

Varianzanalyse

• Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ

H0: µ1 = µ2 = … = µ

• Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ

H1: mindestens zwei µi sind ungleich

7

Varianzanalyse

• Frage: Beeinflusst der Faktor (nominal-skalierte Größe) das Merkmal (metrisch-skalierte Größe)?

• Unter H0: µi = µ für alle i (i = 1,…,r Faktorstufen).

• Abweichung, die dem Faktor zuzuschreiben sind: αi = µi - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene.

8

Varianzanalyse

• Modell der einfachen Varianzanalyse:

• xij = µ + αi + eij – µ … Gesamtmittelwert

– αi … Effekt auf der i-ten Ebene

– eij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes xik vom Mittelwert µi dieser Ebene.

eij = xij – µi = xij – (µ + αi)

9

Varianzanalyse

• Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µi,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit?

i Drahtsorte

j 1 2 3

1 9 7,3 18

2 15,4 15,6 9,6

3 8,2 14,2 11,5

4 3,9 13 19,4

5 7,3 6,8 17,1

6 10,8 9,7 14,4

10

Varianzanalyse

Vorgehensweise:

• Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen

• Bestimmung der Abweichungen

• Zerlegung der Abweichungsquadratsumme

• Teststatistik und Testverteilung bestimmen

• Entscheidung, Interpretation

11

Varianzanalyse

• Gesamtmittelwert über alle Faktorstufen r

• Mittelwerte der r Faktorstufen

inr

iji=1 j=1

1x = x

N

in

i ijj=1i

1x = x

n

12

Varianzanalyse

• Beispiel: Drahtsorteni Drahtsorte

j 1 2 3 x..

1 9 7,3 18

2 15,4 15,6 9,6

3 8,2 14,2 11,5

4 3,9 13 19,4

5 7,3 6,8 17,1

6 10,8 9,7 14,4

xi. 9,1 11,1 15 11,7

13

Varianzanalyse

• Abweichungen: Quadratsumme der Abweichungen (Sum of Squares)– Abweichungen der Beobachtungen vom

Gesamtmittelwert.

– Summe der Quadratischen Abweichungen– Bezeichnungen: SST (Total), SSG (Gesamt)

inr2

iji=1 j=1

SST= (x -x )

14

Varianzanalyse

• Sum of Squares:– Abweichungen der Beobachtungen der

einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe.

– Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität

– Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual).

inr2

ij ii=1 j=1

SSW= (x -x )

15

Varianzanalyse

• Sum of Squares:– Abweichungen der Mittelwerte der einzelnen

Messreihen vom Gesamtmittelwert.

– Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors.

– Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment),

r2

i ii=1

SSB= n (x -x )

16

Varianzanalyse

• Quadratsummenzerlegung:

• SST = SSB + SSW

• Interpretation: Gesamtvarianz (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen.

i in nr r r2 2 2

ij i i ij ii=1 j=1 i=1 i=1 j=1

(x -x ) n (x -x ) (x -x )

17

Varianzanalyse

• Idee für Test: – Vergleich der Variation zwischen den

Messreihen mit der Variation innerhalb der Messreihen

– Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt).

18

Varianzanalyse

• Teststatistik – Idee: – Aus den Beobachtungswerten werden zwei

voneinander unabhängige Schätzwerte für sW² und sB² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt.

– Liegen keine wahren Effekte vor (Gültigkeit von H0), sind sW² und sB² (bis auf zufällige Abweichungen) gleich.

– Bei Vorhandensein von wahren Effekten (H1) ist sB² systematisch größer als sW².

19

Varianzanalyse

• Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz):

• Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt)

inr2 2W ij i

i=1 j=1

1s = (x -x )

N-r

r2 2B i i

i=1

1s = n (x -x )

r-1

20

Varianzanalyse

• Mittlere Quadratsummen (MSS = Mean Sum of Squares):

• Quadratsummen dividiert durch entsprechende Freiheitsgrade

• MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen.

21

Varianzanalyse

• Varianzanalysetafel (r Messreihen):

Streuungs-ursache

Freiheits-grade (DF)

Quadrat-summe (SS)

Mittlere Quadratsumme (MS)

Unterschied zw Messreihen

r-1 SSB (Between)

MSB = SSB / (r-1)

Zufälliger Fehler

N-r SSW

(Within)

MSW = SSW / (N-r)

Gesamt N-1 SST

(Total)

22

Varianzanalyse

Teststatistik:

• F = MSB / MSW

• F ~ F(r-1),(N-r)

• Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab (Fc = kritischer Wert der F-Verteilung mit (r-1) und (N-r) Freiheitsgraden).

23

Varianzanalyse

• Beispiel: Drahtsorten• Quadratsummenzerlegung: SST = SSB + SSW

– 324,62 = 108,04 + 216,58

• Mittlere Quadratsummen: – MSB = 108,04 / (3-1) = 54,02– MSW = 216,58 / (18-3) = 14,44

• Teststatistik: – F = MSB / MSW = 3,74

• Kritischer Wert der F2;15 Vt. 3,68• Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es

besteht ein signifikanter Unterschied zw. den Sorten

24

Varianzanalyse

• Zweifache Varianzanalyse: – 2 Faktoren (A und B, wobei r Faktorstufen bei

A und p Faktorstufen bei B)– 1 metrische Variable

• Unterscheidung: – Modell ohne Wechselwirkungen zw. den

Faktoren– Modell mit Wechselwirkungen zw. den

Faktoren

25

Varianzanalyse

• Modell ohne Wechselwirkungen zw. den Faktoren

• xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte

– eijk zufällige Fehler

26

Varianzanalyse

• Mittelwerte:

• Gesamt

• Faktor A

• Faktor B

pr n

ijki=1 j=1 k=1

1x = x

rpn p n

i ijkj=1 k=1

1x = x

pn r n

j ijki=1 k=1

1x = x

rn

27

Varianzanalyse

• Schätzer für Gesamtmittel und Effekte

• Gesamtmittel

• Effekt von Faktor A

• Effekt von Faktor B

m=x

i ia =x -m

j jb =x -m

28

Varianzanalyse

• Quadratsummen

•

• SSR = SST – SSE(A) – SSE(B)

pr n2

ijki=1 j=1 k=1

SST= (x -x )r

2i

i=1

SSE(A)=pn ap

2j

j=1

SSE(B)=rn b

29

Varianzanalyse

• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSR

• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSR = SSR / (rpn-r-p+1)

30

Varianzanalyse

• Prüfgrößen und kritische Werte:

• Faktor A: – F(A) = MSE(A) / MSR

– Fr-1,(nrp-r-p+1);1-α

• Faktor B: – F(B) = MSE(B) / MSR

– Fp-1,(nrp-r-p+1);1-α

31

Varianzanalyse

• Beispiel: 2 Faktoren (Erreger, Antibiotikum)Erreger i

(A) Antibiotikum j (B)

1 2 3 Mittelwerte Schätzer ai

k

1 1 38 40 38

2 35 41 39 38,5 0,667

2 1 42 39 33

2 45 33 34 37,7 -0,167

3 1 38 38 33

2 41 38 36 37,3 -0,500

Mittelwerte 39,8 38,2 35,5 37,8

Schätzer bj 2,000 0,333 -2,333

32

Varianzanalyse

• Modell mit Wechselwirkungen zw. den Faktoren

• xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte– αβ Wechselwirkung

– eijk zufällige Fehler

33

Varianzanalyse

• Mittelwerte:

• Gesamt

• Faktor A

• Faktor B

• Wechselwirkung

pr n

ijki=1 j=1 k=1

1x = x

rpn p n

i ijkj=1 k=1

1x = x

pn r n

j ijki=1 k=1

1x = x

rn n

ij ijkk=1

1x = x

n

34

Varianzanalyse

• Gesamtmittel und Effekte

• Gesamtmittel

• Effekt von Faktor A

• Effekt von Faktor B

• Effekt der Wechselwirkung

m=x

i ia =x -m

j jb =x -m

ij ij i j(ab) =x -a -b -m

35

Varianzanalyse

• Quadratsummen

SSR = SST – SSE(A) – SSE(B) – SSE(AB)

pr n2

ijki=1 j=1 k=1

SST= (x -x )r

2i

i=1

SSE(A)=pn ap

2j

j=1

SSE(B)=rn bpr

2ij

i=1 j=1

SSE(AB)=n (ab)

36

Varianzanalyse

• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSE(AB) + SSR

• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSE(AB) = SSE(AB) / (p-1)(r-1)– MSR = SSR / (rpn-r-p+1)

37

Varianzanalyse

• Prüfgrößen und kritische Werte: • Faktor A:

– F(A) = MSE(A) / MSR

– Fr-1, pr(n-1); 1-α

• Faktor B: – F(B) = MSE(B) / MSR

– Fp-1, pr(n-1); 1-α

• Wechselwirkung: – F(AB) = MSE(AB) / MSR

– F(p-1)(r-1), pr(n-1); 1-α

38

Varianzanalyse

• Beispiel: 2 Faktoren + Wechselwirkung

Erreger i Antibiotikum j (Faktor B)

(Faktor A) 1 2 3 xi.. ai

k xi1k xi1. (ab)i1 xi2k xi2. (ab)i2 xi3k xi3. (ab)i3

1 1 38

36,5 -4,000

40

40,5 1,667

38

38,5 2,333

2 35 41 39 38,5 0,667

2 1 42

43,5 3,833

39

36 -2,000

33

33,5 -1,833

2 45 33 34 37,7 -0,167

3 1 38

39,5 0,167

38

38 0,333

33

34,5 -0,500

2 41 38 36 37,3 -0,500

x.j. 39,8 38,2 35,5 37,8

bj 2,000 0,333 -2,333

39

Varianzanalyse

• Beispiel: Varianzanalysetafel

• Faktor Erreger: kein Effekt

• Faktor Antibiotikum: Effekt

• Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat).

Streuungs-ursache

Freiheits-grade

Quadrat-summe

Mittlere Quadrats.

Test-statistik

Kritischer Wert

Erreger 2 4,33 2,16667 0,52 4,26

Antibiotikum 2 57,33 28,6667 6,88 4,26

Interaktion 4 93,33 23,3333 5,60 3,63

Fehler 9 37,50 4,16667

Total 17 192,5

Page 40: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

40

VarianzanalyseErreger - Antibiotikum

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

0 1 2 3 4

Antibiotikum

Mit

telw

ert

e

Erreger 1

Erreger 2

Erreger 3

Page 41: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

41

Regressionsanalyse

• Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen.

• Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

Page 42: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

42

Regressionsanalyse

• Abhängige Variable (Regressand): Y – „zu erklärende Variable“

• Unabhängige Variable/n (Regressor): X – „erklärende Variable/n“

• Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt.

• Regression von Y auf X, Y=f(X).

Page 43: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

43

Regressionsanalyse

• Art der Beziehung zw. den Variablen?

• Welche Form hat die Regressionsfunktion?

• Antworten darauf aus: – Theorie – Empirische Beobachtung, z.B. Punktwolke

zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

Page 44: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

44

Regressionsanalyse

• Punktwolke

• Regressionsfunktion

40

50

60

70

80

90

100

110

150 160 170 180 190 200 210

Körpergröße

Kö

rpe

rge

wic

ht

Page 45: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

45

Regressionsanalyse

• Lineare Regression:– Regressionsfunktion ist linear

• Nichtlineare Regression: – Regressionsfunktion ist nicht linear

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

Page 46: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

46

Regressionsanalyse

• Einfachregression: – Beziehung zwischen 2 Variablen– Regressand: Y– Regressor: X

• Mehrfachregression = multiple Regression: – Beziehung zwischen 3 oder mehr Variablen– Regressand: Y

– Regressoren: X1, X2, …, Xk

Page 47: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

47

Regressionsanalyse

• Lineare Einfachregression:– Lineare Regressionsfunktion

(Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X.

– Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.

Page 48: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

48

Regressionsanalyse

• Wahre Funktion:

yi‘ = α + βxi für i = 1, …, n

– α … Absolutglied– β … Steigungsparameter

• Beobachtet wird:

yi = yi‘ + εi für i = 1, …, n

– εi … Störterm, Realisationen einer Zufallsvariable

Wahre Koeffizienten, Parameter der Grundgesamtheit

Page 49: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

49

Regressionsanalyse

• Modell der linearen Einfachregression:

yi = α + βxi + εi für i = 1, …, n – α … Absolutglied– β … Steigungsparameter

– εi … Störterm

Page 50: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

50

Regressionsanalyse

• Annahmen: (1) E(εi) = 0 für i=1,…,n

(2) Var(εi) = σ² für i=1,…,n (Homoskedastizität)

(3) Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler)

(4) xi nicht stochastisch

(5) xi xj für mindestens ein ij

Page 51: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

51

Regressionsanalyse

• Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: – E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi

‘ für i=1,…,n

– Var(Yi) = Var(εi) = σ² für i=1,…,n= 0

Page 52: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

52

Regressionsanalyse

• Regressionsfunktion/-gerade:

ŷi = a + bxi für i = 1, …, n– a … Schätzer für Absolutglied– b … Schätzer für Steigungsparameter

– ŷi … Schätzer für Ausprägung yi von Y

Page 53: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

53

Regressionsanalyse

• Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)

40

50

60

70

80

90

100

110

150 160 170 180 190 200 210

Körpergröße

Kö

rper

gew

ich

t

ei

yi

ŷi

Page 54: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

54

Regressionsanalyse

• Regressionsgerade: – unendlich viele mögliche Geraden durch eine

Punktwolke– Wähle jene, die die vorhandene Tendenz am

besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

Page 55: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

55

Regressionsanalyse

Methode der Kleinsten Quadrate

• Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme)

• Wähle die Schätzer a und b für α und β so, dass S² minimal wird.

n n n2 2 2 2

i i i i ii=1 i=1 i=1

ˆS = (y -a-bx ) (y -y ) e

Page 56: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

56

RegressionsanalyseMethode der Kleinsten Quadrate

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

X

Y

ŷ=a+bx

(xi,yi)

(xi,ŷi)

yi-ŷi=yi-(a+bxi)=ei

Page 57: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

57

Regressionsanalyse

• Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).

n2 2

i ia,b

i=1

min S = (y -a-bx )

Page 58: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

58

Regressionsanalyse

• Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems:

• Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

2 n

i ii=1

S=-2 (y -a-bx )=0

a

2 n

i i ii=1

S=-2 x (y -a-bx )=0

b

Page 59: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

59

Regressionsanalyse

• Kleinste Quadrate Schätzer für β:

• Kleinste Quadrate Schätzer für α:

• Kleinste Quadrate Regressionsfunktion:

n

i ii=1

n2

ii=1

(x -x)(y -y)b=

(x -x)

a=y-bx

y=a+bx

Page 60: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

60

Regressionsanalyse

• Eigenschaften der KQ Schätzer: – Summe der Residuen ei ist Null.

– Summe xiei ist Null.

– Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte

– Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).

Page 61: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

61

Regressionsanalyse

Quadratsummenzerlegung:

• Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. – Zu erklärende Variation: yi –y

– Erklärte Variation: ŷi –y

– Nicht erklärte Variation: yi – ŷi

– (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n

Page 62: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

62

RegressionsanalyseMethode der Kleinsten Quadrate

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

X

Y

ŷ=a+bx

(xi,yi)

yi -y

ŷi -y

yi - ŷi

(xi,ŷi)

y

Page 63: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

63

Regressionsanalyse

• Maß der Variation: Quadratsumme der Abweichungen

• SST = (yi –y)² – Sum of Squares Total

• SSE = (ŷi –y)² – Sum of Squares Explained

• SSR = (yi – ŷi)²– Sum of Squares Residual

• Es gilt: SST = SSE + SSR

Page 64: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

64

Regressionsanalyse

• Einfaches Bestimmtheitsmaß: – Maß für die durch die lineare

Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen

• r² = SSE / SST = 1 – SSR / SST– r² = Anteil der durch die Regressionsfunktion

erklärten Variation an der zu erklärenden gesamten Variation.

Page 65: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

65

Regressionsanalyse

• Es gilt: 0 ≤ r² ≤ 1

• Extremfälle: – r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h.

ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag

– r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi = yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

Page 66: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

66

RegressionsanalyseEinfaches lineares Bestimmtheitsmaß

R2 = 1

0

1

2

3

4

5

6

0 2 4 6 8 10 12

unabhängige Variable

ab

hä

ng

ige

Va

ria

be

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 2 4 6 8 10 12

unabhängige Variable

ab

hä

ng

ige

Va

ria

be

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0,82

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

unabhängige Variable

ab

hä

ng

ige

Va

ria

be

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0,52

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

unabhängige Variable

ab

hä

ng

ige

Va

ria

be

le

Page 67: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

67

Regressionsanalyse

• Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1]

• Extremfälle: – r = 0, d.h. fehlende Erklärung, fehlende

Korrelation– r = 1, d.h. vollständige Erklärung, vollständige

Korrelation

• r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.

Page 68: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

68

Regressionsanalyse

Eigenschaften der KQ Schätzer:

• Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable.

• Erwartungswerte der KQ Schätzer:– E(b) = β– E(a) = α– D.h. a und b sind unverzerrte Schätzer

Page 69: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

69

Regressionsanalyse

• Varianzen der KQ Schätzer:

• Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.

n

1i

2i

2

)x(x

σVar(b)

n

1i

2i

22

)x(x

x

n

1σVar(a)

Page 70: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

70

Regressionsanalyse

• Kovarianz der KQ Schätzer:

Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

n

1i

2i

2

)x(x

xσb)Cov(a,

Page 71: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

71

Regressionsanalyse

• Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β?

• Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

Page 72: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

72

Regressionsanalyse

Gauss-Markov-Theorem:– Einfaches lineares Regressionsmodell, – Es gelten Annahmen 1-5

• Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator)– Best: Var(b*) Var(b) – Linear: b* =ciyi

– Unbiased: E(b*) = β– Analoge Aussage für Schätzer a* von α.

Page 73: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

73

Regressionsanalyse

• Schätzung der Fehlervarianz σ²– Wären εi beobachtbar, dann Schätzer für σ² =

1/n εi².

– Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.

n

1i

2i

2 e2n

1s

Page 74: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

74

Regressionsanalyse

• Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

22b n

2i

i 1

ss

(x x)

22 2a n

2i

i 1

1 xs s

n (x x)

Page 75: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

75

Regressionsanalyse

Inferenz im linearen Regressionsmodell:– Ann (1-5)

– Ann (6): εi ~ N(0,σ²)

• Testprobleme: – Einseitig: z.B. H0: b = b* gegen H1: b > b*

– Zweiseitig: H0: b = b* gegen H1: b b*

• Teststatistik:

b

*

s

bbT

Page 76: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

76

Regressionsanalyse

• Verteilung der Teststatistik: – sb bekannt: T ~ N(0,1)

– sb geschätzt: T ~ tn-2

• Kritische Werte bestimmen

• Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt.

• Gleiche Vorgehensweise bei Tests für Schätzer a.

Page 77: 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.

77

Regressionsanalyse

Konfidenzintervall Regressionskoeffizienten

• Interzept: – Es gilt P(a – t sa α a + t sa) = 1 – α

– KI für α: [a – t sa; a + t sa]

• Steigungsparameter: – Es gilt P(b – t sb β b + t sb) = 1 – α

– KI für β: [b – t sb; b + t sb]

• t = t1- α/2; n-2 (Werte der t-Verteilung)

Download - 1 STATISIK LV Nr.: 1375 SS 2005 14. April 2005. 2 Varianzanalyse Varianzanalyse od. ANOVA Frage: Hat ein Faktor Einfluss auf ein Merkmal? Faktor: Nominal.