1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

91
1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006

Transcript of 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

Page 1: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

1

STATISIKLV Nr.: 1852WS 2005/06

12. Jänner 2006

Page 2: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

2

Regressionsanalyse

• Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen.

• Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.

Page 3: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

3

Regressionsanalyse

• Abhängige Variable (Regressand): Y – „zu erklärende Variable“

• Unabhängige Variable/n (Regressor): X – „erklärende Variable/n“

• Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt.

• Regression von Y auf X, Y=f(X).

Page 4: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

4

Regressionsanalyse

• Art der Beziehung zw. den Variablen?• Welche Form hat die Regressionsfunktion?• Antworten darauf aus:

– Theorie – Empirische Beobachtung, z.B. Punktwolke

zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?

Page 5: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

5

Regressionsanalyse

• Punktwolke• Regressionsfunktion

40

50

60

70

80

90

100

110

150 160 170 180 190 200 210

Körpergröße

Kör

perg

ewic

ht

Page 6: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

6

Regressionsanalyse

• Lineare Regression:– Regressionsfunktion ist linear

• Nichtlineare Regression: – Regressionsfunktion ist nicht linear

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 120

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

Page 7: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

7

Regressionsanalyse

• Einfachregression: – Beziehung zwischen 2 Variablen– Regressand: Y– Regressor: X

• Mehrfachregression = multiple Regression: – Beziehung zwischen 3 oder mehr Variablen– Regressand: Y – Regressoren: X1, X2, …, Xk

Page 8: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

8

Regressionsanalyse

• Lineare Einfachregression:– Lineare Regressionsfunktion

(Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X.

– Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.

Page 9: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

9

Regressionsanalyse

• Wahre Funktion: yi

‘ = α + βxi für i = 1, …, n – α … Absolutglied– β … Steigungsparameter

• Beobachtet wird: yi = yi

‘ + εi für i = 1, …, n – εi … Störterm, Realisationen einer

Zufallsvariable

Wahre Koeffizienten, Parameter der Grundgesamtheit

Page 10: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

10

Regressionsanalyse

• Modell der linearen Einfachregression: yi = α + βxi + εi für i = 1, …, n – α … Absolutglied– β … Steigungsparameter– εi … Störterm

Page 11: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

11

Regressionsanalyse

• Annahmen: (1) E(εi) = 0 für i=1,…,n(2) Var(εi) = σ² für i=1,…,n (Homoskedastizität) (3) Cov(εi,εj) = 0 für alle ij (unkorrelierte

Fehler)(4) xi nicht stochastisch (5) xi xj für mindestens ein ij

Page 12: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

12

Regressionsanalyse

• Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: – E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi

‘ für i=1,…,n

– Var(Yi) = Var(εi) = σ² für i=1,…,n= 0

Page 13: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

13

Regressionsanalyse

• Regressionsfunktion/-gerade:ŷi = a + bxi für i = 1, …, n– a … Schätzer für Absolutglied– b … Schätzer für Steigungsparameter– ŷi … Schätzer für Ausprägung yi von Y

Page 14: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

14

Regressionsanalyse

• Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)

40

50

60

70

80

90

100

110

150 160 170 180 190 200 210

Körpergröße

Kör

perg

ewic

ht

ei

yi

ŷi

Page 15: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

15

Regressionsanalyse

• Regressionsgerade: – unendlich viele mögliche Geraden durch eine

Punktwolke– Wähle jene, die die vorhandene Tendenz am

besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.

Page 16: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

16

Regressionsanalyse

Methode der Kleinsten Quadrate• Kriterium für die Güte der Schätzung:

Summe der Abweichungsquadrate (Residual-Quadratsumme)

• Wähle die Schätzer a und b für α und β so, dass S² minimal wird.

n n n2 2 2 2

i i i i ii=1 i=1 i=1

ˆS = (y -a-bx ) (y -y ) e

Page 17: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

17

RegressionsanalyseMethode der Kleinsten Quadrate

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

X

Y

ŷ=a+bx

(xi,yi)

(xi,ŷi)

yi-ŷi=yi-(a+bxi)=ei

Page 18: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

18

Regressionsanalyse

• Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).

n2 2

i ia,b i=1

min S = (y -a-bx )

Page 19: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

19

Regressionsanalyse• Bedingung 1. Ordnung: 1. Ableitung = 0.

Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems:

• Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0

2 n

i ii=1

S =-2 (y -a-bx )=0a

2 n

i i ii=1

S =-2 x (y -a-bx )=0b

Page 20: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

20

Regressionsanalyse

• Kleinste Quadrate Schätzer für β:

• Kleinste Quadrate Schätzer für α:

• Kleinste Quadrate Regressionsfunktion:

n

i ii=1

n2

ii=1

(x -x)(y -y)b=

(x -x)

a=y-bx

y=a+bx

Page 21: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

21

Regressionsanalyse

• Eigenschaften der KQ Schätzer: – Summe der Residuen ei ist Null.– Summe xiei ist Null.– Das arithmetische Mittel der beobachteten

Werte ist gleich dem arithmetischen Mittel der geschätzten Werte

– Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).

Page 22: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

22

Regressionsanalyse

Quadratsummenzerlegung:• Ziel der Regressionsfunktion: Variation der

abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. – Zu erklärende Variation: yi –y– Erklärte Variation: ŷi –y– Nicht erklärte Variation: yi – ŷi

– (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n

Page 23: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

23

RegressionsanalyseMethode der Kleinsten Quadrate

0

1

2

3

4

5

6

7

8

9

0 1 2 3 4 5 6

X

Y

ŷ=a+bx

(xi,yi)

yi -y

ŷi -y

yi - ŷi

(xi,ŷi)

y

Page 24: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

24

Regressionsanalyse• Maß der Variation: Quadratsumme der

Abweichungen• SST = (yi –y)²

– Sum of Squares Total• SSE = (ŷi –y)²

– Sum of Squares Explained• SSR = (yi – ŷi)²

– Sum of Squares Residual• Es gilt: SST = SSE + SSR

Page 25: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

25

Regressionsanalyse

• Einfaches Bestimmtheitsmaß: – Maß für die durch die lineare

Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen

• r² = SSE / SST = 1 – SSR / SST– r² = Anteil der durch die Regressionsfunktion

erklärten Variation an der zu erklärenden gesamten Variation.

Page 26: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

26

Regressionsanalyse

• Es gilt: 0 ≤ r² ≤ 1• Extremfälle:

– r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h. ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag

– r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi = yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung

Page 27: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

27

RegressionsanalyseEinfaches lineares Bestimmtheitsmaß

R2 = 1

0

1

2

3

4

5

6

0 2 4 6 8 10 12

unabhängige Variable

abhä

ngig

e Va

riabe

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0

0

0,5

1

1,5

2

2,5

3

3,5

4

4,5

5

0 2 4 6 8 10 12

unabhängige Variable

abhä

ngig

e Va

riabe

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0,82

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

unabhängige Variable

abhä

ngig

e Va

riabe

le

Einfaches lineares Bestimmtheitsmaß

R2 = 0,52

0

1

2

3

4

5

6

7

8

9

10

0 2 4 6 8 10 12

unabhängige Variable

abhä

ngig

e Va

riabe

le

Page 28: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

28

Regressionsanalyse

• Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1]

• Extremfälle: – r = 0, d.h. fehlende Erklärung, fehlende

Korrelation– r = 1, d.h. vollständige Erklärung, vollständige

Korrelation• r wird das Vorzeichen der Steigung der

Regressionsgeraden zugewiesen.

Page 29: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

29

Regressionsanalyse

Eigenschaften der KQ Schätzer: • Da yi Zufallsvariable sind, sind auch a und

b Zufallsvariable. • Erwartungswerte der KQ Schätzer:

– E(b) = β– E(a) = α– D.h. a und b sind unverzerrte Schätzer

Page 30: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

30

Regressionsanalyse• Varianzen der KQ Schätzer:

• Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.

n

1i

2i

2

)x(x

σVar(b)

n

1i

2i

22

)x(x

xn1σVar(a)

Page 31: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

31

Regressionsanalyse• Kovarianz der KQ Schätzer:

Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.

n

1i

2i

2

)x(x

xσb)Cov(a,

Page 32: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

32

Regressionsanalyse

• Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β?

• Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.

Page 33: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

33

Regressionsanalyse

Gauss-Markov-Theorem:– Einfaches lineares Regressionsmodell, – Es gelten Annahmen 1-5

• Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator)– Best: Var(b*) Var(b) – Linear: b* =ciyi

– Unbiased: E(b*) = β– Analoge Aussage für Schätzer a* von α.

Page 34: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

34

Regressionsanalyse

• Schätzung der Fehlervarianz σ²– Wären εi beobachtbar, dann Schätzer für σ² =

1/n εi². – Aber: εi nicht beobachtbar, daher σ² durch s²

schätzen.

n

1i

2i

2 e2n

1s

Page 35: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

35

Regressionsanalyse

• Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.

22b n

2i

i 1

ss(x x)

22 2a n

2i

i 1

1 xs sn (x x)

Page 36: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

36

Regressionsanalyse

Inferenz im linearen Regressionsmodell:– Ann (1-5)– Ann (6): εi ~ N(0,σ²)

• Testprobleme: – Einseitig: z.B. H0: b = b* gegen H1: b > b*– Zweiseitig: H0: b = b* gegen H1: b b*

• Teststatistik:

b

*

sbbT

Page 37: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

37

Regressionsanalyse

• Verteilung der Teststatistik: – sb bekannt: T ~ N(0,1)– sb geschätzt: T ~ tn-2

• Kritische Werte bestimmen • Entscheidung: Lehne H0 ab, wenn

Teststatistik im kritischen Bereich liegt. • Gleiche Vorgehensweise bei Tests für

Schätzer a.

Page 38: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

38

Regressionsanalyse

Konfidenzintervall Regressionskoeffizienten• Interzept:

– Es gilt P(a – t sa α a + t sa) = 1 – α– KI für α: [a – t sa; a + t sa]

• Steigungsparameter: – Es gilt P(b – t sb β b + t sb) = 1 – α – KI für β: [b – t sb; b + t sb]

• t = t1- α/2; n-2 (Werte der t-Verteilung)

Page 39: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

39

Regressionsanalyse

• F-Test • Hypothese: Kein Zusammenhang zwischen

den Variablen X und Y in der Grundgesamtheit

• Basiert auf der Quadratsummenzerlegung SST = SSE + SSR

Page 40: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

40

Regressionsanalyse

• Mittlere erklärte Quadratsumme: – MSE = SSE / 1

• Mittlere nicht erklärte Quadratsumme: – MSR = SSR / (n – 2)

• Teststatistik: – F = MSE / MSR – F ~ F1;n-2;1-α

Page 41: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

41

Regressionsanalyse• Beispiel: Körpergröße (X), Gewicht (Y)

– Modell: Y = α + Xβ + ε– Parameterschätzer: a = -105,75, b = 0,98– Regressionsfunktion: Ŷ = -105,75 + 0,98X– Interpretation der Koeffizienten:

• a = -105,75: Verschiebung• b = 0,98: Steigung, steigt X um eine Einheit (1cm),

steigt Y um 0,98 Einheiten (kg). Vorsicht: Umkehrung gilt nicht!

– Bestimmtheitsmaß: 0,577 – Korrelationskoeffizient: 0,759

Page 42: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

42

Regressionsanalyse

• Beispiel: Körpergröße (X), Gewicht (Y)– Koeffiziententests (t-Tests): – H0: α = 0 ablehnen (p-Wert < 0,05) => α 0– H0: β = 0 ablehnen (p-Wert < 0,05) => β 0– F-Test: H0 ablehnen (Prüfgröße > kritischer

Wert) => Zusammenhang zw. den Variablen

Page 43: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

43

Regressionsanalyse

• Prognose• Ziel: bei gegebenen Werten der

unabhängigen Variable, zugehörigen Wert der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf) an der

Stelle xf. – Schätzung eines Einzelwertes yf an der Stelle xf.

Page 44: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

44

Regressionsanalyse

• Geg. xf (weiterer Wert von X)• Ges. zugehöriger Wert yf von Y und/oder

„mittleres“ Verhalten E(yf) = a + bxf. • Weitere Annahmen:

– yf = α + βxf + εf

– E(εf) = 0– E(εf²) = σ²– Cov(εf, εi) = 0– xf nicht stochastisch

Page 45: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

45

Regressionsanalyse

• Parameter α und β bekannt: – Prognose der Einzelwerte: yf = α + βxf – Prognose des Erwartungswertes: E(yf) = α + βxf

• Parameter unbekannt. – Prognose der Einzelwerte: ŷf = a + bxf ŷf

ist ein unverzerrter Prediktor für yf

– Prognose des Erwartungswertes: E(ŷf ) = a + bxf

ŷf ist ein unverzerrter Prediktor für E(yf)

Page 46: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

46

Regressionsanalyse

• Prognose Erwartungswert: E(ŷf ) = a + bxf • Varianz des durchschnittlichen

Prognosewertes sŷf²:

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

22 f

f f f 2i

(x-x )1ˆ ˆVar(y )=Var(y -E(y ))=σ +n (x -x)

Page 47: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

47

Regressionsanalyse

• Prognose Einzelwert: ŷf = a + bxf • Prognosefehler: ef = yf – ŷf • Varianz des individuellen Prognosefehlers sf²:

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-2) ei²)

22 f

f f f 2i

(x-x )1ˆVar(e )=Var(y -y )=σ 1 +n (x -x)

Page 48: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

48

Regressionsanalyse

• Zusätzlich Ann: Störvariable εf ~ N(0,σ²)• 1-α Konfidenzintervall für E(ŷf):

[ŷf – t sŷf ; ŷf + t sŷf]t = t1-α/2;n-2

• 1-α Prognoseintervall für ŷf:[ŷf – t sf ; ŷf + t sf]t = t1-α/2;n-2

Page 49: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

49

Regressionsanalyse

• Residuenanalyse• Ex-post Überprüfung der Modellannahmen. • Ann 1: E(εi) = 0• Ann 2: Var(εi) = σ² • Ann 3: Cov(εi,εj) = 0

Page 50: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

50

Regressionsanalyse

• Grafische Residualanalyse• Residuen der KQ Schätzer: ei = yi – ŷi • Streudiagramm: Residuen gegen X (Werte

der unabhängige Variable)• Streudiagramm: Residuen gegen Ŷ

(Prognosewerte). • Es gilt: ei = 0 und arithm. Mittel der ei = 0

Page 51: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

51

Regressionsanalyse

• Residuen gegen X:Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

X

Res

idue

n

Page 52: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

52

Regressionsanalyse

• Residuen gegen Ŷ:Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

Ŷ

Res

idue

n

Page 53: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

53

Regressionsanalyse

• Ann (2) verletzt, Varianzen nicht homogen, Hetroskedastizität

Residuenplot

-5

-4

-3

-2

-1

0

1

2

3

4

5

0 5 10 15 20 25 30 35 40 45

X

Res

idue

n

Page 54: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

54

Regressionsanalyse

• Ann. linearen Regressionsfunktion verletzt. Residuenplot

-6

-4

-2

0

2

4

6

8

0 5 10 15 20 25 30 35 40 45

X

Res

idue

n

Page 55: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

55

Regressionsanalyse

• Streudiagramm: ei gegen ei-1

• Autokorrelation der Residuen Residuenplot

-4

-3

-2

-1

0

1

2

3

4

5

-4 -3 -2 -1 0 1 2 3 4 5

Residuen e(i-1)

Res

idue

n e(

i)

Residuenplot

-3

-2

-1

0

1

2

3

4

-4 -3 -2 -1 0 1 2 3 4

Residuen e(i-1)

Res

idue

n e(

i)

Page 56: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

56

Regressionsanalyse

• Normalverteilung der εi: QQ-Plot– Empirische- und Theoretische Quantile

-2,0

-1,5

-1,0

-0,5

0,0

0,5

1,0

1,5

2,0

-2 -1,5 -1 -0,5 0 0,5 1 1,5 2empirische Quantile

Page 57: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

57

Regressionsanalyse• Linear Mehrfachregression

– Eine abhängige Variabel Y – Mehrere unabhängige Variabeln x1,…,xk-1.

• Modell: Yi = β0 + β1x1 + β2x2 + …+ βk-1xk-1 + εi für i=1,…,n– β0 … Absolutglied, Interzept– βj … Steigungsparameter (j=1,…,k-1)– xj … unabhängige Variable (j = 1,…,k-1)– εi … Störterm, zufälliger Fehler

Page 58: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

58

Regressionsanalyse

• Beispiel: Körpergröße soll durch die Körpergröße der Eltern erklärt werden. – Abhängige Variable: Y = Größe, – Unabhängige Variablen: X1 = Größe Mutter

und X2 = Größe Vater– Modell: yi = β0 + β1x1 + β2x2 + εi

Page 59: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

59

Regressionsanalyse

• Matrixschreibweise: Y = Xβ + ε– Y … n1 Vektor der abhängigen Variable– X … nk Matrix der unabhängigen Variable,

X=[1:Xj] mit j=1,…,k-1 – β … k1 Parametervektor, β=[β0:βj]´ mit j=1,

…,k-1– ε … n1 Vektor der zufälligen Störungen

Page 60: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

60

Regressionsanalyse

• Annahmen: (1) E(ε) = 0(2) Var(ε) = σ²(3) Cov(ε) = E(εε´) = σ²I(4) X nicht stochastisch (5) rang(X) = k (X sind nicht linear abhängig)

Page 61: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

61

Regressionsanalyse

• Kleinste Quadrate Schätzung:• Minimierung der

Abweichungsquadratsumme• (Y-Xb)‘(Y-Xb) = (yi-xi.b)² min

Page 62: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

62

Regressionsanalyse

• Normalengleichungssystem: (X´X)b = X´y

• Daraus ergibt sich als Kleinste Quadrate Schätzer für β: b = (X´X)-1X´y b … k1 Vektor der Schätzer

Page 63: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

63

Regressionsanalyse

• Konsequenzen aus den Normalgleichungen: • X‘e = 0• Ŷ‘e = 0• e = MY mit M = I – X(X‘X)-1X‘

Page 64: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

64

Regressionsanalyse

• Statistische Eigenschaften: • E(e) = 0• VC(e) = σ²M ( σ²I = VC(ε))• E(b) = β• VC(b) = σ²(X‘X)

Page 65: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

65

Regressionsanalyse

• Schätzung von σ²:

• E(s²) = σ²• Schätzung der Varianz-Kovarianz Matrix

von b: VC(b)est. = s²(X‘X)-1 (unverzerrt für VC(b))

eekn

1s2

Page 66: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

66

Regressionsanalyse

• Gauss-Markov Theorem:– Y=Xβ+ε– Es gelten Ann. 1-4 und β k ist beliebig – b* sei ein linearer unverzerrter Schätzer für β

• VC(b) VC(b*), d.h. VC(b*)-VC(b) ist nichtnegativ definit. – Var(bi) Var(bi*) für alle i = 1, ..., k– Man sagt: b ist BLUE– c‘b ist der BLUE für die Linearkombination c‘β

Page 67: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

67

Regressionsanalyse

• Ein Schätzer b* für β heißt linear, falls b*=DY, wobei D eine nichtzufällige kn Matrix ist.

• Ein Schätzer b* für β heißt unverzerrt, falls E(b*) = β.

Page 68: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

68

Regressionsanalyse

• Tests der Regressionskoeffizienten: • Einseitige Hypothesen:

– H0: βi β* (z.B. 0) gegen H1: βi < β*– H0: βi β* (z.B. 0) gegen H1: βi > β*

• Zweiseitige Hypothese: – H0: βi = β* (z.B. 0) gegen H1: βi β*

Page 69: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

69

Regressionsanalyse

• Teststatistik: – T = (bi - β*) / sbi

• Testverteilung:– T ~ tn-k

• Entscheidung: Lehne H0 ab, wenn T im kritischen Bereich liegt.

Page 70: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

70

Regressionsanalyse

• Konfidenzintervalle der Parameter: • Wahrscheinlichkeitsintervall:

– P(bi – t sbi β bi + t sbi) = 1 – α für i = 1,...,k

• Konfidenzintervall: – [bi – t sbi ; bi + t sbi] für i = 1,...,k

mit t = t1- α/2;n-k

Page 71: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

71

Regressionsanalyse

• Beispiel Körpergröße:– Modell: Y = β0 + β1X1 + β2X2

• Parameterschätzer und p-Werte: – b0 = 81,24; p-Wert = 0,015– b1 = 0,545; p-Wert = 0,005– b2 = 0,008; p-Wert = 0,87– Körpergröße der Mutter hat einen positiven

Einfluss auf die Körpergröße des Kindes

Page 72: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

72

Regressionsanalyse

• Quadratsummen: – SST = (yi -y)² = nsy² = Y‘AY– SSE = (ŷi -ŷ)² = nsŷ² = Ŷ‘A Ŷ– SSR = ei² = ns² = e‘Ae – wobei A = (In – (1/n)ii‘)

• Quadratsummenzerlegung: – SST = SSE + SSR

Page 73: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

73

Regressionsanalyse

• F-Test: – Prüft, ob zw. der abhängigen Variable Y und

den unabhängigen Variablen X2,…,Xk ein linearer Zusammenhang besteht.

– H0: β2 = β3 = … = βk = 0

• Mittlere quadratische Abweichungen: – MQE = SSE / (k-1)– MQR = SSR / (n-k)

Page 74: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

74

Regressionsanalyse

• Teststatistik:– F = MQE / MQR– F ~ F(k-1),(n-k)

• Entscheidung: – F > F(k-1),(n-k) lehne H0 ab, d.h. es besteht eine

lineare Abhängigkeit zw. Y und X.

Page 75: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

75

Regressionsanalyse

• Lineares multiples Bestimmtheitsmaß: – R² = SSE / SST = 1 – SSR / SST – Es gilt: 0 R² 1

• Linearer multipler Korrelationskoeffizient: – r = +R², absolute Größe (unterschiedliche

Vorzeichen der einzelnen Koeffizienten mögl.)

Page 76: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

76

Regressionsanalyse• Lineares partielles Bestimmtheitsmaß:

– Regressoren X2, ...,Xk: r²Y,X2,...,Xk = SSE(X2,...,Xk) / SST

– Zusätzliche erklärende Variable Xk+1, also Regressoren X2, ...,Xk,Xk+1: r²Y,X2,...,Xk,Xk+1 = SSE(X2,...,Xk,Xk+1) / SST

– Zusätzliche (durch Xk+1) erklärte Abweichungsquadratsumme: SSE(Xk+1|X2,...,Xk) = SSE(X2,...,Xk,Xk+1) – SSE(X2,...,Xk) = (r²Y,X2,...,Xk,Xk+1 – r²Y,X2,...,Xk) SST

Page 77: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

77

Regressionsanalyse

• Lineares partielles Bestimmtheitsmaß: – Quotient der zusätzlichen erklärten

Abweichungsquadratsumme zu der bisher nicht erklärten Abweichungsquadratsumme:

– r²Y(k+1),X2,...,Xk = SSE(Xk+1|X2,...,Xk) / SSR(X2,...,Xk) = (r²Y,X2,...,Xk+1 – r²Y,X2,...,Xk) / (1 – r²Y,X2,...,Xk)

wobei SSR(X2,...,Xk) = SST – SSE(X2,...,Xk)

Page 78: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

78

Regressionsanalyse

• Partieller F-Test:– f = MQE(Xk+1|X2,...,Xk) / MQR(X2,...,Xk,Xk+1)– MQE(Xk+1|X2,...,Xk)=SSE(Xk+1|X2,...,Xk)– MQR(X2,...,Xk+1)=SSR(X2,...,Xk+1)/(n-(k+1))– f ~ F1,n-(k+1)

Page 79: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

79

Regressionsanalyse

• Adjusted R²: berücksichtigt die Anzahl der Koeffizienten– adj. R² = (1-k)/(n-k) + (n-1)/(n-k) R²– Es gilt: (1-k)/(n-k) adj. R² 1

Page 80: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

80

Regressionsanalyse• Variablenselektion:

– Wie viele bzw. welche erklärenden Variablen sollen in das Modell aufgenommen werden?

• Kriterium?– R² => Wähle Modell mit größten R² => immer

Modell mit allen möglichen Variablen – Unsinn!– Adj. R² => Wähle Modell mit dem größten Wert

des korrigierten Bestimmtheitsmaßes. – AIC, BIC => Wähle Modell mit kleinsten Wert

von AIC (Akaike‘s Information Criterion) bzw. BIC (Bayesian Information Criterion)

Page 81: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

81

Regressionsanalyse

• Vorwärtsauswahl– Einfachregressionen zw. Y und Xi (i=2,…,k)– Sind alle Variablen nicht signifikant, Abbruch.– Sind einige Variablen signifikant, wählt jene

mit dem höchsten F-Wert. – Variable mit höchstem partiellen F-Wert (und >

als ein kritischer Wert) ins Modell aufnehmen– usw.

Page 82: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

82

Regressionsanalyse

• Rückwärtsauswahl– Umkehrung des Verfahrens der Vorwärt-

Selektion. – Modell mit allen erklärenden Variablen– Sind alle Variablen signifikant, Modell mit

allen Variablen. – Sind Variable nicht signifikant, schließe jene

mit dem kleinsten partiellen F-Wert aus. – usw.

Page 83: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

83

Regressionsanalyse

• Schrittweise Auswahl– Prüfe ob ein linearer Zusammenhang vorliegt– Wähle jene Variable mit dem höchsten linearen

Einfachkorrelationskoeffizienten. – Wähle jene Variable mit dem höchsten

signifikanten partiellen F-Wert– Prüfe alle Variablen im Modell auf Signifikanz,

bei nicht-signifikanten schließe jene aus, die den kleinsten partiellen F-Wert besitzen.

– usw.

Page 84: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

84

Regressionsanalyse

• Prognose: • Ziel: bei gegebenen Werten der

unabhängigen Variablen, zugehörige Werte der abhängigen Variable prognostizieren. – Schätzung des Erwartungswertes E(yf)– Schätzung eines Einzelwertes yf an der Stelle xf.

Page 85: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

85

Regressionsanalyse

• Geg. xf. (weitere Werte von X)• Ges. zugehöriger Wert yf von Y und/oder

mittleres Verhalten E(yf) = xf.b• Weitere Annahmen:

– yf = xf.β + εf

– E(εf) = 0– E(εf²) = σ²– E(εf ,εi) = 0 für alle i = 1,…,n– xf. nicht stochastisch

Page 86: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

86

Regressionsanalyse

• Parameter bekannt: – Prognose der Einzelwerte: ŷf = xf.β– Prognose des Erwartungswertes: E(ŷf) = xf.β

• Parameter unbekannt: – Prognose der Einzelwerte: ŷf = xf.b

ŷf ist ein unverzerrter Prediktor für yf

– Prognose des Erwartungswertes: E(ŷf) = xf.bE(ŷf)ist ein unverzerrter Prediktor für E(yf)

Page 87: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

87

Regressionsanalyse

• Prognose Erwartungswert E(ŷf) = xf.β• Varianz des durchschnittlichen

Prognosewertes sŷf²

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

2 -1f f f fˆVar(y -E(y ))=σ x (X X) x

Page 88: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

88

Regressionsanalyse

• Prognose Einzelwert ŷf = xf.β• Prognosefehler: ef = yf – ŷf

• Varianz des individuellen Prognosewertes sf²

• Ist σ² unbekannt, wird es ersetzen durch s² (s² = 1/(n-k) e‘e)

2 -1f f f f fˆVar(e )=Var(y -y )=σ 1+x (X X) x

Page 89: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

89

Regressionsanalyse

• 1-α Konfidenzintervall für E(ŷf): [ŷf – t sŷf ; ŷf + t sŷf]t = t1-α;n-2

• 1-α Prognoseintervall für ŷf:[ŷf – t syf ; ŷf + t syf]t = t1-α;n-2

Page 90: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

90

Regressionsanalyse

• Nichtlineare Regression:• Nichtlineare Regressionsfunktion

– Gelten die üblichen Annahmen, gelten die Eigenschaften für die KQ Schätzer

Page 91: 1 STATISIK LV Nr.: 1852 WS 2005/06 12. Jänner 2006.

91

Regressionsanalyse• Nichtlinearer Einfachregression als lineare

Zweifachregression ansehen– z.B. yi= β1+β2xi+ β3xi² +εi setze x=x1 und x²=x2,

und interpretiere yi= b1+b2x1i+ b3x2i im Sinne der linearen Zweifachregression

• Variablentransformation – Linearisierung – Anwendung d. linearen Regressionsanalyse– z.B. Potenzfunktion: yi = β1·xi

β2·εi Logarithmieren ergibt lineare Funktion (linear in den Parametern): log(yi)=log(β1)+β2log(xi)+log(εi)