1
STATISIK
LV Nr.: 1375
SS 2005
14. April 2005
2
Varianzanalyse
Varianzanalyse od. ANOVA
• Frage: Hat ein Faktor Einfluss auf ein Merkmal?
• Faktor: Nominal skalierte Größe, Faktorausprägungen = Ebenen oder Stufen
• Merkmal (durch Faktor beeinflusst): Metrische Größe
3
Varianzanalyse
Varianzanalyse
• Einfache Varianzanalyse: Ein Faktor
• Zweifache Varianzanalyse: Zwei Faktoren
• …
4
Varianzanalyse
• Test, für arithmetische Mittel von zwei oder mehr Grundgesamtheiten. – Test, ob die Differenz der arithmetischen Mittel
von zwei oder mehr als zwei Grundgesamtheiten signifikant von Null verschieden ist.
5
Varianzanalyse
• Modellannahmen der Varinazanalyse: – Unabhängigkeit der Stichproben (i=1,…,r)
– Normalverteilung der Merkmale mit µi und σi²
– Varianzhomogenität (Homoskedastizität), d.h. σi² = σ²
6
Varianzanalyse
• Nullhypothese: Alle Gruppen haben den gleichen Mittelwert µ
H0: µ1 = µ2 = … = µ
• Alternativhypothese: Nicht alle Gruppen haben den gleichen Mittelwert µ
H1: mindestens zwei µi sind ungleich
7
Varianzanalyse
• Frage: Beeinflusst der Faktor (nominal-skalierte Größe) das Merkmal (metrisch-skalierte Größe)?
• Unter H0: µi = µ für alle i (i = 1,…,r Faktorstufen).
• Abweichung, die dem Faktor zuzuschreiben sind: αi = µi - µ (i = 1,…,r) heißen wahre Effekte auf der i-ten Ebene.
8
Varianzanalyse
• Modell der einfachen Varianzanalyse:
• xij = µ + αi + eij – µ … Gesamtmittelwert
– αi … Effekt auf der i-ten Ebene
– eij … Versuchsfehler = die Abweichung eines zufällig aus der i-ten Ebene des Faktors herausgegriffenen Beobachtungswertes xik vom Mittelwert µi dieser Ebene.
eij = xij – µi = xij – (µ + αi)
9
Varianzanalyse
• Beispiel: Zugfestigkeit von r = 3 Drahtsorten überprüfen, je Sorte 6 Proben, unabhängig voneinander und N(µi,σ²)-vt. Frage: Bestehen signifikante Unterschiede in der Zugfestigkeit?
i Drahtsorte
j 1 2 3
1 9 7,3 18
2 15,4 15,6 9,6
3 8,2 14,2 11,5
4 3,9 13 19,4
5 7,3 6,8 17,1
6 10,8 9,7 14,4
10
Varianzanalyse
Vorgehensweise:
• Gesamtmittelwert aller Faktorstufen und Mittelwerte der Faktorstufen bestimmen
• Bestimmung der Abweichungen
• Zerlegung der Abweichungsquadratsumme
• Teststatistik und Testverteilung bestimmen
• Entscheidung, Interpretation
11
Varianzanalyse
• Gesamtmittelwert über alle Faktorstufen r
• Mittelwerte der r Faktorstufen
inr
iji=1 j=1
1x = x
N
in
i ijj=1i
1x = x
n
12
Varianzanalyse
• Beispiel: Drahtsorteni Drahtsorte
j 1 2 3 x..
1 9 7,3 18
2 15,4 15,6 9,6
3 8,2 14,2 11,5
4 3,9 13 19,4
5 7,3 6,8 17,1
6 10,8 9,7 14,4
xi. 9,1 11,1 15 11,7
13
Varianzanalyse
• Abweichungen: Quadratsumme der Abweichungen (Sum of Squares)– Abweichungen der Beobachtungen vom
Gesamtmittelwert.
– Summe der Quadratischen Abweichungen– Bezeichnungen: SST (Total), SSG (Gesamt)
inr2
iji=1 j=1
SST= (x -x )
14
Varianzanalyse
• Sum of Squares:– Abweichungen der Beobachtungen der
einzelnen Messreihen vom Mittelwert der jeweiligen Messreihe.
– Summe der Quadratischen Abweichungen des Restes, Maß für die nicht durch den Faktor beeinflusste Restvariabilität
– Bezeichnungen: SSW (Within), SSE (Error), SSR (Residual).
inr2
ij ii=1 j=1
SSW= (x -x )
15
Varianzanalyse
• Sum of Squares:– Abweichungen der Mittelwerte der einzelnen
Messreihen vom Gesamtmittelwert.
– Mit Stichprobengröße multiplizierte Summe der Quadratischen Abweichungen der Stichprobenmittelwerte vom Gesamtmittelwert, also der beobachteten Effekte des Faktors.
– Bezeichnungen: SSB (Between), SSE (Explained), SSM (Model), SST (Treatment),
r2
i ii=1
SSB= n (x -x )
16
Varianzanalyse
• Quadratsummenzerlegung:
• SST = SSB + SSW
• Interpretation: Gesamtvarianz (SST) setzt sich aus der Variation zwischen den Messreihen (SSB) und der Variation innerhalb der Messreihen (SSW) zusammen.
i in nr r r2 2 2
ij i i ij ii=1 j=1 i=1 i=1 j=1
(x -x ) n (x -x ) (x -x )
17
Varianzanalyse
• Idee für Test: – Vergleich der Variation zwischen den
Messreihen mit der Variation innerhalb der Messreihen
– Ist die Variation zwischen den Messreihen größer als jene innerhalb der Messreihen, schließe auf Unterschied zwischen den Messreihen (Faktoreffekt).
18
Varianzanalyse
• Teststatistik – Idee: – Aus den Beobachtungswerten werden zwei
voneinander unabhängige Schätzwerte für sW² und sB² für die Varianzen der Beobachtungswerte innerhalb und zwischen den Stichproben bestimmt.
– Liegen keine wahren Effekte vor (Gültigkeit von H0), sind sW² und sB² (bis auf zufällige Abweichungen) gleich.
– Bei Vorhandensein von wahren Effekten (H1) ist sB² systematisch größer als sW².
19
Varianzanalyse
• Erwartungstreuer Schätzer für die Varianz innerhalb der Messreihen (Restvarianz):
• Erwartungstreuer Schätzer für die Varianz zwischen den Messreihen (Faktoreffekt)
inr2 2W ij i
i=1 j=1
1s = (x -x )
N-r
r2 2B i i
i=1
1s = n (x -x )
r-1
20
Varianzanalyse
• Mittlere Quadratsummen (MSS = Mean Sum of Squares):
• Quadratsummen dividiert durch entsprechende Freiheitsgrade
• MSB und MSW sind erwartungstreue Schätzer der Varianz zwischen- und innerhalb der Messreihen.
21
Varianzanalyse
• Varianzanalysetafel (r Messreihen):
Streuungs-ursache
Freiheits-grade (DF)
Quadrat-summe (SS)
Mittlere Quadratsumme (MS)
Unterschied zw Messreihen
r-1 SSB (Between)
MSB = SSB / (r-1)
Zufälliger Fehler
N-r SSW
(Within)
MSW = SSW / (N-r)
Gesamt N-1 SST
(Total)
22
Varianzanalyse
Teststatistik:
• F = MSB / MSW
• F ~ F(r-1),(N-r)
• Entscheidung: Ist F ≤ Fc, lehne H0 nicht ab (Fc = kritischer Wert der F-Verteilung mit (r-1) und (N-r) Freiheitsgraden).
23
Varianzanalyse
• Beispiel: Drahtsorten• Quadratsummenzerlegung: SST = SSB + SSW
– 324,62 = 108,04 + 216,58
• Mittlere Quadratsummen: – MSB = 108,04 / (3-1) = 54,02– MSW = 216,58 / (18-3) = 14,44
• Teststatistik: – F = MSB / MSW = 3,74
• Kritischer Wert der F2;15 Vt. 3,68• Entscheidung: 3,74 > 3,68 => H0 ablehnen, d.h. es
besteht ein signifikanter Unterschied zw. den Sorten
24
Varianzanalyse
• Zweifache Varianzanalyse: – 2 Faktoren (A und B, wobei r Faktorstufen bei
A und p Faktorstufen bei B)– 1 metrische Variable
• Unterscheidung: – Modell ohne Wechselwirkungen zw. den
Faktoren– Modell mit Wechselwirkungen zw. den
Faktoren
25
Varianzanalyse
• Modell ohne Wechselwirkungen zw. den Faktoren
• xijk = µ + αi + βj + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte
– eijk zufällige Fehler
26
Varianzanalyse
• Mittelwerte:
• Gesamt
• Faktor A
• Faktor B
pr n
ijki=1 j=1 k=1
1x = x
rpn p n
i ijkj=1 k=1
1x = x
pn r n
j ijki=1 k=1
1x = x
rn
27
Varianzanalyse
• Schätzer für Gesamtmittel und Effekte
• Gesamtmittel
• Effekt von Faktor A
• Effekt von Faktor B
m=x
i ia =x -m
j jb =x -m
28
Varianzanalyse
• Quadratsummen
•
•
•
• SSR = SST – SSE(A) – SSE(B)
pr n2
ijki=1 j=1 k=1
SST= (x -x )r
2i
i=1
SSE(A)=pn ap
2j
j=1
SSE(B)=rn b
29
Varianzanalyse
• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSR
• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSR = SSR / (rpn-r-p+1)
30
Varianzanalyse
• Prüfgrößen und kritische Werte:
• Faktor A: – F(A) = MSE(A) / MSR
– Fr-1,(nrp-r-p+1);1-α
• Faktor B: – F(B) = MSE(B) / MSR
– Fp-1,(nrp-r-p+1);1-α
31
Varianzanalyse
• Beispiel: 2 Faktoren (Erreger, Antibiotikum)Erreger i
(A) Antibiotikum j (B)
1 2 3 Mittelwerte Schätzer ai
k
1 1 38 40 38
2 35 41 39 38,5 0,667
2 1 42 39 33
2 45 33 34 37,7 -0,167
3 1 38 38 33
2 41 38 36 37,3 -0,500
Mittelwerte 39,8 38,2 35,5 37,8
Schätzer bj 2,000 0,333 -2,333
32
Varianzanalyse
• Modell mit Wechselwirkungen zw. den Faktoren
• xijk = µ + αi + βj + (αβ)ij + eijk (für i=1,…,r, j=1,…,p, k=1,…,n)– µ gemeinsamer Mittelwert– α, β Faktoreffekte– αβ Wechselwirkung
– eijk zufällige Fehler
33
Varianzanalyse
• Mittelwerte:
• Gesamt
• Faktor A
• Faktor B
• Wechselwirkung
pr n
ijki=1 j=1 k=1
1x = x
rpn p n
i ijkj=1 k=1
1x = x
pn r n
j ijki=1 k=1
1x = x
rn n
ij ijkk=1
1x = x
n
34
Varianzanalyse
• Gesamtmittel und Effekte
• Gesamtmittel
• Effekt von Faktor A
• Effekt von Faktor B
• Effekt der Wechselwirkung
m=x
i ia =x -m
j jb =x -m
ij ij i j(ab) =x -a -b -m
35
Varianzanalyse
• Quadratsummen
SSR = SST – SSE(A) – SSE(B) – SSE(AB)
pr n2
ijki=1 j=1 k=1
SST= (x -x )r
2i
i=1
SSE(A)=pn ap
2j
j=1
SSE(B)=rn bpr
2ij
i=1 j=1
SSE(AB)=n (ab)
36
Varianzanalyse
• Quadratsummenzerlegung– SST = SSE(A) + SSE(B) + SSE(AB) + SSR
• Mittlere Quadratsummen:– MSE(A) = SSE(A) / (r-1)– MSE(B) = SSE(B) / (p-1)– MSE(AB) = SSE(AB) / (p-1)(r-1)– MSR = SSR / (rpn-r-p+1)
37
Varianzanalyse
• Prüfgrößen und kritische Werte: • Faktor A:
– F(A) = MSE(A) / MSR
– Fr-1, pr(n-1); 1-α
• Faktor B: – F(B) = MSE(B) / MSR
– Fp-1, pr(n-1); 1-α
• Wechselwirkung: – F(AB) = MSE(AB) / MSR
– F(p-1)(r-1), pr(n-1); 1-α
38
Varianzanalyse
• Beispiel: 2 Faktoren + Wechselwirkung
Erreger i Antibiotikum j (Faktor B)
(Faktor A) 1 2 3 xi.. ai
k xi1k xi1. (ab)i1 xi2k xi2. (ab)i2 xi3k xi3. (ab)i3
1 1 38
36,5 -4,000
40
40,5 1,667
38
38,5 2,333
2 35 41 39 38,5 0,667
2 1 42
43,5 3,833
39
36 -2,000
33
33,5 -1,833
2 45 33 34 37,7 -0,167
3 1 38
39,5 0,167
38
38 0,333
33
34,5 -0,500
2 41 38 36 37,3 -0,500
x.j. 39,8 38,2 35,5 37,8
bj 2,000 0,333 -2,333
39
Varianzanalyse
• Beispiel: Varianzanalysetafel
• Faktor Erreger: kein Effekt
• Faktor Antibiotikum: Effekt
• Interaktion: Effekt (impliziert, dass auch Faktor Erreger eine Wirkung hat).
Streuungs-ursache
Freiheits-grade
Quadrat-summe
Mittlere Quadrats.
Test-statistik
Kritischer Wert
Erreger 2 4,33 2,16667 0,52 4,26
Antibiotikum 2 57,33 28,6667 6,88 4,26
Interaktion 4 93,33 23,3333 5,60 3,63
Fehler 9 37,50 4,16667
Total 17 192,5
40
VarianzanalyseErreger - Antibiotikum
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
0 1 2 3 4
Antibiotikum
Mit
telw
ert
e
Erreger 1
Erreger 2
Erreger 3
41
Regressionsanalyse
• Beziehung zwischen zwei oder mehr metrisch skalierten Merkmalen.
• Art der Abhängigkeit bestimmen, mathematische Funktion, durch die sich die Abhängigkeit zwischen den Variablen am besten beschreiben lässt.
42
Regressionsanalyse
• Abhängige Variable (Regressand): Y – „zu erklärende Variable“
• Unabhängige Variable/n (Regressor): X – „erklärende Variable/n“
• Regressionsfunktion: Mathematische Funktion, die die Abhängigkeit zwischen den Variablen beschreibt.
• Regression von Y auf X, Y=f(X).
43
Regressionsanalyse
• Art der Beziehung zw. den Variablen?
• Welche Form hat die Regressionsfunktion?
• Antworten darauf aus: – Theorie – Empirische Beobachtung, z.B. Punktwolke
zeichnen, welche Funktion passt sich gut an die Punktwolke an? Durch welche Funktion lässt sich die Grundtendenz des Zusammenhangs darstellen?
44
Regressionsanalyse
• Punktwolke
• Regressionsfunktion
40
50
60
70
80
90
100
110
150 160 170 180 190 200 210
Körpergröße
Kö
rpe
rge
wic
ht
45
Regressionsanalyse
• Lineare Regression:– Regressionsfunktion ist linear
• Nichtlineare Regression: – Regressionsfunktion ist nicht linear
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
46
Regressionsanalyse
• Einfachregression: – Beziehung zwischen 2 Variablen– Regressand: Y– Regressor: X
• Mehrfachregression = multiple Regression: – Beziehung zwischen 3 oder mehr Variablen– Regressand: Y
– Regressoren: X1, X2, …, Xk
47
Regressionsanalyse
• Lineare Einfachregression:– Lineare Regressionsfunktion
(Regressionsgerade) beschreibt die Abhängigkeit zwischen der Variablen Y und X.
– Zwei Merkmale X und Y werden an n Objekten der Grundgesamtheit beobachtet => Realisationen x1, …, xn und y1, …, yn.
48
Regressionsanalyse
• Wahre Funktion:
yi‘ = α + βxi für i = 1, …, n
– α … Absolutglied– β … Steigungsparameter
• Beobachtet wird:
yi = yi‘ + εi für i = 1, …, n
– εi … Störterm, Realisationen einer Zufallsvariable
Wahre Koeffizienten, Parameter der Grundgesamtheit
49
Regressionsanalyse
• Modell der linearen Einfachregression:
yi = α + βxi + εi für i = 1, …, n – α … Absolutglied– β … Steigungsparameter
– εi … Störterm
50
Regressionsanalyse
• Annahmen: (1) E(εi) = 0 für i=1,…,n
(2) Var(εi) = σ² für i=1,…,n (Homoskedastizität)
(3) Cov(εi,εj) = 0 für alle ij (unkorrelierte Fehler)
(4) xi nicht stochastisch
(5) xi xj für mindestens ein ij
51
Regressionsanalyse
• Aus den Annahmen folgt für die abhängige Zufallsvariable Yi: – E(Yi) = E(α + βxi + εi) = α + βxi + E(εi) = yi
‘ für i=1,…,n
– Var(Yi) = Var(εi) = σ² für i=1,…,n= 0
52
Regressionsanalyse
• Regressionsfunktion/-gerade:
ŷi = a + bxi für i = 1, …, n– a … Schätzer für Absolutglied– b … Schätzer für Steigungsparameter
– ŷi … Schätzer für Ausprägung yi von Y
53
Regressionsanalyse
• Abweichung zwischen den beobachteten Werten yi und den geschätzten Werten ŷi: Residuen ei = yi – ŷi = yi – (a + bxi)
40
50
60
70
80
90
100
110
150 160 170 180 190 200 210
Körpergröße
Kö
rper
gew
ich
t
ei
yi
ŷi
54
Regressionsanalyse
• Regressionsgerade: – unendlich viele mögliche Geraden durch eine
Punktwolke– Wähle jene, die die vorhandene Tendenz am
besten beschreibt, d.h. wähle jene, die eine möglichst gute Schätzung ŷ für die Ausprägung y des Merkmals Y eines Objekts, das die Ausprägung x des Merkmals X trägt, bestimmt.
55
Regressionsanalyse
Methode der Kleinsten Quadrate
• Kriterium für die Güte der Schätzung: Summe der Abweichungsquadrate (Residual-Quadratsumme)
• Wähle die Schätzer a und b für α und β so, dass S² minimal wird.
n n n2 2 2 2
i i i i ii=1 i=1 i=1
ˆS = (y -a-bx ) (y -y ) e
56
RegressionsanalyseMethode der Kleinsten Quadrate
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
X
Y
ŷ=a+bx
(xi,yi)
(xi,ŷi)
yi-ŷi=yi-(a+bxi)=ei
57
Regressionsanalyse
• Minimiere S² (= Summe der vertikalen quadratischen Abweichungen der beobachteten Werte yi von den durch die Regressionsgerade an den Stellen xi bestimmten Werten ŷi).
n2 2
i ia,b
i=1
min S = (y -a-bx )
58
Regressionsanalyse
• Bedingung 1. Ordnung: 1. Ableitung = 0. Schätzer a und b ergeben sich als Lösungen des Normalengleichungssystems:
• Bedingung 2. Ordnung: 2. Ableitung positiv, d.h. Determinante der Hesse-Matrix > 0
2 n
i ii=1
S=-2 (y -a-bx )=0
a
2 n
i i ii=1
S=-2 x (y -a-bx )=0
b
59
Regressionsanalyse
• Kleinste Quadrate Schätzer für β:
• Kleinste Quadrate Schätzer für α:
• Kleinste Quadrate Regressionsfunktion:
n
i ii=1
n2
ii=1
(x -x)(y -y)b=
(x -x)
a=y-bx
y=a+bx
60
Regressionsanalyse
• Eigenschaften der KQ Schätzer: – Summe der Residuen ei ist Null.
– Summe xiei ist Null.
– Das arithmetische Mittel der beobachteten Werte ist gleich dem arithmetischen Mittel der geschätzten Werte
– Die Regressionsgerade läuft durch den Schwerpunkt der Punktwolke (x,y).
61
Regressionsanalyse
Quadratsummenzerlegung:
• Ziel der Regressionsfunktion: Variation der abhängigen Variable soll aus der Variation der unabhängigen Variablen erklärt werden. – Zu erklärende Variation: yi –y
– Erklärte Variation: ŷi –y
– Nicht erklärte Variation: yi – ŷi
– (yi – y) = (ŷi –y) + (yi – ŷi) für i=1,…,n
62
RegressionsanalyseMethode der Kleinsten Quadrate
0
1
2
3
4
5
6
7
8
9
0 1 2 3 4 5 6
X
Y
ŷ=a+bx
(xi,yi)
yi -y
ŷi -y
yi - ŷi
(xi,ŷi)
y
63
Regressionsanalyse
• Maß der Variation: Quadratsumme der Abweichungen
• SST = (yi –y)² – Sum of Squares Total
• SSE = (ŷi –y)² – Sum of Squares Explained
• SSR = (yi – ŷi)²– Sum of Squares Residual
• Es gilt: SST = SSE + SSR
64
Regressionsanalyse
• Einfaches Bestimmtheitsmaß: – Maß für die durch die lineare
Regressionsfunktion geliefert Erklärung der Variation der abhängigen Variablen
• r² = SSE / SST = 1 – SSR / SST– r² = Anteil der durch die Regressionsfunktion
erklärten Variation an der zu erklärenden gesamten Variation.
65
Regressionsanalyse
• Es gilt: 0 ≤ r² ≤ 1
• Extremfälle: – r² = 0 SSE = 0 ŷi =ŷ (=y) für alle i, d.h.
ŷi hängt nicht von i ab b = 0, d.h. Regressionsgerade ist horizontal. Kein Erklärungsbeitrag
– r² = 1 SSE = SST SSR = 0 ei = 0 für alle i ŷi = yi für alle i die Daten liegen auf der Regressionsgeraden. Vollständige Erklärung
66
RegressionsanalyseEinfaches lineares Bestimmtheitsmaß
R2 = 1
0
1
2
3
4
5
6
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0
0
0,5
1
1,5
2
2,5
3
3,5
4
4,5
5
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0,82
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
Einfaches lineares Bestimmtheitsmaß
R2 = 0,52
0
1
2
3
4
5
6
7
8
9
10
0 2 4 6 8 10 12
unabhängige Variable
ab
hä
ng
ige
Va
ria
be
le
67
Regressionsanalyse
• Linearer Einfachkorrelationskoeffizient: r = + r² und r [0 ; 1]
• Extremfälle: – r = 0, d.h. fehlende Erklärung, fehlende
Korrelation– r = 1, d.h. vollständige Erklärung, vollständige
Korrelation
• r wird das Vorzeichen der Steigung der Regressionsgeraden zugewiesen.
68
Regressionsanalyse
Eigenschaften der KQ Schätzer:
• Da yi Zufallsvariable sind, sind auch a und b Zufallsvariable.
• Erwartungswerte der KQ Schätzer:– E(b) = β– E(a) = α– D.h. a und b sind unverzerrte Schätzer
69
Regressionsanalyse
• Varianzen der KQ Schätzer:
• Beides sind theoretische Größen, da σ² (=Var(εi)) unbekannt ist.
n
1i
2i
2
)x(x
σVar(b)
n
1i
2i
22
)x(x
x
n
1σVar(a)
70
Regressionsanalyse
• Kovarianz der KQ Schätzer:
Die Kovarinaz ist proportional zu σ², sie hängt vom Vorzeichen von x ab.
n
1i
2i
2
)x(x
xσb)Cov(a,
71
Regressionsanalyse
• Frage: Gibt es bessere Schätzer als die KQ Schätzer für α und β?
• Besser im Sinne einer kleineren Varianz, denn je kleiner die Varianz des Schätzers, umso besser ist er.
72
Regressionsanalyse
Gauss-Markov-Theorem:– Einfaches lineares Regressionsmodell, – Es gelten Annahmen 1-5
• Der KQ Schätzer ist der beste lineare erwartungstreue Schätzer, BLUE (Best linear unbiased Estimator)– Best: Var(b*) Var(b) – Linear: b* =ciyi
– Unbiased: E(b*) = β– Analoge Aussage für Schätzer a* von α.
73
Regressionsanalyse
• Schätzung der Fehlervarianz σ²– Wären εi beobachtbar, dann Schätzer für σ² =
1/n εi².
– Aber: εi nicht beobachtbar, daher σ² durch s² schätzen.
n
1i
2i
2 e2n
1s
74
Regressionsanalyse
• Diesen Schätzer von σ² verwendet man, um unverzerrte Schätzer für Var(a) und Var(b) zu konstruieren.
22b n
2i
i 1
ss
(x x)
22 2a n
2i
i 1
1 xs s
n (x x)
75
Regressionsanalyse
Inferenz im linearen Regressionsmodell:– Ann (1-5)
– Ann (6): εi ~ N(0,σ²)
• Testprobleme: – Einseitig: z.B. H0: b = b* gegen H1: b > b*
– Zweiseitig: H0: b = b* gegen H1: b b*
• Teststatistik:
b
*
s
bbT
76
Regressionsanalyse
• Verteilung der Teststatistik: – sb bekannt: T ~ N(0,1)
– sb geschätzt: T ~ tn-2
• Kritische Werte bestimmen
• Entscheidung: Lehne H0 ab, wenn Teststatistik im kritischen Bereich liegt.
• Gleiche Vorgehensweise bei Tests für Schätzer a.
77
Regressionsanalyse
Konfidenzintervall Regressionskoeffizienten
• Interzept: – Es gilt P(a – t sa α a + t sa) = 1 – α
– KI für α: [a – t sa; a + t sa]
• Steigungsparameter: – Es gilt P(b – t sb β b + t sb) = 1 – α
– KI für β: [b – t sb; b + t sb]
• t = t1- α/2; n-2 (Werte der t-Verteilung)
Top Related