1 DieMethodederKleinstenQuadrate - Universität · PDF file1...
-
Upload
hoangquynh -
Category
Documents
-
view
217 -
download
2
Transcript of 1 DieMethodederKleinstenQuadrate - Universität · PDF file1...
1 Die Methode der Kleinsten Quadrate
1.1 Einfache Regression
Problem: Analysiere den Ein�uss einer erklärenden Variable X
auf eine Zielvariable Y
Y − abhängige Variable (Zielvariable)(Konsum, Verkäufe, Ernteerträge, ...)
X − unabhängige Variable (erklärende Variable)(Einkommen, Investitionen, Düngemittel, ...)
Beobachtungen:
(Y1, X1), (Y2, X2), . . . , (Yn, Xn)
Beispiel 1.1 (Konsum/Einkommen in GB)Gesamtkonsum und Gesamteinkommen in Groÿbritannien (Pfundpro Kopf in Preisen von 1987), 1968-1995 :
2000 2500 3000 3500 4000
2000
2500
3000
3500
Konsum/Einkommen in GB (1986−1995)
durchschnittl. Jahreseinkommen pro Kopf
durc
hnitt
l. K
onsu
mau
sgab
en p
ro K
opf
Statistik_III@LS-Kneip 1�1
Beispiel 1.2 (Ernteertrag)
X YMenge des eingesetzten Düngers (kg/ha) Ernteertrag (Weizen)
100 40200 50300 50400 70500 65600 65700 80
100 200 300 400 500 600 700
4050
6070
80
Einfachregression
Düngemittel
Ernt
eertr
ag
Statistik_III@LS-Kneip 1�2
Einfachster Fall
• Es existiert ein linearer Zusammenhang zwischen X und Y
• Y = β0 + β1X + Zufallsschwankungen
Problem:Wie bestimmt man die �beste� Gerade der Form Y = β0 + β1X
aus den Daten?
Beobachtungen angepasste (�prognostizierte� Werte)Y1 Y1 = β0 + β1X1
Y2 Y2 = β0 + β1X2
......
Yn Yn = β0 + β1Xn
Kriterium:Möglichst kleine Abweichungen zwischen den beobachteten Wer-ten Yi und den zugehörigen Prognosewerten Yi = β0 + β1Xi,i = 1, . . . , n
Statistik_III@LS-Kneip 1�3
Schlechte Anpassung
0 2 4 6 8
01
23
4
X
Y
Gute Anpassung
0 2 4 6 8
01
23
4
X
Y
Statistik_III@LS-Kneip 1�4
Die Methode der Kleinsten QuadrateMinimiere die Summe der quadratischen Di�erenzen zwischenden beobachteten und den prognostizierten Werten
⇒ Bestimme β0 und β1 durch Minimieren von
Q(β0, β1) =n∑
i=1
(Yi − Yi)2 =n∑
i=1
(Yi − β0 − β1Xi)2
Satz: Es gilt
β1 =
n∑i=1
(Xi − X)(Yi − Y )
n∑i=1
(Xi − X2)
β0 = Y − β1X
Anmerkung:β0 und β1 hängen von den jeweiligen Beobachtungen ab und sinddaher selbst Zufallsvariablen (�Kleinste-Quadrate-Schätzer�)
Beweis des Satzes:Notwendige Bedingung für die Existenz eines Minimums an ei-nem Punkt (β0, β1): Verschwinden der partiellen Ableitungen
⇒ 0 =∂
∂β0Q(β0, β1)|(β0,β1)=(β0,β1)
=n∑
i=1
2(Yi − β0 − β1Xi) · (−1)
0 =∂
∂β1Q(β0, β1)|(β0,β1)=(β0,β1)
=n∑
i=1
2(Yi − β0 − β1Xi) · (−Xi)
Statistik_III@LS-Kneip 1�5
⇒ Normalengleichungen:
nβ0 + β1
n∑
i=1
Xi =n∑
i=1
Yi
β0
n∑
i=1
Xi + β1
n∑
i=1
X2i =
n∑
i=1
XiYi
• Die angegebenen Formeln für β0 und β1 ergeben sich alsLösungen der Normalengleichungen
• Durch die Überprüfung der entsprechenden Bedingungen andie zweiten (partiellen) Ableitungen läÿt sich leicht zeigen,dass Q an der Stelle (β0, β1) in der Tat ein Minimum besitzt.
Die Ausgleichsgerade (Kleinste-Quadrate-Gerade)
100 200 300 400 500 600 700
4050
6070
80
Kleinste−Quadrate−Gerade
Düngemittel
Erntee
rtrag
Y = β0 + β1X = 36, 4 + 0, 059X
Steigung β1: Veränderung von Y , die mit der Veränderung vonX um eine Einheit einhergeht
Wichtige Anmerkung:Es exisitiert nicht notwendigerweise ein kausaler Zusammenhang!!Statistik_III@LS-Kneip 1�6
Ein trauriges Märchen
Es gab einmal eine Cholera-Epidemie in der Region A des StaatesB. Zur Verbesserung der Situation beschloss die Regierung, einegroÿe Anzahl zusätzlicher Ärzte in die am stärksten betro�enenStädte zu schicken. Ein wenig später versammelte sich ein Teilder Bevölkerung aus Region A, um selbst nach Auswegen aus derKrise zu suchen. Sie fanden folgenden Zusammenhang:
0.00 0.02 0.04 0.06 0.08
010
2030
40
Choleraepidemie
X=Anteil Ärtze pro Stadt (in %)
Y=
Ant
eil I
nfiz
iert
e pr
o S
tadt
(in
%)
Auf Grund dieser Tatsache töteten sie alle Ärzte !
Statistik_III@LS-Kneip 1�7
Fortsetzung Beispiel 1.2 (Ernteertrag)
X 100 200 300 400 500 600 700Y 40 50 50 70 65 65 80
⇒ Kleinste Quadrate Schätzer:
β1 =
7∑i=1
(Xi − X)(Yi − Y )
n∑i=1
(Xi − X2)=
16, 5280
= 0, 059
β0 = Y − β1X = 60− 0, 059 · 400 = 36, 4
⇒ Ausgleichsgerade: Yi = 36, 4 + 0, 059Xi
100 200 300 400 500 600 700
4050
6070
80
Einfachregression
Düngemittel
Ernt
eertr
ag
Statistik_III@LS-Kneip 1�8
Beispiel 1.3 (CAPM)
• Capital Asset Pricing Model (CAPM) dient zum Vergleichverschiedener Aktien bzgl. ihres Risikos
• Beta-Faktor einer Aktie: Risiko dieser Aktie gemessen amRisiko des gesamten Marktes
• Beruht auf der Anpassung einer Ausgleichsgerade
Yi = β0 + β1Xi + Zufallsschwankungen
� β1 > 1 : Risiko der Aktie überproportional zumMarktrisiko
� β1 < 1 : weniger risikobehaftete Aktie
−0.010 −0.008 −0.006 −0.004 −0.002 0.000
−0.
010
−0.
008
−0.
006
−0.
004
−0.
002
0.00
0
Capital Asset Pricing Model
X = DAFOX−Rendite minus Zins
Y =
MR
U−
Ren
dite
min
us Z
ins
• Kleinste Quadrate:
Yi = 0, 0000940 + 1, 0558865︸ ︷︷ ︸β1
Xi
Statistik_III@LS-Kneip 1�9
1.2 Multiple Regression
• Analysiere eine Zielvariable Y als Funktion mehrerer erklä-render Variablen X1, . . . , Xp
• Beobachtungen(Y1, X11, . . . , X1p), (Y2, X21, . . . , X2p), . . . , (Yn, Xn1, . . . , Xnp)
• Linearer Zusammenhang zwischen Y und X1, . . . , Xp :
Yi = β0+β1Xi1+β2Xi2+ . . .+βpXip +Zufallsschwankungen
⇒ Bestmögliche Anpassung einer linearen Funktion der Form
Yi = β0 + β1Xi1 + . . . + βpXip
an die Daten.
• Die Methode der Kleinsten Quadrate:Bestimme β0, β1, . . . , βp durch Minimieren von
Q(β0, . . . , βp) =n∑
i=1
(Yi−Yi)2 =n∑
i=1
(Yi−β0−β1Xi1−. . .−βpXip)
• Nullstellen der partiellen Ableitungen von Q(β0, . . . , βp)
⇒ β0, β1, . . . , βp
• Problem: sehr komplexe Formeln für groÿes p
• Aber: Allgemeine Darstellung möglich!Notwendiges Hilfsmittel: Matrizenrechnung
Statistik_III@LS-Kneip 1�10
Fortsetzung Beispiel 1.2 (Ernteertrag)
• Ernteertrag abhängig von
Menge des DüngemittelNiederschlagsmengeBodenqualität...
• Düngemittel als einzige erklärende Variable: Ein groÿer Teilder Schwankungen um die Ausgleichsgerade erklärbar durchunterschiedliche Werte von Niederschlagsmengen, Bodenqua-lität, . . .
⇒ Verbesserung der Prognose durch die Einbeziehung weiterererklärender Variablen
Y - Ernteertrag 40 50 50 70 65 65 80X1 - Düngemittel 100 200 300 400 500 600 700X2 - Niederschlag 10 20 10 30 20 20 30
• Ansatz: Yi = β0 + β1Xi1 + β2Xi2
Statistik_III@LS-Kneip 1�11
Darstellung mit Hilfe der Matrizenrechnung
Die Gleichung
Yi = β0 + β1Xi1 + . . . + βpXip, i = 1, . . . , n
lässt sich auch in folgender Form darstellen.
Y1
Y2
...Yn
︸ ︷︷ ︸Y
=
1 X11 X12 · · · X1p
1 X21 X22 · · · X2p
......
......
1 Xn1 Xn2 · · · Xnp
︸ ︷︷ ︸X
·
β0
β1
...βp
︸ ︷︷ ︸β
¨
§
¥
¦
Einfachster Fall: p = 1 ⇔ Einfachregression
Yi = β0+β1Xi i = 1, . . . , n ⇔
Y1
Y2
...Yn
=
1 X1
1 X2
......
1 Xn
·β0
β1
• Transponierte der Matrix X:
XT =
1 1 1 · · · 1
X1 X2 X3 · · · Xn
⇒ XT ·X =
nn∑
i=1
Xi
n∑i=1
Xi
n∑i=1
X2i
Statistik_III@LS-Kneip 1�12
• β0 und β1 berechnen sich aus den Normalengleichungen:
nβ0 + β1
n∑i=1
Xi
β0
n∑i=1
Xi + β1
n∑i=1
X2i
=
n∑i=1
Yi
n∑i=1
XiYi
• Die Normalengleichungen lassen sich folgendermaÿen um-schreiben:
nn∑
i=1
Xi
n∑i=1
Xi
n∑i=1
X2i
·
β0
β1
=
1 1 · · · 1
X1 X2 · · · Xn
·
Y1
Y2
...Yn
⇒ XT ·X ·β0
β1
= XT ·
Y1
Y2
...Yn
• Normalengleichungen: zwei lineare Gleichungen, die β0 undβ1 eindeutig bestimmen
Statistik_III@LS-Kneip 1�13
Verallgemeinerung auf multiple Regression
Normalengleichungen zur Bestimmung der Koe�zientenβ0, β1, . . . , βp, die Q(β0, β1, . . . , βp) minimieren.
• Satz:β0, β1, . . . , βp ergeben sich als Lösungen folgender p + 1 li-nearer Gleichungen (�Normalengleichungen�)
nn∑
i=1
Xi1 · · ·n∑
i=1
Xip
n∑i=1
Xi1
n∑i=1
X2i1 · · ·
n∑i=1
Xi1Xip
......
...n∑
i=1
Xip
n∑i=1
Xi1Xip · · ·n∑
i=1
X2ip
︸ ︷︷ ︸XT ·X
·
β0
β1
...βp
=
1 1 · · · 1
X11 X21 · · · Xn1
......
......
X1p X2p · · · Xnp
︸ ︷︷ ︸XT
·
Y1
Y2
...Yn
• Die Werte von β0, . . . , βp sind durch die Normalgleichungeni.Allg. eindeutig bestimmt(Ausnahme: Kolinearität zwischen einzelnen Variablen X1, . . . , Xp).Die praktische Berechnung erfolgt durch geeignete numeri-sche Verfahren (Gausselimination, . . .)
Statistik_III@LS-Kneip 1�14
• Allgemeine mathematische Darstellung:Es gilt
(XT X)−1 ·XT X ·
β0
...βp
=
β0
...βp
®
©
ª
⇒
β0
β1
...βp
︸ ︷︷ ︸β
= (XT X)−1 ·XT ·
Y1
Y2
...Yn
︸ ︷︷ ︸Y
Anmerkung:Die Inverse A−1 einer beliebigen regulären symmetrischenMatrix A ist de�niert durch die Gleichung AA−1 = I,
I =
1 0. . .
0 1
= �Identitätsmatrix�
Statistik_III@LS-Kneip 1�15
Fortsetzung Beispiel 1.2 (Ernteertrag)
Kleinste Quadrate:
7 2800 140
2800 1400000 63000
140 63000 3200
︸ ︷︷ ︸XT ·X
·
β0
β1
β2
=
420
184500
9000
︸ ︷︷ ︸XT Y
⇒ β0 = 28, 1, β1 = 0, 038, β2 = 0, 83
⇒ Yi = 28, 1 + 0, 038Xi1 + 0, 83Xi2
0 200 400 600 800
020
4060
8010
0
Multiple Regression
solid = X_2=10, dashed=X_2=20, dotted=X_2=30Düngemittel X_1
Ern
teer
trag
Y
Statistik_III@LS-Kneip 1�16
Call:lm(formula = ernte.data$y ~ 1 + ernte.data$x.1 + ernte.data$x.2)
Residuals:1 2 3 4 5 6 7
-0.2381 -2.3810 2.1429 1.6667 1.1905 -2.6190 0.2381
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 28.095238 2.491482 11.277 0.000352 ***ernte.data$x.1 0.038095 0.005832 6.532 0.002838 **ernte.data$x.2 0.833333 0.154303 5.401 0.005690 **---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 2.315 on 4 degrees of freedomMultiple R-Squared: 0.9814, Adjusted R-squared: 0.972F-statistic: 105.3 on 2 and 4 DF, p-value: 0.0003472
Interpretation der Parameter (Achtung):
• β1 - Proportionalitätsfaktor, quanti�ziert die Veränderungvon Y bei Erhöhung von X1 um eine Einheit unter Kon-stanthaltung von X2
• β2 - Proportionalitätsfaktor, quanti�ziert die Veränderungvon Y bei Erhöhung von X2 um eine Einheit unter Kon-stanthaltung von X1
Statistik_III@LS-Kneip 1�17
1.3 Nichtlineare Regression
• Problem: Analyse der Zielvariablen Y als Funktion einererklärenden Variable X
• Standardansatz: Anpassung einer Ausgleichsgerade• In der Praxis ist die Beziehung zwischen Y und X manch-
mal von komplexerer Struktur. Der Standardansatz ist dannnicht anwendbar.
Fortsetzung Beispiel 1.2 (Ertnteertrag)
Y - Ernteertrag (Weizen)X - Menge des eingesetzen Düngers (kg/ha)
1.) n = 7 Beobachtungen X1 = 100, . . . , X7 = 700⇒ approximativ lineare Beziehung
Yi = β0 + β1Xi + Zufallsschwankungen
2.) n = 14 Beobachtungen X1 = 100, . . . , X14 = 1400⇒ Anpassung einer Geraden nicht mehr sinnvoll
0 500 1000 1500
020
4060
8010
012
0
Nichtlinearer Zusammenhang
solid = quadratic, dashed= linear Düngemittel X
Erntee
rtrag Y
Statistik_III@LS-Kneip 1�18
Möglicher Ansatz:
Yi = β0 + β1Xi + β2X2i + Zufallsschwankungen
⇒ Anpassung eines quadratischen Polynoms an die Daten
Yi = β0 + β1Xi + β2X2i
⇒ Bestimmung von β0, β1, β2 durch die Methode der kleinstenQuadrate
Wichtig: Nur Spezialfall einer multiplen Regression
Mit Xi1 = Xi , Xi2 = X2i
⇒ Yi = β0 + β1Xi1 + β2Xi2 + Zufallschwankungen
⇒ Yi = β0 + β1Xi1 + β2Xi2
⇒
β0
β1
β2
= (XT X)−1XT ·
Y1
...Yn
mit X =
1 X11 X12
......
...1 Xn1 Xn2
=
1 X1 X21
......
...1 Xn X2
n
Statistik_III@LS-Kneip 1�19
Analog: Anpassung von Modellen der Form
∗ Yi = β0 + β1 Xi︸︷︷︸Xi1
+β2 X2i︸︷︷︸
xi2
+β3 X3i︸︷︷︸
xi3
X
Y
∗ Yi = β0 + β1 ln Xi︸ ︷︷ ︸Xi1
X
Y
X
Y
β1 < 0 β1 > 0
∗ Yi = β0 + β1 ln Xi︸ ︷︷ ︸Xi1
+β2 (lnXi)2︸ ︷︷ ︸Xi2
∗ Yi = β0 + β1 Xi︸︷︷︸Xi1
+β2 X2i︸︷︷︸
Xi2
+β3 X3i︸︷︷︸
Xi3
+β4 X4i︸︷︷︸
Xi4
Statistik_III@LS-Kneip 1�20
• In der Fachliteratur werden solche Modelle üblicherweise auchals lineare Regressionsmodelle bezeichnet, da sie sich in denRahmen der multiplen Regression einbetten lassen.
• Man spricht von einer �echten� nichtlinearen Regression,falls das Modell nichtlinear in den Koe�zienten β ist.
Beispiel 1.4 (Wertverlust eines Autos (CV Citroen))
X - Alter des Autos in JahrenY - relativer Wertverlust = Verkaufspreis
Preis des Neuwagens
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
Wertverlust eines Autos
X= Alter in Jahren
Y =
rel
ativ
er W
ertv
erlu
st
0 2 4 6 8 10
0.0
0.2
0.4
0.6
0.8
1.0
Ansatz: Yi = e−βx + Zufallsschwankungen
⇒ Anpassung einer Exponentialfunktion Yi = e−βxi an die DatenStatistik_III@LS-Kneip 1�21
• Bestimmung von β durch die Methode der Kleinsten Qua-drate:Minimiere Q(β) =
n∑
i=1
(Yi − e−βX−i)2
• Berechnung von β durch iterative numerische Verfahren (z.B.Gauss-Newton Algorithmus); im Allg. keine expliziten ana-lytischen Formeln
• Statistische Inferenz beruht auf asymptotischer (n groÿ) Ap-proximation
• Aber: In manchen Fällen ist eine Rückführung auf ein li-neares Regressionsproblem möglich, indem man die Datengeeignet transformiert.
Beispiel:
Yi ≈ β0e−β1Xi
⇒ ln Yi ≈ ln β0 − β1Xi
⇒ Anpassung einer Ausgleichsgeraden an ln Y1, . . . , ln Yn
Statistik_III@LS-Kneip 1�22
2 Einfache Regression
2.1 Die Regressionsfunktion• Problem:
Analysiere den Ein�uss einer erklärenden (�unabhängigen�)Variable X auf eine Zielvariable (�abhängige Variable�) Y .
• Daten: (Y1, X1) , (Y2, X2), . . . , (Yn, Xn)
• Ansatz:Yi = m(Xi) + εi
∗ m(·) Regressionsfunktion, beschreibt den systematischenTeil der Beschreibung zwischen Y und X
∗ ε1, . . . , εn Zufallsschwankungen (�Fehlerterm�)
0 20 40 60 80 100
−20
−10
010
2030
Die Regressionsfunktion m(x)
x
y
m(x)
Statistik_III@LS-Kneip 2�1
Fortsetzung Beispiel 1.2 (Ernteertrag)
• n = 35 Beobachtungen
• Für jeden der 7 verschiedenen eingesetzten MengenX = 100, 200, 300, 400, 500, 600, 700 kg/ha des Düngemittelswerden die entsprechenden Ernteerträge Y für jeweils 5 ver-schiedene, gleichgroÿe Parzellen ermittelt.
100 200 300 400 500 600 700
Düngemittel (kg/ha)
Ern
teer
trag
Statistik_III@LS-Kneip 2�2
Mathematische Formalisierung:• Für jeden möglichen Wert x von X betrachte die bedingte
Verteilung f(Y |X = x) von Y gegeben X = x.Dann ist
m(x) = E(Y |X = x)
= bedingter Erwartungswert von Y gegeben X = x
Beispiel:
0 5 10 15
bedingte Verteilung von Y gegeben X=5
f(Y|X=5)
0 5 10 15
0 5 10 15
bedingte Verteilung von Y gegeben X=10
0 5 10 15
f(Y|X=10)
Statistik_III@LS-Kneip 2�3
• An den Beobachtungspunkten:m(Xi) = E(Y |X = Xi)
εi = Yi − E(Y |X = Xi) = Yi −m(Xi)
• Verteilung von εi ≡ bedingte Verteilung von
Yi − E(Y |X = Xi) gegeben X = Xi.
• E(εi) = 0, d.h. die Verteilung von εi besitzt den Mittelwert0
• σ2i = Var(εi) = Varianz von εi = Maÿ für die Streuung von
εi um den Mittelwert 0
• Allgemeiner Fall:Die Verteilung der εi können ebenso wie ihre Varianzen σ2
i
von dem jeweiligen Beobachtungspunkt X = Xi abhängen.
Annahmen der linearen Einfachregression
1. Linearität:m(x) = β0 + β1x
2. Unabhängigkeit:ε1, . . . , εn sind voneinander unabhängige Zufallsvariablen
3. Homoskedastizität
σ2 := σ21 = σ2
2 = . . . = σ2n
4. [Normalität:]
εi ∼ N(0, σ2) i = 1, . . . , n
Statistik_III@LS-Kneip 2�4
• allgemeiner Fall
x
Verteilung der Epsilons
im allgemeinem Fall
• Lineare Einfachregressiony
x
Verteilung der Epsilons bei linearer Einfachregression
Statistik_III@LS-Kneip 2�5
Modell der linearen Einfachregression:¨
§
¥
¦
Yi = β0 + β1Xi + εi, i = 1, . . . , n
∗ ε1, . . . , εn unabhängig∗ σ2 = Var(ε1) = . . . = Var(εn)
∗ [εi ∼ N(0, σ2)
]
Anmerkungen:
• Fehlertern εi - Messfehler + Ein�uss unbeobachteterVariablen
• Die Werte Xi können deterministisch, d.h. fest vorgebensein ( geplanter Versuch), oder sie können sich als Reali-sierungen von Zufallsvariablen Xi ergeben. Im zweiten Fallbezieht sich das obige Modell auf die jeweils beobachtetenWerte X1, . . . , Xn.
• Falls Y, X Zufallsvariablen, (Y1, X1), . . . , (Yn, Xn) Zufallsstich-probe von (Y, X) und X unabhängig von Y
⇒ f(X,Y )︸ ︷︷ ︸gemeinsame Verteilung
von (X, Y )
= f(X)︸ ︷︷ ︸Randverteilung
von X
· f(Y )︸ ︷︷ ︸Randverteilung
von Y
⇒ f(Y |X = x) = f(Y ) unabhängig von X
⇒ E(Y |X = x) = konstant, unabhängig von X
⇒ Yi = β0 + εi, i = 1, . . . , n
d.h. die Steigung β1 der Modellgeraden ist Null
Statistik_III@LS-Kneip 2�6
2.2 Der Kleinste-Quadrate Schätzer
• Modellgerade : Y = β0 + β1X
• Ausgleichsgerade: Y = β0 + β1X
• �Kleinste-Quadrate-Schätzer� von β0, β1
β1 =
n∑i=1
(Xi − X)(Yi − Y )
n∑i=1
(Xi − X)2
und β0 = Y − β1X
• Ein�uss der �Fehlers� εi: Im Allgemeinen β0 6= β0, β1 6= β1
Eigenschaften von β0, β1
1. ErwartungswertE(β0) = β0 , E(β1) = β1,d.h. β0 und β1 sind erwartungstreue Schätzer von β0 und β1.
2. Varianz
Var(β0) = E((β0 − β0)2) =σ2
n·
n∑i=1
X2i
n∑i=1
(Xi − X)2
Var(β1) = E((β1 − β1)2) =σ2
n∑i=1
(Xi − X)2
Statistik_III@LS-Kneip 2�7
3. KonsistenzFalls für n →∞ gilt
n∑i=1
(Xi − X)2 →∞, dann gilt
β0 −→p
β0 , β1 −→p
β1
4. Verteilung:Falls εi ∼ N(0, σ2), so erhält man
β0 ∼ N
β0,
σ2
n·
n∑i=1
X2i
n∑i=1
(Xi − X)2
β1 ∼ N
β1,
σ2
n∑i=1
(Xi − X)2
Anmerkung:Für groÿes n bleiben die angegebenen Verteilungen auch danni.Allg. approximativ gültig, wenn die εi nicht normalverteiltsind (zentraler Grenzwertsatz)
• i.Allg. wichtigster Parameter: β1 - Steigung der Gerade
β1 ∼ N(β1, Var(β1)),
wobei
Var(β1) =σ2
n∑i=1
(Xi − X)2=
σ2
(n− 1)[∑n
i=1(Xi−X)2
n−1
] =σ2
(n− 1)S2X
Statistik_III@LS-Kneip 2�8
Standardabweichung von β1
β1
f(β1)
Standardabweichung von β1 =σ
n − 1Sx
β1 = Mittelwert
• Die Varianz von β1 ist umso kleiner je� kleiner σ2, die Varianz des Fehlerterms� gröÿer n, die Anzahl der Beobachtung� gröÿer SX , die Streuung der X1, . . . , Xn
0 2 4 6 8 10
02
46
812
geringe Streuung von x1…xn
x
y
m(x) = β0 + β1x
Y = β0 + β1x
0 2 4 6 8 10
02
46
812
größere Streuung von x1…xn
x
y
m(x) = β0 + β1x
Y = β0 + β1x
Statistik_III@LS-Kneip 2�9
Exkurs: Schätztheorie
Sei β = β(Y1, . . . , Yn) ein Schätzer eines unbekannten Parametersβ auf der Grundlage einer Stichprobe Y1, . . . , Yn der Gröÿe n.
• Verzerrung (�Bias�)
Bias(β) = E(β)− β
β heiÿt �erwartungstreu� oder �unverzerrt�, falls Bias(β) = 0
• Maÿ der SchätzgüteMittlere quadratische Abweichung, abgekürzt MSE (für �meansquared error�)
MSE(β) = E((β − β)2) = [Bias(β)]2 + Var(β)
Erwünschte asymptotische Eigenschaften:
Schreibweise: βn (zur Hervorhebung der Abhängigkeit von n)
• Konsistenz im quadratischen Mittel:
MSE(βn) −→ 0 für n −→∞
• Schwache Konsistenz:Für beliebiges δ < 0 gilt
limn→∞
P (|βn − β| < δ) = 1
Man schreibt βn −→p
β
Statistik_III@LS-Kneip 2�10
Anmerkung:Konsistenz im quadratischen Mittel impliziert schwache Kon-vergenz. Dies ist eine Konsequenz der Ungleichung von Tsche-bysche�: Für eine Zufallsvariable Z gilt für beliebiges δ > 0
P (|Z − E(Z)| ≥ δ) ≤ Var(Z)δ2
• Asymptotische Normalität:Für groÿes n gilt approximativ
β ∼ N(β, Var(β))
Anmerkung:Asymptotische Normalität gilt für die groÿe Mehrheit allerwichtigen Schätzer, die in der statistischen Praxis Verwen-dung �nden. Sie ist immer eine Folgerung aus dem zentralenGrenzwertsatz.� Viele Schätzer β lassen sich in guter Approximation in der
Form β ≈n∑
i=1
aiYi (a1, . . . , an = Folge von Gewichten) schrei-ben
� Zentraler Grenzwertsatz:Unter schwachen Bedingungen
∑ni=1 aiYi asymptotisch nor-
mal• Vergleich zweier verschiedener Schätzer β und β∗
∗ β heiÿt �wirksamer� (oder �e�zienter�) als β∗, wenn
MSE(β) ≤ MSE(β∗)
für alle zugelassenen Werte des Parameters β
∗ β, β∗ erwartungstreu ⇒ β wirksamer als β∗, falls
Var(β) ≤ Var(β∗)
Statistik_III@LS-Kneip 2�11
Kleinste Quadrate Schätzer:
β linearer Schätzer ⇒ es existiert eine Gewichtsfolge a1, . . . , an,so dass β =
n∑i=1
aiYi
⇒ β0, β1 sind lineare, erwartungstreue Schätzer
¤
£
¡
¢
Satz von Gauss-Markov:β0 und β1 sind die wirksamsten Schätzer von β0 und β1 inder Klasse aller linearen und erwartungstreuen Schätzer.
⇒ β∗1 linearer, erwartungstreuer Schätzer von β1:
Var(β1) ≤ Var(β∗1)
Statistik_III@LS-Kneip 2�12
2.3 Kon�denzintervalle und Tests
• β1 ∼ N
β1,
σ2
n∑i=1
(Xi − X)2
⇒ Standardisierung:
β1 − β1√σ2
n∑i=1
(Xi−X)2
∼ N(0, 1)
• Problem:σ2 unbekannt ⇒ Schätzung aus den Daten� es gilt E(εi) = 0, σ2 = Var(εi)
� Residuum εi = Yi − Yi = Yi − β0 − β1Xi �schätzt� denFehler εi
Schätzer σ2 von σ2:
σ2 =1
n− 2
n∑
i=1
(Yi − Yi)2 =1
n− 2
n∑
i=1
(Yi − β0 − β1Xi)2
σ2 ist ein erwartungstreuer Schätzer von σ2
• Ersetzt man σ2 durch σ2 folgt die standardisierte Schätz-funktion einer Student t-Verteilung mit n − 2 Freiheitsgra-den:
β1 − β1√σ2
n∑i=1
(Xi−X)2
∼ tn−2
Statistik_III@LS-Kneip 2�13
2.3.1 Kon�denzintervalle
• Es gilt:
P
−tn−2,1−α
2≤ β1 − β1
σ√n∑
i=1(Xi−X)2
≤ tn−2,1−α2
= 1− α
⇒ P
β1 − tn−2,1−α
2· σ√
n∑i=1
(Xi−X)2≤ β1 ≤ β1 + tn−2,1−α
2· σ√
n∑i=1
(Xi−X)2
= 1− α
⇒ Kon�denzintervall für β1 zum Niveau 1− α:
β1 = β1 ± tn−2,1−α2
σ · 1√n∑
i=1
(Xi − X)2
• n > 30: Quantile der tn−2 - Verteilung≈Quantile der N(0, 1)Verteilung
Analog: Kon�denzintervall für β0
• β0 − β0
S(β0)∼ tn−2, wobei (β0) = σ ·
√n∑
i=1X2
i
√n
n∑i=1
(Xi−X)2
• β0 = β0 ± tn−2,1−α2
S(β0)
Statistik_III@LS-Kneip 2�14
2.3.2 Hypothesen-Test
• Man betrachtet Hypothesen der Form
H0 : β1 = c , H1 : β1 6= c
c: vorgegebener Wert
• von besonderem Interesse:
H0 : β1 = 0 , H1 : β1 6= 0
(Test auf die Nichtexistenz einer linearen Beziehung zwischenY und X)
• Teststatistik
T =β1 − c
S(β1), S(β1) = σ · 1√
n∑i=1
(Xi − X)2
• Ablehnungsbereich zu einem Signi�kanzniveau α
H0 wird abgelehnt, falls
|T | ≥ t1−α2 ,n−2
bzw. (vollkommen äquivalent), falls p-Wert zu klein
p-Wert = 2 · P (t1−α2 ,n−2 ≥ |Tbeobachtet|)
• Test zum Signi�kanzniveau α lehnt H0 genau dann ab, fallsc nicht im (1− α)-Kon�denzintervall:
c /∈[β1 − tn−2,1−α
2S(β1), β1 + tn−2,1−α
2S(β1)
]
• Analog: Einseitige Tests, Test für H0 : β0 = c, H1 : β0 6= c
Statistik_III@LS-Kneip 2�15
2.3.3 Kon�denzintervall für m(x0) zu gegebenen X0
• Es gilt
m(X0) = β0 + β1X0
⇒ m(X0) = β0 + β1X0
100 200 300 400 500 600 700
4050
6070
80
X
Y
Y = β0 + β1x
• Aus den Formeln für die Varianzen von β0 und β1 lässt sichschlieÿen, dass
Var(m(X0)) = σ2 ·
1n
+(X0 − X)2n∑
i=1
(Xi − X)2
⇒ m(X0) ∼ N
β0 + β1X0︸ ︷︷ ︸
m(X0)
, σ2 ·
1n
+(X0 − X)2n∑
i=1
(Xi − X)2
⇒ m(X0)−m(X0)
σ ·√
1n
+ (X0−X)2n∑
i=1(Xi−X)2
∼ N(0, 1) ;m(X0)−m(X0)
σ ·√
1n
+ (X0−X)2n∑
i=1(Xi−X)2
∼ tn−2
Statistik_III@LS-Kneip 2�16
⇒ Kon�denzintervall:
β0 + β1X0 = β0 + β1X0 ± tn−2,1−α2· σ
√√√√√1n
+(X0 − X)2n∑
i=1
(Xi − X)2
• Konstruktion des Kon�denzintervalls für alle möglichen Punk-te X0 ⇒ Kon�denzintervall für die Regressionsgerade
100 200 300 400 500 600 700 800
2040
6080
100
eingesetztes Düngemittel
pred
icte
d y
Konfidenzintervall für m(x0)
100 200 300 400 500 600 700 800
2040
6080
100
eingesetztes Düngemittel
pred
icte
d y
Statistik_III@LS-Kneip 2�17
2.4 Prognose• Problem:
Prognostiziere zu einem neuen Wert X0 die zugehörige Rea-lisierungen Y0 der Zielvariablen Y
• Modell:
Y0 = β0 + β1X0 + ε0 = m(X0) + ε0
ε0 ∼ N(0, σ2); ε0 unabhängig von ε1, . . . , εn
• Prognose:Ersetze β0, β1 durch β0, β1, sowie ε0 durch seinen Mittelwert0
⇒ Y0 = β0 + β1X0 = m(X0)
• Problem: Genauigkeit der Prognose? ⇒ Prognoseintervall(Kon�denzintervall) der Form [T1, T2] derart, dass
P (Y0 ∈ [T1, T2]) = 1− α
0 200 400 600 800
4060
8010
0
Düngemittel
Ern
teer
trag
0 200 400 600 800
4060
8010
0
Düngemittel
Ern
teer
trag
Y = β0 + β1X
mögliche Wertevon Y0
Statistik_III@LS-Kneip 2�18
• E(Y0 − Y0) = E(β0 + β1X0 + ε0 − β0 − β1X0) = 0
• m(X0) = β0 + β1X0 ist unabhängig von ε0
⇒ Var(Y0 − Y0) = Var(m(X0)− m(X0) + ε0)
= Var(ε0) + Var(m(X0))
= σ2 + σ2
1n
+(X0 − X)2n∑
i=1
(Xi − X)2
• Y0 − Y0 ∼ N
0, σ2 ·
1 +
1n
+(X0 − X)2n∑
i=1
(Xi − X)2
• Prognoseintervall (Niveau 1− α)
Y0 = Y0 ± tn−2,1−α2· σ ·
√√√√√1 +1n
+(X0 − X)2n∑
i=1
(Xi − X)2
100 200 300 400 500 600 700 800
2040
6080
100
eingesetztes Düngemittel
pred
icte
d y
Konfidenzintervall für m(x0)Prognoseintervall für x0
100 200 300 400 500 600 700 800
2040
6080
100
Statistik_III@LS-Kneip 2�19
Fortsetzung Beispiel 1.3 (CAPM)
In Kapitel 1 wurden bereits die Kleinste-Quadrate-Schätzungenfür das CAPM bezüglich der MRU-Aktie bestimmt:
Yi = 0.0000940︸ ︷︷ ︸β0
+1, 0558865︸ ︷︷ ︸β1
Xi
• Weiterhin ergibt sich (n = 37):
σ2 =2, 773051 · 10−05
35= 7, 923004 · 10−07
S(β0) = 0, 0002707, S(β1) = 0, 0424467
⇒ 95%-Kon�denzintervalle
β0 ± 0, 0002707 · 2, 030108 = [−0, 0004554863; 0, 0006434851]
β1 ± 0, 0424467 · 2, 030108 = [0, 9697152; 1, 1420578]
• Nur β1 signi�kant von Null verschieden (Ablehnung von H0 :β1 = 0 durch einen Test zum Niveau 5%)
• Die Hypothese H0 : β1 = 0 kann nicht abgelehnt werden
Statistik_III@LS-Kneip 1�20
• Kon�denzintervalle für die Regressionsgerade
−0.010 −0.008 −0.006 −0.004 −0.002 0.000
−0.
010
−0.
008
−0.
006
−0.
004
−0.
002
0.00
0
Capital Asset Pricing Model
X = DAFOX−Rendite minus Zins
Y =
MR
U−
Ren
dite
min
us Z
ins
Statistik_III@LS-Kneip 2�21
2.5 Korrelation und Regression• Korrelation zwischen zwei Zufallsvariablen X und Y
ρXY =σXY
σX · σY=
Cov(X, Y )√Var(X) ·
√Var(Y )
∗ −1 ≤ ρXY ≤ 1
∗ X unabhängig von Y ⇒ ρXY = 0(die Umkehrung gilt nicht)
∗ ρXY = 1 ⇔ Y = β0 + β1X , β1 > 0
∗ ρXY = −1 ⇔ Y = β0 + β1X , β1 < 0
∗ ρXY - Maÿ für den linearen Zusammenhang zwischen X
und Y
• Zufallsstichprobe (Y1, X1), . . . , (Yn, Xn):ρXY lässt sich schätzen durch den �Korrelationskoe�zienten�
r =
n∑i=1
(Xi − X)(Yi − X)√
n∑i=1
(Yi − Y )2√
n∑i=1
(Xi − X)2=
1n−1
n∑i=1
(Xi − X)(Yi − Y )
SXSY
∗ −1 ≤ r ≤ 1
∗ r = 1 ⇔ ρXY = 1 ⇔ Y = β0 + β1X , β1 > 0
∗ r = −1 ⇔ ρXY = −1 ⇔ Y = β0 + β1X , β1 < 0
Statistik_III@LS-Kneip 2�22
• Es gilt
r =
n∑i=1
(Xi − X)(Yi − Y )
n∑i=1
(Xi − X)2·
√n∑
i=1
(Xi − X)2
√n∑
i=1
(Yi − Y )2= β1 · SX
SY
⇒ r > 0 ⇔ β1 > 0, r < 0 ⇔ β1 < 0, r = 0 ⇔ β1 = 0
• Die gleiche Beziehung gilt zwischen der wahren KorrelationρXY und der wahren Steigung β1:ρXY > 0 ⇔ β1 = 0, ρXY < 0 ⇔ β1 < 0, ρXY = 0 ⇔β1 = 0
• Dieser Zusammenhang zwischen ρXY und β1 bleibt selbstdann bestehen, wenn das Modell der linearen Einfachregres-sion nicht gültig ist. In diesem Fall ist β1 de�niert als derje-nige Wert, der
E[(Y − β0 − β1X)2
]
minimiert.
Statistik_III@LS-Kneip 2�23
0 10 20 30 40 50
r = 0.6, β ^1 > 0
x
y
0 10 20 30 40 50
r = 1, β ^1 > 0, Yi = Yi
x
y
0 10 20 30 40 50
r = − 0.8, β ^1 < 0
x
y
0 10 20 30 40 50
r = − 1, β ^1 < 0, Yi = Yi
x
y
0 10 20 30 40 50
X unabhängig von Y: r = 0, β ^1 = 0
x
y
0 10 20 30 40 50
X abhängig von Y: r = 0, β ^1 = 0
x
y
Statistik_III@LS-Kneip 2�24
2.6 Die Streuungszerlegung und das Bestimmt-heitsmaÿ
Frage: Welcher Anteil der Streuung der Yi lässt sich durch dieRegression von Y auf X erklären?
• Man beachte: 1n
n∑i=1
Yi = Y
• Gesamtstreuung der Yi
SQT =n∑
i=1
(Yi − Y )2
• Streuungszerlegung
SQT = SQE+ SQRn∑
i=1
(Yi − Y )2 =n∑
i=1
(Yi − Y )2 +n∑
i=1
(Yi − Yi)2
• SQE : erklärte Streuung; SQR: Residualstreuung
• Yi = β0 + β1Xi (ohne Fehler) ⇒ SQT = SQE
• β1 = 0 ⇒ Yi = Y ⇒ SQT = SQR
• Bestimmtheitsmaÿ oder �Determinationskoe�zient�
R2 =SQESQT
=
n∑i=1
(Yi − Y )2
n∑i=1
(Yi − Y )2= 1−
n∑i=1
(Yi − Yi)2
n∑i=1
(Yi − Y )2
Statistik_III@LS-Kneip 2�25
• 0 ≤ R2 ≤ 1
• R2 = r2
• R2 dient als Maÿzahl für die Güte der Modellanpas-sung∗ R2 = 1 ⇒ Yi = β0 + β1Xi
0 5 10 15 20
05
1015
20
R^2=1
X
Y
∗ R2 nahe 1 (z.B. R2 = 0, 9)⇒ σ2 (Schätzung von σ2) klein, gute Prognosen zu er-warten!
0 5 10 15 20
05
1015
20
R^2 nahe 1
X
Y
Statistik_III@LS-Kneip 2�26
∗ R2 ≈ 0 ⇒ β1 ≈ 0 ⇒ Erklärte Streuung fast null,Regression nutzlos
Mögliche Erklärungen:
0 10 30 50 70
X unabhängig von Y
x
y
Y = Y
0 10 30 50 70
Modell falsch
x
y
Y = Y
• Streuungszerlegung: Test der Hypothese
H0 : β1 = 0 (bzw. H0 : ρY X = 0)
gegenH0 : β1 6= 0 (bzw. H0 : ρY X 6= 0)
• H0 wahr:F =
SQESQR /(n− 2)
∼ F1,n−2
F1,n−2 = F-Verteilung mit 1 und n− 2 Freiheitsgraden
⇒ Ablehnung von H0, falls der beobachtete Wert von F zugroÿ
Anmerkung:Analyse der Streuungszerlegung + F -Test wird auch als �Va-rianzanalyse� bezeichnet
Statistik_III@LS-Kneip 2�27
Fortsetzung Beispiel 1.3 (Ernteertrag)Residuals:
1 2 3 4 5 6 7-2.3214 1.7857 -4.1071 10.0000 -0.8929 -6.7857 2.3214
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 36.42857 5.03812 7.231 0.00079 ***ernte.data$x 0.05893 0.01127 5.231 0.00338 **---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 5.961 on 5 degrees of freedomMultiple R-Squared: 0.8455, Adjusted R-squared: 0.8146F-statistic: 27.36 on 1 and 5 DF, p-value: 0.003379
Analysis of Variance Table
Response: ernte.data$yDf Sum Sq Mean Sq F value Pr(>F)
ernte.data$x 1 972.32 972.32 27.362 0.003379 **Residuals 5 177.68 35.54---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
45 50 55 60 65 70 75
−50
510
Residualplot
Y
Resid
uals
ε
1
2
3
4
5
7
Statistik_III@LS-Kneip 2�28
2.7 Residualanalyse• Regression: Residualanalyse dient als Werkzeug zu Modell-diagnose
• Bei der einfachen Regression sieht man Verletzungen der Mo-dellannahmen oft schon am Streudiagramm selbst; Residual-plots zeigen solche E�ekte jedoch häu�g deutlicher und sindauch im Rahmen der multiplen Regression anwendbar.
• Grundidee: Laut Modellannahme sind ε1, ε2, . . . , εn unab-hängig und identisch verteilt mit Mittelwert 0 (sowie εi ∼N(0, σ2)) ⇒ betrachtet man die Werte von εi in Abhängig-keit von Xi (bzw. Yi), so sollten diese Werte rein zufällig umNull schwanken; keine Muster, keine systematischen Struk-turen
• Graphik (�Residualplot�): Schätze εi durch εi = Yi − Yi
und stelle die Werte εi in Abhängigkeit von Xi (bzw. Yi oderals Funktion des Index i = 1, . . . , n) grap�sch dar.
−100
−50
050
100
Residualplot
xi bzw yi
ε
Idealfall: keine systematischen Strukturen, εi rein zufällig(gutes Modell)
Statistik_III@LS-Kneip 2�29
• In der Praxis werden mehrere verschiedene Varianten vonResidualplots benutzt
• Wichtige Variante: studentisierte Residuen• Analyse von εi:
∗ 1n
n∑
i=1
εi =1n
n∑
i=1
(Yi − Yi) = 0
∗ E(εi) = 0
∗ Var(εi) = Var(Yi − Yi) = σ2
1− 1
n− (Xi − X)2
n∑j=1
(Xj − Xj)2
∗ Cov(εi, εk) = −σ2
1n
+(Xi − X)(Xk − X)
n∑j=1
(Xj − X)2
⇒ i.A. negative Korrelation; die εi sind tendenziell stärkergestreut als die wahren Fehlerterme εi
• Studentisierte Residuen
ri =εi
σ
√1− 1
n − (Xi−X)2n∑
i=1(Xj−X)2
⇒ Var(ri) ≈ Var(εi
σ) = 1
⇒ Normalverteilung: Etwa 95% der ri zwischen −2 und 2;etwa 99, 9% der ri zwischen −3 und 3
Statistik_III@LS-Kneip 2�30
Beispiel: Idealfall: Alle Annahmen tendenziell erfüllt
−3
−2
−1
01
23
studentisierte Residuen (n=100)
xi bzw yi
r i
Statistik_III@LS-Kneip 2�31
Problemfällea) Komplexere Struktur der Regressionsfunktion
Residualplot: Systematische Abweichungen der �Mittelwer-te� der Residuen εi(ri) von Null⇒ evtl. m(x) 6= β0 +β1x; Regressionsfunktion nicht adäquatmodelliert
xi bzw yi
ε i b
zw.
r i
xi bzw yi
ε i b
zw.
r i
Mögliche Lösungen:� komplexeres lineares Modell und/oder Datentransforma-
tion, z.B.
Yi = β0 + β1 ln Xi + εi
ln Yi = β0 + β1 ln Xi + β2(lnXi)2 + εi
Yi = β0 + β1Xi + β2X2i + εi
......
⇒ Multiple Regression
� ( nichtlineare/ nichtparametrische Regression )
Statistik_III@LS-Kneip 2�32
b) Heteroskedatizität
Residualplot: Stark unterschiedliche Streuungsbreite der εi(ri)in verschiedenen Bereichen des Plots⇒ evtl. Heteroskedastizität, Var(εi) ≈ Var(εj), i 6= j
xi bzw yi
ε i b
zw.
r i
xi bzw yi
ε i b
zw.
r i
Mögliche Lösungen� Datentransformation, z.B.
Y → Y ∗ = ln Y, Y → Y ∗ = ln(Y + 1), Y → Y ∗ =√
Y ,
Y → Y ∗ =1Y
, . . .
oder
X → X∗ = ln X, X → X∗ =√
X, . . .
⇒ Multiple (einfache) Regression von Y ∗ auf X∗
� Formal: Datentransformation:
Nichtlineares Modell ⇔ Lineares ModellStatistik_III@LS-Kneip 2�33
Beispiel:
Yi = β0eβ1X(1 + δi) = β0e
β1X + β0eβ1X · δi︸ ︷︷ ︸
εi
wobei δ1, . . . , δn i.i.d , Var(δi) = σ2
⇒ Fehlerterme εi = β0eβ1Xδi heteroskedastisch,
⇒ Var(εi) = (β0eβ1X)2σ2
⇒ ln Yi = ln β0 + β1Xi + ln(1 + δi)︸ ︷︷ ︸≈ homoskedastische Fehler
� Lösung in komplexeren Situationen:Verallgemeinerte Kleinste-Quadrate Methode
Statistik_III@LS-Kneip 2�34
c) Existenz von AusreiÿernResidualplot: Es existieren extrem groÿe oder extrem kleineBeobachtungen, deren Werte weit auÿerhalb des �normalen�Wertebereichs liegen (�Ausreiÿer�)
0 20 40 60 80 100
−40−20
020
40
0 20 40 60 80 100
−40−20
020
40
Solche untypischen Beobachtungen (Ausreiÿer) können dieWerte der geschätzen Parameter β0, β1, Kon�denzintervalle,etc. sehr stark beein�ussen. Im Extremfall können sie zurFolge haben, dass die Resultate der gesamten Regressions-analyse unsinnig und nicht interpretierbar sind.
Mögliche Lösungen:� Elimination der untypischen Beobachtungen� Durchführung der Analyse auf der Basis der verbleibenden
Stichprobe� Alternativ: Verwendung �robuster Methoden�
Es exisitiert eine Vielzahl von statistischen Diagnoseverfah-ren, die es erlauben, den Ein�uss einzelner Beobachtungenauf die Modellanpassung zu diagnostizieren und zu quanti�-zieren. Ein wichtiges Diagnosewerkzeug ist die Distanz vonCook (�Cook's D�).
Statistik_III@LS-Kneip 2�35
Identi�kation von Ausreiÿern: Cook`s Distance
� Daten (Y1, X1), . . . , (Yn, Xn)
⇒ Schätzungen β der Regressionsparameter
� Problem: Identi�kation von einzelnen Beobachtungen, diedie Schätzungen �zu stark� beein�ussen
� Ansatz: Für eine gegebene Beobachtung (Yi, Xi) berechnet
man neue Schätzer β−i =
(β0,−i
β1,−i
)aus den verbleibenden Da-
ten (Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn), diedurchWeglassen der betrachteten Beobachtungen (Yi, Xi) ent-stehen
→ geringer Ein�uss von (Yi, Xi) auf die Schätzwerte ⇔
kleiner Unterschied zwischen β =
(β0,
β1,
)und β−i =
(β0,−i
β1,−i
)
→ �starker� Ein�uss von (Yi, Xi) ⇔ groÿer Unterschied zwi-schen β und β−i
� Cook's Distance:
Di =(β−i − β)T ·XT X · (β−i − β)
2σ2
wobei X =
1 X1
1 X2
......
1 Xn
Statistik_III@LS-Kneip 2�36
� Verallgemeinerung auf multiple Regression (p > 1 erklärendenVariablen)
Di =(β−i − β)T ·XT X · (β−i − β)
(p + 1)σ2
mit β =
β0
β1
...βp
, β−i =
β0,−i
β1,−i
...βp,−i
, X =
1 X11 · · · X1p
......
......
1 Xn1 · · · Xnp
� Faustregel: Ein�uss von (Yi, Xi) �zu stark�, falls Di > 0, 8
Statistik_III@LS-Kneip 2�37
Graphisches Verfahren zur Überprüfung derNormalität: Normal-Quantil Plot (NQ-Plot)• Quantile der Standardnormalverteilung
p 0,5 0,75 0,95 0,975 0,99zp 0(Median) 0,67 1,64 1,96 2,33
• Beziehung zwischen den Quantilen ϕp und zp einer N(µ, σ2)und einer N(0, 1)-Verteilung:
ϕp = µ + σ · zp
• Daten r1, . . . , rn (z.B. Residuen)⇒ geordnete Urliste: r(1) ≤ r(2) ≤ . . . ≤ r(n)
• Der Normal-Quantil-Plot besteht aus den Punkten
(r(1), Z 0,5n
), (r(2), Z 1,5n
), (r(3), Z 2,5n
), . . . , (r(n), Zn−0,5n
)
im x-z - Koordinatensystem
• Falls die den Daten r1, . . . , rn zugrundeliegende Verteilungeine Normalverteilung ist, sollte gelten
r(i) = β0 + β1zi−0,5 + Zufallsschwankungen
Statistik_III@LS-Kneip 2�38
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
Normalverteilung
x
y
0.00
0.05
0.10
0.15
linkssteile Verteilung
x
y
0.00
0.05
0.10
0.15
rechtssteile Verteilung
x
y
−4 −2 0 2 4
0.0
0.1
0.2
0.3
0.4
symmetrisch, aber stark gekrümmt
x
y
Falls die empirische Verteilung der Beobachtungen approxima-tiv standard-normalverteilt ist, liegen die Punkte(r(1), Z 0,5
n), (r(2), Z 1,5
n), (r(3), Z 2,5
n), . . . , (r(n), Zn−0,5
n) nahe oder auf
der Winkelhalbierenden (vgl. Abbildung(a)).Falls weiterhin x = 0 gilt, aber die Verteilung linkssteil ist, sosind die z-Quantile gröÿer als die x-Quantile, sodaÿ der NQ-Plotdurchhängt, in der Tendenz also konvex ist(vgl. Abbildung(b)).Für eine rechtssteile Verteilung erhält man ganz analog einenkonkaven NQ-Plot(vgl. Abbildung(c)).Für eine symmetrische Verteilung, die bei x einen im Ver-Statistik_III@LS-Kneip 2�39
gleich zur Standardnormalverteilung �acheren Gipfel und da-für dickere Enden links und rechts besitzt, erhält man einenNQ-Plot wie in Abbildung(d).
−2 −1 0 1 2
−2
−1
01
2
NQ−Plot einer Normalverteilung (a)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2−
50
510
15
NQ−Plot einer linkssteilen Verteilung (b)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−10
−6
−4
−2
02
4
NQ−Plot einer rechtssteilen Verteilung (c)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
−2 −1 0 1 2
−5
05
NQ−Plot einer symmetrischen, stark gekümmten Verteilung (d)
Theoretical Quantiles
Sam
ple
Qua
ntile
s
Statistik_III@LS-Kneip 2�40
Statistik_III@LS-Kneip 2�41
Beispiel 2.2 (Nahrungsmittel/Haushaltseinkommen)
• Zufallsstichprobe von n = 500 britischen Haushalten
• Für jeden Haushalt i = 1, . . . , n zugehörige Werte von
Yi - Ausgaben für NahrungsmittelXi - Haushaltseinkommen
• Lineare Einfachregession⇒ Probleme:� Modellstruktur nicht adäquat (R2 = 0, 60)� Heteroskedastizität
• Transformationen
Yi → wi =Yi
Xi(Ausgabenanteile)
Xi → vi := ln Xi
• Lineare Einfachregression
wi = β0 + β1vi + εi
⇒ Ergebnis: Residuen approximativ homoskedastisch, keine er-kennbaren Abweichungen von der Modellstruktur (R2 = 0, 24)
Anmerkung: Rücktransformation Yi = Xi · wi = β0Xi + β1 · vi
erlaubt Prognose von Yi (R2 = 0, 79)
Statistik_III@LS-Kneip 2�42
Lineare Einfachregression Yi auf Xi
Beispiel einfügen
Transformiertes Modell wi = β0 + β1vi + εi
Beispiel einfügen
Beispiel 2.1. Lineare Einfachregression von Y auf X
Statistik_III@LS-Kneip 2�43
Beispiel 2.3 (Modi�kation Beispiel 1.2)
X 100 200 300 400 500 600 700 650Y 40 50 50 70 65 65 80 5!!
Call:lm(formula = ernte.data$y ~ ernte.data$x1)
Residuals:Min 1Q Median 3Q Max
-51.046 -3.205 4.792 12.541 23.287
Coefficients:Estimate Std. Error t value Pr(>|t|)
(Intercept) 47.36695 20.59051 2.30 0.0611 .ernte.data$x1 0.01335 0.04314 0.31 0.7674---Signif.codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1
Residual standard error: 24.96 on 6 degrees of freedomMultiple R-Squared: 0.01571, Adjusted R-squared: -0.1483F-statistic: 0.09579 on 1 and 6 DF, p-value: 0.7674
Statistik_III@LS-Kneip 2�44
100 200 300 400 500 600 700
2040
6080
Regressionsanalyse
X = Düngemittel
Y=
Ern
teer
trag
8
50 52 54 56
−40
−20
020
Residualplot
fitted Y
resi
dual
s
8
Statistik_III@LS-Kneip 2�45
1 2 3 4 5 6 7 8
0.0
0.2
0.4
0.6
0.8
1.0
Cook’s Distance
Index
cook
s.di
stan
ce(e
rnte
.lm)
7
8
Statistik_III@LS-Kneip 2�46
d) Autokorrelationen� Falls (Y1, X1), . . . , (Yn, Xn) einfache Zufallsstichprobe
⇒ (Yi, Xi) unabhängig von (Yj , Xj), i 6= j
⇒ εi unabhängig von εi unabhängig von εj , i 6= j
� Aber: In vielen ökonomischen Anwendungen sind (Yi, Xi)Messungen der interessierenden Gröÿen zu aufeinander-folgenden Zeitpunkten oder in aufeinanderfolgendenZeitintervallen i = 1, . . . , n (Zeitreihendaten)
⇒ Der Wert von Yi (oder εi) zu einem Zeitpunkt i kann denWert von Yi+1 (oder εi+1) am darauf folgenden Zeitpunkti + 1 beein�ussen⇒ Korrelationen der εi, εj , keine Unabhängigkeit
� Residualplot von εi in Abhängigkeit von i = 1, . . . , n po-sitive Korrelationen: Die Werte benachbarter εi, εi+1 sindtendenziell ähnlich
5 10 15 20 25
Autokorrelation
Zeitpunkt i
sim.a
r
� Mögliche Lösungen:∗ Verallgemeinerte Kleinste-Quadrate Methode∗ Methoden der Zeitreihenanalyse
Statistik_III@LS-Kneip 2�47