1 DieMethodederKleinstenQuadrate - Universität · PDF file1...

1 Die Methode der Kleinsten Quadrate

1.1 Einfache Regression

Problem: Analysiere den Ein�uss einer erklärenden Variable X

auf eine Zielvariable Y

Y − abhängige Variable (Zielvariable)(Konsum, Verkäufe, Ernteerträge, ...)

X − unabhängige Variable (erklärende Variable)(Einkommen, Investitionen, Düngemittel, ...)

Beobachtungen:

(Y1, X1), (Y2, X2), . . . , (Yn, Xn)

Beispiel 1.1 (Konsum/Einkommen in GB)Gesamtkonsum und Gesamteinkommen in Groÿbritannien (Pfundpro Kopf in Preisen von 1987), 1968-1995 :

2000 2500 3000 3500 4000

2000

2500

3000

3500

Konsum/Einkommen in GB (1986−1995)

durchschnittl. Jahreseinkommen pro Kopf

durc

hnitt

l. K

onsu

mau

sgab

en p

ro K

opf

Statistik_III@LS-Kneip 1�1

Beispiel 1.2 (Ernteertrag)

X YMenge des eingesetzten Düngers (kg/ha) Ernteertrag (Weizen)

100 40200 50300 50400 70500 65600 65700 80

100 200 300 400 500 600 700

4050

6070

80

Einfachregression

Düngemittel

Ernt

eertr

ag


Einfachster Fall

• Es existiert ein linearer Zusammenhang zwischen X und Y

• Y = β0 + β1X + Zufallsschwankungen

Problem:Wie bestimmt man die �beste� Gerade der Form Y = β0 + β1X

aus den Daten?

Beobachtungen angepasste (�prognostizierte� Werte)Y1 Y1 = β0 + β1X1

Y2 Y2 = β0 + β1X2

......

Yn Yn = β0 + β1Xn

Kriterium:Möglichst kleine Abweichungen zwischen den beobachteten Wer-ten Yi und den zugehörigen Prognosewerten Yi = β0 + β1Xi,i = 1, . . . , n


Schlechte Anpassung

0 2 4 6 8

01

23

4

X

Y

Gute Anpassung

0 2 4 6 8

01

23

4

X

Y


Die Methode der Kleinsten QuadrateMinimiere die Summe der quadratischen Di�erenzen zwischenden beobachteten und den prognostizierten Werten

⇒ Bestimme β0 und β1 durch Minimieren von

Q(β0, β1) =n∑

i=1

(Yi − Yi)2 =n∑

i=1

(Yi − β0 − β1Xi)2

Satz: Es gilt

β1 =

n∑i=1

(Xi − X)(Yi − Y )

n∑i=1

(Xi − X2)

β0 = Y − β1X

Anmerkung:β0 und β1 hängen von den jeweiligen Beobachtungen ab und sinddaher selbst Zufallsvariablen (�Kleinste-Quadrate-Schätzer�)

Beweis des Satzes:Notwendige Bedingung für die Existenz eines Minimums an ei-nem Punkt (β0, β1): Verschwinden der partiellen Ableitungen

⇒ 0 =∂

∂β0Q(β0, β1)|(β0,β1)=(β0,β1)

=n∑

i=1

2(Yi − β0 − β1Xi) · (−1)

0 =∂

∂β1Q(β0, β1)|(β0,β1)=(β0,β1)

=n∑

i=1

2(Yi − β0 − β1Xi) · (−Xi)


⇒ Normalengleichungen:

nβ0 + β1

n∑

i=1

Xi =n∑

i=1

Yi

β0

n∑

i=1

Xi + β1

n∑

i=1

X2i =

n∑

i=1

XiYi

• Die angegebenen Formeln für β0 und β1 ergeben sich alsLösungen der Normalengleichungen

• Durch die Überprüfung der entsprechenden Bedingungen andie zweiten (partiellen) Ableitungen läÿt sich leicht zeigen,dass Q an der Stelle (β0, β1) in der Tat ein Minimum besitzt.

Die Ausgleichsgerade (Kleinste-Quadrate-Gerade)

100 200 300 400 500 600 700

4050

6070

80

Kleinste−Quadrate−Gerade

Düngemittel

Erntee

rtrag

Y = β0 + β1X = 36, 4 + 0, 059X

Steigung β1: Veränderung von Y , die mit der Veränderung vonX um eine Einheit einhergeht

Wichtige Anmerkung:Es exisitiert nicht notwendigerweise ein kausaler Zusammenhang!!Statistik_III@LS-Kneip 1�6

Ein trauriges Märchen

Es gab einmal eine Cholera-Epidemie in der Region A des StaatesB. Zur Verbesserung der Situation beschloss die Regierung, einegroÿe Anzahl zusätzlicher Ärzte in die am stärksten betro�enenStädte zu schicken. Ein wenig später versammelte sich ein Teilder Bevölkerung aus Region A, um selbst nach Auswegen aus derKrise zu suchen. Sie fanden folgenden Zusammenhang:

0.00 0.02 0.04 0.06 0.08

010

2030

40

Choleraepidemie

X=Anteil Ärtze pro Stadt (in %)

Y=

Ant

eil I

nfiz

iert

e pr

o S

tadt

(in

%)

Auf Grund dieser Tatsache töteten sie alle Ärzte !


Fortsetzung Beispiel 1.2 (Ernteertrag)

X 100 200 300 400 500 600 700Y 40 50 50 70 65 65 80

⇒ Kleinste Quadrate Schätzer:

β1 =

7∑i=1

(Xi − X)(Yi − Y )

n∑i=1

(Xi − X2)=

16, 5280

= 0, 059

β0 = Y − β1X = 60− 0, 059 · 400 = 36, 4

⇒ Ausgleichsgerade: Yi = 36, 4 + 0, 059Xi

100 200 300 400 500 600 700

4050

6070

80

Einfachregression

Düngemittel

Ernt

eertr

ag


Beispiel 1.3 (CAPM)

• Capital Asset Pricing Model (CAPM) dient zum Vergleichverschiedener Aktien bzgl. ihres Risikos

• Beta-Faktor einer Aktie: Risiko dieser Aktie gemessen amRisiko des gesamten Marktes

• Beruht auf der Anpassung einer Ausgleichsgerade

Yi = β0 + β1Xi + Zufallsschwankungen

� β1 > 1 : Risiko der Aktie überproportional zumMarktrisiko

� β1 < 1 : weniger risikobehaftete Aktie

−0.010 −0.008 −0.006 −0.004 −0.002 0.000

−0.

010

−0.

008

−0.

006

−0.

004

−0.

002

0.00

0

Capital Asset Pricing Model

X = DAFOX−Rendite minus Zins

Y =

MR

U−

Ren

dite

min

us Z

ins

• Kleinste Quadrate:

Yi = 0, 0000940 + 1, 0558865︸︷︷︸β1

Xi


1.2 Multiple Regression

• Analysiere eine Zielvariable Y als Funktion mehrerer erklä-render Variablen X1, . . . , Xp

• Beobachtungen(Y1, X11, . . . , X1p), (Y2, X21, . . . , X2p), . . . , (Yn, Xn1, . . . , Xnp)

• Linearer Zusammenhang zwischen Y und X1, . . . , Xp :

Yi = β0+β1Xi1+β2Xi2+ . . .+βpXip +Zufallsschwankungen

⇒ Bestmögliche Anpassung einer linearen Funktion der Form

Yi = β0 + β1Xi1 + . . . + βpXip

an die Daten.

• Die Methode der Kleinsten Quadrate:Bestimme β0, β1, . . . , βp durch Minimieren von

Q(β0, . . . , βp) =n∑

i=1

(Yi−Yi)2 =n∑

i=1

(Yi−β0−β1Xi1−. . .−βpXip)

• Nullstellen der partiellen Ableitungen von Q(β0, . . . , βp)

⇒ β0, β1, . . . , βp

• Problem: sehr komplexe Formeln für groÿes p

• Aber: Allgemeine Darstellung möglich!Notwendiges Hilfsmittel: Matrizenrechnung



• Ernteertrag abhängig von

Menge des DüngemittelNiederschlagsmengeBodenqualität...

• Düngemittel als einzige erklärende Variable: Ein groÿer Teilder Schwankungen um die Ausgleichsgerade erklärbar durchunterschiedliche Werte von Niederschlagsmengen, Bodenqua-lität, . . .

⇒ Verbesserung der Prognose durch die Einbeziehung weiterererklärender Variablen

Y - Ernteertrag 40 50 50 70 65 65 80X1 - Düngemittel 100 200 300 400 500 600 700X2 - Niederschlag 10 20 10 30 20 20 30

• Ansatz: Yi = β0 + β1Xi1 + β2Xi2


Darstellung mit Hilfe der Matrizenrechnung

Die Gleichung

Yi = β0 + β1Xi1 + . . . + βpXip, i = 1, . . . , n

lässt sich auch in folgender Form darstellen.

Y1

Y2

...Yn

︸︷︷︸Y

=

1 X11 X12 · · · X1p

1 X21 X22 · · · X2p

......

......

1 Xn1 Xn2 · · · Xnp

︸︷︷︸X

·

β0

β1

...βp

︸︷︷︸β

¨

§

¥

¦

Einfachster Fall: p = 1 ⇔ Einfachregression

Yi = β0+β1Xi i = 1, . . . , n ⇔

Y1

Y2

...Yn

=

1 X1

1 X2

......

1 Xn

·β0

β1

• Transponierte der Matrix X:

XT =

1 1 1 · · · 1

X1 X2 X3 · · · Xn

⇒ XT ·X =

nn∑

i=1

Xi

n∑i=1

Xi

n∑i=1

X2i


• β0 und β1 berechnen sich aus den Normalengleichungen:

nβ0 + β1

n∑i=1

Xi

β0

n∑i=1

Xi + β1

n∑i=1

X2i

=

n∑i=1

Yi

n∑i=1

XiYi

• Die Normalengleichungen lassen sich folgendermaÿen um-schreiben:

nn∑

i=1

Xi

n∑i=1

Xi

n∑i=1

X2i

·

β0

β1

=

1 1 · · · 1

X1 X2 · · · Xn

·

Y1

Y2

...Yn

⇒ XT ·X ·β0

β1

= XT ·

Y1

Y2

...Yn

• Normalengleichungen: zwei lineare Gleichungen, die β0 undβ1 eindeutig bestimmen


Verallgemeinerung auf multiple Regression

Normalengleichungen zur Bestimmung der Koe�zientenβ0, β1, . . . , βp, die Q(β0, β1, . . . , βp) minimieren.

• Satz:β0, β1, . . . , βp ergeben sich als Lösungen folgender p + 1 li-nearer Gleichungen (�Normalengleichungen�)

nn∑

i=1

Xi1 · · ·n∑

i=1

Xip

n∑i=1

Xi1

n∑i=1

X2i1 · · ·

n∑i=1

Xi1Xip

......

...n∑

i=1

Xip

n∑i=1

Xi1Xip · · ·n∑

i=1

X2ip

︸︷︷︸XT ·X

·

β0

β1

...βp

=

1 1 · · · 1

X11 X21 · · · Xn1

......

......

X1p X2p · · · Xnp

︸︷︷︸XT

·

Y1

Y2

...Yn

• Die Werte von β0, . . . , βp sind durch die Normalgleichungeni.Allg. eindeutig bestimmt(Ausnahme: Kolinearität zwischen einzelnen Variablen X1, . . . , Xp).Die praktische Berechnung erfolgt durch geeignete numeri-sche Verfahren (Gausselimination, . . .)


• Allgemeine mathematische Darstellung:Es gilt

(XT X)−1 ·XT X ·

β0

...βp

=

β0

...βp

®

©

ª

⇒

β0

β1

...βp

︸︷︷︸β

= (XT X)−1 ·XT ·

Y1

Y2

...Yn

︸︷︷︸Y

Anmerkung:Die Inverse A−1 einer beliebigen regulären symmetrischenMatrix A ist de�niert durch die Gleichung AA−1 = I,

I =

1 0. . .

0 1

= �Identitätsmatrix�



Kleinste Quadrate:

7 2800 140

2800 1400000 63000

140 63000 3200

︸︷︷︸XT ·X

·

β0

β1

β2

=

420

184500

9000

︸︷︷︸XT Y

⇒ β0 = 28, 1, β1 = 0, 038, β2 = 0, 83

⇒ Yi = 28, 1 + 0, 038Xi1 + 0, 83Xi2

0 200 400 600 800

020

4060

8010

0

Multiple Regression

solid = X_2=10, dashed=X_2=20, dotted=X_2=30Düngemittel X_1

Ern

teer

trag

Y


Call:lm(formula = ernte.data$y ~ 1 + ernte.data$x.1 + ernte.data$x.2)

Residuals:1 2 3 4 5 6 7

-0.2381 -2.3810 2.1429 1.6667 1.1905 -2.6190 0.2381

Coefficients:Estimate Std. Error t value Pr(>|t|)

(Intercept) 28.095238 2.491482 11.277 0.000352 ***ernte.data$x.1 0.038095 0.005832 6.532 0.002838 **ernte.data$x.2 0.833333 0.154303 5.401 0.005690 **---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 2.315 on 4 degrees of freedomMultiple R-Squared: 0.9814, Adjusted R-squared: 0.972F-statistic: 105.3 on 2 and 4 DF, p-value: 0.0003472

Interpretation der Parameter (Achtung):

• β1 - Proportionalitätsfaktor, quanti�ziert die Veränderungvon Y bei Erhöhung von X1 um eine Einheit unter Kon-stanthaltung von X2

• β2 - Proportionalitätsfaktor, quanti�ziert die Veränderungvon Y bei Erhöhung von X2 um eine Einheit unter Kon-stanthaltung von X1


1.3 Nichtlineare Regression

• Problem: Analyse der Zielvariablen Y als Funktion einererklärenden Variable X

• Standardansatz: Anpassung einer Ausgleichsgerade• In der Praxis ist die Beziehung zwischen Y und X manch-

mal von komplexerer Struktur. Der Standardansatz ist dannnicht anwendbar.

Fortsetzung Beispiel 1.2 (Ertnteertrag)

Y - Ernteertrag (Weizen)X - Menge des eingesetzen Düngers (kg/ha)

1.) n = 7 Beobachtungen X1 = 100, . . . , X7 = 700⇒ approximativ lineare Beziehung

Yi = β0 + β1Xi + Zufallsschwankungen

2.) n = 14 Beobachtungen X1 = 100, . . . , X14 = 1400⇒ Anpassung einer Geraden nicht mehr sinnvoll

0 500 1000 1500

020

4060

8010

012

0

Nichtlinearer Zusammenhang

solid = quadratic, dashed= linear Düngemittel X

Erntee

rtrag Y


Möglicher Ansatz:

Yi = β0 + β1Xi + β2X2i + Zufallsschwankungen

⇒ Anpassung eines quadratischen Polynoms an die Daten

Yi = β0 + β1Xi + β2X2i

⇒ Bestimmung von β0, β1, β2 durch die Methode der kleinstenQuadrate

Wichtig: Nur Spezialfall einer multiplen Regression

Mit Xi1 = Xi , Xi2 = X2i

⇒ Yi = β0 + β1Xi1 + β2Xi2 + Zufallschwankungen

⇒ Yi = β0 + β1Xi1 + β2Xi2

⇒

β0

β1

β2

= (XT X)−1XT ·

Y1

...Yn

mit X =

1 X11 X12

......

...1 Xn1 Xn2

=

1 X1 X21

......

...1 Xn X2

n


Analog: Anpassung von Modellen der Form

∗ Yi = β0 + β1 Xi︸︷︷︸Xi1

+β2 X2i︸︷︷︸

xi2

+β3 X3i︸︷︷︸

xi3

X

Y

∗ Yi = β0 + β1 ln Xi︸︷︷︸Xi1

X

Y

X

Y

β1 < 0 β1 > 0

∗ Yi = β0 + β1 ln Xi︸︷︷︸Xi1

+β2 (lnXi)2︸︷︷︸Xi2

∗ Yi = β0 + β1 Xi︸︷︷︸Xi1

+β2 X2i︸︷︷︸

Xi2

+β3 X3i︸︷︷︸

Xi3

+β4 X4i︸︷︷︸

Xi4


• In der Fachliteratur werden solche Modelle üblicherweise auchals lineare Regressionsmodelle bezeichnet, da sie sich in denRahmen der multiplen Regression einbetten lassen.

• Man spricht von einer �echten� nichtlinearen Regression,falls das Modell nichtlinear in den Koe�zienten β ist.

Beispiel 1.4 (Wertverlust eines Autos (CV Citroen))

X - Alter des Autos in JahrenY - relativer Wertverlust = Verkaufspreis

Preis des Neuwagens

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Wertverlust eines Autos

X= Alter in Jahren

Y =

rel

ativ

er W

ertv

erlu

st

0 2 4 6 8 10

0.0

0.2

0.4

0.6

0.8

1.0

Ansatz: Yi = e−βx + Zufallsschwankungen

⇒ Anpassung einer Exponentialfunktion Yi = e−βxi an die DatenStatistik_III@LS-Kneip 1�21

• Bestimmung von β durch die Methode der Kleinsten Qua-drate:Minimiere Q(β) =

n∑

i=1

(Yi − e−βX−i)2

• Berechnung von β durch iterative numerische Verfahren (z.B.Gauss-Newton Algorithmus); im Allg. keine expliziten ana-lytischen Formeln

• Statistische Inferenz beruht auf asymptotischer (n groÿ) Ap-proximation

• Aber: In manchen Fällen ist eine Rückführung auf ein li-neares Regressionsproblem möglich, indem man die Datengeeignet transformiert.

Beispiel:

Yi ≈ β0e−β1Xi

⇒ ln Yi ≈ ln β0 − β1Xi

⇒ Anpassung einer Ausgleichsgeraden an ln Y1, . . . , ln Yn


2 Einfache Regression

2.1 Die Regressionsfunktion• Problem:

Analysiere den Ein�uss einer erklärenden (�unabhängigen�)Variable X auf eine Zielvariable (�abhängige Variable�) Y .

• Daten: (Y1, X1) , (Y2, X2), . . . , (Yn, Xn)

• Ansatz:Yi = m(Xi) + εi

∗ m(·) Regressionsfunktion, beschreibt den systematischenTeil der Beschreibung zwischen Y und X

∗ ε1, . . . , εn Zufallsschwankungen (�Fehlerterm�)

0 20 40 60 80 100

−20

−10

010

2030

Die Regressionsfunktion m(x)

x

y

m(x)



• n = 35 Beobachtungen

• Für jeden der 7 verschiedenen eingesetzten MengenX = 100, 200, 300, 400, 500, 600, 700 kg/ha des Düngemittelswerden die entsprechenden Ernteerträge Y für jeweils 5 ver-schiedene, gleichgroÿe Parzellen ermittelt.

100 200 300 400 500 600 700

Düngemittel (kg/ha)

Ern

teer

trag


Mathematische Formalisierung:• Für jeden möglichen Wert x von X betrachte die bedingte

Verteilung f(Y |X = x) von Y gegeben X = x.Dann ist

m(x) = E(Y |X = x)

= bedingter Erwartungswert von Y gegeben X = x

Beispiel:

0 5 10 15

bedingte Verteilung von Y gegeben X=5

f(Y|X=5)

0 5 10 15

0 5 10 15

bedingte Verteilung von Y gegeben X=10

0 5 10 15

f(Y|X=10)


• An den Beobachtungspunkten:m(Xi) = E(Y |X = Xi)

εi = Yi − E(Y |X = Xi) = Yi −m(Xi)

• Verteilung von εi ≡ bedingte Verteilung von

Yi − E(Y |X = Xi) gegeben X = Xi.

• E(εi) = 0, d.h. die Verteilung von εi besitzt den Mittelwert0

• σ2i = Var(εi) = Varianz von εi = Maÿ für die Streuung von

εi um den Mittelwert 0

• Allgemeiner Fall:Die Verteilung der εi können ebenso wie ihre Varianzen σ2

i

von dem jeweiligen Beobachtungspunkt X = Xi abhängen.

Annahmen der linearen Einfachregression

1. Linearität:m(x) = β0 + β1x

2. Unabhängigkeit:ε1, . . . , εn sind voneinander unabhängige Zufallsvariablen

3. Homoskedastizität

σ2 := σ21 = σ2

2 = . . . = σ2n

4. [Normalität:]

εi ∼ N(0, σ2) i = 1, . . . , n


• allgemeiner Fall

x

Verteilung der Epsilons

im allgemeinem Fall

• Lineare Einfachregressiony

x

Verteilung der Epsilons bei linearer Einfachregression


Modell der linearen Einfachregression:¨

§

¥

¦

Yi = β0 + β1Xi + εi, i = 1, . . . , n

∗ ε1, . . . , εn unabhängig∗ σ2 = Var(ε1) = . . . = Var(εn)

∗ [εi ∼ N(0, σ2)

]

Anmerkungen:

• Fehlertern εi - Messfehler + Ein�uss unbeobachteterVariablen

• Die Werte Xi können deterministisch, d.h. fest vorgebensein ( geplanter Versuch), oder sie können sich als Reali-sierungen von Zufallsvariablen Xi ergeben. Im zweiten Fallbezieht sich das obige Modell auf die jeweils beobachtetenWerte X1, . . . , Xn.

• Falls Y, X Zufallsvariablen, (Y1, X1), . . . , (Yn, Xn) Zufallsstich-probe von (Y, X) und X unabhängig von Y

⇒ f(X,Y )︸︷︷︸gemeinsame Verteilung

von (X, Y )

= f(X)︸︷︷︸Randverteilung

von X

· f(Y )︸︷︷︸Randverteilung

von Y

⇒ f(Y |X = x) = f(Y ) unabhängig von X

⇒ E(Y |X = x) = konstant, unabhängig von X

⇒ Yi = β0 + εi, i = 1, . . . , n

d.h. die Steigung β1 der Modellgeraden ist Null


2.2 Der Kleinste-Quadrate Schätzer

• Modellgerade : Y = β0 + β1X

• Ausgleichsgerade: Y = β0 + β1X

• �Kleinste-Quadrate-Schätzer� von β0, β1

β1 =

n∑i=1

(Xi − X)(Yi − Y )

n∑i=1

(Xi − X)2

und β0 = Y − β1X

• Ein�uss der �Fehlers� εi: Im Allgemeinen β0 6= β0, β1 6= β1

Eigenschaften von β0, β1

1. ErwartungswertE(β0) = β0 , E(β1) = β1,d.h. β0 und β1 sind erwartungstreue Schätzer von β0 und β1.

2. Varianz

Var(β0) = E((β0 − β0)2) =σ2

n·

n∑i=1

X2i

n∑i=1

(Xi − X)2

Var(β1) = E((β1 − β1)2) =σ2

n∑i=1

(Xi − X)2


3. KonsistenzFalls für n →∞ gilt

n∑i=1

(Xi − X)2 →∞, dann gilt

β0 −→p

β0 , β1 −→p

β1

4. Verteilung:Falls εi ∼ N(0, σ2), so erhält man

β0 ∼ N

β0,

σ2

n·

n∑i=1

X2i

n∑i=1

(Xi − X)2

β1 ∼ N

β1,

σ2

n∑i=1

(Xi − X)2

Anmerkung:Für groÿes n bleiben die angegebenen Verteilungen auch danni.Allg. approximativ gültig, wenn die εi nicht normalverteiltsind (zentraler Grenzwertsatz)

• i.Allg. wichtigster Parameter: β1 - Steigung der Gerade

β1 ∼ N(β1, Var(β1)),

wobei

Var(β1) =σ2

n∑i=1

(Xi − X)2=

σ2

(n− 1)[∑n

i=1(Xi−X)2

n−1

] =σ2

(n− 1)S2X


Standardabweichung von β1

β1

f(β1)

Standardabweichung von β1 =σ

n − 1Sx

β1 = Mittelwert

• Die Varianz von β1 ist umso kleiner je� kleiner σ2, die Varianz des Fehlerterms� gröÿer n, die Anzahl der Beobachtung� gröÿer SX , die Streuung der X1, . . . , Xn

0 2 4 6 8 10

02

46

812

geringe Streuung von x1…xn

x

y

m(x) = β0 + β1x

Y = β0 + β1x

0 2 4 6 8 10

02

46

812

größere Streuung von x1…xn

x

y

m(x) = β0 + β1x

Y = β0 + β1x


Exkurs: Schätztheorie

Sei β = β(Y1, . . . , Yn) ein Schätzer eines unbekannten Parametersβ auf der Grundlage einer Stichprobe Y1, . . . , Yn der Gröÿe n.

• Verzerrung (�Bias�)

Bias(β) = E(β)− β

β heiÿt �erwartungstreu� oder �unverzerrt�, falls Bias(β) = 0

• Maÿ der SchätzgüteMittlere quadratische Abweichung, abgekürzt MSE (für �meansquared error�)

MSE(β) = E((β − β)2) = [Bias(β)]2 + Var(β)

Erwünschte asymptotische Eigenschaften:

Schreibweise: βn (zur Hervorhebung der Abhängigkeit von n)

• Konsistenz im quadratischen Mittel:

MSE(βn) −→ 0 für n −→∞

• Schwache Konsistenz:Für beliebiges δ < 0 gilt

limn→∞

P (|βn − β| < δ) = 1

Man schreibt βn −→p

β


Anmerkung:Konsistenz im quadratischen Mittel impliziert schwache Kon-vergenz. Dies ist eine Konsequenz der Ungleichung von Tsche-bysche�: Für eine Zufallsvariable Z gilt für beliebiges δ > 0

P (|Z − E(Z)| ≥ δ) ≤ Var(Z)δ2

• Asymptotische Normalität:Für groÿes n gilt approximativ

β ∼ N(β, Var(β))

Anmerkung:Asymptotische Normalität gilt für die groÿe Mehrheit allerwichtigen Schätzer, die in der statistischen Praxis Verwen-dung �nden. Sie ist immer eine Folgerung aus dem zentralenGrenzwertsatz.� Viele Schätzer β lassen sich in guter Approximation in der

Form β ≈n∑

i=1

aiYi (a1, . . . , an = Folge von Gewichten) schrei-ben

� Zentraler Grenzwertsatz:Unter schwachen Bedingungen

∑ni=1 aiYi asymptotisch nor-

mal• Vergleich zweier verschiedener Schätzer β und β∗

∗ β heiÿt �wirksamer� (oder �e�zienter�) als β∗, wenn

MSE(β) ≤ MSE(β∗)

für alle zugelassenen Werte des Parameters β

∗ β, β∗ erwartungstreu ⇒ β wirksamer als β∗, falls

Var(β) ≤ Var(β∗)


Kleinste Quadrate Schätzer:

β linearer Schätzer ⇒ es existiert eine Gewichtsfolge a1, . . . , an,so dass β =

n∑i=1

aiYi

⇒ β0, β1 sind lineare, erwartungstreue Schätzer

¤

£

¡

¢

Satz von Gauss-Markov:β0 und β1 sind die wirksamsten Schätzer von β0 und β1 inder Klasse aller linearen und erwartungstreuen Schätzer.

⇒ β∗1 linearer, erwartungstreuer Schätzer von β1:

Var(β1) ≤ Var(β∗1)


2.3 Kon�denzintervalle und Tests

• β1 ∼ N

β1,

σ2

n∑i=1

(Xi − X)2

⇒ Standardisierung:

β1 − β1√σ2

n∑i=1

(Xi−X)2

∼ N(0, 1)

• Problem:σ2 unbekannt ⇒ Schätzung aus den Daten� es gilt E(εi) = 0, σ2 = Var(εi)

� Residuum εi = Yi − Yi = Yi − β0 − β1Xi �schätzt� denFehler εi

Schätzer σ2 von σ2:

σ2 =1

n− 2

n∑

i=1

(Yi − Yi)2 =1

n− 2

n∑

i=1

(Yi − β0 − β1Xi)2

σ2 ist ein erwartungstreuer Schätzer von σ2

• Ersetzt man σ2 durch σ2 folgt die standardisierte Schätz-funktion einer Student t-Verteilung mit n − 2 Freiheitsgra-den:

β1 − β1√σ2

n∑i=1

(Xi−X)2

∼ tn−2


2.3.1 Kon�denzintervalle

• Es gilt:

P

−tn−2,1−α

2≤ β1 − β1

σ√n∑

i=1(Xi−X)2

≤ tn−2,1−α2

= 1− α

⇒ P

β1 − tn−2,1−α

2· σ√

n∑i=1

(Xi−X)2≤ β1 ≤ β1 + tn−2,1−α

2· σ√

n∑i=1

(Xi−X)2

= 1− α

⇒ Kon�denzintervall für β1 zum Niveau 1− α:

β1 = β1 ± tn−2,1−α2

σ · 1√n∑

i=1

(Xi − X)2

• n > 30: Quantile der tn−2 - Verteilung≈Quantile der N(0, 1)Verteilung

Analog: Kon�denzintervall für β0

• β0 − β0

S(β0)∼ tn−2, wobei (β0) = σ ·

√n∑

i=1X2

i

√n

n∑i=1

(Xi−X)2

• β0 = β0 ± tn−2,1−α2

S(β0)


2.3.2 Hypothesen-Test

• Man betrachtet Hypothesen der Form

H0 : β1 = c , H1 : β1 6= c

c: vorgegebener Wert

• von besonderem Interesse:

H0 : β1 = 0 , H1 : β1 6= 0

(Test auf die Nichtexistenz einer linearen Beziehung zwischenY und X)

• Teststatistik

T =β1 − c

S(β1), S(β1) = σ · 1√

n∑i=1

(Xi − X)2

• Ablehnungsbereich zu einem Signi�kanzniveau α

H0 wird abgelehnt, falls

|T | ≥ t1−α2 ,n−2

bzw. (vollkommen äquivalent), falls p-Wert zu klein

p-Wert = 2 · P (t1−α2 ,n−2 ≥ |Tbeobachtet|)

• Test zum Signi�kanzniveau α lehnt H0 genau dann ab, fallsc nicht im (1− α)-Kon�denzintervall:

c /∈[β1 − tn−2,1−α

2S(β1), β1 + tn−2,1−α

2S(β1)

]

• Analog: Einseitige Tests, Test für H0 : β0 = c, H1 : β0 6= c


2.3.3 Kon�denzintervall für m(x0) zu gegebenen X0

• Es gilt

m(X0) = β0 + β1X0

⇒ m(X0) = β0 + β1X0

100 200 300 400 500 600 700

4050

6070

80

X

Y

Y = β0 + β1x

• Aus den Formeln für die Varianzen von β0 und β1 lässt sichschlieÿen, dass

Var(m(X0)) = σ2 ·

1n

+(X0 − X)2n∑

i=1

(Xi − X)2

⇒ m(X0) ∼ N

β0 + β1X0︸︷︷︸

m(X0)

, σ2 ·

1n

+(X0 − X)2n∑

i=1

(Xi − X)2

⇒ m(X0)−m(X0)

σ ·√

1n

+ (X0−X)2n∑

i=1(Xi−X)2

∼ N(0, 1) ;m(X0)−m(X0)

σ ·√

1n

+ (X0−X)2n∑

i=1(Xi−X)2

∼ tn−2


⇒ Kon�denzintervall:

β0 + β1X0 = β0 + β1X0 ± tn−2,1−α2· σ

√√√√√1n

+(X0 − X)2n∑

i=1

(Xi − X)2

• Konstruktion des Kon�denzintervalls für alle möglichen Punk-te X0 ⇒ Kon�denzintervall für die Regressionsgerade

100 200 300 400 500 600 700 800

2040

6080

100

eingesetztes Düngemittel

pred

icte

d y

Konfidenzintervall für m(x0)

100 200 300 400 500 600 700 800

2040

6080

100


pred

icte

d y


2.4 Prognose• Problem:

Prognostiziere zu einem neuen Wert X0 die zugehörige Rea-lisierungen Y0 der Zielvariablen Y

• Modell:

Y0 = β0 + β1X0 + ε0 = m(X0) + ε0

ε0 ∼ N(0, σ2); ε0 unabhängig von ε1, . . . , εn

• Prognose:Ersetze β0, β1 durch β0, β1, sowie ε0 durch seinen Mittelwert0

⇒ Y0 = β0 + β1X0 = m(X0)

• Problem: Genauigkeit der Prognose? ⇒ Prognoseintervall(Kon�denzintervall) der Form [T1, T2] derart, dass

P (Y0 ∈ [T1, T2]) = 1− α

0 200 400 600 800

4060

8010

0

Düngemittel

Ern

teer

trag

0 200 400 600 800

4060

8010

0

Düngemittel

Ern

teer

trag

Y = β0 + β1X

mögliche Wertevon Y0


• E(Y0 − Y0) = E(β0 + β1X0 + ε0 − β0 − β1X0) = 0

• m(X0) = β0 + β1X0 ist unabhängig von ε0

⇒ Var(Y0 − Y0) = Var(m(X0)− m(X0) + ε0)

= Var(ε0) + Var(m(X0))

= σ2 + σ2

1n

+(X0 − X)2n∑

i=1

(Xi − X)2

• Y0 − Y0 ∼ N

0, σ2 ·

1 +

1n

+(X0 − X)2n∑

i=1

(Xi − X)2

• Prognoseintervall (Niveau 1− α)

Y0 = Y0 ± tn−2,1−α2· σ ·

√√√√√1 +1n

+(X0 − X)2n∑

i=1

(Xi − X)2

100 200 300 400 500 600 700 800

2040

6080

100


pred

icte

d y

Konfidenzintervall für m(x0)Prognoseintervall für x0

100 200 300 400 500 600 700 800

2040

6080

100


Fortsetzung Beispiel 1.3 (CAPM)

In Kapitel 1 wurden bereits die Kleinste-Quadrate-Schätzungenfür das CAPM bezüglich der MRU-Aktie bestimmt:

Yi = 0.0000940︸︷︷︸β0

+1, 0558865︸︷︷︸β1

Xi

• Weiterhin ergibt sich (n = 37):

σ2 =2, 773051 · 10−05

35= 7, 923004 · 10−07

S(β0) = 0, 0002707, S(β1) = 0, 0424467

⇒ 95%-Kon�denzintervalle

β0 ± 0, 0002707 · 2, 030108 = [−0, 0004554863; 0, 0006434851]

β1 ± 0, 0424467 · 2, 030108 = [0, 9697152; 1, 1420578]

• Nur β1 signi�kant von Null verschieden (Ablehnung von H0 :β1 = 0 durch einen Test zum Niveau 5%)

• Die Hypothese H0 : β1 = 0 kann nicht abgelehnt werden


• Kon�denzintervalle für die Regressionsgerade

−0.010 −0.008 −0.006 −0.004 −0.002 0.000

−0.

010

−0.

008

−0.

006

−0.

004

−0.

002

0.00

0

Capital Asset Pricing Model

X = DAFOX−Rendite minus Zins

Y =

MR

U−

Ren

dite

min

us Z

ins


2.5 Korrelation und Regression• Korrelation zwischen zwei Zufallsvariablen X und Y

ρXY =σXY

σX · σY=

Cov(X, Y )√Var(X) ·

√Var(Y )

∗ −1 ≤ ρXY ≤ 1

∗ X unabhängig von Y ⇒ ρXY = 0(die Umkehrung gilt nicht)

∗ ρXY = 1 ⇔ Y = β0 + β1X , β1 > 0

∗ ρXY = −1 ⇔ Y = β0 + β1X , β1 < 0

∗ ρXY - Maÿ für den linearen Zusammenhang zwischen X

und Y

• Zufallsstichprobe (Y1, X1), . . . , (Yn, Xn):ρXY lässt sich schätzen durch den �Korrelationskoe�zienten�

r =

n∑i=1

(Xi − X)(Yi − X)√

n∑i=1

(Yi − Y )2√

n∑i=1

(Xi − X)2=

1n−1

n∑i=1

(Xi − X)(Yi − Y )

SXSY

∗ −1 ≤ r ≤ 1

∗ r = 1 ⇔ ρXY = 1 ⇔ Y = β0 + β1X , β1 > 0

∗ r = −1 ⇔ ρXY = −1 ⇔ Y = β0 + β1X , β1 < 0


• Es gilt

r =

n∑i=1

(Xi − X)(Yi − Y )

n∑i=1

(Xi − X)2·

√n∑

i=1

(Xi − X)2

√n∑

i=1

(Yi − Y )2= β1 · SX

SY

⇒ r > 0 ⇔ β1 > 0, r < 0 ⇔ β1 < 0, r = 0 ⇔ β1 = 0

• Die gleiche Beziehung gilt zwischen der wahren KorrelationρXY und der wahren Steigung β1:ρXY > 0 ⇔ β1 = 0, ρXY < 0 ⇔ β1 < 0, ρXY = 0 ⇔β1 = 0

• Dieser Zusammenhang zwischen ρXY und β1 bleibt selbstdann bestehen, wenn das Modell der linearen Einfachregres-sion nicht gültig ist. In diesem Fall ist β1 de�niert als derje-nige Wert, der

E[(Y − β0 − β1X)2

]

minimiert.


0 10 20 30 40 50

r = 0.6, β ^1 > 0

x

y

0 10 20 30 40 50

r = 1, β ^1 > 0, Yi = Yi

x

y

0 10 20 30 40 50

r = − 0.8, β ^1 < 0

x

y

0 10 20 30 40 50

r = − 1, β ^1 < 0, Yi = Yi

x

y

0 10 20 30 40 50

X unabhängig von Y: r = 0, β ^1 = 0

x

y

0 10 20 30 40 50

X abhängig von Y: r = 0, β ^1 = 0

x

y


2.6 Die Streuungszerlegung und das Bestimmt-heitsmaÿ

Frage: Welcher Anteil der Streuung der Yi lässt sich durch dieRegression von Y auf X erklären?

• Man beachte: 1n

n∑i=1

Yi = Y

• Gesamtstreuung der Yi

SQT =n∑

i=1

(Yi − Y )2

• Streuungszerlegung

SQT = SQE+ SQRn∑

i=1

(Yi − Y )2 =n∑

i=1

(Yi − Y )2 +n∑

i=1

(Yi − Yi)2

• SQE : erklärte Streuung; SQR: Residualstreuung

• Yi = β0 + β1Xi (ohne Fehler) ⇒ SQT = SQE

• β1 = 0 ⇒ Yi = Y ⇒ SQT = SQR

• Bestimmtheitsmaÿ oder �Determinationskoe�zient�

R2 =SQESQT

=

n∑i=1

(Yi − Y )2

n∑i=1

(Yi − Y )2= 1−

n∑i=1

(Yi − Yi)2

n∑i=1

(Yi − Y )2


• 0 ≤ R2 ≤ 1

• R2 = r2

• R2 dient als Maÿzahl für die Güte der Modellanpas-sung∗ R2 = 1 ⇒ Yi = β0 + β1Xi

0 5 10 15 20

05

1015

20

R^2=1

X

Y

∗ R2 nahe 1 (z.B. R2 = 0, 9)⇒ σ2 (Schätzung von σ2) klein, gute Prognosen zu er-warten!

0 5 10 15 20

05

1015

20

R^2 nahe 1

X

Y


∗ R2 ≈ 0 ⇒ β1 ≈ 0 ⇒ Erklärte Streuung fast null,Regression nutzlos

Mögliche Erklärungen:

0 10 30 50 70

X unabhängig von Y

x

y

Y = Y

0 10 30 50 70

Modell falsch

x

y

Y = Y

• Streuungszerlegung: Test der Hypothese

H0 : β1 = 0 (bzw. H0 : ρY X = 0)

gegenH0 : β1 6= 0 (bzw. H0 : ρY X 6= 0)

• H0 wahr:F =

SQESQR /(n− 2)

∼ F1,n−2

F1,n−2 = F-Verteilung mit 1 und n− 2 Freiheitsgraden

⇒ Ablehnung von H0, falls der beobachtete Wert von F zugroÿ

Anmerkung:Analyse der Streuungszerlegung + F -Test wird auch als �Va-rianzanalyse� bezeichnet


Fortsetzung Beispiel 1.3 (Ernteertrag)Residuals:

1 2 3 4 5 6 7-2.3214 1.7857 -4.1071 10.0000 -0.8929 -6.7857 2.3214


(Intercept) 36.42857 5.03812 7.231 0.00079 ***ernte.data$x 0.05893 0.01127 5.231 0.00338 **---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 5.961 on 5 degrees of freedomMultiple R-Squared: 0.8455, Adjusted R-squared: 0.8146F-statistic: 27.36 on 1 and 5 DF, p-value: 0.003379

Analysis of Variance Table

Response: ernte.data$yDf Sum Sq Mean Sq F value Pr(>F)

ernte.data$x 1 972.32 972.32 27.362 0.003379 **Residuals 5 177.68 35.54---Signif. codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

45 50 55 60 65 70 75

−50

510

Residualplot

Y

Resid

uals

ε

1

2

3

4

5

7


2.7 Residualanalyse• Regression: Residualanalyse dient als Werkzeug zu Modell-diagnose

• Bei der einfachen Regression sieht man Verletzungen der Mo-dellannahmen oft schon am Streudiagramm selbst; Residual-plots zeigen solche E�ekte jedoch häu�g deutlicher und sindauch im Rahmen der multiplen Regression anwendbar.

• Grundidee: Laut Modellannahme sind ε1, ε2, . . . , εn unab-hängig und identisch verteilt mit Mittelwert 0 (sowie εi ∼N(0, σ2)) ⇒ betrachtet man die Werte von εi in Abhängig-keit von Xi (bzw. Yi), so sollten diese Werte rein zufällig umNull schwanken; keine Muster, keine systematischen Struk-turen

• Graphik (�Residualplot�): Schätze εi durch εi = Yi − Yi

und stelle die Werte εi in Abhängigkeit von Xi (bzw. Yi oderals Funktion des Index i = 1, . . . , n) grap�sch dar.

−100

−50

050

100

Residualplot

xi bzw yi

ε

Idealfall: keine systematischen Strukturen, εi rein zufällig(gutes Modell)


• In der Praxis werden mehrere verschiedene Varianten vonResidualplots benutzt

• Wichtige Variante: studentisierte Residuen• Analyse von εi:

∗ 1n

n∑

i=1

εi =1n

n∑

i=1

(Yi − Yi) = 0

∗ E(εi) = 0

∗ Var(εi) = Var(Yi − Yi) = σ2

1− 1

n− (Xi − X)2

n∑j=1

(Xj − Xj)2

∗ Cov(εi, εk) = −σ2

1n

+(Xi − X)(Xk − X)

n∑j=1

(Xj − X)2

⇒ i.A. negative Korrelation; die εi sind tendenziell stärkergestreut als die wahren Fehlerterme εi

• Studentisierte Residuen

ri =εi

σ

√1− 1

n − (Xi−X)2n∑

i=1(Xj−X)2

⇒ Var(ri) ≈ Var(εi

σ) = 1

⇒ Normalverteilung: Etwa 95% der ri zwischen −2 und 2;etwa 99, 9% der ri zwischen −3 und 3


Beispiel: Idealfall: Alle Annahmen tendenziell erfüllt

−3

−2

−1

01

23

studentisierte Residuen (n=100)

xi bzw yi

r i


Problemfällea) Komplexere Struktur der Regressionsfunktion

Residualplot: Systematische Abweichungen der �Mittelwer-te� der Residuen εi(ri) von Null⇒ evtl. m(x) 6= β0 +β1x; Regressionsfunktion nicht adäquatmodelliert

xi bzw yi

ε i b

zw.

r i

xi bzw yi

ε i b

zw.

r i

Mögliche Lösungen:� komplexeres lineares Modell und/oder Datentransforma-

tion, z.B.

Yi = β0 + β1 ln Xi + εi

ln Yi = β0 + β1 ln Xi + β2(lnXi)2 + εi

Yi = β0 + β1Xi + β2X2i + εi

......

⇒ Multiple Regression

� ( nichtlineare/ nichtparametrische Regression )


b) Heteroskedatizität

Residualplot: Stark unterschiedliche Streuungsbreite der εi(ri)in verschiedenen Bereichen des Plots⇒ evtl. Heteroskedastizität, Var(εi) ≈ Var(εj), i 6= j

xi bzw yi

ε i b

zw.

r i

xi bzw yi

ε i b

zw.

r i

Mögliche Lösungen� Datentransformation, z.B.

Y → Y ∗ = ln Y, Y → Y ∗ = ln(Y + 1), Y → Y ∗ =√

Y ,

Y → Y ∗ =1Y

, . . .

oder

X → X∗ = ln X, X → X∗ =√

X, . . .

⇒ Multiple (einfache) Regression von Y ∗ auf X∗

� Formal: Datentransformation:

Nichtlineares Modell ⇔ Lineares ModellStatistik_III@LS-Kneip 2�33

Beispiel:

Yi = β0eβ1X(1 + δi) = β0e

β1X + β0eβ1X · δi︸︷︷︸

εi

wobei δ1, . . . , δn i.i.d , Var(δi) = σ2

⇒ Fehlerterme εi = β0eβ1Xδi heteroskedastisch,

⇒ Var(εi) = (β0eβ1X)2σ2

⇒ ln Yi = ln β0 + β1Xi + ln(1 + δi)︸︷︷︸≈ homoskedastische Fehler

� Lösung in komplexeren Situationen:Verallgemeinerte Kleinste-Quadrate Methode


c) Existenz von AusreiÿernResidualplot: Es existieren extrem groÿe oder extrem kleineBeobachtungen, deren Werte weit auÿerhalb des �normalen�Wertebereichs liegen (�Ausreiÿer�)

0 20 40 60 80 100

−40−20

020

40

0 20 40 60 80 100

−40−20

020

40

Solche untypischen Beobachtungen (Ausreiÿer) können dieWerte der geschätzen Parameter β0, β1, Kon�denzintervalle,etc. sehr stark beein�ussen. Im Extremfall können sie zurFolge haben, dass die Resultate der gesamten Regressions-analyse unsinnig und nicht interpretierbar sind.

Mögliche Lösungen:� Elimination der untypischen Beobachtungen� Durchführung der Analyse auf der Basis der verbleibenden

Stichprobe� Alternativ: Verwendung �robuster Methoden�

Es exisitiert eine Vielzahl von statistischen Diagnoseverfah-ren, die es erlauben, den Ein�uss einzelner Beobachtungenauf die Modellanpassung zu diagnostizieren und zu quanti�-zieren. Ein wichtiges Diagnosewerkzeug ist die Distanz vonCook (�Cook's D�).


Identi�kation von Ausreiÿern: Cook`s Distance

� Daten (Y1, X1), . . . , (Yn, Xn)

⇒ Schätzungen β der Regressionsparameter

� Problem: Identi�kation von einzelnen Beobachtungen, diedie Schätzungen �zu stark� beein�ussen

� Ansatz: Für eine gegebene Beobachtung (Yi, Xi) berechnet

man neue Schätzer β−i =

(β0,−i

β1,−i

)aus den verbleibenden Da-

ten (Y1, X1), . . . , (Yi−1, Xi−1), (Yi+1, Xi+1), . . . , (Yn, Xn), diedurchWeglassen der betrachteten Beobachtungen (Yi, Xi) ent-stehen

→ geringer Ein�uss von (Yi, Xi) auf die Schätzwerte ⇔

kleiner Unterschied zwischen β =

(β0,

β1,

)und β−i =

(β0,−i

β1,−i

)

→ �starker� Ein�uss von (Yi, Xi) ⇔ groÿer Unterschied zwi-schen β und β−i

� Cook's Distance:

Di =(β−i − β)T ·XT X · (β−i − β)

2σ2

wobei X =

1 X1

1 X2

......

1 Xn


� Verallgemeinerung auf multiple Regression (p > 1 erklärendenVariablen)

Di =(β−i − β)T ·XT X · (β−i − β)

(p + 1)σ2

mit β =

β0

β1

...βp

, β−i =

β0,−i

β1,−i

...βp,−i

, X =

1 X11 · · · X1p

......

......

1 Xn1 · · · Xnp

� Faustregel: Ein�uss von (Yi, Xi) �zu stark�, falls Di > 0, 8


Graphisches Verfahren zur Überprüfung derNormalität: Normal-Quantil Plot (NQ-Plot)• Quantile der Standardnormalverteilung

p 0,5 0,75 0,95 0,975 0,99zp 0(Median) 0,67 1,64 1,96 2,33

• Beziehung zwischen den Quantilen ϕp und zp einer N(µ, σ2)und einer N(0, 1)-Verteilung:

ϕp = µ + σ · zp

• Daten r1, . . . , rn (z.B. Residuen)⇒ geordnete Urliste: r(1) ≤ r(2) ≤ . . . ≤ r(n)

• Der Normal-Quantil-Plot besteht aus den Punkten

(r(1), Z 0,5n

), (r(2), Z 1,5n

), (r(3), Z 2,5n

), . . . , (r(n), Zn−0,5n

)

im x-z - Koordinatensystem

• Falls die den Daten r1, . . . , rn zugrundeliegende Verteilungeine Normalverteilung ist, sollte gelten

r(i) = β0 + β1zi−0,5 + Zufallsschwankungen


−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Normalverteilung

x

y

0.00

0.05

0.10

0.15

linkssteile Verteilung

x

y

0.00

0.05

0.10

0.15

rechtssteile Verteilung

x

y

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

symmetrisch, aber stark gekrümmt

x

y

Falls die empirische Verteilung der Beobachtungen approxima-tiv standard-normalverteilt ist, liegen die Punkte(r(1), Z 0,5

n), (r(2), Z 1,5

n), (r(3), Z 2,5

n), . . . , (r(n), Zn−0,5

n) nahe oder auf

der Winkelhalbierenden (vgl. Abbildung(a)).Falls weiterhin x = 0 gilt, aber die Verteilung linkssteil ist, sosind die z-Quantile gröÿer als die x-Quantile, sodaÿ der NQ-Plotdurchhängt, in der Tendenz also konvex ist(vgl. Abbildung(b)).Für eine rechtssteile Verteilung erhält man ganz analog einenkonkaven NQ-Plot(vgl. Abbildung(c)).Für eine symmetrische Verteilung, die bei x einen im Ver-Statistik_III@LS-Kneip 2�39

gleich zur Standardnormalverteilung �acheren Gipfel und da-für dickere Enden links und rechts besitzt, erhält man einenNQ-Plot wie in Abbildung(d).

−2 −1 0 1 2

−2

−1

01

2

NQ−Plot einer Normalverteilung (a)

Theoretical Quantiles

Sam

ple

Qua

ntile

s

−2 −1 0 1 2−

50

510

15

NQ−Plot einer linkssteilen Verteilung (b)


Sam

ple

Qua

ntile

s

−2 −1 0 1 2

−10

−6

−4

−2

02

4

NQ−Plot einer rechtssteilen Verteilung (c)


Sam

ple

Qua

ntile

s

−2 −1 0 1 2

−5

05

NQ−Plot einer symmetrischen, stark gekümmten Verteilung (d)


Sam

ple

Qua

ntile

s


Beispiel 2.2 (Nahrungsmittel/Haushaltseinkommen)

• Zufallsstichprobe von n = 500 britischen Haushalten

• Für jeden Haushalt i = 1, . . . , n zugehörige Werte von

Yi - Ausgaben für NahrungsmittelXi - Haushaltseinkommen

• Lineare Einfachregession⇒ Probleme:� Modellstruktur nicht adäquat (R2 = 0, 60)� Heteroskedastizität

• Transformationen

Yi → wi =Yi

Xi(Ausgabenanteile)

Xi → vi := ln Xi

• Lineare Einfachregression

wi = β0 + β1vi + εi

⇒ Ergebnis: Residuen approximativ homoskedastisch, keine er-kennbaren Abweichungen von der Modellstruktur (R2 = 0, 24)

Anmerkung: Rücktransformation Yi = Xi · wi = β0Xi + β1 · vi

erlaubt Prognose von Yi (R2 = 0, 79)


Lineare Einfachregression Yi auf Xi

Beispiel einfügen

Transformiertes Modell wi = β0 + β1vi + εi

Beispiel einfügen

Beispiel 2.1. Lineare Einfachregression von Y auf X


Beispiel 2.3 (Modi�kation Beispiel 1.2)

X 100 200 300 400 500 600 700 650Y 40 50 50 70 65 65 80 5!!

Call:lm(formula = ernte.data$y ~ ernte.data$x1)

Residuals:Min 1Q Median 3Q Max

-51.046 -3.205 4.792 12.541 23.287


(Intercept) 47.36695 20.59051 2.30 0.0611 .ernte.data$x1 0.01335 0.04314 0.31 0.7674---Signif.codes: 0 `***' 0.001 `**' 0.01 `*' 0.05 `.' 0.1 ` ' 1

Residual standard error: 24.96 on 6 degrees of freedomMultiple R-Squared: 0.01571, Adjusted R-squared: -0.1483F-statistic: 0.09579 on 1 and 6 DF, p-value: 0.7674


100 200 300 400 500 600 700

2040

6080

Regressionsanalyse

X = Düngemittel

Y=

Ern

teer

trag

8

50 52 54 56

−40

−20

020

Residualplot

fitted Y

resi

dual

s

8


1 2 3 4 5 6 7 8

0.0

0.2

0.4

0.6

0.8

1.0

Cook’s Distance

Index

cook

s.di

stan

ce(e

rnte

.lm)

7

8


d) Autokorrelationen� Falls (Y1, X1), . . . , (Yn, Xn) einfache Zufallsstichprobe

⇒ (Yi, Xi) unabhängig von (Yj , Xj), i 6= j

⇒ εi unabhängig von εi unabhängig von εj , i 6= j

� Aber: In vielen ökonomischen Anwendungen sind (Yi, Xi)Messungen der interessierenden Gröÿen zu aufeinander-folgenden Zeitpunkten oder in aufeinanderfolgendenZeitintervallen i = 1, . . . , n (Zeitreihendaten)

⇒ Der Wert von Yi (oder εi) zu einem Zeitpunkt i kann denWert von Yi+1 (oder εi+1) am darauf folgenden Zeitpunkti + 1 beein�ussen⇒ Korrelationen der εi, εj , keine Unabhängigkeit

� Residualplot von εi in Abhängigkeit von i = 1, . . . , n po-sitive Korrelationen: Die Werte benachbarter εi, εi+1 sindtendenziell ähnlich

5 10 15 20 25

Autokorrelation

Zeitpunkt i

sim.a

r

� Mögliche Lösungen:∗ Verallgemeinerte Kleinste-Quadrate Methode∗ Methoden der Zeitreihenanalyse


1 DieMethodederKleinstenQuadrate - Universität · PDF file1...

Documents

Transcript of 1 DieMethodederKleinstenQuadrate - Universität · PDF file1...