STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann...

109
STATISTIK Notizen zur Vorlesung Anton Wakolbinger — Wintersemester 2001/02 —

Transcript of STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann...

Page 1: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

STATISTIK

Notizen zur Vorlesung

Anton Wakolbinger

— Wintersemester 2001/02 —

Page 2: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Inhaltsverzeichnis

1 Kann denn das Zufall sein? 4

1.1 Fishers exakter Test . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.2 Von Menschen und Schimpansen . . . . . . . . . . . . . . . . . . 6

1.3 Geherzte Babies . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.4 Der Rangsummentest von Wilcoxon . . . . . . . . . . . . . . . . 9

2 Empirische Verteilungen, Quantile und QQ-Plots 13

3 Schatzen von Lageparametern 17

3.1 Mittelwert und Median . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2 Schatzen des Medians mit Konfidenz . . . . . . . . . . . . . . . . 20

3.3 Ein asymptotisches Konfidenzintervall fur den Erwartungswert . 21

4 Mehr uber Konfidenzintervalle 22

4.1 Zwei Bauplane fur Konfidenzintervalle . . . . . . . . . . . . . . . 22

4.2 Bootstrap-Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . 23

5 Student, Fisher und die schone normale Welt 26

5.1 Die Student-Statistik . . . . . . . . . . . . . . . . . . . . . . . . . 26

5.2 Die Standard-Normalverteilung auf Rn und der Satz von Fisher . 27

5.3 Die Student-Statistik nochmal . . . . . . . . . . . . . . . . . . . . 28

5.4 Die Dichte der Student-Verteilung (Fishers geometrische Herlei-tung) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

5.5 Die Dichte der χ2-Verteilung . . . . . . . . . . . . . . . . . . . . 30

5.6 Student-Konfidenzintervall und Student-Test . . . . . . . . . . . 31

5.7 Das Shift-Modell in der schonen normalen Welt . . . . . . . . . . 32

1

Page 3: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

INHALTSVERZEICHNIS 2

6 Gepaarte Stichproben 34

6.1 Der t-Test fur gepaarte Stichproben . . . . . . . . . . . . . . . . 34

6.2 Der Wilcoxon-Test fur gepaarte Stichproben . . . . . . . . . . . . 35

6.2.1 Das Shiftmodell fur symmetrische Verteilungen . . . . . . 36

7 Zur Dualitat zwischen Tests und Konfidenzintervallen 38

7.1 Die Dualitatsbeziehung . . . . . . . . . . . . . . . . . . . . . . . 38

7.2 Wilcoxon-Test und Hodges-Lehmann-Schatzer . . . . . . . . . . . 39

8 Passen die Daten zur Hypothese oder zur Alternative? 40

8.1 Tests a la Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . 40

8.2 Das Lemma von Jerzy Neyman und Egon Pearson . . . . . . . . 41

9 Wie gut passen die Daten zu einer Hypothese? 43

9.1 Das Konzept der Likelihood . . . . . . . . . . . . . . . . . . . . . 43

9.2 Zwei Beispiele fur Maximum-Likelihood-Schatzer . . . . . . . . . 43

9.3 Die Idee des Maximum-Likelihood-Quotiententests . . . . . . . . 46

10 Wie gut passen beobachtete Haufigkeiten? 49

10.1 Feste hypothetische Gewichte: Der Satz von Karl Pearson . . . . 49

10.2 Der multivariate zentrale Grenzwertsatz . . . . . . . . . . . . . . 52

10.2.1 Kovarianzmatrizen . . . . . . . . . . . . . . . . . . . . . . 52

10.2.2 Normalverteilungen auf Rk . . . . . . . . . . . . . . . . . 53

10.2.3 Verteilungskonvergenz von Rk-wertigen Zufallsvariablen . 54

10.3 Der χ2-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

10.3.1 χ2-Test auf Unabhangigkeit zweier Merkmale . . . . . . . 57

11 Zur Asymptotik der ML-Schatzer 59

12 Suffizienz und Vollstandigkeit 63

12.1 Bedingte Verteilung und bedingte Erwartung . . . . . . . . . . . 63

12.2 Suffizienz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

12.3 Der Satz von Rao-Blackwell . . . . . . . . . . . . . . . . . . . . . 66

12.4 Vollstandigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67

13 Die Cramer-Rao-Ungleichung 70

Page 4: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

INHALTSVERZEICHNIS 3

14 Das Lageproblem fur mehrere Stichproben 72

14.1 Die einfache Varianzanalyse . . . . . . . . . . . . . . . . . . . . . 72

14.2 Paarweise Vergleiche . . . . . . . . . . . . . . . . . . . . . . . . . 77

14.3 Der Kruskal-Wallis-Test . . . . . . . . . . . . . . . . . . . . . . . 81

15 Das normale lineare Modell 84

15.1 Schatzen von ~µ und σ2 . . . . . . . . . . . . . . . . . . . . . . . . 84

15.2 Testen von linearen Hypothesen . . . . . . . . . . . . . . . . . . . 86

16 Das lineare Modell mit weißem Rauschen 88

17 Lineare Regression 90

17.1 Vom linearen Modell zum linearen Regressionsmodell . . . . . . . 90

17.2 Lineares Regressionsmodell mit Weißem Rauschen . . . . . . . . 95

17.3 Normales lineares Regressionsmodell: Konfidenzellipsoid fur β . . 96

17.4 Lineare Regression mit Kontrollvariablen . . . . . . . . . . . . . 97

18 Versuchsplane 99

18.1 Ein Beispiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

18.2 Zwei Schatzprobleme . . . . . . . . . . . . . . . . . . . . . . . . . 100

18.3 Optimale Versuchsplane . . . . . . . . . . . . . . . . . . . . . . . 101

18.4 Zur Aquivalenz von D- und G-Optimalitat . . . . . . . . . . . . . 102

18.5 Polynomiale Regression auf [−1, 1] . . . . . . . . . . . . . . . . . 106

Page 5: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 1

Kann denn das Zufall sein?

1.1 Fishers exakter Test

Wir beginnen mit einem Beispiel, das uns mitten in die Welt des statistischenTestens einer Hypothese fuhrt. Es ist dem empfehlenswerten Buch “Statistics”von D. Freedman et al (2nd ed., W.W. Norton, 1991) entnommen.

Eine Botschaft ein- und desselben Inhalts (es ging um den Vergleich des Erfolgszweier Therapiemethoden, “Operation” und “Bestrahlung”) wurde in zwei un-terschiedliche Darstellungsweisen verpackt. Von insgesamt 167 Arzten, die aneiner Sommerschule in Harvard teilnahmen, wurden rein zufallig 80 ausgewahlt,denen die Botschaft in der Form A vermittelt wurde, die restlichen 87 bekamendie Botschaft in der Form B mitgeteilt. Jeder der Arzte entschied sich dann imLichte der Botschaft fur die Bevorzugung einer der beiden Therapiemethoden.Das Ergebnis war:

fur Operation fur Bestrahlung SummeA 40 40 80B 73 14 87

Summe 113 54 167

Beobachtung: in der A-Gruppe gibt es ein wesentlich schlechteres Verhaltnis“pro Operation” (namlich 40 : 40) als in der B-Gruppe (namlich 73 :14). Gibtes also doch eine Beeinflussung der Entscheidung durch die Form ? Ein Skep-tiker konnte sagen: “Ach was, selbst unter der Hypothese, dass keine solcheBeeinflussung vorliegt, kann ein derartiges Ergebnis durch den reinen Zufallzustande kommen.” Um damit umzugehen, stellen wir erst einmal fest: Ange-nommen, die Form der Botschaft hat keinen Einfluss auf die Meinungsbildungdieser Arzte. Die Aufteilung der 80 A-Formulare auf die 113 Befurworter von“Operation” und die 54 Befurworter von “Bestrahlung” ware dann rein zufalligzustande gekommen. Wie wahrscheinlich ist dann eine so extreme Aufteilungwie die beobachteten 40 : 40 ?

Mathematisch ausgedruckt: Wenn aus einer Urne mit 113 roten und 54 blauenKugeln rein zufallig 80 Kugeln gezogen werden, wie wahrscheinlich ist dann einso extremes Ergebnis wie das, nur 40 rote Kugeln zu ziehen ?

4

Page 6: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 5

Das ist ein Fall fur die hypergeometrische Verteilung:

N = 113 + 54 = 167, M = 113, n = 80,

WsN,M,n ({Z = k}) =

(Mk

)(N−Mn−k

)(Nn

)

EN,M,nZ = n · MN

(= 54, 1)

Die Wahrscheinlichkeit, ein Ergebnis zu erhalten, das mindestens so weit vomZentrum weg ist wie das beobachtete, ist

WsN,M,n(Z ≤ 40) + WsN,M,n(Z > 68)

Das Programm R kennt dies als

phyper(40,113,54,80) + phyper(68,113,54,80,lower.tail=FALSE)

Als Wert ergibt sich 3, 0 · 10−6.

Dies ist ,,der zu den Daten gehorige p-Wert”, oder auch das ,,beobachtete Si-gnifikanzniveau”, zu dem wir die Hypothese ablehnen durfen.

Die Interpretation ist: ,,Angenommen die Hypothese trifft zu. Dann tritt ein Er-gebnis, das so extrem ist wie das beobachtete, mit Wahrscheinlichkeit ∼ 3.10−6,also 3 mal in einer Million, auf”.

Was wir beschrieben haben, ist auch als Fishers exakter Text bekannt (nach SirRonald A. Fisher, . . . )

In R:

x <- matrix (c(40,73,40,14), nr=2)

fisher.test(x)

(nr ist die “number of rows)

Ausgabe:

data:x

P-value=2.984e-06

...

odds ratio 0.1938

(Die odds ratio ist das beobachtete “Chancenverhaltnis” 4040/

7314 )

Bei dem beschriebenen Beispiel handelt es sich um eine geplante Studie, diemit dem Instrument der Randomisierung arbeitet (rein zufallige Auswahl der80 Arzte, die die Form A bekommen).

Nicht immer ist man in dieser schonen Situation. Im nachsten Abschnitt und inden Ubungen lernen wir Beispiele von sogenannten Beobachtungsstudien ken-nen.

Mit einigem Vorbehalt kann man die Frage”Kann das Zufall sein ?“ auch guten

Gewissens in derartigen Situationen stellen. Zur anregenden Bettlekture emp-fohlen seien die ersten beiden Kapitel im oben zitierten Buch von D. Freedmanet.al.

Page 7: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 6

1.2 Von Menschen und Schimpansen

Die Ausfuhrungen dieses Abschnitts sind inspiriert von einer Arbeit, bei derDr. Dirk Metzler (Frankfurt) als Statistiker mitgewirkt hat (I. Ebersberger, D.Metzler, C. Schwarz, S. Paabo, Genome-wide comparison of DNA sequences bet-ween humans and chimpanzees, Am. J. Hum. Genet. 70 (2002), 1490-1497). Esgeht darum herauszufinden, ob die Unterschiede in der DNA zwischen Menschund Schimpansen gleichmassig uber die Chromosomen verteilt sind oder nicht.

Aus dem Genom des Schimpansen wurden N DNA-Stucke (i = 1, . . . , N) derLange Li (mit Li zwischen 50 und 500 Basenpaaren) sequenziert,

d.h. es wurden die N entsprechenden Worter der Lange Li uber dem DNA-Alphabet {A, C, G, T} bestimmt.

Diese wurden dem Wort auf dem jeweils entsprechenden Stuck beim Menschengegenubergestellt.

Mi . . . # Mutationen auf Stuck i (genauer: die Anzahl der Stellen, an denensich die beiden Worter unterscheiden)

µi := Mi/Li . . . Mutationsrate auf Stuck i

c(i) ∈ {1, . . . , 22} . . . Nummer des menschlichen Chromosoms (genauer: Chro-mosomenpaars) auf welches Stuck i fallt.

(Betrachtet werden nur Stucke, die zu autosomalen Chromosomen, d.h. zu de-nen außer den Geschlechtschromosomen gehoren). Spannende Fragen sind: Woliegen bevorzugt die Stucke mit hoher Mutationsrate? Warum ist dort die Muta-tionsrate hoch? Eine bescheidenere Frage ist: Gibt es Chromosomen, auf die eherStucke mit hoher Mutationsrate fallen? Gibt es in diesem Sinn eine signifikanteVariabilitat der Mutationsrate zwischen den Chromosomen?

Formalisieren wir nun diese Frage:

Ij := {i|c(i) = j} . . . alle zum Chromosom j gehorigen Stucke

pj :=

P

i∈IjMi

P

i∈IjLi

. . . “Mutationsrate auf Chromosom j”

Ist die Variabilitat der (pj) untypisch hoch ?

Ist p := (p1, . . . , p22) untypisch weit von der Diagonalen entfernt ? Und zwar un-typisch in Bezug auf die Nullhypothese, dass die Stucke (mit hoher und niedrigerMutationsrate) rein zufallig auf die Chromosomen verteilt sind.

Der euklidische Abstand von p zur Diagonalen ist

S(p) :=

√√√√22∑

j=1

(pj − p)2.

Wir machen uns ein Bild der Verteilung eines zufalligen p unter der Null-hypothese. Dazu permutieren wir die c(i), 1, . . . , N , rein zufallig. (Dies ent-spricht der Vorstellung, dass - unter Respektierung der # Ij - die Stucke reinzufallig auf die Chromosomen verteilt werden). Dadurch entsteht ein zufalliges

Page 8: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 7

P = (P1, . . . P22). Wir betrachten die Verteilung von S(P ). In der Praxis permu-tieren wir 10000 mal und betrachten die so entstehende “empirische Verteilung”.

Es ergab sich, dass keiner der 10000 Werte S(P (1)), . . . , S(P (10000)) großer warals S(p) (= 0.0045).

Wir konnen also sagen:

Unter der Nullhypothese der rein zufalligen Verteilung der Stucke auf die Chro-mosomen wird die Wahrscheinlichkeit einer so großen Variabilitat der Mutati-onsrate zwischen den Chromosomen wie der beobachteten auf hochstens 1/10000geschatzt.

Eine noch kleinere Wahrscheinlichkeit ergibt sich unter der Nullhypothese derrein zufalligen Verteilung aller M =

∑Ni=1Mi Mutationsstellen auf die ge-

samten L =∑N

i=1 Li Stellen. Die Verteilung von S(P ) unter der letztge-nannten Nullhypothese liegt deutlich links von der Verteilung von S(P ) unterder oben diskutierten Nullhypothese der rein zufalligen Verteilung der Stucke :das Auseinandernehmen von Stucken mit hoher bzw. niedriger Mutationsratehat einen glattenden Effekt. Wenn man aber ohnehin davon ausgeht, dass dieMutationsrate von Stuck zu Stuck unterschiedlich sein kann, ist nicht die reinzufallige Verteilung aller Mutationsstellen, sondern die rein zufallige Verteilungaller Stucke auf die Chromosomen die adaquate Nullhypothese.

1.3 Geherzte Babies

Hat das Horen von (mutterlich klingenden) Herztonen einen Effekt auf die Ge-wichtszunahme von Neugeborenen ? (vgl. Lee Salk, The Role of the Heartbeatin the Relations between Mother and Infant, Sci.Am., May 1973, p.26-29)

Aus einer Anzahl Neugeborener wurden zufallig einige ausgewahlt, die in ihrenersten Lebenstagen ohne Unterbrechung den Ton des Herzschlags eines Erwach-senen horen durften. Die restlichen Babies kamen nicht in diesen Genuss; imubrigen wurden alle Babies gleich behandelt.

Beobachtet wurde die Gewichtszunahme vom ersten bis zum vierten Tag nachder Geburt. Dabei wurde auch nach Gewichtsklasse (leicht, mittel, schwer) un-terschieden.

Die (aus dem Diagramm auf p.29 der o.a. Referenz ubertragenen) Rohdatenfinden Sie unter:http://www.math.uni-frankfurt.de/∼ stoch/wakolbinger/WS2001 2002/Babies.dat

Wir wollen uns auf die mittelschweren Babies konzentrieren und fragen: Wiewahrscheinlich ist eine so viel großere Gewichtszunahme bei den “geherzten”Babies unter der Hypothese, dass das Horen der Herztone keinen Einfluss hat ?

Wir fragen : Hat die Behandlung (Horen der Herztone) einen Effekt (auf dieGewichtszunahme) ?

Gibt es eine signifikante Verschiebung der Gewichtszunahme zwischen der be-handelten und der unbehandelten Gruppe ?

Unsere Situation ist die folgende:

Page 9: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 8

Von m+ n Individuen werden m rein zufallig ausgewahlt, diese bekommen dieBehandlung, der Rest ist die “Kontrollgruppe”.

Beobachtete Werte:

• x1, . . . , xm in der unbehandelten Gruppe

• y1, . . . , yn in der behandelten Gruppe

Angenommen, die Behandlung hat keinen Effekt. Unter dieser Nullhypothesevergleichen wir unsere beobachteten Werte mit dem Ergebnis eines Gedanken-experiments.

Ziehe rein zufallig (ohne Zurucklegen) Z1, . . . , Zm aus der Liste x1, . . . , xm,y1, . . . , yn.

Berechne die Wahrscheinlichkeit Ws({Z1 + . . .+Zm ≤ x1 + . . .+ xm}). Dies isti.A. ein muhseliges Abzahlproblem.

Zielfuhrender ist eine Monte-Carlo-Methode:

Ziehe (z.B.) 10000 mal und notiere die relative Haufigkeit der Erfolge (fur dasEreignis {Z1 + . . .+ Zm ≤ x1 + . . .+ xm}).In unserem Beispiel der geherzten und ungeherzten Babies geht das mit R so:

daten<-read.table("Babies.dat")

Aus dem Textfile Babies.dat wird dadurch die N × 2-Matrix daten.

babies<-split(daten[[1]],daten[[2]])

Weil die 2. Spalte von daten 6 verschiedene Eintragungen hatte (10,11,20,21,30,31,wobei z.B. 10 fur “leicht und unbehandelt” steht), besteht babies aus 6 (ebenmit diesen Eintragungen indizierten) Datensatzen.

b20<-babies$"20"

ist der Vektor der Gewichtszunahme der mittelschweren unbehandelten Kinder.

b21<-babies$"21"

b2<-c(b20,b21)

length(b20)

gibt die Anzahl (44) der mittelschweren unbehandelten Kinder aus.

Page 10: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 9

v<-c(Null)

Vor Beginn der Schleife wird der Variablen namens v erst einmal der leere Vektorzugewiesen.

for ( i in 1:10000 ) {v[i] <- sum(sample(b2, 44))}

10000 mal werden (rein zufallig, ohne zurucklegen) 44 Komponenten aus den44 + 45 Komponenten von b2 herausgegriffen, aufsummiert und als neue Kom-ponente von v eingetragen.

hist(v)

gibt ein Histogramm von v aus.

sort(v)

gibt die aufsteigend sortierten Komponenten von v aus.

Nur einer der 10000 Werke war kleiner als

sum(b20).

1.4 Der Rangsummentest von Wilcoxon

Die Verteilung der im vorigen Abschnitt besprochenen Teststatistik Z1+. . .+Zm

unter der Nullhypothese hangt nicht nur von m und n, sondern auch von denWerten x1, . . . , xm, y1, . . . , yn ab.

Eine elegante Moglichkeit, die Abhangigkeit von den Werten loszuwerden, bietetdie sogenannte Rangsummenstatistik von Wilcoxon. Prinzip: Ersetze die Wertedurch ihre Range.

Beispiele

a)Population 5 4 10 8Range 2 1 4 3

b)Population 5 4 10 4Range 3 1,5 4 1,5

Page 11: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 10

Wir nehmen zur Vereinfachung an: x1, . . . , xm, y1, . . . , yn sind verschieden. Diebeobachtete Rangsumme der xi ist

∑mi=1 Rang(xi), wobei Rang(xi) den Rang

von xi in der Gesamtstichprobe x1, . . . , yn angibt.

Bemerkung 1: Unter der Nullhypothese des “rein zufalligen Ziehens” ist

(Rang(Z1), . . . ,Rang(Zm))d= (R1, . . . , Rm)

wobei die Ri rein zufallige Zuge aus {1, 2, . . . ,m+ n} ohne Zurucklegen sind.

S := Sm,n :=

m∑

i=1

Ri

Was laßt sich uber die Verteilung von S aussagen ?

(Erwartungswert, Varianz; asymptotische Verteilung fur große m,n ?)

ERi =

m+n∑

k=1

k1

m+ n=

(m+ n)(m+ n+ 1)

2

1

m+ n=m+ n+ 1

2

ES = mER1 =m(m+ n+ 1)

2

Die Varianz von S laßt sich elegant berechnen durch eine schlaue Darstellung(der Verteilung) von S, die dann auch hilfreich ist fur Einsicht in die asympto-tische Verteilung bei große m,n.

Bemerkung 2: Seien U1, . . . , Um, V1, . . . , Vn unabhangig und gleichverteiltauf [0,1]. Sei Rang(Ui) := Rang von Ui in {U1, . . . Um, V1, . . . , Vn}. Dann ist

(R1, . . . , Rm)d= (Rang(U1), . . . ,Rang(Um))

Nun gilt aber:

Rang(Ui) =

m∑

k=1

I{Ui≥Uk} +

n∑

j=1

I{Ui>Vj} fast sicher

(Dabei ist der erste Summand der rechten Seite die Anzahl der Punkte, dieUi gegen die heimische Mannschaft, d.h. die U1, . . . , Um macht, und der zweiteSummand die Anzahl der Punkte, die Ui gegen die gegnerische Mannschaft, d.h.die V1, . . . , Vn} macht.)

Daraus ergibt sich:

S :=

m∑

i=1

Rang(Ui) =m(m+ 1)

2+

m∑

i=1

n∑

j=1

I{Ui>Vj} fast sicher

ES =m(m+ 1)

2+

1

2mn = m

1

2(m+ n+ 1) (das hatten wir schon!)

Page 12: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 11

Var S = Var

m∑

i=1

n∑

j=1

I{Ui>Vj}

=∑

(i,j)

Var (I{Ui>Vj}) +∑

(i1,j1) 6=((i2,j2)

Cov(I{Ui1>Vj1}, I{Ui2>Vj2})

Fur i1 6= i2 und j1 6= j2 sind I{Ui1>Vj1} und I{Ui2>Vj2} unabhhangig, alsoCov(. . .) = 0.

Fur i1 = i2 =: i und j1 6= j2 ist

Cov(I{Ui>Vj1}, I{Ui>Vj2}) = E[I{Ui>Vj1}I{Ui>Vj2}] −1

4=

1

3− 1

4=

1

12

Insgesamt also:

Var S = mn1

4+mn(n− 1)

1

12+ nm(m− 1)

1

12=mn(m+ n+ 1)

12

Fur große m,n gilt fur die uberwiegende Anzahl von Paaren ((i1, j1), (i2, j2)),dass i1 6= i2 und j1 6= j2 ist, und somit I{Ui1>Vj1} unabhangig von I{Ui2>Vj2}ist.

Dies macht das folgende Resultat plausibel, welches wir hier nicht beweisen:

Satz 1 (Hoeffding 1949).

Fur m,n→ ∞ gilt:Sm,n−ESm,n√

Var Sm,n

→ N (0, 1) in Verteilung

Beispiel: die Baby-Daten aus dem vorigen Abschnitt

wilcox.test(b20,b21)

Als Output gibt R:

data: b20 and b21

W = 539.5, p-value = 0.0002182

alternative hypothesis: true mu is not equal to 0

R gibt den Wert W der sogenannten Mann-Whitney-Statistik an:

W =

n∑

i=1

Rangxi −m(m+ 1)

2(=

m∑

i=1

n∑

j=1

I{xi>yj} im Fall keiner Bindungen)

Achtung: Der Wilcoxon-Test pruft die Nullhypothese der Gleichheit zweierVerteilungen gegen die Alternative, dass die eine gegenuber der anderen ver-schoben ist. Er ist nicht sensibel gegen andere Arten von Alternativen.

Beispiel: X1, . . . , X100 unabhangig N (0, 1) - verteilt

Y1, . . . , Y100 unabhangig 12 (N (2, 1) + N (−2, 1)) verteilt

Die Verteilung von Y entsteht durch ein doppelt-stochastisches Experiment: wirfzuerst eine faire Munze und wahle je nach Ergebnis Y entweder aus N (2, 1) oderaus N (−2, 1).

Page 13: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 1. KANN DENN DAS ZUFALL SEIN? 12

x<-rnorm(100)

liefert einen Vektor aus 100 standard-normalverteilte Zufallszahlen und weistsie der Variablen x zu

y<-rnorm(100)+(4*rbinom(100,1,0.5)-2)

Der Befehl 4*rbinom(100,1,0.5)-2 liefert einen Vektor aus 100 unabhangigen,auf {−2,+2} gleichverteilten Zufallsvariablen.

Wir machen uns ein Bild von x und y mittels eines Dotplots in dem wir -jeweils leicht verwackelt (jittered) - x uber dem Abszissenwert 1 und y uberdem Abszissenwert 2 abtragen.

b<-c(x,y)

a<- c(rnorm(100,1,0.02), rnorm(100,2,0.02))

plot(a,b, axes=F, xlim=c(0,4), xlab="" , ylab="" )

Obwohl x und y definitiv nicht aus demselben Topf kommen, schlagt der Wilcoxon-Test alles andere als Alarm:

wilcox.test(x,y)

W = 5151, p-value = 0.7131

Page 14: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 2

Empirische Verteilungen,Quantile und QQ-Plots

Mit einer Stichprobe X = (x1, . . . , xm) assoziieren wir deren empirische Vertei-lung

ν(X) :=1

m

m∑

i=1

δxi.

Die empirische Verteilung legt somit in jeden der Punkte xi die Masse 1m ; kommt

ein Wert in der Stichprobe mit Vielfachheit k vor, so hat dieser Wert die Massekm .

Verteilungen auf der reellen Achse lassen sich auch durch ihre Verteilungsfunk-tionen charakterisieren. Zur Erinnerung:Die zu einer Verteilung ν auf R gehorige Verteilungsfunktion ist

Fν(q) := ν((−∞, q)).

Beispiel: ν = Binom(1, 0.5) = 12 (δ0 + δ1):

Fν = 0 · 1(−∞,0] + 1/2 · 1(0,1] + 1(1,∞).

R bevorzugt bei der Definition der Verteilungsfunktion die “rechtsstetige Vari-ante”:

pν(q) := ν((−∞, q])

Beispiel: ν = Binom(4, 0.5):Die Auswertung der Funktion pν an der Stelle q bekommen wir durch

pbinom(q,4,0.5).

Der Befehl pbinom(0,4,0.5) liefert die Ausgabe 0.0625, was nichts anderes ist als1/2 4. (Demgegenuber hat die linksstetige Variante Fν an der Stelle 0 den Wert0 - aber immerhin, Sprungstellen und Sprunghohen von Fν und pν stimmenuberein, und das ist die Hauptsache.) Werten wir unsere Verteilungsfunktion,sagen wir, zwischen -1 und 5 an einem feinen Gitter (etwa der Maschenweite0.01) aus. Den Vektor der Gitterpunkte bekommen wir durch

13

Page 15: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 2. EMPIRISCHE VERTEILUNGEN, QUANTILE UND QQ-PLOTS14

q <- seq(-1,5,0.01)

(dies ist eine Folge mit Schrittweite 0.01 zwischen -1 und 5.) Den Plot erhaltenwir durch

plot(q,pbinom(q,4,0.5), type="s")

Der Plottyp s steht hier fur (eine spezielle Art von) Stufenfunktion: verbindezwei Punkte, indem du zuerst horizontal nach rechts und dann vertikal nachoben gehst.

Ist X = (x1, . . . , xm) eine Stichprobe mit Werten auf der reellen Achse, dannnennen wir FX := Fν(X) die empirische Verteilungsfunktion von X.

Im Klartext:

FX :=1

m· #{i|xi < q}.

Machen wir uns ein Bild von einer empirischen Verteilungsfunktion im folgendeneinfachen Beispiel einer reellwertigen Stichprobe des Umfangs 4:

x <- c(4.2, 5.1, 2.0, 9.4)

Zum Plotten der “empirical distribution function” (ecdf) mussen wir zuerst eineBibliothek aufrufen, die etwas von Stufenfunktionen weiß:

library(stepfun)

plot(ecdf(x))

Nicht zuletzt fur den Vergleich von Verteilungen au der reellen Achse spieltdie inverse Verteilungsfunktion (auch Quantilfunktion genannt) eine prominenteRolle. Sie ist definiert als

qν(p) := sup{q|Fν(q) < p}, 0 < p ≤ 1,

qν(0) := limp→0

qν(p) = inf{q|Fν(q) > 0}.

Beispiel: ν = Binom(1, 0.5): qν = 0 · 1[0,1/2] + 1(1/2,1].

Im Fall vieler gangiger Verteilungen nimmt uns R die Arbeit der Berechnung derQuantile ab. Uberzeugen wir uns erst mal, dass das 0% -Quantil der Binomial(4,0.5)-Verteilung gleich 0 ist. In der Tat erhalt man dies als Ausgabe nach dem Befehl

qbinom(0,4,0.5)

Page 16: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 2. EMPIRISCHE VERTEILUNGEN, QUANTILE UND QQ-PLOTS15

Bei Wert p = 6.25% springt diese Quantilfunktion von 0 auf 1. Machen wir unswieder ein Bild! Unser Gitter ist jetzt

p <- seq(0,1,0.01)

Der Plotbefehl ist

plot(p,qbinom(p,4,0.5), type="s")

Als nachstes machen wir uns ein Bild von der empirischen Quantilfunktion derzu Anfang betrachteten Stichprobe

x <- c(4.2, 5.1, 2.0, 9.4)

Dies leistet der Befehl

i<- 0:4; ; plot(i/4,c(min(x),sort(x)),type="S")

Der Vektor sort(x) = (x(i))i=1,...,m ist dabei der Vektor der aufsteigend geord-neten xi.Im Plottyp S werden zwei Punkte verbunden, indem man zuerst vertikal nachoben und dann horizontal nach rechts geht.

Fur die Berechnung der empirischen Quantile halt R auch die Funktion quantilebereit. quantile ist allerding keine Sprungfunktion, sondern es interpoliert die mPunkte ((i− 1)/(m− 1), x(i)), i = 1, . . . ,m, linear. In der Tat liefern die beidenBefehle

i<- 0:3; ; plot(i/3, ; sort(x), ; type="l")

und

p <- seq(0,1,0.01);plot(p, ; quantile(x,p), ; type="l")

im wesentlichen dasselbe Ergebnis.

Wie vergleicht man nun zwei empirische Quantilfunktionen? Wenn die Stichpro-benumfange gleich sind, ist dies ein leichtes: man tragt sort(x) gegen sort(y) ab.Sind die Stichprobenumfange m und n nicht gleich, so bietet sich lineare Inter-polation an: man konnte (etwa fur m < n) sort(x) gegen quantile(y, i/(m− 1)abtragen, mit

i<- 0:(m-1).

Page 17: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 2. EMPIRISCHE VERTEILUNGEN, QUANTILE UND QQ-PLOTS16

Also etwa fur y < − c(3.5, 1, 2, 8, 7):

i<- 0:(length(x)-1); plot(sort(x), quantile(y,i/(length(x)-1)))

Genau das tut R auch auf Knopfdruck, genauer: auf den Befehl

qqplot(x,y)

Betrachten wir ein paar QQ-Plots:

x<-rexp(100,1)*(2*rbinom(100,1,0.5)-1)

z<-rnorm(100)

qqplot(x,z)

(Die Dichte der zweiseitigen Standard-Exponentialverteilung ist 12e

−|x| , x ∈ R).

z<-rnorm(100)

y<-rcauchy(100)

qqplot(y,z)

(Die Dichte der Standard-Cauchyverteilung ist 1π(1+x2) , x ∈ R).

Page 18: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 3

Schatzen vonLageparametern

3.1 Mittelwert und Median

Wie soll man die “Lage” von Verteilungen beschreiben? Durch den Mittelwert?Oder durch den Median?

Bleiben wir erst einmal bei symmetrischen Verteilungen. Dann fallen Mittelwertund Median mit dem Symmetriezentrum zusammen.

Angenommen, X1, X2, . . . , Xn sind unabhanggig und identisch verteilt mit Ver-teilungsdichte gθ(x), wobei

gθ(·) symmetrisch um θ ∈ R ist.

Aufgabe: Schatze den Lageparameter θ aus X = (X1, . . . , Xn) moglichst gut.

Naturliche Kandidaten fur Schatzer sind

mean(X) :=1

n(X1 + . . .+Xn)

median(X) :=

{X(k+1), fur n = 2k + 112 (X(k) +X(k+1)), fur n = 2k

Betrachten wir zwei Beispiele:

1. gθ(x) = 1√2πσ

2 e−12 ( x−θ

σ)2 ,

2. gθ(x) = α2 e

−α|x−θ|.

A . . . Stichprobenmittel von 100 unabhangig N (0, 1) verteilter Zufallsvariablen,B . . . Stichprobenmedian von 100 unabhangig N (0, 1) verteilter Zufallsvariablen,a . . . 1000 unabhangige Realisierungen von A,b . . . 1000 unabhangige Realisierungen von B.

17

Page 19: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 3. SCHATZEN VON LAGEPARAMETERN 18

Analog fur zweiseitige Exp(1)-verteilte Zufallsvariablen: V,W, v, w

Es ergaben sich folgende Verhaltnisse

Var aVar b = 0.618

Var vVar w = 1, 65

D.h. im Fall der Normalverteilung streut das Stichprobenmittel weniger, und imFall der zweiseitigen Exponentialverteilung mehr als der Stichprobenmedian!

Theoretische Uberlegungen:

1. Zur Asymptotik von mean:Nach dem zentralen Grenzwertsatz gilt (mit σ2 := Var(Xi)):

√n(mean(X) − θ) → N

(0, σ2

)in Verteilung.

2. Zur Asymptotik von median:Wir geben hier ein heuristisches Argument, das in den Ubungen rigorosgemacht wird. Dazu betrachten wir erst einen Spezialfall:U1, U2, . . . Uniform(0,1)-verteilt,Mn := median(U1, . . . , Un),Kn := Anzahl der Ui, die in [0, 1

2 ] fallen,L(Kn) = Binom(n, 1

2 )

Fur große n ist 1nKn − 1

2 asymptotisch so verteilt wie Mn − 12 (beachte:

die Distanz zwischen U(i) und U(i+1) ist im Mittel ungefahr 1n )

Nach Moivre-Laplace gilt also:

√n

(Mn − 1

2

)→ N

(0,

1

4

)

Nun zum allgemeinen Fall: Sei ν eine Verteilung auf R mit Verteilungs-funktion F . Ist U gleichverteilt auf [0, 1], dann ist X := F−1(U) gemaß νverteilt.

Wie ist F−1(Mn) asymptotisch verteilt ?

Die asymptotische Verteilung von Mn wird um

d

dqF−1(q)

∣∣∣∣q= 1

2

=1

F ′(F−1(12 ))

gestreckt. Mit µ := F−1(12 ) =: Median von ν und f := F ′ ≡ Dichte von ν

ergibt sich:√n(F−1(Mn) − µ)

n→∞−→ N(

0,1

4f(µ)2

)

Kehren wir zuruck zu unserem Beispiel:

Die Varianz der zweiseitigen Standard-Exponentialverteilung ist 2, ihre Dichtebei 0 ist 1

2 .

Die Dichte der Standard-Normalverteilung bei 0 ist 1√2π

Page 20: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 3. SCHATZEN VON LAGEPARAMETERN 19

Also:

ν

as.Var.. . . 2seitig Exp N (0, 1)

mean 2 1median 1

422 = 1 14 · 2π = π

2

Die asymptotischen Verhaltnisse Var (mean)Var (median) sind also

• 2 fur die zweiseitige Exponentialverteilung,

• 2/π ≈ 0.637 fur die Normalverteilung.

Wir werden gleich sehen:

Die beiden Beispiele “Normalverteilung” und “Zweiseitige Exponentialvertei-lung” waren gerade so ausgewahlt, dass Stichprobenmittel und Stichprobenme-dian jeweils der sogenannte Maximum-Likelihood-Schatzer fur den Lagepara-meter war.

Aufgabe: Bestimme zu den Daten x = (x1, . . . , xn) ein θ = θ(x) so, dass dieDichte fθ(x) maximal unter allen fθ(x) wird.

Wegen der vorausgesetzten Unabhangigkeit der X1, . . . , Xn ist

fθ(x) =n∏

i=1

gθ(xi).

Wegen der strikten Monotonie des Logarithmus ist die Aufgabe aquivalent zu

n∑

i=1

log gθ(xi) = max !

Beispiel 1 (Normalverteilung) gθ(x) = 1√2πσ2

e−12 ( x−θ

σ)2

const −n∑

i=1

1

2(xi − θ

σ)2 = max !

⇔n∑

i=1

(xi − θ)2 = min !

⇔ θ =1

n

n∑

i=1

xi

Beispiel 2 (Zweiseitige Exponentialverteilung) gθ = α2 e

−α|x−θ|

Page 21: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 3. SCHATZEN VON LAGEPARAMETERN 20

const −n∑

i=1

α|xi − θ| = max !

⇔n∑

i=1

|xi − θ| = min !

⇔ links von θ liegen genau so viele der xi wie rechts von θ

⇔ θ ist ein Median von (x1, . . . , xn)

3.2 Schatzen des Medians mit Konfidenz

Sei ν eine beliebige Verteilung auf R.µ heißt ein Median von ν: ⇐⇒

ν ((−∞, µ)) ≤ 1

2und ν ((µ,∞)) ≤ 1

2

Sei X = (X1 . . . , Xn) mit unabhangigen, gemaß ν verteilten X1 . . . , Xn.

µ(ν) sei ein Median von ν.

Gesucht: Ein Intervall I = I(X) mit

Wsν ({I(X) ∋ µ(ν)}) ≥ 0.95

I(X) heißt dann ein 95% Konfidenzintervall fur µ(ν).

Beispiel:

n = 10

I(X) := [X(1), X(10)] = [min(X),max(X)]

Wsν (I(X) 6∋ µ(ν)) =

= Wsν(alleX1, . . . , X10 sind < µ) + Wsν(alleX1, . . . , X10 sind > µ)

≤(

1

2

)10

+

(1

2

)10

=1

29=

1

512≈ 0.002

Und wie war’s mit I(X) := [X(2), X(9)]:

Wsν (I(X) 6∋ µ(ν))

= Wsν (hochstens eines der Xi ist ≤ µ(ν))

+ Wsν (hochstens eines der Xi ist ≥ µ(ν))

= 2 pbinom(1, 10, 0.5)

= 2 ·((

10

0

)+

(10

1

))1

210= 11 · 0.002 = 0.022.

Fur allgemeines n und Niveau 1 − α (statt 0.95):Bestimme l (moglichst groß) so, dass 2 pbinom (l, n, 0.5) ≤ α⇐⇒ l = qbinom (α/2, n, 0.5).

Page 22: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 3. SCHATZEN VON LAGEPARAMETERN 21

3.3 Ein asymptotisches Konfidenzintervall fur denErwartungswert

Im vorigen Abschnitt haben wir zu jeder Stichprobengroße n ein Konfidenzin-tervall angegeben, das fur den Median jeder beliebigen Verteilung ν gut war.

Funktioniert so etwas auch fur den Erwartungswert?M.a.W.: Existiert (fur festes n) ein I = I(X) mit Wsν(I(X) ∋ µ) ≥ 0.95fur alle Verteilungen ν mit Erwartungswert µ?

Die Antwort ist nein. Sei namlich ν0 fest gewahlt mitErwartungswert µ. X habe Verteilung ν0.

Xε :=

{X mit Wahrscheinlichkeit 1 − ε1/ε2 mit Wahrscheinlichkeit ε

νε := L(Xε) , µε := EXε ε→0−→ ∞

Fur jedes von X = (X1, . . . , Xn) abhangige endliche Intervall I(X) gilt dann:

Ws (I(X1, . . . , Xn) = I(Xε1 , . . . , X

εn))

ε→0−→ 1

und Ws(I(X1, . . . , Xn) ∋ µε)ε→0−→ 0

somit: Ws(I(Xε1 , . . . , X

εn) ∋ µε)

ε→0−→ 0,

also kann I kein Konfidenzintervall fur alle Verteilungen mit endlichem Erwar-tungswert sein.

Es gibt allerdings einen approximativen Ersatz fur große n:

Wir wissen: Fur jedes ν (mit Erwartungswert µ und Varianz (σ2 < ∞) undX1, X2 . . . unabhangig und identisch verteilt gemaß ν gilt nach dem ZentralenGrenzwertsatz

√nXn − µ

σ

n→∞−→ N (0, 1) in Verteilung.

Also gilt fur großes n:

Wsν

(√n(Xn − µ)

σ∈ [qnorm(0.025), qnorm(0.975)]

)≈ 0.95

⇐⇒ Wsν

(Xn − µ ∈

1√n

qnorm(0.025), σ1√n

qnorm(0.975)

])≈ 0.95

⇐⇒ Wsν

(µ ∈

[Xn − σ

1√n

qnorm(0.975), Xn − σ1√n

qnorm(0.025)

]

︸ ︷︷ ︸=: I(Xn)

)≈ 0.95

In diesem Sinn ist I(Xn) ein asymptotisches 95%-Konfidenzintervall fur µ.

Bemerkung: Ist ν = N(θ, σ2

)(mit bekanntem σ2), so ist I(Xn) sogar ein

exaktes 95%-Konfidenzintervall fur θ.

Page 23: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 4

Mehr uberKonfidenzintervalle

4.1 Zwei Bauplane fur Konfidenzintervalle

V sei eine Familie von Verteilungen(z.B. alle Verteilungen auf R

oder: alle Normalverteilungen auf R mit fester Varianz σ2,oder: alle verschobenen Verteilungen ν := ν0(.− θ) mit festem ν0).

θ := m(ν) sei ein reellwertiges Merkmal der Verteilung ν (z.B. Median, Erwar-tungswert, Korrelationskoeffizient, . . . )X1, . . . , Xn unabhangig und identisch verteilt gemaß ν , X := (X1, . . . , Xn)L(X) sei ein Schatzer fur θ.

Annahme 1. Angenommen wir kennen die Verteilung π von L(X) − θ, unddiese hangt nicht von θ ab. Dann konnen wir uns durch den folgenden Ansatzleicht ein (1-α)-Konfidenzintervall fur θ beschaffen:

I(X) := [L(X) − a, L(X) − b]

I(X) 6∋ θ ⇐⇒ L(X) − a > θ oder L(X) − b < θ

⇐⇒ L(X) − θ > a oder L(X) − θ < b

Also ist mit a := qπ(1 − α2 ) , b := qπ(α

2 ) I(X) ein (1-α)-Konfidenzintervallfur θ.

Die Annahme 1 trifft ubrigens zu im BeispielV = {N (θ, σ) |θ ∈ R} (mit festem σ2)denn L(Xn − θ) = N

(0, 1

nσ2).

Annahme 2. Sei S(X) irgendeine andere Statistik.

Angenommen, wir kennen die Verteilung ρ von L(X)−θS(X) ,

22

Page 24: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 4. MEHR UBER KONFIDENZINTERVALLE 23

und diese hangt nicht von θ ab.Ansatz: (*) I(X) := [L(X) − aS(X) , L(X) − bS(X)]

I(X) 6∋ θ ⇐⇒L(X) − aS(X) > θ oder L(X) − bS(X) < θ

⇐⇒L(X) − θ

S(X)> a oder

L(X) − θ

S(X)< b

Mit a := qρ(1 − α2 ) und b := qρ(α

2 )ist somit I(X) ein (1 − α)-Konfidenzintervall fur θ.

Wie wir in Abschnitt 14 sehen werden, ist die Annahme 2 erfullt im Beispiel

V = {N (θ, σ) |θ ∈ R, σ2 ∈ R+}

mit L(X) := mean(X) , S(X) := sd(X) =√

1n−1

∑ni=1(Xi − Xn)2.

Dann wird auch klar, warum ein Konfidenzintervall der Form (*) manchmal alsstudentisiert bezeichnet wird.

4.2 Bootstrap-Konfidenzintervalle

Wir gehen aus von der im Beginn des vorigen Abschnitts beschriebenen Situa-tion.

Wie kommt man an die Verteilung von L(X)−m(ν) (bzw. von L(X)−m(ν)S(X) ) heran,

wenn man uber ν erst mal nichts weiß?

Alles was man in der Hand hat, ist eine Realisierung x von X = (X1, . . . , Xn),und die zugehorige empirische Verteilung νx.

Bootstrap-Idee: Lass νx die Rolle von ν ubernehmen

ν νx

X = (X1, . . . , Xn) X∗ = (X∗1 , . . . , X

∗n)

mit Xi u.i.v. mit X∗i u.i.v.

gemaß ν gemaß νx

X∗ entsteht also durch n-maliges Ziehen mit Zurucklegen aus x = (x1, . . . , xn).

Hoffnung: π := L(L(X) −m(ν)) wird gut approximiert durch

πx := L(L(X∗) −m(νx))

.

In der Praxis wird πx nicht theoretisch berechnet, sondern durch Monte-Carlo-Simulation angenahert.

Z.B.: Beschaffe eine Realisierung (x∗1, . . . , x∗B) von B unabhangige Kopien

von X∗ (z.B: B = 1000) (indem du jeweils n-mal mit Zurucklegen aus x ziehst).

Ersetze die (1− α2 ) und α

2 -Quantile von π durch die entsprechenden empirischenQuantile a∗ und b∗ von (L(x∗1) −m(νx), . . . , L(x∗B) −m(νx)).

Page 25: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 4. MEHR UBER KONFIDENZINTERVALLE 24

I(x) := [L(x) − a∗ , L(x) − b∗]

heißt dann basic bootstrap (1 − α)-Konfidenzintervall fur m(ν).

Wie funktioniert das in R? Weil dort das Stichprobenziehen bequem ist, kannman‘s leicht durchfuhren.

Beispiel: m(ν) . . . Mittelwert , L(x) . . . mean(x) , x = (x1, . . . , xn)

v<-c()

for(j in 1:B)

v[j]<-mean(sample(x,replace=T))

a<-quantile(v-mean(x),1-alpha/2)

b<-quantile(v-mean(x), alpha/2)

I<-c(mean(x)-a, mean(x)-b)

Oder auf Knopfdruck mit den beiden R-Routinen boot und boot.ci:

library(boot)

bootinfo<-boot(x, function(y,j) mean[y(j)], R=B)

ci<-boot.ci(bootinfo, conf=1-alpha, type = "basic")

Beispiel: X = (X1, . . . , X101) ist Realisierung einer Stichprobe aus

ν =1

4N (−2, 1) +

3

4N (2, 1)

Siehe dazu

www.math.uni-frankfurt/˜stoch/Wakolbinger/Skripte/FP5.11.pdf(es gibt dazu auch einen Link von der Homepage der Vorlesung).

Wir wenden uns jetzt dem Ansatz 2) aus dem vorigen Abschnitt zu. Die Hoff-nung ist nun, dass

ρ := L(L(X) −m(ν)

S(X)

)

gut approximiert wird durch

ρx := L(L(X∗) −m(νx)

S(X∗)

).

Wieder wird ρx durch Monte-Carlo-Simulation angenahert:

Sei (x∗1, . . . , x∗B) eine Realisierung von B unabhangigen Kopien von X∗. Ersetze

die (1− α2 ) und α

2 -Quantile von ρ durch die entsprechenden empirischen Quantilea∗ und b∗ von

((L(x∗1) −m(νx))/S(x∗1), . . . , (L(x∗B) −m(νx))/S(x∗B))

I(x) := [L(x) − a∗S(x) , L(x) − b∗S(x)]

Page 26: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 4. MEHR UBER KONFIDENZINTERVALLE 25

heißt dann studentisiertes bootstrap (1-α)-Konfidenzintervall fur m(ν).

In unserem Beispiel ist ein naturlicher Kandidat fur S(x) die Stichprobenstreu-ung

sd(x) =

√(x1 − x)2 + . . .+ (xn − x)2

n− 1

Eine 3. Moglichkeit ist das asymptotische (1 − α)-Konfidenzintervall, also z.B.fur α = 0.05

I(x) =

[mean(x) − 1.96

1√n

sd(x) ,mean(x) + 1.961√n

sd(x)

]

Halten diese Konfidenzintervalle denn auch einigermaßen ihre nominelle Uber-deckungswahrscheinlichkeit ein? Wir sehen uns das an unserem Beispiel an,indem wir 1000 Stichproben aus ν ziehen und notieren, wie oft das jeweiligeIntervall den wahren Parameter uberdeckt. Siehe dazu die o.a. Web-Seite.

Page 27: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 5

Student, Fisher und dieschone normale Welt

5.1 Die Student-Statistik

Wir hatten gesehen, wie man sich Kenntnis uber die Verteilung von L(X)−m(ν)S(X)

fur die Konstruktion eines Konfidenzintervalls fur m(ν) zunutze machen kann.

Wir fassen nun speziell ins Auge:

ν = N (µ, σ2),m(ν) = µ,L(X) := mean(X) =: X,

S(X) := sd(X) =

√1

n− 1

((X1 − X)2 + . . .+ (Xn − X)2

)=: s .

Die Zufallsvariable T :=√

nX−µs wird dann (zu Ehren von William Gosset, der

unter dem Pseudonym “Student” publizierte) als Student-Statistik (oder aucht-Statistik) bezeichnet.

Es ist ein kleines Wunder, dass die Verteilung von T nicht von µ und σ2 abhangtund sehr schon ausgerechnet werden kann.

Klar wird dies durch die folgende geometrische Interpretation:

D := {(x, . . . , x)T ∈ Rn|x ∈ R} =: Diagonale von R

n

(ist 1-dimensionaler Teilraum von Rn)

(X, . . . , X) = X(1, . . . , 1) ist die Projektion1 von X auf D(Symbol: PDX = X(1, . . . , 1))

In der Tat gilt fur alle α(1, . . . , 1) ∈ D:

〈X − X(1, . . . , 1), α(1, . . . , 1)〉 = α(

n∑

i=1

Xi − nX) = 0

1Im folgenden verstehen wir unter Projektion stets eine Orthogonalprojektion.

26

Page 28: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 5. STUDENT, FISHER UND DIE SCHONE NORMALE WELT27

Daraus folgt: Die Projektion von X auf das orthogonale Komplement D⊥ zu Dist

PD⊥X = X − PDX = (X1 − X, . . . , Xn − X).

Sind X1, . . . , Xn unabh. N (µ, σ2), so sind Z1,...,Zn

(mitZi :=Xi − µ

σ)

unabhangig N (0, 1) verteilt. Mit Z = (Z1, . . . , Zn) lasst sich die Student-Statistiksomit schreiben als

T =

√nZ√

1n−1

∑ni=1(Zi − Z)2

=

√nZ

1√n−1

‖PD⊥Z‖

(mit ‖ ‖ : = euklidische Lange).

5.2 Die Standard-Normalverteilung auf Rn und

der Satz von Fisher

Definition: Z = (Z1, . . . , Zn)T heißt standard-normalverteilt auf Rn :⇔

Z1, . . . , Zn sind unabhangig, standard-normalverteilt in R.

Die Verteilungsdichte von Z ist

ϕn(z) =n∏

i=n

1√2πe−z2

i /2 =1

(2π)n/2e−

‖z‖2

2 ,

sie ist also rotationssymmetrisch!

Wie ist das Normquadrat einer Projektion von Z verteilt?Wie ist das Normquadrat von Z selbst verteilt?

Lemma 1: (Uber die orthogonale Invarianz der Standard-Normalverteilung)

Z sei standard-normalverteilt auf Rn

a) Die n× n Matrix M sei orthogonal (d.h. M ·MT = I). Dann ist Y = M · Zwieder standard-normalverteilt auf R

n.

b) Zu jeder ON -Basis von Rn sind die Koordinaten von Z wieder standard-

normalverteilt.

Beweis:

a) Die Verteilungsdichte g(y) von Y ist

g(y) =1

| detM |ϕn(M−1y).

Page 29: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 5. STUDENT, FISHER UND DIE SCHONE NORMALE WELT28

Nun ist aber | detM | = 1 und

‖M−1y‖2 = yT (M−1)TM−1y

= yT (MMT )−1y = ‖y‖2,

also g(y) = ϕn(y).

b) e1, . . . , en sei eine ON -Basis von Rn. Fur Y := (eT

1 Z, . . . , eTnZ)T

gilt: Y = MZ, mit der orthogonalen Matrix M = (e1, . . . , en)T .Die Behauptung folgt nun aus a).

Definition: χ2(n) := Verteilung von Z21 + . . .+ Z2

n

Satz von Fisher: Z sei standard-normalverteilt in Rn,H sei ein k-dimensionaler

Teilraum von Rn.

Dann gilt:

a) ‖PHZ‖2 ist χ2(k) verteilt.

b) PHZ und PH⊥Z sind unabhangig.

Beweis: (e1, . . . , ek) sei eine ON -Basis von H , die wir zu einer ON -BasisB = (e1, . . . , en) von R

n erganzen.

W1, . . . ,Wk , Wk+1, . . . ,Wn seien die Koordinaten von Z in B. Dann gilt:

PHZ =

k∑

i=1

eiWi , PH⊥Z =

n∑

i=k+1

eiWi , ‖PHZ‖2 =

k∑

i=1

W 2i .

Also folgt die Behauptung sofort aus Lemma 1.

5.3 Die Student-Statistik nochmal

Aus dem Satz von Fisher ergibt sich sofort dasKorollar X1, . . . , Xn seien unabhangig und N

(µ, σ2

)verteilt,

Zi :=Xi − µ

σ, Z = (Z1, . . . , Zn)T

Dann ist

PDZ =

(X − µ

σ

)(1, . . . , 1)T

und damit

‖PDZ‖ =√n|X − µ|

σ,

PDT Z =

(Xi − X

σ

)

i=1,...,n

.

Page 30: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 5. STUDENT, FISHER UND DIE SCHONE NORMALE WELT29

Also folgt aus dem Satz von Fisher:

√nX − µ

σist N (0, 1)-verteilt,

1

σ2

n∑

i=1

(Xi − X)2 ist χ2(n− 1)-verteilt

und die beiden Zufallsvariablen sind unabhangig.

Definition: Z sei N (0, 1)-verteilt, C sei χ2(k)-verteilt und unabhangig vonZ.

Dann heißt: T := Z√C/k

Student(k)-verteilt.

Manchmal bezeichnet man diese Verteilung auch als t-Verteilung mit k Frei-heitsgraden. R kennt die Dichte-, Verteilungs- und Quantilfunktion davon alsdt(x, k), pt(x, k), qt(p, k).

Fazit: X1, . . . , Xn seien unabhangig und N(µ, σ2

)-verteilt. Dann ist

T :=

√n(X − µ)

s

Student(n− 1)-verteilt.

5.4 Die Dichte der Student-Verteilung (Fishers

geometrische Herleitung)

Sei Z standardnormalverteilt auf Rn,

Betrag und Richtung von Z sind dann voneinander unabhangig undgegeben ‖Z‖ = r ist Z

‖Z‖ gleichverteilt auf der Einheitssphare.

Es geht uns um die Verteilung von ‖PDZ‖‖P

D⊥Z‖ .

Nach dem Strahlensatz ist dieses Langenverhaltnis gleich OMPM

, wobei P dieProjektion von Z auf die Einheitssphare Sn−1 in R

n , und M die Projektion vonP auf die Gerade D ist.

Aufgabe: Berechne die Verteilung von cotΦ, wobei P gleichverteilt auf Sn−1

und Φ der Winkel zwischen OP und D ist.

Berechnen wir erst mal die Verteilungsdichte von Φ:Fur ϕ ∈ (0, 2π) ist

Ws (Φ ∈ [ϕ,ϕ+ dϕ])

proportional zu dϕ· Inhalt einer “Hypersphare” mit Radius sinϕ.

(Beispiel: n = 3: Hypersphare = KreisVolumen = Lange ist proportional zum Radius;Ws (Φ ∈ [ϕ,ϕ+ dϕ]) ist proportional zu sinϕ).

Fur allgemeines n ≥ 2:

Ws (Φ ∈ [ϕ,ϕ+ dϕ]) = cn dϕ sinn−2 ϕ

Page 31: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 5. STUDENT, FISHER UND DIE SCHONE NORMALE WELT30

Zur Erinnerung:

X habe Verteilungsdichte g; h sei streng monoton und differenzierbar. Dannhat Y := h(X) die Verteilungsdichte

1

|h′ (h−1(y)) | g(h−1(y)

)

Anwendung auf unseren Fall: g(ϕ) = cn sinn−2 ϕ

y = h(ϕ) = cotϕ

cot′(ϕ) = −(1 + cot2 ϕ)

1

cot′(arccoty)= − 1

1 + y2

Also ist

1

|h′ (h−1(y)) | g(h−1(y)

)=

1

1 + y2cn

(1

1 + cot2(arccoty)

)n−22

=

(1

1 + y2

)n2

cn.

Berechnen wir noch die Konstante cn. Dazu erinnern wir an

∫ 2π

0 sinn−2 φ dφ =

=

{(n−3)(n−5)...·1(n−2)(n−4)...·2 · π fur n gerade(n−3)(n−5)...·1(n−2)(n−4)...·2 · 2 fur n ungerade

=Γ(

n−12

)· √π

Γ(

n2

) = c−1n

Also ist die Verteilungsdichte von~OM

PMgleich

Γ(

n2

)

Γ(

n−12

) 1√π

(1 + y2

)−n2 .

Die Dichte der Student(n-1)-Verteilung ist gleich der Verteilungsdichte von~OM

1√n−1

PM, also gleich

1√(n− 1)π

Γ(

n2

)

Γ(

n−12

)(

1 +y2

n− 1

)−n2

5.5 Die Dichte der χ2-Verteilung

Z sei standard-normalverteilt auf Rn

Die Verteilung von ‖Z‖ ist

Ws (‖Z‖ ∈ [r, r + dr]) = c(n)e−r2

2 Vol {z | ‖z‖ ∈ [r, r + dr]}

= c(n)e−r2

2 rn−1dr =: g(r)dr

Page 32: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 5. STUDENT, FISHER UND DIE SCHONE NORMALE WELT31

LemmaX habe Verteilungsdichte g. Die Abbildung h sei streng monoton und differen-zierbar, dann hat Y := h(X) die Verteilungsdichte

1

|h′ (h−1(y)) |g(h−1(y)

)

Betrachte speziell h : r → r2.

Die Verteilungsdichte von Y = ‖Z‖2 = h(‖Z‖) ist

1

h′(√y)g(√y) = c(n)

1

2√ye−

y2√y

n−1=c(n)e

2

− y2

yn2 −1

Zur Erinnerung: Die Verteilung mit Dichte

f(y) =1

Γ(β)yβ−1e−y (β > 0)

heißt Gamma(β). β heißt deren Formparameter.

Hat X Dichte g, so hat Y := 1αX Dichte αg(αy).

Die Verteilung mit Dichte

f(y) =1

Γ(β)αβyβ−1e−αy

heißt Gamma(β, α). α heißt deren Skalenparameter.(Merke: Gamma(1, α) =Exp(α).)

Beispiel:

β =n

2, α =

1

2

f(y) =1

Γ(n2 )

1

2n2y

n2 −1 e−

y2

Fazit: χ2(n) = Gamma(

n2 ,

12

)

5.6 Student-Konfidenzintervall und Student-Test

Zur Erinnnerung:

Kennt man die Verteilung π von L(X)−θS(X) , so kann man aus den Quantilen

von π ein Konfidenzintervall fur θ konstruieren.

Damit ergibt sich fur X1, . . . , Xn unabhangig und N(µ, σ2

)-verteilt:

Korollar 1:

Istud1−α (X) :=

[X − s

1√n

qt(1 − α

2, n− 1

), X − s

1√n

qt(α

2, n− 1

)]

=

[X − s

1√n

qt(1 − α

2, n− 1

), X + s

1√n

qt(1 − α

2, n− 1

)]

Page 33: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 5. STUDENT, FISHER UND DIE SCHONE NORMALE WELT32

ist ein (1 − α)-Konfidenzintervall fur µ.

Korollar 2: Tθ :=√

n(X−θ)s liefert eine Teststatistik fur die Hypothese

Hθ : µ = θ.

Fallt der Wert τ von Tθ betragsmaßig groß aus, dann konnen wir Hθ gegen dieAlternative µ 6= θ ablehnen zum p-Wert

2 · pt(−|τ | , n− 1)

Eine gangige Moglichkeit ist auch die Konstruktion einer Entscheidungsregel(statistischer Test im Sinn von J. Neymann und E. Pearson).

Klassischer t-Test mit Signifikanz α: Lehne Hθ ab, falls

|Tθ(X)| ≥ |qt(α

2, n− 1)|

Wir stellen fest: x liegt im Annahmebereich des Tests auf Hθ

⇐⇒ I(X) ∈[−qt(1 − α

2, n− 1) , qt(1 − α

2, n− 1)

]

⇐⇒ Istud1−α (X) ∋ θ

Beispiel: α = 0.05

k qt(0.975, k)1 12.72 4.33 3.25 2.611 2.218 2.160 2.0∞ 1.96

5.7 Das Shift-Modell in der schonen normalenWelt

X1, . . . , Xm N(µ1, σ

2)-verteilt

Y1, . . . , Yn N(µ2, σ

2)-verteilt

X1, X2, . . . , Yn unabhangig

Gesucht:a) Konfidenzintervall fur µ1 − µ2

b) Test der Hypothese µ1 = µ2

Betrachte X − Y − (µ1 − µ2).

L(X − Y − (µ1 − µ2)

)= N

(0,

1

mσ2 +

1

nσ2

)= N

(0,

(1

m+

1

n

)σ2

)

Page 34: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 5. STUDENT, FISHER UND DIE SCHONE NORMALE WELT33

Wie kann man diese Verteilung “pivotisieren” (so, dass sie sich nicht mehrandert, wenn man an µ1, µ2 und σ2 dreht)?(Englisch: “pivot” = “Drehzapfen”)

1√1m + 1

(X − Y − (µ1 − µ2)

)ist N (0, 1)-verteilt.

Wie bringt man σ weg? Aus dem Satz von Fisher folgt:

1

σ2

m∑

i=1

(Xi − X)2 +

n∑

j=1

(Yi − Y )2

ist χ2(m− 1 + n− 1)-verteilt (und unabhangig von X, Y ).

Setzen wir

s2X,Y :=1

m+ n− 2

m∑

i=1

(Xi − X)2 +

n∑

j=1

(Yi − Y )2

.

Dann folgt:

T := T (X,Y) :=X − Y − (µ1 − µ2)√

1m + 1

n · sX,Y

ist Student(m+ n− 2)-verteilt.

Korollar 1:

Istud1−α (X,Y) :=

[X − Y −

√1

m+

1

nsX,Y qt

(1 − α

2, m+ n− 2

),

X − Y +

√1

m+

1

nsX,Y qt

(1 − α

2, m+ n− 2

)]

ist ein (1 − α)-Konfidenzintervall fur µ1 − µ2.

Korollar 2:

Tθ :=X − Y − θ√

1m + 1

nsX,Y

liefert eine Teststatistik fur die Hypothese Hθ : µ1 − µ2 = θ.

Klassischer Zwei-Stichproben t-Test mit Signifikanz α:

Lehne Hθ ab, falls

| Tθ(X,Y) | ≥ | qt(α

2,m+ n− 2

)|

Wieder stellen wir fest:

(X,Y) liegt im Annahmebereich des Tests auf Hθ

⇐⇒ Tθ(X,Y) ∈[- qt

(1 − α

2, n− 1

), qt(1 − α

2, n− 1

)]

⇐⇒ Istud1−α (X,Y) ∋ θ

Page 35: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 6

Gepaarte Stichproben

6.1 Der t-Test fur gepaarte Stichproben

Beispiel: (aus Box-Hunter-Hunter, Statistics for Experimenters, Wiley 1978)Zwei Materialien (A und B) fur Schuhsohlen werden betrachtet. Es geht darum,einen Versuch zu planen, um heraus zu bekommen, welches Material sich wenigerabnutzt. Man hat 10 Jungs als Testpersonen; sie erklaren sich bereit, 2 Monatelang nur die Versuchsschuhe zu tragen.

1. Eine schlechte Versuchsplanung:

Gib 5 davon Schuhe mit Material A, 5 davon Schuhe mit Material B, undmiss nach den 2 Monaten die Abnutzung.

Warum schlecht? Es gibt hampelige und ruhige Jungs. Ein etwaiger “Ma-terialeffekt” ist mit dem Individualeffekt “Strapazierung der Sohlen”,wie man sagt, “vermengt”.

2. Eine gute Versuchsplanung:

Gib jedem der Jungs eine Sohle A und eine Sohle B.

So wurde es in der Tat gemacht, es ergaben sich folgende Werte fur dieAbnutzung:

A B1 13.2 14.02 8.2 8.83 10.9 11.24 14.3 14.25 10.7 11.86 6.6 6.47 9.5 9.88 10.8 11.39 8.8 9.310 13.3 13.6

34

Page 36: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 6. GEPAARTE STICHPROBEN 35

a) Eine schlechte Auswertung:

“Wirf alles wieder in einen Topf”

Der t-Test fur 2 Stichproben lasst in der Tat keine signifikante Ab-lehnung der Hypothese µA = µB zu.

b) Eine gute Auswertung:

“Nimm Rucksicht auf die Paarung”

plot(x,y)

Betrachte die Differenzen Ai −Bi.

Im schonen normalen Modell sind diese unabhangig und identisch normal-verteilt.

6.2 Der Wilcoxon-Test fur gepaarte Stichpro-

ben

Zur Erinnerung:

Die Modellannahme beim t-Test fur gepaarte Stichproben (Stichwort “Buben-schuhe”) war:

L(Ai) = N(µi, σ

2)

i = 1, . . . , n

L(Bi) = N(µi + θ, σ2

)i = 1, . . . , n

A1, . . . , Bn unabhangig.

Dies implizierte:L(Bi −Ai) = N

(θ, 2σ2

)

und erlaubte die Anwendung des einfachen t-Tests etwa zur Prufung der Hypo-these “θ = 0”

Lockerung der Modellannahme zu

{L(Bi) = L(Ai + θ)A1, . . . , Bn unabhangig.

Dies impliziert: Xi := Bi − Ai , i = 1, . . . , n, sind unabhangig und identischverteilt, und ν := L(Xi − θ) ist symmetrisch um den Ursprung.

Dies passt somit in den folgenden Exkurs.

Page 37: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 6. GEPAARTE STICHPROBEN 36

6.2.1 Das Shiftmodell fur symmetrische Verteilungen

ν sei eine um den Ursprung symmetrische Verteilung auf R.

Der Einfachheit halber nehmen wir an:

ν ist stetig (d.h. ν({x}) = 0 fur alle z ∈ R).

Modell: X1, X2, . . . , Xn sei u.i.v., fur irgendein θ gelte:

L(X1 − θ) = ν.

Idee des Wilcoxon-”signed rank”-Tests auf

Hµ : θ = µ :

Wenn die deutliche Mehrzahl der betragsmaßig großeren Werte Xi − µ ein po-sitives Vorzeichen hat, wird L(X1) eher rechts von µ liegen.

Betrachte dazu die mit dem Vorzeichen von Xi − µ gewichteten Range von|Xi − µ|.

Wµ(X) :=n∑

i=n

1{Xi>µ} rank |Xi − µ|.

Unter Hµ : θ = µ ist Wµ so verteilt wie

S :=

n∑

i=n

iVi

wobei Vi ein fairer {0,1}-Munzwurf ist. R kennt die Verteilung von S als“signrank”.

Diese ist symmetrisch um 14n(n+ 1) (denn

∑ni=n i(Vi − 1

2 ) ist symmetrischverteilt um 0).

Test auf Hµ (gegen die Alternative θ 6= µ)

Ist Wµ(x) < 14n(n+ 1), dann ergibt sich der p-Wert 2psignrank(Wµ(x), n).

Ist Wµ(x) > 14n(n+ 1), dann ergibt sich der p-Wert 2Ws({S ≥Wµ(x)}).

Dafur gibt es die R-Routine

wilcox.test (x,mu = \mu)

Mit vorgegebenem Signifikanzniveau α:

Lehne Hµ ab, falls

Wµ(x) /∈[qsignrank

(α2, n), qsignrank

(1 − α

2, n)]

Wie gehabt, fuhrt dies auf ein (1 − α)-Konfidenzintervall fur θ:

I(x) := {θ : Wθ(x) ∈[q signrank

(α2, n), qsignrank

(1 − α

2, n)]

}

R-Routine:

Page 38: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 6. GEPAARTE STICHPROBEN 37

wilcox.test (x, conf.int = T , conf.level = 1-\alpha)

(Dabei wird auch der Stichprobenpseudomedian

median

(1

2(xi + xj)i,j

)

als Schatzer fur den Median m von L(

12 (X1 +X2)

)mitgeliefert. Man beachte,

dass L(

12 (X1 +X2) −m

)auch dann symmetrisch ist, wenn ν nicht symmetrisch

ist).

Kehren wir zuruck zu den gepaarten Stichproben und zu unserem Beispiel derBubenschuhe. Der Befehl

wilcox.test (a,b,paired=T)

liefert den p-Wert 0.014.

Der “Vorzeichentest” ist weniger machtig: er liefert den p-Wert2 ∗ pbinom (2, 10, 0.5) = 0.11.

Page 39: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 7

Zur Dualitat zwischen Testsund Konfidenzintervallen

7.1 Die Dualitatsbeziehung

Unsere zufalligen Daten sind eine B-wertige Zufallsgroße X. (B ist der “Beob-achtungsraum”, “Datenraum”, z.B.: B = R

n). Die Verteilung von X sei para-metrisiert durch θ, m(θ) sei ein (skalares) Parametermerkmal.

Fur jedes µ ∈ R sei Aµ eine Teilmenge von B.

Fur jedes x ∈ B sei I(x) eine Teilmenge von R.

Es gelte die Beziehung:x ∈ Aµ ⇐⇒ µ ∈ I(x).

Also stimmen die beiden Ereignisse {X ∈ Am(θ)} und {I(X) ∋ m(θ)} uberein.

Daraus folgt sofort: I(X) ist (1-α)-Konfidenzbereich fur µ⇐⇒ fur jedes µ ist Aµ der Annahmebereich eines Tests der Hypothese“m(θ) = µ” zur Signfikanz α.

x

µ

I(x)

38

Page 40: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 7. ZUR DUALITAT ZWISCHEN TESTS UND KONFIDENZINTERVALLEN39

7.2 Wilcoxon-Test und Hodges-Lehmann-Schatzer

Der Wilcoxon-Test passt in das folgende Shiftmodell:

Hθ X1, . . . , Xm u.i.v. gemaß ν(.− θ)

Y1, . . . , Yn u.i.v. gemaß ν

( ⇐⇒ L(X1 − θ) = L(Y1)).

Unter Hθ ist

Wθ(X,Y) :=

m∑

i=1

n∑

j=1

I{Xi−θ−Yj>0} −mn

2

Wilxocon (m,n)-verteilt.

Annahmebereich eines Tests auf Hθ mit Signifikanz α:

Aθ := {(x, y)|Wθ(x, y)} ∈[qwilcox

(α2,m, n

), qwilcox

(1 − α

2,m, n

)]

1. Betrachten wir (zu den beobachteten Daten x, y) alle diejenigen Verschie-bungen θ, fur die (x, y) im Annahmebereich fur Hθ liegt:

I(x, y) := {θ|(x, y) ∈ Aθ}

Beh: I(X,Y) ist ein (1-α)-Konfidenzintervall fur θ.

In der Tat: Fur alle θ ist

Wsθ (I(X,Y) ∋ θ) = Wsθ (I(X,Y) ∈ Aθ) = 1 − α.

2. Betrachten wir noch (zu den beobachteten Daten x, y) diejenige(n) Ver-schiebung(en) θ , bei denen (x, y) am deutlichsten fur die Annahme von

Hθ spricht. D.h. wir suchen dasjenige θ = θ(x, y), fur welches Wθ(x, y)betragsmaßig am kleinsten (namlich 0) wird.

Setzen wir der Einfachheit halber voraus: ν ist stetig, d.h. ν({z}) = 0 furalle z ∈ R. Dann gilt fast sicher:

m∑

i=1

n∑

j=1

I{Xi−θ−Yj>0} =1

2mn ⇐⇒

⇐⇒ genau die Halfte der m · n Werte Xi − Yj − θ ist > 0.

θ := median ((Xi − Yj)i=1,..m,j=1,..n) heißt Hodges-Lehmann-Schatzerfur θ.

Page 41: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 8

Passen die Daten zurHypothese oder zurAlternative?

8.1 Tests a la Neyman-Pearson

Zufallige Daten X (erzeugt durch einen Zufallsmechanismus mit Parameter ϑ)fallen in den Beobachtungsraum B.

Θ . . . Menge der Parameter.

Seien Θ0 und Θ1 disjunkte Teilmengen von Θ.

Ein Test von Θ0 gegen Θ1 (im Sinn von Neyman und Pearson) besteht in einerPartition von B in zwei Teilmengen, A0 und A1 := B \ A0 (die sogenanntenAnnahmebereiche fur Θ0 und Θ1.) Man will die Wahrscheinlichkeit von Fehl-entscheidungen unter Kontrolle haben.

Definition: Ein Test (A0, A1) von Θ0 gegen Θ1 hat Signifikanz α : ⇐⇒

∀ϑ ∈ Θ0 : Wsϑ(X /∈ A0) ≤ α

supϑ∈Θ0

Wsϑ(X /∈ A0) heißt Risiko 1. Art (Produzentenrisiko)

supϑ∈Θ1

Wsϑ(X /∈ A1) heißt Risiko 2. Art (Konsumentenrisiko)

Klassisches Beispiel: Annahmekontrolle:

Betrachte eine Lieferung, bestehend aus vielen Einzelstucken. Ein Anteil π davonist schlecht, der Rest ist gut. Konsument und Produzent einigen sich (z.B.) auf

Θ0 := {π|π ≤ 0.03} Θ1 := {π|π ≥ 0.15}

Θ0 entspricht “guter Qualitat”, Θ1 entspricht “schlechter Qualitat”. 20 Stuckwerden rein zufallig gezogen, die Anzahl der schlechten Stucke wird notiert.

40

Page 42: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 8. PASSEN DIE DATEN ZUR HYPOTHESE ODER ZUR ALTERNATIVE?41

B := {0, 1, . . . , 20}X := ♯ schlechte Stucke in der Stichprobe.

Man einigt sich auf

A0 := {0, 1, 2}A1 := {3, 4, . . . , 20}.Angenommen, Θ0 trifft zu. Dann hat Wsπ(X > 2) hochstens (namlich fur π =0.03) den Wert

1 − Ws0.03(X ≤ 2) = 1 − pbinom (2, 20, 0.03) = 0.021.

Angenommen, Θ1 trifft zu. Dann hat Wsπ(X ≤ 2) hochstens (namlich fur π =0.15) den Wert

Ws0.15(X ≤ 2) = pbinom (2, 20, 0.15) = 0.4.

Die Abbildungϑ 7→ Wsϑ(X ∈ A0)

heißt Operationscharakteristik des Tests.

8.2 Das Lemma von Jerzy Neyman und Egon

Pearson

Definition: Ein Test von Θ0 gegen Θ1 heißt machtiger als ein anderer, wenner ein kleineres Risiko 2. Art hat.

Ziel: Finde den machtigsten Test, der ein vorgegebenes Signifikanzniveau αeinhalt.

Die Situation ist ubersichtlich im Fall von einelementigen Θ0 und Θ1 (manspricht auch von einfacher Hypothese und einfacher Alternative).

Lemma von Neyman und Pearson: Seien

Θ0 = {ϑ0}, Θ1 = {ϑ1} .

f0 und f1 seien die Verteilungsdichten (bzw. -gewichte) von X unter Wsϑ0 bzw.Wsϑ1 . Sei c > 0 fest. Wir setzen

A(c) := {x ∈ B|f0(x) ≥ cf1(x)}

Dann ist unter allen Tests von {ϑ0} gegen {ϑ1} mit Signifikanz α

der Test mit A0 = A(c)

der machtigtste.

Beweis: Sei A ein weiterer zulassiger Annahmebereich fur {ϑ0},d.h. Wsϑ0(X ∈ A) ≥ 1 − α.

Page 43: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 8. PASSEN DIE DATEN ZUR HYPOTHESE ODER ZUR ALTERNATIVE?42

Zu zeigen ist: Wsϑ1(X ∈ A) ≥ Wsϑ1(X ∈ A(c)).

In der Tat:∫

A

f1(x) dx =

A(c)

f1(x) dx +

A\A(c)

f1(x) dx −∫

A(c)\A

f1(x) dx

≥∫

A(c)

f1(x) dx +1

c

(∫

A\A(c)

f0(x) dx −∫

A(c)\A

f0(x) dx

)

=

A(c)

f1(x) dx +1

c

(∫

A

f0(x) dx

︸ ︷︷ ︸≥1−α

−∫

A(c)

f0(x) dx

︸ ︷︷ ︸=1−α

)

≥∫

A(c)

f1(x) dx . 2

Zum Merken Die Aufgabenstellung beim Neyman-Pearson-Lemma war: Be-stimme A so, dass

(i)

A

f0(x)dx ≥ 1 − α

(ii)

A

f1(x)dx moglichst klein.

Anschauliche Erklarung:

Aufgabenstellung: Kaufe eine Menge von mindestens 1−α Einheiten (vielleichtTonnen) Zucker mit moglichst wenig Geld.

Losung: Gehe erst in die billigen Laden.

f0(x). . . im Laden x angebotene Zuckermenge

f1(x)f0(x) . . . Zuckerpreis im Laden x

f1(x) = f1(x)f0(x) · f0(x) . . . im Laden gelassenes Geld, wenn man dessen gesamten

Zucker kauft

A(c) :=

{x | f0(x)

f1(x)≥ c

}

(“Leistungs-Preis-Verhaltnis ist mindestens c”).

Bestimme das maximale c so, dass

A(c)

f0(x) dx ≥ 1 − α .

Page 44: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 9

Wie gut passen die Datenzu einer Hypothese?

9.1 Das Konzept der Likelihood

Wir erinnern uns an die Idee des statistischen Tests: Ziehe die Hypothese dann inZweifel, wenn (verglichen mit einer Alternative) die Daten unter der Hypothesehinreichend unwahrscheinlich werden.

Das “Passen der Daten x zur Hypothese Hϑ” kann man messen durch die soge-nannte

Likelihood : fϑ(x)

wobei wie gehabt fϑ(x) die Wahrscheinlichkeitsdichte bzw. das Wahrscheinlich-keitsgewicht von x unter Wsϑ ist.

Ein Parameter ϑ = ϑ(X), zu dem die zufalligen Daten X am besten passen in

dem Sinn, dass ϑ(X) Maximalstelle von

ϑ 7→ fϑ(X)

ist, heißt Maximum-Likelihood-Schatzer von ϑ.

9.2 Zwei Beispiele fur Maximum-Likelihood-Schatzer

Beispiel 1:

X = (X1, . . . , Xn) mit X1, . . . , Xn unabhangig, N(µ, σ2

)verteilt

fϑ(X) =1√2π

n1

σne−

12σ2

P

(Xi−µ)2 .

Fur jedes σ wird dies maximal, wenn die Summe im Exponenten minimal wird,also bei µ := X .

43

Page 45: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 9. WIE GUT PASSEN DIE DATEN ZU EINER HYPOTHESE?44

X D

µ...µ

=

X...X

Abbildung 9.1: Wahle denjenigen Punkt auf D, zu dem X am nachsten ist.

Bestimme noch σ so, dass

log f(X,σ)(X) = const − n log σ −∑

(Xi − X)2

2σ3

maximal wird. Durch Nullsetzen der Ableitung erhalt man:

1

σ=

1n

∑(Xi − X)2

σ2,

dies fuhrt auf

σ2 :=1

n

n∑

i=1

(Xi − X)2.

Also ist (µ, σ2) der ML-Schatzer fur (µ, σ2).

Bemerkung: Hatten wir mit (µ, σ) anstelle mit (µ, σ2) parametrisiert, so hattesich als ML-Schatzer (µ, σ) ergeben mit

σ :=

√√√√ 1

n

n∑

i=1

(Xi − X)2 .

Wir stellen fest: σ2 = σ2 .

Dies ist keine Koinzidenz, denn man uberzeugt sicht leicht: Das Bilden des ML-Schatzers ist vertraglich mit Umparametrisieren.

Page 46: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 9. WIE GUT PASSEN DIE DATEN ZU EINER HYPOTHESE?45

Wir werden spater den Schatzer σ2 mit dem guten alten

s2 := sd(X) =1

n− 1

n∑

i=1

(Xi − X)2

vergleichen.

Beispiel 2: (Schatzen von Anteilen)

s ∈ N, p1 + . . .+ ps = 1 ,

(K1, . . . ,Ks) multinomial (n; p1, . . . , ps) verteilt

ϑ = (p1, . . . , ps) =: ~p

f~p(K) =

(n

K1 . . .Ks

)pK11 . . . pKs

s .

Maximiere ~p 7→ f~p(K) unter der Nebenbedingung∑pj = 1 (Lagrange-Methode).

∂pℓlog f~p(K) =

∂pℓ

s∑

j=1

Kj log pj

=Kℓ

pℓ

∂pℓγ∑

pj = γ

Kℓ

pℓ− γ = 0 =⇒ pℓ =

Kℓ

γ

Aus der Nebenbedingung folgt: 1 = 1γ

∑Kℓ = n

γ .

Damit ergibt sich als ML-Schatzer

pℓ =Kℓ

n.

Page 47: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 9. WIE GUT PASSEN DIE DATEN ZU EINER HYPOTHESE?46

9.3 Die Idee des Maximum-Likelihood-Quotiententests

Sei Θ0 ⊆ Θ gegeben.

Wie gut passt ein x ∈ B zur Hypothese Θ0?

Θ

Θ0

X

x

B

Eine Maßzahl dafur ist der “ML-Quotient”:

Q(x) :=

supϑ∈Θ0

fϑ(x)

supϑ∈Θ

fϑ(x)(≤ 1)

Beispiel 1: (Normalverteilungen)

Θ = R × R+ , Θ0 := {µ0} × R+

argmaxσ2

f(µ0,σ2)(X) =1

n

n∑

i=1

(Xi − µ0)2 =: σ2

0

arg max(µ,σ2)

f(µ,σ2)(X) =

(X,

1

n

n∑

i=1

(Xi − X)2

)=(X, σ2

)

X

µ0

1...1

X

1...1

D

Page 48: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 9. WIE GUT PASSEN DIE DATEN ZU EINER HYPOTHESE?47

Mit Pythagoras ergibt sich:

n(X − µ0)2 +

n∑

i=1

(Xi − X)2 =

n∑

i=1

(Xi − µ0)2

=⇒ σ2 = σ20 − (X − µ0)

2

=⇒ σ2

σ20

= 1 − (X − µ0)2

σ20

Q(X) = (2πσ20)

− n2 exp

(−∑

(Xi − µ0)2

2σ20

)/(2πσ2)−

n2 exp

(−∑

(Xi − X)2

2σ2

)

=

(σ2

σ20

)n2

exp(−n

2

)/ exp

(−n

2

)

=

(1 − 1

n

(X − µ0)2

σ20/n

)n/2

≈ exp

(−1

2

n(X − µ0)2

σ20/n

)= exp

(−1

2

n(X − µ0)2

σ2

σ2

σ20

)

Unter der Hypothese H0 : µ = µ0 ist n(X − µ0)2/σ2 χ2(1)-verteilt. Nach

dem Gesetz der Großen Zahlen konvergiert σ20 fur n → ∞ gegen σ2. Also ist

−2 logQ(X) unter H0 asymptotisch χ2(1) verteilt.

Beispiel 2: (Multinomialverteilungen)

Θ := {(p1, . . . , ps) | pj ≥ 0,∑pj = 1}

Wir betrachten eine einfache Hypothese

Θ0 := {(π1, . . . , πs)} mit festem π1, . . . , πs

Der ML-Quotient ist

Q(K) =

s∏

j=1

(πj

pj

)Kj

,

mit pj =Kj

n .

Fur pj nahe bei πj gilt:

logQ =

s∑

j=1

Kj log

(1 +

πj − pj

pj

)

≈s∑

j=1

Kj

(πj − pj

pj− 1

2

(πj − pj

pj

)2)

= n

s∑

j=1

(πj − pj)

︸ ︷︷ ︸=0 (wegen

P

πj=P

pj=1)

− n

2

s∑

j=1

(πj − pj)2

pj

Page 49: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 9. WIE GUT PASSEN DIE DATEN ZU EINER HYPOTHESE?48

Es ergibt sich

−2 logQ ≈ n

s∑

j=1

(pj − πj)2

pj=

s∑

j=1

(Kj − nπj)2

npj=

s∑

j=1

(Kj − nπj)2

nπj

Definition:∑s

j=1(Kj−nπj)

2

nπj

heißt Pearson’sche Teststatistik fur die Hypothese Hπ : π = (π1, . . . , πs).

Wir werden beweisen, dass diese unter Hπ fur n→ ∞ asymptotisch χ2(s−1)-verteilt ist.

Fazit: Sowohl in Beispiel 1 wie in Beispiel 2 ist −2 logQ fur n → ∞ asym-ptotisch χ2(dimΘ − dimΘ0)-verteilt.

Ein Resultat von Wilks (siehe z.B. P. Bickel, K. Doksum, Mathematical Sta-tistics, Vol. 1 (2nd ed.), Prentice Hall 2001, Abschnitt 6.3.1) besagt, dass diesunter viel allgemeineren Voraussetzungen zutrifft.

Page 50: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 10

Wie gut passen beobachteteHaufigkeiten?

10.1 Feste hypothetische Gewichte: Der Satz von

Karl Pearson

Satz (Karl Pearson, 1900) Sei s ∈ N, und seien π1, . . . , πs Wahrscheinlich-keitsgewichte.

Ist fur jedes n der zufallige Vektor K(n) := (K(n)1 , . . . ,K

(n)s ) multinomial (n;π1, . . . , πs)-

verteilt, dann gilt

s∑

j=1

(Kj − nπj)2

nπj=⇒ χ2(s− 1) in Verteilung.

Mnemo: Die linke Seite ist

∑ (beobachtete Haufigkeit - erwartete Haufigkeit)2

erwartete Haufigkeit

Erste Bemerkung: Fur jedes feste j ist K(n)j Binom(n, πj)-verteilt, also

folgt mit dem Satz von de Moivre-Laplace:

(K(n)j − nπj)

2

nπj(1 − πj)

n→∞−→ χ2(1)

Fishers heuristischer Beweis des Satzes von Pearson:

Wir brechen die Abhangigkeit auf durch Poissonisieren:

N(n)1 , . . . , N

(n)s seien unabhangig, mit N

(n)j Poisson(nπj)-verteilt.

Die Gesamtanzahl N (n) := N(n)1 + . . .+N

(n)s ist dann Poisson(n)-verteilt.

49

Page 51: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 50

Bemerkung 1: Bedingt unter N (n) = n ist N(n)1 , . . . , N

(n)s multinomial

(n;π1, . . . , πs)-verteilt. In der Tat:

Ws(N(n)1 = k1, . . . , N

(n)s = ks)

Ws(N (n) = n)=e−nπ1 (nπ1)

k1

k1!. . . e−nπs (nπs)ks

ks!

e−n nn

n!

=n!

k1! . . . ks!πk1

1 . . . πkss . 2

N (n) laßt sich darstellen als Summe von n unabhangigen Poisson(πj)-verteiltenZufallsvariablen. Die Varianz von Poisson(α) ist α.

Nach dem klassischen Zentralen Grenzwertsatz gilt fur die Folge N(n)j , n =

1, 2, . . . (mit festem j):

N(n)j − nπj√nπj

−→ N (0, 1) in Verteilung.

Diese Komponenten sind unabhangig. Also folgt:

Yn :=

(N

(n)j − nπj√nπj

)

j=1,...,s

n→∞−→ Z in Verteilung.

mit Z standard normalverteilt auf Rs.

Wir versuchen nun, durch eine geeignete Projektion

von

(N

(n)j − nπj

)

√nπj

zu

(N

(n)j −N (n)πj

)

√nπj

uberzugehen, mit N (n) :=∑s

j=1N(n)j .

(Mit anderen Worten: wir versuchen, den einen Freiheitsgrad “zufallige Ge-samtanzahl” wegzuprojezieren.)

Die Differenz der beiden Vektoren ist(√πj

1√n

(N (n) − n)

).

Dieser Vektor ist nichts anderes als die Projektion von Yn auf die durch denEinheitsvektor

e :=

√π1

. . .√πs

gegebene Richtung. In der Tat ist

eT · Yn =

s∑

j=1

√πj

N(n)j − nπj√nπj

=1√n

s∑

j=1

(N

(n)j − nπj

)=

1√n

(N (n) − n) .

Page 52: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 51

Wir fassen zusammen:(√πj

1√n

(N (n) − n)

)

j

= eeTYnn→∞−→ eeT Z in Verteilung

(N

(n)j −N (n)πj√

nπj

)

j

= (I − eeT )Ynn→∞−→ (I − eeT )Z in Verteilung

(i) Nach Bemerkung 1 ist, bedingt unter N (n) = n,

(N

(n)j −N (n)πj√

nπj

)so verteilt wie

(K

(n)j − nπj√nπj

)

(ii) Nach Fishers Lemma und der obigen Konvergenzaussage ist (I − eeT )Yn

fur n→ ∞ asymptotisch unabhangig von eeTYn und damit vonN (n).

Fazit aus (i) und (ii):(

K(n)j −nπj√

nπj

)ist fur große n asymptotisch so verteilt wie (I − eeT )Z. Nach dem

Satz von Fisher ist aber dessen Langenquadrat χ2(s− 1)-verteilt. 2

Bemerkung

Stellen wir K(n)j als Summe von Indikatoren dar, so ergibt sich aus den vori-

gen Beweisgedanken eine Aussage uber die Verteilungskonvergenz der Summegewisser zentrierter Zufallsvektoren.

Sei dazu X1,, X2, . . . u.i.v., mit

Ws(Xi = j) = πj , j = 1, . . . , s.

Wir stellen K(n)j dar als

K(n)j =

n∑

i=1

I{Xi=j}

Damit ergibt sich:

K(n)j − nπj√nπj

=1√n

(K

(n)j√πj

− n√πj

)

=1√n

n∑

i=1

(1

√πjI{Xi=j} −

√πj

)=:

1√n

n∑

i=1

V(i)j

Fur jedes i ist V(i) := (V(i)1 , . . . , V

(i)s )T ein zufalliger Vektor in R

s. Die V(i)

sind unabhangig und identisch verteilt. Die “Kovarianzmatrix” von V(1) =: V

ist gegeben durch

Cov(Vj , Vk) =

{1 − πj fur j = k−√

πjπk fur j 6= k

Page 53: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 52

Dies schlagt sich auf die Kovarianzmatrix der Grenzverteilung durch. In der Tatist

Cov

(Zj −√

πj

s∑

l=1

√πlZl , Zk −√

πk

s∑

m=1

√πmZm

)

=

{1 − 2πj + πj = 1 − πj fur j = k−2

√πiπk +

√πjπk

∑sl=1 πe = −√

πjπk fur j 6= k

In beiden Fallen ist die Kovarianzmatrix also nichts anderes als I − eeT , mit

e = (√π1, . . . ,

√πs)

T .

Im nachsten Abschnitt werden wir einen Zentralen Grenzwertsatz fur unabhangigeZufallsvektoren kennenlernen, der ein klares Licht auf diese Angelegenheit wirft.

10.2 Der multivariate zentrale Grenzwertsatz

10.2.1 Kovarianzmatrizen

X = (X1, . . . , Xk)T sei eine Rk-wertige Zufallsvariable mit VarXi <∞.

Die MatrixCX := (Cov(Xi, Xj))1≤i,j≤k

heißt Kovarianzmatrix von X.

Bemerkung 1: (Kovarianzmatrix nach einer linearen Transformation)

Sei A := (aij) eine d× k-Matrix, und

Y := A · X.

Dann gilt

CY =

(Cov

(k∑

r=1

airXr,

k∑

s=1

ajsXs

))

i,j

=

(∑

r

s

airCov(Xr, Xs)ajs

)

i,j

= ACXAT .

Satz: Jede Kovarianzmatrix ist symmetrisch und nicht negativ definit.

Beweis: a) Die Symmetrie ist klar. Zur positiven Definitheit:

Fur α1, . . . , αk ∈ R ist

i,j

αi (CovXi, Xj)αj =(Cov

∑αi, Xi,

∑αj , Xj

)= Var

(∑αiXi

)≥ 0 .2

Page 54: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 53

Tritt umgekehrt jede symmetrische, nicht negativ definite Matrix als Kovari-anzmarix auf? Jawohl! Um dies einzusehen, erinnern wir uns, dass man aussymmetrischen, nicht negativ definiten Matrizen die Wurzel ziehen kann: Diesfolgt aus dem fundamentalen

Lemma (uber die Diagonalisierbarbeit symmetrischer Matrizen)

C sei eine symmetrische, nicht negativ definite k × k-Matrix. Dann existierenEigenwerte λ2

1 ≥ λ22 ≥ . . . ≥ λ2

k ≥ 0 und eine zugehorige ON-Basis vonEigenvektoren e1, . . . , ek.

Beweis: Lineare Algebra . 2

Korollar 1: C =∑k

i=1 λ2i eie

Ti

denn: C · ej = λ2jej

und:∑k

i=1 λ2i eie

Ti ej = λ2

jei .

Korollar 2: Fur A :=∑k

i=1 λieieTi gilt:

AAT = C.

Korollar 3: Z habe Kovarianzmatrix I, (also z.B.: Z standard-normalverteiltauf R

k), A sei wie in Korollar 2. Dann hat wegen Bemerkung 1 X := AZ dieKovarianzmatrix C.

10.2.2 Normalverteilungen auf Rk

Wir schließen an das eben formulierte Korollar an. Sei

C =

k∑

i=1

λ2i eie

Ti mit (ei) ON-Basis im R

k

und

A :=

k∑

i=1

λieieTi .

Machen wir uns ein Bild der Verteilung von X = A·Z, mit Z standard-normalverteiltauf R

k.

Sei Wj = eTj X = λje

Tj Z die Koordinate von X in ej-Richtung. Nach dem

Lemma von Fisher sind die eTj Z, j = 1, . . . , k, unabhangig und normalverteilt.

Diese werden mit den Faktoren λj gestreckt. Also sind die Wj N(0, λ2

j

)-verteilt

und unabhangig.

Satz 1 C sei symmetrisch und positiv semidefinit, mit OrthogonalzerlegungC =

∑ki=1 λ

2i eie

Ti .

B sei eine (k ×m)-Matrix mit

BBT = C.

Page 55: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 54

Z sei standard-normalverteilt auf Rm. Dann sind die Koordinaten von BZ in

der Basis (ej) unabhangig und N(0, λ2

j

)-verteilt.

Beweis: SeiJ := {i|i ∈ {1, . . . , k}, λi > 0}.

Die Vektoren 1λiBT ei , i ∈ I bilden ein Orthogonalsystem in R

m.(In der Tat:

1

λiλjeT

i BBT ej︸ ︷︷ ︸

λ2j ej

=λj

λieT

i ej = δij).

Also sind nach Fishers Lemma die Zufallsvariablen

1

λieT

i B · Z , i ∈ I,

N (0, 1)-verteilt und unabhangig.

Andererseits gilt fur i /∈ I:

Var (eTi BZ) = eT

i BBT ei = eT

i Cei = λ2i = 0,

also eTi BZ = 0 f.s.

Definition: X heißt normalverteilt auf Rk : ⇐⇒ X entsteht durch affin

lineare Transformation eines standard-normalverteilten Z.

Satz 2 Eine mehrdimensionale Normalverteilung ist eindeutig bestimmt durchihren Mittelwertvektor und ihre Kovarianzmatrix.

Beweis: Angenommen

X = µ+AZ und Y = µ+BZ

habe denselben Erwartungswert und dieselbe Konvarianzmatrix. Dann folgt:µ = µ, und AAT = BBT . Nach Satz 1 ergibt sich daraus: L(AZ) = L(BZ).

Bemerkung 1: Affin lineare Transformationen von normalverteilten zufalligenVektoren sind wieder normalverteilt!

Bemerkung 2: Sind V1,V2, . . . unabhangig und identisch verteilt auf Rk

mit Mittelwert 0 und Kovarianzmatrix C, und ist a ∈ Rk, so gilt nach dem

klassischen zentralen Grenzwertsatz:

aT ·(

1√n

n∑

i=1

Vi

)−→ N

(0, aTCa

)in Verteilung.

10.2.3 Verteilungskonvergenz von Rk-wertigen Zufallsva-

riablen

Definition: Xn,X seien Rk-wertige Zufallsvariable. Wir definieren:

Xn → X in Verteilung : ⇐⇒ Eh(Xn) −→ Eh(X)

Page 56: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 55

fur alle h : Rk → R stetig und beschrankt.

Bemerkung 1: Dieser Konvergenzbegriff hangt nur von den Verteilungen dereinzelnen Xi und der Verteilung von X ab. Anstelle von “Xn → X in Verteilung”schreiben wir daher auch “Xn → L(X)”.

Bemerkung 2: Gilt Xn → X in Verteilung, und ist g : Rk → R

m stetig, sofolgt: g(Xn) → g(X) in Verteilung.

Der folgende Satz, den wir hier nicht beweisen werden, erlaubt es, die Vertei-lungskonvergenz von R

k-wertigen Zufallsvariablen auf die Verteilungskonvergenzihrer eindimensionalen Projektionen zuruck zu spielen.

Satz: Xn,X seien Rk-wertige Zufallsvariable. Dann gilt:

Xn → X in Verteilung ⇐⇒

∀a ∈ Rk : aT Xn → aT X in Verteilung

Beweis Siehe z.B. O. Kallenberg, Foundations of modern probability, 2. Aufl.,Springer 2002.

Als Korollar zu diesem Satz und zur Bemerkung am Ende des vorigen Abschnittsergibt sich der Multivariate Zentrale Grenzwertsatz: Sind V1,V2, . . . un-abhangig und identisch verteilt auf R

k mit Mittelwert 0 und KovarianzmatrixC, so gilt:

1√n

n∑

i=1

Vi −→ N (0, C) .

10.3 Der χ2-Test

Wie gut passen beobachtete Haufigkeiten zu einer hypothetischen Klasse vonHaufigkeitsverteilungen? Die beobachteten Haufigkeiten seien K1, . . . ,Ks. DerVektor K = (K1, . . . ,Ks) sei multinomial (n;π)-verteilt. Hypothese: π ∈ F ,wobei F eine r-dimensionale Hyperflache des Simplex {(pj)|

∑sj=1 pj = 1} ist.

Kn0

π

pF

F

pF sei der ML-Schatzer fur π unter der Hypothese π ∈ F .

Page 57: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 56

Teststatistik:

T :=

s∑

j=1

(Kj − npF

j

)2

npFj

.

Satz (K. Pearson, R.A. Fisher) Unter der Hypothese π ∈ F ist T furgroße n annahernd χ2(s− 1 − r)-verteilt.

Beweisskizze fur den Fall r = 1 und

F = {p(γ)|γ ∈ I ⊆ R}

(d.h. F ist durch γ parametrisiert).

pF = p(γ), wobei γ bestimmt wird durch die ML-Gleichung

0 =∂

∂γlog∏

j

pj(γ)Kj =

s∑

j=1

Kj1

pj(γ)

∂pj(γ)

∂γ(⋆)

Sei π = p(γ0).

Wir zerlegen mit einer Taylorentwicklung um γ0:

Kj − nπj√npj(γ)

=Kj − npj(γ)√

npj(γ)+n(pj(γ) − pj(γ0))√

npj(γ)

≈ Kj − npj(γ)√npj(γ)

+√n

1√pj(γ)

∂pj

∂γ(γ)(γ − γ0)

Wir setzen

G :=

(Kj − nπj√npj(γ)

)

j=1,...,s

, H :=

(Kj − npj(γ)√

npj(γ)

)

j=1,...,s

M :=1√pj(γ)

∂pj

∂γ(γ) .

Wir haben gesehen:G ≈ H +

√n(γ − γ0)M (⋆⋆)

Es gilt: H ⊥ M,

denn:

HT · M =1√n

s∑

j=1

Kj − npj(γ)√pj(γ)

· 1√pj(γ)

∂pj(γ)

∂γ

=1√n

s∑

j=1

Kj1√pj(γ)

∂pj(γ)

∂γ−√

n∂

∂γ

s∑

j=1

pj(γ) .

Der erste Term ist Null wegen der ML-Gleichung (⋆), der zweite verschwindetwegen

∑sj=1 pj(γ) ≡ 1.

Page 58: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 57

Projektion von (⋆⋆) auf den zu M orthogonalen Raum (d.h. Multiplikation von

(⋆⋆) mit I − MMT

‖M‖2 liefert

H ≈(I − MMT

‖ M ‖2

)G

Nun ist aber (vgl. Beweis des Satzes von Pearson) G approximativ so verteilt wie(I − eeT )Z, mit Z standard-normalverteilt auf R

s und e = (√π1, . . . ,

√πs)

T .

Und - oh Wunder - M und e stehen approximativ senkrecht aufeinander, denn

j

√πj√pj(γ)︸ ︷︷ ︸≈1

∂pj(γ)

∂γ≈ ∂

∂γ

j

pj(γ) = 0 .

Somit hat H approximativ dieselbe Verteilung wie

(I − MMT

‖ M ‖2

)(I − eeT )Z ≈

(I − MMT

‖ M ‖2− eeT

)Z

Wegen T =‖ H ‖2 folgt die Behauptung nun aus dem Satz von Fisher. 2

10.3.1 χ2-Test auf Unabhangigkeit zweier Merkmale

Wir betrachten Gewichte pij , i = 1, . . . , I, j = 1, . . . , J .

Die Hypothese ist: pij ist von Produktform, d.h.

pij = αiβj ,∑

αi =∑

βj = 1.

dim (Hypothese) = (I − 1) + (J − 1).

Es ist s = I · J.Ist ~k = (kij) der beobachtete Vektor der Haufigkeiten, so ist die Likelihood

fp(α,β)(~k) =

(n

k11 . . . kIJ

)∏

i,j

pij(α, β)kij

= const∏

i,j

(αiβj)kij = const

i

αki+

i

i

βk+j

j ,

wobeiki+ :=

j

kij , k+j :=∑

i

kij .

Maximierung von fp(α,β)(~k) unter der Nebenbedingung∑αi =

∑βj = 1 fuhrt

auf (vgl. fruhere Rechnung)

αi =ki+

n, βj =

k+j

n.

Somit folgt aus dem Satz von Pearson/Fisher:

Page 59: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 10. WIE GUT PASSEN BEOBACHTETE HAUFIGKEITEN? 58

Ist (Kij) multinomial (n, (αiβj))-verteilt, dann ist

i,j

(Kij − nαiβj)2

n · αiβj

=∑

i,j

(Kij − Ki+K+j

n

)2

Ki+K+j

n

fur großes n approximativ

χ2(IJ − 1 − (I − 1 + J − 1)) = χ2((I − 1)(J − 1))-verteilt.

Page 60: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 11

Zur Asymptotik derML-Schatzer

X1, X2, . . . seien unabhangige, identsich verteilte Zufallsvariablen mit Vertei-lungsdichten (bzw. -gewichten) gϑ(x). Fur die Verteilungsdichte (bzw. das -gewicht) fϑ von X := (X1, . . . , Xn) gilt dann:

fϑ(x1, . . . , xn) = gϑ(x1) . . . gϑ(xn).

Wir setzenL(ϑ, x) := log gϑ(x).

Der ML-Schatzer ϑn(X) ist Maximalstelle von

ϑ →n∑

i=1

L(ϑ,Xi)

und somit (in gutartigen Fallen) Nullstelle von

ϑ→n∑

i=1

L′(ϑ,Xi)

mit L′(ϑ, x) := ∂∂ϑL(ϑ, x).

Betrachten wir erst den Fall, dass Θ ein Intervall ist. Die Zufallsvariable L′(ϑ,X1)besitzt die bemerkenswerte Eigenschaft

EϑL′(ϑ,Xi) = 0 (11.1)

Denn:

EϑL′(ϑ,Xi) =

∫∂

∂ϑlog gϑ(x) · gϑ(x)dx

=

∫∂

∂ϑgϑ(x)dx =

∂ϑ1 = 0 .

59

Page 61: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 11. ZUR ASYMPTOTIK DER ML-SCHATZER 60

Dabei setzen wir voraus

ϑ→ gϑ(x) ist stetig differenzierbar mit∫

∂ϑgϑ(x)dx =

∂ϑ

∫gϑ(x)dx (11.2)

Satz 1 (uber die Konsistenz des ML-Schatzers) Außer (11.2) gelte:

ϑ→ L′(ϑ, x) sei strikt monoton fallend.

Dann gilt: Wsϑ{|ϑn − ϑ| > ε} n→∞−→ 0 .

Beweis: ϑn ist eindeutig bestimmt durch die ML-Gleichung

n∑

i=1

L′(ϑn, Xi) = 0 (11.3)

Weil ϑ→ L′(ϑ, x) nach Voraussetzung streng monoton fallt, folgt:

ϑ′n < ϑ− ε ⇐⇒n∑

i=1

L′(ϑ− ε,Xi) < 0

sowieEϑL

′(ϑ− ε,Xi) > EϑL′(ϑ,Xi) (= 0 wegen(11.1)).

Also:

Wsϑ{ϑ′n < ϑ− ε} = Wsϑ

{1

n

n∑

i=1

L′(ϑ− ε,Xi) < 0

}

= Wsϑ

{1

n

n∑

i=1

L′(ϑ− ε,Xi) − EϑL′(ϑ− ε,X1) < −EϑL

′(ϑ− ε,X1)

}

≤ Wsϑ

{| 1n

n∑

i=1

L′(ϑ− ε,Xi) − EϑL′(ϑ− ε,X1)| > EϑL

′(ϑ− ε,X1)

}

n→∞−→ 0

nach dem Schwachen Gesetz der Großen Zahlen. 2

Unter geeigneten Regularitatsvoraussetzungen an gϑ(x) ist ϑn fur n→ ∞ nichtnur “konsistent” (im Sinn von Satz 1), sondern sogar “asymptotisch normal”,mit asymptotischer Varianz 1

nI(ϑ)−1, wobei

I(ϑ) := Eϑ

[L′(ϑ,X1)

2].

Dahinter steckt der Zentrale Grenzwertsatz und eine Taylorentwicklung der ML-Gleichung um den wahren Parameter ϑ bis zur 2. Ordnung. Hier ist dieBeweisidee: Wegen (11.3) gilt fur eine geeignete Zwischenstelle ϑn = ϑn(X)

(mit |ϑn − ϑ| ≤ |ϑn − ϑ|):

0 =

n∑

i=1

L′(ϑn, Xi) + (ϑn − ϑ)

n∑

i=1

L′′(ϑn, Xi)

Page 62: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 11. ZUR ASYMPTOTIK DER ML-SCHATZER 61

oder aquivalent dazu

√n(ϑn − ϑ) =

1√n

∑ni=1 L

′(ϑ,Xi)

1n

∑ni=1 L

′′(ϑn, Xi).

Nach dem Zentralen Grenzwertsatz (und wegen der Zentriertheit von L′(ϑ,X1):konvergiert der Zahler in Verteilung gegen N (0, I(ϑ)).

Nach dem Gesetz der großen Zahlen konvergiert der Nenner gegen EϑL′′(ϑ,X1).

Nun ist aber (sieh an!):

EϑL′′(ϑ,X1) =

∫gϑ(x)

∂2

∂ϑ2log gϑ(x)dx

=

∫gϑ(x)

∂2

∂ϑ2 gϑ(x)

gϑ(x)−(

∂∂ϑgϑ(x)

gϑ(x)

)2

dx

=

∫∂2

∂ϑ2gϑ(x)dx

︸ ︷︷ ︸=0

−Eϑ

[(∂

∂ϑlog gϑ(X1)

)2]

= −I(ϑ) .

Also:√n(ϑn − ϑ)

n→∞−→ N(0, I(ϑ)−1

)∀ϑ .

Definition: I(ϑ) := Eϑ

[L′(ϑ,X1)

2]

= −Eϑ [L′′(ϑ,X1)]heißt “Fisher-Information”.

Satz 2 (uber die Asymptotik der ML-Schatzer)

(Harald Cramer 1946, siehe C.R. Rao, Linear Statistical Inference and its App-lications, Wiley 1973, p. 364 f. und p. 349).

Θ sei ein offenes Intervall. Unter Wsϑ seien X1, X2, . . . unabhangig und identischverteilt mit Dichte (oder Gewichten) gϑ. Es gelte :

(i) ϑ 7→ L(ϑ, x) := log gϑ(x) ist 3 mal differenzierbar.

(ii)

∫∂

∂ϑgϑ(x)dx =

∫∂2

∂ϑ2gϑ(x)dx = 0

I(ϑ) :=

∫gϑ(x)(L′(ϑ, x)2)dx ∈ (0,∞)

(iii) ∃H(x), so dass

|L′′′(ϑ, x)| ≤ H(x) mit supϑ

∫gϑ(x)H(x)dx <∞.

Dann existiert ein ϑn = ϑn(X1, . . . , Xn) so, dass fur alle ϑ ∈ Θ unter Wsϑ

gilt:

a)∑n

i=1 L′(ϑn, Xi) = 0 f.s.

Page 63: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 11. ZUR ASYMPTOTIK DER ML-SCHATZER 62

b) ϑnn→∞−→ ϑ f.s.

c)√n(ϑn − ϑ) − I(ϑ)−1 1√

n

∑ni=1 L

′(ϑ,Xi)n→∞−→ 0 stochastisch

d)√n(ϑn − ϑ)

n→∞−→ N(0, I(ϑ)−1

)in Verteilung

Definition: Eine Folge Sn von Schatzern fur ϑ heißt:

i) stark konsistent : ⇐⇒∀ϑ : Wsϑ{Sn → ϑ} = 1

ii) asymptotisch normal mit asymptotischer Varianz 1nσ

2(ϑ) : ⇐⇒∀ϑ :

√n(Sn − ϑ)

n→∞−→ N(0, σ2(ϑ)

)in Verteilung (unter Wsϑ).

Damit ergibt sich alsKorollar 1 Ist unter den Voraussetzungen des Satzes von Cramer/Rao die

ML-Gleichung (a) eindeutig losbar mit Losung =: ϑn, dann ist die Folge ϑn

stark konsistent und asymptotisch normal mit asymptotischer Varianz 1nI(ϑ)−1.

Korollar 2 Insbesondere gilt dann: mit

Kn :=

ϑn − 1√n

1√I(ϑn)

qnorm(1 − α

2

), ϑn +

1√n

1√I(ϑn)

qnorm(1 − α

2

)

:

Wsϑ{Kn ∋ ϑ} n→∞−→ 1 − α ∀ϑ.In diesem Sinn ist also Kn ein asymptotisches (1 − α)-Konfidenzintervall fur ϑ.

Wenden wir uns schließlich noch der multivariaten Variante des Satzes vonCramer-Rao zu. Sei Θ ⊆ R

k.

Fur ϑ ∈ Θ ist die Fisher-Informationsmatrix definiert als die k × k-Matrix

I(ϑ) := Eϑ

[∂

∂ϑiL(ϑ,X1)

∂ϑjL(ϑ,X1)

]

i,j

.

Unter ahnlichen Regularitatsvoraussetzungen wie im 1−dim. Fall gilt fur dieML-Schatzer ϑn wieder a) - d), wobei jetzt

L′(ϑ, x) :=

(∂

∂ϑ1L(ϑ, x), . . . ,

∂ϑkL(ϑ, x)

)

der Gradient von L(·, x) ist.

Korollar (Asymptotische Verteilung fur ein Parametermerkmal)

Sei m : Θ → Rk differenzierbar. Fur große n gilt:

√n(m(ϑn) −m(ϑ)

)≈ grad m(ϑ) · √n

((ϑn − ϑ)

),

also

√n(m(ϑn) −m(ϑ)

)n→∞−→ N

(0, grad m(ϑ)I(ϑ)−1 grad m(ϑ)T

)

Page 64: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 12

Suffizienz undVollstandigkeit

12.1 Bedingte Verteilung und bedingte Erwar-tung

Einer der wichtigsten in der Elementaren Stochastik besprochenen Zusammenhangeist der zwischen gemeinsamer Verteilung und bedingter Verteilung.

Ist ρ die Verteilung von Y , π(y, ·) die bedingte Verteilung vonX gegeben Y = y,und ν die gemeinsame Verteilung von X und Y , so gilt

ν(dy, dx) = ρ(dy)π(y, dx) .

Fur reellwertiges ϕ = ϕ(x) setzen wir

E [ϕ(X) | Y = y] :=

∫ϕ(x)π(y, dx)

Fur jedes y ist dies eine Zahl, wir nennen sie den bedingten Erwartungswertvon ϕ(X), gegeben Y = y.

Die Zufallsvariable

E [ϕ(X) | Y ] :=

∫ϕ(x)π(Y, dx)

heißt bedingte Erwartung von ϕ(X), gegeben Y .

Der Satz von der totalen Wahrscheinlichkeit ubersetzt sich in die wichtige Be-ziehung

(a) E [E [ϕ(X) | Y ]] := E [ϕ(X)] .

Denn in der Tat ist∫ ∫

ϕ(x)π(y, dx)ρ(dy) =

∫ϕ(x)ν(dx, dy) = E [ϕ(X)] .

Eine weitere wichtige Beziehung ist

63

Page 65: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 12. SUFFIZIENZ UND VOLLSTANDIGKEIT 64

(b) E

[E [ϕ(X) | Y ]

2]≤ E

[ϕ(X)2

].

In der Tat gilt (weil das Quadrat eines Erwartungswerts stets ≤ demErwartungswert des Quadats ist)

E [ϕ(X) | Y ]2

=

(∫ϕ(x)π(Y, dz)

)2

≤∫ϕ(x)2π(Y, dz) = E

[ϕ(X)2 | Y

].

Bildet man uber dieser Ungleichung den Erwartungswert, so wird die rech-te Seite wegen (a) zu E

[ϕ(X)2

].

12.2 Suffizienz

Wsϑ

X

x

B

V

v = V (x)

Angenommen, die Verteilung von X, gegeben V (X) = v , hangt nicht von ϑ ab.Fur die Schatzung von ϑ bringt dann die Beobachtung von x keine zusatzlicheInformation gegenuber der vergroberten Beobachtung v = V (x).

Definition: Eine Statistik V (X) heißt suffizient fur ϑ , falls die bedingteVerteilung von X gegeben V (X) nicht von ϑ abhangt.

Beispiel 1:

a) X = (X1, . . . , Xn), mit X1, X2, . . . Munzwurffolge mit Parameter p ∈ (0, 1).

Dann ist K :=∑n

i=1Xi suffizient fur p.

Denn: gegeben K = k ist (X1, . . . , Xn) Laplaceverteilt auf{(x1, . . . , xn) ∈ {0, 1}n | ∑n

i=1 xi = k}.In der Tat: Fur

∑xi = k ist

Wsp

({(X1, . . . , Xn) = (x1, . . . , xn)

∣∣∣∣∣

n∑

i=1

Xi = k

})=

=pk(1 − p)n−k

(nk

)pk(1 − p)n−k

=1(nk

) .

Page 66: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 12. SUFFIZIENZ UND VOLLSTANDIGKEIT 65

b) Analog gilt:

X = (X1, . . . , Xn), mit X1, X2, . . . “Wurfelfolge” zu den Verteilungsge-wichten (p1, . . . , ps) = ~p.

Dann ist der Vektor der Besetzungszahlen K = (K1, . . . ,Ks) suffizientfur ~p.

Satz (Faktorisierungssatz von Neyman-Pearson)

Fur alle ϑ besitze die Verteilung von X unter Wsϑ die Dichte (bzw. die Gewichte)fϑ(x).

Dann sind aquivalent:

(i) V (X) ist suffizient fur ϑ

(ii) ∃ψϑ(v), ρ(x) : fϑ(x) = ψϑ(V (x)) · ρ(x).

Beweis: hier nur fur den diskreten Fall

(i) ⇒ (ii) : fϑ(x) = Wsϑ({X = x})= Wsϑ({X = x} ∩ {V (X) = V (x)})= Wsϑ({V (X) = V (x)}) · Wsϑ({X = x}|({V (X) = V (x)}) .

Wegen der Suffizienz von V (X) hangt der 2. Faktor nicht von ϑ (und somitnur von von x) ab. Wir nennen ihn ρ(x), und den ersten Faktor nennen wirψϑ(V (x)).

(ii) ⇒ (i) : Wsϑ({X = x}|{V (X) = V (x)}) =Wsϑ({X = x})

Wsϑ({V (X) = V (x)})

=ψϑ(V (x))ρ(x)∑

y:V (y)=V (x) ψϑ(V (y))ρ(y)=

ρ(x)∑y:V (y)=V (x) ρ(y)

,

und dies hangt nicht von ϑ ab. Also ist V (X) suffizient. 2

Beispiel 2: X = (X1, . . . , Xn) mit Xi unabhangig, N(µ, σ2

)-verteilt.

fϑ(x1, . . . , xn) =1

(2πσ2)n/2e−

P

(xi−µ)2

2σ2

=1

(2πσ2)n/2e−

P

x2i −2µ

P

xi+nµ2

2σ2

Also ist V (X) :=(∑n

i=1Xi,∑n

i=1X2i

)suffizient fur (µ, σ2).

Beispiel 3: X = (X1, . . . , Xn) mit Xi unabhangig, Gamma(k, α)-verteilt.

fk,α(x1, . . . , xn) = const(α, k)(x1 . . . xn)k−1e−α(x1+...+xk)

Also ist V (X) := (∏n

i=1Xi,∑n

i=1Xi) suffizient fur (k, α).

Page 67: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 12. SUFFIZIENZ UND VOLLSTANDIGKEIT 66

12.3 Der Satz von Rao-Blackwell

Ist V (X) suffizient fur ϑ, dann hangt fur jede Verarbeitung ϕ von X die bedingteErwartung Eϑ [ϕ(X)|V (X)] nicht von ϑ ab! Wie wir sehen werden, kann’s etwasbringen, von einem Schatzer S = h(X) zu dessen “Glattung” Eϑ [h(X)|V (X)]uber zu gehen, man wird uninformatives Rauschen los.

Satz (Rao-Blackwell)

Sei S = h(X) ein Schatzer fur das reelle Parametermerkmalm(ϑ). Sei V (X) einesuffiziente Statistik fur ϑ. Dann gilt fur den (auf V (X) basierenden) Schatzer

S⋆ := E [S|V (X)] := Eϑ [S|V (X)] .

1. Die Erwartungswerte bleiben gleich:

∀ϑ : Eϑ[S⋆] = Eϑ[S]

.

2. Der mittlere quadratische Fehler wird nicht großer:

∀ϑ : Eϑ

[(S⋆ −m(ϑ))2

]≤ Eϑ

[(S −m(ϑ))2

].

Beweis

1. Eϑ[S⋆] = Eϑ [Eϑ[S|V (X)]] = Eϑ[S]nach dem Satz von der totalen Wahrscheinlichkeit.

2. S⋆ −m(ϑ) = Eϑ[S|V (X)] −m(ϑ) = Eϑ[S −m(ϑ)|V (X)]

Quadrieren ergibt

(S⋆ −m(ϑ))2 = (Eϑ[S −m(ϑ)|V (X)])2

Also mit Bemerkung 2 aus dem vorletzten Abschnitt:

E

[(S⋆ −m(ϑ))

2]≤ Eϑ

[(S −m(ϑ))2

]2

Bemerkung S⋆ (wie im vorigen Satz) heißt auch die Rao-Blackwellisierungvon S (auf der Basis von V ).

Definition ϑ 7→ Eϑ[S] −m(ϑ) heißt Bias (oder Verzerrung) des SchatzersS (fur das Parametermerkmal m(ϑ)).

S heißt erwartungstreu (oder unverzerrt) :⇔

:⇔ ∀ϑ : EϑS = m(ϑ).

Bemerkung (vgl. Ubungen): Der mittlere quadratische Fehler eines Schatzersist die Summe aus Varianz und quadriertem Bias.

Page 68: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 12. SUFFIZIENZ UND VOLLSTANDIGKEIT 67

Wie bekommt man einen erwartungstreuen Schatzer mit (moglichst) kleinerVarianz?

Rezept: Man nehme einen erwartungstreuen Schatzer und Rao-Blackwellisiereihn.

Beispiel: X1, X2, . . . , Xn Munzwurffolge zum Parameter p,m(p) := p2

S := X1 ·X2 ; EpS = p2

K :=∑n

i=1Xi ist suffizient fur p.

Wie sieht die Rao-Blackwellisierung aus?

Gegeben K = k ist (X1, , . . . , Xn) Laplace-verteilt auf

({(x1, . . . , xn) ∈ {0, 1}n

∣∣∑xi = k})

.

Also:

Ep

[X1X2

∣∣K = k]

= Wsp

({X1 = 1, X2 = 1}

∣∣K = k)

=k(k − 1)

n(n− 1),

S⋆ =K(K − 1)

n(n− 1).

12.4 Vollstandigkeit

Fur ein reelles Parametermerkmal m(ϑ) gibt es im allgemeinen viele erwar-tungstreue Schatzer. Gibt es eine ubersichtliche Bedingung, dass deren Rao-Blackwellisierungen (unter einer fur ϑ) suffizienten Statistik V (X))f.s. ubereinstimmen?

Fur die Differenz zweier solcher Rao-Blackwellsisierungen r(V (X)), ρ(V (X))

△(V (X)) := r(V (X)) − ρ(V (X))

gilt∀ϑ : Eϑ [△(V (X))] = m(ϑ) −m(ϑ) = 0.

Dies sollte erzwingen, dass

∀ϑ : △(V (X)) = 0 Wsϑ − f.s.

Die gefragte Bedingung lautet also so:

Definition Eine Statistik V (X) heißt vollstandig fur ϑ, wenn fur alle Zufalls-variablen der Form ϕ(V (X)) mit Eϑϕ(V (X)) = 0 ∀ϑ gilt:

∀ϑ : ϕ(V (X)) = 0 Wsϑ − f.s.

Bemerkung: Sei V (X) nicht nur suffizient, sondern auch vollstandig fur ϑ,und sei m(ϑ) ein reelles Parametermerkmal. Dann stimmen die Rao-Blackwell-isierungen von je zwei fur m(ϑ) erwartungetreuen Schatzern uberein.

Page 69: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 12. SUFFIZIENZ UND VOLLSTANDIGKEIT 68

Beispiel: Erfolgswahrscheinlichkeit p beim Munzwurf: n ∈ N sei fest

Kn := X1 + . . .+Xn ist vollstandig fur p

In der Tat: Fur ein ϕ : {0, . . . , n} → R gelte

0 ≡ Epϕ(Kn) =

n∑

k=1

ϕ(k)

(nk

)pk(1 − p)n−k

Dann ist ϕ ≡ 0 (denn das einzige Polynom, das auf einem Intervall verschwindet,ist das Nullpolynom).

Anders formuliert:

Ist b(n, p) der Vektor der Binomialgewichte, dann impliziert

〈b(n, p), ϕ〉 = 0 ∀p

dass ϕ ≡ 0 ist.

In diesem Sinn bilden die Vektoren b(n, p), 0 < p < 1, ein vollstandiges Systemim R

n+1.

Allgemein nennt man eine Familie von linearen Funktionalen vollstandig, wennder Nullvektor der einzige Vektor ist, den sie gemeinsam annullieren.

Anstelle von “V (X) ist vollstandig fur ϑ” ware es in diesem Sinn suggestiver zusagen: “Θ ist vollstandig fur V (X)“ (oder noch genauer: Die ErwartungswerteEϑ, ϑ ∈ Θ sind vollstandig auf den Raum der ϕ(V (X))).

Definition S1 und S2 seien zwei erwartungstreue Schatzer fur m(ϑ).

S1 heißt wirksamer (eigentlich: nicht weniger wirksam) als S2

: ⇐⇒ Var ϑ(S1) ≤ Var ϑ(S2) ∀ϑ.

Lemma: Fur je zwei wirksamste erwarungstreue Schatzer S1, S2 fur m(ϑ) gilt:

Wsϑ(S1 = S2) = 1 ∀ϑ.

Beweis:

[(S1 − S2)

2]

= −Eϑ

[(S1 + S2)

2]+ 2Eϑ[S2

1 ] + 2Eϑ[S22 ]

= −4Eϑ

[(S1 + S2

2

)2]

+ 4m(ϑ)2+

+ 2(Eϑ[S2

1 ] −m(ϑ)2)

+ 2(Eϑ[S2

2 ] −m(ϑ)2)

= −4Var ϑS1 + S2

2+ 2Var ϑS1 + 2Var ϑ(S2)

≤ 0 . 2

Satz (Lehmann-Scheffe)

Ist V (X) eine suffiziente und vollstandige Statistik fur ϑ, und ist S⋆ = ϕ(V (X))erwartungstreu fur m(ϑ), so ist S⋆ ein wirksamster (und nach vorigem Lemmader wirksamste) erwartungstreue Schatzer fur m(ϑ).

Beweis:

Page 70: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 12. SUFFIZIENZ UND VOLLSTANDIGKEIT 69

a) S⋆ ist Rao-Blackwellisierung eines erwartungstreuen Schatzers (namlich vonsich selbst).

b) Sei S irgendein erwartungstreuer Schatzer fur m(ϑ). Nach obiger Bemerkungstimmt S⋆ mit der Rao-Blackwellisierung von S uberein. Nach dem Satzvon Rao-Blackwell ist diese aber wirksamer als S. 2

Gibt es ubersichtliche Kriterien dafur, wann eine Statistik V suffizient undvollstandig ist?

In gewissem Sinn sind die beiden Eigenschaften “gegenlaufig”:

Je “feiner” eine Statistik V (X) ist, um so leichter tut sie sich suffizient zu sein.

Je “grober” sie ist um so leichter tut sie sich, vollstandig zu sein.

Beispiel:

a) V = id ist stets suffizient, aber i.a. nicht vollstandig:

Θ sei einelementig, X gleichverteilt auf [−1, 1] unter Wsϑ, g := id

Eϑg(V (X)) = 0 , aber g(V (X)) 6≡ 0 Wsϑf.s.

b) V = const ist stets vollstandig, aber i.a. nicht suffizientdenn Lϑ(X

∣∣V ) = Lϑ(X) hangt von ϑ ab?

Satz

X1, . . . , Xn u.i.v., mit Dichten bzw. Gewichten folgender Form:

gϑ(x) = K(ϑ)ea(x)+Pℓ

j=1cj(ϑ)V j(x) .

Umfasst die Menge{c1(ϑ), . . . , cℓ(ϑ)

∣∣ϑ ∈ Θ}einen Quader mit positivem Volumen im R

ℓ, dann ist

V (X) :=

(n∑

i=1

V1(Xi), . . . ,

n∑

i=1

Vℓ(Xi)

)

eine suffiziente und vollstandige Statistik.

Beweis: Die Suffizienz folgt aus dem Faktorisierungssatz von Neyman. ZurVollstandigkeit siehe z.B. E.B. Lehmann, Testing Statistical Hypotheses, 2nded., Wadsworth 1991, p.142.

Beispiel: Xi unabhangig N(µ, σ2

)-verteilt

g(µ,σ2)(x) =1√

2πσ2e−

X2

2σ2 +Xµ

σ2 − µ2

2σ2 .

Also ist (X1 + . . .+Xn, X21 + . . .+X2

n) (und damit auch (X, s2X)) suffizient undvollstandig fur (µ, σ2).

Page 71: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 13

DieCramer-Rao-Ungleichung

X habe Verteilungsdichte (oder -gewichte) fϑ(x), ϑ ∈ Θ ⊆ R.

ϑ 7→ fϑ(x) sei hinreichend regular

S = h(X) sei eine reellwertige Zufallsvariable mit Var ϑS <∞ ∀ϑ.

Sei ψ(ϑ) := Eϑ[S], If (ϑ) := Eϑ

[(∂

∂ϑ log fϑ(X))2]

.

Dann gilt:

Var ϑS ≥ (ψ′(ϑ))2

If (ϑ).

Beweiskern (vgl. Bickel-Doksum (2001) p.181)

ψ′(ϑ) =

∫h(x)

∂ϑfϑ(x)dx =

∫h(x)

(∂

∂ϑlog fϑ(x)

)fϑ(x)dx

= Eϑ

[h(X)

∂ϑlog fϑ(X)

]= Eϑ

[(h(X) − ψ(ϑ))

∂ϑlog fϑ(X)

]

√√√√Var ϑ[S] Eϑ

[(∂

∂ϑlog fϑ(X)

)2]

2

Dabei wurde verwendet, dass Eϑ

[∂

∂ϑ log fϑ(X)]

= 0. Die letzte Abschatzung

folgt aus der Cauchy-Schwarz-Ungleichung: E [Y Z] ≤√

EY 2√

EZ2.

Bemerkung 1. Sei X = (X1, . . . , Xn) mit X1, . . . , Xn u.i.v., Xi habe Vertei-lungsdichte gϑ(x).

Dann gilt:

If (ϑ) = −Eϑ

[∂2

∂ϑ2log fϑ(X)

]

= −nEϑ

[∂2

∂ϑ2gϑ(X1)

]= nIg(ϑ)

70

Page 72: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 13. DIE CRAMER-RAO-UNGLEICHUNG 71

Ist uberdies S noch erwartungstreu fur ϑ, so ist

Var ϑS ≥ 1

nIg(ϑ).

In diesem Sinn ist also (in schonen Fallen) der ML-Schatzer “asymptotisch op-timal”.

Page 73: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 14

Das Lageproblem furmehrere Stichproben

14.1 Die einfache Varianzanalyse

Angenommen, k unabhangige Stichproben kommen aus k Normalverteilungenmit ein- und derselben Varianz. Gibt es Grund, an der Hypothese zu zweifeln,dass alle Mittelwerte µ1, . . . , µk ubereinstimmen?

Fishers Idee war gleichermaßen einfach und scharfsinnig: Vergleiche die Va-riabilitat innerhalb der Gruppen mit der zwischen den Gruppen. Wenn letzteubermaßig groß ist., dann gibt dies Grund, an der Gleichheit der µj zu zweifeln.Wie lasst sich diese Idee quantifizieren?

Die Stichworte sind “Quadratzerlegung der Variabilitat”, “Satz von Pythago-ras” und (wieder einmal) Fishers Satz uber die Projektionen eines standard-normalverteilten Z.

Zum Aufwarmen betrachten wir den Fall k = 2; hier finden wir Altbekannteswieder.

Unser Modell ist:

X1i = µ1 + σZ1i , i = 1, . . . , n1

X2i = µ2 + σZ2i , i = 1, . . . , n2

mit Zji unabhangig, standard-normalverteilt.

In Vektorschreibweise:X = ~µ+ σZ

mit Z standard-normalverteilt auf Rn, n := n1 + n2.

~µ wird als (wahrer) Mittelwertsvektor oder auch als systematische Komponentebezeichnet, σZ nennt man auch Rauschen.

~µ ist Element des (2-dimensionalen linearen) Modellraums

M :={(µ1, . . . , µ1, µ2, . . . , µ2)

T∣∣µ1, µ2 ∈ R

}⊆ R

n .

72

Page 74: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 73

Den (empirischen) Gesamtmittelwert

X.. :=1

n1 + n2

(n1∑

i=1

X1i +

n2∑

i=1

X2i

)

und die (empirischen) Gruppenmittelwerte

Xj. :=1

nj

nj∑

i=1

Xji , j = 1, 2

finden wir in den Projektionen von X auf die Diagonale

D ={(µ, . . . , µ)

∣∣µ ∈ R}⊆ R

n

und auf M wieder:

PDX = (X.., . . . , X..)T

PMX = (X1., . . . , X1., X2., . . . , X2.)T .

Die Abweichungen der Gruppenmittel vom Gesamtmittel finden sich in der Dif-ferenz PMX − PDX.

Was liegt nun naher als den Raum M orthogonal zu zerlegen in die zwei eindi-mensionalen Teilraume D und

E :={(β1, . . . , β1, β2, . . . , β2)

∣∣β1, β2 ∈ R, n1β1 + n2β2 = 0}.

Damit ergibt sich:

PEX = (X1. − X.., . . . , X1. − X.., X2. − X.., . . . , X2. − X..) .

Nicht nur die Variabilitat zwischen den Gruppen, sondern auch die in den Grup-pen lasst sich aus einer Projektion ablesen, und zwar auf das orthogonale Kom-ponent zu M in R

n:

PM⊥X = X − PMX =

=(X11 − X1., . . . , X1n1 − X1., X21 − X2., . . . , X2n2 − X2.

).

Also:

‖PM⊥X‖ =

√√√√n1∑

i=1

(X1i − X1.)2 +

n2∑

i=1

(X2i − X2.)2

‖PEX‖ =√n1(X1. − X..)2 + n2(X2. − X..)2 .

Die Lange ‖PEX‖ lasst sich noch eleganter berechnen:

Ein Einheitsbektor von E ist

e :=

(− 1

n1, . . . ,− 1

n1,

1

n2, . . . ,

1

n2

)T1√

1n1

+ 1n2

.

Page 75: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 74

Damit:

‖PEX‖ =∣∣ 〈e,X〉

∣∣ =1√

1n1

+ 1n2

(X2. − X1.

).

Wir sehen:〈e,X〉

1√n−2

‖PM⊥X‖ist nichts anderes als die gute alte Student-Statistik fur zwei Stichproben.

Wenden wir uns nun der zu Beginn des Abschnitt beschriebenen Frage fur k zu.

Unser Modell ist jetzt:

X1i = µ1 + σZ1i , i = 1, . . . , n1

Xki = µk + σZki , i = 1, . . . , nk

mit Zji unabhangig, standard-normalverteilt.

Wir setzen n := n1 + . . .+ nk.

Das im Fall k = 2 beschriebene Vorgehen lasst sich geradewegs ubertragen. DerModellraum M ist jetzt k-dimensional.

M :={(µ1, . . . , µ1, µ2, . . . , µ2, . . . , µk, . . . , µk)T

∣∣µ1, . . . µk ∈ R}⊆ R

n .

D bleibt wie gehabt die Diagonale; der Raum E (das orthogonale Komplementvon D zu M) ist k − 1-dimensional:

E :={(β1, . . . , β1, β2, . . . , β2, . . . , βk, . . . , βk)

∣∣β1, . . . βk ∈ R, n1β1 + . . .+ nkβk = 0}.

Schreiben wir~µ = PD~µ+ PE~µ = ~α+ ~β

so ergibt sich aus unserer Modellgleichung

X = ~µ+ σZ

die Beziehung

X = PDX +PEX +PM⊥X

= ~α+ σPDZ +~β + σPEZ +σPM⊥Z

Unsere Frage war: Ist µ1 = µ2 = . . . = µk?

Oder mit anderen Worten: Ist ~β = 0?

Dazu vergleichen wir (wie oben) ‖PEX‖ mit ‖PM⊥X‖.In unserem Modell gilt:

‖PM⊥X‖2 = σ2‖PM⊥Z‖2

‖PEX‖2 = ‖~β + σPEZ‖2 = ‖~β‖2 + 2σ⟨~β,PEZ

︸ ︷︷ ︸N(0,‖~β‖2σ2) verteilt

+σ2‖PEZ‖2 .

Page 76: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 75

Aus dem Satz von Fisher folgt:

Unter der Hypothese H0 : µ1 = µ2 = . . . = µk ist

F :=

‖PEX‖2

k−1

‖PM⊥X‖2

n−k

so verteilt wie der Quotient von zwei unabhangigen, durch die Anzahl ihrerFreiheitsgrade normierten χ2(k − 1) und χ2(n− k) verteilten Zufallsvariablen.

Ist H0 verletzt, so fallt F tendenziell großer aus(wegen E(‖PEX‖2) = ‖~β‖2 + σ2(k − 1)).

Definition: Seien Y1 χ2(l1)-verteilt, Y2 χ

2(l2)-verteilt und unabhangig. Dann

heißt L(

Y1/l1Y2/l2

)Fisher-Verteilung mit Parametern l1 und l2.

R kennt diese Verteilung als f(., l1, l2).

Fassen wir zusammen:

Die zentrale Frage der Varianzanalyse (die eigentlich besser Variabilitatsanalyseheißen sollte) ist: “Wo steckt die Variabilitat in den Daten? Nur in der zufalligenKomponente oder auch in der systematischen Komponente?”

Geometrisch steckt dahinter

• eine Quadratzerlegung von ‖Y‖2

• Verteilungseigenschaften von Z

Einen Uberblick uber die Ergebnisse der Varianzanalyse gibt die ANOVA-Tafeloder Varianztafel:

QuelleQuadratsummen

(SS)

Freiheitsgrade

(DF)

Mittlere

Quadratsumme(

SSDF

)

(D) Mittelwert ‖PDY‖2 = n · Y 2 1 ‖PDY‖2

(E) Gruppe‖PEY‖2

=∑ni

(Yi· − Y··

)2 k − 1 ‖PEY‖2

k−1

(M⊥) Residuum

‖R‖2= ‖PM⊥Y‖2

=∑k

i=1

∑ni

j=1

(Yij − Yi·

)2 n− k s2 := ‖R‖2

n−k

s2 ist wegen ER2 = σ2 (n− k) ein erwartungstreuer Schatzer fur σ2.

Beispiel: Blutgerinnungszeit bei Ratten. Es gab vier unterschiedliche Behand-lungsarten der Wunde (A,B,C,D).

Unterscheiden sich die vier Gruppen signifikant in Bezug auf ihre Lage?

A 62 60 63 59B 63 67 71 64 65 66C 68 66 71 67 68 68D 56 62 60 61 63 64 63 59

Page 77: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 76

Yij = Gerinnungszeit der j-ten Ratte in der i-ten Gruppe

Gruppenmittel Yi:

A 61 61 61 61B 66 66 66 66 66 66C 68 68 68 68 68 68D 61 61 61 61 61 61 61 61

”Großes Mittel” Y··

A 64 64 64 64B 64 64 64 64 64 64C 64 64 64 64 64 64D 64 64 64 64 64 64 64 64

(Yij) = PDY + PEY +︷ ︸︸ ︷PM⊥Y

=:R

=(Y··)

+[(Yi·)−(Y··)]

+[(Yij) −

(Yi·)]

=

64 64 64 6464 64 64 64 64 6464 64 64 64 64 6464 64 64 64 64 64 64 64

+

−3 −3 −3 −32 2 2 2 2 24 4 4 4 4 4−3 −3 −3 −3 −3 −3 −3 −3

+

1 −1 2 2−3 1 5 −2 −1 00 −2 3 −1 0 0−5 1 −1 0 2 3 2 −2

Quelle SS DF SSDF

MW 24 · 642 1 24 · 642

Gruppe 228 k − 1 = 3 76Residuum 112 n− k = 20 5, 6

F = 13, 6

Yij = µi + σZij

Y = ~µ+ σZ

Page 78: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 77

Unter der Hypothese µ1 = µ2 = · · · = µk ist

F :=

‖PEY‖2

k−1

‖PM⊥Y‖2

n−k

= 13, 6

Fisher(3, 20)-verteilt.

Mit einem p-Wert von 0.000. . . ist damit die Hypothese zu verwerfen.

Wir illustrieren an unserem Beispiel der Blutgerinnungsdaten, wie man die ein-fache Varianzanalyse mit R durchfuhrt.

Die Daten sind dabei in einer n × 2 Matrix (im Textfile namens Blutgerin-nung.dat) gespeichert, die Kopfzeile beinhaltet die Spaltennamen “Zeit” und“Gruppe”.

> gerinnung<-read.table("Blutgerinnung.dat", header=T)

> gerinnung.aov<-aov(Zeit~Gruppe, data=gerinnung)

> summary(gerinnung.aov)

Df Sum Sq Mean Sq F value Pr(>F)

Gruppe 3 228.0 76.0 13.571 4.658e-05 ***

Residuals 20 112.0 5.6

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> model.tables(gerinnung.aov,type="means")

Tables of means

Grand mean

64

Gruppe

A B C D

61 66 68 61

rep 4 6 6 8

> model.tables(gerinnung.aov,type="effects")

Tables of effects

Gruppe

A B C D

-3 2 4 -3

rep 4 6 6 8

>

14.2 Paarweise Vergleiche

Wir gehen aus vom Modell des vorigen Abschnitts:

X = ~µ+ σZ ,

~µ ∈M :={(µ1, . . . , µ1, . . . , µk, . . . , µk)T

∣∣µj ∈ R}⊆ R

n

Page 79: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 78

Weil die Projektionen PMX und PM⊥X unabhangig sind, ist fur j 6= l

Tjl :=1√

1nj

+ 1nl

(Xj. − Xl. − (µj − µl)

)/s

Student(n− k)-verteilt (mit s2 := ‖PM⊥X‖2/n− k).

Also ist

Ijl :=

[Xj. − Xl. −

√1

nj+

1

nls · qt

(1 − a

2

), Xj. − Xl. + . . .

]

ein (1 − α)-Konfidenzintervall fur µj − µl.

Fur ein fest gewahltes Paar (j, l) ist also

Ws~µ (Ijl ∋ µj − µl) = 1 − α

Aber Achtung! Die Wahrscheinlichkeit, dass alle Ijl simultan die jeweiligen Dif-ferenzen µj − µl uberdecken, ist i.a. kleiner als (1 − α).

Eine pessimistische Schranke (die sogenannte Bonferroni-Schranke) ist

Wsµ (Ijl ∋ µj − µl fur alle Paare (j, l)) ≥ 1 −(k2

(es gibt

(k2

)Paare, verwende die Subadditivitat der Wahrscheinlichkeit fur die

Nichtuberdeckungs-Ereignisse).

Um die Schranke 1 − α einzuhalten, mussen die Intervalle also wohl oder ubelverlangert werden.

Betrachten wir den balancierten Fall

n1 = . . . = nk =: m

Das pessimistische Rezept ware dann, qt(1− α2 ) durch qt

(1 − α

k(k−1)

)zu erset-

zen (um dem Faktor

(k2

)gegenzusteuern).

Aber geht’s nicht kurzer? Sei

I(j,l),c :=

[Xj. − Xl. − c

s√m, Xj. − Xl. + c

s√m

].

Wie groß ist c zu wahlen, damit die Intervalle I(j,l),c simultane Konfidenzinter-valle zum Niveau (1 − α) fur alle (j, l) werden?

Ws~µ

(Xj. − Xl. − c

s√m

≤ µj − µl ≤ Xj. − Xl. + cs√m

∀(j, l)

)

= Ws~µ

(max(j,l)

√m

s

∣∣∣Xj. − µj −(Xl. − µl

) ∣∣∣ ≤ c

)

= Ws~µ

s

(max

j

√m(Xj. − µj

)

σ− min

l

√m(Xl. − µl

)

σ

)

︸ ︷︷ ︸dessen Verteilung hangt nicht von ~µ und σ ab!

≤ c

)

Page 80: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 79

Definition (Tukey) W1, . . . ,Wk seien N (0, 1)-verteilt, Y sei χ2(g)-verteiltund die W1, . . . ,Wk, Y seien unabhangig.

Dann heißt

L

maxj Wj − minl Wl√Yg

die studentisierte Spannweitenverteilung (studentized range) fur k Mittelwerteund g Freiheitsgrade.

R kennt diese Verteilung als tukey(., k, g).

Fazit: Fur c = qtukey (1 − α, k, n − k) sind die I(j,l),c simultane Konfidenzin-tervalle fur µj − µl, 1 ≤ j 6= l ≤ k, zum Niveau 1 − α.

Bemerkung: Dem Auffinden von simultanen Konfidenzintervallen entsprichtuber die bekannte Dualitat ein multipler Test:

Betrachte die folgende Familie von Tests fur die Hypothese

Hj,l : µj − µl :

Lehne Hj,l ab, falls∣∣Xj. − Xl.

∣∣ ≥ qtukey (1 − α2 , k, n− k)s/

√m .

Dann ist die Wahrscheinlichkeit, auch nur eine der zutreffenden Hypothesenirrtumlich abzulehnen, nicht großer als α.

Die Differenzen µj−µl sind speziell lineare Funktionale von ~µ der Form∑k

r=1wrµr

mit∑k

r=1 wr = 0. Derartige lineare Funktionale heißen auch Kontraste. Fur

~µ = PD~µ+ PE~µ = ~α+ ~β

gilt dann:

ϕ :=

k∑

r=1

wrµr =

k∑

r=1

wrβr.

Suchen wir nun noch (auf den Spuren von H. Scheffe) nach simultanen Konfi-denzintervallen fur alle Kontraste von ~µ.

Der Schatzer ϕ :=∑k

r=1wrXr ist normalverteilt mit MW∑k

r=1 wrµr und Va-

rianz σ2

m

∑kr=1 w

2r =: σ2

m τ(w)2 .

Also ist [ϕ− s√

mτ(w) qt (1 − α

2, n− k), ϕ+ . . .

]

ein (1 − α)-Konfidenzintervall fur ϕ.

Kann man ein C so wahlen, dass

Iw,K :=

[ϕ− s√

mτ(w)C, ϕ +

s√mτ(w)C

]

simultane (1 − α)-Konfidenzintervall fur alle Kontraste ϕ sind?

Page 81: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 80

Die Forderung ist gleichbedeutend mit

(⋆) Ws~µ

[ϕ− s√

mτ(w)C ≤ ϕ ≤ ϕ+

s√mτ(w)C ∀w

]

= Ws~µ

[max

w

√m

s

|ϕ− ϕ|τ(w)

≤ C

]= 1 − α.

Nun gilt aber (mit βr := Xr. − X..) :

∣∣ϕ− ϕ∣∣ =

∣∣∣k∑

r=1

wr(βr − βr)∣∣∣

√√√√k∑

r=1

w2r

︸ ︷︷ ︸=τ(w)

√√√√k∑

r=1

(βr − βr)2 .

Die Gleichheit gilt genau dann, wenn (wr) proportional zu (βr − βr) ist. Diese

Wahl von (wr) ist moglich, weil auch (βr − βr) im Raum

E0 :={(β1, . . . , βk)T

∣∣∣β1 + . . .+ βk = 0}⊆ R

k

liegt. Wir schreiben also (⋆) um zu

Ws~µ

(1

s2m

k∑

r=1

(βr − βr)2 ≤ C2

)

= Ws~µ

(σ2‖PEZ‖2

σ2‖PM⊥Z‖2/(n− k)≤ C2

)

= Ws

(Y ≤ C2

k − 1

)

mit Y Fisher (k − 1,mk − k) verteilt.

Fazit: Fur C :=√

(k − 1) qf (1 − α, k − 1, k(m− 1)) sind die Iw,K , w ∈ E0,simultane (1 − α)-Konfidenzintervalle fur alle Kontraste.

Bemerkung: Jede einzelne der Bedingungen

ϕ ∈ Iw,C

legt einen Konfidenzbereich fur β = (β1, β2, . . . , βk)T fest.

Es gilt namlich:

ϕ ∈ Iw,C ⇐⇒√m

s

|ϕ− ϕ|τ(w)

≤ C

⇐⇒∣∣∣∣∣

⟨w

τ(w), β − β

⟩ ∣∣∣∣∣ ≤Cs√m

⇐⇒ β − β ∈ Bw

Page 82: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 81

wobei Bw ⊆ E0 durch die beiden auf w senkrecht stehenden Hyperebenen (je-weils mit Abstand Cs√

mzum Ursprung) berandet wird.

Offenbar gilt: ⋂

w∈E0

Bw

ist der Schnitt von E0 mit der Kugel (um 0) mit Radius Cs√m

im Rk.

14.3 Der Kruskal-Wallis-Test

Der Kruskal-Wallis-Test ist das Rangsummen-Analogon zur einfachen Varianz-analyse bzw. das Mehrstichproben-Analogon zum Wilcoxon-Test.

Normalverteilungsmodell Nichtparametrisch, “Rangsummen”2 Stichproben Student Wilcoxonk Stichproben einfache Varianzanalyse Kruskal-Wallis

Modell:X11, . . . , X1n1 mit Verteilung π1

...Xk1, . . . , Xknk

mit Verteilung πk

unabhangig

n := n1 + . . .+ nk.

Hypothese H0 : π1 = . . . = πk.

Wie lasst sich diese Hypothese testen?

Idee: Man ersetzt die Daten Xji durch ihre Range Rji in der Gesamtstichprobeund untersucht die Schwankungen der Gruppenmittelwerte Rj. um das Gesamt-mittel

R.. =1

n

k∑

j=1

nj∑

i=1

Rji =1

n

n(n+ 1)

2=n+ 1

2.

Teststatistik:

K :=k∑

j=1

nj

(Rj. − R..

)2.

Unter H0 ist (zumindest wenn die πj als kontinuierlich vorausgesetzt werden)(R11, . . . , Rknk

) eine zufallige Permutation von (1, . . . , n).

Tabellen der Verteilung vonK (fur k = 3 und nj ≤ 5) finden sich in E. Lehmann,Nonparametrics: Statistical methods based on ranks, Holden-Day, 1975.

Fur großere Stichprobenumfange (Lehmann, p.207, empfiehlt nj ≥ 5 fur k = 3oder nj ≥ 4 fur k ≥ 3) ist die folgende Normalapproximation brauchbar:

Satz: Fur n→ ∞ und nj/n→ pj > 0 gilt unter H0:

12

n(n+ 1)K −→ χ2(k − 1) in Verteilung.

Page 83: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 82

Wir konnen diesen Satz verstehen uber einen multivariaten Grenzwertsatz furStichprobenmittel beim Ziehen ohne Zurucklegen:

Fur n ∈ N seiLn =

{y(n)1 , . . . , y(n)

n

}

eine Liste der Lange n mit reellwertigen Eintragen y(n)i .

Sei n = n1 + . . .+ nk.

(Y(n)11 , . . . , Y

(n)1n1

, . . . , Y(n)knk

) entstehe durch rein zufalliges Ziehen ohne Zurucklegenaus Ln. Wir setzen

S(n)j :=

nj∑

i=1

Y(n)ji .

Es gilt:

Fur j 6= l ist der Korrelationskoeffizient von S(n)j und S

(n)l gleich

−√

njnl

(n− nj)(n− nj).

Beweis: O.B.d.A. sei Ln zentriert, d.h. y = 0.

Sei Z1, . . . , Zn eine rein zufallige Permutation von {1, . . . , n}. Fur i 6= j ist

Cov(yZi

, yZj

)= − σ2

y

n− 1

denn

0 = Varn∑

i=1

yZi= nσ2

y + n(n− 1)Cov(yZi

, yZj

)

Also ist

Var

(n1∑

i=1

yZi

)= n1σ

2y − n1(n1 − 1)

σ2y

n− 1= σ2

y

n1(n1 − 1)

n− 1

Cov

n1∑

i=1

yZi,

n1+n2∑

j=n1+1

yZj

= n1n2Cov (yZ1yZ2) = −σ2y

n1n2

n− 1.

Fur j, l gilt daher

Corr(S

(n)j , S

(n)l

)=

1√(1 − nj/n)(1 − nl/n)

(δjl −

√nj

n

nl

n

).

Hat man eine Folge von Listen Ln, bei denen nicht jeweils einige wenige Elemen-

te als Ausreißer dominieren, dann sind die (S(n)j )j=1,...,k fur n→ ∞ gemeinsam

asymptotisch normal:

Satz (siehe E. Lehmann, loco citato, Thm 19 auf p.393)

Page 84: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 14. DAS LAGEPROBLEM FUR MEHRERE STICHPROBEN 83

Es geltenj

n

n→∞−→ pj ,

maxi

(y(n)i − y(n)

)2

∑ni=1

(y(n)i − y(n)

)2 · maxj

(n− nj

nj

)n→∞−→ 0 .

Dann gilt:

S(n)j − ES

(n)j√

VarS(n)j

j=1,...,k

n→∞−→ N

0,

(1√

(1 − pj)(1 − pl)

(δjl −√

pjpl

))

j,l

in Verteilung.

Wir wenden diesen Satz an auf

Ln = (1, 2, . . . , n).

Damit ist Rj. = 1njS

(n)j .

Im Abschnitt uber den Rangsummentext von Wilcoxon hatten wir hergeleitet:

VarS(n)j =

nj(n− nj)(n+ 1)

12.

Also ist

Var Rj. =n(n+ 1)

12

1

nj

(1 − nj

n

).

Kombiniert mit obigem Zentralem Grenzwertsatz liefert das:(√

12

n(n+ 1)

√nj

(Rj. − R..

))

j=1,...,k

→ N(0,(δjl −√

pj√pl

)).

Der Satz uber die asymptotische Verteilung der Kruskal-Wallis-Statistik folgtnun unmittelbar aus dem Satz von Fisher! 2

R gibt auf den Befehl kruskal.test als Wert der Teststatistik den Wert 12/(n(n+1)),Kaus und berechnet den p-Wert grundsatzlich uber die χ2-Approximation. Hierist unser kleines Beispiel:

> gerinnung<-read.table("Blutgerinnung.dat", header=T)

> attach(gerinnung)

> kruskal.test(Zeit, Gruppe)

Kruskal-Wallis rank sum test

data: Zeit and Gruppe

Kruskal-Wallis chi-squared = 17.0154, df = 3, p-value = 0.0007016

Zur Kontrolle:

> pchisq(17.0154,3,lower.tail=F)

[1] 0.000701607

Page 85: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 15

Das normale lineare Modell

15.1 Schatzen von ~µ und σ2

M sei ein k-dimensionaler linearer Teilraum von Rn.

Unser Modell ist:Y = ~µ+ σZ

wobei ~µ ∈M,σ ≥ 0,Z standard-normalverteilt auf Rn.

Wie schatzt man ~µ und σ2 am besten?

Definition und Bemerkung

M := PMY = ~µ+ σPMZ

R := PM⊥Y = σPM⊥Z

s2 :=‖R‖2

n− k= σ2 ‖PM⊥Z‖2

n− k.

M und s2 sind erwartungstreue Schatzer fur ~µ und σ2.

Satz

(i) Fur jedes w ∈ Rn ist wT · M der wirksamste erwartungstreue Schatzer von

wT ~µ.

(ii) s2 ist der wirksamste erwartungstreue Schatzer von σ2.

Beweis: Nach dem Satz von Lehmann und Scheffe reicht es zu zeigen, dassM und s2 Funktionen einer suffizienten und vollstandigen Statistik sind. Dazugehen wir zu einer Darstellung in einer geeigneten ON-Basis uber.

Sei e1, . . . , ek eine ON-Basis von M , erganzt zu einer ON-Basis e1, . . . , en vonR

n.

84

Page 86: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 15. DAS NORMALE LINEARE MODELL 85

Wir schreiben

Y =

n∑

i=1

Uiei

~µ =

n∑

i=1

ηiei (mit ηk+1 = . . . = ηn = 0)

ϑ :=(η1, . . . , ηk, σ

2).

Die Verteilungsdichte von (U1, . . . , Un) ist

fϑ(u1, . . . , un) =1

(2πσ2)n/2exp

(− 1

2σ2

n∑

i=1

(ui − ηi)2

)

=1

(2πσ2)n/2exp

(− 1

2σ2

n∑

i=1

u2i +

1

σ2

k∑

i=1

ηiui −1

2σ2

k∑

i=1

η2i

)

=: ψϑ

(n∑

i=1

ui, u1, . . . , uk

).

Mit dem Faktorisierungssatz von Neyman folgt:

S := V (U1, . . . , Un) :=

(U1, . . . , Uk,

n∑

i=1

U2i

)

ist suffizient fur ϑ.

Wegen eines in Abschnitt 12.4 zitierten Satzes uber Exponentialverteilungengilt: S ist auch vollstandig fur ϑ.

Es bleibt nur mehr festzustellen, dass sich sowohl s2 = 1n−k

∑ki=1 U

2i als auch

M =∑k

i=1 Uiei als Funktionen von S schreiben lassen. 2

Bemerkung 1 Umgekehrt lasst sich S aus (M, s2) berechnen. Damit ist(M, s2) eine suffiziente und vollstandige Statistik fur (~µ, σ2).

Bemerkung 2

a) M und R sind unabhangig (nach dem Satz von Fisher).

b) Wir wollen nun ein Konfidenzintervall fur wT ~µ herleiten. Mit wM := PMwist

wT ~µ = wTM~µ .

WegenwT

MY = wTM~µ+ σwT

MZ

hat wTMY = wT M die Verteilung N

(wT ~µ, σ2‖wT

M‖2).

Also ist(wT M−wT ~µ)/‖wM‖

s Student(n − k)-verteilt, und

[wT M − s‖wM‖ qt

(1 − α

2, n− k

), wT M + . . .

]

ist ein (1 − α)-Konfidentintervall fur wT ~µ.

Page 87: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 15. DAS NORMALE LINEARE MODELL 86

Bemerkung 3 Weil M = PMY unter allen ~m ∈ M den Abstand zu Y,d.h. die Quadratsumme

∑ni=1(Yi −mi)

2, minimiert, heißt M auch der Kleinst-Quadrate-Schatzer fur ~µ.

15.2 Testen von linearen Hypothesen

Wir betrachten das Modell des vorigen Abschnitts, zusammen mit einem linea-ren Teilraum L unseres Modellraums M .

Wie testet man die Hypothese

(H0) ~µ ∈ L ?

M.a.W: wie bringt man zutage, ob in den Daten eine systematische Komponente“aus L heraus” steckt?

Sei E das orthogonale Komplement von L bezuglich M :

M = L⊕ E.

Wir vergleichen die Projektion von Y auf E mit der auf M⊥:

PEY = PE~µ+ σPEZ

PM⊥Y = σPEZ .

Bemerkung: Unter H0 ist (mit dimM = k, dimL = r)

F :=‖PEY‖2

/(k − r)

‖PM⊥Y‖2/(n− k)

Fisher (k − r, n − k)-verteilt. Unter der Alternative ~µ ∈ M \ L tragt die Kom-ponente PE~µ zu einer systematischen Vergroßerung des Zahlers bei.

Die Frage “wie groß ist der F -Wert” kann man ubrigens umdeuten zu der Frage“Ein wie großer Anteil von ‖PL⊥Y‖2 wird durch die Projektion auf M erklart?

In der Tat: Schreiben wir ℧ := PL⊥Y.

Dann ist wegen PE = PMPL⊥ und PM⊥ = PM⊥PL⊥

‖PEY‖2

‖PM⊥Y‖2=

‖PM℧‖2

‖PM⊥℧‖2=

‖PM℧‖2

‖℧‖2 − ‖PM℧‖2

=R2

1 −R2,

mit R := ‖PM ℧‖‖℧‖ .

Zwischen F und R2 ergibt sich somit die Beziehung

F =n− k

k − r

R2

1 −R2.

Page 88: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 15. DAS NORMALE LINEARE MODELL 87

R lasst sich umschreiben zu

R =‖PM℧‖2

‖℧‖ ‖PM℧‖ =〈℧,PM℧〉

‖℧‖ ‖PM℧‖ .

Ausgedruckt durch Y und M := PMY ist dies (wegen PMPL⊥ = PL⊥PM )

R =〈PL⊥Y,PL⊥M〉

‖PL⊥Y‖ ‖PL⊥M‖ .

Besonders schon lasst sich R deuten, wenn unser linearer Teilraum gleich derHauptdiagonalen D ist.

Dann gilt namlich (mit M = (M1, . . . ,Mn)T )

R =

∑ni=1

(Yi − Y

) (Mi − M

)√∑n

i=1

(Yi − Y

)2∑ni=1

(Mi − M

)2 .

Also ist in diesem Fall R nichts anderes als der Stichprobenkorrelationskoeffizi-ent von Y und M = PMY.

Dieser heißt auch multipler Korrelationskoeffizient des durch M beschriebenenModells.

Page 89: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 16

Das lineare Modell mitweißem Rauschen

Unser Modell ist jetzt:

Yi = µi +Wi , i = 1, . . . , n ,

wobei wie gehabt ~µ = (µ1, . . . , µn)T in einem k-dimensionalen linearen TeilraumM(⊆ R

n) liegt, und W1, . . . ,Wn zentrierte, unkorrelierte Zufallsvariablen mitein- und derselben Varianz σ2 seien.

Definition W = (W1, . . . ,Wn)T

heißt weißes Rauschen auf Rn mit Varianz

σ2 : ⇐⇒EW = 0 , VarW = σ2I .

Dabei bezeichnen wir hier und im Folgenden die Kovarianzmatrix eines Zufalls-vektors ℧ mit Var ℧.

Die schonsten Eigenschaften in normalen linearen Modell hatten wir dem Satzvon Fisher zu verdanken. Was kann man davon retten?

Lemma Sei W ein weißes Rauschen auf Rn mit Varianz σ2.

a) Ist O eine orthogonale Matrix, so ist auch O ·W ein weißes Rauschen.

b) Die Koordinaten von W in jeder ON-Basis von Rn bilden wieder ein weißes

Rauschen.

c) Fur zwei orthogonale Unterraume L,N von Rn ist jede Koordinate von PLW

zu jeder Koordinate von PNW unkorreliert.

d) Fur jeden Unterraum L ⊆ Rn gilt

E‖PLW‖2 = dimL · σ2 .

Beweis

a) EOW = 0 , Var OW = σ2OIOT = σ2I.

88

Page 90: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 16. DAS LINEARE MODELL MIT WEISSEM RAUSCHEN 89

b) Sei e1, . . . , en eine ON-Basis von Rn, Ui := eT

i W. Dann gilt:

EUi = 0 , Cov(Ui, Uj) = E[eT

i WWT ej

]

= eTi E[WWT

]ej = σ2δij .

c) Es reicht, die ON-Basis in b) vertraglich mit L und N zu wahlen.

d) Sei e1, . . . , en, U1, . . . , Un wie in b) und c) mit e1, . . . , el ON-Basis von L.Dann ist

‖PLW‖2 = U21 + . . .+ U2

l ,

dies hat Erwartungswert ℓ · σ2. 2

Kehren wir zuruck zu unserem Modell

Y = ~µ+ W .

Wie fruher schreiben wir

M := PMY , R := PM⊥Y , s2 :=‖R‖2

n− k.

Aus Teil d) des Lemmas folgt sofort die

Bemerkung: s2 ist ein erwartungstreuer Schatzer fur σ2. Daruber hinaus giltder

Satz (von Gauß-Markov):

Sei g ∈ Rn fest. Dann ist gT M der wirksamste unter allen in Y linearen erwar-

tungstreuen Schatzern fur das lineare Parametermerkmal gT ~µ.

Beweis: Sei (mit h ∈ Rn) hT Y ein weiterer linearer erwartungstreuer Schatzer

fur gT ~µ. Die Erwartungstreue besagt:

E~µhT Y = gT ~µ ∀~µ ∈M .

Andererseits ist nach Modellannahme

E~µhT Y = E~µh

T (~µ+ W) = hT ~µ ∀~µ ∈M .

Aus den beiden letzten Beziehungen zusammen folgt

gTm = hTm ∀m ∈M . (16.1)

Wir zeigen nun, dass hT Y nicht wirksamer ist als gT M:

VarhT Y = Var (hT M + hTR)

= Var (hT M) + 2Cov(hT M, hTR) + Var (hTR)

= Var (gT M) + 2Cov(hTPMW, hTPM⊥W

)+ Var (hTR) .

Dabei haben wir (16.1) sowie unsere Modellgleichung verwendet. Der mittlereTerm der rechten Seite verschwindet aber wegen Teil c) des Lemmas, und derdritte Term ist nichtnegativ. 2

Page 91: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 17

Lineare Regression

17.1 Vom linearen Modell zum linearen Regres-sionsmodell

Sei M wie gehabt ein k-dimensionaler Teilraum des Rn.

Wir betrachten eine lineare Parametrisierung von M . Dazu seien c1, . . . , cl Vek-toren im R

n mit

M ={β1c1 + . . .+ βlcl

∣∣β := (β1, . . . , βl)T ∈ R

l}

={C · β

∣∣β ∈ Rl}

mit der n× l-Matrix C := (c1, . . . , cl).

Es gilt jedenfalls: Rang(C) = k ≤ l.

C heißt Systemmatrix, die βj heißen Regressionskoeffizienten.

Sei y ein Datenvektor im Rn.

Die Kleinst-Quadrate-Schatzer fur β ist dann gegeben durch die Gleichung

PM~y = Cβ . (17.1)

(17.1) ist gleichbedeutend zur Forderung, dass die Differenz von ~y und Cβ or-thogonal steht auf ganz M , m.a.W. dass gilt:

(~y − Cβ)TCβ = 0 fur alle β ∈ Rl .

Daraus ergibt sich folgende Kette von Aquivalenzen:

(17.1) ⇐⇒ (~y − Cβ)TC = 0

⇐⇒ ~yTC = βTCTC

⇐⇒ CT~y = CTCβ (17.2)

90

Page 92: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 91

Die Gleichungen (17.2) heißen die Normalgleichungen im Regressionsmodell.Offenbar gilt:

(17.1) ist eindeutig losbar ⇐⇒ c1, . . . , cl linear unabhangig

(17.2) ist eindeutig losbar ⇐⇒ CTC ist regular.

Dies ist genau dann der Fall, wenn k = l ist, d.h. wenn man nicht uberparametrisierthat.

Beispiel 1. Die einfache Varianzanalyse (schon mit k = 2) ist ein Beispieleines “uberparametrisierten” Regressionsmodells:

M ={

µ1

:µ1

µ2

:µ2

}={β0

11:::1

+ β1

1:10:0

+ β2

0:01:1

}.

Hier ist C eine n× 3-Matrix mit Rang 2.

Beispiel 2. (Die klassische lineare Regression)

x1, . . . , xn seien feste reelle Zahlen

C :=

1 x1

: :: :: :: :1 xn

β = (β0, β1)T .

Modell: Yi = β0 + β1xi+ Rauschen.

Die rechte Seite von (17.1), d.h. der Vektor Cβ, nimmt jetzt folgende Gestaltan:

Cβ =(β0 + β1xi

)

i=1,...,n

y − Cβ muss orthogonal stehen auf M ; dieses aber wird aufgespannt von denbeiden Vektoren (1, . . . , 1)T und (x1, . . . , xn)T .

Also ergeben sich die beiden Bedingungen:

(1) y − Cβ ⊥ (1, . . . , 1)T :

n∑

i=1

(yi − β0 − β1xi

)= 0 ⇒ y − β0 − β1x = 0

d.h. (x, y) liegt auf der Geraden y = β0 − β1x.

Page 93: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 92

(2) y − Cβ ⊥ (x1, . . . , xn)T

0 =

n∑

i=1

(yi − β0 − β1xi

)xi

(1)=

n∑

i=1

(yi − β0 − β1xi

)(xi − x)

=

n∑

i=1

(yi − β1xi

)(xi − x)

(1)=

n∑

i=1

((yi − y) − β1 (xi − x)

)(xi − x)

also

β1 =

∑(xi − x) (yi − y)∑

(xi − x)2

β1 wird auch als Regressionskoeffizient von (yi) nach (xi) bezeichnet.

Die Gerade y = β0 + β1x heißt Regressionsgerade.

x1 x2 x3 x4 x5

y1

y2y3

y4y5

β0 und β1 losen auch das Problem

n∑

i=1

(yi − β0 − β1xi

)2

= min !

Es besteht ein bemerkenswerter Zusammenhang zwischen dem Regressions- unddem Korrelationskoeffizienten

β1 = κ~x~yσy

σx

(dabei ist σ2x := 1

n (xi − x)2 die Stichprobenvarianz von ~x .

Page 94: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 93

Gehen wir zu den standardisierten Werten uber

ui :=xi − x

σx

, υi :=yi − y

σy

,

so andert sich der Korrelationskoeffizient nicht:

κu,v = κxy .

Der Regressionskoeffizient von (υi) nach (ui) stimmt mit κuυ uberein (und istsomit verschieden vom Regressionskoeffizienten von (yi) nach (xi)).

Hier ist ein Sachverhalt zu erwahnen, der auf den ersten Blick paradox klingtund der von Sir Francis Galton im 19. Jhdt. entdeckt wurde.

Wir betrachten n Paaren (xi, yi) mit positiver Korrelation κ < 1; die Streuungder (xi) sei gleich der von (yi).

Dann hat die Regressionsgerade die Steigung κ. Die “beste Vorhersage” von x−xim Sinn der kleinsten Quadrate ist also κ(x− x); wegen κ < 1 bedeuted dies eine“regression towards the mean”, ein “Zuruckgehen Richtung Mittelwert” (dieseSicht ist ubrigens die historische Wurzel des Names “Regression”). So weit, sogut.

Nun ist aber κxy = κyx, und deshalb hat auch die Regressionsgerade von x

bzgl. y wieder dieselbe Steigung < 1! Plastisch wird dies an folgendem Beispiel:Wir betrachten Paare von Vatern und Sohnen aus einer Population, xi sei dieKorpergroße des i-ten Vaters, yi die seines Sohnes. Angenommen, die obigenVoraussetzungen (positive, aber nicht perfekte Korrelation von ~x und ~y, gleicheStreung der (xi) und der (yi)) sei erfullt. Wenn wir die Korpergroße des Sohneseines uberdurchschnittlich großen Vaters vorhersagen sollen, kommen wir aufexakt dieselbe “regression towards the mean”, wie wenn wir die Korpergroßedes Vaters eines uberdurchschnittlich großen Sohnes vorhersagen.

Hubsche Konturen gewinnt der eben beschriebene Sachverhalt auch im Lichtder zweidimensionalen Normalverteilung:

U, V seien gemeinsam normalverteilt auf R2,

mit EU = EV = 0 , VarU = VarV = 1,

Cov(U, V ) := ρ ∈ (0, 1).

Die Kovarianzmatrix von (U, V ) ist also

K :=

(1 ρρ 1

).

Mit (Z1, Z2) standard-normalverteilt auf R2 gilt

L(U, V ) = L(Z1, ρZ1 +

√1 − ρ2Z2

),

denn auch(Z1, ρZ1 +

√1 − ρ2Z2

)ist zentriert normalverteilt mit Kovarianz-

matrix K.

Page 95: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 94

Die bedingte Verteilung von V gegeben U ist daher N(ρU, 1 − ρ2

), und fur die

bedingte Erwartung folgt:E[V∣∣U]

= ρU .

Genau so ist ubrigens aus Symmetriegrunden

E[U∣∣V]

= ρV .

Dazu passt das folgende Bild:

√1 + ρ

ρ

(1, 0)

Sei g die gemeinsame Verteilungsdichte von (U, V ). Aus unserer Bemerkung zurbedingten Verteilung von V gegeben U folgt: Der Schnitt von g entlang u = 1ist eine Gauß’sche Glockenkurve mit Maximum bei υ = ρ. Weil somit g(u, υ)unter der Nebenbedingung u = 1 sein Maximum bei υ = ρ annimmt, muss dieGerade u = 1 die Niveaulinie von g durch (1, ρ) im Punkt (1, ρ) beruhren.

Die Niveaulinie von g sind von der Form

(u, v)K−1

(uυ

)= r2 , (17.3)

mit

K−1 =1

1 − ρ2

(1 −ρ−ρ 1

).

Dies sind Ellipsen, deren Achsen in Richtung von Haupt- und Nebendiagonalenweisen.

Fur (u, υ) = (1, ρ) ergibt sich r = 1.

Die Achsenlangen der zugehorigen Ellipse (setze r = 1 und u = υ bzw. u = −υin (17.3)) ergeben sich als

√1 + ρ bzw.

√1 − ρ.

In der Tat sind 1 + ρ und 1 − ρ die beiden Eigenwerte von K.

Bemerkung In Verallgemeinerung unserer obigen Aussage

E[V∣∣U]

= ρU

Page 96: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 95

ergibt sich (Beweis durch Standardisieren!)

Ist (X,Y ) gemeinsam normalverteilt auf R2 mit Korrelation ρ, so ist

E[Y∣∣X]

= µy + ρσy

σx(X − µx) .

17.2 Lineares Regressionsmodell mit Weißem Rau-schen

Wir betrachten dasselbe Modell wie im vorigen Abschnitt,

Y = ~µ+ W , ~µ ∈M ,

wobei der k-dimensionale Unterraum M des Rn (genau wie im Abschnitt 17.1)

von folgender Form ist:M =

{C · β

∣∣β ∈ Rℓ}

mit einer festen n× ℓ-Matrix C.

Wieder sind die Normalgleichungen fur den Kleinst-Quadrate-Schatzer:

CTCβ = CT Y .

Wir setzen im Folgenden voraus dass C vollen Rang hat (d.h. ℓ = k). Dann gilt:

β =(CTC

)−1CT Y

=(CTC

)−1CT (Cβ + W)

= β +(CTC

)−1CT W.

Also gilt insbesondere der

Satz: Hat C vollen Rang, dann ist der Kleinst-Quadrate-Schatzer β fur β

erwartungstreu und hat die Kovarianzmatrix σ2(CTC

)−1.

Beweis:

Varβ =(CTC

)−1CT

(σ2I)C(CTC

)−1

= σ2(CTC

)−1. 2

Definition: J := 1n

1σ2C

TC heißt Informationsmatrix des linearen Regres-sionsmodells.

Es gilt:nVarβ = J−1 .

Wir klaren gleich einmal die Beziehung zwischen J und der Fisher-Informationsmatrixim normalen linearen Regressionsmodell. In diesem gilt:

L(Y) = N(C · β, σ2I

).

Page 97: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 96

Sei fβ die Dichte von N(C · β, σ2I

). Der Gradient der log-likelihood ist:

∂βlog fβ(Y) =

∂β

(− 1

σ2‖Y − Cβ‖2

)

= − 1

σ22(Y − Cβ)T (−C) =

1

σZTC .

Die Fisher-Informationsmatrix ist somit

[∂

∂βlog fβ(Y)T ∂

∂βlog fβ(Y)

]

= Eβ

[1

σ2CT ZZTC

]=

1

σ2CTC = nJ.

17.3 Normales lineares Regressionsmodell: Kon-

fidenzellipsoid fur β

Im normalen linearen Regressionsmodell

Y = Cβ + σZ

hat (wegen des Satzes aus dem vorigen Abschnitt) der KQ-Schatzer β die Ver-teilung

N(β, σ2(CTC)−1

)= N

(β, (nJ)−1

).

(Wieder setzen wir voraus, dass C vollen Rang hat.)

Also gilt fur jedes β:

(β − β)TnJ(β − β) ist χ2(ℓ)-verteilt. (17.4)

Daraus laßt sich (zumindest fur bekanntes σ2) ein Konfidenzbereich fur β ge-winnen.

Wir setzenE(J, r) :=

{z ∈ R

ℓ∣∣zTJz ≤ r2

}.

Satz: Sei γ ∈ (0, 1). Bei gegebenem σ2 ist

B(Y) := β +1√nE(J,√

qchisq(γ, ℓ))

ein Konfidenzellipsoid fur β zum Niveau γ.

Beweis:

B(Y) ∋ β ⇐⇒ √n(β − β) ∈ E

(J,√

qchisq(γ, ℓ))

⇐⇒ (β − β)TnJ(β − β) ≤ qchisq(γ, ℓ) .

Wegen (17.4) trifft dies fur jedes β mit Wahrscheinlichkeit γ zu. 2

Page 98: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 97

Das Volumen des Ellipsoids E(J, r) (und damit des Konfidenzellipsoids B(Y))hangt von der Determinante der Matrix J ab.

Satz: Das Volumen von E(J, r) ist

rℓµℓ1√

detJ,

wobei µℓ das Volumen der ℓ-dimensionalen Einheitskugel ist.

Beweis: Sei

J =

ℓ∑

j=1

λ2jeje

Tj

wobei 0 < λ21 ≤ . . . ≤ λ2

ℓ die Eigenwerte und die e1, . . . , eℓ eine entsprechendeON-Basis von Eigenvektoren sind.

Es gilt dann:

E(J, r) =

z ∈ Rℓ∣∣∣

ℓ∑

j=1

(λjz

T ej

)2 ≤ r2

.

In den zu e1, . . . , eℓ gehorigen Koordinaten (u1, . . . , uℓ) ist E(J, r) also das Bildder Einheitskugel unter der Streckung uj 7→ r

λjuj . Dieses hat Volumen

uℓrℓ 1

λ1, . . . , λℓ. 2

17.4 Lineare Regression mit Kontrollvariablen

Wir betrachten folgendes Modell:

Yx = µ(x) + Rauschen

mit µ(x) =∑ℓ

j=1 βjfj(x).

Die f1, . . . , fℓ sind dabei vorgegebene Funktionen von einem kompakten K(⊆R

d) nach R; x ∈ K bezeichnet man als Kontrollvariable, die Komponentenx1, . . . , xd von x auch als Faktoren.

Fur x1, . . . , xn ∈ K ist dann die Systemmatrix C unseres linearen Regressions-modells gegeben durch

C =

fT (x1)

...fT (xn)

,

mit fT (x) := (f1(x), . . . , fℓ(x).

Die Koordinaten µi der systematischen Komponente ~µ sind dann von der Form

µi =ℓ∑

j=1

βjfj(xi)

wobei xi der Wert der Kontrollvariablen bei der i-ten Beobachtung ist.

Altbekannte Beispiele fugen sich in diesen Rahmen:

Page 99: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 17. LINEARE REGRESSION 98

Beispiel 1. Gewohnliche Varianzanalyse

K = {1, . . . , k}

µj = β0 + βj = β0 +

k∑

p=1

βp1{p}(j), j ∈ K,

l = k + 1 .

Beispiel 2. Additives Modell mit k Behandlungen und m Blocken:

K = {1, . . . , k} × {1, . . . ,m}x = (u, υ) ∈ K

µ ((u, υ)) = β0 + β1u + β2υ = β0 +

k∑

p=1

β1p1{p}(u) +

m∑

q=1

β2q1{q}(υ)

l = k +m+ 1 .

Beispiel 3. Zwei-Level-Faktorexperimente

K = {−1, 1}d , x = (x1, . . . , xd)

µ(x) = β0 + β1x1 + . . .+ βdxd + β12x1x2 + . . .+ β1...dx1x2 . . . xd

l = 2d .

Beispiel 4. Polynomiale Regression

K(⊆ R) ist ein Intervall.

µ(x) =

ℓ−1∑

j=0

βjxj .

Page 100: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

Kapitel 18

Versuchsplane

18.1 Ein Beispiel

Wir betrachten ein Wageexperiment.

Die Aufgabe ist: Bestimme mit einer Federwaage die Gewichte von 3 Objektenmit 4 Messungen (wobei das Gewicht der Schale unbekannt ist).

Modell:Y = β0+ + β1x1 + β2x2 + β3x3 +W

wobei β0 das Gewicht der Schale und βr das Gewicht des r-ten Objektes ist..

x = (x1, x2, x3) ∈ {0, 1}3 =: K

xr = 1 bedeutet, dass sich das r-te Objekt auf der Waage befindet.

Ein naiver Versuchsplan ist

x1 = (1, 0, 0)x2 = (0, 1, 0)x3 = (0, 0, 1)x4 = (0, 0, 0)

Die vierte Messung dient also zum Messen des Gewichtes der Waage. DiesesDesign liefert (Ubung)

β0 = Y4

βr = Yr − Y4 , r = 1, 2, 3 .

Ein zweiter, etwas subtilerer Versuchsplan ist

x1 = (1, 0, 0)x2 = (0, 1, 0)x3 = (0, 0, 1)x4 = (1, 1, 1)

99

Page 101: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 100

Dieser hat den Vorteil, dass auch bei der 4. Wagung Information uber die Ge-wichte der Objekte gewonnen wird.

Der zweite Plan liefert (Ubung)

β0 =1

2(Y1 + Y2 + Y3 − Y4)

β1 =1

2(Y1 − Y2 − Y3 + Y4)

β2 =1

2(−Y1 + Y2 − Y3 + Y4)

β3 =1

2(−Y1 − Y2 + Y3 + Y4)

Damit ergeben sich folgende Eintragungen fur Var β:

Var β0 Var β1 Cov(β0, β1) Cov(β1, β2)1. Design σ2 2σ2 −σ2 σ2

2. Design σ2 σ2 −σ2/2 0

18.2 Zwei Schatzprobleme

Wir bleiben beim Modell des Abschnitts 17.4. Die Funktionen f1, . . . , fℓ : K →R seien vorgegeben,

µ(x) :=

ℓ∑

j=1

βjfj(x) = fT (x)β , x ∈ K .

Fur x1, . . . , xn ∈ K sei

Yi := µ(xi) +Wi , mit (W1, . . . ,Wn) weißes Rauschen mit Varianz σ2.

Frage 1. Wie gut laßt sich β = (β1, . . . , βℓ) aus den Beobachtungen Y1, . . . , Yn

schatzen?

Zur Erinnerung: Die Systemmatrix unseres Modells ist

C =

fT (x1)

...fT (xn)

.

Damit ist CTC =∑n

i=1 f(xi)fT (xi), und die Informationsmatrix ist

J =1

σ2

1

n

n∑

i=1

f(xi)fT (xi) .

Die Kovarianzmatrix des Kleinst-Quadrate-Schatzers β ist

Varβ =1

nJ−1 .

Page 102: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 101

Ein Maß fur die Große von J ist seine Determinante det J . Fur normales weißesRauschen ist das Volumen des Konfidenzellipsoids fur β invers proportional zu√

detJ (vgl. Abschnitt 17.3). Ein “kleines” J ergibt sich, wenn die Spaltenvek-toren c1, . . . , cℓ von C allesamt klein sind, oder wenn sie “fast linear abhangig”sind.

Frage 2. Wie gut lasst sich µ(x) aus den Beobachtungen Y1, . . . , Yn schatzen?(Dabei fassen wir ein bestimmtes x ∈ K ins Auge).

µ(x) =∑ℓ

j=1 fj(x)βj ist ein lineares Funktional von β; sein Kleinst-Quadrate-Schatzer ist

µ(x) :=

ℓ∑

j=1

fj(x)βj = fT (x)β .

Dessen Varianz ist

Var µ(x) =1

nfT (x)J−1f(x) .

18.3 Optimale Versuchsplane

Wir betrachten in dem im Abschnitt 17.4 definierten Modell die folgende Situa-tion:

Wir haben n Messungen frei. An welchen Stellen x1, . . . , xn sollten wir messen,damit wir

(i) den Parametervektor β

(ii) die systematische Komponente µ(x) gleichmaßig uber alle x ∈ K

moglichst gut schatzen konnen?

Im Sinn des im vorigen Abschnitt Gesagten lauft dies auf zwei Optimierungs-probleme hinaus:

(D) finde x1, . . . , xn so, dass√

detJ maximal wird,

(G) finde x1, . . . , xn so, dass supx∈K fT (x)J−1fT (x) minimal wird.

Weil J offensichtlich nicht von der Reihenfolge der xi abhangt, ist dies eine Fragean die empirische Verteilung ξ der x1, . . . , xn.

Im Allgemeinen haben (D) und (G) nicht diesselbe Losung.

Beispiel: (vgl. J. Kiefer, Optimum experimental designs, J. Royal Stat. Soc.Ser. B, 21 (1959), 272-304), abgedruckt und kommentiert in: Breakthroughs inStatistics, Bd. 1 (S. Kotz, N.L. Johnson (eds), Springer 1992).

Quadratische Regression auf [−1, 1], n := 4:

Page 103: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 102

D-optimal ist{±1,± 1√

2

}

G-optimal ist{±1,± 1√

3

}.

Wie wir im nachsten Abschnitt zeigen werden, fuhren die beiden Probleme (D)und (G) in der Asymptotik n→ ∞ auf dieselben Losungen.

18.4 Zur Aquivalenz von D- und G-Optimalitat

Wieder sind wir im Szenario der vorigen Abschnitte. Jedes W -Maß ξ auf Kfassen wir als einen asymptotischen Versuchsplan (Design) auf.

Die Matrix

J(ξ) :=1

σ2

K

f(x)fT (x)ξ(dx)

heißt Informationsmatrix zum Design ξ.

Wir betrachten zwei Optimierungsprobleme:

(D) Finde ξ so, dass detJ(ξ) maximal wird.

(G) Finde ξ so, dass supx∈K f(x)TJ(ξ)f(x) minimal wird.

Satz (Aquivalenztheorem von Kiefer)1

Die Funktionen f1, . . . , fℓ seien linear unabhangig. Dann gilt: Ein Design ξ istD-optimal genau dann, wenn es G-optimal ist.

Der Rest des Abschnittes ist dem Beweis des Aquivalenztheorems gewidmet.

Wir setzen

M := Menge der ℓ× ℓ-Matritzen

M+ :={M ∈ M

∣∣M regular}

S :={M ∈ M

∣∣M symmetrisch}

S+ :={M ∈ S

∣∣M positiv definiert}

J :={J (ξ)

∣∣ξ W − Maß auf K}

J+ := J ∩ M+ .

Wir betrachten zwei Abbildungen auf M :

Ψ(M) := − log detM

Φ(M) :=

{supx∈K f(x)TM−1f(x) falls M regular∞ falls M singular

Unsere beiden Optimierungsprobleme lauten

1formuliert in: J. Kiefer (1959), loco citato, Beweis erschienen in J. Kiefer, J. Wolfowitz,The equivalence of two extremum problems, Canad. J. Math 12 (1980), 363-366

Page 104: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 103

(D) maximiere Ψ auf J

(G) minimiere Φ auf J

Die Menge Π(K) der W -Maße auf K, ausgestattet mit der von den Abbildungenπ 7→

∫g(x)π(dx), g : K → R stetig, erzeugten Topologie, ist kompakt (siehe etwa

Billingsley, Convergence of probability measures).

Die Abbildung π → J(π) ist stetig von Π(K) nach J. Außerdem sind Ψ undΦ stetig von J nach R. Damit ist die Existenz von Losungen fur (D) und (G)schon mal gesichert.

Wir analysieren jetzt die Abbildung

Ψ : M+ → R

M 7→ − log∣∣detM

∣∣ .

Lemma 1: Fur alleM ∈ M und alle V (6= 0) ∈ M gilt fur die Richtungsableitung∂Ψ∂V (M)

a) ∂Ψ∂V (M) =

⟨−M−1, V

b) ∂2Ψ∂V 2 (M) =

⟨M−1VM−1, V

Dabei setzen wir fur A,B ∈ M:

〈A,B〉 :=ℓ∑

i,j=1

aijbij = tr ABT

wobei

tr H :=

ℓ∑

i=1

hii

die sogenannte Spur (trace) der Matrix H bezeichnet.

Beweis von Lemma 1:

a) Sei M = (mij)1≤i,j≤ℓ. Wir zeigen

grad Ψ(M) =

(∂

∂mijΨ(M)

)

1≤i,j≤ℓ

= −M−1 .

In der Tat: Die Determinantenentwicklungsformel ergibt mit Entwicklungnach der j-ten Spalte

detM =ℓ∑

i=1

(−1)i+jmij detMij .

(Dabei entsteht die Matrix Mij aus M durch Streichen der i-ten Zeile undder j-ten Spalte.)

Page 105: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 104

Es folgt∂

∂mijdetM = (−1)i+j detMij =: mij .

Aus der Linearen Algebra kennt man folgende Darstellung von M−1 :

M−1 =1

detM(mij) .

Die Kombination der beiden letzten Formeln ergibt

(M−1)ij =1

detM

∂mijdetM =

∂mijlog∣∣detM

∣∣ .

b) Es reicht zu zeigen:

limε→∞

1

ε

((M + εV )−1 −M−1

)= −M−1VM−1 .

Dies folgt wegen:

(M + εV )−1 −M−1 = (M + εMM−1V )−1 −M−1

=(M(I + εM−1V

))−1 −M−1 =(I + εM−1V

)−1M−1 −M−1

=(I − εM−1V

)M−1 −M−1 + o(ε) = −εM−1VM−1 + o(ε) 2

Lemma 2. Fur A,B ∈ M gilt:

tr(AB) = tr(BA) .

Beweis: tr(AB) =∑

i

∑j aijbij =

∑j

∑i bijaij = tr(BA) . 2

Lemma 3. Ist M ∈ M symmetrisch und positiv definit, und V (6= 0) ∈ M, soist

∂2

∂V 2Ψ(M) > 0 .

Beweis: Es sei M−1 = AA, mit A symmetrisch und positiv definit. WegenLemma 1b) und Lemma 2 gilt:

∂2

∂V 2Ψ(M) = tr

(M−1VM−1V T

)

= tr(AV AATV TAT

)> 0 . 2

Als nachstes analysieren wir die Einschrankung von Ψ auf J+.

Es gilt: J ⊆ S und S ∩ M+ = S+.

Also istJ+ = J ∩ S+.

Weil sowohl J als auch S+ konvexe Teilmengen von M sind, ist auch J+ konvex.

Aus Lemma 3 folgt nun:

Lemma 4. Ψ ist strikt konvex auf J+ (und konvex auf J).

Als nachstes charakterisieren wir das globale Minimum von Ψ auf J als diejenigeInformationsmatrix, von der aus es uberallhin nach J aufwarts geht:

Lemma 5. Folgende Aussagen sind aquivalent:

Page 106: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 105

a) J ist globale Minimalstelle von Ψ∣∣J;

b) 〈gradΨ(J), H − J〉 ≥ 0 ∀H ∈ J;

c) 〈gradΨ(J), 1σ2 f(x)f(x)T − J〉 ≥ 0 ∀x ∈ K .

Beweis:

a) ⇒ b) : 〈 grad Ψ(J), H − J〉= limε→0 ε

−1(

Ψ(J + ε(H − (J))︸ ︷︷ ︸∈J, weil J konvex

−Ψ(J))

≥ 0 .

b) ⇒ a) Fur jedes H ∈ J ist

g : α (∈ [0, 1]) −→ Ψ (J + α(H − J))

konvex und differenzierbar in α = 0.

Also:

Ψ(H) − Ψ(J) = g(1) − g(0) ≥ g′(0)

= 〈 grad Ψ(J), H − J〉 .

b) ⇒ c) : klar

c) ⇒ b) : Fur alle H ∈ J der Form

H =

n∑

i=1

γi1

σ2f(xi)f

T (xi) , n ∈ N , γi ≤ 0 ,∑

γi = 1 (18.1)

gilt〈 grad Ψ(J), H − J〉 ≥ 0

wegen c) und aus Linearitatsgrunden. Weil die Menge aller H der Form(18.1) dicht in J ist, ubertragt sich die Ungleichung auf alle H ∈ J. 2

Bemerkung: Fur J ∈ J+ und x ∈ K ist

⟨grad Ψ(J) ,

1

σ2f(x)f(x)T − J

=

⟨−J−1,

1

σ2f(x)f(x)T

⟩+⟨J−1, J

= − 1

σ2tr(J−1f(x)f(x)T

)+ tr

(J−1J

)

= − 1

σ2tr(fT (x)J−1f(x)︸ ︷︷ ︸

∈R

)+ tr (I)

= − 1

σ2fT (x)J−1f(x) + ℓ .

Page 107: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 106

Korollar aus der Bemerkung und Lemma 5:

Sei J ∈ J+. Dann gilt:

J ist globale Minimalstelle von Ψ∣∣J ⇐⇒

⇐⇒ 1

σ2fT (x)J−1f(x) ≤ ℓ ∀x ∈ K

⇐⇒ Φ(J) ≤ σ2ℓ .

Finale des Beweises des Aquivalenztheorems:

Sei ξ D-optimal und η G-optimal. Dann folgt aus dem vorigen Korollar:

Φ (J(η)) ≤ Φ (J(ξ)) ≤ σ2ℓ .

Eine nochmalige Anwendung des Korollars impliziert, dass η auch D-optimalist. Also sind sowohl J(ξ) als auch J(η) Minimalstellen von Ψ auf J+. Aus derstrikten Konvexitat von Ψ auf J+ folgt:

J(η) = J(ξ) .

Damit ist ξ auch G-optimal. 2

18.5 Polynomiale Regression auf [−1, 1]

K = [−1, 1] , f0(x) ≡ 1 , f1(x) ≡ x , . . . fℓ−1(x) ≡ xℓ−1 , ξ :=1

n

n∑

i=1

δxi

C (x1, . . . , xn) :=

1 x1 . . . xℓ−11

...1 xn . . . xℓ−1

n

, J(ξ) =

1

σ2nCTC .

Beispiel: ℓ = 3

Behauptung: ξ = 13 (δ−1 + δ0 + δ1) ist D-optimal

Begrundung: Nach dem Korollar aus dem vorigen Abschnitt reicht es zuzeigen:

f(x)TJ(ξ)−1f(x) ≤ σ2 · ℓ (18.2)

Dabei ist:

J(ξ) =1

σ2

1

3

1−11

(1,−1, 1) +

100

(1, 0, 0) +

111

(1, 1, 1)

=1

σ2

1

3

3 0 20 2 02 0 2

.

Page 108: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 107

In der Tat gilt:

1

σ2

(1, x, x2

)3σ2

3 0 20 2 02 0 2

−1

1xx2

=3

4

(4 − 6x2

(1 − x2

))≤ 3 fur x ∈ [−1, 1] .

Nach dem Aquivalenztheorem ist ξ auch G-optimal. Es ist also vorteilhaft, je-weils ein Drittel der Messungen bei −1, 0 und 1 durchzufuhren. Will man partoutdie Messungen gleichmaßig auf vier Stellen x1, . . . , x4 aufteilen, dann klafft, wiewir im vorletzten Abschnitt festgestellt haben, eine Lucke zwischen D- und G-Optimalitat.

Wir betrachten nun den Fall eines allgemeinen ℓ:

Satz Das D-optimale Design ist gegeben durch

ξ =1

ℓ∑

i=1

δx⋆i,

wobei x⋆1, . . . , x

⋆ℓ die Nullstellen des Polynoms

(1 − x2

) dℓ

dxℓ

(x2 − 1

)ℓ−1=(1 − x2

) d

dxPℓ−1(x)

sind, mit

Pk(x) :=dk

dxk

(x2 − 1

)k.

P0, P1, . . . sind (bis auf Normierungskonstante) gleich den sogenannten Legendre-Polynomen Pn, die ein vollstandiges Orthonormalsystem in L2 ([−1, 1]) bilden.

Beweis: siehe S. Karlin, W.J. Studden, Optimum Experimental Designs, Ann.Math. Statist. 37 (1966), 783-815.

Bemerkung: Die x⋆i sind dichter in der Nahe von ±1 als in der Nahe von 0.

Skizze des Beweises: Man zeigt zuerst, dass man sich auf Designs ξ der Formξ = 1

∑ℓi=1 δxj

zuruckziehen kann.

Dann bleibt das Problem der Bestimmung der Maximalstelle von

i<j

∣∣∣xi − xj

∣∣∣ , −1 ≤ x1, . . . , xℓ ≤ 1 .

(Beachte:∏

i<j

∣∣∣xi−xj

∣∣∣ ist die Determinante der Van der Monde Matrix C(x1, . . . , xℓ).)

Unter den xj sind in jedem Fall die Punkte -1 und +1 (sonst wird was ver-schenkt!).

Also geht es um die Maximierung von

g(x1, . . . , xℓ−2) :=

ℓ−2∏

j=1

[(xj − 1)(xj + 1)]∏

1≤j<k≤ℓ−2

∣∣xj − xk

∣∣ .

Page 109: STATISTIK - math.uni-frankfurt.deismi/wakolbinger/lecturenotes/Statistik0102a.pdf · Kapitel 1 Kann denn das Zufall sein? 1.1 Fishers exakter Test Wir beginnen mit einem Beispiel,

KAPITEL 18. VERSUCHSPLANE 108

Man pruft leicht nach:

grad g(x1, . . . , xℓ−2) = 0

⇐⇒ ∀j :∑

k 6=j

1

xj − xk+

1

xj − 1+

1

xj + 1= 0 . (18.3)

Definieren wir das Polynom

ϕ(x) =

ℓ−2∏

j=1

(x− xj),

so wird die rechte Seite von (18.3) zu

∀j :1

2

ϕ′′(xj)

ϕ′(xj)+

1

xj − 1+

1

xj + 1= 0 .

Dies ist gleichbedeutend mit

∀j :(1 − x2

j

)ϕ′′(xj) − 4xjϕ

′(xj) = 0 .

Also ist x 7→ (1 − x2)ϕ′′(x) − 4xϕ′(x) ein Polynom vom Grad ℓ − 2, welchesdieselben Nullstellen wie ϕ hat. Somit gilt:

(1 − x2)ϕ′′(x) − 4xϕ′(x) + γϕ(x) = 0 fur ein γ ∈ R .

Nach G. Szego, Orthogonal Polynomials, AMS Coll. Publ. 1939, Thm 4.2.2 folgt:

ϕ ist bis auf eine Konstante das Jacobi-Polynom P(1,1)ℓ−2

(Die Jacobi-Polynome P(α,β)n (x), x ∈ [−1, 1], sind orthogonal bzgl. der Gewichts-

funktion w(x) := (1 − x)α(1 + x)β , d.h.∫ 1

−1P

(α,β)m (x)P

(α,β)n (x)w(x)dx = δmn).

Nach Szego, (4.7.27) zusammen mit (4.7.1) und (4.7.2) folgt

P(1,1)ℓ−2 ist bis auf eine Konstante gleich der Ableitung des Legendre PolynomsPℓ−1. (Die Legendre-Polynome Pn, x ∈ [−1, 1], sind orthogonal bzgl. der Ge-wichtsfunktion 1).

Die Behauptung ergibt sich nun mit der Formel von Rodrigues (Abramowitz-Stegun, Handbook of Mathematical Functions, p.334)

Pn(x) =1

2nn!

dn(x2 − 1)n

dxn.