NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für...

90

Transcript of NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für...

Page 1: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Nichtparametrische Statistik

Prof. Dr. Alois KneipStatistische AbteilungInstitut für Gesellschafts- und WirtschaftswissenschaftenUniversität Bonn

Unter Mitarbeit von Dr. Jürgen Arns,

Inhalt:

1. Einführung

2. Die empirische Verteilungsfunktion, Ordnungsstatistiken undnichtparametrische Tests

3. Nichtparametrische Dichteschätzung

4. Nichtparametrische Regressionsanalyse

5. Multivariate Kurvenschätzung: Nichtparametrische und se-miparametrische Methoden

Nichtparametrisch@LS-Kneip 01

Page 2: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Literatur:

• Bowman, A.W. und Azzalin, A. (1997): Applied SmoothingTechniques for Data Analysis; Clarendon Press

• Büning, H. und Trenkler, G. (1994): Nichtparametrische sta-tistische Methoden; de Gruyter

• Wand, M.P. and Jones, M.C. (1995): Kernel Smoothing, Chap-man and Hall

• Härdle, W. (1990): Applied Nonparametric Regression; Cam-bridge University Press

• Silverman, B.W. (1986): Density Estimation for Statisticsand Data Analysis, Chapman and Hall

Nichtparametrisch@LS-Kneip 02

Page 3: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1 Einführung

Parametrische Statistik: Für gegebene Daten wird daszugrundeliegende stochastische Modell bis auf einige unbekann-te Parameter vollständig speziziert ⇒ Parameterschätzung,Inferenz für die Modellparameter (Statistik II; Lineares Modell)

Nichtparametrische Statistik: Es wird kein parametri-sches Modell speziziert; die statistische Analyse beruht auf qua-litativenModellannahmen (z.B. Stetigkeit oder Symmetrie einerVerteilung.

Nichtparametrische Kurvenschätzung: Die interes-sierenden Objekte sind Kurven (Funktionen, Flächen). Die wich-tigsten Anwendungen sind die Schätzung von Regressions- undDichtefunktionen.

Nichtparametrisch@LS-Kneip 13

Page 4: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Nichtparametrische RegressionRegressionsmodell:

Yi = m(Xi) + εi

• m(Xi) = E(Yi|X = Xi) - Regressionsfunktion

• ε1, ε2, . . . i.i.d., E(εi) = 0, var(εi) = σ2

• Lineare Einfachregression: m(x) ist eine Gerade

m(X) = β0 + β1X

⇒ Die Struktur der Regressionsfunktion ist bis auf zwei un-bekannte Parameter β0, β1 vollständig festgelegt⇒ Schätzung der Regressionsfunktion wird zurückgeführtauf die Schätzung der Parameter β0, β1

Problem:Annahme eines linearen Zusammenhangs korrekt?

• Nichtparametrische Regression: Es wird keine spezielle funk-tionale Form der Regressionsfunktion angenommen.Qualitative Modellannahme: m hinreichend glatt⇒ Funktionale Form der Regressionsfunktion wird aus denDaten bestimmt!

Nichtparametrisch@LS-Kneip 14

Page 5: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel: Gesamtausgaben in Abhängigkeit vom AlterDie folgenden Daten stammen aus einer Stichprobe von briti-schen Haushalten aus dem Jahr 1980. Die Beobachtungen bein-halten die Gesamtausgaben für alle Güter und Dienstleistungenvon allen Haushalten mit einem gegeben Alter (Alter ≡ Alterdes Haushaltsvorstands).

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 15

Page 6: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Anpassung einer Ausgleichsgerade:

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrische Regression (Glättende Splines):

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 16

Page 7: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Nichtparametrische Dichteschätzung

Beispiel: Analyse von Einkommnensdaten

• Quelle: U.K. Family Expenditure Survey (FES) 1968-1995

• Ungefähr 7000 britische Haushalte pro Jahr

• Für jeden Haushalt: Einkommen aus verschiedenen Quellen,Ausgaben für verschiedene Güter, Alter, Familiengröÿe, Be-rufe, etc.

Nominale Nettoeinkommen im Jahr 1976 (136 von 7041 Haus-halten):66.49 14.40 43.54 36.50 18.34 117.23 31.10 26.78 79.39 58.3672.88 40.22 45.87 70.99 31.28 54.58 40.72 17.87 26.09 62.87 90.525.92 99.39 27.72 50.24 17.62 53.10 50.47 77.94 87.60 34.85 70.5357.46 60.30 15.52 23.20 26.56 66.91 54.17 116.41 43.64 62.05 46.5786.96 46.12 50.13 22.97 89.37 71.37 107.94 45.21 43.26 34.39 17.17115.67 19.85 68.32 56.18 74.29 33.44 18.64 24.11 18.51 48.27 14.1517.87 49.00 34.90 16.37 87.58 103.58 68.48 51.21 33.52 71.21 55.2140.56 72.33 29.69 25.07 17.52 76.62 37.29 50.81 73.07 15.52 98.7390.81 15.70 45.44 68.14 18.76 80.38 61.50 41.39 76.96 87.07 78.0329.82 96.03 92.10 14.09 35.29 48.17 75.71 110.77 93.50 55.92 14.15144.97 36.54 52.92 98.42 55.98 14.15 23.90 115.05 22.23 37.7617.45 29.11 48.71 36.86 21.87 61.03 24.04 16.43 42.34 48.48 16.8834.74 29.42 121.75 113.76 97.20 86.62

Nichtparametrisch@LS-Kneip 17

Page 8: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Standardansatz: Annahme einer Normalverteilung (= parame-trisches Modell mit zwei unbekannten Parametern: Erwartungs-wert und Varianz)

In komplexeren Situationen: Charakterisierung von Vertei-lungen durch statistische Maÿzahlen:

• Mittelwert, Median

• Varianz, Quartilsabstand

• Gini Koezient, Quantile

Maÿzahlen geben immer nur Teilaspekte von Verteilungseigen-schaften wieder.

Detailliertere Informationen: Dichteschätzung

Histogramm (FES Einkommensdaten, 1976):

0 13 26 39 52 65 78 91 104 117 130 143 156 169 182 195income

0

200

400

600

800

1000

Nichtparametrisch@LS-Kneip 18

Page 9: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Verfeinertes Histogramm und Kernschätzer (FES, 1976)

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

0.000

0.004

0.008

0.012

Kernschätzer:

• Denitionsgleichung:

ft(x) =1

nh

i

K

(x−Xit

h

)

• ft schätzt die wahre Dichte ft der Einkommensverteilung imJahre t = 1976

Nichtparametrisch@LS-Kneip 19

Page 10: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Geschätzte relative Einkommensdichten (Kernschätzer)1968-1988

0.5 1.0 1.5 2.0 2.5

0.0

0.2

0.4

0.6

0.8

1.0

Multivariate Kernschätzung der gemeinsamen Dichte von Ein-kommen und Alter im Jahr 1984:

0.5

1

1.5

2

20

40

60

80

100

00.0

10.0

20.0

3

Nichtparametrisch@LS-Kneip 110

Page 11: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1.1 Charakterisierung von eindimensionalen Ver-teilungen

Wichtige Grundbegrie

Man betrachte eine eindimensionale Zufallsvariable X.z.B.: Haushaltseinkommen in Deutschland, Renditen auf dem ameri-kanischen Aktienmarkt, Körpergröÿe japanischer Frauen, ...

Verteilungsfunktion F von X:F (x) = P (X ≤ x) für jedes x ∈ R

• diskrete Zufallsvariable: X nimmt nur abzählbar viele Wertex1, x2, x3, . . . anP (X = xi) = fi, i = 1, 2, . . . ,

F (x) =∑

xi≤x

fi

• stetige Zufallsvariable: Es existiert eine Dichtefunktion f , sodaÿF (x) =

x∫−∞

f(t)dt

Nichtparametrisch@LS-Kneip 111

Page 12: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Stetige Zufallsvariablen=50

00

.20

.4H

isto

gra

mm

n=500

00

.20

.4H

isto

gra

mm

n=5000

00

.20

.4H

isto

gra

mm

Model

00

.20

.4D

ich

te

Nichtparametrisch@LS-Kneip 112

Page 13: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Wahrscheinlichkeitsdichte:f(x) 0; Z +11 f(x)dx = 1:Verteilungsfunktion:F(x) monoton wachsendF(1) = 0; F(+1) = 1:

Dichtefunktion

-3 -2 -1 0 1 2 3

x

0.2

0.4

0.6

0.8

1f(

x)

f(x)

bF(b)

Verteilungsfunktion

-3 -2 -1 0 1 2 3

x

00.2

0.4

0.6

0.8

1F

(x)

F(x)

b

F(b)

Nichtparametrisch@LS-Kneip 113

Page 14: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Eigenschaften der Verteilungsfunktion:

• 0 ≤ F (x) ≤ 1 für alle x ∈ IR; F ist eine monoton wachsendeFunktion

• limx→−∞ F (x) = 0

• limx→∞ F (x) = 1

• Für x0 < x1 gilt P (x0 < X ≤ x1) = F (x1)− F (x0)

• F ist immer rechtsstetig, d.h. für alle x giltlimh→0,h>0 F (x + h) = F (x)

• Für stetige Zufallsvariablen mit Dichtefunktion f giltf(x) = F ′(x)

Eigenschaften von Dichtefunktionen:

• f(x) ≥ 0 für alle x ∈ IR

• ∫∞−∞ f(x)dx = 1

Man beachte: Für stetige Zufallsvariablen gilt P (X = x) = 0 füralle x ∈ IR und P (X ≤ x) = P (X < x) = F (x).

Sowohl Verteilungsfunktionen als auch Dichtefunktionen sind wich-tige Werkzeuge der statistischen Inferenz. Dichten sind jedochwesentlich leichter interpretierbar und lassen direkte Rückschlüs-se auf die Struktur der zugrunde liegenden Verteilung zu.

Nichtparametrisch@LS-Kneip 114

Page 15: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Symmetrische Verteilung:Eine Zufallsvariable X heiÿt symmetrisch verteilt um den Punktµ, wenn P (X ≤ µ− x) = P (X ≥ µ + x) für alle reellen Zahlen x

gilt.Beispiele: Körpergröÿe, Intelligenzquotient, logarithmierte Kon-sumausgaben, etc.

-10 -5 5 10

0.1

0.2

0.3

0.4

Linkssteile (= rechtsschiefe) Verteilung

1 2 3 4 5 6 7

0.05

0.1

0.15

0.2

0.25

0.3

0.35

Beispiele: Einkommen, Vermögen, Konsumausgaben

Nichtparametrisch@LS-Kneip 115

Page 16: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Rechtssteile (= linksschiefe) Verteilung

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

0.5

Beispiel: Sterbealter

Bimodale (bzw. multimodale) Verteilungen

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

0.5

Eine Verteilung heiÿt bimodal (bzw. multimodal), falls die zuge-hörige Dichte zwei (bzw. mehrere) Gipfel besitzt. Multimodalitätdeutet i.Allg. auf die Existenz mehrerer in sich homogener aberuntereinander heterogener Teilpopulationen hin (Mischungsver-teilungen).

Nichtparametrisch@LS-Kneip 116

Page 17: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Wichtige Parameter einer stetigen Z.v. X

• Mittelwert (Erwartungswert)

µ = E(X) =∫ ∞

−∞xf(x)dx

• Median (streng monoton wachsendes F ):Der Median ist derjenige Wert µmed mit F (µmed) = 0.5

• Varianz

σ2 = V ar(X) = E((X − µ)2

)= E(X2)− µ2

• Erwartungswert einer transformierten Zufallsvariablen X →g(X)

E(g(X)) =∫ ∞

−∞g(x)f(x)dx

Anmerkung: Die Existenz von Mittelwert und Varianz stellt Be-dingungen an die Struktur von f . Für einige Verteilungen sinddaher Mittelwert und Varianz nicht deniert.Beispiel: Die Cauchy Verteilung (mit Parametern u, s)

f(x) =1π· s

s2 + (x− u)2

besitzt weder Erwartungswert noch Varianz; aber: µmed = u.Lageregeln (µ, µmed existieren):

• symmetrische Verteilung: µ = µmed

• Linkssteile Verteilung: µ > µmed

• Rechtssteile Verteilung: µ < µmed

Nichtparametrisch@LS-Kneip 117

Page 18: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1.2 Wichtige Verteilungsmodelle der parame-trischen Statistik

Die Gleichverteilung (Rechteckverteilung)Nimmt eine Zufallsvariable nur in einem Intervall [a, b] Wertean und wird keiner der Werte oder Teilintervalle bevorzugt, soist X gleichverteilt (X ∼ U(a, b)). Die Dichte ist dann gegebendurch

f(x) =1

b− afür a ≤ x ≤ b

und f(x) = 0 für x 6∈ [a, b].

-4 -2 2 4

0.025

0.05

0.075

0.1

0.125

0.15

• E(X) = (a + b)/2

• V ar(X) = 112 (b− a)2

Wichtige Sonderfälle sind a = 0, b = 1 und a = 0, b = θ (θunbekannter Parameter).

Nichtparametrisch@LS-Kneip 118

Page 19: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die Normalverteilung N(µ, σ2)

Viele statistische Verfahren basieren auf der Annahme, daÿ eineZ.v. X normalverteilt ist, d.h. X ∼ N(µ, σ2)

Wahrscheinlichkeitsdichte:

f(x) = 1σ√

2πe−(x−µ)2/2σ2

für −∞ < x < ∞, σ > 0

• E(X) = µ, V ar(X) = σ2

Standardisierte Normalverteilung N(0, 1)

• X ∼ N(µ, σ2) ⇒ Z = X−µσ ∼ N(0, 1)

• Standardisierte Dichtefunktion und Verteilungsfunktion

φ(x) =1√2π

e−x2/2, Φ(z) =∫ z

−∞φ(x)dx

• N(0, 1) ist tabelliert und

P (X ≤ x) = P (X − µ

σ≤ x− µ

σ) = P (Z ≤ x− µ

σ)

Nichtparametrisch@LS-Kneip 119

Page 20: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Dichtefunktion (Normalverteilung)

-3 -2 -1 0 1 2 3 4 5 6x

0.20.4

0.60.8

11.2

f(x)

N(0,1)

N(2,1/3)

N(2,1)

N(2,2)

Dichtefunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.1

0.20.3

0.4

f(x)

Verteilungsfunktion (Standard-Normalverteilung N(0,1))

-4 -3 -2 -1 0 1 2 3 4x

00.2

50.5

0.75

1

F(x)

Nichtparametrisch@LS-Kneip 120

Page 21: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die χ2-VerteilungSind X1, . . . , Xn unabhängige, standardnormalverteilte Zufalls-variablen, so folgt X = X2

1 + · · ·+ X2n einer χ2-Verteilung mit n

Freiheitsgraden (X ∼ χ2n),

f(x) =1

2n/2Γ(n/2)xn/2−1e−x/2, x ≥ 0

Die Gammafunktion ist deniert durch Γ(u) =∫∞0

zu−1e−zdz

2 4 6 8 10

0.1

0.2

0.3

0.4

0.5

• µ = E(X) = n

• V ar(X) = 2n

Anwendung:Einfache Zufallsstichprobe X1, . . . , Xn, Xi ∼ N(µ, σ2)⇒ (n−1)S2

σ2 ∼ χ2n−1 für S2 = 1

n−1

∑i(Xi − X)2.

Nichtparametrisch@LS-Kneip 121

Page 22: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die t-VerteilungX und Y seien unabhängige Zufallsvariablen mit X ∼ N(0, 1)und Y ∼ χ2

n. Die Variable T = X/√

Y/n hat eine t-Verteilungmit n Freiheitsgraden (T ∼ tn),

f(x) =Γ((n + 1)/2)√

πnΓ(n/2)(1 +

x2

n)−(n+1)/2

-4 -2 2 4

0.05

0.1

0.15

0.2

0.25

0.3

0.35

• µ = E(X) = 0 für n > 1

• V ar(X) = nn−2 für n > 2

Anwendung:Einfache Zufallsstichprobe X1, . . . , Xn, Xi ∼ N(µ, σ2)⇒

√n(X−µ)

S ∼ tn−1 für S2 = 1n−1

∑i(Xi − X)2.

Nichtparametrisch@LS-Kneip 122

Page 23: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die F -VerteilungX und Y seien unabhängige Zufallsvariablen mit X ∼ χ2

m undY ∼ χ2

n. Die Variable F =√

X/m/√

Y/n hat eine F -Verteilungmit m und n Freiheitsgraden (F ∼ Fm,n)Anwendung: Varianzanalyse!

Die LognormalverteilungX ist lognormalverteilt mit Parametern µ und σ2 (X ∼ LN(µ, σ2)),wenn die Dichte gegeben ist durch

f(x) =1

x√

2πσ2e−(lnx−µ)2/2σ2

, x > 0

Die transformierte Zufallsvariable Y = lnX ist dann normalver-teilt mit E(Y ) = µ und V ar(Y ) = σ2.

2 4 6 8

0.1

0.2

0.3

0.4

0.5

0.6

• E(X) = eµ+σ2/2

• V ar(X) = e2µ+σ2(eσ2 − 1)

Anwendung: In der Ökonometrie häug zur Modellierung vonlinkssteilen Verteilungen (z.B. Einkommensverteilungen) ange-wandtes Modell.

Nichtparametrisch@LS-Kneip 123

Page 24: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die ExponentialverteilungX ist exponentialverteilt mit dem Parameter λ > 0 (X ∼ Ex(λ)),wenn die Dichte gegeben ist durch

f(x) = λe−λx, x ≥ 0

1 2 3 4 5

0.2

0.4

0.6

0.8

• E(X) = 1λ

• V ar(X) = 1λ2

Anwendung: Standardverteilung zur Modellierung von Wartezei-ten

Die GammaverteilungX heiÿt gammaverteilt mit den Parametern r > 0 und λ > 0(X ∼ Γ(r, λ)), falls

f(x) =λ

Γ(r)(λx)r−1e−λx, x ≥ 0

Spezialfälle: Ex(λ) = Γ(1, λ) und χ2n = Γ(n

2 , 12 ).

Nichtparametrisch@LS-Kneip 124

Page 25: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Mischungen von NormalverteilungenDie Verteilung einer Zufallsvariablen X ist eine Mischung zweierNormalverteilungen, falls sich für Parameter µ1, µ2, σ

21 , σ2

2 und0 < α < 1 die zugehörige Dichte in folgender Form darstellenlässt:

f(x) = α · 1σ1

√2π

e−(x−µ1)2/2σ2

1 + (1− α) · 1σ2

√2π

e−(x−µ2)2/2σ2

2

Solche Mischungsansätze werden z.B. häug zur Modellierungbimodaler Verteilungen verwendet.

Verallgemeinerung: Mischung von k Normalverteilungen

f(x) =k∑

i=1

αi · 1σi

√2π

e−(x−µi)2/2σ2

i

mit α1 > 0, . . . , αk > 0 und∑k

i=1 αi = 1

Für hinreichend groÿes k ist es möglich, jede beliebige stetigeDichtefunktion durch eine Mischung von k Normalverteilungenbeliebig gut zu approximieren.

Nichtparametrisch@LS-Kneip 125

Page 26: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1.3 Mehrdimensionale Verteilungen

• Ein d-dimensionaler Zufallsvektor ist ein Spaltenvektor X =(X1, . . . , Xd)T , dessen einzelne Elemente alle Zufallsvaria-blen sind.

Diskrete Zufallsvariable: X nimmt nur abzählbarviele Werte x1, x2, · · · ∈ IRd an:Wahrscheinlichkeitsfunktion: p(xi) = P (X = xi)

⇒ P (X ∈ [a1, b1]× · · · × [ad, bd]) =∑

xi∈[a1,b1]×···×[ad,bd]

p(xi)

Stetige Zufallsvariable:Dichtefunktion: f(x1, . . . , xd)

⇒P (X ∈ [a1, b1]× · · · × [ad, bd])

=

b1∫

a1

. . .

bd∫

ad

f(x1, . . . , xd)dx1 . . . dxd

Nichtparametrisch@LS-Kneip 126

Page 27: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Eigenschaften von Dichtefunktionen:• f(x1, . . . , xd) ≥ 0

•∫ ∞

−∞. . .

∫ ∞

−∞f(x1, . . . , xd)dx1 . . . dxd = 1

Anmerkung: Eine allgemeine Möglichkeit zur Darstellung vonWahrscheinlichkeiten ist wiederum die Verteilungsfunktion F :

F (a1, . . . , ad) = P (X1 ≤ a1, . . . , Xd ≤ ad)

Zur Vereinfachung der Schreibweise werden im folgenden nur ste-tige Zufallsvariablen betrachtet.

Jedes Element Xj von X besitzt eine Randverteilung(oder Marginalverteilung). Dies ist nichts anderes als dieunivariate Verteilung von Xj (ohne Berücksichtigung deranderen Variablen).

Formal:

• Verteilungsfunktion der Randverteilung von Xj :

Fj(x) = P (Xj ≤ x)

• Randdichte fj , z.B. für j = 1

f1(x1) =∫ ∞

−∞. . .

∫ ∞

−∞f(x1, x2 . . . , xd)dx2 . . . dxd

Nichtparametrisch@LS-Kneip 127

Page 28: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Exkurs: Mehrdimensionale Integrale

Die Berechnung von∫ b1

a1

∫ b2

a2

g(x, y)dxdy erfolgt in zwei Schrit-ten:

1. Berechnung der Funktion G(y) =∫ b2

a2

g(x, y)dx für jeden

Wert y

2. Berechnung von∫ b1

a1

G(y)dy

Beispiel:∫ 1

0

∫ 1

0

4xy dxdy =∫ 1

0

4y[

12x2]10

dy =

∫ 1

0

2y dy = 1

Rechenregeln:∫ b1

a1

∫ b2

a2

g(x, y)dxdy =∫ b2

a2

∫ b1

a1

g(x, y)dydx

∫ b1

a1

∫ b2

a2

g1(y)g2(x, y)dxdy =∫ b1

a1

g1(y)∫ b2

a2

g2(x, y)dxdy

Abkürzungen:∫g(x, y) dxdy =

∫ ∞

−∞

∫ ∞

−∞g(x, y)dxdy

[a1,b1]×[a2,b2]

g(x, y) dxdy =∫ b1

a1

∫ b2

a2

g(x, y)dxdy

Nichtparametrisch@LS-Kneip 128

Page 29: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Bedingte Verteilungen

Bedingte Verteilung von Xj gegebenX1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xp = xd

= Verteilung von Xj bei festgehaltenen Werten vonX1 = x1, . . . , Xj−1 = xj−1, Xj+1 = xj+1, . . . , Xd = xd

Beispiel: bedingte Dichte von X1 gegeben X2 = x2, . . . , Xd = xd:

f(x1 | x2, . . . , xd) =f(x1, x2, . . . , xd)

fX2,...,Xd(x2, . . . , xd)

wobei fX2,...,Xdgemeinsame Dichte von X2, . . . , Xd

Von zentraler Bedeutung in der Regressionsanalyse sind bedingteErwartungswerte:

Bedingter Erwartungswert von X1 für gegebene WerteX2 = x2, . . . , Xd = xd:m(x2, . . . , xd) := E(X1|X2 = x2, . . . , Xd = xd)

=∫

x1f(x1 | x2, . . . , xd)dx1

m(x2, . . . , xd) - Regressionsfunktion

Nichtparametrisch@LS-Kneip 129

Page 30: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Unabhängigkeit:

Die Zufallsvariablen X1, . . . , Xd sind voneinanderunabhängig, wenn für alle x = (x1, . . . , xd)T giltF (x1, . . . , xd) = F1(x1) · F2(x2) · . . . · Fd(xd) bzw.f(x1, . . . , xd) = f1(x1) · f2(x2) · . . . · fd(xd)

Folgerungen: Ist Xj unabhängig von Xk, so gilt

• Die Randdichte von Xj ist gleich der bedingten Dichte vonXj gegeben Xk = xk

fj(xj) = f(xj | xk) für alle xk

• Der bedingte Erwartungswert von Xj gegeben Xk = xk istgleich dem unbedingten Erwartungswert von Xj (die Regres-sionsfunktion ist eine Konstante)

E(Xj | Xk = xk) = E(Xj) für alle xk

Nichtparametrisch@LS-Kneip 130

Page 31: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel

X1 - verfügbares HaushaltseinkommenX2 - Alter des Haushaltsvorstandes

Daten: Britischer Family Expenditure Survey; Zufallstichprobevon ungefähr 7000 Haushalten im Jahr 1976

Geschätzte gemeinsame Dichte von relativem Einkom-men und Alter

0.5

1

1.5

2

20

40

60

80

100

00.0

10.0

20.0

3

Nichtparametrisch@LS-Kneip 131

Page 32: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Geschätzte Dichte der Randverteilung des relativen Ein-kommens

0.0 22.8 45.6 68.4 91.2 114.0 136.8 159.6 182.4income

0.000

0.004

0.008

0.012

Regression von Einkommen auf Alter

20 30 40 50 60 70

age

0.5

0.9

1.3

1.7

inco

me

Nichtparametrisch@LS-Kneip 132

Page 33: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel: Sei X = (X1, X2)T und

f(x1, x2) =

12x1 + 3

2x2 falls 0 ≤ x1, x2 ≤ 1

0 sonst

f ist eine Dichtefunktion, da f(x1, x2) ≥ 0 und∞∫

−∞

∞∫

−∞f(x1, x2)dx1dx2 =

12

[x2

1

2

]1

0

+32

[x2

2

2

]1

0

=14

+34

= 1

Dichte der Randverteilungen:

f1(x1) =

∞∫

−∞f(x1, x2)dx2 =

1∫

0

f(x1, x2)dx2 =12x1 +

34

f2(x2) =

∞∫

−∞f(x1, x2)dx1 =

1∫

0

f(x1, x2)dx1 =32x2 +

14

Man beachte:

f(x1, x2) =12x1+

32x2 6=

(12x1 +

34

)·(

32x2 +

14

)= f1(x1)·f2(x2)

⇒ X1 und X2 sind nicht unabhängig

Nichtparametrisch@LS-Kneip 133

Page 34: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Bedingte Dichte von X2 gegeben X1 = x1

f(x2 | x1) =12x1 + 3

2x2

12x1 + 3

4

⇒ Regressionsfunktion: Bedingter Erwartungswert von X2 gege-ben X1 = x1

m(x1) = E(X2 | X1 = x1)

=

1∫

0

x2f(x2 | x1)dx2 =

1∫

0

x2

12x1 + 3

2x2

12x1 + 3

4

dx2 =14x1 + 1

212x1 + 3

4

Nichtparametrisch@LS-Kneip 134

Page 35: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1.4 Statistische Testverfahren

Einfache Zufallsstichprobe:X1, . . . , Xn unabhängig und iden-tisch N(µ, σ2) verteilt.

• Einseitiger TestNullhypothese H0: : µ = µ0

Alternative H1: µ > µ0

• Zweiseitiger TestNullhypothese H0: µ = µ0

Alternative H1: µ 6= µ0

Allgemeine Formulierung eines Testproblems:

H0 : θ ∈ Ω0 gegen H1 : θ ∈ Ω1,

wobei die Mengen Ω0 und Ω1 jeweils die unter der Nullhypothe-se und der Alternative zulässigen Werte einer interessierendenGröÿe θ bezeichnen.Im obigen Beispiel : Zweiseitiger Test ⇒ θ = µ, Ω0 = µ0,Ω1 = µ ∈ IR|µ 6= µ0Einseitiger Test ⇒ θ = µ, Ω0 = µ0, Ω1 = µ ∈ IR|µ > µ0.

Einfache und zusammengesetzte Hypothesen: Je nachdem,ob Ω0 bzw. Ω1 ein oder mehrere Elemente enthalten, heiÿen dieHypothesen H0 bzw. H1 einfach oder zusammengesetzt.

Nichtparametrisch@LS-Kneip 135

Page 36: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Statistischer Test: Verfahren zur Entscheidung zwischenH0 und H1 auf der Grundlage der beobachteten Daten.Teststatistik: Ein statistischer Test basiert auf einer Teststa-tistik (auch: Prüfgröÿe) T = T (X1, . . . , Xn). Die Entscheidungfällt auf der Grundlage des aus den Daten berechneten WertsTbeob von T . Je nach Realisation entscheidet man sich für odergegen die vorliegende Hypothese.Ablehnbereich: Menge C derart, dass

• Tbeob 6∈ C ⇒ Entscheidung für H0

• Tbeob ∈ C ⇒ Entscheidung für H1

Typischerweise ist C von der Form (−∞, c0], [c1,∞) oder(−∞, c0] ∪ [c1,∞). Die Grenzen der jeweiligen Intervalle werdenals kritische Werte bezeichnet und ergeben sich in den meistenFällen als Quantile der Verteilung von T unter der Nullhypothe-se.

Fehler 1. Art: H0 wird abgelehnt, obwohl H0 richtig istFehler 2. Art: H0 wird angenommen, obwohl H0 falsch ist

Test zum Niveau α (z.B. α = 5%)

P ( Fehler 1. Art ) = P (T ∈ C| H0 wahr) ≤ α

Nichtparametrisch@LS-Kneip 136

Page 37: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Illustration: Gauÿ Test

Beispiel: QualitätskontrolleEine Maschine soll bestimmte Werkstücke mit einer Länge vonµ0 = 18.3 (mm) herstellen. Zufallsschwankungen um die mittlereLänge sind normalverteilt mit Standardabweichung σ = 0.18.Es ist bekannt, dass es aus technischen Gründen möglich ist,dass sich die Maschine im Laufe der Zeit dejustieren kann, sodass der wahre Erwartungswert µ eventuell ungleich µ0 = 18.3ist. Gleichzeitig kann jedoch angenommen werden, dass die Stan-dardabweichung σ = 0.18 unverändert bleibt.Für eine Zufallsstichprobe von n = 9 Werkstücken aus der aktu-ellen Produktion ergab sich eine mittlere Länge X = 18.48.Testproblem (zweiseitig): H0 : µ = µ0 gegen H1 : µ 6= µ0

Testproblem (einseitig): H0 : µ = µ0 gegen H1 : µ > µ0

Das einseitige Problem ist dann von Interesse, wenn man zusätzlichweiÿ, dass eine Dejustierung nur zu µ > 18.3 führen kann.Teststatistk:

Z =√

n(X − µ0)σ

Unter H0: Z ∼ N(0, 1)

Zweiseitiger Test zum Niveau α:Lehne H0 ab, falls |Zbeob| > z1−α/2

Einseitiger Test zum Niveau α:Lehne H0 ab, falls Zbeob > z1−α

Zbeob steht für den aus den Daten berechneten Wert von Z, wäh-rend z1−α/2 bzw. z1−α die entsprechenden Quantile der Stan-dardnormalverteilung sind.Nichtparametrisch@LS-Kneip 137

Page 38: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Im Beispiel gilt Zbeob = 3 und somit für den zweiseitigen Test

• Test zum Signikanzniveau α = 0.05:Es gilt z1−α/2 = z0.975 = 1.96

⇒ |Zbeob| = 3 > 1.96 = z1−α/2

⇒ Ablehnung der Nullhypothese;

• Test zum Signikanzniveau α = 0.01:Es gilt z1−α/2 = z0.995 = 2.576

⇒ |Zbeob| = 3 > 2.576 = z1−α/2

⇒ Ablehnung der Nullhypothese

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

zbeob

Signifikanztest zum Niveau α=0.05

z0.975

Ablehn-bereich

-z0.975

Ablehn-bereich

-3 -2 -1 0 1 2 30.0

0.1

0.2

0.3

0.4

zbeob

Signifikanztest zum Niveau α=0.01

z0.995

Ablehn-bereich

-z0.995

Ablehn-bereich

Nichtparametrisch@LS-Kneip 138

Page 39: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1.5 Der p-Wert

Allgemein: p-Wert = Wahrscheinlichkeit, unter H0 den beob-achteten Prüfgröÿenwert oder einen in Richtung der Alternativeextremeren Wert zu erhalten.

Interpretation:• Glaubwürdigkeit von H0: H0 ist wenig glaubwürdig, falls

der p-Wert sehr klein ist

• Der in einer konkreten Anwendung berechnete p-Wert hängtvon dem beobachteten Datensatz ab. Er liefert Informa-tionen über die Resultate der zugehörigen Signikanztestszu den verschiedenen Niveaus α :

α > p-Wert ⇒ Ablehnung von H0

α < p-Wert ⇒ Beibehaltung von H0

In der Praxis:• Test signikant, falls p-Wert < 0.05 (d.h. ein Test zum

Niveau 5% führt zur Ablehnung von H0)

• Häug: Test schwach signikant, falls 0.05 > p-Wert > 0.01(d.h. ein Test zum Niveau 5% führt zur Ablehnung von H0;ein Test zum Niveau 1% führt dagegen zur Beibehaltung vonH0)

Nichtparametrisch@LS-Kneip 139

Page 40: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Illustration: Gauÿ Test

Vorgehen: Unter H0 gilt Z ∼ N(0, 1). Man berechnet aus denDaten den realisierten Wert zbeob. Der p-Wert ist nun die Wahr-scheinlichkeit, unter der Standardnormalverteilung einen Wertzu beobachten, der betragsmäÿig gröÿer oder gleich Zbeob ist.Einseitiger Test:

p-Wert = P (Z ≥ Zbeob| H0 wahr) = 1− Φ(Zbeob),

wobei Φ die Verteilungsfunktion der Standardnormalverteilungbezeichnet.Zweiseitiger Test:

p-Wert = 2min P (Z ≥ Zbeob |H0 wahr), P (Z ≤ Zbeob |H0 wahr)= P (|Z| ≥ |Zbeob| |H0 wahr) = 2(1− Φ(|Zbeob|))

Man beachte:p-Wert = P (|Z| ≥ |Zbeob |H0 wahr) und α = P (|Z| ≥ z1−α/2 |H0 wahr))

⇒|Zbeob| > z1−α/2, falls α > p-Wert|Zbeob| < z1−α/2, falls α < p-Wert

• Für einen gegebenen Datensatz lässt sich aus dem p-Wertablesen, zu welchem Niveau α der zugehörige Signikanztestdie Nullhypothese gerade noch verworfen hätte. Falls α > p-Wert, so gilt |Zbeob| > z1−α/2. Ein Test zu

einem Niveau α > p-Wert führt also zur Ablehnung derNullhypothese.

Falls α < p-Wert, so gilt |Zbeob| < z1−α/2. Ein Test zueinem Niveau α < p-Wert führt also zur Beibehaltungder Nullhypothese.

Nichtparametrisch@LS-Kneip 140

Page 41: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Besipiel: Sei Zbeob = 1.77 ⇒ p-Wert = 0.076

α = 0, 1 > p-Wert ⇒ Ablehnung von H0

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.0

0.0

0.1

0.2

0.3

0.4

zbeob

z0.95=1.645<zbeob

α/2=0.05α/2=0.05

-z0.95=-1.645

α = 0, 076 = p-Wert

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.1

0.2

0.3

0.4

zbeob

z0.962=1.77=zbeob

α/2=0.038

-1.77=-zbeob

α/2=0.038

α = 0, 02 < p-Wert ⇒ Annahme von H0

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.1

0.2

0.3

0.4

zbeob

z0.99=2.326>zbeob

α/2=0.01α/2=0.01

-z0.99=-2.326

Nichtparametrisch@LS-Kneip 141

Page 42: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel Qualitätskontrolle (zweiseitiger Test): Der in diesemBeispiel tatsächlich beobachtete Wert ist Zbeob = 3.

⇒ p-Wert = P (|Z| ≥ 3 |H0 wahr)) = 2(1− Φ(3)) = 0, 0026

Aus p-Wert = 0, 0026 lässt sich direkt schlieÿen, dass sowohlein Test zum Signikanzniveau α = 0, 05 als auch ein Test zumNiveau α = 0, 01 zur Ablehnung von H0 führen. Das Testergebnisist hochsignikant.

Der p-Wert eines einseitigen Tests wird durch die folgende Figurillustriert. Es sei Zbeob = 1.77 (⇒ p-Wert = 0.038)

-2.5 -2.0 -1.5 -1.0 -0.5 0.0 0.5 1.0 1.5 2.0 2.5 3.00.0

0.1

0.2

0.3

0.4

zbeob

z0.962=1.77=zbeob

0.038

Nichtparametrisch@LS-Kneip 142

Page 43: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Illustration: t-Test

Es seien X1, . . . , Xn unabhängig und identisch N(µ, σ2) verteilt.µ und σ2 seien unbekannt.Testproblem: H0 : µ = µ0 gegen H1 : µ 6= µ0

Teststatistik des t-Tests:

T =√

n(X − µ0)S

Test zum Niveau α

• Einseitiger Test: Ablehnung von H0, falls

Tbeobachtet ≥ tn−1;1−α

• Zweiseitiger Test: Ablehnung von H0, falls

|Tbeobachtet| ≥ tn−1;1−α/2

Der p-Wert (Überschreitungswahrscheinlichkeit):• Einseitiger Test:

p-Wert = P (Tn−1 ≥ Tbeobachtet)

• Zweiseitiger Test:

p-Wert = P (|Tn−1| ≥ |Tbeobachtet|)

Nichtparametrisch@LS-Kneip 143

Page 44: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Daten:X1 = 19.20, X2 = 17.40, X3 = 18.50, X4 = 16.50, X5 = 18.90,n = 5.

⇒ X = 18.1

Testproblem: H0 : µ = 17 gegen H1 : µ 6= 17

Tbeobachtet =√

5(18.1− 17)1.125

= 2.187

⇒ p-Wert = P (|Tn−1| ≥ 2.187) = 0.094

Tests zu verschiedenen Niveaus α:α = 0.2 ⇒ 2.187 > t4,0.9 = 1.533 ⇒ Ablehnung von H0

α = 0.1 ⇒ 2.187 > t4,0.95 = 2.132 ⇒ Ablehnung von H0

α = 0.094 = p-Wert ⇒ 2.187 = t4,0.953 = 2.187⇒ Ablehnung von H0

α = 0.05 ⇒ 2.187 < t4,0.975 = 2.776 ⇒ Annahme von H0

α = 0.01 ⇒ 2.187 < t4,0.995 = 4.604 ⇒ Annahme von H0

Nichtparametrisch@LS-Kneip 144

Page 45: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1.6 Die Gütefunktion

Allgemein: Für jeden möglichen Wert θ ∈ Ω0∪Ω1 lässt sich dieWahrscheinlichkeit

β(n, α; θ)

:= P ( Ablehnung von H0, falls wahrer Parameterwert gleich θ)

berechnen.Diese sogenannte Gütefunktion β ist ein wichtiges Werkzeugzur Beurteilung der Qualität eines Tests und zum Vergleich ver-schiedener Testprozeduren. β hängt vom Parameterwert θ, demSignikanzniveau α und der Stichprobengröÿe n ab.

• β(n, α; θ) ≤ α für alle θ ∈ Ω0

Bei der Konstruktion eines sinnvollen Tests wird natürlich imAllgemeinen darauf geachtet, das Niveau α voll auszuschöp-fen. Es gilt dann β(n, α; θ) = α für mindestens ein θ ∈ Ω0.In manchen Fällen, z.B. bei diskreten Teststatistiken oderbei komplizierten, zusammengesetzten Nullhypothesen, ist esjedoch nicht möglich, ein vorgegebenes Niveau α voll auszu-schöpfen und es gilt β(n, α; θ) < α für alle θ ∈ Ω0. Manspricht dann von einem konservativen Test.

• Güte eines Tests: Bei der Beurteilung der Qualität einesTests sind die Werte von β(n, α; θ) für θ ∈ Ω1 von entschei-dender Bedeutung. Für θ ∈ Ω1 ist β(n, α; θ) die Wahrschein-lichkeit, die richtige Entscheidung zu treen und H1 anzu-nehmen. Diese Wahrscheinlichkeit sollte natürlich möglichstgroÿ sein. Ein Test hat eine umso höhere Güte, je näherβ(n, α; θ) bei 1 liegt für θ ∈ Ω1.

Nichtparametrisch@LS-Kneip 145

Page 46: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

• Unverfälschter Test: Ein Test zum Niveau α heiÿt un-verfälscht, wenn β(n, α; θ) ≥ α für alle θ ∈ Ω1. Für einenunverfälschten Test ist also die Wahrscheinlichkeit H0 abzu-lehnen, wenn H0 falsch ist, mindestens so groÿ wie jene, H0

abzulehnen, wenn H0 zutrit.

• Konsistenter Test: Ein Test zum Niveau α heiÿt konsi-stent, falls

limn→∞

β(n, α; θ) = 1

für alle θ ∈ Ω1. Bei einem konsistenten Test konvergiertalso die Wahrscheinlichkeit, die Nullhypothese für θ ∈ Ω1

korrekterweise abzulehnen, mit wachsendem Stichprobenum-fang gegen 1.

• Gleichmäÿig bester Test für ein gegebenes Testproblem:Ein Test mit Gütefunktion β(n, α; θ) heiÿt gleichmäÿig be-ster Test (uniformly most powerful), falls für jeden alterna-tiven Test mit Gütefunktion β∗(n, α; θ)

β(n, α; θ) ≥ β∗(n, α; θ) für alle n und θ ∈ Ω1

Leider lassen sich gleichmäÿig beste Tests nur für wenige,sehr spezielle Testprobleme konstruieren.

Nichtparametrisch@LS-Kneip 146

Page 47: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel Qualitätskontrolle (Gauÿ-Test):

• Wenn H1 wahr ist, so hängt die Güte β(n, α; µ) des Testsvon dem wahren Wert µ ∈ Ω1 ab.

Sei H1 wahr und µ = 18.36 wahrer Parameterwert⇒ Z =

√n(X−18.3)

σ ∼ N(1, 1)⇒ β(9, 0.05; 18.36) = P (|Z| ≥ z1−α/2|µ = 18.36) = 0.168

-2 0 2 4

0.0

0.1

0.2

0.3

0.4

z0.975

β

H1 wahr und µ=18,36: Z~N(1,1)

-z0.975

Sei H1 wahr und µ = 18, 48 wahrer Parameterwert⇒ Z =

√n(X−18.3)

σ ∼ N(3, 1)⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z1−α/2|µ = 18.48) = 0.873

-2 0 2 40.0

0.1

0.2

0.3

0.4

z0.975

β

H_1 wahr und µ=18,48: Z~N(3,1)

-z0.975

Nichtparametrisch@LS-Kneip 147

Page 48: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel Qualitätskontrolle (Gauÿ-Test):

• Es ist nicht möglich, beide Fehlerwahrscheinlichkeiten gleich-zeitig beliebig klein zu machen. Je kleiner α, desto gröÿer dieWahrscheinlichkeit eines Fehlers 2. Art, d.h. desto kleiner β.

Sei H1 wahr und µ = 18.48 ∈ Ω1 wahrer Parameterwert ⇒Z ∼ N(3, 1)

α = 0.05 ⇒ β(9, 0.05; 18.48) = P (|Z| ≥ z0,975︸ ︷︷ ︸1.96

|µ = 18.48) = 0.873

-2 0 2 40.0

0.1

0.2

0.3

0.4

z0.975

β

Niveau α=0,05 (H_1 wahr und µ=18,48)

-z0.975

α = 0.01 ⇒ β(9, 0.01; 18.48) = P (|Z| ≥ z0,995︸ ︷︷ ︸2.576

|µ = 18.48) = 0.663

-2 0 2 40.0

0.1

0.2

0.3

0.4

z0.995

β

Niveau α=0,01 (H1 wahr, µ=18,48)

-z0.995

Nichtparametrisch@LS-Kneip 148

Page 49: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel Qualitätskontrolle (Gauÿ-Test):

• Für festes Signikanzniveau wird β(n, α; µ) umso gröÿer, jegröÿer der Stichprobenumfang n ist.

• H0 wahr:Unabhängig von n gilt Z =√

n(X−18.3)σ ∼ N(0, 1)

⇒ P ( Fehler 1. Art ) = α

• Sei H1 wahr und µ = 18.36. Dann gilt

Z =√

n(X − 18.3)σ

∼ N(√

n13, 1)

und es ergibt sich

n = 9 β(9, 0.05; 18.36) = 0.168

n = 36 β(36, 0.05; 18.36) = 0.516

n = 81 β(81, 0.05; 18.36) = 0.873

n = 144 β(144, 0.05; 18.36) = 0.979

Nichtparametrisch@LS-Kneip 149

Page 50: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

1.7 Asymptotische relative Ezienz

Im Folgenden betrachten wir einseitige Testprobleme mit ein-fachen Nullhypothesen der Form H0 : θ = θ0, θ, θ0 ∈ IR, undzusammengesetzten Alternativen der Form H1 : θ > θ0 oderH1 : θ < θ0.Das von Pitman entwickelte Konzept der asymptotischen rela-tiven Ezienz erlaubt nun den Vergleich der Güte zweier kon-sistenter Testverfahren, die sich jeweils durch verschiedene Test-statistiken T1 bzw. T2 und zugehörige Gütefunktionen β1(n, α; θ)bzw. β2(n, α; θ) charakterisieren lassen.Das Ezienzmaÿ beruht auf der Einsicht, dass es bei einem Ver-gleich unterschiedlicher Tests nicht sehr sinnvoll ist, die Gütevon sehr weit von θ0 entfernten Alternativen θ, |θ − θ0| groÿ,zu betrachten. Für jeden vernünftigen, konsistenten Test ist fürsolche Alternativen der Wert von β nahe 1. Interessant sind lo-kale Alternativen θ, die relativ nahe bei θ0 liegen. Der konkreteAbstand |θ − θ0| muss hierbei in Abhängigkeit vom Stichprobe-numfang betrachtet werden.Die folgende Konstruktion des Ezienzmaÿes beruht auf der Vor-aussetzung, dass die Gütefunktionen β1(n, α; θ) und β2(n, α; θ)jeweils monoton wachsende Funktionen des Abstands |θ − θ0|sind, und dass lim|θ|→∞ β1(n, α; θ) = lim|θ|→∞ β1(n, α; θ) = 1.

• Man betrachtet eine Folge lokaler Alternativen θ1, θ2, . . . mit|θ1 − θ0| > |θ2 − θ0| > . . . und limi→∞ θi = θ0.

• Für vorgegebene 0 < α < 1 und 0 < β < 1 berechnet mannun für Test 1 eine zugehörige Folge n1, n2, . . . von Stich-probengröÿen derart, dass für alle i = 1, 2, . . . der Wert der

Nichtparametrisch@LS-Kneip 150

Page 51: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Gütefunktion β1(ni, α; θi) möglichst nahe an β ist, d.h.

β1(ni, α; θi) ≈ β

Anmerkung: Exakte Gleichheit β1(ni, α; θi) = α ist z.B. fürdiskrete Teststatistiken nicht immer erreichbar.

• Für den zweiten Test wird sodann eine zugehörige Folge vonStichprobenumfängen m1,m2, . . . bestimmt, so dass für allei = 1, 2, . . . der Wert der Gütefunktion β2(mi, α; θi) mög-lichst nahe an β ist, d.h.

β2(mi, α; θi) ≈ β

• Asymptotische relative Ezienz des Tests T1 zumTest T2:

ET1,T2 = limi→∞

mi

ni,

vorausgesetzt, dass dieser Limes existiert und für jede Wahlvon θi und α, β derselbe ist.

Interpretation:

• ET1,T2 = 1 ⇒ beide Tests annähernd gleich ezient (fürlokale Alternativen)

• ET1,T2 = γ < 1 ⇒ Test 2 ist ezienter als Test 1! Um an-nähernd die gleiche (lokale) Güte zu erreichen, werden vonTest 2 um den Faktor γ weniger Beobachtungen gebrauchtals von Test 1.

• ET1,T2 = γ∗ > 1 ⇒ Test 1 ist ezienter als Test 2! Umannähernd die gleiche (lokale) Güte zu erreichen, werden vonTest 2 um den Faktor γ mehr Beobachtungen gebraucht alsvon Test 1.

Nichtparametrisch@LS-Kneip 151

Page 52: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

2 Die empirische Verteilungsfunktion,Ordnungsstatistiken und nichtparame-trische Tests

Gegeben: Stetige Zufallsvariable X mit Dichtefunktion f undVerteilungsfunktion F (d.h. f(t) = F ′(t))Daten: Einfache Zufallsstichprobe X1, . . . , Xn

2.1 Die empirische Verteilungsfunktion

Ein wichtiges Werkzeug zur Analyse solcher Daten ist die soge-nannte empirische Verteilungsfunktion.

Absolute kumulierte Häugkeitsverteilung:Hn(x) = Anzahl der Werte Xi mit Xi ≤ x

Empirische Verteilungsfunktion:Fn(x) = Hn(x)/n = Anteil der Werte Xi mit Xi ≤ x

Eigenschaften:

• 0 ≤ Fn(x) ≤ 1

• Fn(x) = 0, falls x < X(1), wobei X(1) - kleinster beobachteterWert

• F (x) = 1, falls x ≥ X(n), wobei X(n) - gröÿter beobachteterWert

• Fn monoton wachsende Treppenfunktion

Nichtparametrisch@LS-Kneip 21

Page 53: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel:Preise (in Euro) für eine Pizza mit Salami und Pilzen in achtzufällig ausgewählten Pizzerien in Bonn

x1 x2 x3 x4 x5 x6 x7 x8

5,20 4,80 5,40 4,60 6,10 5,40 5,80 5,50

Empirische Verteilungsfunktion:

4.0 4.5 5.0 5.5 6.0 6.50.0

0.2

0.4

0.6

0.8

1.0

Nichtparametrisch@LS-Kneip 22

Page 54: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die empirische Verteilungsfunktion ist mit der sogenannten Ord-nungsstatistik eng verbunden.

• Als Ordnungsstatistik bezeichnet man das n-Tupel(X(1), . . . , X(n)), wobei X(1) ≤ X(2) ≤ · · · ≤ X(n) die derGröÿe nach geordneten Werte der Stichprobe sind.

• Für alle r = 1, . . . , n wird X(r) als r-te Ordnungsstatistikbezeichnet

Konstruktion von Fn(x) anhand von X(1) ≤ X(2) ≤ · · · ≤X(n):

• Fn(x) = 0, falls x < X(1)

• Fn(x) = 1, falls x ≥ X(n)

• Fn(X(i)) = Fn(X(i−1)) + 1n

Fn(x) = F (X(i)), falls x ∈ [X(i), X(i+1))Achtung: Falls alle xi voneinander verschieden sind, wächst F (x)

an jedem Beobachtungswert genau um den Betrag 1n; sind zwei

Beobachtungen gleich, so wächst F (x) an dem entsprechendenZahlenwert um den Betrag 2

n, bei drei gleichen Beobachtungen

um 3n, etc.

• Fn(x) = 1, falls x ≥ x(n)

• Fn hängt von den Werten der beobachteten Stichprobe ab,d.h. für jedes x ist Fn(x) eine Zufallsvariable.

• Fn ist diskret mit den Realisationsmöglichkeiten m/n (m =0, 1, . . . , n).

Nichtparametrisch@LS-Kneip 23

Page 55: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Theoretische Eigenschaften der empirischen Verteilungsfunktion:Satz 1: Für jedes feste x gilt

nFn(x) ∼ B(n, F (x)),

d.h. nFn(x) ist binomialverteilt mit den Parametern n und F (x).Die Wahrscheinlichkeitsverteilung von Fn(x) ist somit gegebendurch

P(Fn(x) =

m

n

)=

n

m

F (x)m(1−F (x))n−m, m = 0, 1, . . . , n

Folgerungen:

• E(Fn(x)) = F (x), d.h. Fn(x) ist ein erwartungstreuer Schät-zer von F (x)

• V ar(Fn(x)) = 1nF (x)(1− F (x)), d.h. mit wachsender Stich-

probengröÿe verringert sich die Streuung von Fn(x) um F (x)(Fn(x) ist ein konsistenter Schätzer von F (x)).

Satz von Glivenko-Cantelli:

P

(lim

n→∞supx∈IR

|Fn(x)− F (x)| = 0

)= 1

Nichtparametrisch@LS-Kneip 24

Page 56: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die Verteilung von Y = F (X)

Man beachte den Unterschied zwischen F (x) und F (X):

• Für gegbenes x ∈ IR ist F (x) eine feste Zahl,F (x) = P (X ≤ x)

• F (X) ist eine Zufallsvariable, wobei F die zu X gehörendeVerteilungsfunktion ist

Satz 2: X habe die stetige Verteilungsfunktion F . Dann ist Y =F (X) gleichverteilt auf dem Intervall [0, 1], d.h.

F (X) ∼ U(0, 1),

P (a ≤ F (X) ≤ b) = b− a für alle 0 ≤ a < b ≤ 1

Folgerung: Für stetiges F können

• F (X1), . . . , F (Xn) als Stichprobenvariablen bezüglich der gleich-verteilten Zufallsvariablen F (X)

• (F (X(1)), . . . , F (X(n)) als Ordnungsstatistik aus einer gleich-verteilten Grundgesamtheit

aufgefasst werden.

Nichtparametrisch@LS-Kneip 25

Page 57: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

2.2 Quantile

Quantile sind ein wichtiges Werkzeug der nichtparametrischenStatistik. Sie liefern wichtige Maÿzahlen z.B. zur Charakterisie-rung von Lage und Streuung einer Verteilung.

Quantil: Sei 0 < p < 1. Jede Zahl ψp mit der Eigenschaft

P (X < ψp) ≤ p ≤ P (X ≤ ψp)

heiÿt p-tes Quantil (oder kurz p-Quantil) der Zufallsvariablen X

• Falls die Verteilungsfubktion F streng monoton steigend ist,so sind alle p-Quantile durch p = F (ψp) eindeutig bestimmt.

• Enthält F konstante Segmente (z.B. bei diskreten Zufallsva-riablen), so sind manche p-Quantile nicht eindeutig, und esgibt Intervalle von möglichen Lösungen (in der Praxis wirddann häug mit dem Mittelwert des jeweiligen Intervalls ge-rechnet).

Wichtige Quantile:

• µmed = ψ0.5 heiÿt Median (mindestens 50% der Beobachtun-gen sind kleiner gleich ψ0.5 und mindestens 50% der Beob-achtungen sind gröÿer gleich ψ0.5)In der nichtparametrischen Statistik dient häug der Median(anstatt des Mittelwerts) als Lagemaÿ zur Bestimmung desZentrums einer VerteilungVorteile des Medians: Robust gegen Ausreiÿer; im Gegen-satz zum Mittelwert auch bei extrem links bzw. rechtssteilenVerteilungen gut interpretierbar.

• ψ0.25 bzw. ψ0.75 heiÿen unteres bzw. oberes QuartilNichtparametrisch@LS-Kneip 26

Page 58: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Quartilsabstand QA = ψ0.75 − ψ0.25 ist ein häug ver-wendetes Streuungsmaÿ.

• ψ0.1 bzw. ψ0.9 heiÿen 1. bzw. 9. Perzentil

Quantile der empirischen Verteilung:Gegeben: Einfache Zufallsstichprobe X1, . . . , Xn

Approximationen der wahren Quantile der zugrunde liegendenVerteilung erhält man unter Benutzung der OrdnungsstatistikenX(r). Die Denition der entsprechenden empirischen Quantilefolgt den oben angegebenen Formeln, allerdings müssen Wahr-scheinlichkeiten durch relative Häugkeiten ersetzt werden.

(empirisches) p-Quantil: Wert ψn;p mit 0 < p < 1, so daÿ

Anzahl xi≤ψn;p

n≥ p und Anzahl xi≥ψn;p

n≥ 1− p

ψn;p = x([np]+1), wenn np nicht ganzzahlig

ψn;p = (x(np) + x(np+1))/2, wenn np ganzzahlig

[np] ist die zu np nächste kleinere ganze Zahl.Anmerkung: Falls np nicht ganzzahlig, so ist ψn;p eindeutig bestimmt;falls np ganzzahlig, so gibt es ein Intervall von prinzipiell möglichenWerten.

Nichtparametrisch@LS-Kneip 27

Page 59: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Boxplot ist ein häug verwendetes Werkzeug zur graschenDarstellung von Datenmaterial. Er basiert auf der Verwendungvon Quantilen.Boxplot:• ψn;0,25 - Anfang der Schachtel (Box)

ψn;0,75 - Ende der Schachtel (Box)⇒ QA - Länge der Schachtel (Box)

• Der Median ψn;0,75 wird durch Strich in der Box markiert(manchmal wird auch x durch eine gestrichelte Linie mar-kiert)

• Man bestimmt die Zäunezl = ψn;0,25 − 1, 5 ·QA

undzu = ψn;0,75 + 1, 5 ·QA

• Zwei Linien (Whiskers) gehen zum kleinsten und gröÿtenBeobachtungswert innerhalb des Bereichs [zl, zu] der Zäune

• Beobachtungen auÿerhalb der Zäune zl, zu werden einzelneingezeichnet

Boxplots liefern Informationen über wichtige Charakteristika ei-ner Verteilung:

• Lage und Streuung

• Struktur (symmetrisch, rechtssteil, linkssteil)

• Existenz von Ausreiÿern

Nichtparametrisch@LS-Kneip 28

Page 60: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Graphische Darstellung einigerMazahlen der Lage und der VariationBoxplot (BoxWhiskerPlot, Schachtelzeichnung)

x0;25 3QAx0;25 1;5QA (lower fence)x0;25x0;75x0;75+1;5QA (upper fence)x0;75+3QA

x0;5 QAÆ?

Æ?

Nichtparametrisch@LS-Kneip 29

Page 61: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Beispiel:Geordnete Urliste (n=10):0,1 0,1 0,2 0,4 0,5 0,7 0,9 1,2 1,4 1,9

Histogramm:

0.0 0.5 1.0 1.5 2.0

x

0.0

0.2

0.4

0.6

0.8

Boxplot:

0.0 0.5 1.0 1.5 2.0

x

Nichtparametrisch@LS-Kneip 210

Page 62: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

010

2030

40

Stun

denl

ohn

Frauen Maenner

Nichtparametrisch@LS-Kneip 211

Page 63: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Kondenzintervalle für QuantileFür 0 < p < 1 ist ψn;p natürlich nur eine Approximation deswahren Quantils ψp und hängt von den Beobachtungswerten(Zufall!) ab. Es ist daher von Interesse ein Kondenzintervall fürψp zu konstruieren.Die Grundidee zur Konstruktion eines Konenzintervalls zum Ni-veau 1 − α besteht in der Verwendung von Ordnungsstatistikenund der Bestimmung von Zahlen l, m ∈ 1, . . . , n derart, dass

P(X(l) < ψp < X(m)

) ≈ 1− α

Man beachte, dass

P(X(l) < ψp < X(m)

)= P (X(l) < ψp)− P (X(m) < ψp)

= P (F (X(l)) < p)− P (F (X(m)) < p)

F (X(l)) bzwm F (X(m)) lassen sich als Ordnungsstatistiken auseiner gleichverteilten Grundgesamtheit auassen. Nach einigenRechnungen erhält man

P (F (X(l)) < p)− P (X(m) < ψp) =m−1∑

i=l

n

i

pi(1− p)n−i

= P (Bn,p ≤ m− 1)− P (Bn,p ≤ l − 1),

wobei Bn,p eine Zufallsvariable ist, die einer Binomialverteilungmit den Parametern n und p folgt. Die entsprechenden Wahr-scheinlichkeiten lassen sich den Tabellen der Binomialverteilungentnehmen. Typischerweise existieren keine Zahlen l,m derart,dass P (Bn,p ≤ m − 1) − P (Bn,p ≤ l − 1) exakt gleich 1 − α ist.In der Praxis werden daher l und m so bestimmt, dass• P (Bn,p ≤ m− 1)− P (Bn,p ≤ l − 1) ≈ 1− α,

m− l kleinstmöglichNichtparametrisch@LS-Kneip 212

Page 64: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

2.3 Nichtparametrische Testverfahren

Es existiert eine fast unüberschaubare Vielzahl von nichtparame-trischen Testverfahren für die verschiedensten Fragestellungen.Im Folgenden werden nur einige ausgewählte Methoden vorge-stellt. Verschiedene nichtparametrische Tests beruhen auf teilwei-se völlig unterschiedlichen Grundideen. Es gibt jedoch eine Reihevon allgemeinen Grundsätzen, die eine gemeinsame Grundlagevieler Testprozeduren bilden:• Allgemeinheit: Die zu testende Nullhypothese wird in allge-

meiner Form formuliert (keine Parametrisierung; insbeson-dere keine Abhängigkeit von Existenz und Werten der Para-meter spezischer Verteilungen)

• Verteilungsfreiheit: Die Verteilung der Teststatistik unter derNullhypothese sollte (tendenziell) verteilungsfrei sein, d.h.unabhängig von der spezischen Struktur der zugrundelie-genden Verteilung der interessierenden Variable sein.

• Robustheit: Möglichst geringer Einuss von möglichen Aus-reiÿern innerhalb der vorliegenden Daten

2.4 Anpassungstests

Anpassungstests (Goodness-of-Fit Tests) dienen zur Überprü-fung der Hypothese, ob eine beobachtete Variable eine bestimm-te, spezierte Verteilung besitzt, wie z.B. eine Exponentialver-teilung mit Parameter λ = 1 oder eine Normalverteilung mitMittelwert 0 und Varianz 1. Die Grundidee solcher Tests bestehtdarin zu untersuchen, ob sich die beobachtete Verteilung hinrei-chend gut der hypothetischen Verteilung anpasst.Nichtparametrisch@LS-Kneip 213

Page 65: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Kolmogoro-Smirno TestGegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F

Daten: Einfache Zufallsstichprobe X1, . . . , Xn

Ziel: Test der Nullhypothese H0 : F = F0, wobei F0 eine genauspezizierte Verteilungsfunktion ist.Beispiele: F0 - Verteilungsfunktion einer Normalverteilung mitMittelwert 0 und Varianz 1; F0 - Verteilungsfunktion einer Ex-ponentialverteilung mit Parameter λ = 1.

• Fn(x) ist ein erwartungstreuer und konsistenter Schätzer vonF (x)

• Falls die Nullhypothese F = F0 also richtig ist, sollten dieAbweichungen |Fn(x)− F0(x)| rein zufällig und hinreichendklein sein.

Diese Einsichten führen auf den Kolmogoro-Smirno Test.

Testproblem:

H0 : F (x) = F0(x) für alle x ∈ IR

H1 : F (x) 6= F0(x) für mindestens ein x ∈ IR

Teststatistik:

Dn = supx∈IR

|Fn(x)− F0(x)|

Ablehnung von H0, falls Dn > dn,1−α

Hierbei bezeichnet dn,1−α das 1 − α-Quantil der Verteilung vonDn unter der Nullhypothese.

Nichtparametrisch@LS-Kneip 214

Page 66: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Frage: Verteilung von Dn unter H0?

a) Unter der Nullhypothese F = F0 ist die Teststatistik Dn

für alle stetigen Verteilungsfunktionen F0 verteilungsfrei undstimmt mit der Verteilung der Zufallsvariable D∗

n,

D∗n = sup

y∈[0,1]

|y − F ∗n(y)|,

überein. Hierbei bezeichnet F ∗n die empirische Verteilungs-funktion einer einfachen Zufallsstichprobe aus einer U(0, 1)-Verteilung.

b) Asymptotische Verteilung (groÿe Stichproben): Für alleλ > 0 gilt

limn→∞

P (Dn ≤ λ/√

n) = 1− 2∞∑

k=1

(−1)k−1e−2k2λ2

• Ergebnis a) impliziert, dass sich die kritischen Werte desKolmogoro-Smirno Tests durch Monte-Carlo-Simulationen(am Computer) approximieren lassen. Mit Hilfe eines Zufallszahlengenerators werden n unab-

hängige, auf [0, 1] gleichverteilte Zufallszahlen erzeugt undder zugehörige Wert D∗

n,1 = supy∈IR |y − F ∗n(y)| berech-net.

Diese Prozedur wird k mal wiederholt (k groÿ, z.B. k =2000)⇒ k Werte: D∗

n,1, D∗n,2, . . . , D

∗n,k

Das (1− α)-Quantil der empirischen Verteilung vonD∗

n,1, D∗n,2, . . . , D

∗n,k liefert eine Approximation von dn,1−α

(umso genauer, je gröÿer k)Nichtparametrisch@LS-Kneip 215

Page 67: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

• Für kleine Werte von n sind die kritischen Werte dn,1−α ta-belliert.

Beispiel: (aus Büning und Trenkler)Es sei zu testen, dass für einen bestimmten PKW-Typ der Ben-zinverbrauch in Litern pro 100 km bei einer Geschwindigkeit von100 km/h normalverteilt ist mit µ = E(X) = 12 und σ = 1. Eineeinfache Zufallsstichprobe von 10 Fahrzeugen dieses Typs ergabfolgenden Literverbrauch:

12.4 11.8 12.9 12.6 13.0 12.5 12.0 11.5 13.2 12.8

Man erhält (n = 10): D10 = 0.3554

Kritischer Wert des Kolmogoro-Smirno Tests für n = 10 undα = 0.05: d10,0.95 = 0.409

⇒ Annahme der Nullhypothese, da 0.3554 < 0.409

Anmerkung: Der Test ist auch für diskrete Verteilungen (Fnicht stetig) anwendbar. Er ist dann konservativ, d.h. unterder Nullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Artkleiner gleich α.

Nichtparametrisch@LS-Kneip 216

Page 68: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Behandlung von zusammengesetzten NullhypothesenMan spricht von einer zusammengesetzten Nullhypothese, fallsF0(x) ≡ F0(x, θ) nur bis auf unbekannte Parameter θ ∈ IRm

speziziert ist. Ein Beispiel ist eine Normalverteilung mit unbe-kanntem Mittelwert und unbekannter Varianz, d.h. θ = (µ, σ2).In einem solchen Fall möchte man also testen, ob die Daten nor-malverteilt sind (mit beliebigem Mittelwert und Varianz).Testproblem:

H0 : F (x) = F0(x, θ) für alle x ∈ IR; θ unbekannt

H1 : Für alle möglichen θ: F (x) 6= F0(x, θ) für mindestensein x ∈ IR

Teststatistik:

Dn = supx∈IR

|Fn(x)− F0(x, θ)|

Hierbei bezeichnet θ die Maximum-Likelihood Schätzung von θ

(z.B. θ = (X, σ2), σ2 = 1n

∑i(Xi − X)2, im Falle einer Normal-

verteilung).Ablehnung von H0, falls Dn > dn,1−α

• Im Allgemeinen werden die gleichen kritischen Werte ge-nommen wie beim Test einer einfachen Nullhypothese (sieheoben). Der Test ist in diesem Fall konservativ, d.h. unter derNullhypothese ist die Wahrscheinlichkeit eines Fehlers 1. Artkleiner gleich α.

• Für den Spezialfall einer Normalverteilung wurden von Lil-liefors exakte kritische Werte berechnet. Der resultierendeTest von Lillifors ist in vielen statistischen Programmpa-keten implementiert.

Nichtparametrisch@LS-Kneip 217

Page 69: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der χ2-AnpassungstestDaten:

• Zufallsstichprobe X1, . . . , Xn i.i.d.

• Xi nimmt nur q verschiedene Werte an Xi ∈ a1, . . . , aq

Verteilungshypothese: Die Verteilung von X ist so, dass

P (X = aj) = π0j , j = 1, . . . , q

wobei π01 , . . . , π0

q vorgegebene Werte

χ2-Anpassungstest:

• Test von H0 : πi = P (X = aj) = π0j gegen

H1 : πj 6= π0j für ein j = 1, . . . , q

• der Test beruht auf Vergleich von

nj = Anzahl der Xi, i = 1, . . . , n, mit Xi = aj

mit der zu erwartenden Häugkeit unter

H0 : E(nj) = nπ0j

Teststatistik:Q =

q∑

j=1

(nj − nπ0j )2

nπ0j

Asymptotische Approximation (n groÿ):

Q ∼ χ2q−1

⇒ Ablehnung von H0, falls Q ≥ χ2q−1,1−α

Nichtparametrisch@LS-Kneip 218

Page 70: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Anmerkung: Unter H0 folgen n1, . . . , nq einer sogenannten Mul-tinomialverteilung:

P (n1 = m1, . . . , nq = mq) =n!

m1! · · ·mq!(π0

1)m1 · (π02)m2 · · · (π0

q)mq

Jede Anwendung des χ2-Tests auf stetige Verteilungen erforderteine Gruppierung Daten in q Klassen.

Anwendung: Test auf univariate Standardnormalverteilung

• Unterteilung der reellen Achse in q disjunkte TeilintervalleA1, . . . , Aq

NH0,1L

A1 A2 .........Aq

Πi0

=àAi

1!!!!!!!2 Π

expH-12x2Lâx

• Berechnung der theoretischen Wahrscheinlichkeiten

π0j = P (X ∈ Aj) =

Aj

1√2π

exp(−1

2x2

)dx

(P : Normalverteilung)• Berechnung von nj = Anzahl der Beobachtungen, die in das

Intervall Aj fallen⇒ χ2-Test

Nichtparametrisch@LS-Kneip 219

Page 71: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Verallgemeinerung: Test auf Normalverteilung (Xi ∼ N(µ, σ2))• Vorgehen analog; aber: theoretische Wahrscheinlichkeiten

π0j ≡ π0

j (µ, σ) = P (X ∈ Aj) =∫

Aj

1√2πσ

exp(−1

2(X − µ)2

σ2

)dx

hängen nun von unbekannten Parametern µ, σ2 ab!• Bestimmung von Schätzungen µ und σ und Approximation

der theoretischen Wahrscheinlichkeiten durch π0j (µ, σ)

• Teststatistik:

Q =q∑

j=1

(nj − nπ0

j (µ, σ))2

nπ0j (µ, σ)

• Unter H0: Q ∼ χ2q−3

Allgemein: Zusammengesetzte Verteilungshypothesem unbekannte Parameter zu schätzen⇒ Unter H0: Q ∼ χ2

q−m−1

• Es gibt theoretische Arbeiten, die zeigen, dass Q asymptotischnicht χ2-verteilt ist, wenn die Parameter nach der Maximum-Likelihood Methode aus ungruppierten Daten geschätzt werden(z.B. bei Verwendung von µ = X, σ2 = 1

n

∑i(Xi − X)2).

• Die Approximation Q ∼ χ2q−m−1 ist jedoch für groÿes n kor-

rekt, wenn die unbekannten Parameter θ ∈ IRm nach der χ2-Minimum Methode geschätzt werden: θ = (θ1, . . . , θm)τ minimie-ren Q, d.h. sie sind Lösungen der nachfolgenden m Gleichungen(j = 1, . . . , m):

−1

2

∂Q

∂θ`=

q∑j=1

(nj − nπ0

j (θ)

π0j (θ)

+(nj − nπ0

j (θ))2

2π0j (θ)2

)∂π0

j (θ)

∂θ`= 0

Nichtparametrisch@LS-Kneip 220

Page 72: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

2.5 Einstichprobentests: Lineare Rangtests

Rangtests spielen eine zentrale Rolle unter den nichtparametri-schen Testverfahren. Sie zeichnen sich oft durch Robustheit undeine relativ hohe Ezienz aus.

Ränge:Man betrachte eine einfache Zufallsstichprobe X1, . . . , Xn

Ränge sind eng verbunden mit der zugehörigen Ordnungsstatistk(X(1), . . . , X(n)). Im Folgenden wird der Rang einer BeobachtungXi mir r(Xi) bezeichnet.

r(Xi) = Anzahl aller Beobachtungen Xj , j = 1, . . . , n, mit Xj ≤ Xi

= Platznummer von Xi in der Ordnungstatistik

Xi kleinste Beobachtung ⇒ r(Xi) = 1

Xi zweitkleinste Beobachtung ⇒ r(Xi) = 2

...Xi zweitgröÿte Beobachtung ⇒ r(Xi) = n− 1

Xi gröÿte Beobachtung ⇒ r(Xi) = n

Achtung: Es wird angenommen, dass alle Xi ungleich sind; fürstetige Variablen gilt P (Xi = Xj) = 0, falls i 6= j.

Nichtparametrisch@LS-Kneip 221

Page 73: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

• Da X1, . . . , Xn unabhängig und identisch verteilte Zufallsva-riablen sind, ist r(X1), . . . , r(Xn) formal als zufällige Permu-tation aller ganzen Zahlen zwischen 1 und n anzusehen.

• E(r(Xi) = n+12

• V ar(r(Xi) = n2−112

Beispiele (n=5):Xi 0, 3 1, 5 −0, 1 0, 8 1, 0

r(Xi) 2 5 1 3 4

Xi 2, 0 0, 5 0, 9 1, 3 2, 6

r(Xi) 4 1 2 3 5

Mögliches Problem: Existenz von Bindungen (engl. Ties), d.h.von identischen MeÿwertenÜbliche Lösung: Übergang zu Durchschnittsrängen

Beispiele (n=5):Xi 1, 09 2, 17 2, 17 2, 17 3, 02

r(Xi) 1 3 3 3 5

Xi 0, 5 0, 5 0, 9 1, 3 1, 3

r(Xi) 1, 5 1, 5 3 4.5 4.5

Man beachte: Im Falle der Existenz von Bindungen ist die empi-rische Varianz von r(Xi) notwendigerweise kleiner als n2−1

12 .

Nichtparametrisch@LS-Kneip 222

Page 74: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Lineare Rangstatistiken:

Gegeben: Zufallsvariable X mit stetiger Verteilungsfunktion F

Daten: Einfache Zufallsstichprobe X1, . . . , Xn

Nichtparametrische Einstichprobentests befassen sich mit Hypo-thesen bzgl. der Lage einer Verteilung. Die Nullhypothese lässtsich typischerweise so formulieren, dass der Median der Vertei-lung gleich einem fest vorgegebenen Wert µ0 ist. Zur Vereinfa-chung betrachten wir im Folgenden nur zweiseitige Tests. Einsei-tige Testprobleme lassen sich jedoch völlig analog behandeln.Testproblem:

H0 : µmed = µ0

H1 : µmed 6= µ0

Beispiel: (aus Büning und Trenkler)Zur Untersuchung der Intelligenz von Studenten der fachrich-tung Wirtschaftswissenschaften wurden n = 10 Studenten zu-fällig ausgewählt und ihre IQ-Werte bestimmt. Es ergaben sichfolgende Werte

Xi 99 131 118 112 128 136 120 107 134 122

Frage: Ist der Beobachtungsbefund verträglich mit der HypotheseH0 : µmed = 110?

Nichtparametrisch@LS-Kneip 223

Page 75: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Lineare Rangstatistiken beruhen auf den Dierenzen Di = Xi −µ0 und der Berechnung der Gröÿen

r(|Di|) := Rang von |Di| = |Xi − µ0| in der Stichprobeder Absolutbeträge|D1|, . . . , |Dn| der Dierenzen

Vi :=

1 falls Xi − µ0 > 0

0 falls Xi − µ0 ≤ 0

Für eine geeignete Gewichtsfunktion g ist eine lineare Rang-statistik dann von der Form

L+n =

n∑

i=1

g(r(|Di|)) · Vi

Beispiel (µ0 = 110):

Xi 99 131 118 112 128 136 120 107 134 122

Vi 0 1 1 1 1 1 1 0 1 1

|Di| 11 21 8 2 18 26 10 3 24 12

r(|Di|) 5 8 3 1 7 10 4 2 9 6

Es existieren allgemeine theoretische Resultate über die Wahl derGewichtsfunktion zur Denition von lokal optimalen Rangtests(lokal optimal bezieht sich auf Verteilungen in der Nähe vonspezischen parametrischen Verteilungen, wie z.B. der Normal-verteilung).Die in der Praxis hauptsächlich benutzten linearen Rangtestssind jedoch der Vorzeichentest (Sign Test) und der WilcoxonTest.

Nichtparametrisch@LS-Kneip 224

Page 76: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Vorzeichentest

Spezialfall mit der Gewichtsfunktion g(x) = 1 für alle x.Zum Testen von H0 : µmed = µ0 verwendet der Vorzeichentestdaher die Teststatistik

V +n =

n∑

i=1

Vi

• Unter H0 gilt P (Vi = 1) = 12 und P (Vi = 0) = 1

2

• Hieraus lässt sich folgern, dass unter H0 die Statistik V ∗n

einer Binomialverteilung mit den Parametern n und 12 folgt:

V +n ∼ B(n,

12)

⇒ Ein Test zum Niveau α lehnt die Nullhypothese ab, falls ent-weder P (Bn, 1

2≤ V +

n ) ≤ α/2 oder P (Bn, 12≥ V +

n ) ≤ α/2.n groÿ: Approximation der Binomialverteilung durch eine Nor-malverteilung möglich. Unter H0 gilt approximativ

V +n − n/2√

n/4∼ N(0, 1)

Anmerkungen: Theoretisch gilt P (Xi − µ0 = 0) = 0. In derPraxis ist es jedoch möglich, dass Beobachtungen mit Xi−µ0 = 0existieren. Solche Beobachtungen werden üblicherweise aus derStichprobe entfernt (und n entsprechend verkleinert).Der Vorzeichentest lässt sich in einfacher Weise modizieren, umz.B. Hypothesen der Form ψ0,75 = ψ0 zu testen.

Nichtparametrisch@LS-Kneip 225

Page 77: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Wilcoxon Test

Der Wilcoxon Test ist ein Spezialfall mit der Gewichtsfunktiong(x) = x für alle x. Er beruht auf der zusätzlichen Voraussetzung,dass die zugrundeliegende Verteilung symmetrisch ist.Zum Testen von H0 : µmed = µ0 verwendet der Wilcoxon Testdaher die Teststatistik

W+n =

n∑

i=1

r(|Di|) · Vi

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert entweder W+

n ≤ wn,α/2 oder W+n ≥ wn,1−α/2

gilt. Hierbei sind wn,α/2 und wn,α/2 die entsprechenden Quantileder Verteilung von Wn unter H0.• Unter H0 ist die Wn verteilungsfrei. Die kritischen Werte

lassen sich durch Auszählen berechnen. Für kleine Werte n

lassen sich in der Literatur Tabellen nden.• Asymptotische Approximation (n groÿ):

W+n − n(n+1)

4√V ar(W+

n )∼ N(0, 1),

wobei V ar(W+n ) = n(n+1)(2n+1)

24

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenzvon Bindungen = Null). In der Praxis können jedoch Bedingungenexistieren. Dann sind die obigen Verteilungen nur noch approximativgültig, und die Genauigkeit der Approximation sinkt mit der Anzahlder Bedingungen (relativ zu n). In der Literatur wurden jedoch einigeKorrekturformeln entwickelt.Nichtparametrisch@LS-Kneip 226

Page 78: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Anwendung: Vergleiche aus verbundenen Stich-proben

Verbundene Stichproben: Ein interessierendes Merkmal wirdunter zwei unterschiedlichen Bedingungen (X und Y ) an densel-ben Untersuchungseinheiten erhoben.¨

§

¥

¦

Stichprobenvariablen (X1, Y1), . . . , (Xn, Yn)X1, . . . , Xn unabhängig und ident. verteilt wie X

Y1, . . . , Ym unabhängig und ident. verteilt wie Y

Xi und Yi sind nicht voneinander unabhängig; z.B. (Xi, Yi)Messung an der gleichen Untersuchungseinheit

Beispiel: WerbekampganeDie nachfolgende Tabelle gibt die wöchentlichen Umsätze (in10000 Euro) von 6 Filialen einer Handelskette vor und nach einerWerbekampagne wieder.

Filiale 1 2 3 4 5 6vor W.k. (X) 18,5 15,6 20,1 17,2 21,1 19,3nach W.k. (Y) 20,2 16,6 19,8 19,3 21,9 19,0

⇒ x = 18, 63, y = 19, 47

Frage: War die Werbekampagne erfolgreich? Hat sie in der Ten-denz (Lage!) zu signikant höheren Umsätzen geführt?

Nichtparametrisch@LS-Kneip 227

Page 79: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Nichtparametrischer Ansatz: Man betrachtet die zugehörigeStichprobe der DierenzenZ1 = X1 − Y1, Z2 = X2 − Y2, . . . , Zn = Xn − Yn

Die zugrundeliegende Fragestellung lässt sich dann übersetzen indie Frage: Ist der Median von Z1, . . . , Zn ungleich Null?⇒ Testproblem:

H0 : µmed;Z = 0

H1 : µmed;Z 6= 0

⇒ Anwendung des Vorzeichentests oder des Wilcoxon Tests aufdie Stichprobe Z1, . . . , Zn.

Die Güte verschiedener Testverfahren• Parametrische Alternative (unter der Annahme approxi-

mativ normalverteilter Daten mit µmed = µ = E(X)): t-Test

• Unter der Voraussetzung einer Normalverteilung ist der t-Test ezienter als der Vorzeichentest (asymptotische rela-tive Ezienz=0.637). Für Verteilungen, die stark von derNormalverteilung abweichen, kann der Vorzeichentest jedochwesentlich ezienter sein als der t-Test.

• Im Falle einer symmetrischen Verteilung ist der WilcoxonTest immer ezienter als der Vorzeichentest. Im Falle einerNormalverteilung beträgt die asymptotische relative Ezi-enz des Wilcoxon Tests im Vergleich zum t-Test ungefähr0, 96 (d.h. der Wilcoxon Test ist fast ebenso ezient wie dert-Test). Für symmetrische, aber nicht normale Verteilungenkann der Wilcoxon Test natürlich wesentlich ezienter seinals der t-Test.

Nichtparametrisch@LS-Kneip 228

Page 80: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

2.6 Zweistichprobenprobleme: Rangtests

Gegeben: Zufallsvariable X und Y mit stetigen Verteilungsfunk-tionen FX und FY

Daten:Unabhängige Zufallsstichproben X1, . . . , Xm und Y1, . . . , Yn

aus Grundgesamtheiten mit den Verteilungsfunktionen FX undFY .Zu testende Nullhypothese: H0 : FX = FY , d.h. die zugrundeliegenden Verteilungen sind gleich.Beispiel: Kaee und SchreibgeschwindigkeitIn einem Experiment wurde der Einuss von Koein auf dieSchreibgeschwindigkeit auf einer Computer-Tastatur gemessen.20 trainierte Probanden wurden zufällig in zwei Gruppen vonjeweils 10 Personen aufgeteilt. Während die erste Gruppe keineGetränke erhielt, wurde der zweiten Gruppe 200 mg Koein inForm von mehreren Tassen Kaee verabreicht. Danach wurdenbei jedem Probanden die Zahl der Anschläge pro Minute auf derComputer-Tastatur gemessen (Durchschnitt aus einem zehnmi-nütigem Schreibtest).

kein Koein (X) 242.8 245.3 244.0 240.2 247.1 248.3241.7 244.7 246.5 240.4

200 mg Ko. (Y) 246.4 251.1 250.2 252.3 248.0 250.9246.1 248.2 245.6 250.0

Frage: Gibt es einen Unterschied zwischen der Schreibgeschwin-digkeit mit und ohne Koein?

Nichtparametrisch@LS-Kneip 229

Page 81: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

• Rangtests beruhen auf den Rängen der Beobachtungen Xi

bzw. Yi in der kombinierten Stichprobe aller N = m + n

Beobachtungen

r(Xi) = Anzahl aller Xj , j = 1, . . . , m, mit Xj ≤ Xi

+ Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Xi

r(Yi) = Anzahl aller Xj , j = 1, . . . , m, mit Xj ≤ Yi

+ Anzahl aller Yj , j = 1, . . . , n, mit Yj ≤ Yi

• Unter H0 : FX = FY ist die kombinierte Stichprobe als ein-fache Zufallsstichprobe des Umfangs N := m + n aus einerGrundgesamtheit mit der Verteilungsfunktion FX = FY auf-zufassen. Die Ränge sollten dann eine rein zufällige Permu-tationen der Zahlen zwischen 1 und N sein. Die Grundideevon Rangtests besteht darin zu überprüfen, ob eine solcheZufälligkeit der Ränge vorliegt, oder ob systematische Un-terschiede zwischen den Rangverteilungen von X und Y aufunterschiedliche Verteilungen (→ Alternative) hinweisen.

Wir betrachten zunächst allgemeine theoretische Eigenschaftenvon linearen Rangstatistiken. Hierbei wird zunächst vorausge-setzt, dass keine Bindungen existieren (FX , FY stetig!). Sei

Vi :=

1 falls die i-te Variable in der kombinierten,geordneten Sichprobe eine X-Variable ist

0 sonst

Lineare Rangstatistiken lassen sich nun allgemein in der Form

LN =N∑

i=1

aiVi

schreiben, wobei a1, a2, . . . geeignete Gewichte (Scores) bezeich-nen.Nichtparametrisch@LS-Kneip 230

Page 82: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Verschiedene Testverfahren unterscheiden sich durch die jeweiligeSpezikation der Gewichte ai.

• (V1, V2, . . . , VN ) ist ein Vektor, der aus m Einsen und n Nul-

len besteht. Es gibt

N

m

verschiedene Kombinationen die-

ser m Einsen und n Nullen, die unter der Nullhypothese allegleich wahrscheinlich sind.

• Unter H0 : FX = FY ist die Verteilung von LN verteilungs-frei. Kritische Werte können durch Auszählen bestimmt wer-den,

P (LN = c |H0) =q(c)

N

m

,

mit q(c) = Anzahl der Vektoren (V1, . . . , VN ) mit LN =∑Ni=1 aiVi = c.

• Unter H0 gilt weiterhin: E(Vi) = m

N

V ar(Vi) = mnN2

Cov(Vi, Vj) = −mnN2(N−1)

E(LN ) = mN

∑Ni=1 ai

V ar(LN ) = mnN2(N−1) (N

∑Ni=1 a2

i − (∑N

i=1 ai)2)

• ZN = LN−E(LN )√V ar(LN )

ist asymptotisch N(0, 1)-verteilt.

Nichtparametrisch@LS-Kneip 231

Page 83: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Rangtests sind typischerweise nicht konsistent gegen alle denk-baren Alternativen. Durch gezielte Wahl der Gewichte ai lassensich jedoch Tests entwickeln, die besonders ezient bei der Ent-deckung von Lage- oder Variabilitätsalternativen sind.

Lagealternativen:

• Man spricht von Lagealternativen, falls FX 6= FY , die Ver-teilungen FX und FY jedoch ähnliche Struktur besitzen undsich nur in der Lage des Zentrums der Verteilung unterschei-den.

• Vereinfachtes Testproblem für Lagealternativen:H0 : FX = FY

H1 : FX(x) = FY (x − θ) für alle x ∈ IR und ein θ ∈ IR,θ 6= 0

• Man beachte jedoch: Die Güte der nachfolgenden Tests (vonWilcoxon und van der Waerden) hängt nicht wesentlich da-von ab, dass die Struktur der beiden Verteilungen (unter derAlternative) ähnlich ist. Wichtig ist nur, dass die Zentren(Mediane) der beiden Verteilungen gegeneinander verscho-ben sind.

• Lineare Rangtests für Lagealternativen sind allgemein da-durch charakterisiert, dass die Gewichte so gewählt werden,dass die Folge a1 < a2 < · · · < an streng monoton steigendist (oder alternativ streng monoton fallend).

Nichtparametrisch@LS-Kneip 232

Page 84: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Wilcoxon-Rangsummentest

Der Wilcoxon Test ist ein Test für Lagealternativen. Er verwen-det eine lineare Rangstatistik mit Gewichten ai = i.Zum Testen von H0 : FX = FY verwendet der Wilcoxon Testdaher die Teststatistik

WN =N∑

i=1

i · Vi =m∑

j=1

r(Xj)

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert entweder WN ≤ ωN,α/2 oder WN ≥ ωN,1−α/2

gilt. Hierbei sind ωN,α/2 und ωN,1−α/2 die entsprechenden Quan-tile der Verteilung von WN unter H0.

• Unter H0 ist die Wn verteilungsfrei. Die kritischen Wertelassen sich durch Auszählen berechnen (siehe oben).

• E(WN ) = m(N+1)2 , V ar(Wn) = mn(N+1)

12

• Asymptotische Approximation (n groÿ): WN approximativnormalverteilt mit Erwartungswert m(N+1)

2 und Varianz mn(N+1)12 .

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenzvon Bindungen = Null). In der Praxis können jedoch Bedingungenexistieren. Dann sind die obigen Verteilungen nur noch approximativgültig, und die Genauigkeit der Approximation sinkt mit der Anzahlder Bedingungen (relativ zu n). In der Literatur wurden jedoch einigeKorrekturformeln entwickelt.

Nichtparametrisch@LS-Kneip 233

Page 85: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Test von van der Waerden

Der Test von van der Waerden ist ebenfalls ein Test für Lageal-ternativen. Er verwendet eine lineare Rangstatistik mit Gewich-ten ai = Φ−1( i

N+1 ). Hierbei ist Φ die Verteilungsfunktion derStandardnormalverteilung.Zum Testen von H0 : FX = FY verwendet dieser Test daher dieTeststatistik

V WN =N∑

i=1

Φ−1(i

N + 1) · Vi =

m∑

j=1

Φ−1(r(Xj)N + 1

)

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert |V Wn| ≥ vwN,1−α/2 gilt. Hierbei ist vwN,α/2

das entsprechende Quantil der Verteilung von V Wn unter H0.

• Unter H0 ist die Wn verteilungsfrei. Die kritischen Wertelassen sich durch Auszählen berechnen (siehe oben).

• Unter H0 ist die Verteilung von Wn symmetrisch um Null.

• E(V WN ) = 0, und V ar(V Wn) = mnN(N−1)

∑Ni=1(Φ

−1( iN+1 ))2

• Für groÿes n ist V WN approximativ normalverteilt.

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenzvon Bindungen = Null). In der Praxis können jedoch Bedingungenexistieren. Dann sind die obigen Verteilungen nur noch approximativgültig, und die Genauigkeit der Approximation sinkt mit der Anzahlder Bedingungen (relativ zu n).

Nichtparametrisch@LS-Kneip 234

Page 86: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Die Güte verschiedener Testverfahren

• Parametrische AlternativeZusatzannahme: Normalverteilungen mit gleichen Varianzen,X ∼ N(µ1, σ

2) und Y ∼ N(µ2, σ2)

⇒ t-Test für zwei Stichproben

T =X − Y

S√

1/n + 1/m

Unter H0 folgt T einer t-Verteilung mit N−2 Freiheitsgraden(Ablehnung von H0, falls |T | zu groÿ).

• Die asymptotische relative Ezienz des Wilcoxon-Rangsummen-tests im Vergleich zum t-Test ist 0.955 bei Annahme ei-ner Normalverteilung. Für stark links- oder rechtssteile Ver-teilungen sowie für Verteilungen mit langen Tails ist derWilcoxon-Rangsummentest ezienter als der t-Test. Die un-tere Grenze der asymptotischen relativen Ezienz ist 0.864,eine obere Grenze existiert nicht.

• Bei Annahme einer Normalverteilung ist die asymptotischerelative Ezienz des van der Waerden Test im Vergleich zumt-Test gleich 1 (d.h. der van der Waerden Test ist dann inetwa genauso gut wie der t-Test). Für Verteilungen mit lan-gen Tails ist der Wilcoxon-Rangsummentest ezienter alsder Test von van der Waerden.

Nichtparametrisch@LS-Kneip 235

Page 87: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Streuungsalternativen:Sowohl der Wilcoxon-Rangsummentest, der Test von van derWaerden als auch der t-Test sind i.Allg. nicht konsistent fürStreuungsalternativen.

• Man spricht von Streuungsalternativen, falls die Lagen derZentren der Verteilungen FX und FY identisch sind, und sichdie beiden Verteilungen nur durch unterschiedliche Streuungunterscheiden.

• Vereinfachtes Testproblem für StreuungsalternativenH0 : FX = FY

Es wird vorausgesetzt, dass die Mediane der beiden Ver-teilungen gleich sind, µmed := µmed,X = µmed,Y . Bezeich-nen FX−µmed

und FY−µmeddann jeweils die Verteilungen

von X − µmed und Y − µmed, so lassen sich Streuungsal-ternativen folgendermaÿen formulieren:H1 : FX−µmed

(x) = FY−µmed(θx) für alle x ∈ IR und ein

θ ∈ IR, θ 6= 0

• Wahl der Gewichte ai bei Tests für Streuungsalternativen:Extrem kleinen und extrem groÿen Beobachtungen werdenkleine Gewichte ai zugewiesen, während die mittleren Messwer-te hohe Gewichte erhalten.

Nichtparametrisch@LS-Kneip 236

Page 88: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Der Siegel-Tukey-Test

Der Test von Siegel und Tukey für Variabilitätsalternativen kannals Analogon zum Wilcoxon-Rangsummentest bei Lagealternati-ven aufgefasst werden.Zum Testen von H0 : FX = FY verwendet dieser Test daher dieTeststatistik

SN =N∑

i=1

ai · Vi,

wobei die Gewichte nach folgender Regel bestimmt werden:

a1 = 1, aN = 2, aN−1 = 3, a2 = 4, a3 = 5, aN−2 = 6,

aN−3 = 7, a4 = 8, a5 = 9, aN−4 = 10, . . .

Ein Test zum Niveau α lehnt die Nullhypothese ab, falls für denbeobachteten Wert entweder SN ≤ ωN,α/2 oder SN ≥ ωN,1−α/2

gilt.

• Unter H0 ist die Verteilung von SN gleich der Verteilung derTeststatistik WN des Wilcoxon-Rangsummentests. KritischeWerte lassen sich daher direkt übertragen.

• E(SN ) = m(N+1)2 , V ar(Sn) = mn(N+1)

12

• Asymptotische Approximation (n groÿ): SN approximativnormalverteilt mit Erwartungswert m(N+1)

2 und Varianz mn(N+1)12 .

Achtung: Die oben angegebenen Verteilungen beruhen auf der Annah-me einer stetigen Zufallsvariablen (Wahrscheinlichkeit der Existenzvon Bindungen = Null). Es ist jedoch möglich, den Test bei Vorhan-densein von Bindungen entsprechend zu modizieren.

Nichtparametrisch@LS-Kneip 237

Page 89: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

2.7 Zweistichprobenprobleme: Der Kolmogoro-Smirno Test

Gegeben: Zufallsvariable X und Y mit stetigen Verteilungsfunk-tionen FX und FY

Daten:Unabhängige Zufallsstichproben X1, . . . , Xm und Y1, . . . , Yn

aus Grundgesamtheiten mit den Verteilungsfunktionen FX undFY .Allgemeines Testproblem:

H0 : FX = FY

H1 : FX 6= FY

• Die jeweiligen empirischen Verteilungsfunktionen FX,m undFY,n sind erwartungstreue und konsistente Schätzer von FX

und FY .

• Falls die Nullhypothese F = F0 also richtig ist, sollten dieAbweichungen |FX,m(x) − FY,n(x)| rein zufällig und hinrei-chend klein sein.

Diese Einsichten führen auf den Zweistichprobentest von Kolmo-goro und Smirno.

Teststatistik:

Dm,n = supx∈IR

|FX,m(x)− FY,n(x)|

Ablehnung von H0, falls Dm,n > dm,n,1−α

Hierbei bezeichnet dm,n,1−α das 1−α-Quantil der Verteilung vonDm,n unter der Nullhypothese.

Nichtparametrisch@LS-Kneip 238

Page 90: NichtparametrischeStatistik - statistik.uni-bonn.de · 1 Einführung Parametrische Statistik: Für gegebene Daten wird das zugrundeliegendestochastischeModellbisaufeinigeunbekann-te

Frage: Verteilung von Dm,n unter H0?

a) Unter der Nullhypothese FX = FY ist die Teststatistik Dn

für alle stetigen Verteilungsfunktionen FX , FY verteilungs-frei. Kritische Werte lassen sich durch Auszählen gewinnen(der Wert von Dm,n hängt nur von der Rängen der X- undY -Werte in der kombinierten, geordneten Stichprobe ab).

b) Asymptotische Verteilung (groÿe Stichproben): Für alleλ > 0 gilt

limn→∞

P (Dm,n ≤ λ/√

mn/(m + n)) = 1−2∞∑

k=1

(−1)k−1e−2k2λ2

c) Der Kolmogoro-Smirno Test ist konsistent für alle Alter-nativen. Für Lagealternativen ist er allerdings weniger ezi-ent als z.B. der Wilcoxon-Rangsummentest.

Nichtparametrisch@LS-Kneip 239