Patric M uller [email protected] · Woche 9: Hypothesentests f ur zwei Stichproben...

23
Woche 9: Hypothesentests f ¨ ur zwei Stichproben Patric M¨ uller <[email protected]> ETHZ WBL 19/21, 24.06.2019 Wahrscheinlichkeit und Statistik Patric M¨ uller WBL 2019

Transcript of Patric M uller [email protected] · Woche 9: Hypothesentests f ur zwei Stichproben...

Woche 9: Hypothesentests fur zwei Stichproben

Patric Muller <[email protected]>

ETHZ

WBL 19/21, 24.06.2019

Wahrscheinlichkeit und Statistik Patric Muller WBL 2019

Teil XI

Hypothesentests fur zwei Stichproben

Wahrscheinlichkeit und Statistik 2 / 23 WBL 2019

Lernziele

Sie konnen. . .

. . . die richtige Wahl zwischen einem Ein- und einemZweistichproben-Test (bzw. zwischen einem gepaarten undungepaarten Test) treffen

. . . einen Zweistichproben-t-Test (ungepaarten t-Test) durchfuhren,von Hand und in R

. . . ein Vertrauensintervall fur die Differenz zweier Erwartungswerteberechnen

. . . einen Mann-Whitney-U-Test und einen Kolmogorov-Smirnov-Testin R durchfuhren

Vorlesung basiert auf Kapitel 4.8 des Skripts

Wahrscheinlichkeit und Statistik 3 / 23 WBL 2019

Beispiel: Monoaminooxidase und Schizophrenie

Monoaminooxidase (MAO):Enzym, das vermutlich eineRolle spielt in der Regulierungdes Verhaltens

Studie: Aktivitatsniveau von 42Patienten mit unterschiedlichemTyp von Schizophrenieuntersucht

510

15

Schizophrenie−Typ

MA

O−

Akt

ivitä

t

I II III

(Potkin et al., 1978)

Haben Patienten mit unterschiedlichem Schizophrenie-Typ imDurchschnitt unterschiedliche MAO-Aktivitatsniveaus?

Was sind die wesentliche Unterschiede zum Datensatz mit derDurchblutung vor und nach Kaffee-Konsum?

Wahrscheinlichkeit und Statistik 4 / 23 WBL 2019

Zwei vs. drei Stichproben

Im MAO-Datensatz gibt es drei Stichproben!

Prazisierung der Fragestellung:I Wir werden nur zwei Stichproben vergleichen, z.B. Typ I mit Typ II.I Fragestellung: Haben Patienten mit Schizophrenie-Typ I im

Durchschnitt unterschiedliche MAO-Aktivitatsniveaus als die mitTyp II?

Wir vergleichen nie mehr als zwei Stichproben gleichzeitig!I Die Frage “Haben Patienten mit unterschiedlichem Schizophrenie-Typ

im Durchschnitt unterschiedliche MAO-Aktivitatsniveaus?” wird nicht(direkt) beantwortet.

I Drei oder mehrere Stichproben kann man auch gleichzeitig vergleichen,z.B. mit einer ANOVA (Varianzanalyse).

Da wir sowieso nur zwei Stichproben vergleichen werden, spielteigentlich die Anzahl Stichproben keine Rolle bei derTestdurchfuhrung.

Wahrscheinlichkeit und Statistik 5 / 23 WBL 2019

Gepaart vs Ungepaart

Situation beim Kaffekonsum: (Stichproben sind gepaart)I Bei Person i werden die Messwerte Yi und Zi gemessen.I Die Messwerte Y7 und Z7 sind Messungen von Person 7.I Messwerte der beiden Stichproben konnen gepaart werden, denn z.B.

die Messwerte Y7 und Z7 sind beide von der Person 7 generiert worden.

Situation bei der MAO-Aktivitat: (Stichproben sind ungepaart)I Messwert i von der Stichprobe “Typ I” (Xi ) hat keinen speziellen Bezug

zu Messwert i von der Stichprobe “Typ II” (Yi ).I Die Stichproben sind ungepaart. Die Messungen X7 und Y7 sind

Messungen von zwei unterschiedlichen Personen.I Die gemeinsame Zuordnung der Daten spielt keine Rolle.

Gepaarte Stichproben haben immer die gleiche Anzahl Messungen.

Dieser Unterschied ist wesentlich und beeinflusst dieTestdurchfuhrung.

Wahrscheinlichkeit und Statistik 6 / 23 WBL 2019

MAO-Datensatz: zwei Stichproben vergleichen

Tests fur zwei (ungepaarte) Stichproben:I t-Test fur zwei Stichproben (oder

”ungepaarter“ t-Test)

I Mann-Whitney-U-TestI Kolmogorov-Smirnov-TestI . . . und viele weitere, hier nicht behandelt

Wahrscheinlichkeit und Statistik 7 / 23 WBL 2019

MAO-Datensatz: ungepaarter t-Test

1 Modell: Xi , Yi : MAO-Aktivitat von Patienten mit Schizophrenie vonTyp I bzw. II.

X1, . . . ,Xni.i.d.∼ N (µX , σ

2)

Y1, . . . ,Ymi.i.d.∼ N (µY , σ

2)

2 Nullhypothese: H0 : µX = µYAlternativhypothese: HA : µX 6= µY

3 Teststatistik: T = X−Y

spool√

1/n+1/m= 3.1151, wobei

s2pool =1

n + m − 2

((n − 1)s2x + (m − 1)s2y

)s2pool heisst gepoolte Stichproben-Varianz: es ist ein Schatzer fur die(in beiden Stichproben als identisch angenommene) VarianzVerteilung von T unter H0: T ∼ tn+m−2

Wahrscheinlichkeit und Statistik 8 / 23 WBL 2019

MAO-Datensatz: ungepaarter t-Test

4 Signifikanzniveau wahlen: z.B.α = 5%

5 Verwerfungsbereich:K = (−∞,−tn+m−2,1−α/2] ∪[tn+m−2,1−α/2,∞)tk,α: α-Quantil der t-Verteilung mit kFreiheitsgraden (df)Hier: df = n + m − 2 = 32;tn+m−2,1−α/2 = t32,0.975 = 2.0369

−3 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

t

p(t)

Quantile in R berechnen:> qt(0.975, n+m-2)

[1] 2.036933

Wahrscheinlichkeit und Statistik 9 / 23 WBL 2019

MAO-Datensatz: ungepaarter t-Test

6 Testentscheid: H0 wird verworfen, falls T ∈ K , andernfallsbeibehaltenHier: T = 3.1151, K = (−∞,−2.0369] ∪ [2.0369,∞); X ∈ K , daherwird H0 verworfen

p-Wert: kleinstes Signifikanzniveau α, fur welches H0 verworfen wirdHier: p = 2 ∗ (1− F (T )), wobei F die kumulative Verteilungsfunktionmit n + m − 2 Freiheitsgraden beschreibt.> 2*(1 - pt(T, n + m - 2))

[1] 0.003863469

Wahrscheinlichkeit und Statistik 10 / 23 WBL 2019

Schneller geht’s mit R. . .

> t.test(x, y, alternative = "two.sided", paired = FALSE, conf.level = 0.95)

Welch Two Sample t-test

data: x and y

t = 3.1578, df = 31.647, p-value = 0.003483

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

1.249945 5.798666

sample estimates:

mean of x mean of y

9.805556 6.281250

Wahrscheinlichkeit und Statistik 11 / 23 WBL 2019

Annahmen prufen

Die Annahmen der Normalverteilung der beiden Variablen X und Y sollten(graphisch) gepruft werden:

4 6 8 10 14

510

15Q−Q−Plot: X

Theoretische Quantile

Em

piris

che

Qua

ntile

4 6 8 10 14

510

15

Q−Q−Plot: Y

Theoretische QuantileE

mpi

risch

e Q

uant

ile

Wahrscheinlichkeit und Statistik 12 / 23 WBL 2019

Nicht-parametrische Tests fur zwei Stichproben

Was tun, wenn die Voraussetzungen fur den gepaarten t-Test nichterfullt sind?

Alternative: nicht-parametrische Tests:I Mann-Whitney-U-Test (auch

”Wilcoxon-Mann-Whitney-Test“ genannt)

I Kolmogorov-Smirnov-Test

Beide Alternvativen lassen sich auf zwei unabhangige StichprobenX1, . . . ,Xn und Y1, . . . ,Ym anwenden.

Wahrscheinlichkeit und Statistik 13 / 23 WBL 2019

Mann-Whitney-U-Test

1 Modell: Verteilung der Stichproben Xi und Yi unterscheidet sichbloss um eine Verschiebung, ist sonst aber beliebig. Formal:

X1, . . . ,Xni.i.d.∼ FX = F (x),

Y1, . . . ,Ymi.i.d.∼ FY = F (y − a),

also FY (y) = FX (y − a).

2 Nullhypothese: H0 : a = 0 (keine Verschiebung, d.h. identischeVerteilungen)Alternativhypothese: HA : a 6= 0

Teststatistik und deren Verteilung sind kompliziert, in der Praxis nur mitSoftware zu berechnen.

Wahrscheinlichkeit und Statistik 14 / 23 WBL 2019

Mann-Whitney-U-Test in R

Mann-Whitney-U-Test ist auch in R-Funktion wilcox.test

implementiert:> wilcox.test(x, y, alternative = "two.sided", paired = FALSE,

conf.level = 0.95)

Wilcoxon rank sum test with continuity correction

data: x and y

W = 221.5, p-value = 0.007852

alternative hypothesis: true location shift is not equal to 0

Wahrscheinlichkeit und Statistik 15 / 23 WBL 2019

Mann-Whitney-U-Test: Annahmen prufen

Annahme, dass sich Verteilung beider Stichproben hochstens durch eineVerschiebung unterscheidet, ist nicht einfach zu prufen. Moglichkeit: beideempirischen kumulativen Verteilungsfunktionen plotten:

0 5 10 15 20

0.0

0.4

0.8

Emp. kumul. Vert.fn.

x

Fn(

x)

XY

Wahrscheinlichkeit und Statistik 16 / 23 WBL 2019

Kolmogorov-Smirnov-Test

1 Modell:

X1, . . . ,Xni.i.d.∼ FX ,

Y1, . . . ,Ymi.i.d.∼ FY

(keine weiteren Annahmen uber die Verteilungen von X und Y )

2 Nullhypothese: FX = FY (beide Grossen haben dieselbe Verteilung)Alternativhypothese: FX 6= FY

3 Teststatistik: d = maximale Differenz zwischen empirischenkumulativen Verteilungsfunktionen von X und Y . Verteilung von dunter Nullhypothese ist kompliziert.

Wahrscheinlichkeit und Statistik 17 / 23 WBL 2019

Kolmogorov-Smirnov-Test in R

> ks.test(x, y, alternative = "two.sided")

Two-sample Kolmogorov-Smirnov test

data: x and y

D = 0.40972, p-value = 0.1164

alternative hypothesis: two-sided

Wahrscheinlichkeit und Statistik 18 / 23 WBL 2019

Uberblick: verschiedene Tests und p-Werte furMAO-Datensatz

Test p-Wert, 2-seitig Annahmet-Test 0.00348 NormalverteilungMann-Whitney-U-Test 0.00785 VerschiebungKolmogorov-Smirnov-Test 0.11637 –

Je weniger Annahmen ein Test macht,

desto universeller einsetzbar ist er,

desto kleiner ist aber seine Macht.

Wahrscheinlichkeit und Statistik 19 / 23 WBL 2019

Wie aussagekraftig sind p-Werte?

Beispiel t-Test: Nullhypothese macht Aussage uber Erwartungswert(oder Differenz von Erwartungswerten), nicht uber ganze Verteilung.

Nullhypothese ist nie exakt richtig. Mit genugend grosser Stichprobekonnen wir jede Nullhypothese verwerfen, bzw. beliebig kleinep-Werte erhalten.

Wissenschaftliche Publikationen: gewisse Journals verbieten aus demGrund sogar die Publikation von p-Werten. . .

Alternative zum t-Test: Effektstarke berechnen

Wahrscheinlichkeit und Statistik 20 / 23 WBL 2019

Effektstarke

Situation: Zwei Stichproben, eine aus bestimmtem experimentellemSetting ({Xi}i ), eine aus

”Kontrollgruppe“ ({Yi}i )

Effektstarke d =X − Y

spool

(es gibt alternative Definitionen)

−4 −2 0 2 4

0.0

0.2

0.4

0.6

0.8

Grosse Effektstärke

x

p(x)

−4 −2 0 2 4

0.05

0.10

0.15

0.20

Kleine Effektstärke

x

p(x)

controlexp.

Wahrscheinlichkeit und Statistik 21 / 23 WBL 2019

MAO-Datensatz: Effektstarke

Im MAO-Datensatz haben wir

X = 9.806

Y = 6.281

spool = 3.293,

daher eine Effektstarke von

d =9.806− 6.281

3.293= 1.07

yD

ensi

ty

0 5 10 15 20

0.00

0.05

0.10

0.15

X (Typ I)Y (Typ II)

Wahrscheinlichkeit und Statistik 22 / 23 WBL 2019

Literatur

Steven G Potkin, H Eleanor Cannon, Dennis L Murphy, and Richard Jed Wyatt. Areparanoid schizophrenics biologically different from other schizophrenics? New EnglandJournal of Medicine, 298(2):61–66, 1978.

Wahrscheinlichkeit und Statistik 23 / 23 WBL 2019