Statistische Tests (Signi kanztests) · Statistische Tests (Signi kanztests) [testing statistical...
Transcript of Statistische Tests (Signi kanztests) · Statistische Tests (Signi kanztests) [testing statistical...
Statistische Tests (Signifikanztests)
[testing statistical hypothesis]
Prufen und Bewerten von Hypothesen (Annahmen,
Vermutungen) uber die Verteilungen von Merkmalen in einer
Grundgesamtheit (Population) auf der Basis vorliegender
Stichproben, die aus dieser Grundgesamtheit gezogen wurden.
Hypothesen uber die Verteilungen in der Grundgesamtheit
beziehen sich z.B. auf
– Parameter (z.B. Durchschnittswert, Median, Varianz),
– die Verteilungsfunktion insgesamt (z.B. deren Form),
– die Unabhangigkeit,
– die Starke bzw. die Form einer Abhangigkeit ...
1
Beispiel (Korpergroße von 10–jahrigen Kindern):
Merkmal(e) Annahme fur die Grundgesamtheit
Korpergroße Die mittlere Korpergroße ist gleich 145 cm.
Korpergroße Die mittlere Korpergroße ist kleiner als 145 cm.
Korpergroße Die Korpergroße lasst sich durch eine
normalverteilte Zufallsvariable beschreiben.
Korpergroße, Die beiden Merkmale sind unabhangig.
Geschlecht
Korpergroße, Die Korpergroße hangt vom Alter
Alter ab, wobei die Abhangigkeit durch eine
Funktion der Art
Korpergroße = a · Alter + b
(lineare Funktion) beschrieben wird.
2
Fiktiver Dialog:
A:”Ich glaube, dass Kinder in diesem Alter im Durchschnitt
145 cm groß sind.“
B:”Wir haben Ergebnisse einer Erhebung mit Angaben von
200 Kindern in diesem Alter, und da lag die durchschnittliche
gemessene Große bei 143.7 cm.“
A:”Na und? Das war bestimmt Zufall! Nimm andere Kinder in
diesem Alter, und dann erhaltst Du etwa den Wert 145 cm.“
Frage: Sind die 1.3 cm Differenz nun Resultat einer
geringeren mittleren Korpergroße in der Grundgesamtheit
oder sind sie nur zufalliges Resultat der Stichprobenziehung
aus der Grundgesamtheit?
3
Wir wollen also folgende Hypothese auf der Basis der uns
vorliegenden Daten von 200 Kindern uberprufen:
Die durchschnittliche Korpergroße aller Kinder in
der Grundgesamtheit betragt 145 cm.
1. Formulierung der Hypothesen:
Vergleich des Durchschnittswertes (Erwartungswertes) µX der
Zufallsvariable X, die die Korpergroße von – rein zufallig
ausgewahlten – 10–jahrigen Kindern aus der
Grundgesamtheit beschreibt, mit einem hypothetisch
unterstellten Durchschnittswert µ0 = 145.
4
Formulieren zweier sich gegenseitig ausschließender Hypothesen:
H0 . . . Nullhypothese [null hypothesis]
HA . . . Alternativhypothese [alternative hypothesis]
H0 : µX = µ0 = 145 (Nullhypothese)
mogliche Alternativhypothesen HA zur Nullhypothese H0
sind z.B.:
HA : µX 6= µ0 = 145 (zweiseitige Alternative)
HA : µX < µ0 = 145 (einseitige Alternative)
Eine einseitige Alternative wird benutzt, wenn es eine
interessierende Richtung der Abweichung von H0 gibt.
5
2. Festlegung des Signifikanzniveaus [level of
significance] α:
Wir legen die Irrtumswahrscheinlichkeit fest, mit der wir die
Nullhypothese falschlicherweise ablehnen, obwohl sie wahr ist.
Ubliche Werte: α zwischen 0.1 und 0.005
Wir wahlen im Beispiel α = 0.05.
6
3. Aufstellen einer Testgroße [test statistic] T :
Die Testgroße ist eine Stichprobenfunktion, deren Verteilung
unter der Annahme, dass H0 wahr ist, (zumindest
naherungsweise) bekannt sein muss.
Fur AnwenderInnen:
– bekannte Tests aus der Literatur.
– Fragen Sie Ihre Statistikerin oder Ihren Statistiker.
Wichtig: Auswahl eines fur die Daten (Skalenniveau)
und die Fragestellung geeigneten Testverfahrens.
Haufig setzt die Anwendung eines Testverfahrens weitere
Modellannahmen voraus, uber die nachzudenken ist, und die
zunachst untersucht und evtl. auch getestet werden sollten.
7
Im Beispiel: Anwendung des einfachen t–Tests
(SPSS: Analysieren → Mittelwerte vergleichen
→ T–Test bei einer Stichprobe).
Testvoraussetzungen:
– X normalverteilt oder
– Stichprobenumfang n hinreichend groß (n > 30)
Testgoße T fur einfachen t–Test:
T =X − µ0SX
·√n
8
Wenn die Voraussetzungen erfullt sind und H0 richtig ist,
dann gilt (zumindest naherungsweise) fur eine entsprechende
mathematische Stichprobe:
T ist t–verteilt mit n− 1 Freiheitsgraden.
Fur die konkrete Stichprobe erhalten wir
x = 143.7
sX = 7.223
n = 200
Unter der gewahlten Nullhypothese H0 gilt µ0 = 145, und fur
die konkrete Testgroße ergibt sich demnach
t = −2.545
9
4. Ermittlung der Uberschreitungswahrscheinlichkeit
[p-value] (p–Wert):
Ist H0 wahr (ist µ0 also der wahre Erwartungswert), so sollte
die konkrete Stichprobe einen Wert t der Testgroße in der
Nahe von 0 ergeben (x ≈ µ0).
Daher ist H0 abzulehnen, wenn der Wert t”weit weg“ von 0
in Richtung auf HA liegt.
10
Wird die zweiseitige Alternativhypothese HA : µX 6= µ0 = 145
verwendet, dann sind Abweichungen des beobachteten
Durchschnittswerts x von µ0 = 145 nach oben und nach
unten zu berucksichtigen, und die Uberschreitungs-
wahrscheinlichkeit
P (|T | ≥ |t|) = P (T ≤ −|t|) + P (T ≥ |t|)
muss ermittelt werden.
Auf Grund der Symmetrie der t–Verteilung gilt
P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)
11
Wird die einseitige Alternativhypothese HA : µX < µ0 = 145
verwendet, dann ist nur die Abweichung des beobachteten
Durchschnittswerts x von µ0 = 145 nach unten zu
berucksichtigen und
P (T ≤ t)
zu ermitteln.
12
SPSS berechnet beim einfachen t–Test die
Uberschreitungswahrscheinlichkeit
P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)
fur die zweiseitige Alternative HA : µX 6= µ0 unter der
Bezeichnung Sig. (2-seitig).
Im Beispiel erhalten wir
P (|T | ≥ |−2.545|) = P (|T | ≥ 2.545)
= 0.012
13
Will man die einseitige Alternative HA : µX < µ0 = 145
verwenden, so ist zur Ermittlung der zugehorigen
Uberschreitungswahrscheinlichkeit P (T ≤ t) der von SPSS
ausgegebene Wert zu halbieren, falls t negativ ist.
Ist t positiv, so gilt P (T ≤ t) ≥ 0.5.
Im Beispiel erhalten wir wegen t = −2.545 < 0
P (T ≤ −2.545) =1
2· P (|T | ≥ 2.545)
=1
2· 0.012
= 0.006
14
Allgemein:
Ablehnung von H0, wenn der Wert der Testgroße t”weit
weg“ (im Hinblick auf HA) von den unter H0 typischen
Werten von T liegt.
Typische Werte der Verteilung der Testgroße haben große
Einzelwahrscheinlichkeiten bzw. große Werte der Dichte.
15
5. Anwendung der Entscheidungsregel:
Ist die ermittelte Uberschreitungswahrscheinlichkeit (p–Wert)
kleiner oder gleich dem gewahlten Signifikanzniveau α, so
wird die Nullhypothese H0 abgelehnt.
Im anderen Falle ist gegen H0 nichts einzuwenden.
16
Damit wird H0 : µX = µ0 = 145 bei Verwendung der zwei-
seitigen Alternativhypothese HA : µX 6= µ0 = 145 und des
Signifikanzniveaus α = 0.05 abgelehnt, denn fur den
p–Wert gilt
P (|T | ≥ |t|) = 0.012 ≤ 0.05 = α
H0 wird naturlich auch bei Verwendung der einseitigen
Alternativhypothese HA : µX < µ0 = 145 abgelehnt, denn fur
den zugehorigen p–Wert gilt
P (T ≤ t) =1
2· 0.012 = 0.006 ≤ 0.05 = α
17
Im betrachteten Beispiel ist also die Wahrscheinlichkeit
zufallig in einer Stichprobhe eine Abweichung von mindestens
1.3 cm nach oben oder nach unten vom hypothetisch
unterstellten Durchschnittswert µ0 = 145 zu erleben nur
0.012.
Wenn also die Nullhypothese gilt, ist das nur in 1.2% aller
Falle bei mathematischen Stichproben vom Umfang n = 200
zu erwarten.
Bei dem gewahlten Signifikanzniveau von α = 0.05 fuhrt das
zur Ablehnung der Nullhypothese. Hatten wir dagegen ein
Signifikanzniveau α = 0.01 – also eine kleinere
Irrtumwahrscheinlichkeit – verwendet, so wurde das nicht zur
Ablehnung von H0 fuhren.
18
6. Mogliche Fehlentscheidungen:
Bei der Verwendung der Nullhypothese H0 und der
Alternativhypothese HA gibt es zwei mogliche
Fehlentscheidungen.
Fehler erster Art [type I error]:
Die Nullhypothese H0 wird abgelehnt, obwohl sie richtig ist.
Fehler zweiter Art [type II error]:
Die Nullhypothese H0 wird nicht abgelehnt, obwohl die
Alternativhypothese HA richtig ist.
19
Die verwendete Entscheidungsregel fur einen
Signifikanztest zum Signifikanzniveau α
sichert, dass eine wahre Nullhypothese H0 hochstens mit
Wahrscheinlichkeit α abgelehnt wird.
Die Wahrscheinlichkeit fur einen Fehler erster Art ist
also stets kleiner oder gleich α,
denn die Uberschreitungswahrscheinlichkeit wird unter der
Annahme berechnet, dass H0 wahr ist.
20
Die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen
ist bei einem Signifikanztest i.a. nur sehr schwierig oder gar
nicht ermittelbar, denn die Verteilung von T ist unter der
Alternativhypothese in vielen Fallen nicht bekannt.
Problem: Reduziert man die Wahrscheinlichkeit fur den
Fehler erster Art (durch ein kleineres α), so vergroßert sich
die Wahrscheinlichkeit fur Fehler zweiter Art, und umgekehrt.
In welchem Maße dies geschieht, ist i.a. unbekannt.
21
Bei einem sehr kleinen α wird H0 nur abgelehnt, wenn man
sich sehr sicher ist, dass die Ablehnung richtig ist. Dann
haben wir jedoch eine große Wahrscheinlichkeit fur den
Fehler 2. Art.
Mit einem hinreichend kleinem α lasst sich demnach jede
Nullhypothese”retten“.
22
Will man bei Nichtablehnung von H0 eine Entscheidung
formulieren, dann z.B.”Auf der Basis der Stichprobe ist
gegen H0 nichts einzuwenden“.
Fehlentscheidungen bei Signifikanztests lassen sich nur fur
den Fall der Ablehnung der Nullhypothese quantifizieren.
Der Fehler 1. Art ist dann hochstens α.
Aus diesem Grunde wird haufig die eigentlich zu
untersuchende Arbeitshypothese als
Alternativhypothese formuliert. Wird dann die
Nullhypothese abgelehnt, so wird die verfolgte
Arbeitshypothese ”indirekt bestatigt”.
23
Einfacher t–Test
Anliegen: Uberprufung von Hypothesen uber das
Zusammenfallen des Erwartungswertes µX einer
Zufallsvariable X mit einem vorgegebenen Wert bei
unbekannter Varianz (mindestens Intervallskala erforderlich).
Voraussetzungen: (X1, . . . , Xn) mathematische Stichprobe
aus einer normalverteilten Grundgesamtheit oder mit
hinreichend großem Stichpobenumfang (n > 30).
24
Hypothesen:
H0 : µX = µ0 HA : µX 6= µ0 (1)
HA : µX < µ0 (2)
HA : µX > µ0 (3)
Testgroße:
T =X − µ0SX
·√n
Unter H0 ist T (naherungsweise) t–verteilt mit n− 1
Freiheitsgraden.
25
p–Wert:
p = P (|T | ≥ |t|) bei (1)
p = P (T ≤ t) bei (2)
p = P (T ≥ t) bei (3)
Entscheidungsregel:
Ablehnung von H0, falls p ≤ α.
Bemerkung: Ist die Varianz von X bekannt, kommt der
weitgehend aquivalente Gauß–Test zur Anwendung.
26