Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII...

41
2010 Brigitte Wessenberg TEIL2 STATISTIK NACH DER MATURA, TESTSTATISTIK Grundlage für den Übertritt in Hochschulen und Fachhochschulen

Transcript of Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII...

Page 1: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

2010

Brigitte Wessenberg

TEIL2 STATISTIK NACH DER MATURA, TESTSTATISTIK

Grundlage für den Übertritt in Hochschulen und Fachhochschulen

Page 2: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

2

Das vorliegende Skriptum ist als kostenlose Lernhilfe für Absolventinnen und Absolventen gedacht, die an Hochschulen oder Fachhochschulen mit Statistik zu tun haben. Es orientiert sich an der Statistik-Broschüre der Sportuni Wien (Baca u.a.), die ohne didaktischen Hintergrund den Umfang an Statistik-Wissen für die Studierenden festlegt. Voraussetzung für das Verständnis: Mathematik-Standardwissen nach Beendigung einer Höheren Schule (AHS, BHS). Das vorliegende Skriptum behandelt KEINE Software Anwendungen (SPSS, R, EXCEL etc), sondern nur die allgemeinen Grundlagen. Es verwendet Beispiele und Aussagen aus folgenden Werken, die zahlreiche Beispiele zum weiterführenden Üben enthalten.

Ingenieur-Mathematik 4, Timischl, Kaiser, Verlag E. Dorner Angewandte Statistik, Lothar Sachs, Springer-Verlag Statistik für Dummies, Deborah Rumsey, Verlag Wiley-VCH Statistik für Ahnungslose, Detert/ Söhl, Verlag Hirzel Mathematik für HTL, Schärf, Oldenburg-Verlag Mathematik 8, Szirucsek ua./Verlag HPT Mathematik 4 HAK, Schneider u.a., Trauner Verlag Lehrbuch der Mathematik, Reichel u.a./HPT Verlag Mathematik 4 Oberstufe, Bürger-Fischer-Malle, HPT Verlag Mathematik für Ökonomen, Dück u.a. /Verlag Harri Deutsch www.lernstats.de

! In der Hauptsache wird das PDF-Skriptum von Dr. Andreas Handl

„Einführung in die Statistik mit R“ 558 Seiten, herangezogen. http://www.wiwi.uni-bielefeld.de/~frohn/Mitarbeiter/Handl/statskript.pdf Dieses Skriptum ist didaktisch gut aufgebaut und bringt auch die sonst kaum je erwähnten Ableitungen und Hintergründe, sowie eine ausführliche Begleitung durch die Freeware R. Sehr empfehlenswert!

Page 3: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

3

5Inhalt von Teil 2: Teststatistik Das Testen von Mittelwerten 4 I Einstichprobenproblem 4

1. Vergleich einer Stichprobe mit einer theoretischer Verteilung 4 2. Vergleich von Mittelwerten, zweiseitig 5 3. Einseitiger z-Test mit einer Stichprobe 7

II Zweistichprobenproblem 8 1. Zwei unabhängige Stichproben 8 2. Zwei abhängige Stichproben 13

Verfahren zur Überprüfung von Varianzen 16 I Vergleich empirische Varianz mit ihrem Parameter 16

1. µ unbekannt χ² 16 2. µ bekannt χ² 17

II Vergleich der Varianz bei 2 unabhängigen Stichproben 17

Verfahren zur Überprüfung von Häufigkeiten 18 I Einfacher χ²-Test 18

1. χ²-Test für k Kategorien 18 2. χ² für k = 2, dichotom 19 3. χ²-Anpassungstest 19

II Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder χ² 23 3. I, k – Felder χ², k Kategorien 24

III Test für abhängige Stichproben 24 Mc Nemar χ² -Test 24

Verfahren zur Überprüfung von Zusammenhängen 25 I Überprüfung der Pearson Korrelation 25 II Überprüfung der Spearman Korrelation 26

Varianzanalyse ANOVA 28

Einige weitere Begriffe 30 I Effektgröße 30 II Teststärke 31 III Optimale Stichprobengröße 33

Auswahl inferenzstatistischer Verfahren 34 I Übersicht über die Tests 34 II Welcher Test, wozu und wann? 35

Anhang Tabellen 36 z-verteilung 36 χ²-verteilung 37 t- verteilung 38 F-Verteilung 40

Page 4: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

4

Das Testen von Mittelwerten Beim Testen geht es um den Vergleich von 2 Grundgesamtheiten hinsichtlich eines Parameters. man unterscheidet prinzipiell zwischen mehreren Arten von Tests: -Signifikanztest: es wird eine einzige Hypothese aufgestellt (Nullhypothese), die darauf hin geprüft wird, ob sie verworfen werden muss oder nicht. BSP: Jemand behauptet, er kann erkennen, ob in einem Tee zuerst die Milch und dann der Tee in die Tasse gegossen wird. Stellt man 2 Tassen hin 50% Möglichkeit die Aussage verwerfen zu müssen. Stellt man 8 Tassen (4 jeder Art hin), dann ist die Möglichkeit des Irrtums bereits 1:70. -Parametertest: testet Hypothesen über einen Parameter im Vergleich zu einem Sollwert oder unter 2 Grundgesamtheiten, wobei die Parameter meist aus einer Stichprobe geschätzt werden. (zB µ= µ0 ) -Anpassungstest: prüft, ob eine beobachtete Verteilung mit einer hypothetischen übereinstimmt. zB Prüfung, ob Merkmale mit einer Normalverteilung zusammenhängen.

I Einstichproben-Problem

Man hat es hiebei mit nur einer gezogenen Stichprobe zu tun. 1. Vergleich einer Stichprobe mit einer theoretischen Verteilung Die Stichprobe soll aus einer normalverteilten Grundgesamtheit stammen (oder aus einer Verteilung, die mit der Normalverteilung angenähert werden kann)

Die Hypothese, dass 2 Grundgesamtheiten hinsichtlich eines Parameters (µ oder σ) übereinstimmen, wird Nullhypothese H0 genannt. Es wird dabei meist angenommen, dass sie sich nicht unterscheiden, dass die Differenz von beiden = 0 ist. Statistische Tests können nur Unterschiede feststellen, daher wird die Nullhypothese meistens aufgestellt, um durch eine Alternativhypothese H1 verworfen zu werden. H0 kann verworfen (bzw. akzeptiert) nur dann werden, wenn zwischen den beiden Grundgesamtheiten ein echter Unterschied besteht. Es sind – schon allein wegen der Variationen innerhalb der Stichproben von einer einzigen Grundgesamtheit – eigentlich immer Unterschiede zu erwarten. Ob diese Unterschiede nur zufällig oder wesentlich sind, das entscheiden wir selber mit, indem man vor Aufstellen der Hypothese festlegen, mit welcher Irrtumswahrscheinlichkeit α wir etwas als UNWAHRSCHEINLICH ansehen wollen. Meist wird α= 5% verwendet. (Bei Vorliegen einer Normalverteilung ist dies die 1,96 σ – Grenze oder 95% Sicherheit)

Page 5: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

5

BSP: Wir werfen eine Münze. Wie oft mal hintereinander wird Zahl geworfen, so dass das Ergebnis gerade noch als zufällig gelten kann bei einer Irrtumswahrscheinlichkeit (Signifikanz) von 5%? P (4-mal Zahl hintereinander) = 1/24 = 0,0625 = 6,3% > 5% P (5-mal hintereinander Zahl = 1/25 = 0,03125= 3,1 %< 5% Wird 4-mal hintereinander Zahl geworfen, so ist dies mit Signifikanz von 5 % gerade noch als zufällig zu sehen, 5- mal nicht mehr. Stichprobenergebnisse führen nur zu 2 möglichen Aussagen: 1. Entscheidung überAkzeptieren oder Verwerfen der Nullhypothese 2. Angabe von Vertrauensbereichen.

Beim Prüfen von Hypothesen sind Fehlentscheidungen möglich: H0 wird abgelehnt aber H0 ist wahr: Fehler 1. Art, Risiko I. H0 wird beibehalten aber H0 ist falsch: Fehler 2. Art, Risiko II.

BSP. Bei einem Versuch stellt man fest, dass ein neues Medikament besser ist. (H0 verworfen) In Wirklichkeit ist es dem alten gleichwertig. Das ist ein Fehler 1. Art. Die geringe Wahrscheinlichkeit, eine gültige H0 abzulehnen, entspricht der Irrtumswahrscheinlichkeit α. Stellt man bei dem Versuch fest, dass beide Medikamente gleichwertig sind (H0 akzeptiert) und in Wirklichkeit stellt sich heraus, dass das neue Medikament besser ist, dann ist dies ein Fehler 2. Art, Risiko II. Die Wahrscheinlichkeit, eine falsche H0 beizubehalten bezeichnet man mit ß. Sind α und n vorgegeben, dann ist das Risiko II umso größer, je kleiner α ist. Bei sehr großem n kann ß sehr klein gewählt werden. Meist wird α fest vorgegeben und ß dazu möglichst klein gewählt. 2. Vergleich von Mittelwerten, zweiseitiger Test, Grundgesamtheit normalverteilt a) z-Test bei bekanntem σ und nicht ganz kleinem n. BSP: Eine Anlage ist durch die Werte von µ0 = 25 und σ0 = 6 in einer normalverteilten Grundgesamtheit charakterisiert. Wir entnehmen eine Stichprobe mit n=36 Elementen. Die Berechnung ergibt als Mittelwert = 23,2. x stammt aus einer normalverteilten Grundgesamtheit (mit µ unbekannt und σ= σ0 ).

H0 : µ = µ0 Man nimmt an, dass die Grundgesamtheit, aus der die Stichprobe stammt, dem Sollwert der Anlage entspricht. H 1 = µ ≠ µ0 . Alternativhypothese: H0 stimmt nicht. Fragestellung. Kann die Annahme, dass die Mittelwerte gleich sind, bei einem Signifikanzniveau von 1% aufrecht erhalten werden?

Der Hypothesentest H0: µ = µ0 ist ein zweiseitiger Test. Die Irrtumswahrscheinlichkeit verteilt sich links und rechts von Konfidenzintervall.

Bei über 36 Elementen der Stichprobe und bekanntem σ kann man die Normalverteilung verwenden, um den Tabellenwert der entsprechenden Signifikanz zu bestimmen. Bei einer großen Stichprobe (n> 30) nähert sich der Stichprobenwert s recht genau σ aus der Grundgesamtheit an. Das heißt, man kann ab 30 statt z auch die t-Verteilung verwenden Berechnen des Tabellenwerts bei einer Signifikanz von 1%, das bedeutet, dass 0,5% links und 0,5% rechts vom 99% Vertrauensbereich S liegen, daher z1 = INV Φ(0,005) und z2 = INV Φ(0,995). Wir erhalten daher den Bereich: S= [-2,58/ + 2,58]. zs= 2,58…z-Wert für 99,5% (2-seitiger Test!), t-Tabelle: t35, 0,005 = 2,72

Page 6: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

6

Da der Umfang der Stichprobe n ≥ 30: Die Standardisierung der Normalverteilung, die bei großer Stichprobe verwendet werden kann, ergibt den zu berechnenden Prüfwert mit der z-Transformation oder auch mit der t-Transformation:

√ (beachte: µ = gesetzt!) = (23,2-25) /(6:6) = -1,8 oder

√ = -1,8

Zur Erinnerung: Die Mittelwerte von Stichproben (alle mit Umfang n) normalverteilter Merkmalswerte (µ,σ) sind auch normalverteilt:

Mittelwert = µ und

Entscheidung: Der Schätzwert für den Mittelwert liegt demnach auf jeden Fall im 99%-Bereich. Es gilt, dass der Betrag des Prüfwerts kleiner als der z-Tabellenwert ist, 1,8<2,58, und auch kleiner als der t-Tabellenwert t35, 0,05 = 2,72, daher wird die H0 wird auf Signifikanzniveau 1% aufrechterhalten. Die Mittelwerte beider Grundgesamtheiten stimmen mit einer Irrtumswahrscheinlichkeit von 1% überein. (| | ….

Was passiert, wenn man bei diesem Test das Signifikanzniveau ändert?

Ändert man in der Fragestellung das Signifikanzniveau auf 5%, so liegen die z-Grenzen zwischen [-1,96, 1,96] wird H0 ebenfalls nicht abgelehnt. Der Tabellenwert: zs= 1,96… der t-Wert: t35,0,025 =2,03 Entscheidung: Die Mittelwerte der beiden Grundgesamtheiten sind auch mit einer Irrtumswahrscheinlichkeit von 5% noch immer gleich, weil der Betrag des Prüfwerts 1,8 immer noch kleiner ist als der z-Tabellenwert 1,96 oder der t-Tabellenwert 2,03

Was passiert, wenn man den Stichprobenumfang stark vergrößert? Ändert man die obige Untersuchung durch eine Stichprobe mit n = 169, dann sieht das so aus: Der Prüfwert ist| |= |(23,2-25) /(6:13)| = 3,25. ztabelle = 2,56 z-wert für 99,5% bzw 1,96 für 97,5.. 2-seitiger Test! t-Tabelle: t168, 0,005 = 2,61 Entscheidung: Dieser Wert liegt außerhalb des 99% -Vertrauensbereichs und auch des 95% Bereichs. Mit einer solch großen Stichprobe kann auf 5% und auf 1% Signifikanz die H0 verworfen werden. µ ist größer oder kleiner als µ0. Es gilt in diesen Fällen beides Mal: Prüfwert ist größer als der Tabellenwert für die z- oder die t-Tabelle.

Page 7: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

7

b) t – Test, wenn man σ nicht kennt Zur Erinnerung: t-Verteilung nimmt man bei großem Umfang der Stichprobe n>30 und bei unbekannten σ, das heißt σ wird aus der Stichprobe geschätzt und durch s ersetzt. Laut Tabelle erhalten wir: für 99% Sicherheit, 2-seitiger Test das Intervall S = [-2,797, +2,797], Tabellenwert: t24, 0,995 = 2,797 (Manche Tabellen geben den Wert mit der Signifikanz an: t24, 0,005 )

Die Prüfgröße wird mit:

√ ähnlich der z-Verteilung gerechnet

| |= |(23,2-25) /(6:5)| = 1,25.

Entscheidung: Die H0 kann aufrechterhalten werden. 1,25<2,797.

Mit der kleinen Stichprobe kann auf 1% Signifikanz die H0 akzeptiert werden. (| | ≤ tTab)

Für α= 5% für 95% Sicherheit das Intervall S = [-2,064/2,064]. Es ist ein 2-seitiger Test, also nachschauen bei 97,5%, oder Signifikanz 2,5% t24, 0,975 = 2,064 …Tabellenwert der Vergleichsverteilung

Prüfwert bleibt wie oben 1,25. Weil 1,25 < als 2,064, so bleibt die Hypothese H0 auch bei Signifikanz 5% aufrecht.

3. Der einseitige z- oder t-Test mit nur einer Stichprobe

Es wäre durchaus möglich einen einseitigen Test anzuwenden, der die Richtung des Unterschieds ebenfalls mitliefert. Die Fragestellung lautet dann: Welche Grundgesamtheit hat den größeren Mittelwert? Unterschiedliche Testverfahren am Beispiel der z- und t-Verteilung gezeigt.

Einseitig- rechts:

Nullhypothese annehmen bei Werten, die < als

der kritische Wert (= obere Grenze des

Annahmebereichs) sind.

Ho: µ ≤ µo H1 : µ > µ0

Page 8: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

8

Einseitig – links

Nullhypothese annehmen bei Werten, die > als

der kritische Wert (= untere Grenze des

Annahmebereichs) sind

Ho: µ ≥ µo H1 : µ < µo

Zweiseitig, α ist halbiert!

Nullhypothese annehmen bei Werten, die < als

der kritische Wert (= obere Grenze des

Annahmebereichs mit α/2) sind.

Ho: µ = µo H1 : µ ≠ µ0

Die Wahrscheinlichkeitsdichte f(x) der Verteilung besitzt bei ein Maximum. Die Breite der

Glockenkurve ist von der Standardabweichung σ abhängig. Die Bereiche der

Irrtumswahrscheinlichkeit α (Ablehnungsbereich) und statistischen Sicherheit (Annahmebereich)

sind durch eine rote und weiße Fläche beschrieben. Beide Bereiche werden durch eine senkrechte

Linie (kritischer Wert) voneinander abgegrenzt.

In einer Tabelle sind die Werte bei Standardnormalverteilung (z- oder Gauß-Verteilung) oder bei der

t-Verteilung sowohl für einseitige als auch zweiseitige Betrachtung tabelliert.

z bei 95% einseitig

rechts

z bei 99%

einseitig rechts

z bei 95%

zweiseitig

z bei 99% zweiseitig

1,645 2,33 1,96 2,58

t bei 95% (f=6)

einseitig rechts

t bei 99% (f=6)

einseitig rechts

t bei 95% (f=6)

zweiseitig

t bei 99% (f=6)

zweiseitig

1,94 3,14 2,44 3,71

Dies bedeutet bei einer standardnormalverteilten Kurve, dass bei zweiseitigen Tests innerhalb 1,96

die Entscheidung für die Annahme der Hypothese mit einer Wahrscheinlichkeit P von 95% richtig ist,

bei einer t-verteilten Kurve, dass innerhalb 2,44 bei einer Wahrscheinlichkeit von 95% die Annahme

der Nullhypothese richtig ist. Außerhalb ist die Nullhypothese zu verwerfen, es gilt H1.

Page 9: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

9

II Das Zweistichprobenproblem 1) Zwei voneinander unabhängige Stichproben ZB: n1 Männer und n2 Frauen werden zu einem Merkmal befragt.

Zwei Stichproben mit den Umfängen n1,n2 und den Mittelwerten , den Varianzen und mit n = n1 + n2 haben daher folgende Formeln: Man setzt einen t-Test für die Differenz der beiden Mittelwerte an. a) t-Test mit univariaten Merkmalen, metrisch-intervallskaliert aus einer normalverteilten Grundgesamtheit Wir haben es nun mit 2 Serien von Stichprobenwerten zu tun: Serie 1 mit Umfang n1 und Serie 2 mit Umfang n2. Die Stichproben sind klein n1 + n2 <30. Kennt man die Varianzen beider Grundgesamtheiten σ1 und σ2‘, dann gelten die folgenden Formeln: D = | | Betrag, also eine positive Zahl!

1 2D

1 2

² ²

n n

…Standardabweichung der Differenz beider Mittelwerte

BSP: Papiertaschentücher von 2 unterschiedlichen Herstellern sind auf ihr Saugfähigkeit zu vergleichen. Als Merkmal gilt die Flüssigkeitsmenge in Gramm, die aufgesaugt werden können. Sie ziehen eine Stichprobe von n1= 15 und eine mit n2 = 10 Tüchern und überprüfen sie. (25<30) Die Hersteller geben die durchschnittliche Saugfähigkeit mit = 85 g und = 99 g an. Die Standardabweichungen der Grundgesamtheiten seien bekannt und betragen σ1 = 25 g und σ2 = 34 g.

H0: µ1 -µ2 = 0…kein Unterschied gegen H1: µ1-µ2 ≠ 0 bei Signifikanz von 5% , Sicherheit 95% Freiheitsgrad: n1 -1 + n2 -1 = 23 t23,95% = 1,714 Stichprobenwerte: D = 14, σD = 12,54 Prüfgröße:

D

Dt

= 1,116

Page 10: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

10

Prüfgröße ist kleiner als 1,714, H0 gilt, es besteht kein signifikanter Unterschied zwischen den beiden Marken. Kennt man die Standardabweichungen in den beiden Stichproben nicht, dann muss man die Werte aus den Messdaten schätzen, indem man die Stichprobenstandardabweichungen berechnet.

in

(x x)²

s²n 1

Sind s1 und s2 die Standardabweichungen in den beiden Stichproben, dann bekommt man den zusammengesetzten Standardfehler mit:

1 1 2 2 1 2D

1 2 1 2

s ²(n 1) s ²(n 1) n nˆ ²

n n 2 n n

BSP: Lernen Kinder früher laufen, wenn man mit ihnen Gehreflexe aktiv einübt? Man untersucht 2 getrennte Gruppen von Kleinkindern. n1 = 6, n2= 6 (alle weiblich um Geschlechtsspezifisches auszuschalten) In der 1. Gruppe trainiert man die Reflexe in der 2. Gruppe nicht. Man beobachtet als Merkmal das Alter in Monaten, in dem das Kind laufen konnte: 1. Gruppe: xi = 9, 9,5 9,75 10 13 9,5 ……. = 10,125 2. Gruppe: yi= 11,5 12 9 11,5 13,25 13 ….. = 11,70833 Es soll getestet werden: H0: µ1 - µ2 ≥ 0 gegen H1: µ1 -µ2 < 0 laut beobachteten Werten, Signifikanz soll 5% betragen, also Sicherheit 95%... einseitiger Test (links). Freiheitsgrad: f1 + f2 = n1 -1 + n2 -1 = 10 Tabellenwert t = t10,0,95 = 1,812

Die Prüfgröße für den Test: D

Dt

D = 1,583

Dˆ 0,857

xi 9,000 9,500 9,750 10,000 13,000 9,500 10,125 xm

yi 11,500 12,000 9,000 11,500 13,250 13,000 11,708 ym

(xi-xm) -1,125 -0,625 -0,375 -0,125 2,875 -0,625 (xi-xm)² 1,266 0,391 0,141 0,016 8,266 0,391 10,469 sum

(yi-ym) -0,208 0,292 -2,708 -0,208 1,542 1,292 (yi-ym)² 0,043 0,085 7,335 0,043 2,377 1,668 11,552 sum

s1² 2,094 s2² 2,310 σD 0,857

Prüfgröße: 1,848

D

Dt

ˆ

= 1,85

| | > t H0 wird abgelehnt, d.h., die 1. Gruppe lernt etwas früher das Laufen. Das Training der Reflexe scheint etwas zu bringen.

Page 11: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

11

b) Mann-Whitney–U-Test, 2 unabhg, ordinalskalierte Daten, nicht unbedingt Normalverteilung

Es liegen 2 Stichproben vor: n1 und n2 . Man bringt sie in eine gemeinsame Rangreihe, wobei die Herkunft der Stichprobe angegeben sein muss. T1 ist die Summe der Rangplätze aus Stichprobe 1, T2 entsprechend aus Stichprobe 2.

Prüfgröße U und U‘ wird definiert: Die kleinere von beiden ist Prüfgröße! U = n1 n2 + 0,5. n1 (n1 + 1) –T1 … Zahl der Rangplatzüberschreitungen von Gruppe 2 gegenüber 1 U‘ = n1 n2 - U …Zahl der Unterschreitungen U + U‘ = n1 n2 U‘ = n1 n2 + 0,5. n2 (n2 + 1) –T2… Zahl der Rangplatzüberschreitungen von Gruppe 1 gegenüber 2

Ist > UTabelle, dann wird H0 angenommen. Vorsicht: bisher umgekehrt. Die aus beiden Stichproben bestimmten U-Werte sind um den Mittelwert µU symmetrisch verteilt, mit der Standardabweichung σU. Bei größeren Stichproben kann man von einer Normalverteilung ausgehen. Man kann daher auch als Prüfgröße definieren und z- Test anwenden.

u

u

U µz

µU = 0,5 . n1 n2 σU² = n1 n2 (n1 + n2 +1)/1Tabelle für U-Test für α= 5% zweiseitig und 0,25% einseitig

n1

n2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

1 - - - - - - - - - - - - - - - - - - - - - - - - -

2 - - - - - - 0 0 0 0 1 1 1 1 1 2 2 2 2 3 3 3 3 3

3 - - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10

4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18

5 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 22 23 24 25 27

6 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 29 30 32 33 35

7 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44

8 13 15 17 19 22 24 26 29 31 34 36 38 41 43 45 48 50 53

9 17 20 23 26 28 31 34 37 39 42 45 48 50 53 56 59 62

10 23 26 29 33 36 39 42 45 48 52 55 58 61 64 67 71

11 30 33 37 40 44 47 51 55 58 62 65 69 73 76 80

12 37 41 45 49 53 57 61 65 69 73 77 81 85 89

13 45 50 54 59 63 67 72 76 80 85 89 94 98

14 55 59 64 69 74 78 83 88 93 98 102 107

15 64 70 75 80 85 90 96 101 106 111 117

16 75 81 86 92 98 103 109 115 120 126

17 87 93 99 105 111 117 123 129 135

18 99 106 112 119 125 132 138 145

19 113 119 126 133 140 147 154

20 127 134 141 149 156 163 usw

BSP: Prüfe die beiden Stichproben A und B mit den nach ihrer Größe geordneten Werten auf Ungleichheit der Mittelwerte, mit Annahme, dass µ1>µ2 ist. Signifikanz 2,5%. einseitig

Page 12: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

12

Es ist aus den Daten keine Normalverteilung anzunehmen, daher kein t-Test sondern U-Test. H0 : µ1≥ µ2 H1 : µ1 <µ2 einseitig, links U = n1 n2 + 0,5. n1 (n1 + 1) –T1…kleinere Summe

Stichprobe A 7 14 22 36 40 48 49 52

8 =n1 Stichprobe B 3 5 6 10 17 18 20 39

8 =n2

Aufstellen der Rangtafel Wert geordnet 3 5 6 7 10 14 17 18 20 22 36 39 40 48 49 52

Rangnr 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Stichpr. B B B A B A B B B A A B A A A A

TA 89

= 11 TB = T1 47

U'= 53

U=

13 aus Tabelle

< UTabelle, H0 wird verworfen, weil 11 nicht über den kritischen Wert 13 kommt. (linkss.Test!) Entscheidung: Die Stichproben haben ungleiche Zentralwerte. Der Zentralwert der 1. Gruppe ist größer. (Was sichtbar ist: Median A = 38, Median B = 13,5)

Der z-Test liefert das gleiche Ergebnis:

| |

= 2,2 z (97,5%) = 1,96

| | > z H0 verwerfen! c) Ordinalskalierte Daten, keine Normalverteilung Mediantest mit 4-Feldertafel Man ordnet die vereinigten aus den beiden Stichproben stammenden Werte, ermittelt den gemeinsamen Median dieser Reihe. Dann ordnet man die Werte jeder Stichprobe danach, ob sie kleiner oder größer als der gemeinsame Median sind in einer 4-Feldertafel.

Anzahl der Werte

< Median > Median

StichP1 2 6 8

StichP2 6 2 8

8 8 16

Median 19

4-Feldertafel Chi-Quadrat-Test, 4 Felder haben nur 1 Freiheitsgrad bei gegebenen Randsummen.

Prüfwert:

= 3,75

Tabellenwert für 97,5% Sicherheit:χ² =5,024 Prüfwert < Tabellenwert H0 angenommen. Zentralmaße gelten auf diesem Signifikanzniveau als gleich

Page 13: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

13

Genauere Berechnung mit der Formel des exakten Fischer-Tests Man stellt nun die zusätzlichen Tafeln für eine hypergeometrische Verteilung auf, indem man das Feld mit der kleinsten Zahl um jeweils 1 vermindert und die anderen Zahlen so ändert, dass die Randsummen alle gleich bleiben: Die Wahrscheinlichkeit, dass die in der Grundtafel gegebene Verteilung auftritt, berechnet man wie folgt:

Anzahl der Werte

< Median > Median

tafel2

StichP1 2 6 8 1 7

StichP2 6 2 8 7 1

8 8 16

tafel3

0 8

Median 19

8 0

= 2 3

(a b)!(c d)!(a c)!(b d)! 1 1 1

n! a!b!c!d! a!b!c!d! a!b!c!d!

=

=8!8!8!8! 1 1 1

16! 2!2!8!8! 7!7! 8!8!

= 0,066 Geforderte Sicherheit P = 0,975

6,6% liegen auf jeden Fall innerhalb des Vertrauensbereichs. Also gilt H0, wonach die Zentralwerte im Bereich von 97,5% Sicherheit als gleich anzusehen sind. Bei 93% liegt 6,6 im Ablehnungsbereich 2) 2 voneinander abhängige Stichproben aus einer Grundgesamtheit Eine Gruppe wird 2-mal hintereinander zum gleichen Merkmal befragt. 2 abhängige (verbundene) Stichproben. Messwiederholung.

Abhängige Stichproben haben einen gleichen Stichprobenumfang. Daher liegen immer Messpaare vor. Wenn man die Differenz der beiden bildet, dann lässt sich eine durchschnittliche Differenz bilden, deren Mittelwert und Standardabweichung man untersuchen kann.

Page 14: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

14

a) Univariate Merkmale, metrisch-intervallskaliert , normalverteilte Grundgesamtheiten t-Test

BSP: Untersuchung an Ratten: n = 10. Es wird die gleiche Gruppe an Ratten getestet… Herzfrequenz der Ratte, wenn eine andere Ratte dabei ist…xi

Herzfrequenz einer Ratte, die allein ist yi in Schlägen pro Minute

Im Prinzip wird ähnlich vorgegangen wie im vorigen Abschnitt. H0: µ1 = µ2 zweiseitiger Test wird jetzt als Differenz formuliert µD = µ1 - µ2 = 0 H1 : µ1 ≠ µ2 Differenzen der Einzelwerte: d i= xi –yi = 60 32 -1 79 26 28 30 -7 61 35 Die Differenzen können als normalverteilt angesehen werden.

Mittelwert = 34,3

Standardabweichung sD = 26,78 Nun wird der t-Test eingesetzt: Wir suchen eine p % Sicherheit, 1 wertiger Test, in Tabelle für f= n-1 suchen tTabelle = t9,0,95 = 1,833 Prüfgröße: tD = 4,05

Entscheidung: 4,05 > 1,833. H0 wird abgelehnt. Es gilt H1, µD ≠ 0. Wie aus den Durchschnittswerten auch ersichtlich: Die Herzfrequenz ist im Durchschnitt höher, wenn Ratten nicht allein sind. b) Wilcoxon-Rangdifferenz-Test, W-Test, (Paardifferenzen) Ordinalskalierte abhängige Stichproben, nicht unbedingt normalverteilt

Man geht davon aus, dass alle Beobachtungen unterschiedlich sind und bringt die Werte der BETRÄGE von den Differenzen beider Stichprobenwertepaaren (abhängig!) in eine Rangfolge. Ist die Differenz 0, so wird sie nicht berücksichtigt. Die Ränge werden dann nach dem Vorzeichen (plus oder minus) getrennt summiert. Die Rangsumme mit dem seltener vertretendem Vorzeichen = T Die Summe mit dem öfter vorkommenden Vorzeichen mit T‘.

Ist n die Anzahl der Messwertpaare, die eine Differenz aufweisen, dann gilt:

T + T‘ = 0,5. n.(n+1) µT = 0,25. n. (n+1)

T-Prüfwert > als Tabellenwert für Wilcoxon-Paardifferenztabelle H0 bleibt aufrecht.

Prüfgröße: testgr tabelle 0

W |min(T ,T )|

W W H wird verworfen

Page 15: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

15

BSP: 2 abhängige Zahlenreihen: Wie geht man vor?

Kritische Werte für den Wilcoxon-(Paardifferenzen-) Test

Test zweiseitig einseitig Test zweiseitig einseitig

n 5% 1% 0,1% 5% 1% n 5% 1% 0,1% 5% 1%

6 0 2 54 514 445 368 550 473

7 2 3 0 55 536 465 385 573 493

8 3 0 5 1 56 557 484 402 595 514

9 5 1 8 3 57 579 504 420 618 535

10 8 3 10 5 58 602 525 438 642 556

11 10 5 0 13 7 59 625 546 457 666 578

12 13 7 1 17 9 60 648 567 476 690 600

13 17 9 2 21 12 61 672 589 495 715 623

14 21 12 4 25 15 62 697 611 515 741 646

15 25 15 6 30 19 63 721 634 535 767 669

16 29 19 8 35 23 64 747 657 556 793 693

17 34 23 11 41 27 65 772 681 577 820 718

18 40 27 14 47 32 66 798 705 599 847 742

19 46 32 18 53 37 67 825 729 621 875 768

20 52 37 21 60 43 68 852 754 643 903 793

21 58 42 25 67 49 69 879 779 666 931 819

22 65 48 30 75 55 70 907 805 689 960 846

23 73 54 35 83 62 71 936 831 712 990 873

24 81 61 40 91 69 72 964 858 736 1020 901

25 89 68 45 100 76 73 994 884 761 1050 928

Bei gleichen Zahlen auf mehreren Rängen nimmt man den 1. und letzten und bildet den Mittelwert. Über alle Zeilen der gleichen Zahlen dann den gleichen Rang einfüllen! T- ist die Rangsumme der negativen Differenzen T- = 37,5 ist kleiner als der kritische W-Tabellenwert für 24 x24 Zahlen bei 5% einseitig: 91. wprüf

< als W Tabelle. H0 wird abgewiesen. Es bestehen signifikante Unterschiede α = 5 %. dies erkennt man auch an dem Unterschied von T+ und T-!

Page 16: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

16

Die Vorgangsweise beim statistischen Test: 1. Wir wählen die gewünschte Sicherheit ( 95%, 99%, 99,7% etc…) oder die Signifikanz ( 5%,1%, 2,5%) 2. Wir ermitteln die Tabellenwerte zum Konfidenzintervall S (zs- ,ts-,χ², F-Werte) bei 2-seitigem oder bei einseitigem Test. 3. Wir berechnen die Stichprobenwerte , s oder andere 4. Wir berechnen die Prüfgröße aus der z, χ² ,t, F- Verteilung mit den Werten aus der Stichprobe: zB bei Mittelwertvergleich: - den z- Wert wenn n≥30, mit z = ( ): s - den t-Wert bei n< 30, mit t = ( ):s und ermitteln bei normalverteilter Grundgesamtheit die Werte aus den jeweiligen Tafeln. 5. Die Entscheidung fällt am Schluss: Beim 2 seitigem Test meistens: Ist der Prüfwert < Tabellenwert, dann bleibt H0 gültig. (U, W, H anders! Vorsicht!) Ist der Prüfwert ≥ Tabellenwert, dann wird Ho verworfen. Beim 2-seitigen Test muss man beachten: 90%...α= 10%, α/2 = 5%, also in Tabelle z-Wert von 100 – 5%, von 95% = 1,645, (1-α/2!) 95%... z-Wert von 100 -2,5%, von 97,5% = 1,96 99%...z-Wert von100-0,5%, von 99,5% = 2,58

Bei einseitigem Test ist die Prüfgröße im Vertrauensintervall enthalten, wenn die H0 beibehalten wird. Es gibt einen kritischen Wert, der entweder nicht unterschritten oder überschritten werden soll.

Interpretation:

Ob eine H0 angenommen oder verworfen wird, hängt ganz wesentlich vom Umfang der Stichprobe ab, aber auch die Wahl der statistischen Sicherheit spielt eine Rolle. Je größer der Umfang n, desto eher wird H0 verworfen. Wichtig ist, das H0 für jeden Test definiert ist und auch die kritischen Werte auf H0 hin maßgeschneidert sind. Daher ist in jedem Falle zu überprüfen, on man die richtige H0 hat und die Interpretation der Tabellenwerte.

Verfahren zur Überprüfung von Varianzen I. Vergleich der empirischen Varianz mit ihrem Parameter χ²-test H0 : σ²= σ0² gegen H1: σ² ≠ σ0² 1) µ ist nicht bekannt, normalverteilte Grundgesamtheit χ2-test Festlegen der Signifikanz (oder der Sicherheit) zB α = 5%, ( S = 1-α = 95%) Freiheitsgrade bestimmen: f = n-1 Tabellenwert suchen χ² n-1,1-α Prüfgröße aus der Stichprobe berechnen, wobei und s aus der Stichprobe ermittelt wird σ0 = (n-1). s²

i i

0 0

(x x)² (x x)²s²ˆ² (n 1) mit : s²

² ² n 1

Wert der Prüfgröße > als Tabellenwert Ablehnung von Ho.

Page 17: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

17

BSP: sind die folgenden 8 Beobachtungen bei α= 5% (Sicherheit 95%) mit der Hypothese: σ² = σ0² = 60 vereinbar. Tabellenwert: 14,07

xi 40 60 60 70 50 40 50 30 Mittel 50

(xi-Mittel)² 100 100 100 400 0 100 0 400 Summe 1200 Prüfwert: ² = 1200 :60 = 20 20 > 14,07, H0 wird abgelehnt auf Signifikanz 5%. σ² ≠ σ0²ist gültig (angenommen wegen s² = 1200:7 = 171, Stichprobenvarianz ist sehr viel größer als 60) 2) µ ist bekannt, normalverteilte Grundgesamtheit χ²-test

In diesem Falle gilt die gleiche Formel, statt dem Mittelwert kommt µ:

i i00

0 0

(x µ)² (x µ)²s ²ˆ² n s ²

² ² n

BSP: Bei der Produktion einer Ware ging man davon aus, dass die Massen der produzierten Stück annähernd normalverteilt mit µ = 1,5 kg und σ = 0,1 kg sind. Durch eine Stichprobe von n= 101 soll dies mit Signifikanz 5% (95% Sicherheit) getestet werden. Testergebnis aus den Klassenmitten: 1,3 mal 3; 1,35 mal 14; 1,45 mal 34; 1,55 mal 36; 1,65 mal 13 ; 1,7 mal 1

H0 : σ² ≤ σ0 ² gegen H1 : σ² > σ0 einseitig - rechts Tabellenwert : χ² 100 ;95% = 124,3

Prüfwert= Teststatistik

xi 1,3 1,35 1,45 1,55 1,65 1,7 Mittel 1,5

hi 3 14 34 36 13 1 101

hi(xi-µ)² 0,12 0,315 0,085 0,09 0,2925 0,04 Summe 0,9425

² = 0,9425 : 0,1² = 94,25

Schluss : Prüfwert < Tabellenwert : H0 wird mit Signifikanz 5% angenommen: Die Testung bestätigt die gleichbleibende Qualität der Produktion.

II Vergleich der Varianz von 2 unabhängigen Stichproben F-test

Die beiden Stichproben sind unabhängig (σ1 und σ2, n1 und n2) und stammen aus einer normalverteilten Grundgesamtheit. Bei diesem Test ist die F-Verteilung zuständig. Nullhypothese: σ1 = σ2 Alternativ: σ1 ≠ σ2 zweiseitiger Test. Tabellen mit halben Prozent nehmen! Signifikanz wählen: 5% Sicherheit 95% Wahl der Tabelle: hier ist die F- Tabelle zuständig: n1 (n) Zählerfreiheitsgrad…Stichprobe 1 beachte: günstig ist es die größere Zahl im Zähler. Wichtig bei einseitigen Tests! n2 (m).. Nenner: Freiheitsgrade in 2. Stichprobe

Prüfgröße= Teststatistik = s1² / s2² Ist die Prüfgröße größer als der Tabellenwert, dann wird H0 abgelehnt. BSP: Prüfe H0 : σ1²=σ2² gegen H1: σ1²≠σ2² auf α/2 = 5% (Sicherheit 90%) F aus der Tabelle: 90% , Freiheitsgrad 20 und 30 F20, 30, 1-α/2

= 1,93

Page 18: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

18

Man berechnet aus den Messungen der 1. Stichprobe: n1= 21, s1 = 5, aus der 2. Stichprobe: n2 = 31, s2 = 4. Prüfgröße

= 25/16 = 1,56 Schluss: Prüfgröße ist kleiner als Tabellenwert 1,56<1,93 H0 wird auf Signifikanz 10 % angenommen!

Verfahren zur Überprüfung von Häufigkeiten (nominalskalierter Merkmale)

I Einfacher Chi-Quadrat - Test

1.χ² für k Kategorien (Merkmalsausprägungen) Die Differenzen zwischen den erwarteten und den beobachteten absoluten Häufigkeiten sind χ²-verteilt, wenn die erwarteten Häufigkeiten ausreichend groß sind. Keine einzige erwartete Häufigkeit soll kleiner als 2 sein, 80% dagegen größer als 5!

Die Prüfgröße für den Test:

b,i e,i

k e,i

(f f )²ˆ²

f ²

Summe der relativen Abweichungsquadrate!

fb,i …beobachtete absolute Häufigkeit, fe,i = erwartete absolute Häufigkeit gemäß H0 k … Anzahl der unterschiedlichen Kategorien

Die Freiheitsgrade df des χ²-Wertes betragen maximal k-1. Die Bezeichnung df statt f bezieht sich darauf, dass es hier um die DIFFERENZ (d) zweier Werte geht!

Wenn der Prüfwert kleiner als der Tabellenwert ist, dann stimmen die Kriterien von Beobachtung und Erwartung (=zB Erfahrung oder aus einer anderen Stichprobe) überein.

Bsp: Der Produzent einer Massenware weiß aus Erfahrung, dass die Qualität der Stücke zufälligen Schwankungen (I-V) unterworfen ist und sich folgendermaßen verteilt: I…15%, II..25%, 3…35%, 4…20% , 5…5% Er nimmt 1 Stichprobe und ermittelt folgende nominalskal.Werte

I II III IV V n

Stichprobe 19 33 64 26 8 150

Kann man aus den Prozentsätzen der Stichprobe mit α = 5% schließen, dass sich die aus Erfahrung erwarteten Werte geändert haben?

H0 : fe = fb gegen H1 : fe ≠ fb zweiseitiger Test

Tabellenwert χ² 4,1-α/2=97,5 = 11,14

Page 19: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

19

Prüfwert:

I II III IV V

erwartet: 15% 25% 35% 20% 5%

fe,i 0,15 0,25 0,35 0,20 0,05 22,50 37,50 52,50 30,00 7,50 bezogen auf 150

Stichprobe 1 19 33 64 26 8 sum 150

fb,i 19,000 33,000 64,000 26,000 8,000

(fb,i-fe,i)²/fe,i 0,5444 0,5400 2,5190 0,5333 0,0333 sum 4,1702

Der Prüfwert ist kleiner als der Tabellenwert: 4,17 <11,14 Ho wird angenommen Die erwarteten Werte für die Qualitätskriterien sind mit Signifikanz von 5% prozentuell ungefähr gleich geblieben. 2) χ²-Test für k = 2 Kategorien, dichotomes Merkmal

BSP: Die beobachteten absoluten Häufigkeiten männlicher und weiblicher Studierender (dichotom) in einem Studiengang seinen fb,m = 430 und fb,w = 398. Ist diese Abweichung von einem ausgeglichenen Verhältnis durch Zufallsschwankungen erklärbar unter Signifikanz 1%.

H0 : Verhältnis = 50:50 gegen H1 : Verhältnis ≠ 50:50, 2-seitiger Test: α/2= 0,05% kritisch Tabellenwert: k = 2, df = 1 χ²1,0,995 = 7,879 Prüfwert wie in BSP 1 gerechnet

m w

erwartet 414 414 beobachtet 430 398 sum 828

chi-Quadrat: 0,618357 0,618357 sum 1,236715

Ergebnis: Prüfwert<Tabellenwert 1,23<7,88 Ho bleibt: Die Schwankung ist zufällig.

3) χ2-Anpassungstest: zB Ist die Messreihe normalverteilt?

Es liegen von ca. 200 Unternehmen die Umsätze vor. Das folgende Histogramm zeigt ihre Verteilung. Es sei X der Umsatz eines Unternehmens [Mio. €].

Es soll nun die Hypothese getestet werden, dass X normalverteilt ist.

Page 20: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

20

Da die Daten in vielen verschiedenen Ausprägungen vorliegen, wurden sie in Klassen eingeteilt.

Klasse Intervall Beobachtete

Häufigkeit

j über bis nj

1 … 0 0

2 0 5000 148

3 5000 10000 17

4 10000 15000 5

5 15000 20000 8

6 20000 25000 4

7 25000 30000 3

8 30000 35000 3

9 35000 ... 9

Summe 197

Da keine Parameter vorgegeben werden, werden sie aus der Stichprobe ermittelt. Es wird geschätzt:

Nun wird getestet: H0: X ist normalverteilt mit dem Erwartungswert μ = 6892 und der Varianz σ2 = 149842.

Um die erwarteten Häufigkeiten zu bestimmen, werden zunächst die Wahrscheinlichkeiten berechnet, dass X in die vorgegebenen Klassen fällt. Die erwartete Verteilungsfunktion ist die angegebene Normalverteilung an der Stelle x. Man errechnet dann

usw mit allen Klassen

Daraus ergeben sich die erwarteten Häufigkeiten durch Multiplikation mit n

usw. für alle Klassen Es müssten also beispielsweise ca. 25 Unternehmen im Mittel einen Umsatz zwischen 0 € und 5000 € haben, wenn das Merkmal Umsatz tatsächlich normalverteilt ist.

Die erwarteten Häufigkeiten aus der Normalverteilung sind zusammen mit den beobachteten Häufigkeiten in der folgenden Tabelle angeführt. Man sieht schon im Vergleich der Werte, dass die Verteilung nicht passt.

Page 21: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

21

Klasse Intervall Beobachtete

Häufigkeit Wahrscheinlichkeit Erwartete Häufigkeit

j über bis nj Fjo njo

1 … 0 0 0,3228 63,59

2 0 5000 148 0,127 25,02

3 5000 10000 17 0,1324 26,08

4 10000 15000 5 0,1236 24,35

5 15000 20000 8 0,1034 20,36

6 20000 25000 4 0,0774 15,25

7 25000 30000 3 0,0519 10,23

8 30000 35000 3 0,0312 6,14

9 35000 … 9 0,0303 5,98

Summe 197 1 197

Die Prüfgröße wird jetzt folgendermaßen ermittelt:

Für den Tabellenwert braucht man den Freiheitsgrad. Es gibt 9 Kategorien (=Klassen) f = k – 1 Pro Parameter gehen zusätzlich je 1 Freiheitsgrad verloren. NV hat 2 Parameter, daher gilt: f = 9-3 = 6 Bei einem Signifikanzniveau α = 0,05 liegt der kritische Wert der Testprüfgröße bei χ2(0,95;9-3=6) = 12,59. Da χ2 > 12,59, wird die Nullhypothese abgelehnt. Man kann davon ausgehen, dass das Merkmal Umsatz in der Grundgesamtheit nicht normalverteilt ist.

II Tests für 2 unabhängige Stichproben 1) Test für k Kategorien 2 unabhängige Stichproben Kolmogorov-Smirnov Zweistichprobentest (D-Test)

Dieser Test kann auch als einstichprobentest verwendet werden und prüft die Anpassung einer beobachteten an eine theoretische Verteilung . Oder er prüft, ob 2 unabhängige Stichproben einer gleichen Verteilung entstammen (KSA-Test). Die Daten sind nomimalskal., nicht unbedingt normalverteilt und stammen laut Annahme aus der gleichen Grundgesamtheit. Der Test ist verteilungsfrei. Er entspricht dem χ² - Test, wobei er besonders bei kleinen Stichprobenumfängen empfindlicher reagiert, ob die beobachteten Daten einer vorgegebenen Verteilung entsprechen oder nicht. Betrachten wir nochmals das BSP 1 dieses Kapitels: Der Produzent einer Massenware weiß aus Erfahrung, dass die Qualität der Stücke zufälligen Schwankungen (I-V) unterworfen ist und sich folgendermaßen verteilt: I…15%, II..25%, 3…35%, 4…20% , 5…5% Er nimmt 1 Stichprobe und ermittelt folgende nominalskal.Werte

I II III IV V n

Stichprobe 19 33 64 26 8 150

Page 22: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

22

Kann man aus den Prozentsätzen der Stichprobe mit α = 5% schließen, dass sich die aus Erfahrung erwarteten Werte geändert haben?

H0 : fe = fb gegen H1 : fe ≠ fb zweiseitiger Test, die Stichprobe kommt aus einer bekannten Verteilung (nicht notwendig normalverteilt)

Tabellenwert: D150, 0,05 = 1,36:√ = 0,111, Tabelle siehe unten Die Prüfgröße = Teststatistik:

b emax|f f |D

n

n…Stichprobenumfang, max|fb –fe|…maximale Differenz beider Häufigkeiten

Die größte Differenz zwischen Beobachtung und Erwartung ist 11,5 in der Kategorie III. 11,5 / 150 = 0,077. Die Prüfgröße ist kleiner als der Tabellenwert H0 bleibt aufrecht.

Tabelle für die kritischen D-Werte für den Kolmogorov-Smirnov-Test:

n

D

.20 .15 .10 .05 .01

1 .900 .925 .950 .975 .995

2 .684 .726 .776 .842 .929

3 .565 .597 .642 .708 .828

4 .494 .525 .564 .624 .733

5 .446 .474 .510 .565 .669

6 .410 .436 .470 .521 .618

7 .381 .405 .438 .486 .577

8 .358 .381 .411 .457 .543

9 .339 .360 .388 .432 .514

10 .322 .342 .368 .410 .490

11 .307 .326 .352 .391 .468

12 .295 .313 .338 .375 .450

13 .284 .302 .325 .361 .433

14 .274 .292 .314 .349 .418

15 .266 .283 .304 .338 .404

16 .258 .274 .295 .328 .392

17 .250 .266 .286 .318 .381

18 .244 .259 .278 .309 .371

19 .237 .252 .272 .301 .363

20 .231 .246 .264 .294 .356

25 .210 .220 .240 .270 .320

30 .190 .200 .220 .240 .290

35 .180 .190 .210 .230 .270

über 35

1.07

: N

1.14

: N

1.22

: N

1.36

: N

1.63

: N

2. 4-Felder χ²-Test, 2x2 Kategorien

Man untersucht 2 verschiedene Gruppen nach einem dichotomen Merkmal und bestimmt das Abweichungsmaß

BSP: Vor dem Sport wärmen sich Frauen und Männer unterschiedlich oft auf. Stimmt das? 2 Stichproben 50 Männer und 50 Frauen. 25 Männer und 10 Frauen geben an, sich regelmäßig vor Sportbetreiben aufzuwärmen. Die restlichen machen das nicht.

Ho: Zahl jener Männer, die sich aufwärmen = Zahl der Frauen, die sich aufwärmen H1 : Ist es nicht.

2 seitiger Test, 5% Signifikanz α/2 = 2,5, df = 1 (4-Felder mit gegebenen Randsummen hat immer 1, weil dann nur 1 frei wählbar ist!)

Tabellenwert: χ²1, 97,5%= 5,024

Page 23: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

23

Prüfwert:

Geschlecht

Mann Frau

Aufwärmen JA 25 10 35

NEIN 25 40 65

50 50 100

= 9,89

Prüfwert > Tabellenwert. H0 wird verworfen, Signifikanz 5%. Es gilt: Aufwärmen ist geschlechtsabhängig, Frauen machen es weniger oft. (Wie kommt es zur obigen Formel für χ²: Man stellt die Frage, ob sich die Randsummen proportional zu den Felderhäufigkeiten verhalten. Man bestimmt dazu die Erwartungshäufigkeiten fe: fe (a) = Zeilensumme mal Spaltensumme des Feldes a / n = 35. 50/100 = 17,5 fe (b) = „ b/n = 35

. 50/ 100 = 17,5 fe (c) = „ c/n = 65

. 50/ 100 = 32,5 fe (d) = „ d/n = 65

. 50/ 100 = 32,5

e,a e,b e,c e,d

e,a e,b e,c e,d

a f ² b f ² c f ² d f ²²

f f f f

= 9,89 wie oben

Die Umformung ist etwas langwierig: fe.a = (a+b)(a+c) / (a+b+c+d) usw ist einzusetzen, die Brüche auf gemeinsamen Nenner bringen und herauszuheben etc… dann ergibt sich die viel einfachere Formel wie oben….)

2) i,k-Felder- χ²-Test, i unabhängige Stichproben, k Kategorien zi ---Zeilensumme, sk …Spaltensummen

Erwartungswerte: i ki,k

z sf

n

i,k-Felder:

i ↓ , k→ Kategorie1 Kategorie 2 Kategorie3 …. Summe zi

stichpr 1 f11 f12 f13 … z1

stichpr2 f21 f22 f23 … z2

….. fi1 fi2 fi3 fik zi

Summe sk s1 s2 s3 sk n

ik ik 11 11 12 12 13 13

k i ik 11 12 13

f f ² f f ² f f ² f f ²² ..

f f f f

Bsp: 2 Berufsgruppen werden befragt, wie oft sie Sport betreiben.

Beruf↓Sport→ nie gelegentlich regelmäßig

Arbeiter 40 15 5

Beamte 10 10 20

Berechnen Sie die χ²-Statistik. Geben Sie den kritischen Wert zur 0,05-Signifikanz und treffen Sie eine Entscheidung.

H0 : Merkmale Beruf und Sport sind unabhängig, gegen H1 : abhängig (2-seitiger Test)

Page 24: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

24

Tabellenwert: Freiheitsgrade: (k-1). (i-1)= 2, χ² 2, 97,5% = 7,38

Beruf↓Sport→ nie gelegentlich regelmäßig zi

Arbeiter 40 15 5 60

Beamte 10 10 20 40

si 50 25 25 100

Erwartungswerte 30 15 15

20 10 10

Chi² 3,33 0 6, 67 sum: 10

5 0 10 sum: 15

gesamt: 25

Prüfwert > Tabellenwert: H0 verworfen, Entscheidung: Die Berufe haben mit dem Betreiben von Sport zu tun. Beamte treiben im Durchschnitt mehr Sport als Arbeiter.

III Test für 2 abhängige Stichproben

McNemar-χ²-Test bei 2 abhängigen Stichproben, nominales, dichotomes Merkmal

Es handelt sich hier um 2 Versuche an denselben Individuen, also 2 abhängige Stichproben Man untersucht die Signifikanz einer Änderung. Zahl der Wechsler muss bekannt sein. BSP: Hat sich die Wirkung eines Medikaments verändert nach einer Therapie? Signifikanz α = 5% H0 : Wirkung vorher < Wirkung nachher gegen H1 : Wirkung vorher >Wirkung nachher 1-seitiger Test rechts α= 5% Tabellenwert: k = 2, df = 1 …χ²1, 95% = 3,84

Erhebung der Wirkung:

vorher nachher

stark 24 13

schwach 16 27

40 40

Man stellt die Tabelle so um, dass die Wechsler sichtbar werden Vierfeldertafel, in denen die Randsummen gegeben sind. Man nimmt ein Merkmal heraus und berechnet die Änderung: stark: davon ändern 11 auf schwach, die finden sich dort auch. Damit lassen sich alle Zahlen aus den Randsummen berechnen:

nachher Summe

stark schwach

vorher stark 8 b =16 24

schwach c = 5 11 16

13 27 40

Die Felder b und c zeigen die Veränderung vor und nach der Therapie: b= stark/schwach 16 Personen, c = schwach/stark 5 Personen. b+c<30:

(b c)²

² für b c 30b c 1

und

(|b c| 1)²² für b c 30

b c 1

Prüfwert: (16-5-1)²/(16+ 5+1) = 4,545 größer als Tabellenwert 3,84 H0 abgelehnt. Änderung findet statt. Abnahme der Wirkung.

Page 25: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

25

Verfahren zur Überprüfung von Zusammenhängen Zusammenhänge (Korrelation) und Vorhersagen (Regression) zwischen 2 Variablen x und y werden getestet.

I. Pearson Korrelation, einfache bivariate lineare Korrelation Der Korrelationskoeffizient von Pearson lautete:

xy

x y

(xi x) (yi y)sr

s s (xi x)² (yi y)²

Der Test auf Unabhängigkeit zweier Merkmale x und y Voraussetzung: n> 4, beide Merkmale intervallskaliert und normalverteilt, die Varianzen für x und y sind für alle x und y- Werte sind gleich. (Varianzgleichheit = Homoskedastizität). Es liegt eine t-Verteilung vor, die Prüfgröße :

r

r (n 2)t

1 r²

Freiheitsgrade f = n-2

Prüfgröße < Tabellenwert Ho bleibt aufrecht. BSP: Acht Autofirmen geben die Werbeausgaben und die Umsätze für ein Jahr an. Mit α=1% soll überprüft werden, ob beide unabhängig voneinander sind. H0 : r=0 (kein Zusammenhang) H1 : r ≠ 0 ( es gibt einen Zusammenhang), zweiseitig α/2 = 0,05, Tabellenwert: t6, 99,5% = 3,707

Firmen 1 2 3 4 5 6 7 8 Werbung 4 5 6 7 7 8 9 10 hundert Tausend € mittelw x 7

Umsatz 6 5 9 10 8 9 13 12 hundert Millionen € mittelwy 9

Differenz x -3 -2 -1 0 0 1 2 3 Differenz y -3 -4 0 1 -1 0 4 3 diffx x diffy 9 8 0 0 0 0 8 9 sum 34

diffx² 9 4 1 0 0 1 4 9 sum 28 diffy² 9 16 0 1 1 0 16 9 sum 52 r 0,89104211

Prüfwert 4,80832611

Prüfwert > als Tabellenwert H0 verworfen, es gibt einen Zusammenhang. Mit r ist nahe bei 1 sogar einen starken Zusammenhang zwischen Werbekosten und Umsatz.

Page 26: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

26

II Spearman Korrelation- Die Variablen sind zumindest ordinalskaliert Hier ist der Rangkorrelationskoeffizient rs zu testen.

ri Rangwerte von xi , si Rangwerte von yi

Eine gute Näherungsformel erhält man, wenn man die Differenz D der n Rangpaare der geordneten Werte bildet, sie quadriert und summiert . D = (ri –si) Diesen Wert setzt man in die folgende Formel ein:

s

6 D²1

n(n² 1)r

rs ist bereits die Prüfgröße Er hat daneben für die Signifikanz eine eigene Tabelle (gültig für n≤30), einseitiger Test:

Am folgenden Beispiel zeigen wir den Test und die Gleichheit der beiden Formeln: 10 Studentinnen haben die folgenden Bewertungen über ihre Prüfungen im Praktikum und im Seminar zu einem gleichen Thema. Gibt es auf Signifikanz von 1% einen Zusammenhang zwischen den Bewertungen: Tabellenwert Spearman: α/2 = 0,005 0,7818 H0 : rs#= 0 kein Zusammenhang H1 : rs ≠ 0 Zusammenhang zweiseitig

studentin 1 2 3 4 5 6 7 8 9 10

seminar 1,0 1,5 2,0 2,5 3,0 3,5 4,0 4,3 4,5 5,0

praktikum 1,0 1,1 3,5 1,2 2,5 3,0 4,5 2,0 1,5 4,0

Page 27: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

27

Berechnung mit exakter Formel:

ri 1,0 2,0 3,0 4,0 5,0 6,0 7,0 8,0 9,0 10,0 mw 5,5

si 1,0 2,0 8,0 3,0 6,0 7,0 10,0 5,0 4,0 9,0 mw 5,5

ri-mwr -4,50 -3,50 -2,50 -1,50 -0,50 0,50 1,50 2,50 3,50 4,50

si-mws -4,50 -3,50 2,50 -2,50 0,50 1,50 4,50 -0,50 -1,50 3,50

dr . ds 20,25 12,25 -6,25 3,75 -0,25 0,75 6,75 -1,25 -5,25 15,75 sum 46,50

dr² 20,25 12,25 6,25 2,25 0,25 0,25 2,25 6,25 12,25 20,25 sum 82,50

ds² 20,25 12,25 6,25 6,25 0,25 2,25 20,25 0,25 2,25 12,25 sum 82,50

rs 0,56

Berechnung mit Näherungsformel:

D 0,00 0,00 -5,00 1,00 -1,00 -1,00 -3,00 3,00 5,00 1,00 sum 0

D² 0,00 0,00 25,00 1,00 1,00 1,00 9,00 9,00 25,00 1,00 sum 72,00

rs 0,56

Prüfwert < Tabellenwert H0 verworfen. Die Noten haben keinen Zusammenhang oder zumindest nicht mit Signifikanz 1%. Erst mit Signifikanz 10% ist ein Zusammenhang zu sehen. Mit n ≥ 10 kann man auch mit der t-Verteilung testen, wie beim Pearson Koeffizienten.

sr

r (n 2)t

1 r²

Freiheitsgrade f = n-2

Page 28: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

28

Varianzanalyse ANOVA Varianzanalyse ist ein verallgemeinerter t-Test und ein parametrisches Verfahren zur Signifikanzprüfung von Mittelwertsunterschieden zwischen mehr als 2 Stichproben. Mit ihr wird überprüft, ob beobachtete Unterschiede auf Zufall beruhen oder nicht. Die Summe der quadrierten Abweichungen vom Gesamtmittelwert (QStotal) wird aufgeteilt in: - QSfaktor : Faktoren, basierend auf den Abweichungen der verschiedenen Gruppenmittelwerte vom Gesamtmittel… Varianz zwischen den Gruppen -QSfehler : Fehlervarianz, basieren auf den Abweichungen der einzelnen Messwerte innerhalb der Gruppen vom Gruppenmittelwert -QSfaktor x faktor: basiert auf mehreren Faktoren, die auf Wechselwirkungen zwischen den Faktoren zurückgeht

In der einfaktoriellen Varianzanalyse gilt somit:

QStotal = QSfaktor + QSfehler

Die Freiheitsgrade df von den einzelnen Summanden summieren sich dabei : dftotal = N-1 = dffaktor + dffehler , N ist Stichprobengröße insgesamt.

Mittlere Abweichungsquadrate = Summe der Abweichungsquadrate, die auf jeden einzelnen Faktor zurückgeht und auch die Fehlervarianz dividiert durch die zugehörigen Freiheitsgrade. Die Nullhypothese H0, dass sämtliche Gruppen aus der gleichen Grundgesamtheit stammen, kann durch einen einfachen Vergleich der beiden Varianzen geprüft werden. Der F-Test liefert den Quotienten zwischen der Varianz zwischen den Gruppen / Fehlervarianz.

2faktor faktor faktor faktor fehler2fehler fehler fehler fehler faktor

ˆ QS /df QS dfF

ˆ QS /df QS df

Einzelvergleiche: Abweichungen zwischen den Mittelwerten durch paarweisen Vergleich über SCHEFFÉ – TEST. Einfaktorielle Analyse: Voraussetzungen:

Die Fehlerkomponenten der einzelnen Stichproben = Abweichungen vom jeweiligen Stichprobenmittel müssen NORMALVERTEILT in den Grundgesamtheiten aller Gruppen sein. Überprüfung mit den passenden univariaten Verfahren

Die Fehlervarianzen müssen in den Grundgesamtheiten aller Gruppen homogen (gleich) sein. Überprüfung mit BARTLETT-TEST oder LEVENE –TEST zur Varianzhomogenität.

Die Stichproben müssen unabhängig voneinander sein! Bei abhängigen Stichproben ist ANOVA mit Messwiederholungen anzuwenden.

Liegt keine Normalverteilung vor oder ist die Varianzhomogenität nicht gegeben, so ist bei niederen Zellenbesetzungen nGruppe < 10 ein verteilungsfreies Verfahren anzuwenden: KRUSKAL-WALLIS-TEST

Page 29: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

29

Mehrfaktorielle Analyse: Man untersucht hier die Bedeutung der Wechselwirkungen zwischen den Variablen. QS einer Wechselwirkung hat mit den Abweichungen der Zellenmittelwerte zu tun. Vorteile:

Mehrere Variable können gleichzeitig überprüft werden und kontrolliert so den simultanen Einfluss aller Faktoren. Scheinsignifikanzen und Fehlinterpretationen können so weitgehend verhindert werden.

Wechselwirkungseffekte zwischen den Variablen können analysiert und interpretiert werden

Das Einbeziehen von wichtigen Variablen vermindert die Fehlervarianz. Daher ist es möglich, signifikante Zusammenhänge besser zu erkennen.

Man muss bedenken, dass die Aufnahme unterschiedlicher Faktoren in die ANOVA Einfluss auf die resultierenden Signifikanzen hat. Daher ist es wichtig, alle relevanten Faktoren einzubeziehen! Varianzanalyse mit Messwiederholungen Werden dieselben Stichproben mehrmals untersucht, so ist damit zu rechnen, dass die Fehlerkomponenten der verschiedenen Stufen eines Messwiederholungsfaktors NICHT unabhängig voneinander sind. Hier sind die Varianzanalysen mit Messwiederholung anzuenden. Man kann auch einen zusätzlichen unabhängigen Faktor A in die Analyse einbinden. Es bestehen daher Messwiederholungsfaktoren als auch mehrer unabhängig Faktoren zugleich in einer ANOVA. Kruskal-Wallis-Test (nichtparametrischer Test) wird bei k unabhängigen Stichproben durchgeführt bei ordinalskal. Daten oder wenn entweder keine Normalverteilung oder keine Varianzhomogenität vorliegt. Der Kruskal-Wallis-Test (nach William Kruskal und Wilson Allen Wallis; auch H-Test) ist ein parameterfreier statistischer Test, mit dem im Rahmen einer Varianzanalyse verglichen wird, ob sich verschiedene unabhängige Stichproben (Gruppen oder Messreihen) hinsichtlich einer ordinalskalierten Variable in ihrem Erwartungswert (Mittelwert) unterscheiden.[1] Er ähnelt einem Mann-Whitney-U-Test und basiert wie dieser auf Rangplatzsummen, mit dem Unterschied, dass er für den Vergleich von mehr als zwei Gruppen angewendet werden kann.

Friedmann-Test (nichtparametrischer Test) wird bei k abhängigen Stichproben angewendet bei ordinalskal. Daten oder bei Verletzungen der Verteilungsvoraussetzungen (Normalverteilung und Homogenität) bei der ANOVA mit Messwiederholungen.

Page 30: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

30

Einige weitere Begriffe*)

Die Logik der klassischen Signifikanzprüfung geht davon aus, dass der α-Fehler über eine Verringerung des Signifikanzniveaus und/oder eine Vergrößerung der Stichprobenumfänge kleiner wird. Das Signifikanzniveau α wird auf 5 %, 1 % bzw. 0.1 % festgelegt. Insbesondere bei größeren Stichproben wird auch der kleinste Unterschied signifikant. In Tabelle 1 ist dieser Zusammenhang dargestellt. Tabelle 1: Zusammenhang zwischen der Stichprobengröße n und der Irrtumswahrscheinlichkeit p für einen t-Test für 2 unabhängige Stichproben bei konstanten Populationswerten (µ1=100, σ1 = 10; µ2 = 110, σ2 =10)

n = 5 10 20 50

p = 0.152 0.038 0.003 0.000

Es handelt sich um ein Problem, das vergleichbar ist, mit dem, das man sich einhandelt, wenn man das Signifikanzniveau beliebig erhöht. Bei einer Erhöhung des Signifikanzniveaus steigt die Irrtumswahrscheinlichkeit für die Ablehnung der richtigen H0 (α-Fehler). Bei einer beliebigen Vergrößerung der Stichprobe besteht die Gefahr, dass Alternativhypothesen akzeptiert werden, die zwar signifikant sind (d. h. wahrscheinlichkeitstheoretisch wird ein Irrtum auf dem gewählten Signifikanzniveau ausgeschlossen), aber praktisch ohne jede Bedeutung sind. Es besteht also die Notwendigkeit,

die Größe eines Unterschiedes zwischen zwei Messwerten unabhängig von den Stichprobengrößen zu beurteilen,

die Wahrscheinlichkeit, mit der ein Signifikanztest einen tatsächlich existierenden Unterschied (oder Zusammenhang) erkennt, abzuschätzen und

die optimale Größe der Stichproben zu bestimmen.

I Effektgröße Um eine Aussage über die Größe eines Unterschiedes unabhängig von der Stichprobengröße machen zu können, benutzt man die sog. Effektgröße. Diese gibt an, wie groß ein Unterschied oder ein Zusammenhang sein müssen, damit dieser nicht nur signifikant, sondern auch praktisch bedeutsam ist. Man orientiert sich dabei an der Streuung der Populationen. Wenn ein Unterschied wesentlich größer als die Streuung der Populationen ist, hat man zweifelsohne einen größeren Effekt, als wenn ein Unterschied sich in Bruchteilen der Streuung der Populationen bewegt. Tabelle 2: Zusammenhang zwischen der Standardabweichung σ und der Irrtumswahrscheinlichkeit p für einen t-Test für 2unabhängige Stichproben bei konstanten Populationswerten (µ1=100, n1 = 20; µ2 = 110, n2 =20)

σ= 5 10 15 20

p = 0.000 0.003 0.042 0.122

Es ist deutlich der Einfluss der Streuungen auf die Irrtumswahrscheinlichkeit p ersichtlich: Je größer der Unterschied zwischen zwei Mittelwerten in Relation zu den Streuungen der Populationen ist, umso eher wird ein Unterschied auch signifikant. In Abbildung 1 ist der Einfluss der Stichprobengröße und der Streuung auf die Irrtumswahrscheinlichkeit p dargestellt. Gerechnet wurde ein t-Test für unabhängige Stichproben mit den Mittelwerten 100 bzw. 110. Dieser sehr kleine Gruppenunterschied von 10 Punkten wird bei einer Stichprobengröße von jeweils 1000 selbst bei einer Standardabweichung von 40 hochsignifikant. *)

Dieses gesamte Kapitel ist eine Zusammenfassung und Kürzung von Georg Wyrda „Sportwissenschaften 2“, Uni Saarland,

http://www.sportpaedagogik-sb.de/pdf/methoden_2/AB_2-8.pdf

Page 31: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

31

Effektgröße ε für den t-Test für unabhängige Stichproben

EG KG EG KGx x s² s²s

s 2

EG … KG….

Effektgröße ε für abhängige Stichproben

1 21 2 1 2

x x2 s s² s² 2r s s

s

r…

Veränderung der Effektgröße d bei unterschiedlich hohen Standardabweichungen (SD) und konstant gehaltenen Mittelwerten von 100 bzw. 110. Die Werte wurden mit der 1. Formel berechnet.

σ 5 7.5 10 12.5 15 17.5 20 25 30

ε 2 1.33 1 0.8 0.66 0.57 0.5 0.4 0.33

Mit der Effektgröße wird festgelegt, wie stark der H1 Alternativparameter mindestens von H0- Parameter abweichen muss, damit man von einem praktisch bedeutsamen Ereignis sprechen kann. ε erlaubt eine genauere Formulierung der H1 –Hypothese und somit auch eine bessere Einschätzung des ß-Fehlers. Normalerweise wird stets der α-Fehler angegeben, zur Festlegung des ß-Fehlers gibt es keine Konventionen. Es werden für ß mindestens 20 % empfohlen. Wie Wahrscheinlichkeit, mit der der Test zugunsten der Alternativhypothese entscheidet, kann dann höchstens 80% betragen. Man nennt dies die Teststärke.

II Teststärke 1-ß Die vier Möglichkeiten des statistischen Entscheidungsproblems im Überblick

α-Fehler: Nicht existierender Unterschied (oder Zusammenhang) wird als Effekt ausgegeben β-Fehler: Vorhandener Unterschied (oder Zusammenhang) wird nicht entdeckt. 1 – α: Nicht existierender Unterschied (oder Zusammenhang) wird auch erkannt. 1 – β: Vorhandener Unterschied (oder Zusammenhang)wird entdeckt = Teststärke, Power

Page 32: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

32

Die Gefahr eines α-Fehlers wird über das Signifikanzniveau kontrolliert. Je niedriger α angesetzt wird, um so größer ist die Gefahr, dass ein β-Fehler entsteht, d. h. ein vorhandener Unterschied nicht entdeckt wird. Darunter leidet die Teststärke (Testpower) (1 - β), d. h. die Wahrscheinlichkeit, mit der ein Signifikanztest einen tatsächlich existierenden Unterschied (oder Zusammenhang) erkennt, d. h. einen Fehler 2. Art ausschließt. Über die Zahl der Versuchspersonen kann man Einfluss nehmen auf die Wahrscheinlichkeit mit der ein Fehlers 2. Art auftritt. Bei einer Erhöhung der Probandenzahl werden Unterschiede bzw. Zusammenhänge zwischen zwei Messungen viel leichter als signifikant eingestuft als bei einer geringeren Probandenzahl Somit kann man über eine Erhöhung der Stichprobengröße dafür sorgen, dass vorhandene Unterschiede auch tatsächlich entdeckt werden, d. h. die Testpower erhöht wird. Die Gefahr, dass ein nicht existierender Unterschied als Effekt ausgegeben wird (α-Fehler) wird, wie oben gezeigt wurde, über das Signifikanzniveau kontrolliert.

Hierbei geht es nicht um eine Maximierung der Testpower, sondern um einen optimalen Wert. Eine Maximierung der Testpower ginge wiederum zu Lasten der α-Fehler-Wahrscheinlichkeit. Man geht im Allgemeinen davon aus, dass die Folgen eines Fehler 1. Art viermal so gravierend sind wie die Folgen eines Fehlers 2. Art. Für den α-Fehler geht man von einer Irrtumswahrscheinlichkeit von p ≤ 0.05 aus. Für den β-Fehler erachtet man einen Wert von 0,2 als akzeptabel. Für die Testpower (1 - β) geht man deshalb von einem optimalen Wert von 0.8 aus. Die Zusammenhänge zwischen Testpower, Stichprobengröße und Signifikanzniveau erkennt man aus der Abbildung.

Es wird deutlich, wie sich die Testpower bei einer Vergrößerung des Stichprobenumfangs und einer Erhöhung des Signifikanzniveaus erhöht. Für die optimale Testpower von 0,8 gilt es deshalb, in Abhängigkeit von der gewählten Irrtumswahrscheinlichkeit, eine optimale Stichprobengröße zu wählen. Der ß-Fehler, eine falsche H0 beizubehalten, hängt ab von:

Umfang der Stichprobe, je größer n, desto eher entdeckt man einen Unterschied bei gegebenen α.

Grad des Unterschieds δ zwischen dem hypothetischen und dem wahren Zustand des Effekts.

von der Teststärke 1-ß

Page 33: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

33

III Optimale Stichprobengröße Die Anwendung einer Effektgröße kann dazu führen, dass Untersuchungsergebnisse weder zur Ablehnung on H0 noch zur Ablehnung der H1 führen. daher sollten α,ß,ε, und n so lange abgestimmt werden, bis eine eindeutige Entscheidung möglich ist. Praktisch kann man mit n steuern. Bei Kenntnis von Signifikanzniveau und Effektgröße lässt sich die optimale Stichprobengröße n berechnen. Diese gewährleistet, dass ein Signifikanztest bei Gültigkeit der H1 mit einer Wahrscheinlichkeit von 80 % zu einem signifikanten Ergebnis führt. Das Risiko einer Fehlentscheidung (α-Fehler) entspricht hierbei dem gewählten Signifikanzniveau. Unterschieden werden kleine, mittlere und große Effektgrößen. Während bei einer Vergrößerung der Stichprobe die optimale Testpower überschritten wird, stößt man bei einer Verringerung der Probandenzahl an Grenzen der Statistik. Zum einen erhöht sich bei einer Verringerung der Strichprobenzahl der α-Fehler. Des Weiteren führt eine zu kleine Probandenzahl dazu, dass man keine Normalverteilung mehr nachweisen kann und dann auf parametrische Testverfahren (z. B. t-Test oder Varianzanalyse) verzichten muss. Optimale Stichprobengröße für große, mittlere und kleine Effektgrößen für den t-Test

Effektgröße groß mittel klein ε ≥ 0.80 ≥ 0.50 ≥ 0.20 n optimal: 20 50 310

Der optimale Stichprobenumfang sichert, dass ein vorhandener Mindesteffekt ε mit der Power 1-ß durch den Test ausgewiesen wird. Zur Bestimmung des optimalen Stichprobenumfangs verwendet man manchmal NOMOGRAMME. Das sind 2- dimensionale Diagramme, an denen man die mathematischen Funktionen näherungsweise ablesen kann.

Nomogramm für σ = 20. soll mit 80% = 1-ß zu einem signifikanten Resultat bei Annahme eines Testniveaus von 5% = α führen, δ = 30 = Abstand der Populationsmittelpunkte . ε = δ/σ t-Test für unabhängige Stichproben.

Zeichnung für ß = 20%

δ/σ

Ablesung: ß = 20 %, 1-ß = 80%

δ/σ = 5,1 3 2 1,3 0,9 0,7 0,6 0,4

n = 2 3 5 10 20 30 50 100

Page 34: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

34

Auswahl inferenzstatistischer Verfahren

I Überblick über die Testverfahren Man stellt sich beim Auswählen des richtigen Verfahrens folgende Fragen:

Welches Skalenniveau liegt vor: nominal, ordinal, metrisch (intervallskaliert)?

Sind die Stichproben unabhängig oder abhängig (gepaart)?

Wie ist die Verteilung? (Normalverteilt, verteilungsfrei?)

Wie groß ist die Stichprobe?

Hat die Stichprobe Ausreißer?

Überblick über die bivariaten Korrelationsarten

Messniveau Zusammenhangsmaß Standardisiertes

Zusammenhangsmaß

Nominale Merkmale

Chi-Quadrat Cramers V, Contingenz

Ordinale Merkmale

Kovarianz für Rangplätze

Spearmans Korrelationskoeffizient

Metrische Merkmale

Kovarianz Pearson Korrelationskoeffizient

Kolmogorov-Smirnov

Page 35: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

35

II Welcher Test wozu und wann?

Test Voraussetzung was geht noch Nullhypothese

t-Test

-1 Stichprobe, normalverteilt, n>30, intervallsk.

-2 Stichproben, normalverteilt abhängig, intervallsk., beide n>30 oder bei kleinen STP die Differenzen normalverteilt

U-test, Mann-Whithney Modifizierter t-test mit ungleichen Varianzen

Kein Unterschied zwischen den Stichproben

-2 Stichproben, normalverteilt unabhängig, intervallsk., beide n>30 oder die Differenzen normalverteilt.

Wilcoxon Kein Unterschied zwischen Mittelwerten der beiden Stichproben

χ²-Test 1 , 2 oder mehr Stichproben, nominalskaliert, abhängig oder unabhängig, kein Einzelwert der Häufigkeit < 2 max. 20 % der Werte < 5

Exakter Fisher-test Zusammenfassung von Kategorien

Kein signifikanter Unterschied zwischen den Merkmalen

Kolmogorov-Smirnov

2 Stichproben, unabhängig, nominalskal, k Kategorien

Alternativtest χ²

Mc Nemar χ² 2 Stichproben, abhängig, nominalskal, dichotom

keine Veränderung

Mediantest 2 oder mehrere Stichproben, unabhängig ordinalskaliert

Mann-Whitney, U-test

2 Stichproben, Unabhängig, ordinalskaliert

t-test für unabhängige Stichproben

4-Felder-χ²-Mediantest

Wilcoxon Paardifferenzen T, T‘

2 Stichproben, abhängig ordinalskaliert

Differenzentest Keine Unterschied zwischen Anfang und Ende einer Untersuchung

Kruskalis-Wallis H-Test

mehr als 2 Stichproben, unabhängig, ordinalskaliert ohne Varianzhomogenität nicht unbedingt normalvt.

ANOVA Keine Unterschied der Merkmale in den einzelnen Stichproben

Friedmann- test

mehr als 2 Stichproben, abhängig, ordinalskaliert evt.ohne Varianzhomogenität nicht unbedingt normalvt.

ANOVA mit Messwiederholung

Page 36: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

36

Anhang: Tabellen

Die Flächen Φ der z-Verteilung: Standardnormalverteilung

z = x µ

, negative z-Werte: Φ(-z) = 1-Φ(+z)

Page 37: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

37

Einige Perzentile der Chi-Quadrat-Verteilung

Page 38: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

38

Einige Perzentile der Student-Verteilung Einseitige Fragestellung

Page 39: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

39

t-Werte: Zweiseitige Fragstellung

f f

Page 40: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

40

Quantile der F-Verteilung für 95% Sicherheit

Page 41: Statistik nach der Matura, Teststatistikteaching.schule.at/.../hw-amst/amst5/statistik2BW.pdfII Tests für 2 unabhängige Stichproben 21 1. Kolmogorov-Smirnov-Test 21 2. 4- Felder

41

Quantile der F-Verteilung für 97,5% Sicherheit