Statistische Grundlagen

156
Statistische Grundlagen Eine Einführung mit Beispielen aus der Sprachforschung Jan Vanhove Universität Freiburg/Fribourg Departement für Sprachen und Literaturen Studienbereich für Mehrsprachigkeitsforschung und Fremdsprachendidaktik [email protected] http://janhove.github.io Letzte Überarbeitung: Mai 2016

Transcript of Statistische Grundlagen

Page 1: Statistische Grundlagen

Statistische GrundlagenEine Einführung mit Beispielen

aus der Sprachforschung

Jan Vanhove

Universität Freiburg/FribourgDepartement für Sprachen und Literaturen

Studienbereich für Mehrsprachigkeitsforschung und Fremdsprachendidaktik

[email protected]://janhove.github.io

Letzte Überarbeitung: Mai 2016

Page 2: Statistische Grundlagen

Vorwort

Anders als in anderen Geisteswissenschaften wie der Psychologie oder Pädagogik gehörenStatistikkurse eher selten zur Grundausbildung von Forschenden in Bereichen wie den ein-zelsprachigen Philologien (Anglistik, Germanistik, Romanistik usw.), der theoretischen oderangewandten Linguistik oder der Mehrsprachigkeitsforschung. Das Ziel des vorliegenden Skrip-tes ist es daher, Forschenden in diesen Bereichen statistische Grundkenntnisse zu vermitteln, dieihnen sowohl bei der Lektüre quantitativer Forschungsberichte als auch bei der Gestaltung undAuswertung eigener Studien nützlich sein werden.

Ursprunglich diente dieses Skript als Grundlage eines Wahlfaches, das ich seit 2012 regelmässigam Studienbereich für Mehrsprachigkeitsforschung und Fremdsprachendidaktik der UniversitätFreiburg (Schweiz) unterrichte. Ich denke jedoch, dass es auch als selbstständige Lektüre geeignetsein dürfte – auch wenn es noch verbesserungsfähig ist. Dieses Skript hat aber nicht zum Ziel, ein‘Schema F’ für die Datenanalyse zu bieten. Vielmehr versucht es, Ihnen die zentralen Konzeptender quantitativen Analyse beizubringen, sodass Sie diese Verfahren selbst überlegt einsetzenkönnen oder auch ihre Anwendung in anderen Studien reflektieren können – nicht ‘Wann darfich diesen Test benutzen?’ sondern ‘Was nutzt mir dieser Test überhaupt?’ Wichtig ist also, dasszumindest die am häufigsten verwendeteten statistischen Verfahren nicht als Orakel betrachtetwerden, sondern dass sie weitgehend demystifiziert werden. Dies ist natürlich – sowohl für Sieals auch für mich – am Anfang erheblich schwieriger als ein Schema F. Aber der Mehraufwandzahlt sich aus, wenn Sie am Ende nicht nur im Stande sind, statistischen Ratschlägen (odermanchmal besser: ‘Befehlen’) zu folgen, sondern diese auch kritisch reflektieren können. Auchwird Ihnen hoffentlich klar, dass viele ‘Orakel’ (z.B. t-Tests, ANOVAs und Regressionen) imGrunde alle nur Erscheinungsformen der gleichen Logik sind.

Die Verfahren, die in diesem Skript besprochen werden, sind in der Tradition der sog. fre-quentistischen Inferenzstatistik angesiedelt. Es gibt aber andere statistische Traditionen – unddie dürften für viele Fragestellungen durchaus angemessener sein (siehe etwa Dienes 2011).Aber beim Gestalten eines Einführungskurses in die Statistik muss eine Abwägung zwischendem ist- und dem soll-Zustand gemacht werden. Fürs Erste habe ich dafür gewählt, jene Ver-fahren zu präsentieren, die Sie in Forschungsberichten am häufigsten antreffen werden. Ichmöchte Sie aber dazu anhalten, sich auch mit Methoden, die nicht detailliert in diesem Skriptbehandelt werden, auseinanderzusetzen. Literaturempfehlungen dazu finden Sie in Kapitel9 sowie auch an den relevanten Stellen im Skript. Zuletzt möchte ich auf meinen Blog unterhttp://janhove.github.io verweisen, wo ich quasi-regelmässig die statistische Praxis in derangewandten Linguistik und Mehrsprachigkeitsforschung unter die Lupe nehme und diesekonstruktiv zu kritisieren versuche.

In diesem Skript wird die Programmiersprache bzw. das Programm R verwendet – kostenlos her-unterzuladen unter http://www.r-project.org/. R hat eine steile Lernkurve, aber auch dieserAufwand wird sich auszahlen, denn das Programm zwingt seine BenutzerInnen über die Analysenachzudenken. Ausserdem ist R gratis und quasi unbegrenzt erweiterbar (siehe die ‘Packages’ un-ter http://cran.r-project.org/web/packages/available_packages_by_name.html). Als

i

Page 3: Statistische Grundlagen

ii

graphical user interface ist RStudio zu empfehlen: http://www.rstudio.com/.

Zu guter Letzt möchte ich darauf hinweisen, dass dieses Skript sich als ein work-in-progressversteht. Ich bin von meiner Ausbildung her kein Statistiker und mein Verständnis der bespro-chenen Verfahren entwickelt sich ständig. Ausserdem bin ich kein deutscher Muttersprachlerund daher ist der Text auch in dieser Hinsicht verbesserungsfähig. Für jegliche Hinweise, sowohltechnisch als auch sprachlich, bin ich natürlich dankbar.

Jan VanhoveFreiburg/Fribourg, Mai 2015http://janhove.github.io

Bei der Überarbeitung vom Mai 2016 habe ich ein paar Sprach- und Tippfehler durch andereersetzt und ein paar Abschnitte ergänzt oder zu vereinfachen versucht. Zudem habe ich versucht,den Gebrauch der sehr nützlichen ggplot2- und dplyr-Packages zu illustrieren.

Jan VanhoveFreiburg/Fribourg, Mai 2016

Page 4: Statistische Grundlagen

Inhaltsverzeichnis

I Grundlagen 1

1 Daten beschreiben 21.1 Messniveaus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21.2 Daten einlesen und anzeigen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

1.2.1 Struktur von Datensätzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2.2 Daten einlesen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.2.3 Daten anzeigen in R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.3 Einzelne Variablen numerisch beschreiben . . . . . . . . . . . . . . . . . . . . . . 61.3.1 Mittelwerte (‘zentrale Tendenz’) . . . . . . . . . . . . . . . . . . . . . . . . 61.3.2 Streuung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.4 Grafische Darstellung einer Population von univariaten Daten . . . . . . . . . . . 121.4.1 Cleveland dotchart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.4.2 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131.4.3 Säulendiagramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141.4.4 Histogramm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4.5 Wahrscheinlichkeitsdichte . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

1.5 Klassische (idealisierte) Datenverteilungen . . . . . . . . . . . . . . . . . . . . . . 181.5.1 Gleichverteilung oder Uniformverteilung . . . . . . . . . . . . . . . . . . . 181.5.2 Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181.5.3 Bimodale Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201.5.4 Schiefe Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.6 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Wahrscheinlichkeitsaussagen über neue Beobachtungen 222.1 Beispiel: kontinuierliche Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . 22

2.1.1 Wahrscheinlichkeit = Fläche unter der Wahrscheinlichkeitsdichte . . . . . 232.1.2 Kumulative Verteilungsfunktion . . . . . . . . . . . . . . . . . . . . . . . . 23

2.2 Beispiel Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3 Wahrscheinlichkeitsaussagen über Stichproben 283.1 Zentrale Tendenz und Streuung der Population anhand einer Stichprobe schätzen 29

3.1.1 Stichprobenmittel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1.2 Stichprobenvarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.1.3 Stichprobenstandardabweichung . . . . . . . . . . . . . . . . . . . . . . . . 31

3.2 Verteilung von Stichprobenmitteln . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.1 Simulation: Verteilung der Stichprobenmittel aus einer rechtsschiefen Ver-

teilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.2 Simulation: Verteilung der Stichprobenmittel aus einer Gleichverteilung . 333.2.3 Fazit: Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . 34

iii

Page 5: Statistische Grundlagen

INHALTSVERZEICHNIS iv

3.2.4 Wahrscheinlichkeitsaussagen über neue Stichproben . . . . . . . . . . . . 343.3 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4 Die Logik des Signifikanztests 364.1 Einstichproben-Gauss-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

4.1.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 364.1.2 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.1.3 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.1.4 Anmerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.1.5 Power berechnen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.1.6 Relative Effektgrössen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.1.7 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3 Einstichproben-t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.3.1 Die t-Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.2 Hypothesen testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.3.3 t- oder Gauss-Test? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

II Die weitverbreitesten Tests und Modelle 50

5 Zwei Stichproben vergleichen 515.1 Exkurs: Randomisierung als Inferenzbasis . . . . . . . . . . . . . . . . . . . . . . . 52

5.1.1 Ein einfaches Experiment . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.1.2 Warum randomisieren? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525.1.3 Die Nullhypothese und Re-Randomisierung . . . . . . . . . . . . . . . . . 535.1.4 Bemerkungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.1.5 Die Holzhammermethode: Permutationstest für grössere Stichproben . . 55

5.2 Zweistichproben-t-Test für unabhängige Stichproben . . . . . . . . . . . . . . . . 555.2.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.2.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.2.3 Beschreibende Statistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.2.4 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 575.2.5 Schlussfolgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.2.6 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 605.2.7 Welch-Test für Stichproben mit ungleichen Varianzen . . . . . . . . . . . . 605.2.8 Alternativ für nicht-normalverteilte Daten . . . . . . . . . . . . . . . . . . 615.2.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62

5.3 Zweistichproben-t-Test für abhängige Stichproben . . . . . . . . . . . . . . . . . . 645.3.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.3.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.3.3 Lösung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.3.4 Schlussfolgerungen und Bemerkungen . . . . . . . . . . . . . . . . . . . . 675.3.5 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675.3.6 Alternativ für nicht-normalverteilte Stichprobendifferenzen . . . . . . . . 675.3.7 Denkfrage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685.3.8 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

6 Zusammenhänge zwischen kontinuierlichen Variablen 706.1 Frage 1: Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

6.1.1 Grafische Darstellung: das Streudiagramm . . . . . . . . . . . . . . . . . . 716.1.2 Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 726.1.3 Pearsons Produkt-Moment-Korrelation (r) . . . . . . . . . . . . . . . . . . 73

Page 6: Statistische Grundlagen

INHALTSVERZEICHNIS v

6.1.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 776.2 Frage 2: Einfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . 79

6.2.1 Regressionsgerade, ‘vorhergesagte’ Werte und Residuen . . . . . . . . . . 806.2.2 Zusätzliche Informationen mit summary() . . . . . . . . . . . . . . . . . . 816.2.3 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.3 Frage 2: Mehrfache lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . 846.3.1 Mehrere kontinuierliche Prädiktoren (mehrfache Regression) . . . . . . . 846.3.2 Kategorielle Prädiktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 886.3.3 Der Nutzen von mehrfacher Regression . . . . . . . . . . . . . . . . . . . . 906.3.4 Vorbehalte und Weiterbildung . . . . . . . . . . . . . . . . . . . . . . . . . 916.3.5 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

7 Mehrere Gruppen vergleichen 937.1 Einfaktorielle Varianzanalyse (one-way ANOVA) . . . . . . . . . . . . . . . . . . 95

7.1.1 Fragestellung und Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957.1.2 Grafische Darstellungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 957.1.3 Mittel und Standardabweichungen berechnen . . . . . . . . . . . . . . . . 977.1.4 Signifikanztest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 987.1.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . . . . . . . . . . . . 1017.1.6 Annahmen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1027.1.7 Exkurs: Geplante Vergleiche und Post-hoc-Tests . . . . . . . . . . . . . . . 1037.1.8 Aufgaben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

7.2 Zweifaktorielle Varianzanalyse (two-way ANOVA)ohne Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.2.1 Daten und Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1057.2.2 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1067.2.3 Mittelwerte und Standardabweichungen berechnen . . . . . . . . . . . . . 1077.2.4 Berechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1077.2.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . . . . . . . . . . . . 1087.2.6 Warum nicht einfach zwei ANOVAs? . . . . . . . . . . . . . . . . . . . . . . 1087.2.7 Exkurs: Varianzaufteilung für unbalancierte Designs . . . . . . . . . . . . 108

7.3 Zweifaktorielle Varianzanalyse (two-way ANOVA)mit Interaktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1097.3.1 Was sind Interaktionen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1097.3.2 Daten und Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1097.3.3 Grafische Darstellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1107.3.4 Berechnung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1117.3.5 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . . . . . . . . . . . . 1127.3.6 Zur Interpretation von Interaktionen und Haupteffekten . . . . . . . . . . 112

7.4 Varianzanalyse mit wiederholten Messungen(repeated-measures ANOVA) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

7.5 Artikel mit ANOVA lesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

8 Mit kategorialen abhängigen Variablen arbeiten 1168.1 Kreuztabellen analysieren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116

8.1.1 Daten und Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1168.1.2 Eine Kreuztabelle erzeugen und grafisch darstellen . . . . . . . . . . . . . 1178.1.3 Berechnung des χ2-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1198.1.4 Schlussfolgerung und Bericht . . . . . . . . . . . . . . . . . . . . . . . . . . 1208.1.5 Komplikationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1218.1.6 Aufgaben (und ein zusätzlicher Test) . . . . . . . . . . . . . . . . . . . . . 125

8.2 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

Page 7: Statistische Grundlagen

INHALTSVERZEICHNIS vi

8.2.1 Warum logistische Regression? . . . . . . . . . . . . . . . . . . . . . . . . . 1278.2.2 Odds und log-odds . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1288.2.3 Logistische Regression mit einem kategorischen Prädiktor . . . . . . . . . 1308.2.4 Logistische Regression mit Interaktionen . . . . . . . . . . . . . . . . . . . 1328.2.5 Logistische Regression mit kontinuierlichen Prädiktoren . . . . . . . . . . 136

III Empfehlungen 139

9 Literaturempfehlungen 1409.1 Wiederholung und Vertiefung von Gelerntem . . . . . . . . . . . . . . . . . . . . . 1409.2 Fortgeschrittenere Methoden . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1419.3 Informative Grafiken erzeugen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

10 Praktische Empfehlungen 14210.1 Planung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14210.2 Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14210.3 Bericht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14310.4 Probleme lösen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

Page 8: Statistische Grundlagen

Teil I

Grundlagen

1

Page 9: Statistische Grundlagen

Kapitel 1

Daten beschreiben

In diesem Kapitel befassen wir uns mit den Grundrissen der quantitativen Analyse: Was fürDatenarten gibt es? Wie können wir einzelne Reihen von Daten effizient kommunizieren (Mittel-werte, Streuung, Grafiken)? Und wie können Datensätze in R eingelesen und angezeigt werden?

1.1 Messniveaus

Stevens (1946) unterscheidet vier Datenarten oder Messniveaus:

• nominalskalierte Daten wie Genus (männlich–weiblich–sächlich) oder Sprache (Deutsch–Englisch–Niederländisch–Französisch. . . ). Unterschiedliche Werte auf diesen Skalen schlies-sen einander im Prinzip aus: Zum Beispiel sind deutsche Wörter (mit wenigen Ausnah-men) entweder sächlich, männlich oder weiblich. Es gibt aber keine natürliche Reihenfolgezwischen den ‘Stufen’ solcher Nominalskalen: Sächlich ist weder ‘besser’/‘höher’ noch‘schlechter’/‘niedriger’ als weiblich, einfach anders.

• ordinalskalierte Daten wie Einschätzungen mittels Likertskalen (etwa sehr hässlich – häss-lich – neutral – schön – sehr schön oder sehr dialektal – eher dialektal – eher standardnah – sehrstandardnah). Man kann sagen, dass schön einen höheren Wert auf der Skala darstellt alsneutral und dass neutral einen höheren Wert darstellt als hässlich. Es ist aber schwieri-ger zu sagen, dass der Unterschied zwischen hässlich und neutral (eine Stufe) gleich demUnterschied zwischen neutral und schön (ebenfalls eine Stufe) ist.

• intervallskalierte Daten wie Grad Celsius. Die Null solcher Skalen ist arbiträr: 0 °C heisstnicht, dass es keine Temperatur gibt. Unterschiede auf der Skala können aber sinnvollmiteinander verglichen werden: Der Unterschied zwischen 15 und 20 °C ist gleich demUnterschied zwischen −10 und −5 °C, und beide Unterschiede sind halb so gross wie jenerzwischen 50 und 60 °C. Man kann aber nicht sagen, dass 20 °C doppelt so warm ist oderdoppelt so viel Temperatur entspricht wie 10 °C.

• verhältnisskalierte Daten wie Reaktionszeiten, Wortfrequenzen, Vokallänge in ms oderAnzahl Sprecher einer Sprache. Hier ist die Null bedeutungsvoll: Eine Korpusfrequenzvon 0 heisst, dass das Wort nicht im Korpus vorkommt. Gibt es für das eine Wort 8 Trefferund für das andere 24, dann kann man jetzt schon sagen, dass das andere Wort 3 Mal sooft vorkommt als das eine.

Intervallskalierte und verhältnisskalierte Daten bezeichnet man auch als kontinuierlich, wäh-rend man für nominalskalierte Daten (und manchmal auch für ordinalskalierte Daten) auch die

2

Page 10: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 3

Begriffe kategorial oder diskret verwendet.

Wie wir später sehen werden, wären je nach Messniveau andere statistische Verfahren zulässig.Diese Aufteilung wurde jedoch öfters kritisiert (Carifio & Perla 2008; Velleman & Wilkinson 1993).Die aus meiner Sicht pragmatische Lösung ist, den Unterschied zwischen den unterschiedlichenMessniveaus zwar zu kennen, ihm aber nicht zu pedantisch zu folgen. Insbesondere stösst manab und zu auf Kritiken, in denen die Verwendung geläufiger Signifikanztests auf Likertskalenbemängelt werden. Oft zeigt sich aber das gleiche Ergebnis, wenn man solche Daten mittelsanderer Methoden auswertet (Norman 2010).

1.2 Daten einlesen und anzeigen in R

1.2.1 Struktur von Datensätzen

Im Folgenden arbeiten wir mit Daten, die ich im Rahmen eines Lernexperimentes erhoben habe(Vanhove 2015b). Von Interesse sind hier nicht die Daten, für die ich mich hauptsächlich inter-essierte, sondern die Ergebnisse von 80 Versuchspersonen bei einem deutschen Wortschatztest(Wortschatz) sowie bei einem Englisch- und Französischtest. Daneben enthält der Datensatznoch Angaben zum Geschlecht und Alter der Versuchspersonen. Die Spalte VPN enthält dieID-Nummern der Versuchspersonen.

Der Datensatz besteht somit aus fünf Variablen; jede Spalte enthält die Werte einer Variable.Für jede dieser fünf Variablen verfügen wir über 80 Beobachtungen; jede Zeile enthält dieBeobachtungen, die miteinander assoziiert sind (gleiche Versuchsperson). Die Datei wurde alsVanhove2015_Vpn.csv gespeichert1 und kann in einem Tabellenkalkulationsprogramm wieExcel2 oder LibreOffice Calc geöffnet werden. Dies schaut dann so aus (im Gratis-ProgrammLibreOffice Calc):

Tipp: Geben Sie Ihren Variablen (= Spalten) möglichst eindeutige und einfache Namen. So wissenSie auch Jahre nach der Datenerhebung, worauf sich die Zahlen beziehen.

Tipp: Am einfachsten für die spätere Analyse ist es, wenn alle Beobachtungen derselben Variablein derselben Spalte stehen und es eine Zeile pro ‘Beobachtungseinheit’ gibt (Wickham 2014), wieim obigen Beispiel.

1Die Datensätze können auf meiner Website heruntergeladen werden.2Siehe die Microsoft Office-Website zum Öffnen von csv-Dateien in Excel. Persönlich finde ich das Tabellenkalkulati-

onsprogramm von LibreOffice praktischer.

Page 11: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 4

Tipp: Bezeichnen Sie fehlende Werte als ‘NA’ (not available) und nicht etwa als -99 oder 0.

1.2.2 Daten einlesen in R

Am einfachsten können Daten in R eingelesen werden, wenn sie als comma-separated values(CSV) gespeichert wurden. Alle relevanten Tabellenkalkulationsprogramme (Excel, LibreOfficeusw.) können Arbeitsblätter als CSV speichern (Speichern unter...), aber je nach lokalenEinstellungen werden die Angaben mit Kommas oder Semikolonen voneinander getrennt. Inden CSV-Dateien, die in diesem Skript verwendet werden, werden die Angaben mit Kommasgetrennt und werden Punkte als Dezimaltrennzeichen verwendet. Solche Dateien können dannso in R eingelesen werden.

Speichern Sie die csv-Datei in Ihr Arbeitsverzeichnis. Das Arbeitsverzeichnis können Sie inRStudio unter Session > Set Working Directory > Choose Directory einstellen. TippenSie dann den folgenden Befehl ein:

dat <- read.csv("Vanhove2015_Vpn.csv")

Vergessen Sie das Pfeilchen (<-, ohne Leerstelle zwischen < und -) und die Anführungszeichennicht! Auch Gross- vs. Kleinschreibung ist wichtig.

R kennt den Datensatz jetzt als dat. In RStudio finden Sie den Datensatz jetzt unter der Register-karte Environment (rechts oben):

Tipp: Tragen Sie die R-Befehle nicht direkt auf die Konsole (links unten) ein, sondern schreibenSie diese zuerst in ein Skript (File > New File > R Script). Wenn Sie fertig geschriebenhaben, können Sie dann die getippten Zeilen in die Konsole übertragen (z.B. Zeilen selektierenund dann Code > Run Line(s)). Insbesondere bei komplizierten Befehlen oder bei häufigverwendeten Befehlen ist dies sehr nützlich, da sich Tippfehler so einfacher aufspüren lassenund da man so Befehle einfacher ‘rezyklieren’ kann. R-Skripts können auch einfach gespeichertwerden (File > Save As...), sodass man die gleiche Analyse nicht jeden Tag ganz von vorneanfangen muss.

Eine alternative Methode, um Dateien einzulesen, die irgendwo auf Ihrer Festplatte stehen:

dat <- read.csv(file.choose())

Auch wenn die Angaben in Ihrer CSV-Datei nicht mit Kommas sondern mit Semikolonenvoneinander getrennt sind, können Sie diese in R einlesen. Dazu müssen Sie den sep-Parameter

Page 12: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 5

als ; einstellen. Wenn statt Punkten Kommas als Dezimaltrennzeichen verwendet werden,können Sie dies mit dem dec-Parameter einstellen. Beispiel:

daten <- read.csv("IhreDatei.csv", sep = ";", dec = ",")

Details zur read.csv()-Funktion können Sie abrufen, indem Sie in R ?read.csv eintippen.

Mehr Infos zum Einlesen von Datensätzen aller Art (inkl. Excel- und SPSS-Format) finden Sieunter etwa www.r-tutor.com/r-introduction/data-frame/data-import.

Vorsicht: Wenn Sie eine Datei mit der Import Dataset-Funktion in RStudio einlesen, gibtRStudio dem Datensatz selber einen Namen. Dieser entspricht dann nicht dem Namen, der ihmim Skript gegeben wird, was dazu führt, dass der Code in diesem Skript nicht funktionierenwird.

Vorsicht: Es kann geschehen, dass beim Einlesen einer CSV-Datei, Sonderzeichen wie ö, ü oder ßfalsch eingelesen werden. Dies liegt an der Zeichenkoderierung der Datei, die nicht der default-Einstellung Ihrer R-Installation entspricht. Wenn Sie die richtige Zeichenkodierung kennen,können Sie diese beim Einlesen spezifizieren:

dat <- read.csv(file.choose(), encoding = "UTF-8")

UTF-8 ist die Kodierung, die ich für all meine Dateien verwende. Gegebenenfalls können Sie inIhrem Spreadsheet-Programm die Datei mit einer anderen Kodierung speichern. In Excel ist diesetwas umständlich; im Gratis-Programm LibreOffice geht dies einfach über File > Save as >Text CSV, wo Sie dann Edit filter settings ankreuzen können.

1.2.3 Daten anzeigen in R

Um zu kontrollieren, ob ein Datensatz richtig eingelesen wurde, können Sie die ersten Zeilendes Datensatzes anzeigen lassen:

head(dat)

## VPN Wortschatz Englisch Französisch Geschlecht Alter## 1 2 30 0.6250 0.5268 Mann 20## 2 3 33 0.7000 0.4732 Frau 21## 3 4 32 0.7375 0.5357 Frau 21## 4 5 31 0.6000 0.5536 Frau 22## 5 6 34 0.6875 0.5446 Frau 21## 6 7 37 0.7875 0.6518 Mann 23

Nützlich ist auch die summary()-Funktion. Die Informationen, die diese anzeigt, besprechen wirspäter:

summary(dat)

## VPN Wortschatz Englisch## Min. : 2.0 Min. :25.0 Min. :0.487## 1st Qu.: 28.8 1st Qu.:31.0 1st Qu.:0.613## Median : 51.5 Median :33.0 Median :0.662## Mean : 50.5 Mean :32.6 Mean :0.673## 3rd Qu.: 73.2 3rd Qu.:34.0 3rd Qu.:0.719## Max. :100.0 Max. :38.0 Max. :0.875## Französisch Geschlecht Alter## Min. :0.429 Frau:66 Min. :19.0## 1st Qu.:0.533 Mann:14 1st Qu.:21.0

Page 13: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 6

## Median :0.576 Median :22.0## Mean :0.590 Mean :22.1## 3rd Qu.:0.629 3rd Qu.:23.0## Max. :0.902 Max. :37.0

Wenn sich hier bei einigen Variablen ein Buchstabensalat zeigt, hat dies in der Regel einen dieserGründe:

• Der sep- oder dec-Parameter in der read.csv()-Funktion wurde falsch eingestellt. Lösung:Öffnen Sie die Datei mit NotePad (oder einem anderen Texteditor) und schauen Sie, welcheCharaktere die Spalten voneinander trennen und welches Zeichen als Dezimaltrennzeichendient. Stellen Sie danach die sep- und dec-Parameter richtig ein.

• Ihre Datei enthält längere Textabschnitte (z.B. ganze Sätze), in denen Kommata, Semikolo-nen usw. vorkommen. Lösung: Stellen Sie diesen Text zwischen doppelte Anführungszei-chen ("Text").

Spezifische Daten können folgendermassen angezeigt werden:

dat # Name des Datensatzes: zeigt alle Daten in der Konsoledat$Wortschatz # Dollarzeichen: zeigt alle Werte in der Wortschatz-Spaltedat$Englisch[8] # zeigt den Englisch-Wert in der 8. Zeiledat[8:12, ] # zeigt Zeilen 8 bis 12 des Datensatzesdat[20:27, 2] # zeigt Zeilen 20 bis 27 in der 2. Spaltedat[20:27, -2] # zeigt die Zeilen 20 bis 27 für alle Spalten ausser der 2.dat[, c("Geschlecht", "Alter")] # zeigt alle Zeilen# für die Spalten namens 'Geschlecht' und 'Alter'# (Beachten Sie die 'c(...)'-Struktur.)

Zeigen Sie alle Daten in der Alter-Spalte an. Zeigen Sie jetzt nur die 42. Beobachtung inder Alter-Spalte an. Zeigen Sie die 4. Zeile für die Spalten VPN und Geschlecht (beidezusammen). (Es sind jeweils mehrere Lösungsansätze möglich.)

1.3 Einzelne Variablen numerisch beschreiben

1.3.1 Mittelwerte (‘zentrale Tendenz’)

Wenn wir etwa über die Wortschatz-Ergebnisse berichten möchten, ist es umständlich, alle 80Werte zu aufzulisten. Lieber berichten wir eine Zahl, die möglichst typisch für die 80 Beobach-tungen ist.

Die Wortschatz-Ergebnisse, über die wir berichten möchten, nennen wir unsere Populationvon Daten; die zentrale Tendenz ist ein Wert, der am typischsten, am repräsentativsten für diesePopulation ist (Mittelwert). Je nachdem wir ‘typisch’/‘repräsentativ’ verstehen, können wirdiese Zahl numerisch anders erfassen: Es gibt also mehrere Arten von Mittelwerten.

Welcher Mittelwert am geeignetsten ist, ist abhängig von (a) dem Messniveau, (b) der Verteilungder Daten, (c) dem Zweck der Studie bzw. des Berichtes.

Page 14: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 7

Modus

Dies ist der Wert, der am meisten vorkommt und den man daher als typisch betrachten kann.Manchmal gibt es mehr als einen Moduswert.

Bei feinkörnigen Skalen (z.B. Reaktionszeiten in ms) ist es kaum sinnvoll einen Modus zuberechnen, da jeder Wert vermutlich sowieso nur einmal vorkommt.

Mit table() tabulieren wir, wie oft jeder Wert vorkommt:

table(dat$Wortschatz)

#### 25 26 27 28 29 30 31 32 33 34 35 36 37 38## 1 1 3 1 5 5 5 12 16 14 10 3 3 1

Der Wert 33 kommt 16 Mal vor und ist somit der Modus der Wortschatz-Variable.

Bespiel mit der Variable Geschlecht:

table(dat$Geschlecht)

#### Frau Mann## 66 14

Es gibt deutlich mehr Frauen als Männer: Frauen sind gewissermassen also ‘typischere’ Ver-suchspersonen in diesem Datensatz.

Median

Dies ist der mittlere Wert, wenn die beobachteten Werte von klein nach gross geordnet werden.Bei einer geradzahligen Anzahl Beobachtungen nimmt man das Mittel der zwei mittleren Werte.

R-Funktion: median()

# Daten von klein nach gross ordnen und Werte 40 und 41 anzeigensort(dat$Wortschatz)[40:41]

## [1] 33 33

# Mittel von 33 und 33 = 33# Kürzer:median(dat$Wortschatz)

## [1] 33

Beispiel mit den Französisch-Daten:

sort(dat$Französisch)[40:41]

## [1] 0.5714 0.5804

# Mittel von 0.5714 und 0.5804 = 0.576median(dat$Französisch)

## [1] 0.5759

(Wenn Sie mit den letzten Befehlen Probleme haben sollten, liegt dies vermutlich daran, dassdas ö in Französisch nicht richtig eingelesen wurde. Lesen Sie in diesem Fall den Datensatznochmals in R ein, aber stellen Sie diesmal bei encoding “UTF-8” ein.)

Page 15: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 8

Mediane sind sinnvoll bei Ordinalskalen und kontinuierlichen Daten. Bei der Variable Geschlecht,einer nominalskalierten Variable, wäre es nicht sinnvoll, über das ‘mittlere Geschlecht’ zu reden.

Arithmetisches Mittel

Dies ist der bekannteste Mittelwert und wird auch einfach ‘Mittel’ genannt. Es ist die Summealler beobachteten Werte (x1 + x2 + x3 + · · ·+ xN, wobeiN die Anzahl Beobachtungen ist) geteiltdurch die Anzahl Beobachtungen. Symbol: µ.

µ =x1 + x2 + x3 + x4 + · · ·+ xN

N(1.1)

R-Funktion: mean()

# Summe aller Werte:sum(dat$Wortschatz)

## [1] 2605

# Anzahl Werte:length(dat$Wortschatz)

## [1] 80

# Summe geteilt durch Anzahlsum(dat$Wortschatz) / length(dat$Wortschatz)

## [1] 32.56

# Kürzermean(dat$Wortschatz)

## [1] 32.56

In diesem Datensatz liegen Modus, Median und Mittel sehr nahe beieinander. Dies ist aber längstnicht immer der Fall.

Oft wird gesagt, dass Mittel sei nur sinnvoll bei kontinuierlichen Datentypen. Für etwa Likert-Skalen sei das Mittel dann ungeeignet. Hier sollten Sie meiner Meinung nach aber nicht zupedantisch sein (siehe Abschnitt 1.1).

Das Mittel gilt als der ‘normale’ Mittelwert, ist aber sehr ausreisserempfindlich.

Ausreisser Extremwerte, denen möglicherweise ein technischer Fehler oder irgendeine sonstigeArt von unerwünschtem externem Einfluss zu Grunde liegt. Ab wann ein Wert als Ausreisserbetrachtet werden kann, ist nicht strikte definiert. Eine grafische Darstellung der Daten ist aberoft einleuchtend. Einfaches Beispiel: Dezimalstelle an falscher Stelle wegen eines Tippfehlers:

# fiktive Daten eintragenausreisser <- c(1.35, 2.54, 27.6, 1.75, 1.98, 2.09, 2.43)# grafisch darstellenplot(ausreisser)

Page 16: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 9

1 2 3 4 5 6 7

5

10

15

20

25

Indexau

srei

sser

Die Grafik zeigt deutlich, dass der 3. Wert weit von den anderen entfernt ist. Das Mittel ist daherkaum repräsentativ für diese Daten (es gibt keine Werte um 5.7):

mean(ausreisser)

## [1] 5.677

In diesem Fall ist der Median besser geeignet:

median(ausreisser)

## [1] 2.09

Wenn der Ausreisser eindeutig auf einen Tippfehler zurückzuführen ist, soll der Wert natür-lich einfach korrigiert werden. Aber nicht jeder Ausreisser ist ein invalider Datenpunkt undAusreisser sollten nicht automatisch gelöscht werden.

Andere Mittelwerte

In manchen Forschungsbereichen sind noch einige andere Mittelwerte geläufig, z.B. das harmo-nische und das geometrische Mittel. Diese Mittelwerte behandeln wir nicht.

Tipp: Der Begriff Mittelwert (average) ist nicht eindeutig definiert, denn es gibt unterschiedlicheArten von Mittelwerten. Wählen Sie in Ihren eigenen Arbeiten daher den passenden eindeutigenBegriff. Sehr lesenswert zu diesem Thema ist noch How to lie with statistics (spezifisch Kapitel 2,aber eigentlich das ganze Buch) von Huff (1954).

Tipp: Sie müssen bzw. sollten beim Berichten Ihrer Ergebnisse nicht alle Dezimalstellen berichten,die Ihnen Ihr Software ausspuckt. Es ist schwierig, hier spezifische Vorgaben zu machen. EineFaustregel, die ich versuche zu hantieren, lautet: Berichte die Dezimalstellen, die nötig sind, umdie Ergebnisse sinnvoll interpretieren zu können. Wenn etwa eine Gruppe von Lernenden Textevon im Schnitt (Mittel) 865.022 Wörtern produziert und eine andere Gruppe Texte mit im Schnitt739.947 Wörtern schreibt, verlieren Sie keine sinnvollen Informationen, wenn Sie diese Mittelauf 865 bzw. 740 abrunden. Im Gegenteil: Die Ergebnisse sind für die Leserschaft einfacher zuverstehen. Siehe auch Ehrenberg (1981).

Page 17: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 10

1.3.2 Streuung

Schauen Sie sich diese zwei Zahlenreihen an:

2, 5, 5, 8, 8, 8, 8, 11, 11, 14

−58,−25,−25, 8, 8, 8, 8, 41, 41, 74

Beide Zahlenreihen haben den gleichen Modus, den gleichen Median und das gleiche Mittel(alle 8), unterscheiden sich trotzdem deutlich voneinander: Die Werte der zweiten Reihe liegenviel weiter auseinander, d.h. ihre Streuung ist grösser. Um diesen Aspekt der Daten numerischzu erfassen, brauchen wir ein Streuungsmass. Von denen gibt es wiederum einige.

Spannweite

Einfach der Unterschied zwischen dem höchsten (max()) und dem niedrigsten Wert (min()).

# Maximummax(dat$Wortschatz)

## [1] 38

# Minimummin(dat$Wortschatz)

## [1] 25

# Minimum und Maximumrange(dat$Wortschatz)

## [1] 25 38

# Unterschieddiff(range(dat$Wortschatz))

## [1] 13

Die Spannweite basiert aber auf nur zwei Beobachtungen und ist folglich äusserst ausreisser-empfindlich. Ihre Anwendung ist daher beschränkt.

Summe der Quadrate

Wenn wir alle Beobachtungen ins Streuungsmass einfliessen lassen wollen, scheint es auf denersten Blick sinnvoll, die Unterschiede zwischen den beobachteten Werten und dem Mittel zuberechnen und diese Unterschiede beieinander aufzuzählen: (x1 − µ) + (x2 − µ) + . . . . DieseSumme ist aber immer 0:

sum(dat$Wortschatz - mean(dat$Wortschatz))

## [1] 0

Die häufigste Lösung besteht darin, diese Unterschiede zuerst zu quadrieren, sodass alle bei-einander aufgezählten Zahlen positiv sind, und dann deren Summe zu berechnen. DiesesStreuungsmass nennt man die Summe der Quadrate (sum of squares). Symbol: S.S. oder d2:

d2 = (x1 − µ)2 + (x2 − µ)

2 + · · ·+ (xN − µ)2 (1.2)

Page 18: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 11

sum((dat$Wortschatz - mean(dat$Wortschatz))^2)

## [1] 541.7

Varianz

Ein Problem mit d2 ist, dass Datensätze unterschiedlicher Grösse nicht vergleichbar sind: Je mehrBeobachtungen es gibt, desto grösser ist d2. d2 misst also sowohl die Grösse des Datensatzes alsdie Streuung der Daten, und dies ist unerwünscht.

Lösung: d2 teilen durch die Anzahl Beobachtungen. Dies ergibt die Varianz der Population.Symbol: σ2:

σ2 =d2

N=

1N

((x1 − µ)

2 + (x2 − µ)2 + · · ·+ (xN − µ)2) (1.3)

sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / length(dat$Wortschatz)

## [1] 6.771

Vorsicht: In der Regel müssen wir die Varianz einer Stichprobe, nicht jene einer Populationberechnen. Diese Masse werden leicht unterschiedlich berechnet (siehe Kapitel 3).

Standardabweichung

Varianzen sind nicht einfach zu interpretieren, da sie, aufgrund der Quadrierung in der Be-rechnung, in quadrierten Einheiten ausgedrückt werden (z.B. quadrierte Sprecher per Spracheoder, wie hier, quadrierte Testergebnisse). Wir können aber ihren Wurzel nehmen, was dieStandardabweichung der Population ergibt. Symbol: σ:

σ =√σ2 =

√1N

((x1 − µ)2 + (x2 − µ)2 + · · ·+ (xN − µ)2) (1.4)

Oder in R:

sqrt(sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / length(dat$Wortschatz))

## [1] 2.602

Diese Formeln werden schon ziemlich komplex. Wir können diese Berechnungen auch mitZwischenschritten ausführen und die Zwischenergebnisse im Arbeitsspeicher speichern. Dazuverwenden wir den assignment operator <- (oder =; ich verwende selber lieber <-):

d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz))^2)d2

## [1] 541.7

sigma2 <- d2 / length(dat$Wortschatz)sigma2

## [1] 6.771

sigma <- sqrt(sigma2)sigma

Page 19: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 12

## [1] 2.602

Standardabweichungen und Varianzen kann man nicht absolut interpretieren: Eine Standardab-weichung von 0.4 ist je nach der Art von Daten klein, gross oder unauffällig, und dies gilt auchfür Standardabweichungen von 8’000.

Vorsicht: In der Regel müssen wir die Standardabweichung einer Stichprobe, nicht jene einerPopulation berechnen. Den Unterschied besprechen wir in Kapitel 3.

Tipp: Tippen Sie zu Hause die Befehle in diesem Skript auch mal selber ein (nicht kopieren undkleben, denn dabei lernen Sie nichts!). Dabei werden Sie feststellen, dass die Anzahl und Positionder Klammern sowie auch Gross- und Kleinschreibung in R wichtig sind.

Tipp: Wenn ein Befehl aus diesem Skript bei Ihnen nicht funktioniert, liegt dies in gefühlten 9von 10 Fällen daran, dass eine Klammer oder Komma vergessen wurde. Achten Sie darauf, dassSie den Befehl auf eine neue Zeile, die mit ‘>’ anfängt, eintippen.

Wenn Sie in der ersten Zeile des obigen Kodes eine Klammer vergessen haben, fängt die zweiteZeile mit einem ‘+’ statt mit einem ‘>’ an, zum Beispiel:

> d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2)+ d2Error: unexpected symbol in:"d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2)d2"

unexpected symbol, unexpected ’)’ oder unexpected ’,’ heissen meistens, dass eine Klam-mer oder eine Komma vergessen wurde oder überflüssig ist. R nimmt hier an, dass die Funktionin der ersten Zeile noch nicht abgeschlossen wurde und dass die zweite Zeile eine Fortset-zung der ersten ist (‘+’). Wenn Sie die erste Zeile richtig eintippen, weiss R, dass die Funktionabgeschlossen wurde, und interpretiert es die zweite Zeile als einen neuen Befehl (‘>’):

> d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz))^2)> d2[1] 541.7

Übrigens spielt auch die Position der Klammern eine Rolle. Wieso gibt es bei diesem Befehl zwarkeine Fehlermeldung, dafür aber eine sinnlose Zahl (d2 sollte immer positiv sein)?

d2 <- sum((dat$Wortschatz - mean(dat$Wortschatz)^2))d2

## [1] -82220

Tipp: Tippen Sie die Befehle nicht direkt in R ein, sondern zuerst in ein eigenes Skript (in RStudio:File → New File → R Script). Wenn Sie irgendwo eine Klammer ausgelassen haben, müssenSie dann nicht alles erneut eintippen.

1.4 Grafische Darstellung einer Population von univariaten Da-ten

Bevor man überhaupt anfängt, mit Daten herumzurechnen, lohnt es sich, sich diese grafischanzuschauen. Dies kann bestimmte Muster, wie etwa Ausreisser, direkt hervorheben und fürdie Leserschaft ist eine einfache Grafik oft einfacher zu interpretieren als Mittelwerte undStandardabweichungen.

Page 20: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 13

1.4.1 Cleveland dotchart

Der Cleveland dotchart oder dotplot stellt die einzelnen Datenpunkte, oft von klein nach grosssortiert, dar. Ausreisser fallen hierdurch schnell auf; in dieser Grafik kann man nicht von Aus-reissern sprechen.

dotchart(sort(dat$Wortschatz), # sort() ordnet die Datenpunktexlab = "Wortschatzergebnis")

26 28 30 32 34 36 38

Wortschatzergebnis

Zum Vergleich: Wenn eine Versuchsperson ein Ergebnis von 10 gehabt hätte, hätte die Grafik soausgesehen:

10 15 20 25 30 35

Wortschatzergebnis

Ausreisser

1.4.2 Boxplot

Der Boxplot oder box-and-whisker-plot ist eine beliebte Methode, um die Streuung und zentraleTendenz einer Variable darzustellen.

Mittlere, dickere Linie: Median; untere und obere Linie der Box: 25%- bzw. 75%-Quantile;Füsschen: Maximum- und Minimumwerte. Die 25%- und 75%-Quantile nennt man auch Quartile.(Den Text habe ich manuell hinzugefügt.)

boxplot(dat$Wortschatz,ylab = "Wortschatzergebnis",main = "Boxplot von Wortschatz")

Page 21: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 14

26

28

30

32

34

36

38

Boxplot von Wortschatz

Wor

tsch

atze

rgeb

nis

Maximum

75. Quantil

Median

25. Quantil

'Minimum'

Mögliche Ausreisser?

Für die Wortschatz-Variable sind die 25%- und 75%-Quantile 31 bzw. 34:

quantile(dat$Wortschatz, probs = c(0.25, 0.75))

## 25% 75%## 31 34

Das heisst, dass 25% der Daten einen Wert von 31 oder niedriger haben, und 75% der Dateneinen Wert haben, der 34 oder niedriger ist. Zwischen den 25%- und 75%-Quantilen (interquartilerange, IRQ) befindet sich m.a.W. etwa die Hälfte der Datenpunkte.

Manchmal (wie hier) gibt es auch Kreischen in einem Boxplot. Dies sind Extremwerte, die mehrals 1.5 × das IRQ vom nächsten Quartil entfernt liegen (siehe ?boxplot → Arguments → range).Diese Extremwerte sind mögliche Ausreisser, aber überprüfen Sie mit etwa einem Dotplot, ob essich tatsächlich um Ausreisser handelt.

1.4.3 Säulendiagramm

Insbesondere kategoriale Daten können mithilfe eines Säulendiagramms dargestellt werden.Zunächst müssen die Daten in eine Tabelle, die zeigt, wie viele Beobachtungen es für jeden Wertgibt, gegossen werden:

geschlecht.tab <- table(dat$Geschlecht)geschlecht.tab

#### Frau Mann## 66 14

Diese Tabelle können wir dann mit barplot() darstellen; auch ein Cleveland dotchart funktio-niert hier gut:

par(mfrow = c(1, 2)) # 2 Grafiken nebeneinanderbarplot(geschlecht.tab,

xlab = "Geschlecht",ylab = "absolute Anzahl",main = "Säulendiagramm")

Page 22: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 15

dotchart(geschlecht.tab,xlab = "absolute Anzahl", xlim = c(0, 80),ylab = "Geschlecht",main = "Cleveland dotchart")

par(mfrow = c(1, 1)) # wieder 1 Grafik aufs Mal

Frau Mann

Säulendiagramm

abso

lute

Anz

ahl

0

10

20

30

40

50

60

Frau

Mann

0 20 40 60 80

Cleveland dotchart

Ges

chle

cht

Tipp: Vermeiden Sie Kuchendiagramme (siehe ?pie→ Note). Weiter sind auch dreidimensionaleSäulendiagramme zu vermeiden: Sie erschweren die Interpretation.

1.4.4 Histogramm

Im obigen Beispiel gibt es nur zwei mögliche Ergebnisse (Mann oder Frau) und können wir dieAnzahl Beobachtungen pro Wert sinnvoll darstellen. Wenn die Anzahl möglicher Ergebnisseaber grösser ist, wie bei kontinuierlichen Variablen, ist dies weniger sinnvoll, da jeder einzelneWert eh nur selten vorkommt. In solchen Fällen ist es sinnvoller, die Ergebnisse in sog. bins zugruppieren und darzustellen, wie viele Werte in jedem bin beobachtet wurden.

In den folgenden Grafiken werden die Englisch-Ergebnisse in bins von 0.45 bis 0.50, 0.50 bis0.55 usw. aufgeteilt und dargestellt. Eine solche Grafik nennt man ein Histogramm. Links wirddargestellt, wie viele Beobachtungen (absolute Anzahl) es in jedem bin gibt; rechts werden dieFrequenzen skaliert, sodass die Gesamtfläche des Histogramms (die Summe der Breite jedes binsmultipliziert mit ihrer Höhe) 1 (oder 100%) beträgt. Dies erlaubt es, Datensätze unterschiedlicherGrösse miteinander zu vergleichen.

par(mfrow = c(1, 2))hist(dat$Englisch,

freq = TRUE, col = "grey",xlab = "Englisch-Wert", ylab = "absolute Frequenz",main = "Englischergebnisse")

hist(dat$Englisch,freq = FALSE, col = "grey",xlab = "Englisch-Wert", ylab = "relative Frequenz",main = "Englischergebnisse")

par(mfrow = c(1, 1))

Page 23: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 16

Englischergebnisse

Englisch−Wert

abso

lute

Fre

quen

z

0.5 0.6 0.7 0.8 0.9

0

5

10

15

Englischergebnisse

Englisch−Wert

rela

tive

Fre

quen

z

0.5 0.6 0.7 0.8 0.9

0

1

2

3

4

Die Breite der bins wählt R in diesem Beispiel automatisch. Sie kann jedoch auch mit dembreaks-Parameter manuell spezifiziert werden.

1.4.5 Wahrscheinlichkeitsdichte

Was passiert, wenn wir äusserst feinkörnige Messungen (d.h. mit sehr vielen möglichen Er-gebnissen und höchstens einem Beleg pro möglichen Wert) haben und die Anzahl bins immervergrössern? Je mehr bins es gibt, desto kleiner sind sie und desto weniger Beobachtungenbeinhalten sie, wie die nächsten Grafiken illustrieren. (Diese Grafiken beziehen sich nicht aufDaten in Vanhove2015_Vpn.csv.)

10 bins

0 5 10 20

0.00

0.05

0.10

0.15

25 bins

0 5 10 20

0.00

0.05

0.10

0.15

50 bins

0 5 10 20

0.00

0.05

0.10

0.15

100 bins

0 5 10 20

0.00

0.05

0.10

0.15

Wenn die bins verschwindend klein sind, sprechen wir von einer Wahrscheinlichkeitsdichte,wie in diesem Beispiel:

Page 24: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 17

Feinkörniges Histogramm (grau)und Wahrscheinlichkeitsdichte (rot)

−5 0 5 10 15 20 25

0.00

0.02

0.04

0.06

0.08

0.10

0.12

0.14

Ähnlich wie bei den skalierten Histogrammen repräsentiert die Fläche unter der Kurve hier 100%der Daten, d.h. die Fläche zwischen Kurve und x-Achse beträgt 1.

Vorsicht: In dieser Abbildung ist die Wahrscheinlichkeit, dass ein Wert von 10 beobachtet wird,nicht etwa 13%, sondern verschwindend gering. Wenn man bloss genügend Dezimalstellenin Betracht nimmt (z.B. 10,000001 oder 9,999999), ist jeder einzelne Wert ja verschwindendunwahrscheinlich. Wir können deswegen keine sinnvollen Wahrscheinlichkeitsaussagen überspezifische Werte machen sondern nur über Intervalle. Dies machen wir in den nächsten Kapiteln.

Mit dem Befehl plot(density(...)) können Sie eine Wahrscheinlichkeitsdichte einer Variablezeichnen (links); mit dem Befehl lines(density(...)) können Sie etwa einem Histogrammeine Wahrscheinlichkeitsdichte hinzufügen (rechts):

par(mfrow = c(1, 2))

# Links: nur Wahrscheinlichkeitsdichteplot(density(dat$Englisch),

xlab = "Englischergebnis", ylab = "Dichte",main = "Wahrscheinlichkeitsdichte\nfür Englisch")

# Rechts: Histogramm + Wahrscheinlichkeitsdichte# zuerst Histogramm:hist(dat$Englisch,

freq = FALSE,xlab = "Englischergebnis",ylab = "Dichte (relative Frequenz)",main = "Histogramm (grau) +\nDichte (blau)",col = "grey")

lines(density(dat$Englisch),col = "blue",lwd = 2) # etwas dickere Linie

par(mfrow = c(1, 1))

Page 25: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 18

0.4 0.6 0.8

0

1

2

3

4

Wahrscheinlichkeitsdichtefür Englisch

Englischergebnis

Dic

hte

Histogramm (grau) +Dichte (blau)

Englischergebnis

Dic

hte

(rel

ativ

e F

requ

enz)

0.5 0.6 0.7 0.8 0.9

0

1

2

3

4

Mit dem Befehl colors() finden Sie übrigens alle Farbennamen, die R kennt.

1.5 Klassische (idealisierte) Datenverteilungen

Es lassen sich ein paar klassische Arten von Datenverteilungen unterscheiden. In ihrer ‘puren’Form trifft man diese Verteilungen zwar selten an, aber viele Datenverteilungen können alsAnnäherungen dieser idealisierten Verteilungen betrachtet werden.

1.5.1 Gleichverteilung oder Uniformverteilung

In einer Uniformverteilung ist jeder mögliche Wert gleich wahrscheinlich. Das typische Beispielist das Würfeln eines fairen Würfels (‘diskrete Uniformverteilung’): Die Wahrscheinlichkeit, eine6 zu würfeln, ist gleich gross wie jene, eine 1 usw. zu würfeln. Wenn die möglichen Ergebnissefeinkörniger sind, spricht man von einer ‘kontinuierlichen Uniformverteilung’. Die folgendeGrafik zeigt drei kontinuierliche Uniformverteilungen mit Bereichen [-2.5, 2.5], [0, 1] und [0.5, 1]:

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

x

Dic

hte

(f(x

))

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

x

Dic

hte

(f(x

))

−3 −2 −1 0 1 2 3

0.0

0.5

1.0

1.5

2.0

x

Dic

hte

(f(x

))

Erklären Sie, warum die Wahrscheinlichkeitsdichte höher als 1 sein kann. (Tipp: BerechnenSie die Flächen unter den Kurven!)3

1.5.2 Normalverteilung

Die Normalverteilung ist die typische ‘Glockenkurve’. Ihre Wahrscheinlichkeitsdichte wirddurch eine kompliziert aussehende Gleichung definiert, die für unsere Zwecke nicht so wichtigist. Wichtig ist nur, dass die Form der Glockenkurve von zwei Faktoren bestimmt wird: dem

3

DasentscheidendeMerkmaleinerWahrscheinlichkeitsdichteist,dassdieFlächeunterderKurveimmer1beträgt.BeiUniformverteilungenistdieFlächeunterderKurveeinfacheinRechteckmitFläche1.Inder1.GrafikistdieBreitediesesRechtecks5(von-2.5bis2.5)unddieHöhedaher1

5=0.20(denn5×15=1).Fürdie3.GrafikistdieBreite0.5,

dieHöhedementsprechend10.5=2,undsomitgrösserals1.

Page 26: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 19

Mittel der Datenverteilung (µ) und ihrer Standardabweichung (σ). µ bestimmt, um welchenWert sich die Kurve zentriert; σwie ‘breit’ und ‘hoch’ die Kurve ist:

−4 0 2 4

0.00.10.20.30.40.50.60.7

µ = 0; σ = 1

x

f(x)

−4 0 2 4

0.00.10.20.30.40.50.60.7

µ = 2; σ = 1

x

f(x)

−4 0 2 4

0.00.10.20.30.40.50.60.7

µ = 0; σ = 2

x

f(x)

−4 0 2 4

0.00.10.20.30.40.50.60.7

µ = 0; σ = 0.7

x

f(x)

Eine Standardnormalverteilung ist eine Normalverteilung mit µ = 0 und σ = 1.

Normalität überprüfen und Datentransformationen

Bei einer Normalverteilung sind Modus, Mittel und Median gleich, d.h. es gibt eine eindeutigezentrale Tendenz. Mit vielen statistischen Verfahren kann man Aussagen über das Mittel einerPopulation oder Stichprobe machen. Wenn Mittel, Median und Modus alle (mehr oder weniger)gleich sind – wie bei Normalverteilungen –, kann man mit diesen Verfahren die zentrale Tendenzalso völlig erfassen. Wenn die Daten stark von einer Normalverteilung abweichen, gelten dieAussagen, die solche Verfahren übers Mittel machen, zwar (oft) noch immer, aber sind dieseeben weniger relevant fürs Erfassen der zentralen Tendenz. (Das Mittel ist bloss ein Versuch,die zentrale Tendenz zu erfassen.) Wie wir in den nächsten Kapiteln sehen werden, ist dieNormalverteilung auch aus anderen Gründen in der Statistik von zentraler Bedeutung.

Es ist aus diesen Gründen praktisch, überprüfen zu können, ob Daten annähernd normalverteiltsind. Manchmal werden zu diesem Zweck statistische Tests verwendet, aber diese würde ichnicht empfehlen.4 Vielmehr sollte man sich auf eine visuelle Dateninspektion verlassen: ZeichnenSie Histogramme und Wahrscheinlichkeitsdichten.

Manchmal sind Daten zwar nicht-normalverteilt, können aber einfach zu annähernd normalver-teilten Daten transformiert werden. Solche Datentransformationen werden in diesem Skript nuroberflächlich behandelt. Mehr Informationen dazu finden Sie in den weiterführenden Ressourcen(siehe Kapitel 9).

4Beispiele sind der Shapiro–Wilk-Test (?shapiro.test) und der Kolmogorov–Smirnov-Test (?ks.test). Ein ersterGrund, weshalb ich solche numerischen Tests nicht empfehle, ist, dass sie sehr von der Stichprobengrösse abhängig sind:Grobe Verletzungen gegen Normalität werden in kleinen Stichproben nicht identifiziert, während in grossen Stichprobensogar die kleinsten Verletzungen als problematisch bezeichnet werden. Dabei ist es für die häufigsten statistischenVerfahren gerade bei grösseren Stichproben weniger wichtig, dass die Daten normalverteilt sind. Der zweite Grund ist,dass Ihre Leserschaft sich vermutlich weniger gut mit solchen Tests auskennt. Ich erwähne diese Tests nur, weil man siein Forschungsartikeln öfters antrifft und nicht weil man sich selber auf sie verlassen sollte.

Page 27: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 20

1.5.3 Bimodale Verteilung

Eine bimodale Verteilung ist eine Verteilung mit zwei ‘Höckern’. Bei einer Befragung zu einemgesellschaftlichen Thema etwa würde eine solche Verteilung darauf hindeuten, dass die Bevölke-rung stark zwischen Befürworter und Gegner polarisiert ist und dass relativ wenige Leute eineZwischenposition vertreten.

Eine bimodale Verteilung kann auch darauf hindeuten, dass eigentlich zwei Populationen stattnur einer gemessen wurden. Zum Beispiel ist (in der akustischen Phonetik) die Verteilung derGrundfrequenz in der ganzen Population bimodal verteilt: Männerstimmen haben eine tiefereGrundfrequenz als Frauenstimmen.

Manchmal trifft man auch multimodale Verteilungen, also Verteilungen mit mehreren Höckern,an.

1.5.4 Schiefe Verteilungen

Eine rechtsschiefe Verteilung (oder: Verteilung mit positiver Schiefe) ist eine nicht-symmetrischeVerteilung, die nach rechts neight. Etwa Reaktionszeiten, Wortfrequenzen und die Anzahl tip-of-the-tongue-Probleme pro Aufnahme sind oft rechtsschief verteilt.

Eine linksschiefe Verteilung (oder: Verteilung mit negativer Schiefe) ist nicht-symmetrisch undneigt nach links. Bei Testergebnissen könnte dies darauf hindeuten, dass der Test zu einfach war(Deckeneffekt). Zu schwierigen Tests führen zu rechtsschiefen Verteilungen (Bodeneffekt).

Die folgende Grafik zeigt eine bimodale, eine rechtsschiefe und eine linksschiefe Verteilung.

−6 −4 −2 0 2 4 6

0.00

0.05

0.10

0.15

0.20bimodale Verteilung

x

f(x)

0 1 2 3 4 5 6

0.00.10.20.30.40.50.60.7

rechtsschiefe Verteilung

x

f(x)

0.65 0.75 0.85 0.95

0

2

4

6

8linksschiefe Verteilung

x

f(x)

1.6 Aufgaben

1. Einkommensniveaus nach Land, Region oder Gemeinde werden üblicherweise in Media-nen statt in Mitteln ausgedrückt. Warum?

2. Zeichnen Sie ein Histogramm und eine Wahrscheinlichkeitsdichte der Variable Französisch.Sind die Daten normalverteilt? Ist das Mittel ein sinnvoller Indikator der zentralen Tendenzin diesen Daten oder wäre der Median geeigneter?

3. 80 willkürlich ausgewählte Schweizer Staatsbürger werden gebeten, auf einer 10er-Skalaanzudeuten, inwieweit sie mit der Aussage Privater Waffenbesitz sollte verboten werdeneinverstanden sind (1 = gar nicht einverstanden; 10 = völlig einverstanden). Würde dieseBefragung annähernd normalverteilte Daten liefern? Wenn nicht, welcher Datenverteilungwürden sie am ehesten entsprechen?

4. M&Ms können sechs Farben haben: blau, braun, gelb, grün, orange und rot. Wie schätzenSie die relativen Frequenzen dieser Farben ein? Gibt es z.B. Ihrer Erfahrung nach eine

Page 28: Statistische Grundlagen

KAPITEL 1. DATEN BESCHREIBEN 21

ähnlich Anzahl blaue als rote M&Ms? Entspricht diese Verteilung einer der Verteilungen,die wir oben kennengelernt haben?

5. Die Datei Stocker_Deutsch.csv enthält einen Teil der Daten aus der Masterarbeit vonStocker (2014). 160 Versuchspersonen wurden gebeten, die Glaubwürdigkeit von Aussagenvon SprecherInnen mit unterschiedlichen Akzenten (Englisch, Französisch, Deutsch undItalienisch) auf einer Skala von 0 bis 100 zu bewerten. Diese Daten stehen in der score-Spalte.

(a) Lesen Sie diese Datei in R ein und kontrollieren Sie, ob die Datei richtig eingelesenwurde.

(b) Berechnen Sie das Mittel und den Median der score-Daten. Sind sich diese Mittelwerteähnlich?

(c) Zeichnen Sie ein Boxplot der score-Daten. Was schliessen Sie aus diesem Boxplot?

(d) Zeichnen Sie jetzt ein Histogramm der score-Daten (mit den default-Einstellungen).Welcher klassischen Verteilung entspricht diese am ehesten?

(e) Zeichnen Sie ein Histogramm mit 20 bins (breaks = 19 in der hist()-Funktion).Beschreiben Sie dieses Histogramm. Sind das Mittel und der Median repräsentativ fürdiese Daten?

Merksatz: Immer zuerst die Daten grafisch darstellen!

Page 29: Statistische Grundlagen

Kapitel 2

Wahrscheinlichkeitsaussagen überneue Beobachtungen

Dieses Kapitel dient als Auffrischung der Wahrscheinlichkeitsrechnung. Konkret besprechen wir,wie wir Wahrscheinlichkeitsaussagen über Zufallsvariablen machen können, wenn wir schonwissen, aus welcher Verteilung diese Variable stammt. Was Zufallsvariablen sind, wird aus denBeispielen klar. Die Fähigkeit, Wahrscheinlichkeitsaussagen über Zufallsvariablen zu machen,ist an sich schon praktisch, aber zudem muss man die hinterliegende Logik kennen, wenn manInferenzstatistik verstehen will.

2.1 Beispiel: kontinuierliche Gleichverteilung

Die Kreislinie eines Rads ist folgendermassen mit Zahlen von 0 bis 360 vermerkt:

Jedes Mal, wenn der Pfeil gedreht wird, bleibt er an einer zufälligen Stelle auf der Kreisliniestehen. Dies entspricht einer kontinuierlichen Gleichverteilung mit dem Bereich von 0 bis 360.Mit folgendem Kode können wir diese Verteilung in R zeichnen. Da die Verteilung von 0 bis 360geht und die Fläche zwischen der Wahrscheinlichkeitsdichte und der x-Achse 1 betragen muss,liegt die Linie bei 1

360 ≈ 0.0028 (denn (360 − 0)× 1360 = 1).

# Zeichne f(x) = Uniformverteilung von 0 bis 360plot(function(x) dunif(x, min = 0, max = 360),

from = 0, to = 360, xlab = "x", ylab = "f(x)")

22

Page 30: Statistische Grundlagen

KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 23

0.0020

0.0025

0.0030

0.0035

f(x)

0 45 90 135 180 225 270 315 360

2.1.1 Wahrscheinlichkeit = Fläche unter der Wahrscheinlichkeitsdichte

Wie wahrscheinlich ist es, dass wir den Pfeil drehen und er irgendwo zwischen 45 und 93 stehenbleibt? Zwischen den Werten 45 und 93 liegt etwa 13.3% der ganzen Wahrscheinlichkeitsvertei-lung: 93 − 45 = 48 und 48

360 = 0.133. Die Wahrscheinlichkeit liegt also bei 13.3%.

Diese Berechnungsmethode lässt sich aber nur bei Gleichverteilungen anwenden – also bei Ver-teilungen, bei denen jeder Wert genau so wahrscheinlich ist. Eine Methode, die auch für andereVerteilungen gilt, besteht darin, die Fläche unter der Wahrscheinlichkeitsdichte zwischen denbeiden Werten – das ‘Integral’ aus dem Gymnasium – zu berechnen. Diese Fläche wurde in derobigen Grafik grau eingefärbt. Bei einer Gleichverteilung ist dies ein Rechteck, sodass wir sieeinfach berechnen können: (93 − 45)× 1

360 = 0.133.

2.1.2 Kumulative Verteilungsfunktion

Mit der dunif()-Funktion haben wir die Wahrscheinlichkeitsdichte (d für density) gezeichnet;mit der punif()-Funktion können wir eine Grafik zeichnen, die zeigt, wie wahrscheinlich es ist,einen Wert kleiner als x zu beobachten (p für probability). Die resultierende Grafik nennt man einekumulative Verteilungsfunktion. Die kumulative Wahrscheinlichkeit wird mit F(x) (grosses F)dargestellt und variiert von 0 bis 1.

0 100 200 300

0.0

0.2

0.4

0.6

0.8

1.0

kumulativeVerteilungsfunktion

x

F(x

)

Mit der punif()-Funktion können wir einfach die Wahrscheinlichkeit, einen Wert zwischen45 und 93 zu beobachten, berechnen. Zuerst berechnen wir die Wahrscheinlichkeit, einen Wertkleiner als 93 zu beobachten. Diese Wahrscheinlichkeit entspricht dem roten F(x)-Wert in deroben stehenden Grafik (Handgelenk mal Pi: etwa 25%). Mit punif() berechnen wir den genauenWert:

punif(93, min = 0, max = 360)

## [1] 0.2583

Page 31: Statistische Grundlagen

KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 24

Und dann die Wahrscheinlichkeit, einen Wert kleiner als 45 zu beobachten (blauer F(x)-Wert;etwa 15%):

punif(45, min = 0, max = 360)

## [1] 0.125

Der Unterschied ist die Wahrscheinlichkeit, einen Wert zwischen 45 und 93 zu beobachten:

0.2583 - 0.125

## [1] 0.1333

# oder kürzer:punif(93, min = 0, max = 360) - punif(45, min = 0, max = 360)

## [1] 0.1333

2.2 Beispiel Normalverteilung

IQ-Werte sind normalverteilt mit – per Definition – Mittel 100 und Standardabweichung 15. Dielinke Grafik ist die Wahrscheinlichkeitsdichte einer normalverteilten Variable mit Mittel 100 undStandardabweichung 15 (dnorm()).

par(mfrow = c(1, 2)) # erlaubt es, 2 Grafiken nebeneinander zu zeichnen

# Zeichne f(x) = Normalverteilung mit Mittel 100 und sd 15plot(function(x) dnorm(x, mean = 100, sd = 15),

from = 40, to = 160, xlab = "x", ylab = "f(x)")

# Zeichne F(x) dieser Normalverteilungplot(function(x) pnorm(x, mean = 100, sd = 15),

from = 40, to = 160, xlab = "x", ylab = "F(x)")

par(mfrow = c(1, 1)) # wieder 1 Grafik aufs Mal

40 60 80 120 160

0.000

0.005

0.010

0.015

0.020

0.025

x

f(x)

40 60 80 120 160

0.0

0.2

0.4

0.6

0.8

1.0

x

F(x

)

Wenn wir zufällig eine Person aus der Gesamtpopulation wählen, wie wahrscheinlich ist esdann, dass ihr IQ niedriger als 115 ist? Diese Wahrscheinlichkeit entspricht der Fläche unterder Wahrscheinlichkeitsdichte zwischen −∞ und 115; diese Fläche wurde in der linken Grafikrötlich eingefärbt. Mit der pnorm()-Funktion können wir diesen Wert genau berechnen (roterF(x)-Wert in der rechten Grafik; visuell geschätzt: 85%):

Page 32: Statistische Grundlagen

KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 25

pnorm(115, mean = 100, sd = 15)

## [1] 0.8413

Die Wahrscheinlichkeit, dass eine zufällig ausgewählte Person einen IQ von 115 oder niedrigerhat liegt also bei 84%.

Mit der Option lower.tail = FALSE können wir das Komplement dieses Werts berechnen, d.h.,die Wahrscheinlichkeit, einen Wert höher als 115 anzutreffen:

pnorm(115, mean = 100, sd = 15, lower.tail = FALSE)

## [1] 0.1587

# oder:1 - pnorm(115, mean = 100, sd = 15)

## [1] 0.1587

Wir können die Frage auch andersherum stellen, z.B.: Für welchen IQ-Wert gilt, dass 38%der Population einen niedrigeren IQ hat? Hierzu verwenden wir die qnorm()-Funktion (q fürquantile) (blauer x-Wert in der obigen Grafik):

qnorm(0.38, mean = 100, sd = 15)

## [1] 95.42

38% der Population hat also einen IQ niedriger als 95.4. Anders gesagt: Das 38. Quantil derIQ-Verteilung (einer Normalverteilung mit Mittel 100 und einer Standardabweichung von 15) ist95.4.

Eine andere Frage könnte sein: Zwischen welchen zwei Werten, die symmetrisch um das Mittelliegen, befinden sich 80% der IQ-Werte in der Population? Symmetrisch ums Mittel liegen 80%der Daten zwischen dem 10. und 90. Quantil, daher:

qnorm(0.10, mean = 100, sd = 15)

## [1] 80.78

qnorm(0.90, mean = 100, sd = 15)

## [1] 119.2

Oder auf einmal mithilfe der c()-Funktion (combine):

qnorm(c(0.10, 0.90), mean = 100, sd = 15)

## [1] 80.78 119.22

2.3 Aufgaben

1. M&Ms kommen in sechs Farben vor; unten werden ihre relativen Frequenzen dargestellt:

Page 33: Statistische Grundlagen

KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 26

blau

braun

grün

orange

rot

gelb

0.00

0.05

0.10

0.15

0.20

0.25

0.30

relative Frequenz

0.23

0.12

0.15

0.23

0.12

0.15

(a) Wie wahrscheinlich ist es, dass ein zufällig ausgewähltes M&M rot oder orange ist?

(b) Wie wahrscheinlich ist es, dass zwei zufällig ausgewählte M&M beide rot oder orange(also zwei rote, zwei orange oder ein rotes und ein oranges) sind?

(c) Wie wahrscheinlich ist es, dass von zwei zufällig ausgewählten M&Ms ein rotes undein oranges dabei sind?

(d) Wie wahrscheinlich ist es, dass wenn 5 M&Ms zufällig ausgewählt werden, alle blausind?

(e) Wie wahrscheinlich ist es, dass wenn 5 M&Ms zufällig ausgewählt werden, kein einzigesblaues dabei ist?(Tipp: Wie wahrscheinlich ist es, dass Sie ein einziges M&M nehmen und es nicht blauist?)

2. (a) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ niedriger als90 hat? (Siehe vorige Seiten für die IQ-Verteilung)

(b) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ grösser als85 hat?

(c) Wie wahrscheinlich ist es, dass eine zufällig ausgewählte Person einen IQ zwischen110 und 120 hat?

(d) Wie wahrscheinlich ist es, dass eine willkürlich ausgewählte Person einen IQ hat, dermehr als zwei Standardabweichungen vom Populationsmittel entfernt liegt?

(e) Durchschnittliche Intelligenz ist definiert als der IQ der mittleren 45% der Bevölkerung.Zwischen welchen zwei Werten liegt er?

(f) Die folgenden Übungen sind etwas schwieriger und haben als Ziel, Sie über kombinier-te Wahrscheinlichkeiten nachdenken zu lassen. Wie wahrscheinlich ist es, dass, wennzwei Personen zufällig ausgewählt werden, keine der beiden einen IQ niedriger als105 hat?(Tipp: Wie wahrscheinlich ist es, dass eine einzige Person einen IQ höher als 105 hat?)

(g) Wie wahrscheinlich ist es, dass, wenn drei Personen zufällig ausgewählt werden, genaueine Person einen IQ niedriger als 90 hat?(Tipp: Wie wahrscheinlich ist es, dass die erste Person einen IQ niedriger als 90 hat,die zweite und die dritte aber nicht? Was ist nun die Wahrscheinlichkeit, dass diezweite Person einen IQ niedriger als 90 hat, die erste und die dritte aber nicht? Undwie wahrscheinlich ist es, dass die dritte Person einen IQ niedriger als 90 hat, die erstenzwei aber nicht.)

Page 34: Statistische Grundlagen

KAPITEL 2. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER NEUE BEOBACHTUNGEN 27

(h) Wie wahrscheinlich ist es, dass, wenn drei Personen zufällig ausgewählt werden,mindestens eine Person einen IQ niedriger als 90 hat?(Tipp: Wie wahrscheinlich ist es, dass keine einzige Person einen IQ niedriger als 90hat?)

3. Wie gross ist bei einer normalverteilten Variable (egal welcher!) die Wahrscheinlichkeit,einen zufällig ausgewählten Wert, der weniger als 1; 1,5; und 2 Standardabweichungenvom Mittel entfernt ist, anzutreffen?(Tipp: Zeichnen Sie ein paar Normalverteilungen mit anderen Mitteln und Standardabwei-chungen und beantworten Sie diese Frage für jede Verteilung separat.)

Page 35: Statistische Grundlagen

Kapitel 3

Wahrscheinlichkeitsaussagen überStichproben

Oft möchten wir zwei Populationen in einer bestimmten Hinsicht miteinander vergleichen. ZumBeispiel könnten wir uns für die Frage interessieren, ob Berner OberländerInnen und Zürche-rInnen eine unterschiedliche durchschnittliche Sprechgeschwindigkeit haben. Aus praktischenGründen ist es meistens nicht möglich, Daten bei der ganzen Population – also bei allen BernerOberländerInnen und ZürcherInnen – zu erheben, um den relevanten Mittelwert festzustellen.Daher arbeiten wir fast immer mit Stichproben. Von Interesse sind aber nicht an erster Stelledie zentrale Tendenz der Stichprobe und die Streuung in der Stichprobe, sondern die zentraleTendenz der Population und die Streuung in der Population. Mit Inferenzstatistik versuchenwir, mit einer Stichprobe Aussagen über die ganze Population zu machen. Dies setzt aber voraus,dass wir über eine gute Stichprobe verfügen:

• Im Prinzip muss die Stichprobe zufällig ausgewählt werden, was (in der Regel) heisst,dass jedes Element in der relevanten Population die gleiche Wahrscheinlichkeit haben muss,ausgewählt zu werden: Möchten wir Aussagen über alle Berner OberländerInnen machen,dann müsste unsere Stichprobe aus nach dem Zufallsprinzip ausgewählten Berner Ober-länderInnen bestehen und müsste jede(r) OberländerIn die gleiche Wahrscheinlichkeithaben, ausgewählt zu werden. Aus praktischen Gründen ist dies meistens unmöglich undmuss man sich mit einem pragmatischeren Ansatz versöhnen, z.B. eine nicht-zufällige abermöglichst repräsentative Stichprobe, oder eine Stichprobe, von der man annimmt, dass siedie Tendenzen in der Population aufzeigt.

• Die Stichprobe muss gross genug sein, damit man mit genugend Sicherheit Schlussfolge-rungen über die relevante Population machen kann. Wie gross ‘gross genug’ ist, werdenwir im Laufe des Kurses ausführlicher diskutieren, ohne dabei aber auf eine allgemeingültige Regel zu stossen.

In diesem Kapitel befassen wir uns mit folgenden Fragen: (1) Wie können wir anhand einerStichprobe am besten die zentrale Tendenz (insbesondere das Mittel) und die Streuung (insbe-sondere die Varianz und Standardabweichung) der Population schätzen? (2) Wenn wir zufälligeStichproben aus der gleichen Verteilung ziehen, wie stark unterscheiden sich diese Stichprobendann im Schnitt?

28

Page 36: Statistische Grundlagen

KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 29

3.1 Zentrale Tendenz und Streuung der Population anhand ei-ner Stichprobe schätzen

3.1.1 Stichprobenmittel

Die beste Schätzung des Mittels der Population (µ), die uns in der Regel zur Verfügung steht,ist das Mittel der Stichprobe (x). Etwas kompliziert ausgedrückt ist der Grund, dass der Er-wartungswert von x, E(x), gleich µ ist: Wenn wir eine grosse Anzahl zufällige Stichprobenaus der gleichen Population ziehen, dann wird das Mittel der Stichprobenmittel gleich demPopulationsmittel sein.

Das Stichprobenmittel wird analog zum Populationsmittel berechnet (vgl. Gleichung 1.1):

x =x1 + x2 + x3 + x4 + · · ·+ xn

n(3.1)

R-Funktion: mean()

3.1.2 Stichprobenvarianz

Die Berechnungart des Populationsmittel und jene des Stichprobenmittels sind einander gleich,da der Erwartungswert des Letzteren gleich dem Wert des Ersteren ist: Im Schnitt (jedochnicht im Einzelfall) haben Stichproben aus der gleichen Population ein Mittel, das gleich demPopulationsmittel ist. Gilt dies auch für die Populationsvarianz und die Stichprobenvarianz?Wenn wir die Stichprobenvarianz analog zur Populationsvarianz berechnen (Formel 1.3 auf Seite11), gilt dann auch, dass die Stichprobenvarianz im Durchschnitt gleich der Populationsvarianzist?

Derartige Fragen kann man im Prinzip algebraisch lösen,1 aber auch ohne Algebra kann maneine ungefähre Lösung finden. Im Folgenden versuchen wir diese Frage mittels einer Simulationzu beantworten. Das heisst, dass wir (in R) ein Computerskript schreiben, das eine grosse Anzahl‘Daten’ generiert, deren Eigenschaften wir untersuchen können. Ein zusätzliches Ziel dieserÜbung ist es, Ihnen zu zeigen, wie man in R auch eigene Funktionen schreiben kann.

Simulation Eine bestimmte Variable lässt sich als eine kontinuierliche Gleichverteilung mitx ∈ [−4, 15] beschreiben. Diese Gleichverteilung hat eine Varianz von σ2 = 30.083.2

Zunächst schreiben wir selbst eine Funktion, sim.spvar.fnc(), mit der wir eine einzige Stich-probe aus einer Gleichverteilung ziehen können. Die Funktion hat drei Parameter: minimum(das Minimum der Gleichverteilung, also a), maximum (das Maximum, b) und groesse (dieStichprobengrösse). Von dieser Stichprobe wird die Varianz mittels Formel 1.3 berechnet, alsspvar gespeichert und ausgespuckt.

1Siehe en.wikipedia.org/wiki/Variance#Sample_variance.2Die Varianz einer kontinuierlichen Gleichverteilung mit Bereich [a, b] ist gleich 1

12 (b−a)2. Bitte nicht auswendiglernen.

Page 37: Statistische Grundlagen

KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 30

# sim.spvar.fnc ist eine selbstgeschriebene Funktion,# die eine zufällige Stichprobe aus einer Gleichverteilung# generiert, und ihre Varianz berechnet und ausspuckt.sim.spvar.fnc <- function(minimum, maximum, groesse) {

# Stichprobe generieren aus einer Gleichverteilung mit# n = groesse,# min = minimum,# max = maximumstichprobe <- runif(n = groesse,

min = minimum,max = maximum)

# Stichprobenvarianz analog zur Populationsvarianz berechnenspvar <- sum((mean(stichprobe) - stichprobe)^2) / groesse# Und ausspuckenreturn(spvar)

}

# Diese Funktion 1 Mal ausführen:sim.spvar.fnc(minimum = -4, maximum = 15, groesse = 10)

## [1] 36.06

# Wenn Sie diese Funktion selber ausführen,# werden Sie ein anderes Ergebnis bekommen,# denn die Stichprobe wird immer wieder neu, zufällig generiert.

Jetzt, wo wir diese Funktion definiert haben, können wir sie einfach Tausende Male laufen lassen.Jedes Mal wird eine neue Stichprobe generiert und ihre Varianz berechnet und ausgespuckt.Dazu verwenden wir die replicate()-Funktion; die Ergebnisse speichern wir als sp.vars.3

# sim.spvar.fnc 10'000 laufen lassensp.vars <- replicate(10000,

sim.spvar.fnc(minimum = -4, maximum = 15, groesse = 10))

Zeichnen Sie jetzt ein Histogramm der Werte in sp.vars und berechnen Sie zudem ihr Mittel.

hist(sp.vars)mean(sp.vars)

## [1] 27.22

Histogram of sp.vars

sp.vars

Fre

quen

cy

0 10 20 30 40 50 60

0

500

1000

1500

2000

Vergleichen Sie das Mittel Ihrer Varianzmessungen mit der Populationsvarianz (30.083). Was

3Für diejenigen, die sich für die technische Seite interessieren: Es ist natürlich auch möglich, diese Simulation als einfor-loop zu schreiben. replicate() ist aber übersichtlicher.

Page 38: Statistische Grundlagen

KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 31

stellen Sie fest? Ist es grösser, kleiner oder ungefähr gleich der Populationsvarianz? Haben IhreKurskollegInnen Ähnliches festgestellt?

Generieren Sie jetzt 10’000 Stichproben von jeweils 8 Elementen und vergleichen Sie das Mittelder Varianzen wieder mit der Populationsvarianz. Wie schaut es aus für 5, 3 und 2 Elementenpro Stichprobe? Für ein Element pro Stichprobe?

Fazit Wie Sie selber feststellen konnten, liefert Formel 1.3, wenn sie auf Stichproben angewandtwird, im Schnitt eine zu niedrige Schätzung der Populationsvarianz σ2. Würden wir Formel 1.3anwenden, um anhand einer Stichprobe die Varianz der Population zu charakterisieren, dannwürden wir diese systematisch unterschätzen.

Ausserdem konnten wir feststellen: Je kleiner die Stichprobe, desto grösser die Unterschätzung.Wie Sie anhand Ihrer Simulationen überprüfen können, ist das Bias n−1

n. Anders gesagt liefert

die Formel für Stichproben mit 10 Beobachtungen im Schnitt einen Wert, der nur 10−110 = 90% so

gross ist wie die eigentliche Populationsvarianz. Für Stichproben mit Grösse 5 ist dieser Wert imSchnitt nur 80% so gross wie die eigentliche Populationsvarianz. Die Stichprobenvarianz s2 wirddaher nicht mit Formel 1.3 berechnet. Stattdessen wird d2 durch n− 1 statt durch n geteilt:

s2 =d2

n− 1=

1n− 1

((x1 − µ)

2 + (x2 − µ)2 + · · ·+ (xn − µ)2) (3.2)

Nur wenn s2 auf diese Art berechnet wird, haben Stichproben aus der gleichen Population imSchnitt die gleiche Varianz wie die Population.

Schreiben Sie eine Funktion sim.spvar2.fnc(), indem Sie die Funktion sim.spvar.fnc()kopieren und diese Zeile:

spvar <- sum((mean(stichprobe) - stichprobe)^2) / groesse

durch

spvar <- sum((mean(stichprobe) - stichprobe)^2) / (groesse - 1)

ersetzen. Führen Sie jetzt erneut die Simulationsschritte aus.

R-Funktion Die R-Funktion, um s2 zu berechnen, ist var(). Beispiel:

sum((dat$Wortschatz - mean(dat$Wortschatz))^2) / (length(dat$Wortschatz)-1)

## [1] 6.857

var(dat$Wortschatz)

## [1] 6.857

vgl. Populationsvarianz auf S. 11!

3.1.3 Stichprobenstandardabweichung

Die Stichprobenstandardabweichung swird von der Stichprobenvarianz s2 abgeleitet:4

4Obwohl die Stichprobenvarianz im Schnitt eine richtige Schätzung der Populationsvarianz ergibt, unterschätzt dieStichprobenstandardabweichung die Populationsstandardabweichung trotzdem immer noch ein bisschen. Dieses Bias zukorrigieren stellt sich aber als schwierig heraus.

Page 39: Statistische Grundlagen

KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 32

s =√s2 =

√1

n− 1((x1 − µ)2 + (x2 − µ)2 + · · ·+ (xn − µ)2) (3.3)

R-Funktion: sd()

sqrt(sum((dat$Wortschatz - mean(dat$Wortschatz))^2) /(length(dat$Wortschatz)-1))

## [1] 2.619

sd(dat$Wortschatz)

## [1] 2.619

Tipp: Wenn Varianzen oder Standardabweichungen berichtet werden, handelt es sich fast aus-nahmslos um Stichprobenvarianzen oder -standardabweichungen. Hier wollte ich Ihnen vorallem zeigen, warum in Gleichung 3.1.2 durch n − 1 und nicht durch das naheliegendere ngeteilt wird. Ausserdem war es eine gute Gelegenheit, Sie etwas vertrauter mit Simulationen zumachen.

3.2 Verteilung von Stichprobenmitteln

Stichproben aus der gleichen Population haben im Schnitt zwar ein Mittel, das dem Mittel derPopulation gleich ist, aber einzeln betrachtet wird das Mittel einer Stichprobe natürlich seltengenau gleich dem Mittel der Population sein: Mal wird es grösser, mal wird es kleiner sein. Wiestark weichen einzelne Stichprobenmittel nun vom Populationsmittel ab? Diese Frage versuchenwir wiederum anhand einiger Simulationen zu beantworten.

3.2.1 Simulation: Verteilung der Stichprobenmittel aus einer rechtsschiefenVerteilung

Eine bestimmte Variable ist rechtsschief verteilt mit µ = 1.2 und σ2 = 1.26 (F-Verteilung mitFreiheitsgraden 4 und 12; was eine F-Verteilung ist, ist im Moment nicht wichtig):

plot(function(x) df(x, 4, 12),from = 0, to = 6,xlab = "x", ylab = "f(x)")

0 1 2 3 4 5 6

0.00.10.20.30.40.50.60.7

x

f(x)

Was geschieht, wenn wir Stichproben von je n Beobachtungen aus dieser schiefen Populationziehen, das Mittel jeder Stichprobe berechnen und in einem Histogramm darstellen? Wiederumkönnen wir versuchen, diese Frage mit einer Simulation zu beantworten. Zuerst schreibenwir eine Funktion sim.spmean.f.fnc(), die eine Stichprobe mit Grösse groesse aus einerF(4, 12)-Verteilung zieht und ihr Mittel berechnet und ausspuckt.

Page 40: Statistische Grundlagen

KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 33

# sim.spmean.f.fnc ist eine selbstgeschriebene Funktion,# die eine zufällige Stichprobe aus einer F(4, 12)-Verteilung# generiert, und ihr Mittel berechnet und ausspuckt.sim.spmean.f.fnc <- function(groesse) {

# Stichprobe generieren aus einer F(4, 12)-Verteilung mit# n = groessestichprobe <- rf(n = groesse, 4, 12)# Stichprobenvarianz analog zur Populationsvarianz berechnenspmean <- mean(stichprobe)# Und ausspuckenreturn(spmean)

}

# Diese Funktion 1 Mal ausführen:sim.spmean.f.fnc(groesse = 5)

## [1] 1.581

# Wenn Sie diese Funktion selber ausführen,# werden Sie ein anderes Ergebnis bekommen,# denn die Stichprobe wurde zufällig generiert.

Generieren wir jetzt 10’000 solche Stichproben mit Grösse 5 und berechnen wir ihr Mittel:

# sim.spmean.f.fnc 10'000 laufen lassensp.means <- replicate(10000,

sim.spmean.f.fnc(groesse = 5))

Schauen Sie sich jetzt das Histogramm dieser Stichprobenmittel an:

hist(sp.means)

Wie schaut es aus? Was ist ungefähr das Mittel der Verteilung der Stichprobenmittel (mean(sp.means))?Was mit 10’000 Stichproben von Grösse 20? Und Grösse 100? Nimmt die Streuung zu oder ab, jegrösser die Stichproben werden?

Grösse 5

Stichprobenmittel

Fre

quen

cy

0 1 2 3 4

0

1000

2000

3000

4000Grösse 20

Stichprobenmittel

Fre

quen

cy

0 1 2 3 4

0

500

1000

1500

Grösse 100

Stichprobenmittel

Fre

quen

cy

0 1 2 3 4

0

500

1000

1500

3.2.2 Simulation: Verteilung der Stichprobenmittel aus einer Gleichvertei-lung

Eine Variable ist uniform verteilt mit µ = −1 und σ2 = 12 (Gleichverteilung von −7 bis 5):

plot(function(x) dunif(x, -7, 5),from = -7, to = 5)

Page 41: Statistische Grundlagen

KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 34

Was würde jetzt geschehen, wenn wir auch aus dieser Distribution 10’000 Stichproben von je nBeobachtungen nehmen und ihre Mittel grafisch darstellen?

(a) Schreiben Sie eine neue Funktion, sim.spmean.unif.fnc(), die ähnlich funktioniert wiesim.spmean.f.fnc(), aber die Daten aus einer uniformen Verteilung statt einer F-Verteilunggeneriert.Tipp: Sie müssen die folgende Zeile anpassen:

stichprobe <- rf(n = groesse, 4, 12)

(b) Zeichnen Sie mithilfe dieser Funktion wieder das Histogramm der Stichprobenmittel fürjeweils 10’000 Stichproben von 5, 20 und 100 Beobachtungen.

(c) Wie schauen diese Histogramme aus?

(d) Was ist ungefähr ihr Mittel?

(e) Wie ändert sich ihre Varianz mit unterschiedlichen Werten für n?

(f) Vergleichen Sie die Form dieser Histogramme mit derjenigen aus der letzten Aufgabe.

3.2.3 Fazit: Zentraler Grenzwertsatz

Wenn Stichproben mit n Beobachtungen aus einer Population mit Mittel µ und Varianz σ2 gezo-gen werden, sind die Stichprobenmittel ungefähr normalverteilt, wenn n gross genug ist—auchwenn die Population selber nicht normalverteilt ist.5 Das Mittel der Verteilung der Stichprobenmit-tel (µx) nähert sich µ, je mehr Stichproben genommen werden. Die Varianz der Stichprobenmittel,σ2x, wird kleiner, je grösser die Stichproben sind:

σ2x =

σ2

n(3.4)

Die Standardabweichung der Verteilung der Stichprobenmittel, Standardfehler (S.E.) genannt,ist demnach:

S.E. = σx =

√σ2

n=

σ√n

(3.5)

Beispiel Die Verteilung der Mittel von Stichproben mit Grösse 36 aus einer Normalverteilung

mit µ = 1.2 und σ2 = 1.26 hat ein Mittel von 1.2 und einen Standardfehler von√

1.2636 ≈ 0.19. Mit

Stichprobengrössen von 50 bzw. 100 ist der Standardfehler√

1.2650 ≈ 0.16 bzw.

√1.26100 ≈ 0.11. (Ggf.

können Sie dies mit einer Simulation überprüfen.)

3.2.4 Wahrscheinlichkeitsaussagen über neue Stichproben

Jetzt können wir nicht nur Wahrscheinlichkeitsaussagen über neue einzelne Beobachtungenmachen, wenn wir die Datenverteilung kennen, sondern auch über neue Stichproben: Wenn

5Was ‘gross genug’ ist, ist von Population zu Population unterschiedlich. Die Mittel vieler Verteilungen sind bein = 30 annähernd normalverteilt; Normalverteilungen und einige andere symmetrische Verteilungen konvergierenschon viel schneller.

Page 42: Statistische Grundlagen

KAPITEL 3. WAHRSCHEINLICHKEITSAUSSAGEN ÜBER STICHPROBEN 35

wir die Varianz und das Mittel der Datenverteilung kennen, wissen wir dank des ZentralenGrenzwertsatzes auch (oft), was die Varianz und das Mittel der Stichproben aus dieser Verteilungsind!

3.3 Aufgaben

1. Sie möchten wissen, wie viele Bücher in Schweizer Wohnzimmern vorhanden sind. Siewählen acht Haushalte nach dem Zufallsprinzip aus und zählen die Anzahl Bücher proHaushalt. Dies sind Ihre Ergebnisse:

18, 10, 7, 142, 48, 27, 257, 14

Tragen Sie diese Daten in R ein und beantworten Sie danach folgende Fragen.

(a) Stellen Sie die Verteilung dieser Daten grafisch da und beschreiben Sie diese.6

(b) Was ist Ihre beste Schätzung des Mittels der Population?

(c) Was ist Ihre beste Schätzung der Varianz und der Standardabweichung der Population?

(d) Erklären Sie sich, warum wir hier mit Schätzungen zu tun haben. Warum sind wir unsnicht sicher, was das Mittel bzw. die Streuung der Population betrifft?

2. Aus einer Normalverteilung mit µ = 10 und σ2 = 36 wird eine Stichprobe mit Grösse ngezogen.

(a) Wie wahrscheinlich ist es, dass eine Stichprobe mit 4 Beobachtungen ein Mittel von5 oder weniger hat? (Gehen Sie davon aus, dass der Zentrale Grenzwertsatz zutrifft –auch wenn die Stichprobe dafür eigentlich etwas zu klein ist.)

(b) Idem, aber für 10 Beobachtungen und für 50 Beobachtungen.

(c) Wie viel Prozent der Stichprobenmittel liegen mehr als 4 Einheiten von µ entfernt bein = 8?

(d) Zwischen welchen zwei Werten liegen, symmetrisch um µ, 66.7% der Stichproben-mittel bei n = 10 und bei n = 60? Wie gross ist die Entfernung zu µ ausgedrückt inStandardfehlern?

(e) Idem, aber 90% der Stichprobenmittel und 95% der Stichprobenmittel.

6Noch zum Unterschied zwischen Stichproben und Populationen: Die Verteilung von Daten, die zufällig aus (etwa)einer Normalverteilung gezogen wurden, ähnelt oft annähernd dieser Verteilung. Dies ist aber nicht unbedingt derFall. Diese drei Histogramme zeigen alle Stichproben von 25 Datenpunkten. Obwohl die Datenpunkte alle aus dergleichen Normalverteilung gezogen wurden, zeigen die Histogramme keine perfekten Normalverteilungen. Dies istdem inhärenten Zufallsfaktor zuzuschreiben. Natürlich gilt hier: Je mehr Daten man hat, desto besser entspricht dieVerteilung der Stichprobe der Verteilung der Population.

x

Fre

quen

z

−3 −1 1 3

0

2

4

6

8

x

Fre

quen

z

−2 0 1 2

01234567

x

Fre

quen

z

−3 −1 1 2

0

2

4

6

8

Page 43: Statistische Grundlagen

Kapitel 4

Die Logik des Signifikanztests

In diesem Kapitel wird die Logik des Signifikanztests anhand des Zentralen Grenzwertsatzesaus dem letzten Kapitel erklärt. Die sog. Einstichproben-Tests, anhand derer diese Logik erklärtwird, kommen in der Praxis selten vor, stellen aber den einfachsten Fall des Signifikanztests da.

4.1 Einstichproben-Gauss-Test

4.1.1 Fragestellung und Daten

(Fiktives Beispiel1) Am Ende der obligatorischen Schulzeit sollen durchschnittliche flämischeGymnasialschülerInnen im Bereich Hörverstehen Französisch das B2.2-Niveau erreicht haben.Politiker befürchten allerdings, dass die Effektivität des flämischen Französischunterricht ab-nimmt und dass die durchschnittlichen Hörverstehenskompetenzen nicht dem B2.2-Niveauentsprechen. Bisher liegen keine Daten über das Hörverstehensniveau flämischer Gymnasial-schülerInnen vor, die diese Befürchtung bestätigen bzw. widerlegen können. Das flämischeBildungsministerium entscheidet, solche Daten zu sammeln. Die Forschungsfrage lautet: “Ent-spricht die durchschnittliche Hörverstehensleistung flämischer GymnasialschülerInnen am Endeder obligatorischen Schulzeit dem B2.2-Niveau?” Diese Forschungsfrage führt zu zwei einanderausschliessenden Hypothesen:

• Die bisherige Annahme oder Nullhypothese (H0): Die durchschnittliche Leistung ent-spricht dem B2.2-Niveau.

• Die neue Vermutung oder zu testende alternative Hypothese (HA): Die durchschnittlicheLeistung entspricht nicht dem B2.2-Niveau und ist also entweder höher oder niedriger.

In Flandern gibt es keine dem Abitur entsprechende Abschlussprüfung, weshalb keine Datenfür die ganze Population gesammelt werden können. Daher wird eine zufällige Stichprobe mit 225SchülerInnen ausgewählt, die alle einen standardisierten Französischtest absolvieren. Der Testwird auf einer 20er-Skala benotet; eine Note von 15 entspricht dem B2.2-Niveau. Das Mittel derTestergebnisse ist x = 14.67 mit einer (Stichproben-)Standardabweichung von s = 3.

1Für Tests, die man in der Literatur nur selten antrifft, ist es schwierig, überzeugende Beispiele aus dem sprachlichenBereich zu finden. Daher bitte ich bei diesen Beispielen um etwas willing suspension of disbelief.

36

Page 44: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 37

4.1.2 Lösung

Eine zu einfache Antwort auf die Forschungsfrage wäre, dass die durchschnittliche Leistungtatsächlich dem B2.2-Niveau nicht entspricht, denn x < 15. Aber xwurde berechnet auf der Basisvon einer Stichprobe – nicht auf der Basis der ganzen Population. Daher ist es möglich, dass dieForschenden bei der Auswahl der Stichprobe nur Pech gehabt haben und dass das Mittel derganzen Population (µ) immerhin gleich 15 ist.

Anders als sich nur x anzuschauen, kann man sich fragen, wie wahrscheinlich ein solches Stich-probenmittel und noch extremere Stichprobenmittel sind, wenn die Nullhypothese stimmt. Istdiese Wahrscheinlichkeit sehr klein, dann liegt es auf der Hand, die alternative Hypothese zubevorzugen.

Dies ist die Logik, die bei allen hier besprochenen Tests gilt: Man nimmt vorübergehend an,dass es in der Population keinen ‘Effekt’ (hier: keinen Unterschied) gibt, und berechnet dann, wieerstaunlich die beobachteten Daten (Stichprobe) in diesem Fall sind. Sind die Daten unter dieserAnnahme erstaunlich, dann schliesst man hieraus, dass die Annahme (‘kein Effekt’) wohl falschwar.2

Wie wahrscheinlich ist es nun, ein Stichprobenmittel von x = 14.67 oder noch extremer (d.h.,noch mehr von µ abweichend) zu bekommen, wenn das Populationsmittel (laut der Nullhypo-these) µ0 = 15 ist? Extremere Stichprobenmittel sind hier nicht nur Mittel niedriger als 14.67,sondern auch Mittel höher als 15.33: Beide weichen 0.33 Punkte oder mehr von dem von derNullhypothese postulierten Populationsmittel ab.

Wenn wir aus der Population viele zufällige Stichproben mit 225 Beobachtungen ziehen, dannsind die Mittel dieser Stichproben laut dem Zentralen Grenzwertsatz normalverteilt. Wenn dieNullhypothese stimmt, ist das Mittel der Stichprobenmittelverteilung (µx) gleich dem Mittel derPopulation laut der Nullhypothese, also 15. Die Standardabweichung der Stichprobenmittel-verteilung (= der Standardfehler) ist σx = σ√

n(n = 225). σ kennen wir zwar nicht, aber wir wir

können sie anhand der Stichprobenstandardabweichung schätzen:

S.E. =σ√n≈ s√

n=

3√225

=3

15= 0.20

Wenn die Nullhypothese stimmt, schaut die Verteilung der Mittel von Stichproben mit 225 Beobach-tungen aus der Population also ungefähr so aus:

14.0 14.5 15.0 15.5 16.0

0.0

0.5

1.0

1.5

2.0

Stichprobenmittel

f(x)

14.0 14.5 15.0 15.5 16.0

0.0

0.2

0.4

0.6

0.8

1.0

Stichprobenmittel

F(x

)

Stichprobenmittelverteilung unter der Nullhypothese

2Diese Logik kann – zu Recht – kritisiert werden (siehe etwa Cohen 1994, für eine einfache und deutliche Kritik).Sie liegt den Hypothesentests, die man in der Forschungsliteratur am häufigsten antrifft, aber zu Grunde. AlternativeLogiken bestehen auch, kommen in der Praxis zur Zeit aber deutlich weniger vor, was wohl damit zusammenhängt, dassdie damit verknüpften Berechnungen um Einiges komplizierter sind (siehe etwa Dienes 2011, für eine kurze Einführungin die sog. ‘bayessche’ Statistik; siehe Kruschke 2011, für eine detailliertere Behandlung).

Page 45: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 38

Wenn die Nullhypothese stimmt, ist das Mittel, das tatsächlich beobachtet wurde, x = 14.67, Teildieser Verteilung. Wie wahrscheinlich ist es nun, dass eine Stichprobe von 225 Datenpunktenaus einer Population mit einem Mittel von 15 und einer Standardabweichung von 3 ein Mittelvon 14.67 oder niedriger oder ein Mittel von 15.33 oder höher hat? Diese Wahrscheinlichkeitentspricht der eingefärbten Fläche under der Kurve. Die Grösse dieser Fläche kann einfachberechnet werden (siehe Kapitel 2):

pnorm(q = 14.67, mean = 15, sd = 0.20) # linker Teil

## [1] 0.04947

pnorm(q = 15.33, mean = 15, sd = 0.20, lower.tail = FALSE) # rechter Teil

## [1] 0.04947

# Oder zusammen:pnorm(q = 14.67, mean = 15, sd = 0.20) +

pnorm(q = 15.33, mean = 15, sd = 0.20, lower.tail = FALSE)

## [1] 0.09894

Wenn das Populationsmittel 15 ist, dann beobachten wir in etwas weniger als 10% der Fälle einStichprobenmittel von 14.67 oder niedriger oder von 15.33 oder höher. Dieser Wert (0.099) istder berühmt-berüchtigte p-Wert. Meistens gilt in den Geistes- und Sozialwissenschaften, dassein p-Wert von 0.05 oder weniger auf einen sog. signifikanten Unterschied hinweist, d.h. wenndieser Wert 0.05 oder kleiner ist, wird die Nullhypothese abgelehnt zugunsten der alternativenHypothese.

4.1.3 Schlussfolgerungen

“Wir fanden keinen statistisch signifikanten Unterschied zwischen der durchschnittlichen Hör-verstehenskompetenz im Französischen bei flämischen GymnasialschülerInnen nach Ende derobligatorischen Schulzeit (x = 14.7, SD = 3, n = 225) und dem vom Lehrplan vorgeschriebenenNiveau (µ = 15; Gauss-Test: z = 1.65, p = 0.10).

Zwischen Klammern kommen zunächst die deskriptiven Masse: Stichprobenmittel, Stichproben-standardabweichung (SD) und Anzahl Datenpunkte (n). Statt x wird hierbei allerdings meistensM geschrieben. Dann kommen die inferenzstatistischen Werte. z drückt die Distanz zwischendem beobachteten Mittel und dem Mittel der Nullhypothese in Standardfehlern aus:

z =x− µ0

SE=x− µ0s√n

(4.1)

In diesem Fall: z = 14.67−150.20 = −1.65; dieser Wert wird in der Regel als absolute Zahl (also 1.65)

berichtet. In einer Standardnormalverteilung (einer Normalverteilung mit Mittel 0 und Stan-dardabweichung 1) ist dieser Wert assoziert mit pnorm(-1.65) + pnorm(1.65, lower.tail= FALSE), also mit demselben Wert, den wir oben berechnet haben:

Page 46: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 39

−3 −2 −1 0 1 2 3

0.0

0.1

0.2

0.3

0.4

Verteilung der z−Werteunter der Nullhypothese

z−Wert

f(z)

pnorm(−1.65) pnorm(1.65,lower.tail = FALSE)

Dieser p-Wert folgt danach. Der Deutlichkeit halber können wir auch erwähnen, welchen Test wirverwendet haben, obwohl dies auch oft aus dem Kontext und den berichteten Werten deutlichwird.

Allgemein gilt, dass der p-Wert bis auf zwei Stellen abgerundet wird, wenn er höher als 0.01 ist. Daein Wert von 0.05 als Schwelle gilt, schadet es nicht noch eine dritte Stelle anzuzeigen, wenn sichder Wert zwischen 0.045 und 0.055 befindet. Werte kleiner als 0.01 werden als ‘< 0.01’ oder ggf.‘< 0.001’ angezeigt. ‘p = 0.00’ ist eigentlich nicht sinnvoll, denn irgendeine Wahrscheinlichkeit,wie gering diese auch sein mag, gibt es eigentlich immer. Der z-Wert wird normalerweise auchauf zwei Dezimalstellen abgerundet.

4.1.4 Anmerkungen

Annahmen des Gauss-Tests

• Der Gauss-Test setzt nicht voraus, dass die Daten selber normalverteilt sind, sonderndass das Stichprobenmittel aus einer normalverteilten Stichprobenmittelverteilung kommt,sodass wir uns auf den Zentralen Grenzwertsatz berufen können. Sind die Daten nichtnormalverteilt, dann besteht allerdings das Risiko, dass das Mittel kein guter Indikator derzentralen Tendenz ist.

• smuss eine sehr gute Schätzung von σ sein, sodass wir s stellvertretend für σ in der Formelzur Berechnung des Standardfehlers verwenden können. Grössere Stichproben lieferngenauere Schätzungen von σ. Wenn σ bereits bekannt ist, brauchen wir sie nicht mehr mits zu schätzen. Dies kommt aber nur selten vor.

Eine wichtige Annahme, die aber bei grösseren Stichproben nicht unbedingt erfüllt ist, ist die Un-abhängigkeitsannahme: Jeder Datenpunkt muss unabhängig von jedem anderen Datenpunktsein (z.B. entweder 40 Messungen von einem Sprecher oder eine Messung von 40 verschiedenenSprechern). Ist diese Annahme nicht erfüllt, dann unterschätzt der Gauss-Test, wie alle anderenTests, die wir besprechen werden, den Standardfehler. Dies führt dazu, dass die Genauigkeit,mit der wir Aussagen machen können, überschätzt wird. Die Unabhängigkeitsannahme wird oftverletzt in Studien, in denen SchülerInnen aus mehreren Klassen als Versuchspersonen dienen,oder wenn mehrere Datenpunkte pro Versuchsperson vorliegen (siehe Vanhove 2015a, Abschnitt4, für mehr Details).

Zur Nullhypothese

Die Nullhypothese ist nicht unbedingt die Hypothese, die besagt, dass µ = 0. Vielmehr stellt siedie ‘uninteressante’ Erklärung dar – z.B., dass sich nichts geändert hat. Im Englischen spricht

Page 47: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 40

man übrigens von der null hypothesis (von ‘to nullify’, also die aufzuhebende Hypothese) undnicht von der nil hypothesis (die Hypothese, dass ein Wert gleich 0 ist).

Ein- und zweiseitige Tests

Im obigen Beispiel haben wir einen zweiseitigen Gauss-Test verwendet, denn wir haben nichtnur berechnet, wie wahrscheinlich es ist, einen Mittelwert von 14.67 oder niedriger zu beobachten,wenn die Nullhypothese stimmt (linke Seite), sondern auch, wie wahrscheinlich ein Mittelwertvon 15.33 oder höher in diesem Fall ist (rechte Seite).

In der Literatur trifft man ab und zu auch einseitige Tests an. Bei solchen Tests schaut mansich nur eine der beiden Wahrscheinlichkeiten an. Dies ist dann sinnvoll, wenn es sachlogischunmöglich ist, dass das Populationsmittel jenseits des von der Nullhypothese postulierten Mittelsliegt. (In diesem Beispiel hätten wir dann einen einseitigen Test berechnen können, wenn esunmöglich gewesen wäre, dass das wahre Populationsmittel höher als 15 wäre.) p-Werte voneinseitigen Tests sind kleiner als p-Werte von zweiseitigen Tests.

Vorsicht: Man sollte sich nicht zuerst die Daten anschauen, und dann entscheiden, dass maneinen einseitigen Test verwenden möchte – etwa, wenn der zweiseitige Test ein nicht-signifikantesErgebnis produziert. Bei einem einseitigen Test sollte zudem auch im Vorhinein festgelegt werden,ob man erwartet, dass µ < µ0 oder µ > µ0, und muss begründet werden, weshalb die Alternativesachlogisch unmöglich ist. Wenn ein einseitiger Test verwendet wird und vermutet wird, dassµ < µ0 ist es natürlich sinnlos, einen p-Wert zu berechnen, wenn x > µ0. Der p-Wert wird indiesem Fall immer nicht-signifikant sein. Hier reicht es dann einfach, die deskriptiven Masseaufzulisten.

Tipp: Wenn Sie auch den geringsten Zweifel haben, ob ein ein- oder zweiseitiger Test angebrachtist, berechnen Sie dann den zweiseitigen Test:

Two sided tests should be used unless there is a very good reason for doing otherwise.If one sided tests are to be used the direction of the test must be specified in advance.One sided tests should never be used simply as a device to make a conventionallynon-significant difference significant. (Bland & Altman 1994)

Bedeutung des p-Wertes

• p ist die Wahrscheinlichkeit, dass ein Stichprobenmittel x oder ein noch extremeres Mittelbeobachtet wird, wenn die Nullhypothese tatsächlich stimmt.

• Liegt p unter einer arbiträr festgelegten Schwelle (meistens 0.05), dann spricht man voneinem ‘signifikanten’ Ergebnis. H0 wird dann zugunsten von HA abgelehnt.

Der p-Wert repräsentiert nicht:

• die Wahrscheinlichkeit, dass die Nullhypothese stimmt. Wir können nicht schlussfolgern,dass es eine Wahrscheinlichkeit von 10% gibt, dass H0 stimmt.

• das Komplement der Wahrscheinlichkeit, dass die alternative Hypothese stimmt. Im obigenBeispiel können wir also nicht schlussfolgern, dass HA mit 1 − 0.10 = 90% Wahrscheinlich-keit zutrifft.

Wenn p = 0.03, heisst dies also weder, dass die Wahrscheinlichkeit, dass H0 stimmt, 3% ist, noch,dass HA mit 97% Wahrscheinlichkeit stimmt. Solche falsche Interpretationen des p-Wertes trifftman mit grosser Regelmässigkeit in der Literatur an – manchmal sogar in Einführungen in dieStatistik!

Page 48: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 41

Tipp: In einem kurzen und sehr lesbaren Artikel bespricht Goodman (2008) zwölf Fehlschlüsse,die häufig aus p-Werten gezogen werden.

‘Signifikanz’

In der Statistik ist ‘Signifikanz’ ein technischer Begriff, der nicht mit dem alltäglicheren Be-griff von praktischer oder theoretischer Signifikanz oder Bedeutung verwechselt werden soll.Versuchen Sie in Ihren eigenen Arbeiten, diese Zweideutigkeit zu vermeiden.

Signifikanzschwelle, Fehlentscheidungen, ‘power’ und Effektgrösse

Die Schwelle, die signifikante von nicht-signifikanten p-Werten trennt, bezeichnet man als α undwird im Prinzip arbiträr festgelegt. In den Sozial- und Geisteswissenschaften einigt man sichallerdings meistens implizit auf α = 0.05 (und zwar grundsätzlich aus keinem anderen Grund,als dass eine Hand fünf Fingern zählt).

Signifikanztests bieten keine Sicherheit. Wenn H0 tatsächlich zutrifft, dann werden wir bei dertraditionellen α-Schwelle von 5% H0 in 5% der Fälle fälschlicherweise ablehnen. Diese Art Fehlernennt man einen Typ-I-Fehler (falsch positiv: etwas finden, was nicht da ist).

Wenn nun H0 nicht zutrifft (d.h., es gibt eigentlich einen Effekt), dann besteht trotzdem dieGefahr, ein nicht-signifikantes Ergebnis zu finden. Diese Art Fehler nennt man einen Typ-II-Fehler (falsch negativ: etwas nicht finden, was schon da ist). Die Wahrscheinlichkeit einesTyp-II-Fehlers wird als β bezeichnet. Das Komplement von β, 1 − β, nennt man die statistischepower eines Tests.

H0 stimmt H0 stimmt nicht

p < α Typ-I-Fehler (α) OK (1 − β)p > α OK (1 − α) Typ-II-Fehler (β)

Vorsicht: Aufgrund des Typ-II-Fehlers können wir bei einem nicht-signifikanten Ergebnis wederschlussfolgern, dass es einen Unterschied gibt, noch, dass es keinen gibt. Wenn Sie irgendwolesen, dass A und B sich nicht signifikant voneinander unterscheiden und daher einander gleichsind, ist dies in der Regel lediglich bequeme Rethorik: Absenz von Evidenz ist nicht gleichEvidenz für Absenz. Schmidt (1996) nennt diesen Fehlschluss übrigens “the most devastatingof all to the research enterprise” (S. 126).

4.1.5 Power berechnen

Wie wahrscheinlich ist es, dass wir mit einer Stichprobe von 225 SchülerInnen einen signifikantenUnterschied zu µ0 = 15 feststellen, wenn µ 6= 15. Zunächst müssen wir definieren, wie grossder Unterschied zwischen µA und µ0 eigentlich sein müsste, um von praktischer oder theore-tischer Bedeutung zu sein. Dies ist die erwartete Effektgrösse. In diesem Beispiel könnten wiretwa annehmen, dass ein Populationsmittel von 14.5 (oder weniger) bzw. 15.5 (oder mehr) dasBildungsministerium dazu veranlassen sollte, zusätzliche Mittel in den Französischunterricht zuinvestieren bzw. die Lehrpläne umzuschreiben. Ein Unterschied von mindestens 0.5 Punktenauf der 20er-Skala hätte in diesem Fall also praktische Konsequenzen. (µA1 6 15 − 0.5 = 14.5;µA2 > 15 + 0.5 = 15.5).

Page 49: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 42

Auch für diese alternativen Hypothesen (HA1 : µ = 14.5 und HA1 : µ = 15.5) können wirStichprobenmittelverteilungen zeichnen. Deren Standardabweichung wird ebenfalls mithilfevon s geschätzt: σ ≈ 3√

225= 0.2.

Wenn das eigentliche Populationsmittel 15 ist (= die Nullhypothese), dann sind die Mittel derStichproben mit 225 Beobachtungen, die zufällig aus dieser Population gezogen werden, wiedie schwarze Kurve verteilt. Wenn das eigentliche Populationsmittel aber 14.5 ist (= eine deralternativen Hypothesen), dann sind die Stichprobenmittel wie die rote Kurve verteilt:

13.5 14.0 14.5 15.0 15.5 16.0

0.0

0.5

1.0

1.5

2.0

Stichprobenmittel

f(x)

H0: mu = 15HA1: mu = 14.5

Bei einem zweiseitigen Test mit α = 0.05 lehnen wir in diesem Fall die Nullhypothese nur ab,wenn das Stichprobenmittel grösser als 15.39 oder kleiner als 14.61 ist:

qnorm(0.025, mean = 15, sd = 0.2) # linke Grenze

## [1] 14.61

qnorm(0.975, mean = 15, sd = 0.2) # rechte Grenze

## [1] 15.39

Diese Grenzen werden in der Grafik mit senkrechten Linien dargestellt.

Wenn nun die alternative Hypothese (µ = 14.5) zutrifft, dann würden wir die Nullhypothese(µ = 15) fälschlicherweise nicht ablehnen, wenn wir ein Stichprobenmittel zwischen 14.61 und15.39 beobachten würden. Die Wahrscheinlichkeit, ein solches Stichprobenmittel anzutreffen,wenn die alternative Hypothese zutrifft, entspricht der Fläche unter der roten Kurve zwischen14.61 und 15.39. Diese Fläche wurde oben rot eingefärbt. Die Grösse dieser Fläche lässt sichrelativ einfach berechnen mit den Funktionen, die wir bereits kennen:

pnorm(15.39, mean = 14.5, sd = 0.2) - pnorm(14.61, mean = 14.5, sd = 0.2)

## [1] 0.2912

Wenn die alternative Hypothese stimmt, dann stellen wir in etwa 30% der Fälle ein Stichproben-mittel zwischen 14.61 und 15.39 und somit keinen signifikanten Unterschied fest. Da wir in 30%der Fälle, in denen die alternative Hypothese stimmt, eine falsche Nullhypothese nicht ablehnen,ist unsere power bei einer Effektgrösse von 0.5 Punkten also 70%.

Unter sonst gleichen Bedingungen, hat eine Studie mehr power als eine andere Studie, wenn:

• sie grössere Effekte untersucht. Die schwarzen und roten Kurven liegen dann weiterauseinander, weshalb ihre Überlappung kleiner ist.

• sie eine grössere Stichprobe hat. Dies reduziert den Standardfehler ( σ√n

wird kleiner, wennn grösser wird), was wiederum zu einer geringeren Überlappung zwischen der schwarzenund roten Kurve führt;

Page 50: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 43

Cohens d Interpretation

0.2 kleiner Effekt0.5 mittlerer Effekt0.8 grosser Effekt

Tabelle 4.1: Interpretation von Effektgrössen. Cohens d drückt die Effektgrösse aus als die Entfernungzwischen zwei Werten in Standardabweichungen. Welche Entfernung genau “gross” oder “klein” zunennen ist, hängt selbstverständlich vom Thema und Zweck der Untersuchung ab; Cohen (1992) hältdiese Werte für typisch in der Psychologie. Für L2-Forschung schlagen Plonsky & Oswald (2014) leichtandere Werte vor. Selber bin ich immer mehr skeptisch, was solche Richtlinien betrifft, da sie meinerMeinung nach alles über einen Leisten schlagen; siehe auch meinen Blog und Baguley (2009).

• ihre Daten genauer bzw. zuverlässiger gemessen wurden. Auch dies reduziert den Stan-dardfehler, denn Messfehler tragen zu σ bei ( σ√

nwird kleiner, wenn σ kleiner wird). Eine

Studie, die Sprachkenntnisse mithilfe eines schnellen Tests erfasst, wird also wohl wenigerpower haben, um Unterschiede in diesen Sprachkenntnissen festzustellen, als eine Studie,in der diese Sprachkenntnisse sehr präzise gemessen wurden.

• sie ein raffinierteres Design hat, welches es erlaubt, die Varianz mit statistischen Mitteln zureduzieren (siehe Vanhove 2015a, Abschnitte 2.3 und 3, für Beispiele).

Besonders nützlich für die Planung von Studien ist, dass man mithilfe der Poweranalyse be-rechnen kann, wie gross eine Stichprobe sein muss, damit β klein genug ist. Auch kann man imVorhinein berechnen, wie kraftvoll ein Test ist, wenn man schon weiss, wie gross die Stichprobesein wird, oder wie gross der Effekt sein muss, damit man ihn mit genügend power erfassenkann. Die Algebra ist aber komplex; später besprechen wir eine Familie von R-Funktionen, mitdenen wir dies alles ziemlich einfach berechnen können – vorausgesetzt, man hat eine grobeEinschätzung der Effektgrösse und der Variabilität der Daten.

4.1.6 Relative Effektgrössen

Effektgrössen können auch relativ statt absolut ausgedrückt werden. Anstatt zu fragen, wiegut ein statistischer Test einen Unterschied von 0.5 Punkten ermitteln kann, können wir auchfragen, wie gut er Unterschiede von 0.17 σ von µ0 ermitteln kann ( 0.5

3 = 0.17). Eine Effektgrösseausgedrückt in Standardabweichungen bezeichnet man als Cohens d, s. Tab. 4.1.

4.1.7 Übungen

1. Ein ECTS-Punkt entspricht im Schnitt 28 Arbeitsstunden. Eine Vorlesung wird mit 2 ECTS-Punkten benotet und entspricht demnach 56 Arbeitsstunden. Laut der Fachschaft brauchendie meisten Studierenden allerdings erheblich mehr als 56 Arbeitsstunden, um den Stoffzu verarbeiten. Die Kursleiterin will untersuchen, ob dies tatsächlich stimmt. Da sie aberzu viele Studierende hat, um alle Studierenden zu befragen, werden 39 willkürlich ausge-wählte Studierende gebeten, einen Fragebogen auszufüllen. Sie wird eine ausführlichereUmfrage organisieren, wenn sich mit p < 0.05 ergibt, dass die Studierenden im Schnittmehr als 56 Arbeitsstunden brauchen. Auf der Basis früherer Umfragen weiss sie bereits,dass die Standardabweichung bei derartigen Befragungen 8 Arbeitsstunden betrifft (willingsuspension of disbelief gefragt).

• Formulieren Sie die Null- und Alternativhypothese.

Page 51: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 44

Bei der Befragung ergibt sich, dass die 39 Studierenden im Schnitt 57.8 Arbeitsstundenbrauchen, um den Stoff zu verarbeiten. Die Ergebnisse sind aber eher uniform als normal-verteilt.

• Ist es für einen Gauss-Test ein Problem, dass die Ergebnisse nicht normalverteilt sind?Warum (nicht)?

• Führen Sie einen Gauss-Test aus und berichten Sie das Ergebnis in geeigneter Form.Sollte die Kursleiterin eine ausführlichere Umfrage organisieren?

2. Ein Gauss-Test liefert einen p-Wert von 0.02. Im Vorhinein wurde beschlossen, die Nullhy-pothese abzulehnen, wenn der p-Wert kleiner als 0.05 ist. Welche der folgenden Aussagenstimmen und welche nicht?

• Die Wahrscheinlichkeit, dass die Nullhypothese stimmt, beträgt 2%.

• Wenn das Experiment 100 Mal wiederholt wird, werden wir etwa zwei Mal einnicht-signifikantes Ergebnis finden.

• Wenn die Nullhypothese tatsächlich stimmt, dann kriegen wir in nur 2% der Fälleein Ergebnis, das mindestens so von dem Mittel, das die Nullhypothese postuliert,abweicht.

• Die Nullhypothese ist endgültig widerlegt zugunsten der alternativen Hypothese.

• Die Nullhypothese stimmt mit 95% Wahrscheinlichkeit.

4.2 Konfidenzintervalle

Ein α%-Konfidenzintervall besteht aus zwei Werten, die um x liegen und die so nach einemVerfahren bestimmt wurden, dass das Intervall das wahre Populationsmittel in α% der Fälleenthält.3 Zum Beispiel werden 95%-Konfidenzintervalle nach einem Verfahren konstruiert, dasgarantieren soll, dass das Populationsmittel µ in 95% der Fälle in diesem Intervall liegt.

Wenn die Stichprobenmittel normalverteilt sind (Annahme des Gauss-Tests), kann man dieseKonfidenzintervalle mithilfe der Stichprobenmittelverteilung folgendermassen berechnen:

• Berechne den Standardfehler (S.E. = σ√n≈ s√

n).

• Suche die Werte, die in einer Standardnormalverteilung symmetrisch um das Mittel liegenund für die gilt, dass z.B. 95% aller möglichen Beobachtungen dazwischen liegen. (Konfi-denzintervalle sind nicht per Definition symmetrisch, aber mit dieser Methode berechnenwir eben symmetrische Konfidenzintervalle.)

# Für ein 95%-Konfidenzintervall:qnorm(0.025); qnorm(0.975)

3Die Definition ist leider schwierig, da das Konzept schwieriger ist als was man auf den ersten Blick denken würde –auch für erfahrene Forschende (Hoekstra et al. 2014). Oft interpretiert man ein 95%-Konfidenzintervall als die zwei Werte,zwischen denen der Populationsparameter (hier: µ) mit 95% Wahrscheinlichkeit liegt. Dies stimmt strikte genommennicht (Morey et al. 2015). Zur Interpretation von Konfidenzintervallen schreibt Ehrenberg (1982) aber Folgendes:

[T]he rough-and-ready interpretation of confidence limits . . . will be close to the truth. The choice isbetween making a statement which is true but so complex that it is almost unactionable, and makingone which is much simpler but not quite correct. Fortunately, the effective content of the two kinds ofstatement is generally similar. (S. 125)

Statt Konfidenzintervallen empfehlen Morey et al. (2015) den Gebrauch von ‘Kredibilitätsintervallen’. Diese sind imBereich der bayesschen Statistik angesiedelt und kommen in unserer Forschungsliteratur kaum vor. Wer mehr überKredibilitätsintervalle erfahren möchte, kann sich bei Kruschke (2011) schlau machen.

Page 52: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 45

## [1] -1.96## [1] 1.96

# Für ein 90%-Konfidenzintervall:qnorm(0.05); qnorm(0.95)

## [1] -1.645## [1] 1.645

• Multipliziere den Standardfehler mit diesen Werten und zähle die Ergebnisse beim Stich-probenmittel auf.

Beispiel: x = 14.3, s = 12.1, n = 42. 90%-Konfidenzintervall?

• S.E. ≈ 12.1√42

= 1.87

• qnorm((1-0.90)/2); qnorm(1-(1-0.90)/2)→ ±1.64 (Symbol: z0.05 bzw. z0.95)

• x± S.E.× z0.95 = 14.3± 1.87× 1.64 = {11.2, 17.4}

Wenn wir aus der gleichen Population 100 Stichproben mit Grösse 42 nehmen, ihre Mittel undStandardabweichung und dann die 90%-Konfidenzintervalle nach diesem Prinzip berechnen,dann wird das Populationsmittel in etwa 90 der berechneten Intervalle liegen. Zur Illustrationhabe ich 20 Stichproben mit Grösse 42 aus einer Gleichverteilung mit µ = 12.5 gezogen und je-weils die 90%-Konfidenzintervalle berechnet. Im Schnitt werden zwei dieser Konfidenzintervalleµ (gestrichelte Linie) nicht enthalten (rot).

11

12

13

14

15

Stichprobe

90%

−K

onfid

enzi

nter

vall

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Unter rpsychologist.com/d3/CI/ finden Sie eine lehrreiche App zu Konfidenzintervallen.

4.3 Einstichproben-t-Test

4.3.1 Die t-Verteilungen

Eine Voraussetzung des Gauss-Tests ist, dass wir die Standardabweichung der Population mitgrosser Genauigkeit geschätzt haben. Wie wir im vorigen Kapitel kurz angesprochen haben,unterschätzt die Standardabweichung einer Stichprobe die Standardabweichung der Populationaber etwas, und dieses Bias ist grösser für kleinere Stichproben (Fussnote 4 auf Seite 31). Deshalbmüssen wir die Stichprobenmittelverteilung breiter machen, je kleiner die Stichprobe ist. Diet-Verteilungen sagen uns, wie viel breiter. Dieser mathematische Trick funktioniert im Prinzipnur, wenn unsere Daten aus einer Normalverteilung stammen (= striktere Annahme). Allerdingswird diese Annahme weniger wichtig, je grösser unsere Stichproben sind.

Page 53: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 46

Diese Grafik zeigt die t-Verteilungen mit 2 (violett), 5 (grün), 15 (rot) und 30 (blau) Freiheitsgra-den; bei einer t-Verteilung ist diese Anzahl gleich der Anzahl Beobachtungen in der Stichprobe−1.4 Die schwarze Kurve ist die Standardnormalverteilung.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

x

f(x)

Konkret: Wenn die Stichprobe drei Datenpunkte umfasst, diese Datenpunkte aus einer Nor-malverteilung stammen und die Nullhypothese stimmt, dann ist der berechnete t-Wert Teil dert(2)-Verteilung (violett). Hat die Stichprobe 16 Datenpunkte, dann ist der berechnete t-Wert Teilder t(15)-Verteilung (rot).

4.3.2 Hypothesen testen

Mithilfe der t-Verteilungen können wir jetzt auch anhand kleinerer Stichproben Hypothesentesten. Logik und Vorgehen sind identisch wie beim Gauss-Test, nur wird anstatt einer Normal-verteilung eine t-Verteilung mit den angemessenen Freiheitsgraden verwendet. Die t-Statistikwird analog zur z-Statistik berechnet:

t =x− µ0

SE=x− µ0s√n

(4.2)

Beispiel 1 H0 : µ = 10, HA : µ 6= 10. Stichprobe: {9, 14, 11, 12, 13, 10}. α = 0.10. Annahme: DieDaten kommen aus einer Normalverteilung. Sollten wir die Nullhypothese ablehnen?

• Daten einlesen:

x <- c(9, 14, 11, 12, 13, 10)

• x (Mittel) berechnen:

mean(x)

## [1] 11.5

• s (Standardabweichung) berechnen:

sd(x)

## [1] 1.871

• t-Statistik berechnen:4Freiheitsgrade sind grundsätzlich ein Mass des Informationsreichtums der Stichprobe. Eisenhauer (2008) erklärt den

Begriff detaillierter.

Page 54: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 47

t <- abs((mean(x) - 10) / (sd(x) / sqrt (6)))t

## [1] 1.964

• Zweiseitige Wahrscheinlichkeit für t > 1.96 und t < −1.96 bei 6 − 1 = 5 Freiheitsgraden.Dies entspricht der eingefärbte Fläche in dieser Grafik:

−4 −2 0 2 4

0.0

0.1

0.2

0.3

t−Verteilung mit 5 d.f.

t

f(t)

pt(−1.96, df = 5) pt(1.96, df = 5,lower.tail = FALSE

pt(-t, df = 5) # linke Seite

## [1] 0.05337

pt(t, df = 5, lower.tail = FALSE) # rechte Seite

## [1] 0.05337

pt(-t, df = 5) + pt(t, df = 5, lower.tail = FALSE) # zusammen

## [1] 0.1067

“Aufgrund dieser Daten lehnen wir die Nullhypothese (µ = 10) nicht ab (M = 11.5, SD = 1.87,n = 6; t(5) = 1.96, p = 0.11).”

Oder schneller in R:

# Daten eingebent.test(x, mu = 10)

#### One Sample t-test#### data: x## t = 1.96, df = 5, p-value = 0.11## alternative hypothesis: true mean is not equal to 10## 95 percent confidence interval:## 9.5367 13.4633## sample estimates:## mean of x## 11.5

Beispiel 2 H0 : µ = 2.4, HA : µ 6= 2.4. Stichprobe: {1.4, 2.6, 1.7, 0.9}. α = 0.05. Annahme: DieDaten stammen aus einer Normalverteilung. H0 ablehnen?

• Daten einlesen:

Page 55: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 48

x <- c(1.4, 2.6, 1.7, 0.9)

• x (Mittel) berechnen:

mean(x)

## [1] 1.65

• s (Standardabweichung) berechnen:

sd(x)

## [1] 0.71414

• t-Statistik berechnen:

t <- abs((mean(x) - 2.4) / (sd(x) / sqrt (4)))t

## [1] 2.1004

• Zweiseitige Wahrscheinlichkeit für t < −2.1 und t > 2.1 bei 4 − 1 = 3 Freiheitsgradenberechnen. Dies entspricht der eingefärbten Fläche in dieser Grafik:

−4 −2 0 2 4

0.0

0.1

0.2

0.3

t−Verteilung mit 3 d.f.

t

f(t)

pt(−2.1, df = 3) pt(2.1, df = 3,lower.tail = FALSE

pt(-t, df = 3) # linke Seite

## [1] 0.063257

pt(t, df = 3, lower.tail = FALSE) # rechte Seite

## [1] 0.063257

pt(-t, df = 3) + pt(t, df = 3, lower.tail = FALSE) # zusammen

## [1] 0.12651

Oder:

t.test(x, mu = 2.4)

#### One Sample t-test#### data: x## t = -2.1, df = 3, p-value = 0.13## alternative hypothesis: true mean is not equal to 2.4## 95 percent confidence interval:## 0.51364 2.78636

Page 56: Statistische Grundlagen

KAPITEL 4. DIE LOGIK DES SIGNIFIKANZTESTS 49

## sample estimates:## mean of x## 1.65

“Die Nullhypothese (µ = 2.4) konnte auf Basis unserer Daten nicht abgelehnt werden (M = 1.65,SD = 0.71, n = 4; t(3) = −2.10, p = 0.13).”

Beachten Sie: Wenn (zu Unrecht) ein Gauss-Test verwendet worden wäre, wäre der Unterschiedsignifikant gewesen:

pnorm(-t) + pnorm(t, lower.tail = FALSE)

## [1] 0.035692

Vorsicht: Natürlich müssen wir beim Ziehen von Schlussfolgerungen extremst vorsichtig sein,wenn die Stichprobe bloss drei Beobachtungen zählt. Einerseits haben wir wenig power undist ein nicht-signifikantes Ergebnis daher kaum informativ; andererseits müssten wir auchein eventuelles signifikantes Ergebnis mit einem riesigen Salzkorn nehmen: Der Unterschied,den wir finden, dürfte zufallsbedingt sein und ist vermutlich eine Überschätzung des echtenUnterschieds (siehe hierzu Gelman & Carlin 2014). Die obigen Übungen dienen also lediglichdazu, Ihnen zu zeigen, dass man auch bei kleinen Stichproben Signifikanztests einsetzen kann –nicht dass man dies regelmässig tun sollte.

4.3.3 t- oder Gauss-Test?

Im Prinzip kann man für grosse Stichproben den Gauss-Test verwenden und für kleine dent-Test. Da die t-Verteilung bei einer grösseren Anzahl Freiheitsgrade aber kaum von einerNormalverteilung zu unterscheiden ist, können wir den t-Test auch für grössere Stichprobenverwenden. Deshalb gibt es in R zwar eine t-Test-Funktion, aber keine Gauss-Test-Funktion.

Vorsicht: Beim Konstruieren von Konfidenzintervallen sollte man die geeignete t-Verteilungstatt der Normalverteilung benutzen, wenn die Stichproben relativ klein sind. Dies geht einfachmit der t.test()-Funktion. Im zweiten Beispiel oben ist das 95%-Konfidenzintervall also [0.51;2.79].

Da Einstichproben-Tests nur äusserst selten vorkommen, gibt es in diesem Kapitel keine weiterenpraktischen Aufgaben.

Page 57: Statistische Grundlagen

Teil II

Die weitverbreitesten Tests undModelle

50

Page 58: Statistische Grundlagen

Kapitel 5

Zwei Stichproben vergleichen

Im letzten Kapitel haben wir gesehen, wie in der sogenannten ‘frequentistischen’ Inferenzstatistik(dem am häufigsten verwendeten Inferenzparadigma) Hypothesen getestet werden:

1. Eine Null- und eine Alternativhypothese werden (meistens implizit) formuliert.

2. Es werden Daten bei einer Stichprobe erhoben. Im Idealfall stellt diese Stichprobe eine zufäl-lige Auswahl aus der betroffenen Population dar, meistens jedoch ist dies aus praktischenGründen nicht möglich.

3. Man stellt sich die Frage: “Wie wahrscheinlich ist es, dieses Stichprobenmittel oder ein nochextremeres Stichprobenmittel zu finden, wenn die Nullhypothese tatsächlich stimmt?”

4. Anhand der Standardabweichung der Stichprobe wird die Standardabweichung der Po-pulation geschätzt und der Standardfehler berechnet. Die Differenz zwischen dem Stich-probenmittel und dem von der Nullhypothese vorhergesagten Mittel wird geteilt durchdiesen Standardfehler, was eine Teststatistik ergibt, die man als z oder als t bezeichnet.

5. Anhand einer Referenzverteilung (der Standardnormalverteilung oder der entsprechendent-Verteilung), die die Verteilung der Teststatistik unter Annahme der Nullhypothese erfasst,wird der p-Wert berechnet.

6. Ist diese Wahrscheinlichkeit p gering (in der Regel p < 0.05), dann wird die Nullhypothesezugunsten der Alternativhypothese abgelehnt. Wenn dies nicht der Fall ist, lehnt man dieNullhypothese vorübergehend nicht ab.

7. Man versucht sich dessen bewusst zu bleiben, dass ein signifikanter p-Wert die Existenzdes Unterschieds nicht unumstösslich beweist (Möglichkeit eines Typ-I-Fehlers) und dassein nicht-signifikanter p-Wert nicht ohne Weiteres die Absenz dieses Unterschieds belegt(Möglichkeit eines Typ-II-Fehlers).

Bis jetzt haben wir das Mittel einer Stichprobe mit einem postulierten Populationsmittel vergli-chen. In diesem Kapitel werden wir die Mittel von zwei Stichproben miteinander vergleichen.Die hinterliegende Logik der verwendeten Tests ist aber grundsätzlich die gleiche wie in Kapitel4. In Kapitel 7 besprechen wir, wie Aussagen über mehr als zwei Stichproben gemacht werdenkönnen.

Abschnitt 5.1 stellt einen mechanistischen Ansatz zur Beantwortung der Frage nach der statisti-schen Signifikanz vor. Dieses Abschnitt versteht sich als Exkurs, kann Ihnen dabei möglicherwei-se helfen, wichtige Konzepte in der Inferenzstatistik besser zu verstehen. Ausserdem wiederholt

51

Page 59: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 52

es grundlegende Konzepte des experimental designs. Die in diesem Abschnitt beschriebene Metho-de lässt sich in der Praxis, aus Gründen, die in Kürze besprochen werden, nur selten anwenden.Trotzdem halte ich die Logik hinter dieser Methode für didaktisch nützlich.

5.1 Exkurs: Randomisierung als Inferenzbasis

5.1.1 Ein einfaches Experiment

(Fiktives Beispiel, aber siehe Guiora et al. 1972.) Um den Effekt von Alkohol auf die Sprech-geschwindigkeit zu untersuchen, werden sechs Germanistikstudierende zu einem Experimenteingeladen. Nach dem Zufallsprinzip wird die Hälfte der Studierenden der Experimentalgruppeund die andere Hälfte der Kontrollgruppe zugeteilt. Die Versuchspersonen in der Experimental-gruppe müssen ein Videofragment beschreiben, nachdem sie zuerst 5 Deziliter alkoholhaltigesBier getrunken haben. Die Versuchspersonen in der Kontrollgruppe erledigen dieselbe Aufgabe,trinken statt alkoholhaltigem aber 5 Deziliter alkoholfreies Bier. Die Versuchspersonen wissennicht, ob das Bier, dass sie trinken, alkoholfrei oder alkoholhaltig ist. Gemessen wird die Sprech-geschwindigkeit in Silben pro Sekunde. Auch die Mitarbeitenden, die die Silben zählen, wissennicht, welche Versuchspersonen welcher Kondition zugeteilt wurden (double-blind experiment).

Wieso sollten im Idealfall weder die Versuchspersonen noch die Mitarbeitenden wissen,welche Versuchsperson welcher Kondition zugeteilt wurde?

In diesem Design ist die Kondition (alkoholhaltig vs. alkoholfrei) die unabhängige Variable:Die Forschenden konnten diese Variable selber manipulieren. Ein Begriff mit einer ähnlichenBedeutung ist ‘Prädiktor’. Die Variable ‘Sprechgeschwindigkeit’ ist die abhängige Variable, dawir davon ausgehen, dass ihr Wert teilweise von der unabhängigen Variable abhängt. AndereBegriffe sind ‘outcome variable’ und ‘response variable’.

Von den sechs Studierenden wurden Sandra, Daniel und Maria nach dem Zufallsprinzip derKontrollgruppe zugeteilt, während Nicole, Michael und Thomas der Experimentalgruppe zu-geteilt wurden. Die Versuchspersonen in der Kontrollgruppe äusserten beim Beschreiben desVideofragments 4.2, 3.8 und 5.0 Silben pro Sekunde; diejenigen in der Experimentalgruppe 3.1,3.4 und 4.2 Silben pro Sekunde.

Es ist klar, dass die Versuchspersonen in der Kontrollgruppe eine höhere durchschnittlicheSprechgeschwindigkeit haben als jene in der Experimentalgruppe: Der Unterschied zwischenden Gruppenmitteln beträgt etwa 0.8 Silben pro Sekunde. Können wir daraus schliessen, dassdas Trinken von alkoholhaltigem vs. alkoholfreiem Bier diesen Unterschied mitverursacht hat,oder beruht er auf reinem Zufall?

5.1.2 Warum randomisieren?

Die Versuchspersonen wurden nach dem Zufallsprinzip einer der Gruppen zugeteilt. So wurdesichergestellt, dass die Ergebnisse nicht systematisch verzerrt wurden. Zum Beispiel gibt eszwar in der Kontrollgruppe zwei Frauen und in der Experimentalgruppe nur eine, aber dieserUnterschied ist rein zufällig: Wir haben die Kontrollgruppe nicht systematisch bevorteilt. DasZiel von Randomisierung ist also nicht, perfekt äquivalente Gruppen zu generieren, sondern

Page 60: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 53

eine systematische Verzerrung vorzubeugen – sowohl was bekannte als auch was unbekannteStörvariablen betrifft. (Siehe Vanhove 2015a, zu diesem Missverständnis.)

Ausserdem handelt es sich in diesem Fall um ein double-blind experiment: Weder die Versuchsper-sonen selber noch die auswertenden Mitarbeitenden wussten, wer welcher Kondition zugeteiltwurde. Dies beugt eine Verzerrung der Ergebnisse aufgrund von Erwartungseffekten vonsei-ten der Versuchspersonen (subject-expectancy effect, vgl. den Placebo-Effekt) oder vonseiten derForschenden (observer-expectancy effect) vor (siehe Green & Levy Paluck 2004).

Sicher hätten wir dieses Design verfeinern können, indem wir etwa die Herkunft der Versuchs-personen in beiden Gruppen fixiert hätten (z.B. eine Bündernin, ein Zürcher und eine Bernerin injeder Gruppe; wer sich für solche raffiniertere Designs interessiert, kann sich ausgewählte Kapitelaus Oehlert 2010, anschauen) oder indem wir die Sprechgeschwindigkeit der Versuchspersonenauch vor dem Experiment gemessen hätten (‘Pretest’) und die Unterschiede analysiert hätten,aber auch ohne solche Raffinesse erlaubt dieses Design dank der Randomisierung (und derBlindierung) gültige Aussagen.

5.1.3 Die Nullhypothese und Re-Randomisierung

Der Unterschied zwischen den Mitteln der Gruppen beträgt etwa 0.8 Silben pro Sekunde. Dawir ein randomisiertes Experiment ausgeführt haben und somit eine systematische Verzerrungder Ergebnisse vorgebeugt haben, könnten wir daraus sogar schliessen, dass dieser Unterschiedz.T. von unserer experimentellen Manipulation verursacht wurde: Der Konsum von 5 Deziliteralkholhaltigem Bier bremst die Sprechgeschwindigkeit.

Bevor wir eine solche kausale Aussage machen, müssen wir uns mit einer trivialeren Erklärungbeschäftigen: Vielleicht beruht der Unterschied auf reinem Zufall. Dies ist unsere Nullhypothese,die mit der Alternativhypothese kontrasiert:

• H0: Der Unterschied zwischen beiden Mitteln ist nur dem Zufallsfaktor zuzuschreiben.

• HA: Der Unterschied ist auch teilweise der experimentellen Manipulation zuzuschreiben.

In der ‘frequentistischen’ Inferenzstatistik argumentiert man kontradiktorisch: Man berechnet,wie wahrscheinlich es ist, den beobachteten Effekt oder noch extremere Effekte anzutreffen,davon ausgehend, dass die Nullhypothese stimmt. Ist diese Wahrscheinlichkeit gering (untereiner arbiträren Schwelle), dann schliessen wir daraus, dass unsere erste Annahme – die Nullhy-pothese stimmt – wohl nicht berechtigt war und dass auch ein systematischer Effekt im Spiel ist.Für dieses Beispiel nehmen wir 10% als arbiträre Schwelle; in der Regel ist aber 5% üblich.

Wie berechnen wir nun diese Wahrscheinlichkeit? Wenn wir davon ausgehen, dass die Nullhy-pothese stimmt, dann ist der Unterschied zwischen den Gruppen lediglich das Ergebnis derRandomisierung, also des Zufalls. Die Gruppierung der Ergebnisse, so wie wir sie beobachtethaben, wird in diesem Cleveland dotplot dargestellt:

Page 61: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 54

NicoleMichaelThomas

MariaDanielSandra

Alkoholfrei

Alkoholhaltig

3.5 4.0 4.5 5.0

Ergebnisse Experiment

Sprechgeschwindigkeit (Silben/Sekunde)

Wenn das Zufallsverfahren aber statt Michael Sandra der Experimentalgruppe zugeteilt hätteund Alkoholkonsum die Sprechgeschwindigkeit nicht beeinflusst, wäre dies die Verteilunggewesen – und wäre der Unterschied nicht 0.8 sondern bloss 0.3 Silben pro Sekunde gewesen:

NicoleSandraThomas

MariaDanielMichael

Alkoholfrei

Alkoholhaltig

3.5 4.0 4.5 5.0

Alternative Ergebnisse

Sprechgeschwindigkeit (Silben/Sekunde)

Um jetzt zu berechnen, wie ‘erstaunlich’ ein Unterschied von 0.8 oder mehr unter Annahmeder Nullhypothese ist, können wir berechnen, wie oft das Zufallsverfahren alleine schon einensolchen Unterschied generiert. Es gibt 20 Möglichkeiten, um 6 Versuchspersonen in zwei 3er-Gruppen aufzuteilen (z.B. Sandra, Daniel, Maria / Thomas, Michael, Nicole; Sandra, Daniel,Thomas / Maria, Michael, Nicole; Sandra, Daniel, Michael / Thomas, Maria, Nicole; usw.).1 Fürjede dieser 20 Möglichkeiten berechnen wir, wie gross der Gruppenunterschied ist. (Der R-Codeist dabei nicht so wichtig, nur die Logik.) Diese Grafik stellt für jede mögliche Re-Randomisierungden Unterschied zwischen den Gruppenmitteln dar:

−1.0 −0.5 0.0 0.5 1.0

Gruppenunterschiede für alle Randomisierungen

Unterschied zwischen den Mittelnder beiden Gruppen

Die roten Linien stellen einen absoluten Unterschied von etwa 0.8 Silben pro Sekunde dar. Insge-

1 6!3!(6−3)! =

7206×6 = 20. Oder kurz in R: choose(6, 3).

Page 62: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 55

samt 6 der 20 mögliche Re-Randomisierungen führen zu einem absoluten Gruppenunterschiedvon 0.8 Silben pro Sekunde oder mehr. Die Wahrscheinlichkeit, einen Unterschied zwischenden Mitteln von 0.8 oder mehr Silben pro Sekunde anzutreffen, wenn der Unterschied komplettzufallsbedingt ist, liegt also bei 6

20 = 0.3 (also 30%). Dies ist unser p-Wert.

Da 30% gar nicht so unwahrscheinlich ist und über unserer arbiträren Schwelle von 10% liegt,betrachten wir die Nullhypothese vorübergehend als nicht abgelehnt. Dies heisst nicht, dass wirdie Nullhypothese bestätigt haben, sondern nur, dass keine statistische Evidenz vorliegt, dasssie abgelehnt werden sollte. (Absenz von Evidenz 6= Evidenz für Absenz!)

5.1.4 Bemerkungen

• Der Gebrauch dieses Permutationstests wird durch das Forschungsdesign (genauer gesagtdurch die uneingeschränkte Randomisierung) legitimiert. Dies illustriert, dass Design undAnalyse unauflöslich miteinander verknüpft sind.

• Wir haben unsere Versuchspersonen zufällig den experimentellen Konditionen zugeord-net, aber sie nicht zufällig aus irgendeiner Population gewählt. Wenn wir ein statistischsignifikantes Ergebnis gefunden hätten, dann hätten wir folglich daraus immer noch nichtohne Weiteres schliessen können, dass die experimentelle Manipulation einen Effekt ineiner bestimmten Population hätte. Dazu hätten wir sowohl eine zufällige Auswahl aus derPopulation (random sampling) und eine zufällige Zuweisung der Versuchspersonen an dieKonditionen (random assignment) verwenden müssen. Ohne eine zufällige Auswahl beruhteine solche Schlussfolgerung auf einer (oft impliziten) sachlogischen Argumentation – nichtauf einer statistischen Gegebenheit. Diese Nuance entspricht dem Unterschied zwischeninterner Validität (Ist der Unterschied oder der Effekt, der wir in dieser Stichprobe beob-achtet haben, der experimentellen Manipulation zuzuschreiben?) und externer Validität(Lässt sich dieser Befund über die Stichprobe hinaus generalisieren?).2

Für weitere Details bzgl. Permutationstests, siehe meinen Blog.

5.1.5 Die Holzhammermethode: Permutationstest für grössere Stichproben

Der oben besprochene Lösungsansatz lässt sich in der Regel nur selten anwenden, da wirmeistens mit grösseren Stichproben zu tun haben. Es gibt 20 Möglichkeiten, 6 Versuchspersonenin 2 gleich grosse Gruppen aufzuspalten, aber bereits mehr als 155 Millionen Möglichkeiten, 30Versuchspersonen in 2 gleich grosse Gruppen aufzuspalten. Die Stichprobenmittel für alle Re-Randomisierungen zu vergleichen würde viel zu lange dauern. Ein alternativer Lösungsansatzbesteht darin, ‘nur’ 1’000 oder 10’000 solcher Re-Randomisierungen zu generieren und die Mittelzu vergleichen. Solche Permutationstests trifft man aber ebenfalls nur selten in der Literatur an.

5.2 Zweistichproben-t-Test für unabhängige Stichproben

Ein Test, den man weitaus häufiger als die oben besprochenen Permutationstests antrifft, istder Zweistichproben-t-Test. Dieser beruht nicht auf einem machinellen Lösungsansatz, sondernlässt sich analytisch herleiten, und zwar ähnlich wie der Gauss- und Einstichproben-t-Test.

2Wer sich für die Effizienz didaktischer Methoden interessiert ist, muss wohl die externe Validität der Untersuchungberücksichtigen. Aber für etwa experimentelle Psychologen ist externe Validität nicht unbedingt so wichtig (Mook 1983):Für sie kann es wichtiger sein, zu zeigen, dass eine Manipulation überhaupt einen Effekt erzeugen kann, ohne dass dieGrenzen dieses Befunds schon erprobt werden müssen.

Page 63: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 56

Dass er so oft angewandt wird, verdankt er der Tatsache, dass seine Ergebnisse mit jenen vonPermutationstests konvergieren:

the statistician does not carry out this very simple and very tedious process [i.e.running a permutation test, JV], but his conclusions have no justification beyond thefact that they agree with those which could have been arrived at by this elementarymethod. (Fischer, 1936; zitiert in Ernst 2004)

Um das Inferenzproblem in den Griff zu bekommen, müssen allerdings bestimmte Annahmengemacht werden. Auch ist die Herleitung des t-Tests umständlicher als jene des Permutations-tests. Als EndbenützerInnen brauchen wir uns zwar nicht ausführlich um diese Herleitungzu kümmern, aber ich halte es für sinnvoll, zumindest zu wissen, wo die berichteten Zahlenherkommen und welche Rolle die berühmt-berüchtigten Annahmen in der Berchnung des Testsgenau spielen.

5.2.1 Fragestellung und Daten

(Fiktives Beispiel, aber siehe Guiora et al. 1972.) Die Fragestellung und das Design sind ähnlichwie im obigen Beispiel, nur haben wir statt 6 jetzt 36 Versuchspersonen rekrütiert. 18 werdennach dem Zufallsprinzip der Experimentalgruppe zugeordnet, die restlichen 18 dienen alsKontrollgruppe. Die Daten finden Sie in der Datei Alkohol_Sprechgeschwindigkeit.csv.

# Daten einlesen; ev. file.choose() verwendenalkohol <- read.csv("Alkohol_Sprechgeschwindigkeit.csv")alkohol[c(1:3, 34:36), ]

## Gruppe Sprechgeschwindigkeit## 1 Kontrollgruppe 4.0## 2 Kontrollgruppe 4.2## 3 Kontrollgruppe 4.4## 34 Experimentalgruppe 4.4## 35 Experimentalgruppe 4.0## 36 Experimentalgruppe 3.9

5.2.2 Grafische Darstellung

Es ist immer eine gute Idee, die Daten zunächst grafisch darzustellen. Bei einem Gruppenver-gleich mit einer kontinuierlichen abhängigen Variable (und ipso facto einer nominalskaliertenunabhängigen Variable) sind Boxplots mehr oder weniger der Standard. Siehe Abschnitt 7.1.2 abSeite 95 für Alternativen.

# Mit 'mar' mache ich insb. den Linkerrand breiter,# sodass die Gruppennamen reinpassen.# Mit 'las = 1' zeichne ich die Labels horizontal.# Siehe ?par für mehr Infos.par(mar = c(3, 8.5, 2, 1), las = 1)

# Boxplotboxplot(Sprechgeschwindigkeit ~ Gruppe, data = alkohol,

main = "Boxplot",horizontal = TRUE)

Page 64: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 57

Experimentalgruppe

Kontrollgruppe

3.6 3.8 4.0 4.2 4.4 4.6

Boxplot

5.2.3 Beschreibende Statistik

Mit der summarise()-Funktion aus dem dplyr-Package können einfach beschreibende Masse fürjede Gruppe berechnet werden. Das Package können Sie mit dem Befehl install.packages("dplyr")installieren. Führen Sie dann folgende Befehle aus:

library(dplyr)# Datensatz 'alkohol' nach Variable 'Gruppe' aufteilen

alkohol.sum <- summarise(group_by(alkohol, Gruppe),Mittel = mean(Sprechgeschwindigkeit), # Mittel berechnenMedian = median(Sprechgeschwindigkeit), # MedianStdAbw = sd(Sprechgeschwindigkeit), # StandardabweichungAnzahl = n()) # Anzahl Beobachtungen

alkohol.sum

## Source: local data frame [2 x 5]#### Gruppe Mittel Median StdAbw Anzahl## (fctr) (dbl) (dbl) (dbl) (int)## 1 Experimentalgruppe 4.1889 4.25 0.27842 18## 2 Kontrollgruppe 4.0000 4.05 0.25668 18

5.2.4 Lösung

Der Nullhypothesentest für den Zweistichproben-Fall ist mit dem Vorgehen aus dem letztenKapitel vergleichbar. Die Nullhypothese ist diesmal, dass die Mittel der Populationen, aus denenbeide Stichproben gezogen wurden, gleich sind:

H0 : µ1 = µ2

Die Gegenhypothese ist hier lediglich, dass dies nicht der Fall ist:

HA : µ1 6= µ2

Wenn µ1 = µ2 (H0), dann gilt natürlich µ1 − µ2 = 0. Wir beobachteten aber einen Unterschiedvon 0.2 Silben pro Sekunde zwischen den Stichprobenmitteln beider Gruppen (x1 und x2) (4.19vs. 4.00; siehe beschreibende Statistik).

Page 65: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 58

Ähnlich wie im letzten Kapitel stellen wir uns jetzt folgende Frage:

Wie wahrscheinlich ist es, dass die Mittel so voneinander abweichen, wenn H0

stimmt?

Um diese Frage beantworten zu können, müssen wir wieder eine t-Statistik berechnen: Wirteilen den Unterschied durch seinen Standardfehler:

t =x1 − x2

S.E.x1−x2

(5.1)

Den Unterschied zu berechnen ist einfach, beim Standardfehler ist es komplizierter. Der Stan-dardfehler des Unterschieds ist eine Funktion der Varianzen der Populationen, aus denen dieStichproben gezogen wurden, und der Anzahl Beobachtungen in jeder Stichprobe:3

S.E.x1−x2 =

√σ2

1

n1+σ2

2

n2(5.2)

Also: Je kleiner die Varianz der Daten oder je grösser die Stichproben, desto kleiner der Stan-dardfehler und desto grösser t.

Wenn wir davon ausgehen können, dass σ21 = σ2

2 (Annahme!), dann vereinfacht sich die Formel:

S.E.x1−x2 =

√σ2

(1n1

+1n2

)= σ

√1n1

+1n2

(5.3)

σ ist in der Regel unbekannt, aber kann auf der Basis der Stichprobenstandardabweichungenals s12 geschätzt werden. Um s1 und s2 miteinander zu kombinieren, verwenden wir folgendeFormel:

σ ≈ s12 =

√(n1 − 1)s2

1 + (n2 − 2)s22

(n1 − 1) + (n2 − 1)(5.4)

Das Konzept hinter dieser Formel ist, dass zuerst die beiden Schätzungen von σ2 (s21 und s2

2)gemittelt werden, aber nach Stichprobengrösse gewichtet werden. Danach wird die Wurzelgezogen, um die Standardabweichung zu berechnen.

Die Standardabweichungen innerhalb der Gruppen betragen 0.28 und 0.26 (siehe beschreibendeStatistik). Daraus:

3Dieser Schritt ist etwas schwierig. Der Grund, dass wir ihn machen können, ist, dass beide Stichprobenmittel ausnormalverteilten Stichprobenmittelverteilungen kommen (Zentraler Grenzwertsatz; Annahme!). Die Standardfehler√σ2

1n1

und

√σ2

2n2

sind die Standardabweichungen dieser Stichprobenmittelverteilungen. Ihre Quadrate σ21n1

und σ22n2

sind

also die Varianzen. Wenn wir die entsprechenden Elemente aus zwei zufälligen Reihen (Vektoren) normalverteilterVariablen beieinander aufzählen, dann ist die daraus resultierende Reihe von Zahlen auch normalverteilt. Das Mittelder Summen µ1+2 ist dann gleich µ1 + µ2 und die Varianz der Summen σ2

1+2 ist gleich σ21 + σ2

2. Wenn wir zweiVektoren normalverteilter Variablen voneinander abziehen, ist das Mittel der Ergebnisse natürlich µ1 −µ2. Die Varianzder Unterschiede ist aber noch immer die Summe der Varianzen σ2

1 + σ22. (Wenn wir das Zeichen aller Werte in der

zweiten Zahlenreihe umdrehen (positiv wird negativ, negativ wird positiv), dann wird das Mittel der Zahlenreihe−µ2; die Varianz bleibt aber gleich.) Hieraus folgt, dass die Verteilung der Unterschiede zwischen normalverteilten

Stichprobenmitteln auch normalverteilt ist, und zwar mit µ = µ1 −µ2 (lautH0 : µ1 −µ2 = 0) und σ2 =σ2

1n1

+σ2

2n2

!Lange Rede, kurzer Sinn: Die Formel ist gar nicht so absurd.

Page 66: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 59

s12 =

√(18 − 1)× 0.282 + (18 − 1)× 0.262

18 + 18 − 2= 0.27

S.E.1−2 = 0.27

√118

+1

18= 0.09

t =4.19 − 4.00

0.09= 2.1

Die zweiseitige Wahrscheinlichkeit dieses t-Wertes berechnen wir anhand der t-Verteilung mitn1 + n2 − 2 Freiheitsgraden, da diese Anzahl Freiheitsgrade unsere Sicherheit in der Schätzungvon s12 reflektiert.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Verteilung der t−Statistik (34 d.f.)unter der Nullhypothese

t

f(t)

pt(−2.1, df = 34,lower.tail = TRUE)

pt(2.1, df = 34,lower.tail = FALSE)

Die rot eingefärbte Fläche entspricht folgender Wahrscheinlichkeit:

pt(-2.1, df = 34, lower.tail = TRUE) +pt(2.1, df = 34, lower.tail = FALSE)

## [1] 0.043223

Dies ist unser p-Wert. Oder glücklicherweise ganz einfach in R:

t.test(Sprechgeschwindigkeit ~ Gruppe,data = alkohol,var.equal = TRUE) # Varianz1 = Varianz2

#### Two Sample t-test#### data: Sprechgeschwindigkeit by Gruppe## t = 2.12, df = 34, p-value = 0.042## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## 0.0074993 0.3702785## sample estimates:## mean in group Experimentalgruppe## 4.1889## mean in group Kontrollgruppe## 4.0000

Die kleinen Unterschiede zwischen dem von Hand berechneten Test und dem mit t.test()berechneten Test sind Ründungsfehlern zuzuschreiben.

Page 67: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 60

5.2.5 Schlussfolgerungen

“Versuchspersonen, die eine Einheit Alkohol konsumierten, sprachen im Schnitt signifikantschneller (n = 18, M = 4.2 Silben pro Sekunde, SD = 0.3) als jene in der Kontrollgruppe (n = 18,M = 4.0 Silben pro Sekunde, SD = 0.3; t(34) = 2.1, p = 0.04).”

5.2.6 Annahmen

• Strikte genommen setzt der t-Test voraus, dass die Populationen, aus denen die Datenstammen, annähernd normalverteilt sind. Der Grund ist, dass die Verteilung der t-Statistikunter der Nullhypothese sonst nicht nachweisbar die relevante t-Verteilung ist (sieheSeite 45 zu dem hinterliegenden mathematischen Trick). Für grössere Stichproben ist diesunproblematisch, da t-Verteilungen mit einer hohen Anzahl Freiheitsgraden kaum voneiner Normalverteilung zu unterscheiden sind. Sind die Daten nicht normalverteilt, dannbesteht allerdings das Risiko, dass das Mittel kein guter Indikator der zentralen Tendenzist. Grafiken sind also nach wie vor unerlässlich.

• Die Datenpunkte sind unabhängig voneinander. Ist dies nicht der Fall, dann ergibt der Testzu viele signifikante Ergebnisse (siehe Vanhove 2015a).

• Bei der Berechnung von S.E.x1−x2 sind wir davon ausgegangen, dass die Populationen, ausdenen die zwei Stichproben kamen, die gleiche Varianz σ2 haben. Daher durften wir σ2 als‘Kompromiss’ zwischen s2

1 und s22 schätzen. Wenn wir nicht hiervon ausgehen wollen oder

können, bietet sich Welch’ t-Test für ungleiche Varianzen als Alternative an (siehe unten).

• Der t-Test vergleicht Mittel. Wenn das Mittel kein gutes Mass für die zentrale Tendenz ist,sind diese Aussagen vielleicht nicht falsch, aber vermutlich weniger relevant.

5.2.7 Welch-Test für Stichproben mit ungleichen Varianzen

Beim üblichen t-Test gehen wir davon aus, dass die beiden Stichproben aus Populationen mit dergleichen Varianz σ2 kamen. Will man nicht hiervon ausgehen, dann bietet sich der Welch-t-Testan:

t.test(Sprechgeschwindigkeit ~ Gruppe,data = alkohol,var.equal = FALSE) # = die Standardeinstellung

#### Welch Two Sample t-test#### data: Sprechgeschwindigkeit by Gruppe## t = 2.12, df = 33.8, p-value = 0.042## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## 0.0074553 0.3703224## sample estimates:## mean in group Experimentalgruppe## 4.1889## mean in group Kontrollgruppe## 4.0000

Page 68: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 61

Erwähnen Sie es immer explizit, wenn Sie einen Welch-Test verwendet haben. In diesem Fallwürden wir das Testergebnis folgendermassen hinschreiben: “(Welch-t-Test: t(33.8) = 2.1, p =

0.04”. (Beim Welch-Test wird die Anzahl Freiheitsgrade angepasst, sodass diese Anzahl nichtunbedingt eine ganze Zahl ist.)

In unserer Literatur trifft man diesen Test eher selten an. Wenn ein t-Test ohne Weiteres berichtetwird, können Sie davon ausgehen, dass es sich um einen normalen t-Test handelt.

Manche Autoren empfehlen, immer den Welch-Test zu verwenden (Ruxton 2006), aber in derRegel ist der Unterschied zwischen einem normalen t-Test und einem Welch-Test minimal(Johnson 2008).

Tipp: Es gibt wichtigere Dinge, um die man sich Sorgen machen kann, als die Frage, ob manjetzt einen normalen oder einen Welch-t-Test verwenden sollte.

Wenn Sie irgendwann feststellen, dass die Ergebnisse beider Tests dramatisch unterschiedlichsind, geben Sie mir bitte Bescheid.

5.2.8 Alternativ für nicht-normalverteilte Daten

Der t-Test geht strikte genommen davon aus, dass die Daten aus einer normalverteilten Po-pulation stammen. Bei grösseren Stichproben führt eine Verletzung dieser Annahme kaum zuProblemen; bei kleineren Stichproben könnte dies problematisch sein. In solchen Fällen kannman eine nicht-parametrische Alternative, wie der Permutationstest, in Betracht ziehen. Eineandere Alternative stellt der Wilcoxon-Rangsummentest (auch Wilcoxon-Mann-Whitney-Test,Mann-Whitney-Test oder U-Test genannt) dar. Dieser Test geht davon aus, dass die Populatio-nen, aus denen beide Stichproben gezogen wurden, bis auf eine horizontale Verschiebung gleichverteilt sind (aber nicht unbedingt normal):

wilcox.test(Sprechgeschwindigkeit ~ Gruppe,data = alkohol)

## Warning in wilcox.test.default(x = c(4.3, 4.1, 3.6, 4.3, 4.5, 4.6, 4.3, : cannotcompute exact p-value with ties

#### Wilcoxon rank sum test with continuity correction#### data: Sprechgeschwindigkeit by Gruppe## W = 226, p-value = 0.044## alternative hypothesis: true location shift is not equal to 0

Vorsicht: Sowohl für den t-Test, für den Permutationstest als auch für den Wilcoxon-Rang-summentest gilt die Unabhängigkeitsannahme. Unabhängigkeit ist eine wichtigere Annahmeals Normalität (Gelman & Hill 2007).

Vorsicht: Manche Forschende verwenden den Wilcoxon-Rangsummentest immer dann, wennihre Daten nicht normalverteilt sind. Dieser Test setzt aber voraus, dass die Populationen, ausdenen beide Stichproben gezogen wurden, bis auf eine horizontale Verschiebung gleich verteiltsind. Schaut man genauer hin, sieht man in der Regel, dass dies vermutlich nicht der Fall ist. DerWilcoxon-Rangsummentest ist also kein Wundermittel, um mit nicht-normalverteilten Datenumzugehen.

Page 69: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 62

5.2.9 Übungen

1. Die Datei sinergia.csv enthält eine Zusammenfassung der Daten meiner Dissertation(Vanhove 2014). 163 Deutschschweizer Versuchspersonen wurden gebeten, 45 geschrie-bene und 45 (andere) gesprochene schwedische Wörter ins Deutsche zu übersetzen. DieReihenfolge der Aufgabe (zuerst geschrieben, dann gesprochen, oder zuerst gesprochen,dann geschrieben) wurde für jede Versuchsperson zufällig festgelegt (FirstBlock). LesenSie diese Datei in R ein und beantworten Sie danach die folgenden Fragen.

(a) Können Versuchspersonen, die zuerst schwedische Wörter gehört haben (FirstBlock== Spoken), besser geschriebene schwedische Wörter verstehen, als Versuchsperso-nen, die mit den geschriebenen Wörtern angefangen haben? Stellen Sie die Daten imHinblick auf diese Frage grafisch dar. Führen Sie dann einen geeigneten t-Test aus undberichten Sie diesen im geeigneten Format.

(b) Können Frauen besser gesprochene schwedische Wörter verstehen als Männer?

(c) Denkfrage: Handelt es sich hier in beiden Fällen um ein randomisiertes Experiment?Wurden die Versuchspersonen zufällig aus irgendeiner Population gewählt, denkenSie? Wie informativ ist der p-Wert dann?

(d) Denkfrage: Die Befunde anlässlich der obigen Fragen lassen sich wohl relativ einfacherklären. Aber wir hätten die obigen Fragen auch andersherum formulieren können:Können diejenigen, die zuerst geschriebene Wörter gesehen haben, besser gesprocheneWörter verstehen? Und können Frauen besser geschriebene Wörter verstehen alsMänner? Sind diese Fragen weniger sinnvoll als die obigen? Halten Sie es für eine guteIdee, mehrere Vergleiche auszuprobieren, und dann nur jene zu berichten, die einensignifikanten Unterschied ergeben?

2. In den folgenden zwei Übungen werden die Schlussfolgerungen von zwei Studien kritischunter die Lupe genommen. Dies mag ungesittet scheinen, aber ich halte es für didaktischnützlich, Ihnen zu zeigen, dass auch in renommierten Zeitschriften veröffentlichte Studienvon namhaften Forschenden nicht frei von Kritik auf statistischer Ebene sind.Abrahamsson & Hyltenstam (2009) berichten über eine Studie zu den Zweitsprachkenntnis-sen von zwei Gruppen spanischer Immigranten in Schweden. Die eine Gruppe besteht aus53 Spanischsprachigen, die im Alter von 0 bis 5 nach Schweden umgezogen sind; die zwei-te Gruppe aus 54, die im Alter von 6 bis 11 umgezogen sind. Die Schwedischkenntnissedieser Versuchspersonen wurden von schwedischen raters beurteilt und diese Ergebnissewurden statistisch analysiert. Schlussfolgerung war, dass es keinen Unterschied zwischenden beiden Gruppen gibt.

(a) Installieren und laden Sie das Package pwr:

install.packages("pwr")library("pwr")

(b) Die Funktion pwr.t2n.test() erlaubt es, Poweranalysen auszuführen, wenn dieGruppen ungleich gross sind. Berechnen Sie die Power, die Abrahamsson & Hyltenstam(2009) gehabt hätten, um einen nach Cohen (1992) mittelgrossen Unterschied zwischenden beiden Gruppen zu detektieren.4 Gehen Sie dabei von einem zweiseitigen Test mitα = 0.05 aus:

4Siehe Seite 43: Cohen (1992) schlägt folgende Effektgrössen vor: d = 0.2 ist klein, d = 0.5 ist mittelgross und d = 0.8gross. Wenn Psychologen über ‘grosse’ oder ‘kleine’ Effektgrössen reden, wird normalerweise dies gemeint. Ich bin,was solche Massstäbe betrifft, aber skeptisch. Nützlich ist jedoch Kristoffer Magnussons interaktive Visualisierung vonCohens d unter rpsychologist.com/d3/cohend/.

Page 70: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 63

pwr.t2n.test(n1 = 53, n2 = 54, # Stichprobengrössend = 0.5, # standardisierte Effektgrössesig.level = 0.05, # Signifikanzschwellealternative = "two.sided") # zweiseitige Hypothese

(c) Erklären Sie das Ergebnis in Ihren eigenen Worten.

(d) Wie viel Power hatten Abrahamsson & Hyltenstam (2009), um einen nach Cohen (1992)kleinen Unterschied (d = 0.2) zu detektieren?

3. Johnson & Newport (1989) verglichen die Englischkenntnisse von 7 koreanischen undchinesischen Versuchspersonen, die im Alter von 3 bis 7 in die U.S.A. umgezogen sind,mit denen von 21 amerikanischen Versuchspersonen, die als Kontrollgruppe dienten. Siefanden keinen signifikanten Unterschied und leiteten aus diesem Nullergebnis ab, dasssich die Gruppen nicht voneinander unterschieden.

(a) Wie viel Power hatten Johnson & Newport (1989), um einen nach Cohen (1992) grossenUnterschied zu detektieren (d = 0.8)? Gehen Sie dabei von einem zweiseitigen Test mitα = 0.05 aus:

pwr.t2n.test(n1 = 21, n2 = 7, d = 0.8, sig.level = 0.05,alternative = "two.sided")

(b) Wie viel Power hatten sie, um einen mittelgrossen Unterschied (d = 0.5) zu detektieren?

(c) Wie hoch sollteα sein, damit ein mittelgrosser Effekt mit einer Power von 0.80 detektiertwerden kann?

pwr.t2n.test(n1 = 21, n2 = 7, d = 0.5,sig.level = NULL,power = 0.8, alternative = "two.sided")

(d) Wie gross hätte die Immigrantengruppe (n2) sein sollen, damit ein grosser Effekt(d = 0.8) mit α = 0.05 und einer Power von 0.80 hätte detektiert werden können? Waswäre mit einem mittelgrossen Effekt (d = 0.4)? (Diese Frage ist etwas fies.)

4. Sie rekrütieren 60 Versuchspersonen für ein ‘between-subjects’-Experiment mit zwei Kon-ditionen. Ohne die erwartete Effektgrösse zu kennen: Wie viele Versuchspersonen soll esin jeder Kondition geben, damit die power möglichst gross ist?

5. (Fiktives Beispiel) Ein Forscher möchte untersuchen, ob sich die Länge des deutschen [I]-Vokals unterscheidet, je nachdem ein(e) Sprecher(in) balanziert zweisprachig Französisch–Deutsch ist oder nicht. 15 balanzierte Zweisprachige und 13 Monolinguale produziereninsgesamt 840 tokens, deren Länge gemessen wird. Das Ergebnis wird folgendermassenberichtet: “Es gibt einen signifikanten Längeunterschied zwischen [I]-Lauten, die vonZweisprachigen (n = 450, M = 72 ms, SD = 29) produziert wurden einerseits, unddenjenigen, die von Einsprachigen (n = 390, M = 87 ms, SD = 28) produziert wurdenandererseits (t(838) = 7.39, p < 0.001).”War es überhaupt erlaubt, einen solchen t-Test durchzuführen?

Page 71: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 64

5.3 Zweistichproben-t-Test für abhängige Stichproben

5.3.1 Fragestellung und Daten

(Fiktives Beispiel) Eine Universität veranstaltet zum ersten Mal einen Schreibkurs Französischfür anderssprachige Jurastudierende und möchte nun nachgehen, ob dieser Kurs überhauptetwas bringt. 20 Studierende schreiben sich ein. In der ersten Sitzung schreiben sie ein Essayauf Französisch, damit ihre schon vorhandenen Fähigkeiten von einem Französischlehrer einge-schätzt werden können. Am Ende des Kurses schreiben die Studierenden ein neues Essay. DieDaten finden Sie in der Datei franzkurs.csv.

franzkurs <- read.csv("franzkurs.csv")head(franzkurs)

## vor nach## 1 4 7## 2 11 11## 3 14 18## 4 13 11## 5 7 9## 6 13 16

Lässt sich eine Verbesserung in den Ergebnissen feststellen?

5.3.2 Grafische Darstellung

Wie immer lohnt es sich die Daten grafisch darzustellen. Hier folgen drei Beispiele von Grafiken,die einleuchtend sein können.

Links: Die Pre- und Posttest-Ergebnisse jeder Versuchsperson werden in einem Streudiagrammdargestellt. Die diagonale Linie ist die x = y-Linie; Kreise unterhalb der Linie stellen Versuchs-personen dar, deren Posttest-Ergebnis niedriger als deren Pretest-Ergebnis ist; oberhalb der Linieliegen Versuchspersonen mit einem höheren Posttest- als Pretest-Ergebnis.

Aus dieser Grafik wird bereits klar, dass die meisten Versuchspersonen beim Posttest besserabschneiden als beim Pretest (mehr Punkte oberhalb der Linie als unterhalb). Aber die diagonaleLinie macht es schwierig, visuell einzuschätzen, wie gross der Unterschied zwischen Pre undPost ist.

Mitte: Daher wird im zweiten Plot nicht das Posttest-Ergebnis gezeigt, sondern der Unterschiedzwischen Pre und Post. Die horizontale Linie ist die y = 0-Linie: Punkte oberhalb der Liniestellen Versuchspersonen mit einem höheren Post- als Pretestergebnis dar. Dieser Grafik könnenwir einfacher entnehmen, dass ein durchschnittlicher Fortschritt um die 2 Punkte liegt. Einweiterer Vorteil dieser Grafik ist, dass sie nicht-konstante Effekte aufdecken kann: Man könntesich vorstellen, dass Versuchspersonen mit niedrigeren Pretest-Ergebnissen mehr vom Kursprofitieren als jene mit höheren Pretest-Ergebnissen. In diesem Fall würde man sehen, dass diePunkte links höher liegen als jene rechts. Dies wäre eine wichtige Nuance beim Berichten derErgebnisse.

Rechts: Ein Boxplot der Differenzen zeigt, dass der durchschnittliche Fortschritt (Median) bei 2Punkten liegt und dass etwa drei Viertel der Versuchspersonen einen Fortschritt aufzeigen. DerBoxplot zeigt allerdings nicht, ob der Fortschritt je nach dem Pretest-Ergebnis unterschiedlichgross ist.

Page 72: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 65

par(mfrow = c(1, 3))

# Streudiagramm vor vs. nachplot(nach ~ vor, data = franzkurs,

xlab = "Testergebnis Anfang Semester",ylab = "Testergebnis Ende Semester",main = "Vor vs. Nach")

abline(a = 0, b = 1, lty = 2)

# Verbesserung berechnenfranzkurs$Verbesserung <- franzkurs$nach - franzkurs$vor# Streudiagramm vor vs. Verbesserungplot(Verbesserung ~ vor, data = franzkurs,

xlab = "Testergebnis Anfang Semester",ylab = "Fortschritt",main = "Vor vs. Fortschritt")

abline(a = 0, b = 0, lty = 2)

# Boxplot Verbesserungboxplot(franzkurs$Verbesserung,

ylab = "Fortschritt",main = "Boxplot Fortschritte")

abline(a = 0, b = 0, lty = 2)

par(mfrow = c(1, 1))

4 6 8 10 14

6

8

10

12

14

16

18

Vor vs. Nach

Testergebnis Anfang Semester

Test

erge

bnis

End

e S

emes

ter

4 6 8 10 14

−2

−1

0

1

2

3

4

Vor vs. Fortschritt

Testergebnis Anfang Semester

For

tsch

ritt

−2

−1

0

1

2

3

4

Boxplot Fortschritte

For

tsch

ritt

5.3.3 Lösung

Von allen Studierenden haben wir zwei Beobachtungen: ein Ergebnis für den Vortest und einErgebnis für den Nachtest. Studierende, die beim Vortest gut abschneiden, werden in der Regelauch beim Nachtest besser abschneiden. Die Ergebnisse für den Vor- und Nachtest sind m.a.W.nicht unabhängig voneinander. Deswegen dürfen wir keinen ‘normalen’ t-Test für unabhängigeStichproben benutzen. Stattdessen bietet sich der gepaarte t-Test (oder t-Test für abhängigeStichproben) an.

Die Null- und Alternativhypothesen dieser Test liegen auf der Hand:

H0 : µnach = µvor

Page 73: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 66

HA : µnach 6= µvor

Anstatt die Mittel beider Stichproben direkt zu vergleichen (wie bei einem normalen t-Test),berechnen wir aber den Unterschied zwischen beiden Tests per Versuchsperson. Statt 2 × 20Messungen (mit Abhängigkeiten) haben wir dann nur noch 20 Messungen ohne Abhängigkeiten.

di = xnach,i − xvor,i (5.5)

Die Null- und Alternativhypothese können wir nun umformulieren. Laut der Nullhypothese istder durchschnittliche Unterschied 0, laut der Alternativhypothese ist dieser Unterschied nichtgleich 0:

H0 : µd = 0

HA : µd 6= 0

Diese Nullhypothese können wir einfach mit einem Einstichproben-t-Test testen.

franzkurs$Differenz <- franzkurs$nach - franzkurs$vort.test(franzkurs$Differenz, mu = 0)

#### One Sample t-test#### data: franzkurs$Differenz## t = 3.26, df = 19, p-value = 0.0041## alternative hypothesis: true mean is not equal to 0## 95 percent confidence interval:## 0.52046 2.37954## sample estimates:## mean of x## 1.45

Der gepaarte t-Test für zwei gepaarte Variablen ist äquivalent mit dem Einstichproben-t-Test fürdie Unterschiede zwischen diesen Paaren:

t.test(franzkurs$vor, franzkurs$nach,paired = TRUE) # gepaarter t-Test

#### Paired t-test#### data: franzkurs$vor and franzkurs$nach## t = -3.26, df = 19, p-value = 0.0041## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## -2.37954 -0.52046## sample estimates:## mean of the differences## -1.45

Page 74: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 67

5.3.4 Schlussfolgerungen und Bemerkungen

“Die Posttest-Ergebnisse waren signifikant höher als die Pretest-Ergebnisse (Vortest: M = 9.4,SD = 3.4; Nachtest:M = 10.9, SD = 3.9; gepaarter t-Test: t(19) = 3.3, p < 0.01).”

Die Freiheitsgrade der t-Verteilung: Anzahl Paare minus 1.

Vorsicht: Wenn zu Unrecht ein nicht-gepaarter t-Test ausgeführt worden wäre, hätte diesergezeigt, dass die Testergebnisse nicht signifikant unterschiedlich gewesen wären!

t.test(franzkurs$nach, franzkurs$vor,var.equal = TRUE)

#### Two Sample t-test#### data: franzkurs$nach and franzkurs$vor## t = 1.26, df = 38, p-value = 0.21## alternative hypothesis: true difference in means is not equal to 0## 95 percent confidence interval:## -0.87063 3.77063## sample estimates:## mean of x mean of y## 10.85 9.40

Tipp: Gepaarte t-Tests haben i.d.R. mehr Power als nicht-gepaarte t-Tests, da eine wichtige Quellevon Varianz kontrolliert wird: Interindividuelle Unterschiede in a priori-Fähigkeiten werdenweggerechnet. Wenn die Forschungsfrage es erlaubt und es praktisch durchführbar ist, ist einForschungsdesign mit gepaarten Stichproben (‘within-subjects design’) also zu bevorzügen! Oftist dies aufgrund von möglichen Lerneffekten aber schwierig.

Für mehr Informationen bzgl. Forschungsdesigns und der Frage ‘Wie viele Versuchspersonenbrauche ich?’, siehe Abbuhl et al. (2013) und Quené (2010).

5.3.5 Annahmen

Der gepaarte t-Test macht die gleichen Annahmen wie der Einstichproben-t-Test, nur geltendiese für die Differenzen statt für die originellen Werte.

Vorsicht: Wenn nicht alle Datenpunkte sinnvoll und nach demselben Muster (z.B. zwei Mes-sungen per Sprache oder per Sprecher oder per Vokal usw.) gepaart sind, kann der gepaartet-Test nicht verwendet werden. Entweder sind die Stichproben völlig unabhängig voneinander(unabhängiger t-Test) oder sie sind völlig gepaart (gepaarter t-Test); wenn sie nur z.T. gepaartsind, können die Daten nur mittels viel komplexerer Methoden analysiert werden. VersuchenSie daher, wenn möglich, das Design der Studie möglichst einfach zu halten! Wenn die Daten-punkte nicht in Paaren sondern zu dritt usw. erscheinen, bietet sich eine ANOVA für wiederholteMessungen an (Kapitel 7), oder eben wiederum eine komplexere Methode.

5.3.6 Alternativ für nicht-normalverteilte Stichprobendifferenzen

Eine nicht-parametrische Alternative ist der Wilcoxon-Vorzeichen-Rang-Test (wilcox.test()mit Option paired = TRUE); die Warnungen sind hier nicht so wichtig:

Page 75: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 68

wilcox.test(franzkurs$vor, franzkurs$nach, paired = TRUE)

## Warning in wilcox.test.default(franzkurs$vor, franzkurs$nach, paired = TRUE):cannot compute exact p-value with ties

## Warning in wilcox.test.default(franzkurs$vor, franzkurs$nach, paired = TRUE):cannot compute exact p-value with zeroes

#### Wilcoxon signed rank test with continuity correction#### data: franzkurs$vor and franzkurs$nach## V = 19, p-value = 0.0065## alternative hypothesis: true location shift is not equal to 0

Diesen Test habe ich in der sprachwissenschaftlichen Literatur allerdings noch nie gesehen.

5.3.7 Denkfrage

Wie überzeugend finden Sie die Schlussfolgerung, dass die Teilnahme am Französischkurs zueiner Verbesserung der Schreibfähigkeit führt? Verteidigen Sie Ihren Standpunkt.5

5.3.8 Übungen

1. In der Tabelle sind die durchschnittlichen (Median) F1-Frequenzen (in Hz) für 11 englischeVokale je nach Herkunft der Sprecher (Birmingham vs. Glasgow) aufgeführt; Daten vonFerragne & Pellegrino (2010). (Mehr Info zu Formanten finden Sie auf Wikipedia.)

Vokal F1 (Hz) Birmingham F1 (Hz) Glasgow

heed 289 301hid 350 446head 502 473had 679 636hard 639 693hod 576 530hoard 454 463hood 414 327who’d 318 345Hudd 482 480heard 491 543

Tragen Sie diese Daten selber auf irgendeine Art und Weise in R ein (direkt eintippen,zuerst in Excel speichern und dann einlesen, . . . ).Unterscheiden sich die F1-Messungen systematisch zwischen Birmingham und Glasgow?

2. Der in R eingebaute Datensatz women enthält die Körpergrössen (in inch) und Körperge-wichte (Pfund) 15 amerikanischer Frauen:

5

Umdieszuzeigen,müsstemaneineKontrollgruppehaben,dennesistdurchausdenkbar,dassdieStudierendenauchohnedenFranzösischkursbeiderzweitenErhebungbesserabgeschlossenhätten.

Page 76: Statistische Grundlagen

KAPITEL 5. ZWEI STICHPROBEN VERGLEICHEN 69

women

## height weight## 1 58 115## 2 59 117## 3 60 120## 4 61 123## 5 62 126## 6 63 129## 7 64 132## 8 65 135## 9 66 139## 10 67 142## 11 68 146## 12 69 150## 13 70 154## 14 71 159## 15 72 164

Sollte man einen t-Test berechnen, um den Bezug zwischen Körpergrösse und -gewicht zuerfassen? Verteidigen Sie Ihre Antwort.

3. Die Datei SimonTask.csv enthält die Ergebnisse eines sog. Simon-Tasks (siehe den Anhangvon Vanhove 2014). Eine Beschreibung des Simon-Tasks finden Sie auf Wikipedia. Für jedeVersuchsperson ist die durchschnittliche (Median) Reaktionszeit (in ms) für 28 kongruente(congruent) und 28 inkongruente (incongruent) Trials aufgeführt. Die Erwartung ist,dass Versuchspersonen schneller auf kongruente als auf inkongruente Trials reagieren.Lesen Sie die Daten in R ein und stellen Sie die Daten im Hinblick auf diese Hypothesegrafisch dar. Was entnehmen Sie dieser Grafik? Wird die Hypothese von diesen Datenunterstützt?

Page 77: Statistische Grundlagen

Kapitel 6

Zusammenhänge zwischenkontinuierlichen Variablen

Oft interessieren wir uns nicht sosehr für die Mittel unterschiedlicher Gruppen, sondern fürden Zusammenhang zwischen zwei oder mehreren kontinuierlichen Variablen. Zum Beispielkönnten wir uns fragen, wie der Zusammenhang zwischen dem Alter (einer kontinuierlichenVariable) und dem Ergebnis bei einem Wortschatztest (ebenso einer kontinuierlichen Variable)bei 5- bis 12-Jährigen ausschaut. Zu oft wird in unserem Fachgebiet in solchen Fällen eine derVariablen diskretisiert: Zum Beispiel werden die 5- bis 8-Jährigen zusammen als die ‘junge’Gruppe und die 9- bis 12-Jährigen als die ‘alte’ Gruppe betrachtet, sodass die Ergebnisse beimWortschatztest mit einem t-Test verglichen werden können.

Das Problem mit dem Aufteilen kontinuierlicher Variablen ist, dass hierdurch nützliche Informa-tion verloren geht (z.B. Cohen 1983): Die Versuchspersonen innerhalb jeder Gruppe sind auchunterschiedlichen Alters, aber dies wird bei einem t-Test nicht länger berücksichtigt. Dies führtzu einem Powerverlust. Zudem kann Diskretisierung dazu führen, dass arbiträre Trennungen(Warum 5–8 und 9–12 und nicht etwa 5–7 und 8–12? Würde das Ergebnis anders aussehen?)überbetont werden und dass Schwelleneffekte zu Unrecht hineininterpretiert werden dürften(siehe Altman & Royston 2006; Vanhove 2013).

In solchen Fällen ist es – mit wenigen Ausnahmen – besser, kontinuierliche Variablen auch inder Analyse als kontinuierlich zu behandeln. Dazu besprechen wir einige Methoden in diesemKapitel. Dieses Kapitel versteht sich aber als eine Einführung; detailliertere Informationen undkomplexere linguistische Beispiele finden Sie in Baayen (2008).

Mit den Methoden, die wir in diesem Kapitel besprechen, können wir versuchen, eine Antwortauf eine dieser zwei Fragen zu geben:

1. Wie stark ist der Zusammenhang zwischen zwei kontinuierlichen Variablen? Anders gesagt,wenn wir den Wert einer Variable kennen, wie gut können wir dann den Wert der anderenVariable schätzen? (Korrelationsanalyse)

2. Was ist der Zusammenhang zwischen zwei (oder mehreren) kontinuierlichen Variablen?Anders gesagt, wenn wir den Wert einer Variable kennen, wie können wir dann den Wertder anderen Variable schätzen? (Regressionsanalyse)

Beide Fragen werden oft miteinander verwechselt, was manchmal zu Verwirrungen führt (Van-hove 2013). Zwei Beispiele, um den Unterschied klar zu stellen:

• Wenn man die Temperatur in Grad Celsius kennt, kann man die Temperatur in Grad

70

Page 78: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 71

Fahrenheit perfekt schätzen: Die Korrelation ist also äusserst stark (Frage 1). Damit wissenwir aber noch nicht, wie wir die Temperatur in Grad Fahrenheit berechnen können, wennwir die Temperatur in Grad Celsius kennen. Eine Regressionsanalyse würde zeigen, dasswir dazu die Temperatur in Grad Celsius mit 9 multiplizieren müssen, dann teilen durch 5und dann noch 32 Grad hinzufügen (Frage 2): ◦Fahrenheit = 32◦ + 9

5 ×◦Celsius.

• Wenn man die Körpergrösse eines Menschen kennt, kann man sein Gewicht besser schätzen,als wenn man die Körpergrösse nicht kennt. Die Schätzung ist aber nicht perfekt: DieKorrelation ist positiv, aber nicht so hoch wie im letzten Beispiel (Frage 1). Um zu wissen,wie man das Gewicht am besten anhand der Grösse schätzt (z.B. Gewicht in kg = 0.6×Grösse in cm −40 kg für Frauen zwischen 145 und 185 cm), braucht es Regressionsanalyse.

6.1 Frage 1: Kovarianz und Korrelation

Betrachten wir den Datensatz von DeKeyser et al. (2010), in dem Daten zum ‘age of acquisition’(AOA) von 76 russischsprachigen Immigranten in den USA und Kanada sowie ihr Ergebnis aufeiner englischen Grammatikalitätsurteilaufgabe (GJT) gespeichert wurden. Unsere Fragestellunglautet: Wie stark hängt das Alter, in dem Russischsprachige angefangen haben, vor Ort Englischzu lernen, zusammen mit ihrem Ergebnis auf dieser Aufgabe? (DeKeyser et al. (2010) hattenübrigens eine andere Fragestellung.)

# Daten einlesendat <- read.csv("dekeyser2010.csv")# Erste sechs Fälle anzeigenhead(dat)

## AOA GJT## 1 59 151## 2 9 182## 3 51 127## 4 58 113## 5 27 157## 6 11 188

6.1.1 Grafische Darstellung: das Streudiagramm

Auch hier ist es immer eine gute Idee, die Daten grafisch darzustellen. Wenn man sich für denZusammenhang zwischen zwei kontinuierlichen Variablen interessiert, sind Streudiagramme(scatterplots) einfach aber besonders effizient.

plot(GJT ~ AOA, dat)# oder: plot(dat$AOA, dat$GJT)

Page 79: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 72

10 30 50 70

120

140

160

180

200

AOAG

JT

Auf den ersten Blick wird klar, dass es sich hier um einen negativen Zusammenhang ohneoffensichtliche Ausreisser geht: Grössere AOA-Werte sind in der Regel mit kleineren GJT-Wertenassoziiert. Wichtig ist auch, dass der Zusammenhang zwischen den beiden Variablen unge-fähr linear ist. Die nächste Grafik zeigt in Gegensatz dazu vier Beispiele von nicht-linearenZusammenhängen:

Sinusoid logarithmische Zunahme

Parabel(quadratische Funktion) Deckeneffekt

Vorsicht: Ist der Zusammenhang zwischen den Variablen nicht (ungefähr) gerade, dann lohnt essich kaum, ohne Weiteres Korrelations- und Regressionsanalysen durchzuführen. Manchmalkann man die Daten aber sinnvoll transformieren, sodass der Zusammenhang linear wird(Beispiele in etwa Baayen 2008; Gelman & Hill 2007).

6.1.2 Kovarianz

Um numerisch zu beschreiben, wie stark zwei Variablen miteinander zusammenhängen (Frage1), brauchen wir ein Mass, dessen absoluter Wert gross ist, wenn kleine Unterschiede in xmit kleinen Unterschieden in y zusammenhängen und grosse Unterschiede in x mit grossenUnterschieden in y, und dessen absoluter Wert klein ist, wenn grosse Unterschiede in der einenVariable mit nur kleinen Unterschieden in der anderen Variable zusammenhängen. Ein solchesMass ist die Kovarianz:

Page 80: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 73

Cov(x,y) =1

n− 1((x− x1)(y− y1) + (x− x2)(y− y2) + · · ·+ (x− xn)(y− yn)) (6.1)

Die Summe der Produkte wird durch n−1 statt durch n geteilt aus dem gleichen Grund, weshalbdies bei der Varianzberechnung der Fall ist.

sum((mean(dat$AOA) - dat$AOA) * (mean(dat$GJT) - dat$GJT)) / (nrow(dat) - 1)

## [1] -394.93

# einfacher:cov(dat$AOA, dat$GJT)

## [1] -394.93

Ist die Kovarianz positiv, dann besteht ein positiver Zusammenhang zwischen den beidenVariablen (je grösser x, desto grösser y); ist die Kovarianz negativ, dann gibt es einen negativenZusammenhang (je grösser x, desto kleiner y). Abgesehen von diesen zwei Richtschnuren ist dasKovarianzmass schwierig zu interpretieren, weshalb Sie es in der Literatur nur selten antreffenwerden. Aber Kovarianz ist ein wichtiges Konzept in der Mathe hinter komplexeren Verfahren,weshalb es sich trotzdem lohnt, zumindest zu wissen, dass es besteht.

6.1.3 Pearsons Produkt-Moment-Korrelation (r)

Da das Kovarianzmass nicht einfach zu interpretieren ist, wird meistens Pearsons Produkt-Moment-Korrelationskoeffizient (r) (oder einfach Pearsons Korrelation) verwendet. Diese Zahldrückt aus, wie gut der Zusammenhang durch eine gerade Linie beschrieben werden kann. Eswird ähnlich wie das Kovarianzmass berechnet, aber die Variablen werden in Standardabwei-chungen zum Stichprobemittel ausgedrückt. Dies ergibt dann immer eine Zahl zwischen −1 und1.

rxy =Cov(x,y)sxsy

(6.2)

cov(dat$AOA, dat$GJT) / (sd(dat$AOA) * sd(dat$GJT))

## [1] -0.80285

# einfacher:cor(dat$AOA, dat$GJT)

## [1] -0.80285

Ist r = 1, dann liegen alle Datenpunkte perfekt auf einer geraden, steigenden Linie. Dies deutetfast ausnahmslos auf eine Tautologie hin. Zum Beispiel sind Körpergrössen in Zentimetern undin Inches perfekt korreliert, aber dieser Zusammenhang ist nicht spektakulär sondern höchstlangweilig. Ist r = −1, dann liegen alle Datenpunkte auf einer geraden, senkenden Linie. Diesdeutet wohl darauf hin, dass die beiden Variablen perfekt komplementär sind. Zum Beispielwird die Anzahl richtige Antworten oft mit r = −1 mit der Anzahl falsche Antworten korrelieren;auch dies ist wenig spektakulär. Ist r = 0, dann ist die Linie perfekt senkrecht, d.h. es gibtüberhaupt keinen linearen Zusammenhang zwischen den beiden Variablen.

Je grösser der absolute Wert von r, desto näher befinden sich die Datenpunkte bei der geradenLinie. Anders ausgedrückt: Je grösser der absolute r-Wert, desto präziser kann man y bestimmen,wenn man x schon kennt (und umgekehrt).

Page 81: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 74

Cohens d Pearsons r

kleiner Effekt 0.2 0.1mittlerer Effekt 0.5 0.3grosser Effekt 0.8 0.5

Tabelle 6.1: Interpretation von Pearsons r nach Cohen (1992). (Erweiterung von Tabelle 4.1 auf Seite43.) Plonsky & Oswald (2014) schlagen auch hier leicht andere Werte vor. Ebenso wie bei Cohens d binich skeptisch, was solche Massstäbe betrifft, siehe Why I don’t like standardised effect sizes und More onwhy I don’t like standardised effect sizes.

Die Korrelation zwischen x und y ist gleich der Korrelation zwischen y und x. Es macht alsonichts aus, ob man cor(dat$AOA, dat$GJT) oder cor(dat$GJT, dat$AOA) eintippt.

Die unten stehende Grafik zeigt vier Zusammenhänge, um die Bedeutung von Pearsons r zuillustrieren.Oben links: Es gibt wenig Streuung entlang der y-Achse. Die Streuung, die es gibt, wird grössten-teils von einer Gerade erfasst. r ist daher sehr hoch.Oben rechts: Es gibt nun mehr Streuung entlang der y-Achse; diese wird aber weniger gut voneiner Gerade erfasst, daher der niedrigere Korrelationskoeffizient. Die Form der Gerade ist zwargleich wie in der linken Grafik, der Korrelationskoeffizient jedoch nicht.Unten links: Es gibt zwar sehr viel Streuung entlang der y-Achse, aber diese wird grösstenteilsvon einer Gerade erfasst. r ist daher wiederum sehr hoch. Der Korrelationskoeffizient ist zwargleich wie in der obigen Grafik, die Form der Gerade jedoch nicht.Unten rechts: Die gleiche Gerade erfasst die Streuung entlang der y-Achse weniger gut, daher istdie Form der Gerade zwar gleich, der Korrelationskoeffizient aber niedriger.

0 5 15 25

−100−50

050

100150200

y = 15 + x, r = 0.94

x

y

0 5 15 25

−100−50

050

100150200

y = 15 + x, r = 0.59

x

y

0 5 15 25

−100−50

050

100150200

y = 15 + 5x, r = 0.94

x

y

0 5 15 25

−100−50

050

100150200

y = 15 + 5x, r = 0.59

x

y

Pearsons rs werden oft ähnlich wie Cohens d als klein, mittelgross oder gross eingestuft; sieheTabelle 6.1.

Page 82: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 75

Welche Frage beantwortet r (und welche nicht)?

Pearsons r drückt aus, wie nahe die Datenpunkte auf einer geraden Linie fallen; es gibt keine direktAntwort auf die Frage, wie denn diese Linie ausschaut (ausser: steigend oder senkend); siehe dievier obigen Beispiele.

Ausserdem ist es möglich, dass es einen sehr starken (nicht-linearen) Zusammenhang zwischenzwei Variablen gibt, dieser aber in Pearsons r nicht zum Ausdruck kommt (Bspl.: untere Grafik:links). Umgekehrt kann r den Eindruck geben, dass es sich um einen ziemlich starken linearenZusammenhang handelt, während ein solcher Zusammenhang für die meisten Datenpunktekaum vorliegt (mittel), oder während der Zusammenhang sogar eigentlich in die umgekehrteRichtung geht (rechts: Es gibt zwei Gruppen, in denen der Zusammenhang negativ ist; derKoeffizient ist jedoch positiv, wenn die beiden Gruppen gleichzeitig betrachtet werden).

−6 −2 0 2

−1.0

−0.5

0.0

0.5

1.0

r = −0.03

0 20 40 60 80

020406080

100

r = 0.96

0 20 60 100

0

100

200

300

r = 0.96

Tipp: Schauen Sie sich, bevor Sie Korrelationskoeffiziente berechnen, immer die Daten grafisch(Streudiagramm) an. Nehmen Sie diese Streudiagramme in Ihre Papers, Arbeiten und Vorträgeauf.

Wichtig ist noch: Korrelation heisst nicht unbedingt Kausation. Wenn gezeigt wird, dass zwei Varia-blen miteinander korrelieren, wird also noch nicht gezeigt, dass die eine Variable Unterschied inder anderen Variable verursacht. Um dies sicherer festzustellen, braucht es ein Experiment.

Andere Korrelationsmasse

Ab und zu trifft man Spearmans ρ-Koeffizient (oder manchmal: rs) an. Hierfür drückt man dieDaten in Rängen aus, d.h. man ordnet die Daten von klein nach gross und schaut, auf welchemPlatz die einzelnen Datenpunkte stehen. Dann berechnet man einfach die Pearsonkorrelation fürdie Ränge statt für die Rohwerte:

cor(rank(dat$AOA), rank(dat$GJT))

## [1] -0.78877

# einfacher:cor(dat$AOA, dat$GJT, method = "spearman")

## [1] -0.78877

Spearmans ρ kann nützlich sein, wenn der Zusammenhang zwischen zwei Variablen monotonaber nicht-linear ist (Monoton heisst: Tendenziell steigend oder tendenziell senkend; nicht etwazuerst steigend und dann senkend.) oder wenn ein Ausreisser das Globalbild zerstört, aber manihn aus irgendwelchem Grund nicht aus dem Datensatz entfernen kann.

Ein anderes Mass ist Kendalls τ (cor(..., ..., method = "kendall")). Dieses wird aber nurhöchst selten verwendet.

Page 83: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 76

Tipp: Die Anwendung von Spearmans ρ und Kendalls τ ist eher beschränkt. Statt automatischauf ρ oder τ zurückzugreifen, wenn ein Zusammenhang nicht gerade linear ist oder wennman einen Ausreisser vermutet, lohnt es sich m.E. eher, darüber nachzudenken, ob (a) mansich tatsächlich für Frage 1 (Stärke des Zusammenhangs) interessiert, (b) man eine oder beideVariablen nicht sinnvoll transformieren kann, sodass sich ein linearerer Zusammenhang ergibt,oder (c) der vermutete Ausreisser überhaupt ein legitimer Datenpunkt ist.

Signifikanz und Konfidenzintervall eines Korrelationskoeffizients

Mit cor.test() können p-Werte und Konfidenzintervalle um r, ρ und τ berechnet werden. DieNullhypothese ist in der Regel, dass es keinen (linearen/monotonen) Zusammenhang zwischenden zwei Variablen gibt. Der p-Wert gibt m.a.W. wieder, wie wahrscheinlich die beobachtete(Stichproben)Korrelation wäre, wenn es in der Population keine Korrelation gäbe. Der t-Wert,und somit auch der p-Wert und das Konfidenzintervall um einen Korrelationskoeffizient, hängtnur vom Wert des Korrelationskoeffizientes und der Anzahl Datenpunkte ab:

t =r√1−r2

n−2

(6.3)

Mit cor.test() ist die Berechnung ganz einfach:

cor.test(dat$AOA, dat$GJT)

#### Pearson's product-moment correlation#### data: dat$AOA and dat$GJT## t = -11.6, df = 74, p-value <2e-16## alternative hypothesis: true correlation is not equal to 0## 95 percent confidence interval:## -0.87070 -0.70501## sample estimates:## cor## -0.80285

Der p-Wert ist hier dermassen klein, dass er in wissenschaftlicher Notation dargestellt wird.‘2e-16’ ist eine 2, der 16 Nulle vorgestellt werden: 0.0000000000000002. Dies ist die kleinste Zahl,die R kennt. Berichten tut man diesen Wert meistens als “r = −0.80, t(74) = 12, p < 0.001”.

Randomisierungstest Um die Signifikanz eines Korrelationskoeffizients zu berechnen, könn-ten wir auch hier die Randomisierungslogik (siehe Kapitel 5.1 auf Seite 52) anwenden. Lautder Nullhypothese wäre der Zusammenhang zwischen den Variablen AOA und GJT rein zu-fallsbedingt. Um zu schauen, ob man oft ähnlich grosse oder grössere Korrelationskoeffizientebeobachten würde, wenn die Nullhypothese stimmt, kann man eine der beiden Variablen will-kürlich permutieren und den Korrelationskoeffizient berechnen. Bei 76 Beobachtungen gibt esallerdings eine riesige Anzahl mögliche Permutationen (76! ≈ 1.9× 10111), weshalb wir uns hier’nur’ 100’000 willkürliche Permutationen anschauen:

# 100'000 Mal Korrelation zwischen AOA und permutierter Variable GJT berechnencors <- replicate(100000,

cor(dat$AOA, sample(dat$GJT)))# In Histogramm darstellen

Page 84: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 77

hist(cors, col = "grey", xlim = c(-1, 1),main = "Korrelationskoeffiziente\nunter Nullhypothese",xlab = "Pearsons r",ylab = "Anzahl")

abline(v = cor(dat$AOA, dat$GJT), lty = 2, col = "red")

Korrelationskoeffizienteunter Nullhypothese

Pearsons r

Anz

ahl

−1.0 −0.5 0.0 0.5 1.0

0

5000

10000

15000

Von 100’000 willkürlichen Permutationen ergibt keine einzige einen Korrelationskoeffizient von|0.80| oder grösser. Laut dem Randomisierungstest ist der p-Wert also kleiner als 1

100000 ; wirkommen zum gleichen Schluss wie beim analytischen Test.

Unterschiede zwischen zwei Korrelationskoeffizienten

Manchmal möchte man der Frage nachgehen, ob der Zusammenhang zwischen diesen zweiVariablen stärker ist als der zwischen jenen zwei Variablen (Variation auf Frage 1). Oder obVariable A stärker mit B korreliert als mit C.

Was Sie in solchen Fällen nicht tun können, ist etwa zu sagen, dass A und B signifikant miteinan-der korrelieren,A und C aber nicht, und daraus schliessen, dassA stärker mit B zusammenhängtals mit C. Der Grund ist, kurz gesagt, dass “der Unterschied zwischen ‘signifikant’ und ‘nichtsignifikant’ selber nicht signifikant ist” (siehe Gelman & Stern 2006, für Beispiele; siehe auchVanhove 2013, für Belege dieses Irrtums im sprachlichen Kontext).

Für Informationen über wie man Unterschiede zwischen Korrelationskoeffizienten hinsichtlichihrer Signifikanz überprüfen kann, siehe Assessing differences of significance. Es sei aber daraufhingewiesen, dass eine sinnvolle Antwort auf die Frage nach dem Unterschied zwischen Kor-relationskoeffizienten grössere Stichproben bedingt als was man zuerst denken würde. So hatman bei Stichprobengrössen von 20 Beobachtungen nur etwa 18% power, um den Unterschiedzwischen r = 0.2 und r = 0.5 zu erfassen; für 80% power bräuchte man in diesem Fall etwa 140Beobachtungen pro Stichprobe, siehe Power simulations for comparing independent correlations.

6.1.4 Übungen

1. Lesen Sie den Datensatz SimonTask.csv ein und stellen Sie den Zusammenhang zwischenden durchschnittlichen (Median) Reaktionszeiten in der kongruenten Kondition und je-nen in der inkongruenten Kondition grafisch dar. Geben Sie den Achsen dabei sinnvolleBezeichnungen.

(a) Ist der Zusammenhang annähernd linear?

(b) Gemessen wurden Zeiten (ms pro Stimulus), aber eigentlich interessieren wir uns fürGeschwindigkeiten (z.B. Anzahl Stimuli pro Sekunde). Transformieren Sie die Daten,

Page 85: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 78

sodass Sie direkt Geschwindigkeiten ausdrücken (Stimuli pro Sekunde):

simon$congruent.speed <- 1000 / simon$congruentsimon$incongruent.speed <- 1000 / simon$incongruent

Stellen Sie jetzt den Zusammenhang zwischen diesen beiden Variablen grafisch dar. Istdieser annähernd linear? Welchen Ausdrucksform (Zeiten oder Geschwindigkeiten)finden Sie am sinnvollsten?

(c) Ist es sinnvoll einen Pearsons r-Koeffizient zu berechnen? Warum (nicht)? Wenn ja,berechnen Sie ihn sowie seine Signifikanz.

2. Die Datei diss_hintergrundvars.csv enthält einige Hintergrundsvariablen der Teil-nehmenden an meinem Dissertationsprojekt. Lesen Sie diese Datei ein. Stellen Sie denZusammenhang zwischen dem Alter der Versuchspersonen (Age) und ihrem Ergebnisbei einem L1-Wortschatztest (WST.Right) grafisch dar. Geben Sie den Achsen sinnvolleBezeichnungen und beantworten Sie nachher folgende Fragen.

(a) Ist es sinnvoll, einen r-Koeffizient zu berechnen für den Zusammenhang beider Varia-blen? Warum (nicht)? Wenn ja, berechnen Sie r und seine Signifikanz.

(b) Fällt Ihnen sonst bei dieser Grafik noch etwas auf?1 Woran könnte dies liegen? Versu-chen Sie, das Problem zu lösen.

3. Auch mit diss_hintergrundvars.csv.

(a) Berechnen Sie Pearsons r für den Zusammenhang zwischen WST.Right und demErgebnis bei einem Englischtest (English.Overall).

(b) Stellen Sie nun den Zusammenhang zwischen WST.Right und English.Overallgrafisch dar. Was fällt Ihnen auf? Woran könnte dies liegen? Wie könnte man es lösen?

(c) Lösen Sie das Problem, stellen Sie die Daten erneut grafisch dar und berechnen Sie,falls sinnvoll, Pearsons r.

4. Wie viel Power hat man, um in einer Stichprobe mit jeweils 40 Beobachtungen von zweiVariablen einen signifikanten Korrelationskoeffizient (α = 0.05) zu finden, wenn es in derPopulation eine mittlere bis starke Korrelation (r = 0.4)2 zwischen den beiden Variablengibt?

library(pwr)pwr.r.test(n = 40, r = 0.4, sig.level = 0.05)

5. Sie möchten eine Hypothese testen, die besagt, dass es einen mittelstarken Zusammenhang(r = 0.3) zwischen zwei Variablen gibt.3 Wie gross muss Ihre Stichprobe sein, damit Sie dieNullhypothese (r = 0) mit α = 0.05 und einer Power von 0.80 widerlegen können?

1

EsgibteinenmassivenAusreisserbeieinerVersuchspersonvon72Jahren.DiesenAusreisserkönnenwirnurindiesemStreudiagrammfinden;ineinemHistogrammwürdeernichtauffallen.

2Die Korrelation in der Population wird eigentlich mit dem griechischen Buchstaben ρ dargestellt. Da dieser aber auchoft verwendet wird, um Spearmans Rangkorrelationskoeffizient darzustellen, verwende ich hier einfach den römischenBuchstaben.

3Ich halte es allerdings für wenig wahrscheinlich, dass man in unserem Forschungsgebiet sinnvoll solche Voraussagenmachen kann.

Page 86: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 79

6.2 Frage 2: Einfache lineare Regression

Es ist klar, dass es im Datensatz dekeyser2010.csv einen Zusammenhang zwischen AOA undGJT gibt. Eine senkende gerade Linie erfasst die GJT-Daten schon ziemlich gut. Aber wie schautdiese Linie genau aus? Mit der Hand könnten wir zwar eine gerade Linie durch die Punktwolkeziehen, aber jeder zieht die Linie wohl an einem etwas anderen Ort:

10 30 50 70

120

140

160

180

200

AOA

GJT

Welche der vier Geraden beschreibt die Daten am besten? Es ist klar, dass wir ein Kriteriumbrauchen, um die am besten passende Gerade zu finden. Eine gerade Linie wird definiert durcheinen Schnittpunkt (α; dies ist der y-Wert, wenn x = 0) und eine Steigung (β; diese sagt, umwie viele Punkte y steigt, wenn x um eine Einheit erhöht wird). Egal, wie wir α und βwählen:Die Linie y = α + βx wird die Daten nicht perfekt beschreiben: Es gibt noch Unterschiedezwischen der Linie und den individuellen Datenpunkten. Dieser Unterschied wird als Restfehler(ε) bezeichnet. Jeder y-Wert (y1,y2 etc.) kann also umschrieben werden als die Kombinationeines systematischen Teils (α+ βxi) und eines Restfehlers:

yi = α+ βxi + εi (6.4)

Diese mathematische Beschreibung ist ein einfaches lineares Regressionsmodell: ‘einfach’, weily nur eine Funktion einer Variable (x) ist, und ‘linear’, weil y als eine Summe (und nicht etwa einProdukt oder etwas Komplexeres) verschiedener Terme modelliert wird.

Um die α- und β-Werte der ‘optimalen’ Gerade zu finden, müssen wir definieren, was ‘optimal’in diesem Kontext heisst. Das Optimalisierungskriterium, das meistens verwendet wird, ist,dass die optimale Linie jene Gerade ist, die Summe der Quadrate der Restfehler minimiert.4

Wenn dies unser Optimalisierungskriterium ist, können wir die Parameter der optimalen Liniefolgendermassen berechnen (Der Beweis dafür wird hier nicht reproduziert.)–die Hütchen überdem α und β stellen dar, dass es sich hierbei um datenbasierte Schätzungen handelt:

β = rxysy

sx(6.5)

α = y− βx (6.6)

Wenn α und β aus Gleichung 6.4 so geschätzt werden, dann ist die Summe der Quadrate von εam geringsten.

Für dekeyser2010.csv:4Die Methode wird daher auch die ‘Methode der kleinsten Quadrate’ (least-squares) genannt. Andere Kriterien

bestehen jedoch auch, z.B. die Methode der kleinsten Abweichungen (wo die Summe der absoluten Werte der Restfehlerminimiert wird) oder orthogonale Regression (wo der Restfehler anders definiert wird), um nur zwei zu nennen. Diehier beschriebene Methode ist die Methode, die in der Forschungsliteratur am häufigsten vorkommt.

Page 87: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 80

beta <- cor(dat$AOA, dat$GJT) * sd(dat$GJT) / sd(dat$AOA)beta

## [1] -1.218

alpha <- mean(dat$GJT) - beta * mean(dat$AOA)alpha

## [1] 190.41

Einfacher geht es mit der lm()-Funktion (linear model):

lm(GJT ~ AOA, data = dat)

#### Call:## lm(formula = GJT ~ AOA, data = dat)#### Coefficients:## (Intercept) AOA## 190.41 -1.22

Vorsicht: Können die Daten nicht von einer geraden Linie erfasst werden, dann kann man zwarnoch immer Regressionskoeffiziente berechnen, ist dies aber weniger sinnvoll.

6.2.1 Regressionsgerade, ‘vorhergesagte’ Werte und Residuen

Was ist nun der von unserem Modell vorhergesagte GJT-Wert (y) für eine Versuchsperson mitAOA = 15? Die Regressionsgleichung für diese Daten haben wir oben berechnet und schaut soaus:

yi = α+ βxi + εi

= 190.41 + (−1.22)× xi + εi

In dieser Gleichung ersetzen wir xi durch 15. Den Restfehler εi kennen wir nicht, aber wir wissen,dass das Mittel aller Restfehler 0 ist. Wir lassen ihn daher ausser Betracht. Der ‘vorhergesagte’Wert (unsere beste Einschätzung für yi) wird als y bezeichnet und ist 172, wenn x = 15:

yAOA=15 = 190.41 + (−1.22)× 15

= 172

Diese ‘vorhergesagten’ Werte können wir dem Streudiagramm hinzufügen, um das Modellbesser zu veranschaulichen:

plot(GJT ~ AOA, data = dat)mod.lm <- lm(GJT ~ AOA, data = dat)abline(mod.lm, col = "red", lwd = 2)

Page 88: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 81

10 30 50 70

120

140

160

180

200

AOAG

JT

Die Regressionsgerade beschreibt die beobachteten Daten jedoch nicht perfekt. Die Restfehler(oder Residuen) sind die Unterschiede zwischen den vom Modell ‘vorhergesagten’ Wertenund den tatsächlich beobachteten Werten. Die nächste Grafik plottet die Residuen, deren Mittelimmer 0 ist, gegen die AOA-Werte.

dat$Residue <- resid(mod.lm)plot(Residue ~ AOA, dat)abline(h = 0, lty = 2)

10 30 50 70

−40

−20

0

20

AOA

Res

idue

6.2.2 Zusätzliche Informationen mit summary()

Mit der summary()-Funktion können wir zusätzliche Details über das Modell abfragen:

summary(mod.lm)

#### Call:## lm(formula = GJT ~ AOA, data = dat)#### Residuals:## Min 1Q Median 3Q Max## -44.70 -9.54 -0.26 13.02 32.45#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 190.409 3.904 48.8 <2e-16## AOA -1.218 0.105 -11.6 <2e-16##

Page 89: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 82

## Residual standard error: 16.4 on 74 degrees of freedom## Multiple R-squared: 0.645,Adjusted R-squared: 0.64## F-statistic: 134 on 1 and 74 DF, p-value: <2e-16

Zuerst wird der ‘call’ wiederholt. Danach kommen folgende Informationen.

Verteilung der Residuen Die Residuen können weiter analysiert werden, sodass das Modellverfeinert werden kann. Für eine Einführung, siehe Baayen (2008).

Regressionskoeffiziente Unter Estimate stehen die Regressionskoeffiziente, die wir vorherberechnet haben. Std. Error zeigt die Standardfehler dieser Koeffiziente; t value die dazugehörigen t-Werte (= Estimate

Std. Error ); Pr(>|t|) zeigt die p-Werte, die mit den t-Werten assoziiertsind (hier mit 74 Freiheitsgraden, siehe Residual standard error). Die standard geliefertent-Werte und Signifikanzwerte beziehen sich auf die Nullhypothese, dass diese Parameter in derPopulation gleich 0 sind.5

Die Signifikanz des Intercepts (y-Wert für x = 0) ist übrigens selten von Interesse.

Restfehler Neben Residual standard error finden Sie eine Schätzung der Streuung desRestfehlers (also von ε). Diese Schätzung ist konzeptuell vergleichbar mit der Standardab-weichung der Residuen. Diese Schätzung hat n− p Freiheitsgrade (hier 74), wo n die AnzahlDatenpunkte (76) ist und p die Anzahl geschätzter Koeffiziente (in unserem Fall: Intercept undAOA, also p = 2).6

Den Restfehler des Modells bespricht man in Artikeln selten, aber die berichteten Signifikanztestssind von ihm abhängig.

‘Erklärte’ Varianz Multiple R-squared zeigt, wie viel Prozent der Varianz in der abhängigenVariable (hier: GJT) mithilfe des Modells ‘erklärt’ (oder besser: beschrieben) werden kann. DieVarianz der GJT-Werte liegt bei:

var(dat$GJT)

## [1] 746.26

Wenn der lineare Effekt von AOA aus den GJT-Werten ‘weggerechnet’ wird, liegt die Varianznoch bei:

var(dat$Residue)

## [1] 265.24

Der lineare Effekt von AOA ‘erklärt’ also fast 65% der Varianz in GJT:

1 - var(dat$Residue)/var(dat$GJT)

## [1] 0.64457

Bei einem einfachen Regressionsmodell ist diese Zahl gleich Pearsons r2: −0.80292 = 0.645.

5Vergleichen Sie den t- und p-Wert der AOA-Variable in diesem Regressionsmodell mit dem t- und p-Wert für denKorrelationstest. Welche Schlussfolgerung würden Sie hieraus schliessen? (Nur für einfache Regressionen (also mit einemPrädiktor).)

6Was diese Anzahl Freiheitsgrade genau heisst, ist weniger wichtig. Es ist ein schwieriges Konzept, dass die wenigstenHobbystatistiker (zu denen ich mich selber zähle) wirklich verstehen.

Page 90: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 83

Adjusted R-squared passt diese Zahl leicht an, um zu verhindern, dass Modelle mit vielen Va-riablen quasi-automatisch hohe R2-Werte haben. Dieser Wert wird allerdings nur selten berichtet.

Die Wichtigkeit von R2 wird m.E. vollkommen überschätzt. Genau so wie pauschale Einstüfun-gen von Pearsons r in klein, mittel und gross in der Regel wenig sinnvoll sind, gibt es keinenuniversell sinnvollen Massstab, R2 zu interpretieren. R2 ist m.E. hauptsächlich nützlich, um zuwissen, wie viel Variation in der abhängigen Variable vielleicht noch mit irgendwelchen anderenFaktoren beschrieben werden könnte.

F-Test Mit dem F-Test wird die Nullhypothese getestet, dass das Gesamtmodell keine Varianzin der abhängigen Variable erklärt. Bei einfacher Regression spielt dies keine Rolle, denn der t-Test liefert das gleiche Ergebnis. Bei mehrfacher Regression könnte dies interessant sein. Meistenskann der F-Test m.E. jedoch ignoriert werden.

6.2.3 Übungen

1. Führen Sie folgende Analyse auf die dekeyser2010.csv-Daten aus:

plot(AOA ~ GJT, data = dat)mod2.lm <- lm(AOA ~ GJT, data = dat)summary(mod2.lm)

(a) Erklären Sie, was Sie gerade berechnet haben. Was bedeuten die geschätzten Parameter?Wieso ist das Intercept so gross? Was bedeutet das Intercept?

(b) Welche Zahlen haben sich geändert, welche nicht? Können Sie sich dies erklären?

(c) Welches Modell finden Sie am sinnvollsten: mod.lm oder mod2.lm? Warum?

2. (a) Lesen Sie sowohl die Dateien sinergia.csv und diss_hintergrundvars.csv ein.(In den Übungen auf Seite 78 mussten Sie falsch kodierte Einträge korrigieren. LesenSie bitte die korrigierten Dateien ein – oder nehmen Sie die Korrekturen nochmals vor.)

sinergia <- read.csv("sinergia.csv")head(sinergia)

hintergrundvars <- read.csv("diss_hintergrundvars.csv")head(hintergrundvars)

Beide Dateien enthalten Variablen zu den gleichen Versuchspersonen. Die Identifikationder Versuchspersonen steht in beiden Datensätzen in der Spalte Subject.

zusammen <- merge(x = sinergia,y = hintergrundvars,by = "Subject")

head(zusammen)

Was haben Sie gerade mit der merge()-Funktion bewirkt?

(b) Stellen Sie den Zusammenhang zwischen der Anzahl richtiger Antworten in dergesprochenen Modalität (Correct.Spoken) und dem Ergebnis bei einem IQ-Test(Raven.Right) grafisch dar. Führen Sie, falls Sie es für sinnvoll halten, eine Regressi-onsanalyse aus und erläutern Sie diese kurz.

Page 91: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 84

6.3 Frage 2: Mehrfache lineare Regression

6.3.1 Mehrere kontinuierliche Prädiktoren (mehrfache Regression)

Mit folgendem Kode werden die Datensätze sinergia.csv und diss_hintergrundvars.csveingelesen. Danach werden die Kodierungsfehler (siehe Seite 78) korrigiert (falls Sie dies nochnicht gemacht haben) und die beiden Datensätze miteinander kombiniert:

### Datensätze einlesen und anzeigensinergia <- read.csv("sinergia.csv")# head(sinergia)

hintergrundvars <- read.csv("diss_hintergrundvars.csv")# head(hintergrundvars)

### Fehler korrigieren:### 'NA' ist R für 'not available'hintergrundvars$WST.Right[hintergrundvars$WST.Right == 0] <- NAhintergrundvars$English.Overall[hintergrundvars$English.Overall == -9999] <- NA

### Datensätze kombinieren und anzeigenzusammen <- merge(x = sinergia,

y = hintergrundvars,by = "Subject")

# head(zusammen)

In der letzten Übung interessierten wir uns für den Effekt von Raven.Right auf CorrectSpoken.Aber auch die Effekte der kontinuierlichen Variablen WST.Right, NrLang (Anzahl Fremdspra-chen), DS.Span (Arbeitsgedächtnisskapazität) und English.Overall (Englischtestergebnis) aufCorrectSpoken würden uns interessieren!7 Sollten wir daher fünf Regressionsanalysen ausfüh-ren und berichten? Nein – die fünf Prädiktoren können ins gleiche Regressionsmodell eingetragenwerden: mehrfache Regression.

Tipp: Anstatt die Zusammenhänge zwischen einer abhängigen Variable und mehreren unabhän-gigen Variablen (Prädiktoren) in separaten Analysen zu untersuchen, ist es in der Regel besser,die Variablen in einem Modell zu analysieren. Dies liefert eine bessere Schätzung der Effekte dereinzelnen Variablen.

Grafische Darstellung

Im Folgenden modellieren wir die Anzahl richtige Antworten anhand der Englisch- und derIQ-Ergebnisse. Auch hier lohnt es sich, die Daten zunächst grafisch darzustellen. Die linkeund mittlere Grafik stellen die bivariaten Zusammenhänge zwischen den zwei Prädiktoreneinerseits und der abhängigen Variable andererseits dar. In beiden Fällen handelt es sich umeinen positiven Zusammenhang, der mehr oder weniger linear ausschaut. Die rechte Grafikzeigt, dass die IQ- und die Englischergebnisse ebenfalls miteinander korrelieren. In keiner derdrei Grafiken scheint es massive Ausreisser zu geben.

par(mfrow = c(1, 3))plot(CorrectSpoken ~ Raven.Right, data = zusammen,

7Mit ‘Effekt auf’ ist hier nicht unbedingt ein kausaler Zusammenhang gemeint. Die Frage ist lediglich: Wie könnenUnterschiede in CorrectSpoken mithilfe der anderen Variablen beschrieben werden.

Page 92: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 85

xlab = "IQ-Testergebnis",ylab = "Anzahl richtig (gesprochen)")

plot(CorrectSpoken ~ English.Overall, data = zusammen,xlab = "Ergebnis Englischtest",ylab = "Anzahl richtig (gesprochen)")

plot(English.Overall ~ Raven.Right, data = zusammen,xlab = "IQ-Testergebnis",ylab = "Ergebnis Englischtest")

par(mfrow = c(1, 1))

0 5 15 25 35

5

10

15

20

25

IQ−Testergebnis

Anz

ahl r

icht

ig (

gesp

roch

en)

−4 −2 0 2

5

10

15

20

25

Ergebnis Englischtest

Anz

ahl r

icht

ig (

gesp

roch

en)

0 5 15 25 35

−4

−2

0

2

IQ−Testergebnis

Erg

ebni

s E

nglis

chte

stMit pairs() können alle bivariaten Zusammenhänge zwischen mehreren Variablen dargestelltwerden:

pairs(zusammen[ , c("CorrectSpoken","Raven.Right", "DS.Span","English.Overall", "WST.Right")],

col = "darkgrey")

Page 93: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 86

CorrectSpoken

0 15 30 −4 0 2

510152025

05

101520253035

Raven.Right

DS.Span

2345678

−4

−2

0

2

English.Overall

5 15 25 2 4 6 8 10 30

10

20

30

40

WST.Right

Wie Sie solche Streudiagrammmatrizen verbesseren können, erfahren Sie bei ?pairs unterExamples.

Regressionsmodell

Mit + in der lm()-Funktion können wir mehrere Prädiktoren ins Modell aufnehmen:

sinergia.lm <- lm(CorrectSpoken ~ Raven.Right + English.Overall,data = zusammen)

summary(sinergia.lm)

#### Call:## lm(formula = CorrectSpoken ~ Raven.Right + English.Overall, data = zusammen)#### Residuals:## Min 1Q Median 3Q Max## -10.623 -2.382 0.406 2.495 13.431#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 13.0549 0.8411 15.52 < 2e-16## Raven.Right 0.1919 0.0438 4.39 2.1e-05

Page 94: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 87

## English.Overall 1.3682 0.1865 7.34 1.1e-11#### Residual standard error: 4.07 on 157 degrees of freedom## (3 observations deleted due to missingness)## Multiple R-squared: 0.442,Adjusted R-squared: 0.435## F-statistic: 62.1 on 2 and 157 DF, p-value: <2e-16

Dieser Output ist jenem des einfachen Regressionmodells sehr ähnlich, nur wurden drei stattbloss zwei Parametern geschätzt. Die Interpretation der Parameter ist wie folgt:

• (Intercept): Eine Versuchsperson mit Raven.Right- und English.Overall-Werten von0 hätte, laut dem Modell, einen CorrectSpoken-Wert von 13.Solche Versuchspersonen dürfte es im Datensatz keine geben. Um das Intercept bedeu-tungsvoller zu machen, zentriert man daher oft die anderen Prädiktoren, d.h., man ziehtdas Mittel der Werte von den Werten ab und verwendet die neuen Werte als Prädiktoren.Das Intercept stellt nun den modellierten Wert für eine durchschnittliche Versuchspersondar, was meistens viel informativer ist.

zusammen$c.Raven.Right <- zusammen$Raven.Right - mean(zusammen$Raven.Right)zusammen$c.English.Overall <- zusammen$English.Overall - mean(zusammen$English.Overall)

• Raven.Right: Bleibt English.Overall unverändert, dann steigt der modellierte Correct-Spoken-Wert um 0.2 Punkte, wenn Raven.Right um einen Punkt steigt.

• English.Overall: Bleibt Raven.Right unverändert, dann steigt der modellierte Correct-Spoken-Wert um 1.4 Punkte, wenn English.Overall um einen Punkt steigt.

Vorsicht: Raven.Right und English.Overall wurden natürlich auf anderen, nicht miteinandervergleichbaren Skalen gemessen. Wir können also nicht schliessen, dass English.Overall 7 ×wichtiger als Raven.Right ist!

Vorsicht: Drei Beobachtungen wurden aufgrund fehlender Daten aus dem Modell ausgeschlos-sen (‘list-wise deletion’). Eine Diskussion über Strategien, um mit fehlenden Daten umzugehen,würde den Rahmen dieses Skripts sprengen, aber siehe Honaker et al. (2012). Bei dieser niedrigenAnzahl fehlender Daten sind solche Strategien wohl überflüssig.

Um dieses Modell grafisch darzustellen, können wir das effects-Package verwenden:

# ggf. zuerst installieren:# install.packages("effects")library(effects)plot(allEffects(sinergia.lm),

ylim = c(8, 22)) # sodass die Grafiken den gleichen Bereich haben

Page 95: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 88

Raven.Right effect plot

Raven.Right

Cor

rect

Spo

ken

8

10

12

14

16

18

20

22

0 5 10 15 20 25 30 35

English.Overall effect plot

English.Overall

Cor

rect

Spo

ken

8

10

12

14

16

18

20

22

−4 −3 −2 −1 0 1 2

Modelldiagnose

Man sollte noch kontrollieren, ob das Modell überhaupt ein gutes Modell ist. Ist ein linearesModell geeignet oder müssen wir bestimmte Zusammenhänge nicht-linear modellieren? Könnenwir das Modell verbessern, indem wir ihm zusätzliche Prädiktoren hinzufügen? Gibt es einzelneDatenpunkte, die die anderen Datenpunkte ‘überstimmen’ (z.B. Ausreisser)?

In Baayen (2008) finden Sie erste Ansätze, um diese Fragen zu beantworten und das Modell ggf.anzupassen.

6.3.2 Kategorielle Prädiktoren

Auch kategorielle Prädiktoren, z.B. FirstBlock und Sex, können dem Modell hinzugefügtwerden:

sinergia.lm2 <- lm(CorrectSpoken ~ Raven.Right + English.Overall +FirstBlock + Sex,

data = zusammen)summary(sinergia.lm2)

#### Call:## lm(formula = CorrectSpoken ~ Raven.Right + English.Overall +## FirstBlock + Sex, data = zusammen)#### Residuals:## Min 1Q Median 3Q Max## -11.11 -2.50 0.53 2.51 12.74#### Coefficients:## Estimate Std. Error t value Pr(>|t|)## (Intercept) 13.7242 0.9644 14.23 < 2e-16## Raven.Right 0.1840 0.0438 4.20 4.4e-05## English.Overall 1.3301 0.1881 7.07 4.9e-11## FirstBlockWritten 0.0348 0.6494 0.05 0.957## Sexmale -1.2297 0.6592 -1.87 0.064

Page 96: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 89

#### Residual standard error: 4.06 on 155 degrees of freedom## (3 observations deleted due to missingness)## Multiple R-squared: 0.454,Adjusted R-squared: 0.44## F-statistic: 32.2 on 4 and 155 DF, p-value: <2e-16

Die Variable FirstBlock hat zwei ‘levels’: Spoken und Written. Da Spoken im Alphabet vorWritten kommt, gilt es als ‘Nullwert’ und ist es im Intercept enthalten. FirstBlockWrittenzeigt, um wie viele Punkte der geschätzte CorrectSpoken-Wert erhöht werden muss, wenn daslevel für FirstBlock Written statt Spoken ist.

Die gleiche Logik gilt bei der Variable Sex, deren levels female und male sind. female gilt hierals Nullwert und ist im Intercept enthalten; der Parameter Sexmale zeigt, um wie viele PunkteCorrectSpoken-Wert ‘erhöht’ werden muss, wenn die Versuchsperson männlich ist.

Die Bedeutung des Intercepts dieses Modells ist also der vorhergesagte CorrectSpoken-Wertfür eine weibliche Versuchsperson, die zuerst den gesprochenen Teil der Aufgabe absolvierteund Raven.Right- und English.Overall-Werte von 0 hat.

Grafisch können wir dieses Modell so darstellen:

plot(allEffects(sinergia.lm2),ylim = c(8, 22))

Raven.Right effect plot

Raven.Right

Cor

rect

Spo

ken

8

10

12

14

16

18

20

22

0 5 10 15 20 25 30 35

English.Overall effect plot

English.Overall

Cor

rect

Spo

ken

8

10

12

14

16

18

20

22

−4 −3 −2 −1 0 1 2

FirstBlock effect plot

FirstBlock

Cor

rect

Spo

ken

8

10

12

14

16

18

20

22

Spoken Written

Sex effect plot

Sex

Cor

rect

Spo

ken

8

10

12

14

16

18

20

22

female male

Übrigens hat keiner der beiden kategoriellen Prädiktoren hier einen signifikanten Effekt. Insbe-

Page 97: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 90

sondere für die FirstBlock-Variable ist dies auch in der Grafik deutlich: Die Konfidenzintervalleüberlappen sich fast komplett.

6.3.3 Der Nutzen von mehrfacher Regression

Muttersprache und Alter. Der Datensatz readingSkills.csv (ursprunglich Teil des party-Packages) enthält (fiktive) Daten zu den Lesekenntnissen bei Kindern unterschiedlichenAlters. Lesen Sie diesen Datensatz in R ein und zeigen Sie ihn an. Wie Sie sehen können,enthält der Datensatz die Variablen nativeSpeaker (Wurde das Kind in seiner Mutterspra-che getestet?), age in Jahren, shoeSize in Zentimetern und score, das Ergebnis bei einemLesetest. Erledigen Sie mit diesem Datensatz die folgenden Aufgaben.

1. Stellen Sie den Zusammenhang zwischen score und der nominalskalierten VariablenativeSpeaker grafisch dar. Beschreiben Sie, was der Grafik entnommen werdenkann.

2. Führen Sie einen t-Test mit diesen Variablen aus (gehen Sie dabei davon aus, dass dieVarianzen in beiden Gruppen gleich sind) und berichten Sie diesen. Unterscheidensich die Leseverständnisergebnisse signifikant je nach Sprachgruppe?

3. Modellieren Sie jetzt dieselben Variablen in einem Regressionsmodell mit score alsabhängiger Variable.

# zum Beispiel:mod <- lm(score ~ nativeSpeaker, data = readingSkills)summary(mod)

Vergleichen Sie den t- und p-Wert des Koeffizients für nativeSpeakeryes mit demErgebnis des t-Tests. Was stellen Sie fest?

4. Stellen Sie jetzt den Zusammenhang zwischen score und der kontinuierlichen Variableage grafisch dar. Beschreiben Sie die Grafik.

5. Fügen Sie dem Regressionsmodell die Altersvariable hinzu.

# zum Beispielmod2 <- lm(score ~ nativeSpeaker + age, data = readingSkills)

Vergleichen Sie den Residual standard error dieses Modell mit jenem des vorigenModells. Wie hat er sich geändert? Schauen Sie sich jetzt die Parameterschätzung sowieauch den Standardfehler von nativeSpeakeryes an und vergleichen Sie beide Zahlenmit jenen des vorigen Modells. Wie hat sich unsere ‘Sicherheit’ über diesen Parametergeändert? Wie erklären Sie sich dies?

Merksatz: Der t-Test für unabhängige Stichproben mit gleichen Varianzen kann auch als einRegressionsmodell geschrieben werden. Die Darstellungsart ist eine andere, die Ergebnisse sindaber gleich.

Merksatz: Mehrfache Regression erlaubt uns, Variablen zu berücksichtigen, die uns vielleichtzwar nicht stark interessieren (in diesem Beispiel: age), die aber dennoch mit der abhängigenVariable zusammenhängen. Hierdurch wird der Restfehler kleiner, was wiederum die Standard-fehler der übrigen Parameter verkleinert und zu einer grösseren power führt. Auch wenn Ihnender Einfluss irgendeiner Variable nicht interessiert, kann es sich daher lohnen, diese Variabletrotzdem mitzuerheben, wenn sie den Restfehler eingreifend reduzieren kann – aber diesesPrinzip sollte man auch nicht übertreiben. (Siehe Vanhove 2015a, zu den Vorteilen von ‘ANCOVA’,

Page 98: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 91

was im Grunde genommen das Gleiche ist.)

Schuhgrösse und Alter Erledigen Sie diese Aufgaben, ebenfalls mit dem DatensatzreadingSkills.csv.

1. Stellen Sie den Zusammenhang zwischen score und der kontinuierlichen VariableshoeSize grafisch dar. Beschreiben Sie, was der Grafik entnommen werden kann.

2. Führen Sie eine Regressionsanalyse (mit score als abhängiger Variable) aus. Wieinterpretieren Sie die Ergebnisse dieser Regressionsanalyse?

3. Fügen Sie diesem Regressionsmodell jetzt die age-Variable hinzu. Wie ändert sich derParameter für shoeSize? Wie erklären Sie sich diese Veränderung? (Tipp: Stellen Sieauch einmal den Zusammenhang zwischen age und shoeSize grafisch dar.)

Merksatz: Mehrfache Regression erlaubt es (oft), ‘direktere’ ‘Effekte’ von ‘indirekteren’ zutrennen. shoeSize und score variieren zwar zusammen, aber der Zusammenhang mit shoeSizeist durch age bedingt: Ältere Kinder haben grössere Füsse und schneiden besser beim Lesetestab. Zugegebenermassen sind nicht alle Fälle so eindeutig wie dieser; siehe auch Controlling forconfounding variables in correlational research: Four caveats.

6.3.4 Vorbehalte und Weiterbildung

• Bei sowohl Korrelations- als auch Regressionsanalysen haben wir uns mit linearen Zusam-menhängen befasst. Sind die Zusammenhänge nicht linear, dann sind solche Analysennatürlich weniger sinnvoll. Details zum Modellieren nicht-linearer Zusammenhänge findenSie u.a. in Baayen (2008).

• Seien Sie vorsichtig mit Extrapolation: Wenn wir eine Stichprobe von Versuchspersonen zwi-schen 8 und 26 Jahren haben, ist es gefährlich, Aussagen über 5- oder 40-Jährige zu machen.Dies wird in der linken Abbildung illustriert: Eine Fähigkeit, die sich im Alter zwischen 10und 35 entwickelt, hat nicht unbedingt die gleiche Entwicklung ausserhalb dieses Bereichs.Eine Extrapolierung auf der Basis der Regressionsgerade ist hier irreführend. Auch beiIntrapolation ist Vorsicht geboten. Aus den Daten in der rechten Grafik könnte man zumBeispiel die Schlussfolgerung ziehen, dass sich Reaktionszeiten graduell verlängern imAlter. Auch diese Schlussfolgerung dürfte zu kurz greifen.

10 20 30 40 50 60 70 80

Gefahr bei Extrapolation

Alter (Jahre)

Fähi

gkei

t

extrapolierte Schätzungfür Fähigkeit

echte Entwicklungvon Fähigkeit

10 20 30 40 50 60 70 80

Gefahr bei Intrapolation

Alter (Jahre)

Rea

ktio

nsze

it

intrapolierte Schätzungfür Reaktionszeit

echte Entwicklungvon Reaktionszeit

• Wie immer ist es auch hier wichtig, dass die Datenpunkte unabhängig voneinander sind.Dieser Punkt wird von Abbildung 2 in Jaeger et al. (2011) illustriert.

Eine erste Ressource zur Weiterbildung ist Baayen (2008).

Page 99: Statistische Grundlagen

KAPITEL 6. ZUSAMMENHÄNGE ZWISCHEN KONTINUIERLICHEN VARIABLEN 92

6.3.5 Übungen

1. Schauen Sie sich das Modell in Abschnitt 6.3.2 an. Was ist der vom Modell vorhergesagteWerte für eine weibliche Versuchsperson mit einem IQ-Testergebnis von 22, einem Englisch-testergebnis von −0.3, die im ersten Block des Versuchs geschriebene Wörter übersetzenmusste?

2. Mit dem gleichen Datensatz: Stellen Sie den Zusammenhang zwischen CorrectSpokenund WST.Right (= Wortschatztestergebnis) grafisch dar. Beschreiben Sie den Zusammen-hang informell (also einfach in Worten, ohne irgendwelche Analysen auszuführen)?

3. Berechnen Sie ein mehrfaches Regressionsmodell für CorrectSpoken mit den PrädiktorenRaven.Right, English.Overall und WST.Right.8

(a) Vergleichen Sie die Koeffiziente dieses Modell mit denjenigen von Modell sinergia.lm(Seite 86). Wie eingreifend haben sich diese verändert? Erklären Sie, was das Interceptin beiden Fällen darstellt.

(b) Auf wie vielen Beobachtungen basiert dieses Modell?

(c) Stellen Sie dieses Modell mithilfe des effects-Packages grafisch dar.

(d) Zeigt CorrectSpoken einen signifikanten Zusammenhang mit WST.Right auf?

(e) Berechnen Sie jetzt ein einfaches Regressionmodell mit nur WST.Right als Prädiktor.Zeigt CorrectSpoken hier einen signifikanten Zusammenhang mit WST.Right auf?Wie erklären Sie sich dies?

8In meiner Diss habe ich diese Daten übrigens anders modelliert. Wie bereits mehrmals erwähnt, ist Regressionsana-lyse ein schwieriges Thema und will ich hier nur zeigen, worum es eigentlich geht.

Page 100: Statistische Grundlagen

Kapitel 7

Mehrere Gruppen vergleichen

Kapitel 5 besprach eine Methode, um die Mittel von zwei Stichproben miteinander zu vergleichen(t-Test), und in Kapitel 6 wurde gezeigt, dass dieser t-Test im Grunde genommen, wie auchlineare Regression, nur eine Erscheinungsform des ‘linearen Modells’ ist: Ob man die Mittel vonzwei Gruppen mit einem t-Test (für gleiche Varianzen) oder in einer linearen Regression (mit derGruppenvariable als kategorischem Prädiktor) analysiert, macht unter dem Strich nichts aus,denn das Ergebnis (der p-Wert) bleibt unverändert. In diesem Kapitel besprechen wir nun dieam meisten verwendete Methode, um die Mittel von mehr als zwei Stichproben miteinanderzu vergleichen oder um kompliziertere Experimente auszuwerten: Varianzanalyse oder ANOVA

(analysis of variance). Auch diese Methode lässt sich als eine Erscheinungsform des linearenModells verstehen: Vergleicht man die Mittel von zwei Gruppen in einer ANOVA statt mit demüblicheren t-Test, dann ändert sich am Ergebnis nichts – man macht die Sachen nur komplizierterals strikte nötig.

Es lassen sich drei Arten von ANOVA unterscheiden:

• Einfaktorielle Varianzanalyse: Statt zwei Gruppen hinsichtlich ihres Mittels zu verglei-chen (t-Test), vergleichen wir mehrere Gruppen miteinander.Beispiel: Die Frequenz des ersten Formantes des englischen KIT-Vokals (siehe Übung 1auf Seite 68) wird bei spanisch-, deutsch-, französisch- und finnischsprachigen Lernendengemessen.Frage: Unterscheidet sich mindestens ein (irgendein) Gruppenmittel von den anderen?

• Zwei- bzw. mehrfaktorielle Varianzanalyse: In zweifaktorieller ANOVA können die Ein-flüsse von zwei Variablen sowie auch ihr Zusammenspiel untersucht werden.Beispiel: Die Frequenz des ersten Formantes des englischen KIT-Vokals wird bei spanisch-,deutsch-, französisch- und finnischsprachigen Lernenden gemessen; jede Gruppe bestehtzur Hälfte aus Frauen und zur Hälfte aus Männern. Die Verteilung der Versuchspersonenkönnte dann so ausschauen:1

L1 Spanisch L1 Deutsch L1 Französisch L1 Finnisch

Frauen 10 10 10 10Männer 10 10 10 10

Mögliche Fragen: Unterscheidet sich die Formantfrequenz je nach Sprachgruppe? Unter-scheidet sich die Formantfrequenz je nach Geschlecht? Und ist der Effekt von Sprachgruppe

1Es ist nicht strikte nötig, dass alle Zellen gleich gross sind, aber es macht die Berechnungen schon einfacher. Mehrdazu in Abschnitt 7.2.7.

93

Page 101: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 94

unterschiedlich je nach Geschlecht?2

Diese letzte Frage betrifft die Interaktion von Sprachgruppe und Geschlecht. Da Sprach-gruppe vier ‘levels’ hat und Geschlecht zwei, spricht man auch von einer 4× 2-Interaktion.Bei mehrfaktorieller ANOVA werden mehr als zwei Variablen und ihre möglichen Interak-tionen berücksichtigt, die Logik ist aber die gleiche. Hier werden wir nur zweifaktorielleANOVA besprechen, da drei- und vierfache Interaktionen schnell unübersichtlich werdenund den Lern- und Lehraufwand zu sehr erhöhen würden.

• Varianzanalyse für wiederholte Messungen: In den obigen Beispielen hatten wir 80 Ler-nende, die alle mit einem Datenpunkt in der Analyse vertreten waren. Die Daten warensomit unabhängig voneinander. Da eine Versuchsperson (subject) entweder spanisch- oderdeutsch- oder französisch- oder finnischsprachig ist und entweder Mann oder Frau ist,sagen wir, dass Sprachgruppe und Geschlecht beide between-subjects-Variablen sind:Sie variieren zwischen und nicht innerhalb der Versuchspersonen. Oft stehen uns jedochmehrere Messungen pro Versuchsperson zur Verfügung und für solche Fälle kann sich eineVarianzanalyse für wiederholte Messungen anbieten.Beispiel: Wir messen die Frequenz des ersten Formants der englischen KIT-, FLEECE- undDRESS-Vokale bei spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden(20 Lernende pro Gruppe). Insgesamt haben wir also 240 Datenpunkte (80 Mal KIT, 80Mal FLEECE und 80 Mal DRESS). Nach wie vor variiert Sprachgruppe zwischen aber nichtinnerhalb von Versuchspersonen (between-subjects). Vokaltyp (KIT, FLEECE, DRESS) variiertjedoch innerhalb von Versuchspersonen (jede Versuchsperson liefert drei Datenpunkte)und ist somit eine within-subjects-Variable. Die Daten sind somit nicht länger unabhängigvoneinander.Wenn wir die Abhängigkeiten in den Daten explizit in der Analyse spezifizieren, könnenwir jedoch noch immer folgende Fragen beantworten: Variiert die Formantfrequenz zwi-schen den Sprachgruppen? Variiert die Formantfrequenz zwischen den Vokaltypen? Undist der Effekt von Sprachgruppe unterschiedlich je nach Vokaltyp?Varianzanalyse mit wiederholten Messungen ist eine fortgeschrittene Methode, deren Be-handlung uns in diesem Einführungskurs zu weit führen würde. In Kapitel 9 werden aberzusätzliche Ressourcen empfohlen, um Daten mit wiederholten Messungen zu analysieren.

Tipp: Für den Moment ist das Wichtigste für Sie, zu wissen, dass es überhaupt Methoden gibt,mit denen Daten mit wiederholten Messungen analysiert werden können. Über diese Methodenkönnen Sie sich dann noch schlau machen, wenn Sie Ihre Studie planen.

Dieses Kapitel ist darauf ausgerichtet, Ihnen die Logik und das Vokabular der Varianzanalysebeizubringen. Selbst musste ich noch nie Daten mittels Varianzanalyse auswerten, da ich bisherhauptsächlich mit binären abhängigen Variablen und umständlicheren Arten von Messwieder-holungen, für die sich andere Verfahren anbieten (Kapitel 9), gearbeitet habe. Dafür enthältjedes zweites Paper, das man liest, aber mehrere ANOVA-basierte Ergebnisse. In erster Liniescheint es daher am sinnvollsten, das (rezeptive) Verständnis über dieses analytische Verfahrenabzusichern, und die (produktive) Anwendung einem Folgekurs zu überlassen.

2Oder äquivalent: Ist der Effekt von Geschlecht unterschiedlich je nach Sprachgruppe?

Page 102: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 95

7.1 Einfaktorielle Varianzanalyse (one-way ANOVA)

7.1.1 Fragestellung und Daten

(Fiktives Beispiel) Die Frequenz des ersten Formantes des englischen KIT-Vokals wird bei männli-chen spanisch-, deutsch-, französisch- und finnischsprachigen Lernenden gemessen (20 Lernendepro Gruppe). Wir möchten wissen, ob diese Frequenz je nach Muttersprache variiert.

Diese fiktiven Daten finden Sie in der Datei Formanten_1.csv; die F1-Spalte enthält die For-mantmessungen in Hertz (eine kontinuierliche Variable).

dat <- read.csv("Formanten_1.csv")summary(dat)

## F1 Sprachgruppe## Min. :165 Deutsch :20## 1st Qu.:304 Finnisch :20## Median :339 Französisch:20## Mean :334 Spanisch :20## 3rd Qu.:367## Max. :465

7.1.2 Grafische Darstellungen

Wie immer lohnt es sich auch hier die Daten grafisch darzustellen, und zwar sowohl beimBerichten der Ergebnisse als auch bei der Analyse.

Boxplots, violin plots und einzelne Datenpunkte

Mit dem folgenden Kode können Boxplots der Messungen für jede Sprachgruppe erzeugt werden.Ich halte es ausserdem für sinnvoll, dieser Grafik auch die einzelnen Datenpunkte hinzuzufügen,sodass man schnell einschätzen kann, wie viele Datenpunkte den Boxplots zu Grunde liegenund wie sie ungefähr verteilt sind. (Vgl. Übung 5 auf Seite 21 für ein Beispiel eines täuschendenBoxplots ohne einzelne Datenpunkte.) Aus diesem Plot wird klar, dass französischsprachigeLernende im Schnitt niedrigere F1-Frequenzen als die drei andere Gruppen haben. (Dies deutetdarauf hin, dass sie diesen Vokal ‘geschlossener’ aussprechen, also mit der Zungenspitze höherim Mund.) Es gibt jedoch eine erhebliche Überlappung zwischen den vier Gruppen.

par(las = 2) # siehe ?par -> lasboxplot(F1 ~ Sprachgruppe, data = dat,

xlab = "",ylab = "Frequenz F1 (Hz)",ylim = c(150, 500),outline = FALSE) # damit Ausreisser nicht 2x angezeigt werden;

# Unbedingt auf 'TRUE' stellen,# wenn der Grafik die einzelnen Datenpunkte# nicht hinzugefügt werden!

stripchart(F1 ~ Sprachgruppe, data = dat,method = "jitter", # Punkte nicht übereinander plottenvertical = TRUE, # senk- statt waagerechtpch = 1, cex = 1.1, # Form und Grösse der Punkteadd = TRUE) # dem Boxplot hinzufügen

Page 103: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 96

Deu

tsch

Fin

nisc

h

Fra

nzös

isch

Spa

nisc

h

150

200

250

300

350

400

450

500

Fre

quen

z F

1 (H

z)

Eine Alternative bietet das ggplot2-Package, das Sie mit dem install.packages("ggplot2")-Befehl installieren können. Mit dem folgende Kode können Sie die obige Grafik in ggplot2zeichnen:

library(ggplot2)ggplot(data = dat, # Daten aus 'dat' verwenden

aes(x = Sprachgruppe, y = F1)) + # Sprgrp auf x-, F1 auf y-Achsegeom_boxplot(outlier.shape = NA) + # Boxplot zeichnen; Ausreisser nichtgeom_jitter(w = 0.3, # Punkte leicht horizontal auseinander plotten

h = 0, # aber nicht vertikalpch = 1) # anderes Symbol verwenden

200

300

400

Deutsch Finnisch Französisch SpanischSprachgruppe

F1

Eine verwandte Darstellungsart ist das violin plot:

library(ggplot2)ggplot(data = dat,

aes(x = Sprachgruppe, y = F1)) +geom_violin() + # geom_boxplot durch geom_violin ersetzengeom_jitter(w = 0.3, h = 0, pch = 1)

Page 104: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 97

200

300

400

Deutsch Finnisch Französisch SpanischSprachgruppe

F1

Mehr Informationen zur Verwendung des ggplot2-Package finden Sie in Wickham (2009) (siehegithub.com/hadley/ggplot2-book) oder unter ggplot2.org oder learnr.wordpress.com/category/-lattice-book/.

Tipp: Versuchen Sie, wenn immer möglich, auch die einzelnen Datenpunkte – und nicht nur dieGruppenmittelwerte – darzustellen. Bei sowohl den obigen Boxplots als auch den Dichtenkurvenerhalten Analisten und Leserschaft Informationen über die zentrale Tendenzen, die Streuungenund über die deren zu Grunde liegenden Verteilungen und den Grad der Überlappung. Sokönnen sich Lesende ein realistisches Bild Ihrer Daten machen.3

7.1.3 Mittel und Standardabweichungen berechnen

Das dplyr-Package erleichtert das Berechnen von Gruppenmitteln, -standardabweichungen etc.

library(dplyr)summary_dat <- summarise(group_by(dat, Sprachgruppe), # dat nach Sprachgruppe aufspalten

Mittel = mean(F1), # Mittel berechnenStdAbw = sd(F1), # StandardabweichungMedian = median(F1), # MedianAnzahl = n()) # Anzahl Datenpunkte

summary_dat # Zusammenfassung zeigen

## Source: local data frame [4 x 5]#### Sprachgruppe Mittel StdAbw Median Anzahl## (fctr) (dbl) (dbl) (dbl) (int)## 1 Deutsch 350.30 48.757 355.5 20## 2 Finnisch 360.40 45.850 361.0 20## 3 Französisch 299.05 67.771 300.5 20## 4 Spanisch 327.95 38.730 335.0 20

3Vergleichen Sie dies mit einer anderen beliebten aber selten geeigneten Darstellungsart, dem Säulendiagramm:

Dt. Fin. Fr. Sp.

Gru

ppen

mitt

el

050

100150200250300350

Ein Mittel von etwa 340 kann zahllosen Datenverteilungen entsprechen: 20 Versuchspersonen um die 340; 12 Versuchs-personen bei 400 und 8 bei 250; 19 Versuchspersonen bei 316 und 1 bei 800; usw. Das Säulendiagramm macht zwar einen‘sauberen’, deutlichen Eindruck, aber dieser täuscht oft.

Page 105: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 98

7.1.4 Signifikanztest

Mehrere t-Tests?

Unsere Forschungsfrage lautet: Unterscheiden sich die Mittel der vier Sprachgruppen voneinan-der? Die Nullhypothese bei diesem Vergleich von vier Mitteln lässt sich so beschreiben:

H0 : µDeutsch = µFinnisch = µFranzösisch = µSpanisch

Das heisst: Alle Mittel sind eigentlich (also auf der Ebene der Populationen) gleich.

Die Alternativhypothese schaut dann so aus:

HA : µDeutsch 6= µFinnisch 6= µFranzösisch 6= µSpanisch

Das heisst: Mindestens ein Mittel ist (auf der Ebene der Populationen) unterschiedlich. AufStichprobenebene sind die Mittel natürlich immer zumindest etwas unterschiedlich, aber dieseUnterschiede dürften zufallsbedingt sein.

Es liegt jetzt auf der Hand, um H0 mittels einer Reihe von t-Tests zu überprüfen: Wir testen,ob µDeutsch = µFinnisch, ob µDeutsch = µFranzösisch, ob µDeutsch = µSpanisch, ob µFinnisch = µFranzösisch,ob µFinnisch = µSpanisch, und ob µFranzösisch = µSpanisch und verwenden dazu sechs t-Tests. Wennmindestens ein t-Test auf einen signifikanten Unterschied hindeutet, würden wir schliessen,dass nicht alle vier Populationen das gleiche Mittel haben, und würden wir die Nullhypotheseablehnen.

Diese Methode ist natürlich etwas umständlich: Bei vier Gruppen gibt es 4×(4−1)2 = 6 Vergleiche,

bei zehn wären es schon 10×(10−1)2 = 45. Ausserdem gibt es mit diesem Ansatz ein weiteres

Problem: Wenn H0 stimmt, dann gehen wir bei jedem einzelnen t-Test ein Risiko von 5% ein,dass wir H0 fälschlicherweise ablehnen (Typ-I-Fehler). Wenn wir sechs t-Tests berechnen, dannerhöht sich die Wahrscheinlichkeit, dass wir irgendeinen zufälligen Unterschied. Dieses multiplecomparisons-Problem wird schlimmer, je mehr Tests wir berechnen. Eine mögliche Lösungbesteht darin, die Mittel der vier Gruppen mittels Varianzanalyse in einem Modell miteinander zuvergleichen.

Vorsicht: Die Nullhypothese ist hier, dass sich irgendwelche Gruppenmittel voneinander un-terscheiden: Wir hatten vor der Datenerhebung nicht spezifiziert, dass wir uns nur für einenbestimmten Unterschied interessieren (etwa den Unterschied zwischen Deutsch- und Franzö-sischsprachigen). Wäre dies der Fall gewesen, dann hätten wir natürlich nur einen einzigen t-Testausführen können, während wir die anderen Gruppen ignoriert hätten, ohne dass wir dabeidas Risiko des erhöhten Typ-I-Fehlers in Kauf nehmen müssten. (Aber wieso hätten wir dannDaten bei Finnisch- und Spanischsprachigen erhoben?) Wichtig ist, dass solche Entscheidungengenommen werden, bevor man sich die Daten anschaut. Wenn man sich die Daten schon angeschauthat, kann man sich selbst oft davon überzeugen, dass man ohnehin nur die Unterschiede testenwollte, die interessant scheinen – im Nachhinein ist man immer klüger. Dies erhöht jedochebenfalls den Typ-I-Fehler. Interessante Artikel zu diesem m.E. weit verbreiteten Problem sindKerr (1998), Simmons et al. (2011) und Gelman & Loken (2013).

Streuung aufteilen

Bei Varianzanalyse wird versucht, die Streuung in den Daten in einen systematischen Teil(Gruppenunterschiede) und in einen Restfehler (Streuung innerhalb der Gruppen, die fürunsere Zwecke uninteressant ist) aufzuteilen.

Page 106: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 99

Streuung = Gruppenunterschiede + Restfehler (7.1)

Dazu berechnen wir zuerst die Gesamtsumme der Quadrate (siehe Seite 10), also die Summe derquadrierten Unterschiede zwischen den Daten und ihrem Gesamtmittel:

SS.total <- sum((dat$F1 - mean(dat$F1))^2)SS.total

## [1] 245278

Welchen Anteil dieser Summe der Quadrate können wir nun mit der Variable Sprachgruppeerklären (= systematischer Teil) und welcher Anteil bleibt noch unerklärt (= Restfehler)? Eineähnliche Frage haben wir uns schon einmal gestellt, und zwar im Kapitel zu Regressionsanalysen.Tatsächlich sind sowohl ANOVA als auch lineare Regression Erscheinungsformen des gleichenmathematischen Vorgehens, des linearen Modells. Im nächsten Schritt berechnen wir ein linearesModell, mit dem der Effekt von F1 auf Sprachgruppe ‘weggerechnet’ wird:

formant.mod <- lm(F1 ~ Sprachgruppe, data = dat)formant.mod

#### Call:## lm(formula = F1 ~ Sprachgruppe, data = dat)#### Coefficients:## (Intercept) SprachgruppeFinnisch## 350.3 10.1## SprachgruppeFranzösisch SprachgruppeSpanisch## -51.2 -22.3

Vergleichen Sie die Koeffiziente mit den Gruppenmitteln, die oben mit der summarise()-Funktion berechnet wurden.

Von der Gesamtsumme von 245’278 Quadraten bleiben noch 200’877 Quadrate ‘unerklärt’; diessind die Quadrate der Residuen des obigen Modelle. Eine äquivalente Art und Weise, diese Zahlzu berechnen, besteht darin, die Unterschiede zwischen den Datenpunkten und ihrem jeweiligenGruppenmittel zu berechnen, diese zu quadrieren und beieinander aufzuzählen.

SS.rest <- sum(resid(formant.mod)^2)SS.rest

## [1] 200877

Sprachgruppe kann also 44’401 Quadrate ‘erklären’:

SS.Gruppe <- SS.total - SS.restSS.Gruppe

## [1] 44401

Um diese 44’401 Quadrate zu erklären, brauchten wir drei Parameter zusätzlich zum Interceptdes Modells (siehe oben bei formant.mod). Zwar untersuchen wir in diesem Modell also nur denEffekt einer Variable, aber dafür brauchen wir in diesem Fall drei Parameter (= Freiheitsgrade),da diese nominale Variable vier ‘levels’ hat. Im Schnitt erbringt uns jeder Freiheitsgrad also14’800 Quadrate. Dies ist die mean sum of squares.

Page 107: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 100

meanSq.Gruppe <- SS.Gruppe / 3meanSq.Gruppe

## [1] 14800

Damit sich die Investition von diesen drei Freiheitsgraden lohnt, müssten diese beiden imSchnitt mehr Streuung erklären können als die restlichen 76 im Schnitt (80 Datenpunkte − 3Freiheitsgrade für Sprachgruppe − 1 Freiheitsgrad fürs Intercept). Die mean sum of squares fürdie unerklärten Quadrate ist etwa 2’643:

meanSq.rest <- SS.rest / (80 - 3 - 1)meanSq.rest

## [1] 2643.1

F-Test

Das Ratio von Gruppe.meanSq und rest.meanSq bezeichnet man als F. Wenn die Nullhypothesestimmt, dann wird F nahe bei 1 liegen: Die drei Freiheitsgrade erbringen im Schnitt nicht mehrals die 76 anderen. Stimmt die Nullhypothese jedoch nicht, dann wird F > 1 gelten.

F.Gruppe <- meanSq.Gruppe / meanSq.restF.Gruppe

## [1] 5.5995

5.6 ist natürlich grösser als 1, aber auch wenn die Nullhypothese stimmt, wird F nur selten genaugleich 1 sein. Aufgrund des Zufallsfaktors wird Fmal grösser und mal kleiner sein. Wenn dieNullhypothese stimmt, schaut die Verteilung von F bei 3 Freiheitsgraden im systematischen Teilund 76 Freiheitsgraden für den Restfehler (F(3, 76)-Verteilung) so aus:

curve(df(x, 3, 76), from = 0, to = 10,xlab = "F-Wert",ylab = "d(F)",main = "Verteilung der F-Werte unter\nder Nullhypothese bei 3 und 76 d.f.")

abline(v = F.Gruppe, lty = 2)

0 2 4 6 8 10

0.0

0.2

0.4

0.6

Verteilung der F−Werte unterder Nullhypothese bei 3 und 76 d.f.

F−Wert

d(F

)

Wenn die Nullhypothese stimmt, ist es also ziemlich unwahrscheinlich, hier einen F-Wert von5.6 oder grösser anzutreffen. Mit der pf()-Funktion lässt sich die genaue Wahrscheinlichkeitberechnen (die Fläche unter der Kurve oberhalb von F = 5.6):

1 - pf(F.Gruppe, 3, 76)

## [1] 0.0015963

Page 108: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 101

Sprich etwa 0.2%, also weit unten der traditionelle 5%-Schwelle. Die ANOVA zeigt also, dassSprachgruppe einen signifikanten Effekt auf F1 hat: Je nach Sprachgruppe sind die F1-Mittelanders.

Direkt in R

Sie brauchen all diese Zwischenschritte natürlich nicht auszuführen. Kürzer geht es mit folgen-dem Kode, mit dem Sie ein lineares Modell mit Sprachgruppe als Prädiktor aufstellen (ähnlichwie bei linearer Regression) und dann mit der anova()-Funktion die Varianzen aufteilen undden F-Test ausführen:

modell <- lm(F1 ~ Sprachgruppe, data = dat)anova(modell)

## Analysis of Variance Table#### Response: F1## Df Sum Sq Mean Sq F value Pr(>F)## Sprachgruppe 3 44401 14800 5.6 0.0016## Residuals 76 200877 2643

Mit der aov()-Funktion kann man diese Tabelle auch erzeugen:

summary(aov(F1 ~ Sprachgruppe, data = dat))

## Df Sum Sq Mean Sq F value Pr(>F)## Sprachgruppe 3 44401 14800 5.6 0.0016## Residuals 76 200877 2643

Ziel der manuellen Berechnung war es, zu zeigen, dass die Zahlen in dieser Tabelle irgendwo her-kommen. Daher mag ich die lm()- + anova()-Kombination auch besser als die aov()-Funktion,denn Erstere hebt den Zusammenhang zwischen dem linearen Modell und Varianzanalyse besserhervor.

7.1.5 Schlussfolgerung und Bericht

Im Bericht sollte man zumindest die Grössen, Mittel und Standardabweichungen der unter-schiedlichen Gruppen erwähnen, sei dies im Fliesstext oder in einer Tabelle. Eine Grafik, diedie zentralen Tendenzen und im Idealfall auch die Streuung und die einzelnen Datenpunktein jeder Gruppe aufzeigt, wäre auch sehr nützlich. Die Ergebnisse der ANOVA können dannfolgendermassen berichtet werden: “Die F1-Frequenzen unterscheiden sich signifikant zwischenden Sprachgruppen (F(3, 76) = 5.6, p = 0.002).”

Ab und zu sieht man, dass die ganze ANOVA-Tabelle berichtet wird, aber in der Regel berichtetman eben nur den F-Test.

Vorsicht: Zwischen den Klammern nach dem Fwerden zwei Zahlen aufgeführt (i.d.R. mit einerLeerstelle dazwischen): die Freiheitsgrade des Gruppenfaktors und die restlichen Freiheitsgrade.Es handelt sich also nicht um eine Dezimalzahl.

Page 109: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 102

7.1.6 Annahmen

Einfaktorielle Varianzanalyse lässt sich als eine Erweiterung des t-Tests verstehen und dahergelten hier die gleichen Annahmen wie auch beim t-Test (siehe Seite 60):

• Die Datenpunkte sollten unabhängig voneinander sein. Wenn wir im obigen Beispiel fürjede Versuchsperson statt einer Messung etwa 10 Formantmessungen für KIT gehabt hätten,hätten wir diese 800 Messungen nicht direkt in die Analyse eintragen können (siehe Übung5 auf Seite 63). Stattdessen müssten wir das Mittel oder den Median pro Versuchspersonberechnen und diese 80 Mittelwerte analysieren.

Tipp: Der Mehraufwand, 10 statt nur einer Messung pro Versuchsperson zu machen,lohnt sich trotzdem: Die Mittelwerte von jeweils 10 Messungen werden einen kleinerenMessfehler als die einzelnen Messungen haben. Dies senkt die Varianz der analysiertenDatenpunkte und erhöht somit die power der Studie.

• Die Varianz in den unterschiedlichen Gruppen sollte ungefähr gleich sein. Hier hilftnatürlich eine grafische Darstellung. In diesem Beispiel scheint die Varianz in der franzö-sischsprachigen Gruppe zwar grösser zu sein als jene in der spanischsprachigen Gruppe,aber dieser Unterschied ist eigentlich noch eher minimal.Die folgende Grafik zeigt ein Beispiel von einer ausgeprägteren Ungleichheit der Varianzen:Auf dem ersten Blick wird klar, dass die Streuung in Gruppe 3 wesentlich kleiner ist als inGruppen 1 und 2.

Gruppe 1 Gruppe 2 Gruppe 3

ungleiche Varianzen

Ungleichheit der Varianzen (oder Heteroskedastizität) ist – nach meinen Erfahrungen – in denDaten, mit denen wir meisten umgehen, selten ein alleinstehendes Problem. Zum Beispielkann eine ausgeprägte Ungleichheit der Varianzen durch Decken- (links) oder Bodeneffekte(rechts) entstehen. In solchen Fällen ist der F-Test aufgrund der Heteroskedastizität zwarvielleicht nicht zuverlässig; andererseits scheint er auch überflüssig zu sein, denn dass esUnterschiede gibt, ist glasklar.

Page 110: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 103

Gruppe 1 Gruppe 2 Gruppe 3

Heteroskedastizität wegen Deckeneffekten

Gruppe 1 Gruppe 2 Gruppe 3

Heteroskedastizität wegen Bodeneffekten

Manchmal kann eine gelungene Datentransformation, z.B. das Umformulieren von Re-aktionszeiten als Geschwindigkeiten (siehe Übung 1 auf Seite 77), die Varianzen gleichermachen.

Tipp: Wenn die Varianzunterschiede in den unterschiedlichen Gruppen nicht grafischglasklar sind, ist es unwahrscheinlich, dass die Ungleichheit der Varianzen ein Problemdarstellt. Wenn die Ungleichheit der Varianzen sehr ausgeprägt ist und nicht durch Decken-oder Bodeneffekte erklärt wird, dürfte dies unter Umständen der interessantere BefundIhrer Untersuchung sein. In diesem Fall dürfte ein Vergleich der Gruppenmittel mithilfevon ANOVA unnötig sein.

• Strikte genommen sollten die Daten in jeder Gruppe aus einer Normalverteilung stammen,denn sonst ist F unter Annahme der Nullhypothese nicht nachweisbar F-verteilt. Fürgrössere Stichproben ist dies allerdings unproblematisch. Wichtig ist jedoch, dass auch hierdie Mittel miteinander verglichen werden. Wenn die Daten nicht annähernd normalverteiltsind, besteht also das Risiko, dass das Mittel kein guter Indikator der zentralen Tendenzist.

7.1.7 Exkurs: Geplante Vergleiche und Post-hoc-Tests

Mit einfaktorieller ANOVA versuchen wir die folgende Frage zu beantworten: Unterscheiden sichdie Gruppenmittel (irgendwelche Gruppenmittel) voneinander? In diesem Beispiel vermuten wiraufgrund des kleinen p-Wertes, dass dies tatsächlich der Fall ist – dabei natürlich das Risiko aufeinen Typ-I-Fehler in Kauf nehmend. Die Varianzanalyse bietet jedoch keine Antwort auf dienaheliegende Folgefrage: Welche Gruppen unterscheiden sich eigentlich genau voneinander?Der Einfachkeit halber werden hier die Daten nochmals dargestellt.

Deutsch

Finnisch

Französisch

Spanisch

200 250 300 350 400 450

Frequenz F1 (Hz)

Page 111: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 104

Die durchschnittliche Formantfrequenz der Französischsprachigen liegt zwar niedriger als beiden Spanischsprachigen, aber ist sie auch ‘signifikant niedriger’? Und gibt es Unterschied zwi-schen den Spanischsprachigen einerseits und den Deutsch- und Finnischsprachigen andererseits?

Solche Fragen liegen zwar auf der Hand, sie führen aber leider rasch zu Kompliziertheiten.Forschende bedienen sich für derartige Fragen oft nachfolgender Signifikanztests. Wenn dieseFragen sich erst nach der Datenerhebung ergeben und eben nicht im Vorhinein aus der Theo-rie abgeleitet wurden (exploratorische Analyse), spricht man von Post-hoc-Tests. Wenn dieseschon vor der Untersuchung vorlagen (konfirmatorische Analyse), spricht man von geplantenVergleichen.

Häufig verwendete Verfahren für solche nachfolgende Tests tragen Namen wie ‘t-Tests mitBonferroni-Korrektur’, ‘t-Tests mit Holm–Bonferroni-Korrektur’, ‘Fishers LSD-Test’ (least signifi-cant difference), ‘Scheffé-Test’ usw. Die Idee ist, dass das aufgrund der mehrfachen Tests gestiegeneglobale Risiko, einen Typ-I-Fehler zu begehen (familywise error rate), kontrolliert werden muss(multiple comparisons adjustments). Insbesondere das Bonferroni-Verfahren wird jedoch oft dafürkritisiert, dass es zu einem erheblichen Verlust der statistischen power führen (Nakawaga 2004;Perneger 1998).

Zusätzliche Tests sind jedoch nicht immer nötig oder zu empfehlen. Entscheidend ist die Theorieund die Hypothesen, die der Studie zu Grunde lagen, und welche Datenmuster man als Belegefür diese Theorie und Hypothesen betrachtet:

• Sagt die Theorie voraus, dass es irgendwelche Gruppenunterschiede (egal welche) gebenwird, dann reicht eine ANOVA aus, und berichtet man eventuelle interessante Gruppenun-terschiede deskriptiv (d.h. ohne Inferenzstatistik). Diese möglichen Unterschiede überlässtman dann einer neuen, konfirmatorischen Studie (siehe Bender & Lange 2001, S. 344). Fallsdie ANOVA keine Signifikanz ergibt, sollte man in diesem Fall auch auf zusätzliche Testsverzichten.

• Sagt die Theorie jedoch einen spezifischen Gruppenunterschied voraus, oder werdenmehrere separate Theorien überprüft, die sich auf unterschiedliche Gruppenmittel beziehen(z.B. A vs. B und C vs. D), dann braucht man eigentlich die ANOVA nicht auszuführenund reichen t-Tests. Allfällige interessante aber nicht vorhergesagte Gruppenunterschiedewerden deskriptiv (nicht inferenzstatistisch) berichtet und man überlasst sie wiederumeiner neuen, konfirmatorischen Studie.

• Sagt die Theorie voraus, dass sich ein bestimmter Unterschied oder ein bestimmter andererUnterschied zeigen wird, dann sollte man sich über die oben angesprochenen Methodenschlau machen. Dies gilt auch wenn die Theorie komplexere Gruppenunterschiede vor-hersagt, etwa ‘Das Gesamtmittel von Gruppen A und B ist niedriger als das Gesamtmittelvon Gruppen B, C und D’. Zu diesen Verfahren kann ich Ihnen leider keine detailliertenRatschläge machen, da ich sie selber noch nie eingesetzt habe.

• Sagt die Theorie voraus, dass sich ein bestimmter Unterschied und ein bestimmter andererUnterschied zeigen wird, dann reichen m.E. wiederum zwei t-Tests. Man kann in diesemFall einen signifikanten und einen nicht-signifikanten Unterschied natürlich nicht alsEvidenz für die Theorie betrachten: Vorhergesagt wurden ja zwei Unterschiede.

Eine kurze Einführung mit vielen Referenzen ist Bender & Lange (2001); Ruxton & Beauchamp(2008) geben konkrete Ratschläge, denen jedoch wohl schwierig zu folgen ist, wenn man nochkeine konkrete Erfahrung mit derartigen Analysen hat. Ein Blogpost zum Thema ist On correctingfor multiple comparisons: Five scenarios.

Tipp: Aus meiner Sicht sind Post-Hoc- und geplante Vergleiche ein Problem, worüber man sicherst Sorgen machen sollte, wenn es sich anbietet. Mit spezifischeren, aus der Theorie hergeleiteten

Page 112: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 105

a priori Hypothesen ist das multiple comparisons-Problem ohnehin viel weniger schwerwiegendals bei vagen oder ad oder post hoc Hypothesen.

Merksatz: Seien Sie vorsichtig und sparsam mit Post-Hoc-Erklärungen. Im Nachhinein gelingtes einem oft, gewisse Muster in den Daten theoretisch zu deuten. Dabei ist es durchaus möglich,dass diese Muster rein zufallsbedingt sind und sich bei einer neuen Studie nicht mehr ergeben.

7.1.8 Aufgaben

1. (a) Lesen Sie den Datensatz Alkohol_Sprechgeschwindigkeit.csv in R ein. VergleichenSie nochmals die Sprechgeschwindigkeit der Kontroll- und Experimentalgruppe mit-einander mithilfe eines t-Tests für gleiche Varianzen (Option var.equal = TRUE).Notieren Sie sich den t-Wert, seine Anzahl Freiheitsgrade und den p-Wert.

(b) Vergleichen Sie jetzt die Sprechgeschwindigkeit der beiden Gruppen mit einer einfakto-riellen ANOVA. Notieren Sie sich den F-Wert, die beiden Freiheitsgrade und den p-Wert.Was stellen Sie fest?

(c) Zusätzliche Aufgabe für ein mögliches Aha-Erlebnis: Quadrieren Sie den t-Wert undvergleichen Sie das Ergebnis mit dem F-Wert.

(d) Macht es für die Schlussfolgerungen etwas aus, ob man den Vergleich zweier Gruppenin einem t-Test oder in einer einfaktoriellen ANOVA vornimmt? Macht es für dieLeserfreundlichkeit der berichteten Ergebnisse etwas aus?

7.2 Zweifaktorielle Varianzanalyse (two-way ANOVA)ohne Interaktionen

7.2.1 Daten und Fragestellung

(Fiktives Beispiel) Die F1-Frequenz des englischen KIT-Vokals wird diesmal bei sowohl männli-chen als auch weiblichen Spanisch-, Deutsch-, Französisch- und Finnischsprachigen gemessen(jeweil 10 Frauen und 10 Männer pro Sprachgruppe). Wir interessieren uns sowohl für Unter-schiede zwischen den Sprachgruppen als auch für Unterschiede zwischen den Geschlechten.Für den Moment lassen wir allfällige Zusammenspiele zwischen diesen beiden Variablen ausserBetracht.

Diese fiktiven Daten finden Sie im Datensatz Formanten_2.csv. Mit der xtabs()-Funktionkönnen wir die Anzahl Versuchspersonen pro Zelle nachschlagen. In diesem Fall handelt es sichum ein balanziertes Design: Jede Zelle enthält die gleiche Anzahl Datenpunkte.

dat2 <- read.csv("Formanten_2.csv")summary(dat2)

## F1 Sprachgruppe Geschlecht## Min. :194 Deutsch :20 Frau:40## 1st Qu.:329 Finnisch :20 Mann:40## Median :360 Französisch:20## Mean :357 Spanisch :20## 3rd Qu.:388## Max. :479

Page 113: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 106

# Anzahl Beobachtungen pro 'Zelle'xtabs(~ Geschlecht + Sprachgruppe, dat2)

## Sprachgruppe## Geschlecht Deutsch Finnisch Französisch Spanisch## Frau 10 10 10 10## Mann 10 10 10 10

7.2.2 Grafische Darstellung

Wie bei einfaktorieller ANOVA können wir Boxplots mit den einzelnen Datenpunkten hinzu-gefügt zeichnen: mal mit den Daten aufgespaltet nach Sprachgruppe und mal mit den Datenaufgespaltet nach Geschlecht. Es ist jedoch manchmal nützlich, die Datenpunkte gleichzeitignach beiden Variablen aufzuspalten.

Die erste Grafik scheint insbesondere geeignet, wenn wir die Geschlechtsunterschiede betonenmöchten:

library(ggplot2)ggplot(dat2,

aes(x = Geschlecht, y = F1)) +geom_boxplot(outlier.shape = NA) +geom_jitter(h = 0, w = 0.3, pch = 1) +facet_wrap(~ Sprachgruppe, ncol = 4)

Deutsch Finnisch Französisch Spanisch

200

300

400

Frau Mann Frau Mann Frau Mann Frau MannGeschlecht

F1

Die zweite Grafik betont eher die Unterschiede zwischen den Sprachgruppen.

ggplot(dat2,aes(x = Sprachgruppe, y = F1)) +

geom_boxplot(outlier.shape = NA) +geom_jitter(h = 0, w = 0.3, pch = 1) +facet_wrap(~ Geschlecht)

Frau Mann

200

300

400

Deutsch Finnisch Französisch Spanisch Deutsch Finnisch Französisch SpanischSprachgruppe

F1

Page 114: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 107

Für zusätzliche Darstellungsmöglichkeiten, siehe Sarkar (2008), Wickham (2009) und Cleveland(1993).

Tipp: Wenn man aber bereit ist, mehr Zeit und Aufwand in die Herstellung von Grafiken zuinvestieren, sind die Möglichkeiten, die R bietet, nahezu unbegrenzt.

7.2.3 Mittelwerte und Standardabweichungen berechnen

Mit der summarise()-Funktion aus dem dplyr-Package können auch die Mittel und Standard-abweichungen pro Zelle berechnet werden.

summary_dat2 <- summarise(group_by(dat2, Geschlecht, Sprachgruppe),Mittel = mean(F1),Stdabw = sd(F1),Anzahl = n())

summary_dat2

## Source: local data frame [8 x 5]## Groups: Geschlecht [?]#### Geschlecht Sprachgruppe Mittel Stdabw Anzahl## (fctr) (fctr) (dbl) (dbl) (int)## 1 Frau Deutsch 405.9 42.041 10## 2 Frau Finnisch 405.1 45.101 10## 3 Frau Französisch 327.1 43.768 10## 4 Frau Spanisch 366.2 31.435 10## 5 Mann Deutsch 346.0 47.105 10## 6 Mann Finnisch 343.5 46.150 10## 7 Mann Französisch 332.0 45.700 10## 8 Mann Spanisch 330.3 70.304 10

7.2.4 Berechnung

Wenn wir die Varianzanalyse von Hand ausführen würden, würden wir ähnlich wie bei dereinfaktoriellen ANOVA vorgehen:

1. die Gesamtsumme der Quadrate berechnen;

2. den Effekt der ersten Variable (z.B. Geschlecht) rausrechnen und berechnen, welchenAnteil der Summe der Quadrate diese Variable erklären kann;

3. den Effekt der zweiten Variable rausrechnen und berechnen, welchen Anteil der Summeder Quadrate diese Variable erklären kann;

4. die restliche Summe der Quadrate berechnen;

5. F-Ratios für die beiden Variablen berechnen und deren Signifikanz überprüfen.

Diese Schritte können wir einfach in R ausführen, indem wir dem linearen Modell (lm(...))eine zweite Variable hinzufügen:

anova(lm(F1 ~ Geschlecht + Sprachgruppe, dat2))

## Analysis of Variance Table##

Page 115: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 108

## Response: F1## Df Sum Sq Mean Sq F value Pr(>F)## Geschlecht 1 29070 29070 12.3 0.00077## Sprachgruppe 3 29769 9923 4.2 0.00839## Residuals 75 177174 2362

7.2.5 Schlussfolgerung und Bericht

Natürlich sollte man auch hier die Gruppenmittel und -standardabweichungen berichten. DieSignifikanztests selber können etwa so berichtet werden: “Eine zweifaktorielle ANOVA wiesUnterschiede je nach dem Geschlechts der Versuchsperson (F(1, 75) = 12.3, p < 0.001) und ihrerMuttersprache (F(3, 75) = 4.2, p = 0.008) nach.”

7.2.6 Warum nicht einfach zwei ANOVAs?

Führen Sie mit dem Datensatz Formanten_2.csv zwei einfaktorielle ANOVAs aus: einemit Sprachgruppe als unabhängiger Variable und eine mit Geschlecht als unabhängigerVariable. Notieren Sie sich bei beiden Analysen folgende Werte: die Summe der Quadrate, dievon der unabhängigen Variable erklärt wird (Spalte Sum Sq); die Restsumme der Quadrate(gleiche Spalte, Zeile Residuals); den F-Wert; und den p-Wert. Vergleichen Sie diese Zahlenmit den entsprechenden Zahlen in der zweifaktoriellen ANOVA.

Merksatz: Wenn zwei oder mehrere Variablen zur Varianzerklärung beitragen könnten, lohntes sich diese im gleichen Modell zu analysieren. Dadurch sinkt die Restsumme der Quadrate,weshalb das F-Ratio steigt und der p-Wert sinkt. Die zweifaktorielle ANOVA hat also mehr powerals die zwei einfaktoriellen ANOVAs.

Tipp: Oft versucht man die Experimental- und Kontrollgruppe gleichzuschalten, indem etwa jedeGruppe aus der gleichen Anzahl Männer und Frauen besteht. Der technische Begriff hierfür istblocking. Es lohnt sich in solchen Fällen, die blocking-Variable in der ANOVA zu berücksichtigen,auch wenn diese Variable für die Studie uninteressant ist! Der Grund ist der oben beschriebenenGewinn an power (siehe Imai et al. 2008). (Wenn die blocking-Variable für die Studie uninteressantist, muss der F-Test für ihren Effekt natürlich auch nicht berichtet oder interpretiert werden – eshandelt sich lediglich um einen Gewinn an statistischer Effizienz.)

Vorsicht: Mit zwei- bzw. mehrfaktorieller ANOVA wird der Typ-I-Fehler für jede Variable separatkontrolliert, nicht der Typ-I-Fehler für das gesamte Experiment. Wenn es in der Populationkeinen Unterschied zwischen den Sprachgruppen gibt, gibt es eine Wahrscheinlichkeit von 5%,dass wir trotzdem einen signifikanten Unterschied finden, und wenn es in der Population keinenUnterschied zwischen den Geschlechten gibt, gibt es auch da eine Wahrscheinlichkeit von 5%,dass wir trotzdem einen signifikanten Unterschied finden. Wenn beide Nullhypothesen stimmen,gibt es jedoch eine Wahrscheinlichkeit von 1−(1− 0.05)2 = 9.75%, dass wir trotzdem mindestenseine der beiden Nullhypothesen zu Unrecht ablehnen. Seien Sie daher auch hier vorsichtig, mitoptimistischen Interpretationen.

7.2.7 Exkurs: Varianzaufteilung für unbalancierte Designs

Im obigen Beispiel haben wir ein balanziertes Design: Alle Zellen sind gleich gross. In solchenFällen macht es nicht aus, ob wir anova(lm(AV ~ UV1 + UV2)) oder anova(lm(AV ~ UV2 +

Page 116: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 109

UV1)) berechnen. Sind die Zellen nicht alle gleich gross, ist dies nicht länger der Fall. Für mehrInformationen, siehe goanna.cs.rmit.edu.au/∼fscholer/anova.php.

7.3 Zweifaktorielle Varianzanalyse (two-way ANOVA)mit Interaktionen

7.3.1 Was sind Interaktionen?

Oft ist es nicht sosehr der Einfluss dieser oder jener Variable, der uns interessiert: Vielmehr sindwir am Zusammenspiel von zwei oder mehreren Variablen interessiert. Zum Beispiel ist es nichtso interessant, dass man schneller auf hochfrequente als auf seltene Wörter reagiert – dieserBefund ist schon Gemeingut geworden. Und es ist auch nicht so interessant, dass gute Lesendeschneller auf bestehende Wörter reagieren als schlechte Lesende – auch das liegt auf der Hand.Interessanter wäre vielleicht die Frage, ob der Effekt von Wortfrequenz unterschiedlich grossist je nach der Lesefähigkeit der Versuchspersonen. Dies ist eine Frage nach der Interaktionzwischen Lesefähigkeit und Wortfrequenz.

In der folgenden Grafik werden drei (von vielen möglichen) Interaktionsmuster aufgeführt. Ihrgemeinsames Merkmal ist, dass die gezeichneten Linien nicht parallel zueinander liegen; bei derAbsenz einer Interaktion ist dies schon der Fall.

keine Interaktion(parallele Linien)

Lesefähigkeit

Ges

chw

indi

gkei

t

schlecht gut

hohe Frequenzniedrige Frequenz

Interaktion: stärkerer Fähigkeitseffektfür frequente Wörter

Lesefähigkeit

Ges

chw

indi

gkei

t

schlecht gut

Interaktion: schwächerer Fähigkeitseffektfür frequente Wörter

Lesefähigkeit

Ges

chw

indi

gkei

t

schlecht gut

Cross−over−Interaktion

Lesefähigkeit

Ges

chw

indi

gkei

t

schlecht gut

7.3.2 Daten und Fragestellung

Wir nehmen den gleichen Datensatz wie vorher. Diesmal stellen wir uns aber die Frage, obSprachgruppe und Geschlecht miteinander interagieren: Variiert der Effekt von Geschlecht

Page 117: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 110

(tiefere Frequenzen für Männer) von Muttersprache zu Muttersprache? Statistisch gesehenist dies die gleiche Frage wie: Variiert der Effekt von Muttersprache je nach Geschlecht derVersuchsperson.

7.3.3 Grafische Darstellung

Zusätzlich zu den obigen Grafiken wäre vielleicht eine Grafik, die die Mittel der unterschied-lichen Zellen darstellt, nützlich, um die Präsenz einer Interaktion zu illustrieren. Diese beidenGrafiken zeigen genau die gleichen Muster, nur die ‘Betonung’ ist anders: Die erste Grafik betontden Geschlechtseffekt, die zweite den L1-Effekt. Die zweite Grafik ist m.E. einfacher zu verdauen,aber das ist letztendlich Geschmackssache.

# Gruppenmittel berechnen (dplyr package)summary_F1 <- summarise(group_by(dat2, Sprachgruppe, Geschlecht),

Mittel = mean(F1),Stdabw = sd(F1))

# eventuell anzeigen:# summary_F1

# Erste Grafik:ggplot(summary_F1,

aes(x = Geschlecht, y = Mittel,group = Sprachgruppe, linetype = Sprachgruppe)) +

geom_line() +ylab("Mittel F1 (Hz)")

340

360

380

400

Frau MannGeschlecht

Mitt

el F

1 (H

z)

Sprachgruppe

Deutsch

Finnisch

Französisch

Spanisch

# Zweite Grafik:ggplot(summary_F1,

aes(x = Sprachgruppe, y = Mittel,group = Geschlecht, linetype = Geschlecht)) +

geom_line() +ylab("Mittel F1 (Hz)")

Page 118: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 111

340

360

380

400

Deutsch Finnisch Französisch SpanischSprachgruppe

Mitt

el F

1 (H

z)

Geschlecht

Frau

Mann

Es dürfte eine Interaktion vorliegen: Frauen haben in der Regel eine höhere F1-Frequenz als Män-ner, aber bei den Französischsprachigen haben Männer und Frauen eine ähnliche F1-Frequenz.(Dies dürfte darauf hindeuten, dass französischsprachige Frauen den KIT-Vokal geschlosseneraussprechen, als was man sonst vermuten würde.) Auch scheint der Geschlechtsunterschiedweniger ausgeprägt zu sein bei den Spanischsprachigen.

7.3.4 Berechnung

Die Linien in der obigen Grafik laufen zwar nicht parallel zueinander, aber das könnte Zufallsein: Die Linien werden in einer Stichprobe nie perfekt parallel zueinander laufen. Die Nullhy-pothese, die in einer zweifaktoriellen ANOVA mit Interaktion getestet wird, ist, dass es irgendeineInteraktion zwischen Sprachgruppe und Geschlecht gibt – nicht spezifisch, dass die Interaktionsich bei den Französischsprachigen zeigt.

Das Vorgehen der Varianzaufteilung ist ähnlich wie bei einer zweifaktoriellen ANOVA, nurwerden dem Modell noch (in diesem Fall: drei) Interaktionsparameter hinzugefügt. Mit : wirddie Interaktion zwischen zwei Variablen modelliert:

mod.interaktion <- lm(F1 ~ Geschlecht + Sprachgruppe + Geschlecht:Sprachgruppe,dat2)

mod.interaktion

#### Call:## lm(formula = F1 ~ Geschlecht + Sprachgruppe + Geschlecht:Sprachgruppe,## data = dat2)#### Coefficients:## (Intercept)## 405.9## GeschlechtMann## -59.9## SprachgruppeFinnisch## -0.8## SprachgruppeFranzösisch## -78.8## SprachgruppeSpanisch## -39.7## GeschlechtMann:SprachgruppeFinnisch## -1.7## GeschlechtMann:SprachgruppeFranzösisch## 64.8

Page 119: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 112

## GeschlechtMann:SprachgruppeSpanisch## 24.0

Versuchen Sie, diese 8 Parameter in Verbindung mit der Tabelle mit den Zellenmitteln zubringen. Welcher Koeffizient entspricht dem Zellenmittel für deutsche Frauen (405.9)? Wiefindet man das Zellenmittel für finnische Frauen (405.1) zurück? Und das Zellenmittel fürdeutsche Männer (346.0)? Und für französische Männer (332.0)?

Mit der anova()-Funktion berechnen wir den F-Test für die Interaktion:

anova(mod.interaktion)

## Analysis of Variance Table#### Response: F1## Df Sum Sq Mean Sq F value Pr(>F)## Geschlecht 1 29070 29070 12.86 0.00061## Sprachgruppe 3 29769 9923 4.39 0.00680## Geschlecht:Sprachgruppe 3 14407 4802 2.12 0.10462## Residuals 72 162767 2261

Statt A + B + A:B kann man auch einfach A * B schreiben (empfohlen).

mod.interaktion <- lm(F1 ~ Geschlecht * Sprachgruppe, dat2)anova(mod.interaktion)

Vorsicht: Beim Testen einer Interaktion müssen (mit wenigen Ausnahmen, die hier nicht derRede wert sind) auch die Haupteffekte mitmodelliert werden – auch wenn sie nicht von Interessesind. Meines Erachtens müssen uninteressante Haupteffekte jedoch nicht unbedingt berichtetoder interpretiert werden.

7.3.5 Schlussfolgerung und Bericht

“Die Interaktion zwischen dem Geschlecht der Versuchspersonen und ihrer Muttersprache warnicht signifikant (F(3, 72) = 2.1, p = 0.10).”

Dies heisst natürlich nicht unbedingt, dass es keine Interaktion gibt: Es besteht ja die Gefahreines Typ-II-Fehlers.

7.3.6 Zur Interpretation von Interaktionen und Haupteffekten

Noch zur Interpretation von Haupteffekten, wenn eine Interaktion vorliegt: Solche Interpre-tationen sind oft suspekt, und am besten basiert man sich hierbei auf einer Grafik. Bei etwafolgendem Datenmuster wäre es vorschnell zu sagen, dass die abhängige Variable höher ist beiA als bei B (Haupteffekt von A vs. B) oder dass sie höher ist bei Y als bei X (Haupteffekt von Xvs. Y), auch wenn die ANOVA diese Haupteffekte als signifikant aufzeigen wird: Der Punkt ist ja,dass es nur einen Unterschied gibt, wenn A und Y gleichzeitig vorkommen!

Page 120: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 113

X Y

−25

0

25

50

75

100

A B A B

Kondition

abhä

ngig

e V

aria

ble

Zur Interpretation von non-cross-over interactions, siehe Wagenmakers et al. (2012). Zusammenge-fasst: Eine Interaktion in der gemessenen Variable (z.B. Reaktionsgeschwindigkeit) muss nichtzwingend darauf hindeuten, dass eine Interaktion im hinterliegenden Konstrukt (z.B. kognitiverKontrolle) vorliegt.

7.4 Varianzanalyse mit wiederholten Messungen(repeated-measures ANOVA)

Wenn jede Versuchsperson in mehreren Konditionen getestet wird, spricht man von einemwithin-subjects-Design. Solche Designs sind in der Regel effizienter (mehr power) als between-subjects-Designs, da sie uninteressante personenspezifische Varianz ausgeklammern können.Im einfachen Fall, wo alle Versuchspersonen in zwei Konditionen getestet werden und mansich nur für Unterschiede zwischen den zwei Konditionen interessiert, bietet sich der t-Testfür gepaarte Stichproben als Analyseverfahren an. In komplexeren Fällen bedient man sichhäufig der Varianzanalyse mit wiederholten Messungen oder flexiblerer Verfahren wie sog. ‘ge-mischter Modelle’. Mit diesen Verfahren wird man der Abhängigkeit der Datenpunkte (mehrereDatenpunkte pro Versuchsperson) gerecht. Sie zu besprechen würde uns hier jedoch zu weitführen.

7.5 Artikel mit ANOVA lesen

Gefühlte neun von zehn Studien, in denen ANOVA verwendet wird, werden unnötig kompliziertanalysiert oder interpretiert. Artikel mit mehr als zwanzig F-Tests sind leider keine Ausnahme.Mithilfe dieses Leitfadens können Sie sich aber hoffentlich einen Weg durch solche ANOVA-Dschungel bahnen.

1. Identifizieren Sie die zentrale, genuine4 Forschungsfrage und die Hypothese der Forschen-de. Zeichnen Sie (schnell von Hand) eine Grafik, die zeigt, wie sich die Gruppen- bzw.Zellenmittel verhalten sollten, falls die Hypothese der Forschenden stimmt. Zeichnen Sieauch eine Grafik, die zeigt, wie sich die Mittel verhalten würden, falls eine andere plausibleHypothese zuträfe. Solche Grafiken helfen zumindest mir bei der Lektüre schwierigerStudien.

4Oft liegt einer Studie eine genuine Forschungsfrage zu Grunde und werden in der Einleitung noch ein paarzusätzliche, weniger interessante Fragen gestellt. (Die magische Anzahl Forschungsfragen scheint drei zu sein.) Typische‘Polsterungsfragen’ sind: ‘Gibt es einen Unterschied zwischen den Pre- und Posttest-Ergebnissen?’ (trivial), ‘Unterscheidetsich die Übersetzungsfähigkeit zwischen Jungs und Mädchen?’ (selten theoretisch fundiert) oder ‘Haben ältere Kindereinen umfangreicheren Wortschatz als jüngere Kinder?’ (fast tautologisch).

Page 121: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 114

• Ignorieren Sie alle Tests, die nicht mit der zentralen Forschungsfrage zu tun haben.Neben Tests für die nicht-genuine Forschungsfragen handelt es sich dabei oft um‘kontrollierende’ Tests, z.B. um zu schauen, ob die zwei Stichproben ungefähr gleichalt sind. Solche Tests sind, insbesondere bei randomisierten Experimenten, komplettüberflüssig (Vanhove 2015a); bei nicht-randomisierten Experimenten gibt es besse-re Methoden, um solche Variablen auszuwerten (siehe Huitema 2011, Kapitel 27).Wenn Sie wissen wollen, inwiefern sich die Gruppen bei den Hintergrundsvariablenunterscheiden, schauen Sie sich am besten einfach die Tabelle mit den deskriptivenInformationen an.

2. Handelt es sich bei der zentralen Forschungsfrage um eine Frage nach einem Haupteffektoder nach einer Interaktion?

• Wenn es sich um eine Frage nach einer Interaktion handelt: Ignorieren Sie der Ein-fachkeit halber die Tests für die Haupteffekte – sie sind uninteressant und könnenohnehin nicht ohne Weiteres interpretiert werden.5

• Wenn es sich um eine Frage nach einem Haupteffekt handelt und trotzdem Inter-aktionen berechnet wurden: Ignorieren Sie gleich alle Tests, insbesondere wenn dieInteraktion sich als signifikant herausstellt – aufgrund der Interaktion können dieHaupteffekte nicht ohne Weiteres interpretiert werden.

3. In psycholinguistischen Studien werden oft sog. F1- und F2-Tests berechnet, insbesonderebei etwas älteren Studien. Es handelt sich dabei nicht etwa um Formantmessungen, son-dern um Folgendes: Jede Versuchsperson hat auf mehrere sprachliche Stimuli reagiert.Um zu erproben, ob die Ergebnisse sich über die einzelnen Versuchspersonen hinweggeneralisieren lassen, hat man dann die Reaktionszeiten pro Versuchsperson gemittelt unddiese Mittel in einer ANOVA analysiert (F1-Analyse). Um zu erproben, ob die Ergebnissesich auch über die verwendeten Stimuli hinweg generalisieren lassen, hat man zudem auchdie Reaktionszeiten pro Stimulus gemittelt und diese in einer anderen ANOVA analysiert(F2-Analyse). Die hinterliegende Logik bei solchen Analysen ist, dass es ein Befund nurdann zuverlässig ist, wenn beide Analysen Signifikanz ergeben.Das Anliegen, sowohl über Versuchspersonen als auch über Stimuli hinweg generalisierenzu wollen, ist berechtigt (Clark 1973), aber heutzutage gibt es hierfür bessere Methoden alsF1- und F2-Analysen (siehe Baayen et al. 2008; Baayen 2008).

4. Suchen Sie eine Grafik, die die zentralen Tendenzen der Gruppen bzw. Zellen darstellt.Wenn es keine Grafik gibt: Suchen Sie eine Tabelle mit Mittelwerten und zeichnen Sie(auch gerne einfach von Hand) eine Grafik, die die Mittelwerte pro Gruppe oder Konditiondarstellt. Wenn es keine Tabelle mit Mittelwerten gibt, sollten Sie diese Mittelwerte im Textfinden. Was können Sie dieser Grafik entnehmen?

• Konsistente Gruppenunterschiede (A immer grösser als B, egal ob X oder Y, undder Unterschied ist – Handgelenk mal pi – überall gleich gross) sprechen für einenHaupteffekt ohne Interaktion.

• Inkonsistente Gruppenunterschiede (Unterschied zwischen A und B variiert je nachX oder Y) sprechen für eine Interaktion. Ob es auch einen Haupteffekt gibt, hängtdavon ab, ob A immer grösser ist als B (Haupteffekt) oder nicht (kein deutlicherHaupteffekt).

5. Wurden Post-Hoc-Tests berechnet? In der Regel sind dies Tests, die zwar mit der For-schungsfrage zu tun haben, aber eine spezifischere Form annehmen. Insbesondere dürftees sich um Unterschiede handeln, die Sie nicht in Ihrer Grafik mit den vorhergesagten

5Bei einer ANOVA mit Interaktionen müssen die Haupteffekte zwar mitmodelliert werden, aber nur deswegen sindsie noch nicht interessant.

Page 122: Statistische Grundlagen

KAPITEL 7. MEHRERE GRUPPEN VERGLEICHEN 115

Mittelwerten zurückfinden. Zum Beispiel kann die Ausgangshypothese sein, dass esUnterschiede zwischen vier Lernergruppen gibt; ein Post-Hoc-Test könnte dann der spezi-fischeren Frage nachgehen, ob es einen Unterschied zwischen Lernergruppe A und C gibt.Nehmen Sie das Ergebnis eines mit der zentralen, genuinen Forschungsfrage verknüpftenPost-Hoc-Tests zur Kenntnis, aber halten Sie nicht zu fest an ihm. Betrachten Sie dieseFrage vorübergehend als ‘work in progress’, das einer Replikationsstudie bedarf.

6. Und zu guter Letzt noch einige kritische Fragen, die man sich stellen kann, wenn man mitANOVAs konfrontiert wird:

• Gibt es Abhängigkeiten in den Daten (z.B. mehrere Messungen pro Versuchsperson)und wurden diese bei der Analyse berücksichtigt (etwa mit repeated-measures ANOVA

oder gemischten Modellen oder indem die Messungen pro Versuchsperson gemitteltwurden)?

• Sind die Gruppenmittel gute Indikatoren der zentralen Tendenzen? (Oft kann mandies leider nicht einschätzen.)

• Handelt es sich um echte Gruppen oder wurde irgendeine kontinuierliche Variablein Gruppen aufgespaltet? Ein typisches Beispiel ist das Aufspalten von Alter inAltersgruppen. In solchen Fällen sind Regressionsverfahren oft besser geeignet.

• Ist die abhängige Variable eine kontinuierliche Variable? Likertskalen können wohloft mit ANOVA ausgewertet werden, aber öfters sieht man auch, dass binäre Daten(z.B. richtig vs. falsch) oder multinomiale Daten (z.B. Nominativ vs. Genitiv vs. Dativvs. Akkusativ) irgendwie mit ANOVA analysiert werden. Bei binären Daten könnteman sog. logistische Modelle (siehe Kapitel 9) in Betracht ziehen; multinomiale Datensind zugegebenermassen schwieriger zu analysieren, wenn das Design der Studieetwas anspruchsvoll ist (siehe Faraway 2006, Kapitel 5).

• Wie grosszügig sind die Autoren beim Interpretieren ihrer Ergebnisse?

– Leiten sie aus nicht-signifikanten Unterschieden ab, dass es eigentlich keinenUnterschied gibt, insbesondere bei einer relativ kleinen Stichprobe?

– Schliessen sie aus einem nicht-signikanten Unterschied in einer Gruppe undeinem signifikanten Unterschied in einer anderen Gruppe, dass sich das Ausmassdes Unterschieds zwischen den Gruppen unterscheidet (siehe Gelman & Stern2006)?

– Wie gross schätzen Sie die Gefahr ein, dass es sich bei den Ergebnissen umPost-Hoc-Befunde handelt?

Page 123: Statistische Grundlagen

Kapitel 8

Mit kategorialen abhängigenVariablen arbeiten

8.1 Kreuztabellen analysieren

8.1.1 Daten und Fragestellung

Kaiser & Peyer (2011) untersuchten, welche deutschen syntaktischen Strukturen beginnendenGermanistikstudierenden mit französischer oder italienischer Muttersprache beim Lesen be-sondere Schwierigkeiten bereiten. Insgesamt sieben syntaktische Strukturen wurden getestet,darunter etwa die OVS-Satzstruktur und der Passivsatz. Für jede Struktur gab es zwei Erschei-nungsformen: eine schwierigere Alternative (OVS, Passiv) und eine einfache Alternative (SVO,Aktiv) (Problemstruktur “ja” bzw. “nein”).

Jede Versuchsperson hat der Studie mehrere Datenpunkte beigetragen, sodass die Daten vonKaiser & Peyer (2011) von gegenseitigen Abhängigkeiten geprägt sind. Ich habe ihren Datensatzjedoch so reduziert, dass für jede Versuchsperson nur einen Datenpunkt übrig bleibt, damit wirdiese Daten mit einfacheren Methoden auswerten können. Diesen angepassten Datensatz findenSie in der Datei rezgram.csv.

rezgram <- read.csv("rezgram.csv")summary(rezgram)

## Muttersprache Deutsch Englisch## FR:190 Min. :1.000 Min. :1.00## IT:307 1st Qu.:2.000 1st Qu.:3.00## Median :3.000 Median :4.00## Mean :2.626 Mean :3.83## 3rd Qu.:3.000 3rd Qu.:4.00## Max. :6.000 Max. :6.00## NA's :3 NA's :3## Kategorie Problemstruktur Korrekt## Konditionalsatz:71 ja :234 ja :408## Linksattribut :71 nein:263 nein: 89## OVS :71## Passiv :71## Satzklammer :71

116

Page 124: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 117

## Subjektsatz :71## VSO :71

In dieser angepassten Version ist für 497 Versuchspersonen die Richtigkeit der Antwort aufjeweils eine Verständnisfrage gespeichert (Korrekt) sowie auch die Muttersprache der Ver-suchsperson und ihre selbst eingeschätzten Deutsch- und Englischkenntnisse (6er-Skala).

Eine mögliche Frage, die wir uns stellen können, lautet: Sind die syntaktischen Strukturen mitder Problemstruktur alle gleich schwierig?1

8.1.2 Eine Kreuztabelle erzeugen und grafisch darstellen

Die Fragestellung bezieht sich nur auf die Datenpunkte, für die die Problemstruktur vorlag.Schaffen wir also einen neuen Datensatz, in dem nur die Antworten auf Sätze mit einer Problem-struktur vorkommen:

rezgram_prob <- subset(rezgram, Problemstruktur == "ja")# Die 'filter()'-Funktion aus dem 'dplyr'-Package# funktioniert ähnlich wie 'subset()'.summary(rezgram_prob)

## Muttersprache Deutsch Englisch## FR: 89 Min. :1.000 Min. :1.000## IT:145 1st Qu.:2.000 1st Qu.:3.000## Median :3.000 Median :4.000## Mean :2.662 Mean :3.863## 3rd Qu.:3.000 3rd Qu.:4.000## Max. :6.000 Max. :6.000## NA's :1## Kategorie Problemstruktur Korrekt## Konditionalsatz:27 ja :234 ja :185## Linksattribut :32 nein: 0 nein: 49## OVS :38## Passiv :36## Satzklammer :36## Subjektsatz :36## VSO :29

Es bleiben 234 Beobachtungen übrig (nrow(rezgram_prob)). Wir können einfach eine Kreuzta-belle (contingency table) aufstellen, in der wir die Anzahl richtige und falsche Antworten für jedesyntaktische Struktur auflisten:

xtabs(~ Korrekt + Kategorie, rezgram_prob)

## Kategorie## Korrekt Konditionalsatz Linksattribut OVS Passiv## ja 11 31 31 33## nein 16 1 7 3## Kategorie## Korrekt Satzklammer Subjektsatz VSO## ja 22 31 26## nein 14 5 3

1Dies ist nicht gerade eine sehr sinnvolle Frage, da die Strukturen unterschiedliche semantische Inhalte vermittelten.Die Idee ist hier aber, die Mechanik des entsprechenden Signifikanztests zu erläutern.

Page 125: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 118

Diese Kreuztabelle können wir mithilfe eines Säulendiagramms darstellen. (Säulendiagrammekönnen auch in ggplot2 hergestellt werden. Siehe dazu docs.ggplot2.org/0.9.3.1/geom_bar.html.)

struktur.tab <- xtabs(~ Korrekt + Kategorie, rezgram_prob)barplot(struktur.tab,

ylab = "Anzahl Antworten",beside = TRUE, legend.text = TRUE)

Konditionalsatz Linksattribut OVS Passiv Satzklammer Subjektsatz VSO

janein

Anz

ahl A

ntw

orte

n

0

5

10

15

20

25

30

Die Interpretation wird dadurch erschwert, dass die Anzahl Antworten in den verschiedenenKategorien unterschiedlich gross ist (etwa 29 für VSO und 38 für OVS). Hier ist es nützlich,stattdessen die relativen Antwortfrequenzen darzustellen (siehe ?prop.table):

barplot(prop.table(struktur.tab, margin = 2),ylab = "Proportion der Antworten", legend.text = FALSE)

Konditionalsatz Linksattribut OVS Passiv Satzklammer Subjektsatz VSO

Pro

port

ion

der

Ant

wor

ten

0.0

0.2

0.4

0.6

0.8

1.0

Oder in einem Cleveland dotplot (mit [1,] wird nur die obere Zeile der Kreuztabelle darge-stellt):

dotchart(sort(prop.table(struktur.tab, margin = 2)[1,]),xlab = "Proportion richtig",xlim = c(0,1))

Page 126: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 119

Konditionalsatz

Satzklammer

OVS

Subjektsatz

VSO

Passiv

Linksattribut

0.0 0.2 0.4 0.6 0.8 1.0

Proportion richtig

Tipp: Stellen Sie Säulendiagramme, die mehr als zwei Antwortkategorien darstellen, neben-und nicht aufeinander. Dies macht es einfacher, verschiedene Kategorien visuell miteinanderzu vergleichen. Verwenden Sie keine Kreisdiagramme oder dreidimensionale Säulendiagramme.(Siehe ?pie > Note.)

Die Grafiken lassen stark vermuten, dass die Sätze mit bestimmten syntaktischen Strukturen wiedem Konditionalsatz und der Satzklammer erheblich schwieriger als die anderen Sätze waren.Dies können wir auch numerisch überprüfen anhand des χ2-Tests.

8.1.3 Berechnung des χ2-Tests

Die Nullhypothese ist hier, dass die Proportion der richtigen vs. falschen Antworten nicht vonKategorie abhängt. Um diese Hypothese zu testen werden in einem χ2-Test die empirischbeobachteten Frequenzen in der Kreuztabelle mit den Frequenzen, die laut der Nullhypothesezu erwarten sind, verglichen. Stellen wir nochmals die beobachteten Frequenzen dar:

Kond.satz Linksattr. OVS Passiv Satzkl. S.satz VSO Summe

richtig 11 31 31 33 22 31 26 185falsch 16 1 7 3 14 5 3 49

Summe 27 32 38 36 36 36 29 234

185 der 234 (79%) Antworten waren richtig. Wenn nun Sätze mit einem Linksattribut gleichschwierig wären wie die anderen Sätze, dann würden wir erwarten, dass 79% (oder 25.30) deringesamt 32 Sätze mit Linksattribut richtig verstanden würden ( 32×185

234 = 25.30) und 21% (oder6.70) falsch ( 32×49

234 = 6.70). Dies sind die erwarteten Frequenzen, die der folgenden Kreuztabellezu entnehmen sind.

Kond.satz Linksattr. OVS Passiv Satzkl. S.satz VSO Summe

richtig 27× 185234 = 21.35 25.30 30.04 28.46 28.46 28.46 22.93 185

falsch 27× 49234 = 5.65 6.70 7.96 7.54 7.54 7.54 6.07 49

Summe 27 32 38 36 36 36 29 234

Wir können die Unterschiede zwischen den beobachteten Frequenzen (o, für observed) undden erwarteten Frequenzen (e, für expected) berechnen : o− e. Allerdings ist die Summe dieserUnterschiede immer 0, weshalb wir die Unterschiede zuerst quadrieren: (o − e)2. Wir teilenjeden Unterschied ausserdem durch die erwartete Frequenz, sodass wir mit relativen statt mitabsoluten Unterschieden rechnen können, und zählen dann alle Unterschiede beieinander auf:Dies ergibt die χ2-Statistik:

Page 127: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 120

χ2 =(o1 − e1)

2

e1+

(o2 − e2)2

e2+ . . . (8.1)

In diesem Beispiel beträgt der relative quadrierte Unterschied bei den richtigen Antworten beiKonditionalsätzen (11−21.35)2

21.35 = 5.02. Bei den falschen Antworten: (16−5.65)2

5.65 = 18.96. Tun wir diesfür alle Zellen und zählen wir diese Unterschiede beieinander auf, dann bekommen wir einenχ2-Wert von 43.74. Die Wahrscheinlichkeit dieses Wertes unter Annahme der Nullhypothesekönnen wir mit der χ2-Verteilung berechnen. Dazu müssen wir aber zuerst wissen, wie vieleFreiheitsgrade diese Verteilung hat: die Anzahl Spalten minus 1 mal die Anzahl Zeilen minus 1:(7 − 1)(2 − 1) = 6. Die Wahrscheinlichkeit, bei 6 Freiheitsgraden einen χ2-Wert von 43.74 odergrösser anzutreffen, ist verschwindend gering, wie der Grafik entnommen werden kann:

curve(dchisq(x, 6), from = 0, to = 50,xlab = expression(chi^2),ylab = expression(d(chi^2)),main = expression(paste("Verteilung von ", chi^2, " laut Nullhypothese (6 d.f.)")))

abline(v = 43.74, lty = 2)

0 10 20 30 40 50

0.000.020.040.060.080.100.120.14

Verteilung von χ2 laut Nullhypothese (6 d.f.)

χ2

d(χ2 )

Mit pchisq() berechnen wir wie gehabt die genaue Wahrscheinlichkeit.

pchisq(43.74, df = 6, lower.tail = FALSE)

## [1] 8.323607e-08

Weit unten 0.001 also. Schneller geht dies alles mit der chisq.test()-Funktion. Dieser müssenwir die Kreuztabelle mit den beobachteten Frequenzen pro Zelle füttern.

chisq.test(struktur.tab)

#### Pearson's Chi-squared test#### data: struktur.tab## X-squared = 43.737, df = 6, p-value = 8.335e-08

8.1.4 Schlussfolgerung und Bericht

“Die Proportion richtige Antworten unterscheidet sich signifikant je nach der getesteten gramma-tischen Struktur (n = 234,χ2(6) = 44, p < 0.001).” Eine Kreuztabelle und/oder eine Grafik mitder Anzahl richtige und falsche Antworten pro Struktur wäre hier natürlich unerlässlich, sodassdie Lesenden selbst sehen können, wie sich die Proportion richtige Antworten je nach Strukturunterscheidet.

Page 128: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 121

Die Anzahl Datenpunkte, die der Kreuztabelle zu Grunde liegt, können Sie übrigens schnell soberechnen:

sum(struktur.tab)

## [1] 234

8.1.5 Komplikationen

Yates’ Korrektur für 2× 2-Kreuztabellen?

Kaiser & Peyer (2011) wollten vor allem untersuchen, ob Sätze mit vermuteten ‘Problemstruk-turen’ wie der Satzklammer für Deutschlernende tatsächlich schwierig zu verstehen sind alsinhaltlich sehr ähnlichen Sätze ohne diese Strukturen. Um diese Frage zu beantworten, schauenwir uns nur die Daten für die Kategorie Satzklammer an:

rezgram_sklam <- subset(rezgram, Kategorie == "Satzklammer")summary(rezgram_sklam)

## Muttersprache Deutsch Englisch## FR:30 Min. :1.000 Min. :1.000## IT:41 1st Qu.:2.000 1st Qu.:3.000## Median :3.000 Median :4.000## Mean :2.535 Mean :3.775## 3rd Qu.:3.000 3rd Qu.:4.000## Max. :4.000 Max. :6.000#### Kategorie Problemstruktur Korrekt## Konditionalsatz: 0 ja :36 ja :41## Linksattribut : 0 nein:35 nein:30## OVS : 0## Passiv : 0## Satzklammer :71## Subjektsatz : 0## VSO : 0

Insgesamt 71 relevante Datenpunkte liegen vor, darunter 36 mit und 35 ohne Problemstrukturund 41 richtige und 30 falsche Antworten. Die richtigen und falschen Antworten verteilen sichfolgendermassen je nach Vorkommen der Problemstruktur:

sklam.tab <- xtabs(~ Korrekt + Problemstruktur, rezgram_sklam)sklam.tab

## Problemstruktur## Korrekt ja nein## ja 22 19## nein 14 16

Diese Kreuztabelle kann auch grafisch dargestellt werden:

# Zahlen in sklam.tab per Spalte zu Proportionen konvertieren ('margin = 2')# und erste Zeile darstellen ('[1,]')dotchart(prop.table(sklam.tab, margin = 2)[1,],

xlab = "Proportion richtig", xlim = c(0,1),ylab = "Problemstruktur?")

Page 129: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 122

ja

nein

0.0 0.2 0.4 0.6 0.8 1.0

Proportion richtig

Pro

blem

stru

ktur

?

(Im Widerspruch zu der Hypothese werden in diesem Datensatz Sätze mit Satzklammer alsohäufiger richtig verstanden als die entsprechenden Sätze ohne Satzklammer.)

Füttern Sie nun die Kreuztabelle sklam.tab der chisq.test()-Funktion, dann stellen Sie fest,dass sich der Output etwas vom vorigen unterscheidet:

chisq.test(sklam.tab)

#### Pearson's Chi-squared test with Yates' continuity## correction#### data: sklam.tab## X-squared = 0.11683, df = 1, p-value = 0.7325

Bei 2× 2-Kreuztabellen (also Kreuztabellen, wo die beiden Variablen zwei ‘levels’ haben) wirdautomatisch Yates’ Korrektur angewandt, weil die χ2-Statistik sonst überschätzt wird. DieseKorrektur führt jedoch zu zu kleinen χ2-Werten, weshalb der Gebrauch nicht empfohlen wird(siehe etwa Camilli & Hopkins 1978). Um die Korrektur auszuschalten, verwenden Sie einfachcorrect = FALSE:

#### Pearson's Chi-squared test#### data: sklam.tab## X-squared = 0.33883, df = 1, p-value = 0.5605

Exakter Test nach Fisher

Oft liest man, dass Forschende keinen χ2-Test sondern einen exakten Test nach Fischer ausgeführthaben. Dies tun sie in der Regel, weil die erwarteten Frequenzen in gewissen Zellen der Kreuz-tabelle kleiner als 5 sind. Betrachten wir als Beispiel die Sätze mit und ohne ProblemstrukturOVS:

rezgram_ovs <- subset(rezgram, Kategorie == "OVS")summary(rezgram_ovs)

## Muttersprache Deutsch Englisch## FR:29 Min. :1.000 Min. :1.0## IT:42 1st Qu.:2.000 1st Qu.:3.5## Median :3.000 Median :4.0## Mean :2.704 Mean :4.0

Page 130: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 123

## 3rd Qu.:3.000 3rd Qu.:4.0## Max. :5.000 Max. :6.0#### Kategorie Problemstruktur Korrekt## Konditionalsatz: 0 ja :38 ja :62## Linksattribut : 0 nein:33 nein: 9## OVS :71## Passiv : 0## Satzklammer : 0## Subjektsatz : 0## VSO : 0

xtabs(~ Korrekt + Problemstruktur, rezgram_ovs)

## Problemstruktur## Korrekt ja nein## ja 31 31## nein 7 2

Von den 71 Antworten sind nur 9 falsch. Wenn wir für diese Kreuztabelle einen χ2-Test berechnen,ergibt sich eine Warnung:

ovs.tab <- xtabs(~ Korrekt + Problemstruktur, rezgram_ovs)chisq.test(ovs.tab, correct = FALSE)

## Warning in chisq.test(ovs.tab, correct = FALSE): Chi-squared approximation maybe incorrect

#### Pearson's Chi-squared test#### data: ovs.tab## X-squared = 2.4378, df = 1, p-value = 0.1184

Mit dem nachgestellten Befehl $expected finden Sie den Auslöser dieser Fehlermeldung: Esgibt zwei Zellen, für die die erwarteten Frequenzen unter 5 liegen:

chisq.test(ovs.tab, correct = FALSE)$expected

## Problemstruktur## Korrekt ja nein## ja 33.183099 28.816901## nein 4.816901 4.183099

Die traditionelle Lösung für dieses Problem ist der exakte Test nach Fisher:

fisher.test(ovs.tab)

#### Fisher's Exact Test for Count Data#### data: ovs.tab## p-value = 0.1613## alternative hypothesis: true odds ratio is not equal to 1## 95 percent confidence interval:## 0.027397 1.688792## sample estimates:

Page 131: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 124

## odds ratio## 0.2903896

Eine andere Möglichkeit ist, den p-Wert mit einem Randomisierungstest zu berechnen:

chisq.test(ovs.tab, simulate.p.value = TRUE)

#### Pearson's Chi-squared test with simulated p-value## (based on 2000 replicates)#### data: ovs.tab## X-squared = 2.4378, df = NA, p-value = 0.1634

Ludbrook (2008) bespricht noch einige feinere Punkte zur Analyse von 2× 2-Kreuztabellen.

McNemars Test für gepaarte Daten

Der χ2-Test nimmt an, dass die Datenpunkte unabhängig voneinander sind. Im einfachen Fall,wo für jede Versuchsperson zwei Datenpunkte vorliegen (z.B. das binäre Ergebnis bei sowohleinem Pre- als auch einem Posttest), bietet McNemars Test eine Alternative.

Als fiktives Beispiel betrachten wir die Ergebnisse 36 Studierender bei einem Pre- und einemPosttest. Elf der 36 Studierenden (31%) bestanden den Pretest, während 19 (53%) den Posttestbestanden. Kann diese Zunahme als signifikant betrachtet werden oder ist es zu wahrscheinlich,solche Unterschiede rein durch Zufall zu beobachten? Um diese Frage zu beantworten müssenwir wissen, wie sich diese Zahlen genau zusammensetzten. Die folgende Tabelle zeigt, wie sichdas Ergebnis der Versuchspersonen zwischen dem Pre- und Posttest geändert hat:

zweite Erhebungerste Erhebung nicht bestanden bestanden Summe

nicht bestanden 15 10 25bestanden 2 9 11

Summe 17 19 36

Die Zahl derer, die den Pretest bestanden (11), setzt sich also aus 9, die auch den Posttestbestanden, und 2, die den Posttest nicht bestanden, zusammen, während die Zahl derer, dieden Posttest bestanden (19), sich aus 9 (Pretest bestanden) und 10 (Pretest nicht bestanden)zusammensetzt. Wenn wir einfach die Zahlen 11 und 19 miteinander vergleichen würden,würden wir also 9 Versuchspersonen doppelt mitzählen. McNemars Test vergleicht daher nurdie 10 und 2 Versuchspersonen, deren Ergebnis sich zwischen den beiden Tests geändert hat.2

In R:

# Tabelle eintragenprepost.tab <- rbind(c(15, 10),

c(2 , 9))# Anzeigenprepost.tab

2Um dies zu überprüfen, können Sie einen χ2-Test mit nur den Zahlen 10 und 2 durchführen: chisq.test(c(10,2)). Das Ergebnis wird jenem von McNemars Test gleich sein.

Page 132: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 125

## [,1] [,2]## [1,] 15 10## [2,] 2 9

# McNemars Test ausführenmcnemar.test(prepost.tab, correct = FALSE)

#### McNemar's Chi-squared test#### data: prepost.tab## McNemar's chi-squared = 5.3333, df = 1, p-value =## 0.02092

McNemars Test weist einen signifikanten Unterschied zwischen der Proportion der Studierenden,die den Posttest bestanden, vs. jener, die den Pretest bestanden, auf (χ2(1) = 5.3, p = 0.02). Dercorrect-Parameter wurde auf FALSE gestellt, um die zu strenge Yates-Korrektur auszuschalten.

Andere Arten von Abhängigkeiten in den Daten müssten wohl mit fortgeschritteneren Verfahrenberücksichtigt werden, siehe Abschnitt 9.2.

8.1.6 Aufgaben (und ein zusätzlicher Test)

1. Auf Seite 118 wurde die Kreuztabelle mit dem Befehl xtabs(~Korrekt + Kategorie,rezgram_prob) erzeugt. Führen Sie jetzt einen χ2-Test für die Kreuztabelle, die mit demBefehl xtabs(~Kategorie + Korrekt, rezgram_prob) (andere Reihenfolge der Varia-blen) erzeugt wird, aus. Macht es für die Analyse etwas aus, welche Variable in den Zeilenund welche in den Spalten steht?

2. Das Many Labs-Projekt (Klein et al. 2014) untersuchte, inwiefern dreizehn ausgewählte‘klassische’ Befunde aus der Sozialpsychologie empirisch repliziert werden konnten. DieDaten dieses Projekts sind frei zugänglich unter osf.io/wx7ck/; eine für diese Aufgabengekürzte Version dieser Daten finden Sie in manyLabs_gekuerzt.csv.Die Daten, die wir zunächst analysieren, stammen aus einer Replikation eines Experimentsvon Tversky & Kahneman (1981). Sie legten den Versuchspersonen folgendes Szenariovor: Eine seltene tödliche Krankheit bedroht 600 Menschen in den USA. Der Regierungstehen zwei Möglichkeiten zur Auswahl: Die erste Möglichkeit (A) wird 200 Leben retten(400 sterben), während die zweite Möglichkeit (B) zu einer Wahrscheinlichkeit von 1/3 alle600 Menschen retten wird (keiner stirbt) und zu einer Wahrscheinlichkeit von 2/3 keinenretten wird (alle sterben). (Mathematisch sind beide Möglichkeiten gleichwertig.) DieVersuchspersonen mussten ihre präferierte Möglichkeit auswählen, wurden aber ohne eszu wissen einer von zwei Konditionen zugeteilt: Je nach Kondition wurden die Möglichkeitals ‘Gewinne’(also ‘200 werden gerettet’ bzw. ‘zu einer Wahrscheinlichkeit von 1/3 werdenalle 600 gerettet’) oder als ‘Verluste’ (also ‘400 sterben’ bzw. ‘zu einer Wahrscheinlichkeitvon 2/3 sterben alle 600’) formuliert.Trotz mathematischer Äquivalenz der Möglichkeiten und Formulierungen fanden Tversky& Kahneman (1981), dass Versuchspersonen in der ‘Gewinn’-Kondition eher MöglichkeitA wählten und Versuchspersonen in der ‘Verlust’-Kondition eher Möglichkeit B wählten.

(a) Lesen Sie den gekürzten Datensatz ein.

(b) Die Daten wurden an verschiedenen Universitäten erhoben. Für diese Analyse be-schränken wir uns auf die Daten, die an der Texas A&M University (tamu) erhobenwurden:

Page 133: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 126

manyLabs_tamu <- subset(manyLabs, sample == "tamu")

(c) Die Kondition (Gewinn vs. Verlust) steht in der Spalte gainlossgroup, die bevorzugteVorgehensweise der Versuchspersonen in der Spalte gainlossDV. Erzeugen Sie eineKreuztabelle mit diesen beiden Variablen und zeigen Sie diese an.

(d) Sie werden feststellen, dass es sich nicht um eine 2 × 2-Kreuztabelle handelt: ZweiVersuchspersonen haben keine Antwort gegeben; diese Antworten wurden durcheine Leertaste ersetzt. Entfernen Sie diese aus der Analyse. Dazu gibt es ein paarMöglichkeiten. Am einfachsten ist wohl, den Datensatz nochmals einzulesen, aberdabei zu spezifizieren, dass fehlende Werte in diesem Datensatz nicht als NA sondernmit einer Leertaste kodiert wurden (siehe ?read.csv und dann na.strings):

manyLabs <- read.csv("manyLabs_gekuerzt.csv", na.strings = " ")

(e) Stellen Sie die Ergebnisse in einer sinnvollen Grafik dar. Werden die Befunde vonTversky & Kahneman (1981) (rein deskriptiv) bestätigt?

(f) Erste Frage: Wählen Versuchspersonen in der ‘Gewinn’-Kondition eher die sichereMöglichkeit als die unsichere Möglichkeit?

• Wie viele Versuchspersonen gibt es in der ‘Gewinn’-Kondition?

• Welche Proportion der Versuchsperson in der ‘Gewinn’-Kondition wählt Möglich-keit A vs. B?

• Der geeignete Test für diese Fragestellung ist der Binomialtest:

binom.test(c(A, B))

wo A und B die Anzahl Entscheidungen für Alternativen A bzw. B sind.3 Bevorzü-gen Versuchspersonen in der ‘Gewinn’-Kondition signifikant Möglichkeit A?

(g) Zweite Frage: Wählen Versuchspersonen in der ‘Verlust’-Kondition eher die unsichereals die sichere Möglichkeit?

• Wie viele Versuchspersonen gibt es in der ‘Verlust’-Kondition?

• Welche Proportion der Versuchsperson in der ‘Verlust’-Kondition wählt Möglich-keit B vs. A?

• Bevorzügen Versuchspersonen in der ‘Verlust’-Kondition signifikant MöglichkeitB?

(h) Dritte Frage: Wählen Versuchspersonen in der ‘Gewinn’-Kondition eher die sichere alsdie unsichere Möglichkeit verglichen mit Versuchspersonen in der ‘Verlust’-Kondition?

• Wie unterscheidet sich diese Forschungsfrage von den vorigen zwei?

• Um diese Frage zu beantworten können Sie einen χ2-Test auf die ganze Kreuzta-belle ausführen. Tun Sie dies und berichten Sie das Ergebnis.

Merksatz: Je nach konkreter Fragestellung sind andere Tests angebracht: Fragen 1 und2 beziehen sich auf absolute Unterschiede: Bevorzügen die Versuchspersonen in einerbestimmten Gruppe (zu mehr als 50%) diese oder jene Alternative? Frage 3 bezieht sichauf den relativen Unterschied zwischen den Gruppen: Bevorzügen die Versuchspersonenin der einen Gruppe Alternative A öfter als die in der anderen Gruppe? Die Antwort auf

3chisq.test(c(A, B)) ergibt ungefähr das gleiche Ergebnis (annähernder Test), ist aber auf den Fall mit mehr alszwei Gruppen generalisierbar (z.B. chisq.test(c(A, B, C, D)), wenn es vier Antwortmöglichkeiten gegeben hätte).Die Nullhypothese ist hier, dass alle vier Möglichkeiten gleich oft vorkommen.

Page 134: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 127

die dritte Frage kann durchaus ‘ja’ sein, auch wenn beide Gruppen sich eher für B als für Aentscheiden, z.B. wenn die Kreuztabelle so aussähe:

‘Gewinn’-Kondition ‘Verlust’-Kondition

Möglichkeit A 18 5Möglichkeit B 30 62

Tipp: Berechnen bzw. berichten Sie nicht alle Tests, die Sie mit Ihren Daten ausführenkönnen, sondern nur die, die auch für Ihre Forschungsfrage relevant sind. (Es ist übrigensnicht unbedingt klar, welcher der entscheidene Test in diesem Beispiel ist: Sowohl Fragen 1und 2 einerseits und Frage 3 andererseits scheinen mir sinnvoll, heben aber andere Aspekteder Studie hervor.)

3. Ein anderer Befund, den Klein et al. (2014) zu replizieren versuchten, geht auf Rugg (1941)zurück. Etwa die Hälfte der Versuchspersonen wurde gefragt, ob ihr Land Reden gegendie Demokratie erlauben soll (‘erlauben’-Kondition), währen die andere Hälfte gefragtwurde, ob ihr Land Reden gegen die Demokratie untersagen soll (‘untersagen’-Kondition).Rugg (1941) fand (in politisch besonders heiklen Zeiten), dass 62% der Befragten in der‘erlauben’-Kondition ‘nein’ antworteten und somit die Repression anti-demokratischerReden unterstützten, während nur 46% der Befragten in der ‘untersagen’-Kondition ‘ja’antworteten und somit Repression unterstützten.

(a) Lesen Sie die Many Labs-Daten ein und beschränken Sie die Analyse auf die Daten,die am Abington-Campus der Penn State University erhoben wurden (sample ==”abington”).

(b) Die Kondition, in der die Versuchspersonen befragt wurden, steht in der SpalteallowedforbiddenGroup; die Antwort auf die Frage, die ihnen gestellt wurde, inder Spalte allowedforbidden. Erzeugen Sie eine Kreuztabelle mit diesen Variablen.

(c) Wie viele Versuchspersonen enthält diese Stichprobe? Wie viele unter ihnen unter-stützen die Repression anti-demokratischer Reden? (Welche Zahlen müssen dazubeieinander aufgezählt werden?)4

(d) Unterscheidet sich die Proportion der Befragten, die Repression unterstützen würden,je nach der Form der Frage? Stellen Sie die Daten sinnvoll grafisch dar und führen Sieden geeigneten Test aus.5

8.2 Logistische Regression

8.2.1 Warum logistische Regression?

Wollen wir den Zusammenhang zwischen einer kontinuierlichen unabhängigen und einernominalen abhängigen Variable untersuchen, dann bringt uns der χ2-Test nichts. Ausserdem

4

DieBedeutungvon‘yes’und‘no’unterscheidetsichjenachKondition:Insgesamtunterstützen12der82BefragtendieRepressionanti-demokratischerReden(9würdensolcheRedennichterlaubenund3würdensieverbieten).

5

DieKreuztabelle,dieSievorhererzeugten,würdeSieaufdiefalscheSpurbringen:Diesezeigtja,wiesichdieAnzahl‘yes’-und‘no’-AntwortenjenachKonditionunterscheidet–washiernichtvonInteresseist.AmbestengestaltenSiedieTabellesoum(sieheSeite124):

‘erlauben’-Kondition‘untersagen’-Kondition

fürRepression93gegenRepression2743

Page 135: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 128

lässt sich mit einem χ2-Test nur der Effekt einer unabhängigen Variable untersuchen, währendANOVAs und lineare Regressionen mehrere Prädiktoren aufnehmen können.

Auf den ersten Blick könnte man dieses Problem einfach lösen, indem man die abhängigeVariable zu Proportionen oder Prozentsätzen konvertiert. Mit diesem Ansatz gibt es ein paarProbleme, die detaillierter von Jaeger (2008) besprochen werden:

• Proportionen und Prozentsätze liegen zwischen 0 und 1 bzw. zwischen 0 und 100. ANOVAsund lineare Regressionen ‘wissen’ aber nicht, dass Werte über 1 (100) oder unter 0 nichtsinnvoll sind. Deshalb ergeben sie manchmal sinnlose Resultate.

• Bei 50% richtigen Antworten gibt es erheblich mehr Unsicherheit darüber, ob eine willkür-liche Antwort jetzt richtig oder falsch war, als dies bei 95% richtigen Antworten der Fall ist.Dies ist eine Verletzung der Annahme der gleichen Varianzen, die von ANOVAs und auchvon linearen Regression gemacht wird.

• Eine wichtige Information geht verloren: Auf wie vielen Beobachtungen basiert die Propor-tion? Ein Prozentsätz von 60% kann sowohl einer Datenverteilung von zwei falschen vs.drei richtigen Antworten als einer Verteilung von 200 falschen und 300 richtigen Antwortenentsprechen. Die 60% sind aber viel zuverlässiger im letzteren Fall.

Aus diesen drei Gründen sind ANOVAs und lineare Regressionen nicht optimal, wenn dieabhängige Variable eigentlich eine binäre Variable ist. Die Lösung heisst logistische Regression.Die Logik hinter logistischer Regression wird beschrieben von Jaeger (2008); hier gehen wiranhand eines Beispiels nur auf das Wichtigste ein.6

8.2.2 Odds und log-odds

In Abschnitt 8.1.5 verglichen wir bereits das Verständnis von deutschen Sätzen mit Satzklammerverglichen mit semantisch ähnlichen Sätzen ohne Satzklammer durch beginnende Germanis-tikstudierende (basierend auf den Daten von Kaiser & Peyer 2011) mithilfe eines χ2-Tests. DieErgebnisse werden hier nochmals zusammengefasst:

mit Satzklammer ohne Satzklammer

richtig verstanden 22 19falsch verstanden 14 16

Wir können sagen, dass 2222+14 = 61% der Sätze mit Satzklammer richtig verstanden wurden,

verglichen mit nur 1919+16 = 54% der Sätze ohne Satzklammer. Wir können dies aber auch anders

formulieren: Eine richtige Antwort ist bei den Sätzen mit Satzklammer 2214 = 1.57 Mal wahr-

scheinlicher als eine falsche Antwort. Bei den Sätzen ohne Satzklammer ist eine richtige Antwortnur 19

16 = 1.19 Mal wahrscheinlicher als eine falsche Antwort. Ausserdem können wir auch sagen,dass es 1.19

1.57 = 0.76 Mal wahrscheinlicher (also weniger wahrscheinlich) ist, eine richtige Antwortzu beobachten bei den Sätzen mit Satzklammer als bei den Sätzen ohne Satzklammer. DieseDarstellung von Wahrscheinlichkeiten nennt man odds.

Aus Gründen der mathematischen Effizienz wird in logistischer Regression nicht direkt mitdiesen odds gearbeitet, sondern werden diese logarithmisch transformiert, was log-odds ergibt.Beispiel: ln 1.57 = 0.45, das heisst, die log-odds, dass die Sätze mit Satzklammer richtig verstandenwerden, liegt bei 0.45. Der Zusammenhang zwischen log-odds und Proportionen schaut so aus:

6Die Art logistische Regression, die wir hier besprechen, eignet sich nur für den Fall, wo die abhängige Variable binär(ja–nein, richtig–falsch, vorhanden–nicht vorhanden) ist. Es gibt auch ähnliche Verfahren für ordinalskalierte Daten undmultinomiale Daten, siehe dazu Baayen (2008, Abschnitt 6.3.2) und Faraway (2006, Kapitel 5).

Page 136: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 129

−6 −4 −2 0 2 4 6

0.0

0.2

0.4

0.6

0.8

1.0

log−oddsP

ropo

rtio

n

Prozentsätze, odds und log-odds können so zueinander konvertiert werden:

Prozentsätze zu odds

odds richtig =Anzahl richtigAnzahl falsch

(8.2)

=Prozentsatz richtigProzentsatz falsch

(8.3)

Also: 2214 = 61%

39% = 1.57

Odds zu Proportionen

Proportion richtig =odds richtig

1 + odds richtig(8.4)

Also: 1.571+1.57 = 61%

log-odds zu odds

odds richtig = exp(log-odds) (8.5)

≈ 2.72log-odds (8.6)

Also: 2.720.45 ≈ 1.57

log-odds zu Proportionen

Proportion richtig =exp(log-odds)

exp(log-odds) + 1(8.7)

=1

1 + exp(−log-odds)(8.8)

Also: 2.720.45

2.720.45+1 = 61%. Oder kürzer in R:

plogis(0.45)

## [1] 0.6106392

Page 137: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 130

8.2.3 Logistische Regression mit einem kategorischen Prädiktor

Daten einlesen

Die obige Kreuztabelle können wir, neben in einem χ2-Test, auch in einer logistischen Regressionanalysieren. Dazu lesen wir die aggregierten Daten nochmals ein:

richtig <- c(22, 19)falsch <- c(14, 16)Problemstruktur <- c("ja", "nein")

Der Sicherheit halber kontrollieren wir diese Einträge nochmals:

cbind(Problemstruktur, richtig, falsch)

## Problemstruktur richtig falsch## [1,] "ja" "22" "14"## [2,] "nein" "19" "16"

Modell berechnen (erste Möglichkeit)

Mit der glm()-Funktion führen wir Problemstruktur ist die unabhängige Variable, währenddie abhängige Variable aus der Anzahl richtige vs. falsche Antworten besteht. Diese werden mitcbind() zusammengeknüpft. Da es sich um eine binäre abhängige Variable handelt, wird derfamily-Parameter als "binomial" spezifiziert:

sklam.glm <- glm(cbind(richtig, falsch) ~ Problemstruktur,family = "binomial")

Koeffiziente interpretieren

Schauen wir uns die Koeffiziente dieses Modells an:

# Koeffiziente des Modells anschauensummary(sklam.glm)$coefficients

## Estimate Std. Error z value Pr(>|z|)## (Intercept) 0.4520 0.3419 1.3221 0.1862## Problemstrukturnein -0.2801 0.4817 -0.5816 0.5608

• Das (Intercept) stellt die Wahrscheinlichkeit einer richtigen Antwort, wenn die Pro-blemstruktur vorliegt (Problemstruktur == "ja"), in log-odds dar. Die Anzahl richtigeAntworten, denn in der glm()-Funktion wurde zuerst die Spalte mit der Anzahl richtigeAntworten eingetragen, und die Fälle mit Problemstruktur, denn Problemstruktur =="ja" kommt alphabetisch vor Problemstruktur == "nein". 0.452 log-odds entspricht= 1.57 odds richtig = 61% richtig, was wir alles bereits oben selber berechnet hatten.

• Der p-Wert wurde anhand des z-Werts für diese Schätzung (Estimate geteilt durch Std.Error) berechnet und bezieht sich auf die Nullhypothese, dass der wahre Parametereigentlich 0 log-odds ist. Dies entspricht einer Wahrscheinlichkeit von 50%.

• Die Schätzung für Problemstrukturnein sagt uns, um wie viel log-odds die Wahrschein-lichkeit einer richtigen Antwort ändert, wenn die Problemstruktur nicht vorliegt. DieÄnderung von −0.280 log-odds sagt uns, dass eine richtige Antwort 2.72−0.280 ≈ 0.76 Malwahrscheinlicher (also unwahrscheinlicher) ist, wenn die Problemstruktur nicht vorliegt

Page 138: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 131

als wenn sie vorliegt. Diese Änderung ist nach dem z-Test jedoch nicht signifikant (z = 0.58,p = 0.56.)

• Um die log-odds einer richtigen Antwort bei Sätzen ohne Problemstruktur zu erhalten,müssen wir die Schätzung des Intercepts und die Schätzung für Problemstrukturneinaddieren: 0.45 − 0.28 = 0.17. Konvertiert zu einem Prozentsatz heisst dies 54% – was wirebenfalls oben schon berechnet hatten.

Vergleichen Sie den p-Wert der Schätzung für Problemstrukturnein mit jenem des χ2-Testsin Abschnitt 8.1.5.

Modell berechnen (zweite Möglichkeit)

Das Regressionsmodell können wir auch ohne Kreuztabelle berechnen. Die Spalte Korrekt imDatensatz rezgram_sklam enthält eine binäre Variable (‘ja’ und ‘nein’). Da ‘ja’ alphabetisch vor‘nein’ kommt, gilt ‘ja’ als ‘Referenzlevel’ dieser Variable:

summary(rezgram_sklam$Korrekt)

## ja nein## 41 30

Wenn wir diese Daten so analysieren würden, würden wir die Wahrscheinlichkeit einer falschenAntwort modellieren. Unter dem Strich macht dies nichts aus, aber ich finde es einfacher, wenndie Wahrscheinlichkeit einer richtigen Antwort modelliert wird. Daher ändere ich hier dasReferenzlevel:

rezgram_sklam$Korrekt <- factor(rezgram_sklam$Korrekt,levels = c("nein", "ja"))

summary(rezgram_sklam$Korrekt)

## nein ja## 30 41

Jetzt gilt ‘nein’ als Referenzlevel (steht zuerst). Die Analyse verläuft jetzt recht ähnlich wie beieiner linearen Regression, nur wird statt lm() die glm()-Funktion verwendet:

sklam.glm <- glm(Korrekt ~ Problemstruktur,data = rezgram_sklam,family = "binomial")

summary(sklam.glm)$coefficients

## Estimate Std. Error z value Pr(>|z|)## (Intercept) 0.4520 0.3419 1.3221 0.1862## Problemstrukturnein -0.2801 0.4817 -0.5816 0.5608

Die Koeffiziente und ihre Signifikanz sind nach wie vor die gleichen.

Grafische Darstellung des Modells

Mit dem effects-Package können die Ergebnisse eines logistischen Modells verständlich dar-gestellt werden. Die in log-odds modellierten Wahrscheinlichkeiten werden automatisch zuProportionen zwischen 0 und 1 konvertiert und von ihrem 95%-Konfidenzintervall begleitet.

Page 139: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 132

library(effects)plot(allEffects(sklam.glm),

type = "response",main = "Satzklammer",ylab = "Wahrscheinlichkeit richtige Antwort",ylim = c(0, 1))

Satzklammer

Problemstruktur

Wah

rsch

einl

ichk

eit r

icht

ige

Ant

wor

t

0.0

0.2

0.4

0.6

0.8

1.0

ja nein

8.2.4 Logistische Regression mit Interaktionen

The difference between “significant” and “not significant” is not itself statistically significant

Wenn eine binäre abhängige Variable auch mit einem relativ einfachen χ2-Test analysiert wer-den kann, ist der Reiz zur Verwendung eines logistischen Modells natürlich nicht sehr gross.Der Vorteil von logistischer Regression besteht darin, dass sie mehrere Prädiktoren gleichzeitigberücksichtigen kann, darunter auch kontinuierliche Prädiktoren. Interaktionen können ebensoberücksichtigt werden.

Keysar et al. (2012) untersuchten, ob Versuchspersonen, die mit einem Dilemma in einer Fremd-sprache konfrontiert werden, rationaler an diesem Problem herangehen als in ihrer Erstsprache.Dazu legten sie in ihrem Experiment 1a 121 englischsprachigen Studierenden mit Japanisch-kenntnissen das klassische Szenario von Tversky & Kahneman (1981), dem wir bereits in Übung2 auf Seite 125 begegnet sind, vor. Zusätzlich zu der Formulierung (Gewinn–Verlust) wurde indiesem Experiment die Sprache des Problems manipuliert: 61 Versuchspersonen erledigten dieAufgabe auf Englisch, 60 auf Japanisch. Die Ergebnisse habe ich auf der Basis des Berichtes hierrekonstruiert:

englische Version japanische Version

Gewinn Verlust Gewinn Verlust

sichere Möglichkeit 24 14 13 12unsichere Möglichkeit 7 16 17 18

Keysar et al. (2012) berichteten, dass sich in der englischen Fassung einen signifikanten Effekt der

Page 140: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 133

Formulierungsart nachweisen lässt, in der japanischen Version jedoch nicht. Der Vollständigkeithalber können wir dies überprüfen:

# englische Versionchisq.test(rbind(c(24, 14),

c(7, 16)), correct = FALSE)

#### Pearson's Chi-squared test#### data: rbind(c(24, 14), c(7, 16))## X-squared = 6.1, df = 1, p-value = 0.01

# japanische Versionchisq.test(rbind(c(13, 12),

c(17, 18)), correct = FALSE)

#### Pearson's Chi-squared test#### data: rbind(c(13, 12), c(17, 18))## X-squared = 0.069, df = 1, p-value = 0.8

Dies sind die genauen Ergebnisse, die von Keysar et al. (2012) berichtet werden.7 Aber: Auseinem signifikanten Ergebnis in der einen Kondition und einem nicht-signifikanten Ergebnisin der anderen kann man nicht unbedingt schlussfolgern, dass es einen Unterschied zwischenden beiden Konditionen gibt (Gelman & Stern 2006). Vielmehr soll hier die Interaktion vonFormulierung und Sprache untersucht werden; dazu eignet sich eine logistische Regression.

Grafische Darstellung

In Keysar2012_Exp1a.csv stehen die rekonstruierten Daten von Keysar et al. (2012) zur Verfü-gung. Wir lesen ein und stellen diese grafisch dar, um sicher zu sein, dass die Einträge stimmen,zum Beispiel in einem Mosaikplot. In einem solchen Plot ist die Fläche einer Zelle proportionalzu der Anzahl Datenpunkte in dieser Zelle; man muss allerdings ein bisschen mit der Reihenfolgeder Variablen herumspielen, bis man eine informative Darstellungsart findet:

keysar <- read.csv("Keysar2012_Exp1a.csv")summary(keysar)

## Sprache Formulierung Wahl## Englisch :61 Gewinn :61 sicher :63## Japanisch:60 Verlust:60 unsicher:58

plot(xtabs(~ Sprache + Wahl + Formulierung, keysar),main = "Keysar et al. (2012, Exp. 1a)")

7Keysar et al. (2012) berichten allerdings den konservativeren p-Wert für den χ2-Wert mit Yates-Korrektur.

Page 141: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 134

Keysar et al. (2012, Exp. 1a)

Sprache

Wah

l

Englisch Japanisch

sicher

unsicher

Gewinn Verlust Gewinn Verlust

Wiederum ist ein Cleveland dotchart eine geeignete Alternative. Zuerst berechnen wir dieProportion ‘sichere’ Wahlen pro Zelle (Sprache Formulierung):

library(dplyr)summary_keysar <- summarise(group_by(keysar, Sprache, Formulierung),

ProportionSicher = mean(Wahl == "sicher"))summary_keysar

## Source: local data frame [4 x 3]## Groups: Sprache [?]#### Sprache Formulierung ProportionSicher## (fctr) (fctr) (dbl)## 1 Englisch Gewinn 0.7742## 2 Englisch Verlust 0.4667## 3 Japanisch Gewinn 0.4333## 4 Japanisch Verlust 0.4000

Der folgende Kode illustriert ein paar Möglichkeiten, die das ggplot2-Package bietet.

library(ggplot2)ggplot(summary_keysar,

aes(x = ProportionSicher,y = Formulierung,shape = Sprache, # unterschiedliche Symbole pro Sprachecolour = Sprache, # Farben pro Sprache (optional)group = Sprache)) + # gleiche Sprache mit Linie verbinden

geom_point() + # Punkte zeichnengeom_line() + # Linien zeichnen; kann auch weggelassen werdenxlab("Proportion 'sichere' Wahlen") +xlim(0, 1) + # Länge x-Achseggtitle("Keysar et al. (2012, Exp. 1a)") +theme(legend.position = "top") # Beschriftung oben

Page 142: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 135

Gewinn

Verlust

0.00 0.25 0.50 0.75 1.00Proportion 'sichere' Wahlen

For

mul

ieru

ngSprache Englisch Japanisch

Keysar et al. (2012, Exp. 1a)

Modell mit Interaktion

Mit der glm()-Funktion berechnen wir jetzt ein logistisches Modell mit Formulierung undSprache als Prädiktoren sowie auch ihrer Interaktion (kürzere Möglichkeit: Formulierung *Sprache).

keysar.glm <- glm(Wahl ~ Formulierung + Sprache + Formulierung:Sprache,data = keysar,family = "binomial")

# Nur zwei Spalten aus Platzgründen:summary(keysar.glm)$coefficients[,c(1:2)]

## Estimate Std. Error## (Intercept) -1.232 0.4296## FormulierungVerlust 1.366 0.5643## SpracheJapanisch 1.500 0.5659## FormulierungVerlust:SpracheJapanisch -1.228 0.7701

# Sie können gerne den ganzen Output anzeigen:# summary(keysar.glm)

Das (Intercept) stellt die Wahrscheinlichkeit einer Wahl für die unsichere Möglichkeit in derenglischen Version für die ‘Gewinn’-Formulierung dar, und zwar in log-odds (−1.23 log-odds ≈23% = 7

30 aus der obigen Tabelle). Die anderen Proportionen aus der obigen Tabelle lassen sichebenfalls aus diesen Koeffizienten herleiten, etwa dass 18 der 30 Versuchspersonen (60%) in derjapanischsprachigen ‘Verlust’-Kondition die unsichere Option wählen: −1.23 + 1.37 (HaupteffektVerlust) +1.50 (Haupteffekt Japanisch) −1.23 (Interaktionseffekt, wenn sowohl Verlust undJapanisch) = 0.41 log-odds = 60%.

Die Signifikanz der Interaktion ist, was uns hier eigentlich interessiert. Der z-Test aus demsummary()-Output deutet schon darauf hin, dass der Interaktionsterm nicht signifikant ist(z = 1.6, p = 0.11). Eine allgemeiner gültige Methode, eine solche Signifikanz zu berechnen, istmithilfe der anova()-Funktion:

anova(keysar.glm, test = "Chisq")

## Analysis of Deviance Table#### Model: binomial, link: logit

Page 143: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 136

#### Response: Wahl#### Terms added sequentially (first to last)###### Df Deviance Resid. Df Resid. Dev## NULL 120 168## Formulierung 1 3.66 119 164## Sprache 1 5.29 118 159## Formulierung:Sprache 1 2.59 117 156## Pr(>Chi)## NULL## Formulierung 0.056## Sprache 0.022## Formulierung:Sprache 0.108

Vorsicht: Die anova()-Funktion führt hier keine Varianzanalyse im traditionellen Sinne aus,sondern teilt hier die Devianzen je nach Variable auf und führt dann einen χ2-Test aus. So wichtigsind die Details für unsere Zwecke nicht.

Die Haupteffekt von Formulierung und Sprache interessieren uns hier nicht. Nur die Interak-tion ist relevant und nach einem χ2-Test ist diese nicht signifikant (χ2(1) = 2.6 (= Deviance),p = 0.11 (= sehr ähnlich wie jener vom z-Test)). Dies heisst natürlich nicht, dass es keine Inter-aktion gibt, aber ich halte es für eine sinnvolle Illustration des Prinzips, dass der Unterschiedzwischen ‘signifikant’ und ‘nicht signifikant’ selber nicht signifikant zu sein braucht – auch wenndie p-Werte sich massiv voneinander unterscheiden (hier: p = 0.01 und p = 0.80). Die Befundevon Keysar et al. (2012) wurden andererorts übrigens, so viel ich weiss, weitgehend repliziertund erweitert (etwa Costa et al. 2014a,b) – obwohl auch diese Forschenden nicht die Signifikanzder Interaktion überprüften.

8.2.5 Logistische Regression mit kontinuierlichen Prädiktoren

Vanhove & Berthele (2013) legt etwa 100 deutschsprachigen Probanden eine Liste mit dänischen,friesischen, niederländischen und schwedischen Wörtern vor, die sie ins Deutsche zu übersetzenhatten. Diese Übersetzungen wurden als richtig oder falsch beurteilt. 181 der insgesamt 200Wörter hatten verwandte deutsche, englische oder französische Wörter mit der grundsätzlichgleichen Bedeutung (Kognaten). Für jedes Wort berechneten Vanhove & Berthele (2013) den Gradseiner orthographischen Überlappung mit dem nächstverwandten Kognat. Für diese Übungwird diese Grad der orthographischen Überlappung als eine Zahl zwischen 0 (keine Überlap-pung) und 10 (komplette Überlappung) dargestellt. Ziel dieser Übung ist es, den Zusammenhangzwischen dem Grad der orthographischen Überlappung und der Wahrscheinlichkeit einer richti-gen Antwort zu modellieren. Dazu schauen wir uns die Daten einer einzigen Versuchsperson an,die in VanhoveBerthele2013_eineVpn.csv gespeichert sind; um die Daten mehrerer Versuchs-personen gleichzeitig zu modellieren, wären Verfahren wie gemischte Modelle (siehe Baayen2008; Jaeger 2008) wegen der Abhängigkeiten in den Daten besser geeignet.

# Daten einlesen und zeigendat <- read.csv("VanhoveBerthele2013_eineVpn.csv")# summary(dat)

Page 144: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 137

Grafische Darstellung

Es liegt nicht ganz auf der Hand, welche Grafik sich am besten eignet, um den Zusammenhangzwischen einem kontinuierlichen Prädiktor und einem binären Ergebnis darzustellen.

Eine Möglichkeit ist es, die binäre Variable (‘falsch’ vs. ‘richtig’) zu Zahlen zu konvertieren(0 vs. 1), dann ein Streudiagramm zu zeichnen, und diesem Streudiagramm eine Trendlinie(‘smoother’) hinzuzufügen.

# neue Variable mit 1 (wenn Korrekt == richtig) und 0 (sonst):dat$Korrekt.zahl <- ifelse(dat$Korrekt == "richtig",

yes = 1,no = 0)

# Streudiagramm mit smootherlibrary(ggplot2)ggplot(dat,

aes(x = OrthOverlap,y = Korrekt.zahl)) +

geom_jitter(h = 0.1, w = 0, pch = 1) +geom_smooth(se = FALSE) + # ohne Konfidenzbandxlab("orthografische Überlappung") +xlim(0, 10) +ylab("richtig (1) vs. falsch (0)")

0.00

0.25

0.50

0.75

1.00

0.0 2.5 5.0 7.5 10.0orthografische Überlappung

richt

ig (

1) v

s. fa

lsch

(0)

Diese Grafik zeigt, dass mit zunehmender orthografischer Überlappung Kognate häufiger richtigübersetzt werden und dass keine starken nicht-linearen Muster vorliegen (z.B. zuerst Zunahmeund dann wieder Abnahme). Daher ist es berechtigt, orthografische Überlappung als kontinuier-lichen linearen Prädiktor ins Modell aufzunehmen.

Modell

Der kontinuierliche Prädiktor kann einfach mit glm() modelliert werden:

dat.glm <- glm(Korrekt ~ OrthOverlap,data = dat,family = "binomial")

summary(dat.glm)$coefficients

Page 145: Statistische Grundlagen

KAPITEL 8. MIT KATEGORIALEN ABHÄNGIGEN VARIABLEN ARBEITEN 138

## Estimate Std. Error z value Pr(>|z|)## (Intercept) -3.3132 0.7340 -4.514 6.366e-06## OrthOverlap 0.5944 0.1144 5.198 2.014e-07

Das (Intercept) ist hier nicht so wichtig, stellt wie gehabt aber dar, wie wahrscheinlich einerichtige Antwort ist, wenn OrthOverlap 0 ist, und zwar in log-odds. Wichtiger ist die Schätzungfür OrthOverlap. Diese zeigt, wie viel wahrscheinlicher (in log-odds) eine richtige Antwort wird,wenn OrthOverlap um eine Einheit steigt. Wenn OrthOverlap = 1, dann ist die modellierteWahrscheinlichkeit einer richtigen Antwort: −3.31 + 1× 0.59 = −2.72 log-odds, oder etwa 6%.Wenn OrthOverlap = 4.6, dann: −3.31 + 2 × 0.59 = −2.13 log-odds, oder etwa 11%. Oderauch: Wenn OrthOverlap um 1 steigt, dann wird eine richtige Antwort 2.720.59 ≈ 1.8 Malwahrscheinlicher.

Der modellierte Effekt grafisch dargestellt mit dem effects-Package:

library(effects)plot(allEffects(dat.glm),

type = "response",ylab = "Wahrscheinlichkeit richtig",ylim = c(0, 1),xlab = "Orthographische Überlappung",main = "")

Orthographische Überlappung

Wah

rsch

einl

ichk

eit r

icht

ig

0.0

0.2

0.4

0.6

0.8

1.0

2 3 4 5 6 7 8 9 10

Hier ergibt sich eine Kurve (und keine Gerade), da das Modell in log-odds berechnet wird,während für diese Grafik die modellierten Wahrscheinlichkeit zu Proportionen konvertiertwerden.

Page 146: Statistische Grundlagen

Teil III

Empfehlungen

139

Page 147: Statistische Grundlagen

Kapitel 9

Literaturempfehlungen

9.1 Wiederholung und Vertiefung von Gelerntem

Die folgenden Texte behandeln hauptsächlich Themen, die in diesem Kurs bereits besprochenwurden, aber deren Wiederholung und Vertiefung sinnvoll wären. Ich denke, dass Sie sich dieseReferenzen am sinnvollsten in der Reihenfolge, in der Sie aufgeführt werden, anschauen.

• Huff (1954), How to lie with statistics: Kurz und gut verständlich. Behandelt Themen wietäuschende Mittelwerte und Grafiken und selektives Berichten von Studien.

• Johnson (2013), Descriptive statistics: Wiederholung von Mittelwerten, Varianz und Vertei-lungen.

• Quené (2010), How to design and analyze language acquisition studies: Nützliche Wiederholungvon Konzepten wie Nullhypothesen, Typ-I-Fehler, power, Effektgrössen und benötigtenStichprobengrössen. Quenés Ratschlag, “[y]ou should really think about how the data willbe analyzed before the data are collected”, kann ich nur lautstark zustimmen.

• Goodman (2008), A dirty dozen: Twelve p-value misconceptions: p-Werte werden oft falsch bzw.überinterpretiert; dieser Artikel fasst die schwerwiegendsten Trugschlüsse zusammen.

• Cohen (1990), Things I have learned (so far); Cohen (1994), The Earth is round (p < .05):Nützliche allgemeine Hinweise für den Umgang mit quantitativen Daten sowie auchverständliche Einwände gegen p-Werte.

• Gelman & Stern (2006), The difference between “significant” and “not significant” is not itselfstatistically significant: Sie stellen fest, dass ein Prädiktor in der einen Stichprobe oderExperimentalgruppe einen signifikanten Effekt hat, in der anderen jedoch nicht. Bevor Sieauf der Basis dieses Unterschieds Schlussfolgerungen ziehen, lohnt sich eine Lektüre diesesArtikels. Ergänzend dazu habe ich noch den Blogeintrag Assessing differences of significancegeschrieben.

• Johnson (2008), Quantitative methods in linguistics: Wiederholung von den häufigsten Test-verfahren (t-Test, Korrelation, Regression, ANOVA, χ2-Test) sowie auch eine Einführung infortgeschrittenere Methoden (repeated-measures ANOVA, gemischte Modelle, Hauptkom-ponentenanalyse, logistische Regression).

140

Page 148: Statistische Grundlagen

KAPITEL 9. LITERATUREMPFEHLUNGEN 141

9.2 Fortgeschrittenere Methoden

In diesem Kurs haben wir uns mit den Grundlagen der quantitativen Analyse befasst. Dabeimussten wir uns leider hauptsächlich mit eher einfachen Forschungsfragen und fiktiven Da-tensätzen zufriedengeben. Der Grund ist naheliegend: Echte Fragenstellungen bedingen oftkompliziertere Designs mit etwa mehreren Messungen pro Versuchsperson oder sonstigen Ab-hängigkeiten (z.B. SchülerInnen aus unterschiedlichen Klassen). Um die Daten solcher Studienauszuwerten, sind oft fortgeschrittenere Verfahren angebracht. Diese Verfahren kann man sichaus meiner Sicht nach dem Need-to-know-Prinzip aneignen, aber zunächst ist es natürlich nötigzu wissen, welche Möglichkeiten es alles gibt. Die folgenden Texte besprechen Verfahren, diesich bei der Auswertung linguistischer und psychologischer Daten oft als nützlich erweisen, undwerden ihrer empfohlenen Lesereihenfolge nach aufgeführt:

• Winter (2013), Linear models and linear mixed effects models in R with linguistic applications:Eine Anleitung zu Regressionsmodellen, inkl. gemischte Modelle (siehe unten).

• Baayen (2008), Analyzing linguistic data: A practical introduction to statistics using R: Nimmtschon an, dass man mit den Basisbegriffen vertraut ist. Illustriert viele nützliche fort-geschrittenere Methoden und grafische Darstellungen mit R. Insbesondere die Kapitelzu Regressionmodellen und gemischten Modellen sind empfehlenswert. Draftversionverfügbar unter www.sfs.uni-tuebingen.de/ hbaayen/publications/baayenCUPstats.pdf.

• Baayen et al. (2008), Mixed-effects modeling with crossed random effects for subjects and items;Jaeger (2008), Categorical data analysis: Away from ANOVAs (transformation or not) and towardslogit mixed models; Quené & van den Bergh (2008), Examples of mixed-effects modeling withcrossed random effects and with binomial data: Gemischte Modelle bieten sich an, wenn jedeVersuchsperson mehrere Datenpunkte beiträgt, wie es in psycholinguistischen Experimen-ten oder in Korpusstudien üblich ist, und auch in anderen Fällen können sie nützlich sein.Diese drei Artikel besprechen die Logik dieser gemischten Modelle und illustrieren ihrenMehrwert anhand (psycho)linguistischer Daten.

• Johnson (2009), Getting off the GoldVarb standard: Introducing Rbrul for mixed-effects variablerule analysis; Tagliamonte & Baayen (2012), Models, forests, and trees of York English: Was/werevariation as a case study for statistical practice: Wenn Ihre Forschung eher in der Dialektologieoder variationistischen Soziolinguistik angesiedelt ist, lohnt sich die Lektüre dieser beidenArtikel als Einstieg in die statistische Auswertung komplexerer Datensätze. Beide Artikelbesprechen Alternativen zu dem, was man in der variationistischen Soziolinguistik alsVARBRUL kennt.

• Crawley (2007), The R book; Everitt & Hothorn (2010), A handbook of statistical analyses usingR; Levshina (2015), How to do linguistics with R: Diese Bücher (wie auch viele andere) bieteneine Übersicht fortgeschrittenere Verfahren und ihre Implementierung in R.

9.3 Informative Grafiken erzeugen

• Das ggplot2-Package (Wickham 2009) bietet fast unlimierte Möglichkeiten für die Herstel-lung informativer Grafiken. Seine Dokumentationswebseite ist dank der vielen Beispielebesonders nützlich.

• Chang (2013), R graphics cookbook: Verwendet auch das ggplot2-Package.

Page 149: Statistische Grundlagen

Kapitel 10

Praktische Empfehlungen

10.1 Planung

• Machen Sie sich über bewährte Forschungsdesigns und Erhebungsmethoden schlau. Siehehierzu etwa Blom & Unsworth (2010), Mackey & Gass (2012), Dörnyei (2003) und auchPorte (2002). Allgemeinere Referenzen sind etwa Krosnick & Presser (2010) zu Fragebogenund – technischer – Oehlert (2010) zu experimentellen Anordnungen.

• Überlegen Sie sich die Analyse bereits bei der Planung der Studie. Manchmal kann dasDesign der Studie noch minimal geändert werden, um die Analyse zu vereinfachern. Wenntrotzdem eine schwierigere Analyse angesagt ist, sollten Sie sich genügend Zeit gönnen,sich über die benötigten Verfahren schlau zu machen.

• Überlegen Sie sich im Vorhinein gut, für welche Vergleiche und Zusammenhänge Siesich genau interessieren. Die Analyse ist bei einer deutlichen Forschungsfrage erheblicheinfacher als bei einer vagen Vorstellung.

• Pilotieren Sie unbedingt Ihre Studie. Wenn sich bei der Pilotierung etwa herausstellt, dassmit Boden- oder Deckeneffekten zu rechnen ist, können Sie dann hoffentlich das Designnoch anpassen.

• Überlegen Sie sich die power Ihrer Studie, auch wenn es schwierig ist, sie in einer genauenZahl zu fassen. Die power könnte erhöht werden, indem mehr Versuchspersonen rekru-tiert werden, genauere, zuversichtliche Messungen erhoben werden (z.B. Sprachtest stattSelbsteinschätzung), die Studie als ein within-subjects-Design gestaltet wird (aber hieransind auch Nachteile verknüpft), mehrere Messungen pro Versuchsperson erhoben werdenund für die Studie uninteressante Quellen von Varianz ausgeschlossen oder im Designund in der Analyse berücksichtigt werden (siehe Seiten 90 und 108).

10.2 Analyse

• Tippen Sie Ihre Befehle nicht direkt in R ein, sondern schreiben Sie diese zuerst in ein Skript.Kommentieren Sie die Schritte in Ihrer Analyse: Jetzt sind diese nachvollziehbar, aber invier Monaten werden Sie nicht mehr wissen, was welcher Befehl genau bewirken soll.

• Zeichnen Sie beim Analysieren reichlich Grafiken: Nie blind herumrechnen! Kodierungs-fehler, Fehler beim Einlesen, problematische Ausreisser und sonstige relevante Muster

142

Page 150: Statistische Grundlagen

KAPITEL 10. PRAKTISCHE EMPFEHLUNGEN 143

werden so am schnellsten ersichtlich.

• Stellen Sie sich bei jedem Signifikanztest die Fragen: “Was macht dieser Test eigentlich?Und interessiert mich das?” So vergleicht man mit t-Tests und Varianzanalyse Mittel; beideutlich schief- oder bimodalverteilten Daten dürften die Mittel weniger interessant sein.Ähnlich schaut man sich bei Korrelationen und Regression den linearen Zusammenhangan; bei stark nicht-linearen Zusammenhängen dürften diese Verfahren nicht so relevantsein. Die Frage nach den Annahmen der Tests erübrigt sich oft so: Wenn Sie feststellen,dass die Daten stark schief statt ungefähr normalverteilt sind, können Sie zwar oft nocheinen t-Test ausführen, wollen dies aber nicht mehr unbedingt.

10.3 Bericht

• Nehmen Sie Rücksicht auf Ihre Leserschaft. Viele LinguistInnen, geschweige denn Laien,sind nicht stark quantitativ ausgebildet. Wenn Sie vor ein paar Monaten bei gewissenVerfahren Verständnisschwierigkeiten hatten, wird dies für einen Teil Ihrer Leserschaftwohl auch zutreffen. Dazu noch:

– Artikel voller ANOVAs sind schlicht unlesbar: Nicht jede quantitative Aussage mussmit einem Test belegt werden. Sparen Sie die Tests für Ihre zentralen Forschungsfragenauf und nehmen Sie sich die Mühe, diese auch zu erklären.

– Sie brauchen nicht jede Dezimalzahl, die R Ihnen ausspuckt, zu berichten. Es istschwierig, hierzu einfache Ratschläge zu machen (siehe aber Ehrenberg 1981). Wennaber etwa Reaktionszeiten in Millisekunden gemessen wurden, ist ein berichtetesMittel von 873.54 ms nicht ‘wissenschaftlicher’ oder ‘genauer’ als ein berichtetesMittel von 874 ms. Ähnlich enthält ein t-Wert von 2.7654 nicht mehr sinnvolle Informa-tionen als ein berichteter t-Wert von 2.8. Und wenn Sie für Ihre Altersvariable eineStandardabweichung von 2.83 Monaten berichten, berichten Sie eigentlich, dass dieStandardabweichung 2 Monaten, 24 Tage, 6 Stunden und 36 Minuten beträgt.

– Stellen Sie die zentralen Befunde Ihrer Studie im Bericht grafisch dar und stellenSie die Befunde anhand der Grafiken (und nicht anhand der Inferenzstatistik) derLeserschaft vor. In eine gute Grafik sollte man gerne Zeit und Aufwand investieren.

• Sagen Sie ehrlich und deutlich, welche Analysen Post-Hoc-Analysen sind – auch wenndiese im Nachhinein betrachtet theoretisch Sinn ergeben.

• Bleiben Sie sich der Tatsache bewusst, dass bei einer grossen Anzahl Analysen einige davonrein zufällig Signifikanz ergeben dürften. Siehe noch Simmons et al. (2011) und Gelman &Loken (2013).

• Überlegen Sie sich, ob Sie nicht vielleicht Ihren Datensatz und Ihren R-Kode – wie einfachdieser auch sein mag – im Geiste der wissenschaftlicen Transparenz online stellen können.Ich stelle meine Daten und Kode meistens auf FigShare.

• Der Unterschied zwischen p = 0.04 und p = 0.06 ist minimal – und dies gilt in beidenRichtungen: Ein p-Wert von 0.06 kann man zwar noch optimistisch als ‘fast signifikant’betrachten, aber genauso gilt, dass ein p-Wert von 0.04 nicht gerade die überzeugendsteEvidenz gegen die Nullhypothese darstellt. Letzten Endes sind Signifikanztests nur einHilfsmittel – der wahre Nachweis einer Theorie liegt in ihrer wiederholten empirischenBestätigung.

Gelman & Hill (2007, Anhänge A und B) geben weitere praktische Tipps für die Analyse unddas Berichten.

Page 151: Statistische Grundlagen

KAPITEL 10. PRAKTISCHE EMPFEHLUNGEN 144

10.4 Probleme lösen

• Eine Übersicht über die häufigsten Fehlermeldungen in R und mögliche Lösungen findenSie unter www.wcsmalaysia.org/analysis/R_ commonErrors.htm.

• Die Mailingliste ling-r-lang-L ist eine Art Selbsthilfegruppe für LinguistInnen, die Fragenzu R oder Statistik im Allgemeinen haben.

• Für Fragen zu Statistik kann man sich auch an die Cross Validated-BenützerInnen wenden;für R-Fragen an Stack Overflow.

• Wen Sie auch um Hilfe bitten: Stellen Sie konkrete Fragen und nehmen Sie sich die Mühe,ein minimal working example mitzuliefern. (Oft findet man beim Erzeugen eines solchenMWE selbst das Problem.) Zeigen Sie auch den Output der Funktion sessionInfo().

Page 152: Statistische Grundlagen

Literaturverzeichnis

Abbuhl, Rebekha, Susan Gass & Alison Mackey. 2013. Experimental research design. In Podesva& Sharma (2013) 116–134.

Abrahamsson, Niclas & Kenneth Hyltenstam. 2009. Age of onset and nativelikeness in a secondlanguage: Listener perception versus linguistic scrutiny. Language Learning 59. 249–306.

Altman, Douglas G. & Patrick Royston. 2006. The cost of dichotomising continuous variables.BMJ 332. 1080. doi:10.1136/bmj.332.7549.1080.

Baayen, R. H., D. J. Davidson & D. M. Bates. 2008. Mixed-effects modeling with crossed randomeffects for subjects and items. Journal of Memory and Language 59. 390–412.

Baayen, R. Harald. 2008. Analyzing linguistic data: A practical introduction to statistics using R.Cambridge: Cambridge University Press.

Baguley, Thom. 2009. Standardized or simple effect size: What should be reported? British Journalof Psychology 100. 603–617.

Bender, Ralf & Stefan Lange. 2001. Adjusting for multiple testing: when and how? Journal ofClinical Epidemiology 54. 343–349.

Bland, J. Martin & Douglas G. Altman. 1994. One and two sided tests of significance. BMJ 309.248.

Blom, Elma & Sharon Unsworth (eds.). 2010. Experimental methods in language acquisition research.Amsterdam: John Benjamins.

Camilli, Gregory & Kenneth D. Hopkins. 1978. Applicability of chi-square to 2× 2 contingencytables with small expected cell frequencies. Psychological Bulletin 85(1). 163–167.

Carifio, James & Rocco Perla. 2008. Resolving the 50-year debate around using and misusingLikert scales. Medical Education 42. 1150–1152.

Chang, Winston. 2013. R graphics cookbook: Practical recipes for visualizing data. Beijing: O’Reilly.

Clark, Herbert H. 1973. The language-as-fixed-effect fallacy: A critique of language statistics inpsychological research. Journal of Verbal Learning and Verbal Behavior 12. 335–359.

Cleveland, William S. 1993. Visualizing data. Murray Hill, NJ: AT&T Bell Laboratories.

Cohen, Jacob. 1983. The cost of dichotomization. Applied Psychological Measurement 7. 249–253.

Cohen, Jacob. 1990. Things I have learned (so far). American Psychologist 45. 1304–1312.

Cohen, Jacob. 1992. A power primer. Psychological Bulletin 112. 155–159.

Cohen, Jacob. 1994. The Earth is round (p < .05). American Psychologist 49. 997–1003.

Costa, Albert, Alice Foucart, Inbal Arnon, Melina Aparici & Jose Apesteguia. 2014a. ‘Piensa’twice: On the foreign language effect in decision making. Cognition 130(2). 236–254.

145

Page 153: Statistische Grundlagen

LITERATURVERZEICHNIS 146

Costa, Albert, Alice Foucart, Sayuri Hayakawa, Melina Aparici, Jose Apesteguia, Joy Heafner& Boaz Keysar. 2014b. Your morals depend on language. PLOS ONE 9. e94842. doi:10.1371/journal.pone.0094842.

Crawley, Michael J. 2007. The R book. Chichester: Wiley.

DeKeyser, Robert, Iris Alfi-Shabtay & Dorit Ravid. 2010. Cross-linguistic evidence for the natureof age effects in second language acquisition. Applied Psycholinguistics 31. 413–438.

Dienes, Zoltan. 2011. Bayesian versus orthodox statistics: Which side are you on? Perspectives onPsychological Science 6. 274–290.

Dörnyei, Zoltán. 2003. Questionnaires in second language research: Construction, administration, andprocessing. Mahwah, NJ: Lawrence Erlbaum.

Ehrenberg, A. S. C. 1981. The problem of numeracy. The American Statistician 35(2). 67–71.

Ehrenberg, A. S. C. 1982. A primer in data reduction: An introductory statistics textbook. Chichester:Wiley.

Eisenhauer, Joseph G. 2008. Degrees of freedom. Teaching Statistics 30. 75–78.

Ernst, Michael D. 2004. Permutation methods: A basis for exact inference. Statistical Science 19.676–685.

Everitt, Brian S. & Torsten Hothorn. 2010. A handbook of statistical analyses using r. Boca Raton, FL:Chapman & Hall/CRC 2nd edn.

Faraway, Julian J. 2006. Extending the linear model with r: Generalized linear, mixed effects andnonparametric regression models. Boca Raton, FL: Chapman & Hall/CRC.

Ferragne, Emmanuel & François Pellegrino. 2010. Formant frequencies of vowels in 13 accents ofthe British Isles. Journal of the International Phonetic Association 40. 1–34.

Gelman, Andrew & John Carlin. 2014. Beyond power calculations: Assessing Type S (sign) andType M (magnitude) errors. Perspectives on Psychological Science 9(6). 641–651.

Gelman, Andrew & Jennifer Hill. 2007. Data analysis using regression and multilevel/hierarchicalmodels. New York: Cambridge University Press.

Gelman, Andrew & Eric Loken. 2013. The garden of forking paths: Why multiple comparisonscan be a problem, even when there is no ‘fishing expedition’ or ‘p-hacking’ and the research hy-pothesis was posited ahead of time. http://www.stat.columbia.edu/~gelman/research/unpublished/p_hacking.pdf.

Gelman, Andrew & Hal Stern. 2006. The difference between “significant” and “not significant”is not itself statistically significant. The American Statistician 60. 328–331.

Goodman, Steven. 2008. A dirty dozen: Twelve p-value misconceptions. Seminars in Hematology45. 135–140.

Green, Donald P. & Elizabeth Levy Paluck. 2004. Double-blind procedure. In Michael S. Lewis-Beck, Alan Bryman & Tim Futing Liao (eds.), The SAGE encyclopedia of social science researchmethods, 285–286. Thousand Oaks, CA: Sage.

Guiora, Alexander Z., Benjamin Beit-Hallahmi, Robert C. L. Brannon, Cecelia Y. Dull & ThomasScovel. 1972. The effects of experimentally induced changes in ego state on pronunciationability in a second language: An exploratory study. Comprehensive Psychiatry 13(5). 421–428.

Hoekstra, Rink, Richard D. Morey, Jeffrey N. Rouder & Eric-Jan Wagenmakers. 2014. Robustmisinterpretation of confidence intervals. Psychonomic Bulletin & Review 21(5). 1157–1164.

Page 154: Statistische Grundlagen

LITERATURVERZEICHNIS 147

Honaker, James, Gary King & Matthew Blackwell. 2012. Amelia: Amelia II: A program formissing data. R package, version 1.6.4. http://cran.r-project.org/package=Amelia.

Huff, Darrell. 1954. How to lie with statistics. New York: Norton.

Huitema, Bradley E. 2011. The analysis of covariance and alternatives: Statistical methods for experi-ments, quasi-experiments, and single-case studies. Hoboken, NJ: Wiley.

Imai, Kosuke, Gary King & Elizabeth A. Stuart. 2008. Misunderstandings between experimenta-lists and observationalists about causal inference. Journal of the Royal Statistical Society: Series A(Statistics in Society) 171. 481–502.

Jaeger, T. Florian. 2008. Categorical data analysis: Away from ANOVAs (transformation or not)and towards logit mixed models. Journal of Memory and Language 59. 434–446.

Jaeger, T. Florian, Peter Graff, William Croft & Daniel Pontillo. 2011. Mixed effect models forgenetic and areal dependencies in linguistic typology. Linguistic Typology 15. 281–320.

Johnson, Daniel Ezra. 2009. Getting off the GoldVarb standard: Introducing Rbrul for mixed-effects variable rule analysis. Language and Linguistics Compass 3(1). 359–383.

Johnson, Daniel Ezra. 2013. Descriptive statistics. In Podesva & Sharma (2013) 288–315.

Johnson, Jacqueline S. & Elissa L. Newport. 1989. Critical period effects in second languagelearning: The influence of maturational state on the acquisition of English as a second language.Cognitive Psychology 21. 60–99.

Johnson, Keith. 2008. Quantitative methods in linguistics. Malden, MA: Blackwell.

Kaiser, Irmtraud & Elisabeth Peyer. 2011. Grammatikalische Schwierigkeiten beim Lesen in Deutschals Fremdsprache: eine empirische Studie. Hohengehren: Schneider Verlag.

Kerr, Norbert L. 1998. HARKing: Hypothesizing after the results are known. Personality andSocial Psychology Review 2. 196–217.

Keysar, Boas, Sayuri L. Hayakawa & Sun Gyu An. 2012. The foreign-language effect: Thinkingin a foreign tongue reduces decision biases. Psychological Science 23(6). 661–668.

Klein, Richard A, Kate A Ratliff, Michelangelo Vianello, Reginald B Adams Jr, Štepán Bahník,Michael J Bernstein, Konrad Bocian, Mark J Brandt, Beach Brooks, Claudia Chloe Brumbaughet al. 2014. Investigating variation in replicability: A “many labs” replication project. SocialPsychology 45(3). 142–152.

Krosnick, Jon A. & Stanley Presser. 2010. Question and questionnaire design. In Peter V. Marsden& James D. Wright (eds.), Handbook of survey research, 263–313. Bingley: Emerald 2nd edn.

Kruschke, John K. 2011. Doing Bayesian data analysis. A tutorial with R and BUGS. Burlington, MA:Academic Press.

Levshina, Natalia. 2015. How to do linguistics with R: Data exploration and statistical analysis.Amsterdam: John Benjamins.

Ludbrook, John. 2008. Analysis of 2 × 2 tables of frequencies: matching test to experimentaldesign. International Journal of Epidemiology 37. 1430–1435.

Mackey, Alison & Susan M. Gass (eds.). 2012. Research methods in second language acquisition: Apractical guide. Chichester: Wiley-Blackwell.

Mook, Douglas G. 1983. In defense of external invalidity. American Psychologist 38. 379–387.

Morey, Richard D., Rink Hoekstra, Jeffrey N. Rouder, Michael D. Lee & Eric-Jan Wagenma-kers. 2015. The fallacy of placing confidence in confidence intervals. Psychonomic Bulletin &

Page 155: Statistische Grundlagen

LITERATURVERZEICHNIS 148

Review 23(1). 103–123. doi:10.3758/s13423-015-0947-8. https://learnbayes.org/papers/confidenceIntervalsFallacy/.

Nakawaga, Shinichi. 2004. A farewell to Bonferroni: the problems of low statistical power andpublication bias. Behavioral Ecology 15. 1044–1045.

Norman, Geoff. 2010. Likert scales, levels of measurement and the “laws” of statistics. Advancesin Health Science Education 15. 625–632.

Oehlert, Gary W. 2010. A first course in the design and analysis of experiments. http://users.stat.umn.edu/~gary/book/fcdae.pdf.

Perneger, Thomas V. 1998. What’s wrong with Bonferroni adjustments. BMJ 316. 1236–1238.

Plonsky, Luke & Frederick L. Oswald. 2014. How big is “big”? Interpreting effect sizes in L2research. Language Learning 64. 878–912.

Podesva, Robert J. & Devyani Sharma (eds.). 2013. Research methods in linguistics. Cambridge:Cambridge University Press.

Porte, Graeme Keith. 2002. Appraising research in second language learning: A practical approach tocritical analysis of quantitative research. Amsterdam: John Benjamins.

Quené, Hugo. 2010. How to design and analyze language acquisition studies. In Elma Blom &Sharon Unsworth (eds.), Experimental methods in language acquisition research, 269–284. Amster-dam: John Benjamins.

Quené, Hugo & Huub van den Bergh. 2008. Examples of mixed-effects modeling with crossedrandom effects and with binomial data. Journal of Memory and Language 59. 413–425.

Rugg, D. 1941. Experiments in wording questions: II. Public Opinion Quarterly 5. 91–92.

Ruxton, Graeme D. 2006. The unequal variance t-test is an underused alternative to Student’st-test and the Mann–Whitney u test. Behavioral Ecology 17. 688–690.

Ruxton, Graeme D. & Guy Beauchamp. 2008. Time for some a priori thinking about post hoctesting. Behavioral Ecology 19(3). 690–693.

Sarkar, Deepayan. 2008. Lattice: Multivariate data visualization with R. New York: Springer.

Schmidt, Frank L. 1996. Statistical significance testing and cumulative knowledge in psychology:Implications for training of researchers. Psychological Methods 1. 115–129.

Simmons, Joseph P., Leif D. Nelson & Uri Simonsohn. 2011. False-positive psychology: Un-disclosed flexibility in data collection and analysis allows presenting anything as significant.Psychological Science 22. 1359–1366.

Stevens, S. S. 1946. On the theory of scales of measurement. Science 103. 677–680.

Stocker, Ladina. 2014. The impact of foreign accent on credibility: An analysis of cognitive statementratings at the crossroads of sociolinguistic and psycholinguistic approaches. Freiburg (CH) UniversitätFreiburg Schweiz MA thesis.

Tagliamonte, Sali A. & R. Harald Baayen. 2012. Models, forests, and trees of York English:Was/were variation as a case study for statistical practice. Language Variation and Change 24.135–178.

Tversky, A. & D. Kahneman. 1981. The framing of decisions and the psychology of choice. Science211. 453–458.

Vanhove, Jan. 2013. The critical period hypothesis in second language acquisition: A statisticalcritique and a reanalysis. PLOS ONE 8. e69172.

Page 156: Statistische Grundlagen

LITERATURVERZEICHNIS 149

Vanhove, Jan. 2014. Receptive multilingualism across the lifespan: Cognitive and linguistic factors incognate guessing: University of Fribourg dissertation. http://ethesis.unifr.ch/theses/downloads.php?file=VanhoveJ.pdf.

Vanhove, Jan. 2015a. Analyzing randomized controlled interventions: Three notes for appliedlinguists. Studies in Second Language Learning and Teaching 5. 135–152.

Vanhove, Jan. 2015b. The early learning of interlingual correspondence rules in receptivemultilingualism. International Journal of Bilingualism OnlineFirst.

Vanhove, Jan & Raphael Berthele. 2013. Factoren bij het herkennen van cognaten in onbekendetalen: algemeen of taalspecifiek? Taal & Tongval 65. 171–210.

Velleman, Paul F. & Leland Wilkinson. 1993. Nominal, ordinal, interval, and ratio typologies aremisleading. The American Statistician 47. 65–72.

Wagenmakers, Eric-Jan, Angelos-Miltiadis Krypotos, Amy H. Criss & Geoff Iverson. 2012. On theinterpretation of removable interactions: A survey of the field 33 years after Loftus. Memory &Cognition 40. 145–160.

Wickham, Hadley. 2009. ggplot2: Elegant graphics for data analysis. Dordrecht: Springer.

Wickham, Hadley. 2014. Tidy data. Journal of Statistical Software 59.

Winter, Bodo. 2013. Linear models and linear mixed effects models in R with linguistic applicati-ons. arXiV. http://arxiv.org/abs/1308.5499.