R – Einführung durch angewandte Statistikstatmath.wu.ac.at/~hatz/wagner/4060_Fahne_3.pdf ·...

463
Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 1 — le-tex R – Einführung durch angewandte Statistik

Transcript of R – Einführung durch angewandte Statistikstatmath.wu.ac.at/~hatz/wagner/4060_Fahne_3.pdf ·...

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 1 — le-tex

    R – Einführung durch angewandte Statistik

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 2 — le-tex

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 3 — le-tex

    Reinhold HatzingerKurt HornikHerbert Nagel

    R Einführung durchangewandte Statistik

    ein Imprint von Pearson EducationMünchen • Boston • San Francisco • Harlow, England

    Don Mills, Ontario • Sydney • Mexico CityMadrid • Amsterdam

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 4 — le-tex

    Bibliografische Information der Deutschen Nationalbibliothek

    Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der DeutschenNationalbibliografie; detaillierte bibliografische Daten sind im Internetüber abrufbar.

    Die Informationen in diesem Buch werden ohne Rücksicht auf einen eventuellen Patentschutzveröffentlicht. Warennamen werden ohne Gewährleistung der freien Verwendbarkeit benutzt.Bei der Zusammenstellung von Texten und Abbildungen wurde mit größter Sorgfaltvorgegangen. Trotzdem können Fehler nicht ausgeschlossen werden. Verlag, Herausgeber undAutoren können für fehlerhafte Angaben und deren Folgen weder eine juristischeVerantwortung noch irgendeine Haftung übernehmen. Für Verbesserungsvorschläge undHinweise auf Fehler sind Verlag und Autoren dankbar.

    Alle Rechte vorbehalten, auch die der fotomechanischen Wiedergabe und der Speicherung inelektronischen Medien. Die gewerbliche Nutzung der in diesem Produkt gezeigten Modelleund Arbeiten ist nicht zulässig.

    Fast alle Produktbezeichnungen und weitere Stichworte und sonstige Angaben, die in diesemBuch verwendet werden, sind als eingetragene Marken geschützt. Da es nicht möglich ist, inallen Fällen zeitnah zu ermitteln, ob ein Markenschutz besteht, wird das ®-Symbol in diesemBuch nicht verwendet.

    10 9 8 7 6 5 4 3 2 1

    13 12 11

    ISBN 978-3-86894-060-2

    © 2011 by Pearson Studiumein Imprint der Pearson Education Deutschland GmbH,Martin-Kollar-Straße 10–12, D-81829 München/GermanyAlle Rechte vorbehaltenwww.pearson-studium.deProgrammleitung: Birger Peil, [email protected]: Irmgard Wagner, [email protected]: Thomas Arlt, [email protected]: Martha Kürzl-Harrison, [email protected]: Petra Kienle, FürstenfeldbruckSatz: le-tex publishing services GmbH, LeipzigDruck und Verarbeitung: Kösel, Krugzell (www.KoeselBuch.de)

    Printed in Germany

    http://dnb.d-nb.dehttp://www.pearson-studium.dewww.KoeselBuch.de

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 5 — le-tex

    Inhaltsverzeichnis

    Vorwort 11

    Fragestellungen und Methoden 13

    Kapitel 1 Einführung 171.1 Konzeption des Buchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    1.2 Aufbau des Buchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    1.3 Programmversionen von R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.4 Wie kann dieses Buch verwendet werden? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.5 Typografische und andere Konventionenin diesem Buch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    Kapitel 2 Statistische Grundbegriffe 252.1 Einige Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2.1.1 Hochrechnung (statistisches Schätzen) . . . . . . . . . . . . . . . . . . . . . . . . . . 272.1.2 Prüfen von Fragestellungen (Testen von Hypothesen) . . . . . . . . . . . 282.1.3 Erstellen von Modellen (statistisches Modellieren) . . . . . . . . . . . . . . 30

    2.2 Grundlegende Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    2.3 Messung und Typen von Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

    2.4 Arten von Fragestellungen und Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    2.5 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    2.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    Teil I Einführung in R 43

    Kapitel 3 Erste Schritte 453.1 Download und Installation von R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    3.1.1 Download . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.1.2 Installation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 483.1.3 Aufrufen und Beenden von R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493.1.4 Installation von Ergänzungen (Contributed Packages) . . . . . . . . . . . 49

    3.2 Aller Anfang ist leicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    3.3 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

    3.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69

    Kapitel 4 Daten in R – vom Fragebogen zum fertigen Datensatz 714.1 Fragebogen und Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    4.2 Erfassen der kodierten Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 6 — le-tex

    Inhaltsverzeichnis

    4.2.1 Eingabe der Daten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 754.2.2 Abspeichern und Wiedereinlesen der Daten . . . . . . . . . . . . . . . . . . . . . 79

    4.3 Organisation eines Datensatzes – Data Frames . . . . . . . . . . . . . . . . . . . . . . . . . . . 804.3.1 Das Ansprechen einzelner Variablen eines Data Frame . . . . . . . . . . 804.3.2 Faktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 824.3.3 Auswählen von Beobachtungseinheiten (Fällen) . . . . . . . . . . . . . . . . 854.3.4 Transformieren der Daten bzw. Erzeugen

    von neuen Variablen. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904.3.5 Berechnen neuer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 904.3.6 Umkodieren von Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 934.3.7 Modifikation eines Data Frame . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 994.3.8 Datenkontrolle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

    4.4 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    4.5 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

    Kapitel 5 Mehr R 1095.1 Die R-Arbeitsumgebung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110

    5.1.1 Die R-Benutzeroberfläche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1105.1.2 Der Workspace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1125.1.3 Working Directory – das Arbeitsverzeichnis . . . . . . . . . . . . . . . . . . . . . 113

    5.2 R-Grafik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1145.2.1 High-level Plotting Functions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1155.2.2 Hinzufügen von Grafikelementen

    (Low-level Plotting Functions) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1185.2.3 Spezielle Einstellungen (Graphical Parameters) . . . . . . . . . . . . . . . . . 121

    5.3 Weiterverwenden des R-Outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 124

    5.4 Einlesen von R-Befehlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1255.4.1 Der R-Editor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1255.4.2 Einlesen von R-Skripts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1275.4.3 Direktes Kopieren von R-Code – Einfügen über die Zwischenab-

    lage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129

    5.5 Einlesen und Schreiben externer Dateien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1295.5.1 Daten aus Excel bzw. OpenOffice.org Calc . . . . . . . . . . . . . . . . . . . . . . . 1295.5.2 Dateien aus anderen Statistikpaketen (z. B. SPSS) . . . . . . . . . . . . . . . 1325.5.3 Direktes Kopieren – Einfügen über die Zwischenablage . . . . . . . . . 1335.5.4 Schreiben von Dateien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134

    5.6 Das R-Hilfesystem und weiterführende Information. . . . . . . . . . . . . . . . . . . . . . 1355.6.1 Hilfe zu einzelnen Funktionen und Packages . . . . . . . . . . . . . . . . . . . . 1365.6.2 Dokumente, Webseiten und weiterführende Information . . . . . . . . 140

    5.7 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142

    5.8 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

    6

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 7 — le-tex

    Inhaltsverzeichnis

    Teil II Kategoriale Daten 145

    Kapitel 6 Eine kategoriale Variable 1476.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

    6.2 Kommen alle Kategorien gleich häufig vor? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1526.2.1 Numerische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1546.2.2 Grafische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1566.2.3 Statistische Analyse der Problemstellung. . . . . . . . . . . . . . . . . . . . . . . . 159

    6.3 Entsprechen Häufigkeiten bestimmten Vorgaben? . . . . . . . . . . . . . . . . . . . . . . . . 1666.3.1 Numerische und grafische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . 1676.3.2 Statistische Analyse der Problemstellung. . . . . . . . . . . . . . . . . . . . . . . . 170

    6.4 Hat ein Prozentsatz (Anteil) einen bestimmten Wert? . . . . . . . . . . . . . . . . . . . . 1726.4.1 Statistische Analyse der Problemstellung. . . . . . . . . . . . . . . . . . . . . . . . 175

    6.5 In welchem Bereich kann man einen Prozentsatz (Anteil) erwarten? . . . . . 180

    6.6 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186

    6.7 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

    6.8 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 188

    6.9 Vertiefung: Die Chi-Quadrat-Verteilung oder wie entsteht ein p-Wert? . . . 190

    Kapitel 7 Mehrere kategoriale Variablen 1937.1 Beschreibung mehrerer kategorialer Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

    7.1.1 Numerische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1957.1.2 Grafische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198

    7.2 Ist die Verteilung von Häufigkeiten in verschiedenen Gruppen gleich?. . . 202

    7.3 Unterscheiden sich Anteile in zwei oder mehreren Gruppen? . . . . . . . . . . . 2067.3.1 Eingabe einer Tabelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2077.3.2 Vergleich der Anteile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2087.3.3 Exakter Test nach Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209

    7.4 Sind zwei kategoriale Variablen unabhängig? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2117.4.1 Datenaufbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2117.4.2 Unabhängigkeitstest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

    7.5 Unterscheidet sich das Risiko in zwei Gruppen? . . . . . . . . . . . . . . . . . . . . . . . . . 2157.5.1 Odds-Ratio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2167.5.2 Odds-Ratio-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 218

    7.6 Wie kann man Veränderungen von Anteilen testen? . . . . . . . . . . . . . . . . . . . . . 2207.6.1 Unabhängige und abhängige Stichproben . . . . . . . . . . . . . . . . . . . . . . . 2207.6.2 McNemar-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221

    7.7 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223

    7.8 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

    7.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224

    7

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 8 — le-tex

    Inhaltsverzeichnis

    Teil III Metrische Daten 227

    Kapitel 8 Eine metrische Variable 2298.1 Wie kann man die Verteilung einer metrischen Variablen beschreiben? . . 230

    8.1.1 Klassifizieren, Tabellen und Histogramme . . . . . . . . . . . . . . . . . . . . . . . 2318.1.2 Maßzahlen zur Beschreibung der Verteilung. . . . . . . . . . . . . . . . . . . . . 2368.1.3 Boxplot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2438.1.4 Ausreißer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2468.1.5 Weitere grafische Beschreibungsmethoden . . . . . . . . . . . . . . . . . . . . . . 247

    8.2 Ist der Mittelwert der Grundgesamtheitanders als eine bestimmte Vorgabe? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251

    8.3 Bereich für den Mittelwert in einer Grundgesamtheit . . . . . . . . . . . . . . . . . . . . 256

    8.4 Folgt eine metrische Variable einer bestimmten Verteilung? . . . . . . . . . . . . . 2578.4.1 Q-Q-Plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2598.4.2 Kolmogorov-Smirnov-Test und Shapiro-Wilk-Test . . . . . . . . . . . . . . . 2628.4.3 Anpassungstest mit der χ2-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . 265

    8.5 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 268

    8.6 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270

    8.7 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 270

    Kapitel 9 Mehrere metrische Variablen 2739.1 Wie stark ist der Zusammenhang zwischen zwei metrischen Variablen? . 275

    9.1.1 Grafische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2769.1.2 Korrelationskoeffizient nach Pearson . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2769.1.3 Korrelationskoeffizient nach Spearman . . . . . . . . . . . . . . . . . . . . . . . . . . 280

    9.2 Welche Form hat der Zusammenhang zwischen zwei Variablen? . . . . . . . . 2819.2.1 Lineares Regressionsmodell . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2819.2.2 Rechenergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 284

    9.3 Vorhersage von Werten. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2879.3.1 Punktprognosen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2879.3.2 Intervallprognosen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 289

    9.4 Zusammenhang einer mit mehreren Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . 2919.4.1 Multiple lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2929.4.2 Kategoriale als erklärende Variablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2959.4.3 Modellselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2989.4.4 Modelldiagnostik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3009.4.5 Prognose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 304

    9.5 Unterscheiden sich Mittelwerte zu zwei oder mehreren Zeitpunkten? . . . 3069.5.1 Grafische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3079.5.2 Analyse der Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 308

    9.6 Wie kann man den zeitlichen Verlauf einer Variablen beschreiben? . . . . . . 3099.6.1 Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3099.6.2 Zeitreihenzerlegung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 311

    8

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 9 — le-tex

    Inhaltsverzeichnis

    9.6.3 Trend . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3129.6.4 Saison . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3199.6.5 Zusammenfassung der Zeitreihenzerlegung . . . . . . . . . . . . . . . . . . . . . 3219.6.6 Prognose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3229.6.7 Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 324

    9.7 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 328

    9.8 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330

    9.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330

    Teil IV Metrische und kategoriale Daten 333

    Kapitel 10 Metrische und kategoriale Variablen 33510.1 Unterscheiden sich die Mittelwerte in zwei Gruppen? . . . . . . . . . . . . . . . . . . . 336

    10.1.1 Grafische und numerische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . 33710.1.2 Analyse der Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 338

    10.2 Unterscheidet sich die Lage einer Variablen zwischen zwei Gruppen? . . . 34010.2.1 Beschreibung der Stichprobe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34010.2.2 Analyse der Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341

    10.3 Unterscheiden sich die Mittelwerte mehrerer Gruppen? . . . . . . . . . . . . . . . . . 34310.3.1 Grafische und numerische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . 34310.3.2 Analyse der Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34410.3.3 Post-hoc-Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347

    10.4 Unterscheidet sich die Lage einer Variablen zwischen mehreren Grup-pen?. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 348

    10.5 Wie wirken zwei kategoriale Variablen kombiniert auf Mittelwerte? . . . . . 35110.5.1 Numerische und grafische Beschreibung . . . . . . . . . . . . . . . . . . . . . . . . 35110.5.2 Analyse der Fragestellung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35310.5.3 Modellselektion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 356

    10.6 Hängen Chancen von einer oder mehreren Variablen ab? . . . . . . . . . . . . . . . . 35810.6.1 Logistische Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35910.6.2 Logistische Regression mit mehreren erklärenden Variablen . . . . 362

    10.7 Unterscheiden sich Chancen und Odds-Ratios zwischen Gruppen? . . . . . . 36710.7.1 Vergleich von Odds in mehreren Gruppen?. . . . . . . . . . . . . . . . . . . . . . 36710.7.2 Vergleich von Odds-Ratios in mehreren Gruppen? . . . . . . . . . . . . . . 370

    10.8 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374

    10.9 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376

    10.10 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 376

    9

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 10 — le-tex

    Inhaltsverzeichnis

    Teil V Multivariate Daten 379

    Kapitel 11 Dimensionsreduktion 38111.1 Kann man Komplexität multidimensionaler Daten reduzieren? . . . . . . . . . . 382

    11.1.1 Grundlagen der Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . . 38311.1.2 Anwendung der Hauptkomponentenanalyse . . . . . . . . . . . . . . . . . . . . 393

    11.2 Weiterverwenden der Ergebnisse einer Hauptkomponentenanalyse . . . . . . 404

    11.3 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 409

    11.4 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

    11.5 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 410

    11.6 Vertiefung: Extraktion der Hauptkomponenten für zwei Variablen . . . . . . . 411

    Kapitel 12 Gruppierung von Beobachtungen 41512.1 Wie entdeckt man Gruppen ähnlicher Beobachtungen? . . . . . . . . . . . . . . . . . . 417

    12.1.1 Distanz- und Ähnlichkeitsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41812.1.2 Hierarchische Clusterverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42012.1.3 Outputteile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42412.1.4 Anwendung auf die Demografiekennzahlen . . . . . . . . . . . . . . . . . . . . . 42812.1.5 Teilungsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43012.1.6 Speichern der Clusterzugehörigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 431

    12.2 Wie findet man Cluster in den Variablen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432

    12.3 Wie findet man Cluster in großen Datensätzen? . . . . . . . . . . . . . . . . . . . . . . . . . . 43412.3.1 Centroid-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43412.3.2 Outputteile des Verfahrens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43512.3.3 Analyse des Outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 437

    12.4 Wie können kategoriale Variablen einbezogen werden? . . . . . . . . . . . . . . . . . . 43912.4.1 Distanzmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44012.4.2 Fuzzy-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44012.4.3 Outputteile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44112.4.4 Analyse des Outputs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442

    12.5 R-Befehle im Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445

    12.6 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446

    12.7 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446

    Literaturverzeichnis 449

    Index 451

    10

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 11 — le-tex

    Vorwort

    Dieses Buch entstand aus der Idee, auf moderne, problem- und praxisorientierteWeise Grundlagen der Statistik zu vermitteln. Das geht nicht, ohne dabei gleichzeitigdie Umsetzung mittels geeigneter Software zu berücksichtigen. Eine natürliche Wahldafür ist R, eine „Umgebung für Datenanalyse und Grafik“. R ist die state-of-the-artStatistiksoftware, ist Open Source und daher auch frei verfügbar. Der modulare undfunktionale Charakter von R ermöglicht es, statistische Methoden leichter erlernenund besser verstehen zu können. Man kann alles ausprobieren, nachvollziehen undauf „spielerische“ Weise mit Zahlen, Daten und Formeln umgehen.

    Traditionelle Ansätze des Vermittelns von Statistikkenntnissen für substanzwis-senschaftliche Studienrichtungen (wie z. B. Psychologie, Soziologie, Kommunikati-onswissenschaft, Betriebswirtschaft oder Medizin) verfolgten entweder sehr formale,wahrscheinlichkeitstheoretisch orientierte Konzepte oder teilten den Lehrstoff indeskriptive und inferenzstatistische Methoden (eine unserer Meinung nach unglück-liche Trennung). Übungs- bzw. Anwendungsbeispiele waren oft sehr praxisfern. Mandenke an die Urnen, gefüllt mit bunten Kugeln, aus denen nach bestimmten Vor-schriften zufällig einige herauszuziehen sind. Oder an das Einsetzen einiger wenigerZahlen in Formeln, um dann Mittelwert und Varianz zu berechnen. Spätestens alsdie PCs Einzug hielten, begann man sich darauf zu besinnen, dass im Zentrum sta-tistischer Überlegungen eigentlich Daten, Information, deren Verarbeitung und mög-liche Schlussfolgerungen stehen. Entsprechend hat sich seither, wenn auch langsam,die Vermittlung von Statistikkenntnissen geändert. Immer öfter wird heute der com-puterunterstützten Verarbeitung von Daten Raum gegeben.

    Das Konzept dieses Buchs (das wir genauer im ersten Kapitel beschreiben) zieltdaher auch darauf ab, die interessanten Aspekte anhand vieler Fallbeispiele ausunterschiedlichsten Bereichen (die zum Teil fortgesetzt und unter verschiedenenmethodischen Aspekten betrachtet werden) in den Vordergrund zu stellen, ohne daszum Verständnis notwendige formale Wissen auszublenden. Wir versuchen dabei,Berührungsängste zu verringern und einen vielleicht manchmal als trocken erlebtenStoff lebendig zu gestalten. Die Verwendung von R kann hierzu einen wesentlichenBeitrag leisten, da R relativ (entgegen oft anders gehörten Meinungen) leicht zu erler-nen ist und einen spielerischen und kreativen Umgang mit den Inhalten erlaubt undfördert. Wir haben oft erlebt, dass Studierende von Ergebnissen und grafischen Dar-stellungen freudig überrascht waren, besonders wenn sie eigene Fragestellungen undselbst erhobene Daten analysiert hatten.

    Als Zielgruppe haben wir in erster Linie an Studierende verschiedenster empirischausgerichteter Substanzwissenschaften gedacht, aber auch an (junge) ForscherInnen,die ihr Wissen auffrischen und/oder sich vielleicht die eine oder andere Anregungzur Umsetzung ihrer Studien holen wollen.

    Nicht zuletzt soll dieses Buch auch dazu dienen, nachschlagen zu können, wennman etwas in R realisieren möchte und nicht genau weiß oder vergessen hat, wie dasgeht. Aus diesem Grund haben wir uns bemüht, den Index so zu gestalten, dass manauch findet, was man sucht.

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 12 — le-tex

    Vorwort

    Bedanken wollen wir uns bei Studierenden und unseren Kolleginnen und Kolle-gen am Institut für Statistik und Mathematik der WU (Wirtschaftsuniversität Wien),sowie besonders bei Regina Dittrich, Ingrid Koller und Marco Maier, die oftmals Teiledes Manuskripts lasen, uns auf Fehler aufmerksam machten und wichtige Anregun-gen gaben. Viele Studierende aus diversen Kursen haben zur Entwicklung unseresKonzepts beigetragen.

    Interessante Beispiele und Daten wurden von Kathrin Gruber, Dieter Gstach,Graeme Hutchinson (Universität Manchester) und Wolfgang Lutz beigesteuert oderzur Verfügung gestellt.

    Ganz herzlich wollen wir uns bei Irmgard Wagner bedanken, die uns bei derVerwirklichung des Buchs begleitet hat. Sie hat mit großem Sachverstand, vielenguten Anregungen und viel Geduld und Mühe wesentlich zur Entstehung beigetra-gen. Petra Kienle hat darauf geachtet, dass unsere Kämpfe mit der neuen deutschenRechtschreibung nicht im Desaster endeten, und uns vor manchen Satzungetümenbewahrt.

    Dieses Buch wurde mit LATEX realisiert. Ohne das R-Package Sweave (Leisch, 2002),das es erlaubt, R-Code und R-Output in LATEX automatisiert zu integrieren, wäre dieArbeit an dem Buch sehr mühsam geworden. Dafür wollen wir uns bei Fritz Leisch,dem Autor von Sweave, herzlich bedanken. Schließlich wollen wir auch der Setze-rin bzw. dem Setzer unsere Anerkennung aussprechen. Es war sicher nicht einfach,unsere LATEX markups und macros im endgültigen Satzbild umzusetzen.

    Schließlich, und nicht zuletzt, ein großes Danke an Regina, Ilse und Sibylle fürihre Geduld, ihr Verständnis und ihre Unterstützung. Ohne sie wäre dieses Buchnicht zustande gekommen.

    Reinhold Hatzinger, Kurt Hornik und Herbert Nagel

    12

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 13 — le-tex

    Fragestellungen und Methoden

    Kapitel 6: Eine kategoriale Variable:

    Kommen alle Kategorien gleich häufig vor? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152BALKENDIAGRAMMEIN-STICHPROBEN-CHI-QUADRAT-TEST

    Entsprechen Häufigkeiten bestimmten Vorgaben? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166GRUPPIERTES BALKENDIAGRAMMCHI-QUADRAT-TEST AUF SPEZIFIZIERTE VERTEILUNG

    Hat ein Prozentsatz (Anteil) einen bestimmten Wert? . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172EIN-STICHPROBENTEST FÜR ANTEILE

    In welchem Bereich kann man einen Prozentsatz (Anteil) erwarten? . . . . . . . . . . . . 180HOCH-TIEF-DIAGRAMMKONFIDENZINTERVALL FÜR ANTEILE

    Kapitel 7: Mehrere kategoriale Variablen:

    Ist die Verteilung von Häufigkeiten in verschiedenen Gruppen gleich? . . . . . . . . . . 202GESTAPELTES BALKENDIAGRAMMMOSAIK- UND SPINEPLOTCHI-QUADRAT-HOMOGENITÄTSTEST

    Unterscheiden sich Anteile in zwei oder mehreren Gruppen? . . . . . . . . . . . . . . . . . . . 206ZWEI-STICHPROBENTEST FÜR ANTEILEEXAKTER TEST NACH FISHER

    Sind zwei kategoriale Variablen unabhängig? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211GRUPPIERTES BALKENDIAGRAMMCHI-QUADRAT-UNABHÄNGIGKEITSTEST

    Unterscheidet sich das Risiko in zwei Gruppen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .215ODDS-RATIO-TEST

    Wie kann man Veränderungen von Anteilen testen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 220MCNEMAR-TEST

    Kapitel 8: Eine metrische Variable:

    Wie kann man die Verteilung einer metrischen Variablen beschreiben? . . . . . . . . . 230HISTOGRAMM UND BOXPLOTSTEM-AND-LEAF-PLOT, PUNKT- UND STABDIAGRAMMMASSZAHLEN

    In welchem Bereich kann man den Mittelwert erwarten? . . . . . . . . . . . . . . . . . . . . . . . . 256KONFIDENZINTERVALL FÜR DEN MITTELWERT

    Ist ein Mittelwert anders als eine bestimmte Vorgabe? . . . . . . . . . . . . . . . . . . . . . . . . . . . 251EIN-STICHPROBEN-T-TEST

    Folgt eine metrische Variable einer bestimmten Verteilung? . . . . . . . . . . . . . . . . . . . . . 257Q-Q-PLOT

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 14 — le-tex

    Fragestellungen und Methoden

    KOLMOGOROV-SMIRNOV-TESTSHAPIRO-WILK-TESTCHI-QUADRAT-ANPASSUNGSTEST

    Kapitel 9: Mehrere metrische Variablen:

    Wie stark ist der Zusammenhang zwischen zwei metrischen Variablen? . . . . . . . . .275STREUDIAGRAMMKORRELATION NACH PEARSONKORRELATION NACH SPEARMAN

    Welche Form hat der Zusammenhang zwischen zwei Variablen? . . . . . . . . . . . . . . . . 281STREUDIAGRAMMEINFACHE LINEARE REGRESSION

    Kann man Werte einer Variablen anhand einer zweiten vorhersagen? . . . . . . . . . . . 287EINFACHE LINEARE REGRESSION

    Kann der Zusammenhang einer mit mehreren Variablen beschrieben werden? . . 291MULTIPLE LINEARE REGRESSION

    Unterscheiden sich Mittelwerte zu zwei oder mehreren Zeitpunkten? . . . . . . . . . . .306STREUDIAGRAMMT-TEST FÜR ABHÄNGIGE STICHPROBEN

    Wie kann die zeitliche Entwicklung einer metrischen Variablen beschriebenund untersucht werden? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 309

    ZEITREIHENPLOTZEITREIHENZERLEGUNGGLEITENDE DURCHSCHNITTEEXPONENTIELLE GLÄTTUNG

    Kapitel 10: Metrische und kategoriale Variablen:

    Unterscheiden sich die Mittelwerte in zwei Gruppen? . . . . . . . . . . . . . . . . . . . . . . . . . . .336PARALLELE BOXPLOTSZWEISTICHPROBEN-T-TEST

    Unterscheidet sich die Lage einer Variablen zwischen zwei Gruppen? . . . . . . . . . . 340PARALLELE BOXPLOTSU-TEST

    Unterscheiden sich die Mittelwerte mehrerer Gruppen? . . . . . . . . . . . . . . . . . . . . . . . . . 343PARALLELE BOXPLOTSEINFACHE VARIANZANALYSEPOST-HOC-TESTS

    Unterscheidet sich die Lage einer Variablen zwischen mehreren Gruppen? . . . . . 348PARALLELE BOXPLOTSKRUSKAL-WALLIS-TEST

    Wie wirken zwei kategoriale Variablen kombiniert auf Mittelwerte? . . . . . . . . . . . . . 351MITTELWERTPLOTSZWEIFACHE VARIANZANALYSE

    Hängen Chancen von einer oder mehreren Variablen ab? . . . . . . . . . . . . . . . . . . . . . . . . 358LOGISTISCHE REGRESSION

    14

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 15 — le-tex

    Fragestellungen und Methoden

    Unterscheiden sich Chancen zwischen zwei oder mehreren Gruppen? . . . . . . . . . . 367LOGISTISCHE REGRESSION

    Unterscheiden sich Odds-Ratios zwischen zwei oder mehreren Gruppen? . . . . . . 370LOGISTISCHE REGRESSION

    Kapitel 11: Dimensionsreduktion:

    Kann man Komplexität multidimensionaler Daten reduzieren? . . . . . . . . . . . . . . . . . .382SCREEPLOTHAUPTKOMPONENTENANALYSE

    Kann man die Ergebnisse einer Hauptkomponentenanalyse weiterverwenden? 404KOMPONENTENSCORES

    Kapitel 12: Gruppierung von Beobachtungen:

    Wie entdeckt man Gruppen ähnlicher Beobachtungen? . . . . . . . . . . . . . . . . . . . . . . . . . . 417HIERARCHISCHE CLUSTERVERFAHREN

    Wie findet man Cluster in den Variablen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 432CLUSTERN VON VARIABLEN

    Wie findet man Cluster in großen Datensätzen? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434CENTROID-CLUSTERN

    Wie können kategoriale Variablen in eine Clusteranalyse einbezogen werden? . . 439FUZZY-CLUSTERN (MIT METRISCHEN UND KATEGORIALEN VARIABLEN)

    15

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 16 — le-tex

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 17 — le-tex

    ÜB

    ER

    BL

    IC

    K

    1

    Einführung

    1.1 Konzeption des Buchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    1.2 Aufbau des Buchs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    1.3 Programmversionen von R . . . . . . . . . . . . . . . . . . . . . . . . . . 20

    1.4 Wie kann dieses Buch verwendet werden? . . . 20

    1.5 Typografische und andere Konventionenin diesem Buch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 18 — le-tex

    1 Einführung

    1.1 Konzeption des Buchs

    Wie schon aus dem Titel ersichtlich, beschäftigt sich dieses Buch mit zwei Themen,dem Programmpaket R (R Development Core Team, 2010) und angewandter Statis-tik. Im Alltagssprachgebrauch ist der Begriff Statistik nicht besonders positiv besetztund hat oft den Beigeschmack trockener Zahlenklauberei. Tatsächlich aber ist Sta-tistik viel mehr. Statistik ist die Kunst und Wissenschaft, von Daten zu lernen. Sieermöglicht uns einen Blick auf die Welt, der in unserer modernen Informationsge-sellschaft von vitaler Bedeutung ist. Wir alle, Studierende und Lehrende, Frauenund Männer, Jüngere und Ältere, müssen die täglich auf uns einströmende, manch-mal überbordende Fülle an Information bewältigen und das heißt eben, von Datenzu lernen und sie zu interpretieren.

    Somit hat die Statistik auch die Aufgabe, Information so zu vereinfachen und zukomprimieren, dass Kernaspekte herausgearbeitet werden. Durch die Verwendungvon Computern und geeigneter Software ist das heute viel leichter als vor noch nichtallzu langer Zeit. R ist eines dieser Softwarepakete. Es beruht auf S, das vor mehrals 40 Jahren bei AT & T Bell Labs entstand und das 1998 mit dem Software SystemAward der Association for Computing Machinery ausgezeichnet wurde, weil es „füralle Zeiten die Art wie Menschen Daten analysieren, visualisieren und manipulie-ren verändert hat“. Um 1990 begannen Ross Ihaka und Robert Gentleman, damalsan der University of Auckland in Neuseeland, mit der Implementierung eines OpenSource Systems „nicht unähnlich zu S“, das sie R nannten. Diese Initiative wurdevon Statistikern an Universitäten mit wachsender Begeisterung aufgenommen. Raschentstand ein Team von Kernentwicklern aus führenden Vertretern der modernen,rechenorientierten Statistik. Mittlerweile ist R zum de facto Standard der statisti-schen Forschung an Universitäten geworden. R versteht sich aber nicht als „reine“Statistiksoftware, sondern als flexible (Software)Umgebung für „Datenanalyse undGrafik“, und erfreut sich so in einer Vielzahl von Disziplinen immer größerer Beliebt-heit wenn es darum geht, Daten zu analysieren und zu visualisieren. Den Kern vonR bildet eine mächtige, für den Umgang mit Daten konzipierte Programmierspra-che, deren Basisfunktionalität einfach zu erlernen ist. Beruhend auf dieser univer-sellen Sprache gibt es eine Vielzahl von Erweiterungen für speziellere Bedürfnisse,wie etwa grafische Benutzeroberflächen, oder Verfahren für bestimmte Anwendungs-bereiche.

    Die Konzeption dieses Buchs beruht auf unserer mehr als zwanzigjährigen Erfah-rung im Unterrichten einführender Statistik und Statistiksoftware. Wir haben dieEntwicklung er- und gelebt, die von einem traditionellen, an Formeln orientierten zueinem modernen Ansatz führte, der Konzepte in den Vordergrund stellt. Zumindestin einem ersten Schritt sollte Lernen von Statistik nicht darin bestehen, irgendwel-che Zahlen in scheinbar obskure Formel einsetzen und diese dann ausrechnen zukönnen. Daher ist auch die Kombination mit Statistiksoftware so wichtig, weil es dieKonzentration auf die wesentlichen Aspekte fördert. Wir folgen den Richtlinien, dieunter anderem von den beiden weltweit führenden Institutionen auf diesem Gebiet,der American Statistical Association und der englischen Royal Statistical Society,für die Einführung in Statistik formuliert wurden. Die wichtigsten sind:

    Betonung statistischer Fähigkeiten (literacy) und Entwicklung statistischen Den-kensVerwendung echter Daten

    18

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 19 — le-tex

    1.2 Aufbau des Buchs

    Eher Akzentuierung konzeptuellen Verständnisses als einfache Kenntnisse forma-ler ProzedurenBenutzung technologischer Hilfsmittel zur Analyse von Daten und Entwicklungvon Konzepten

    1.2 Aufbau des Buchs

    Dieses Buch versteht sich nicht als R-Handbuch, in dem alle Details beschriebenwerden (d. h. in dem alle Funktionen definiert und Menüpunkte durchbesprochenwerden), und auch nicht als Statistiklehrbuch in Form eines Trockenkurses. R wirdparallel zu statistischen Methoden erläutert und damit soll es der Leserin bzw. demLeser ermöglicht werden, Statistik mit diesem Computerprogramm für Aufgaben imAlltag und Beruf einsetzen zu können.

    Aus diesen Gründen haben wir einen Ansatz gewählt, der nicht einer traditionelleVermittlungsweise in der Form: Beschreibende Statistik – Wahrscheinlichkeitstheo-rie – Inferenzstatistik folgt. Wir bevorzugen einen alternativen, mehr an der Praxisund an Daten orientierten Aufbau und integrieren statistische Konzepte mit einerDarstellung des how to do, wie also bei bestimmten Fragenstellung die Umsetzungerfolgen kann und wie man dabei in der Praxis konkret vorgeht.

    Das Buch beginnt mit einer kurzen Darstellung der wesentlichen Grundbegriffeder Statistik, die für das Verstehen der späteren Kapitel notwendig sind, und einemÜberblick über die Bedienung von R. Dieser orientiert sich an den Schritten einerDatenanalyse, wie sie in der Praxis durchgeführt wird.

    Der eigentliche Kern des Buchs besteht aus vier Teilen, in denen verschiedeneTypen von Information behandelt werden. Zunächst liegt der Fokus auf kategorialenDaten, also solchen, wo Information in Form von Häufigkeiten und Prozentsätzenbestimmter Gruppen oder Klassifikationen vorliegt. Der zweite Teil beschäftigt sichdann mit metrischer bzw. numerischer Information, also mit Daten, die nicht durchKategorien repräsentiert werden, sondern in Form von Zahlen vorliegen. Informatio-nen, in der diese beiden Typen gemeinsam vorkommen, sind Gegenstand des drit-ten Teils und schließlich folgt noch eine Behandlung komplexer, vieldimensionalerInformation, sogenannter multivariater Daten. Die Teile bestehen immer aus einemoder zwei Kapiteln, die sich mit spezifischen Problemen befassen, die mit dem jewei-ligen Informationstyp in Zusammenhang stehen.

    Gegliedert ist jedes Kapitel in typische Fragestellungen, die bei einem bestimmtenDatentyp auftauchen können. Hierbei werden anhand von insgesamt 27 realen Fall-beispielen Probemstellungen diskutiert und Lösungsmöglichkeiten sowohl bezüg-lich der statistischen Methodik als auch deren Umsetzung in R vorgestellt. Alle dazunotwendigen methodischen Überlegungen werden nicht auf Vorrat, sondern immerdann präsentiert, wenn sie zur Beantwortung einer Fragestellung wichtig sind. Diesist auch der Grund, warum beschreibende und inferenzstatistische Methoden nichtgetrennt sondern kombiniert dargestellt werden und schon gleich zu Beginn desKernstoffs in Kapitel 6 auftauchen. Gleich nach der in einem Fallbeispiel gestell-ten Frage werden die formalen Ideen zu deren Beantwortung auf einfache Weisepräsentiert, formale Aspekte (wie z. B. Formeln) werden dabei so weit als möglichausgespart und nur dort behandelt, wo sie zum Verständnis notwendig erscheinen.Besonderes Augenmerk legen wir auf Interpretationen, die sowohl die technischenals auch inhaltlichen Gesichtspunkte ausführlich abdecken und der Leserin bzw.

    19

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 20 — le-tex

    1 Einführung

    dem Leser als Vorbild für eigene Arbeiten dienen können. Allgemeinere Grundideenbzw. spezielle Überlegungen werden in Exkursen behandelt, die bei einem erstenLesen überblättert werden können. In drei Fällen gibt es eine vertiefende Betrach-tung des Lernstoffs in einem Anhang zum jeweiligen Kapitel.

    Jedes Kapitel beginnt mit einer kurzen Zusammenstellung und einem Ausblick aufden Inhalt und endet mit einer Zusammenfassung der behandelten Konzepte undÜbungensaufgaben.

    Zum Buch gibt es eine Companion Website (http://www.pearson-studium.de). Dortfinden Sie, nach Kapiteln gegliedert, den gesamten im Buch verwendeten R-Code,sowie zu allen Übungensaufgaben die dazu benötigten Dateien und kommentierteLösungen.

    Bis auf wenige Ausnahmen werden nur reale Datensätze verwendet, die alleebenso auf der Companion Website zur Verfügung stehen. Eines der Ziele des Buchsbesteht darin, alle Schritte nachvollziehbar zu machen.

    1.3 Programmversionen von R

    Das Buch wurde mit R 2.11.1 erstellt. Wir empfehlen, grundsätzlich immer die aktu-ellste veröffentlichte Version von R zu verwenden: dies stellt sicher dass auch beiden verwendeten Erweiterungs-Packages immer die aktuellste Version verfügbar ist.

    1.4 Wie kann dieses Buch verwendet werden?

    Ohne Statistikgrundkenntnisse:

    in einem einsemestrigen Kurs (20–25 Stunden)im Selbststudium

    Da keinerlei Voraussetzungen bestehen (außer dem basalen Umgang mit PCs und einwenig Mathematik), lässt sich dieser Text in einem einsemestrigen Einführungskursin Statistik mit R gut umsetzen. Der Text ist so konzipiert, dass er auch zum Selbst-studium geeignet sein sollte.

    Mit Statistikgrundkenntnissen:

    Wenn man eine Datenerhebung plant oder Daten bereits gesammelt hat und wis-sen möchte, wie man diese computergerecht erfassen und für eine Analyse aufbe-reiten sollteWenn man zu einer bestimmten inhaltlichen (substanzwissenschaftlichen) Frage-stellung die entsprechende statistische Methode suchtWenn man für eine bestimmte statistische Methode wissen möchte, wie manderen Ergebnis interpretiertWenn man eine konkrete Analyse in R durchführen möchte

    Der einführende, problem- und lösungsorientierte Charakter des Texts soll die Lese-rin bzw. den Leser in die Lage versetzen, bestimmte statistische Methoden anwendenund umsetzen zu können bzw. Hilfe und Anregungen bei spezifischen Fragenstellun-gen zu erhalten.

    20

    http://www.pearson-studium.de

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 21 — le-tex

    1.5 Typografische und andere Konventionen in diesem Buch

    1.5 Typografische und andere Konventionenin diesem Buch

    Um den Text übersichtlich und lesefreundlich zu gestalten, haben wir einigeElemente definiert, die durch verschiedene Schrifttypen und Gestaltungsweisengekennzeichnet sind.

    R Input und Output

    Der Input in R, d. h., die Befehle, wie Sie sie eingeben sollen wird in R-Kästen darge-stellt:

    R

    > x x

    Die Ausgabe dieser beiden Befehle, die bis auf wenige Ausnahmen (wie hier) unmit-telbar nach den Eingabekästen folgt, sieht so aus:

    [1] 2 4 6 8

    Bei manchen Befehlen gibt es keine unmittelbare Ausgabe. Wenn sich der nachfol-gende Text auf die Ausgabe bezieht und diese kommentiert wird, dann werden dieentsprechenden Elemente genauso wie in der Ausgabe, also z. B. so [1] 2 4 6 8 dar-gestellt.

    In R erzeugte Grafiken finden sich in Abbildungen auf die im Text verwiesen wird.Beispiel: Mit dem folgenden Befehl kann man die Logarithmusfunktion visualisieren(� Abbildung 1.1).

    R

    > plot(log(seq(1, 5, 0.1)), type = "l")

    Bis auf extra gekennzeichnete Ausnahmen verwenden wir immer R-Standardgrafikenund verzichten auf Hinzufügen zusätzlicher Grafikelemente.

    Aus ästethischen Gründen hat der Verlag bei manchen Grafiken Blau- statt Grau-töne (wie sie in R standardmäßig erzeugt werden) verwendet. Bunte R-Grafiken wer-den durch Blauschattierungen dargestellt.

    21

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 22 — le-tex

    1 Einführung

    40

    0.0

    0.5

    1.0

    1.5

    Index

    log(

    seq(

    1, 5

    , 0.1

    ))

    0 10 20 30

    Abbildung 1.1: Beispielsgrafik: Logarithmusfunktion

    Schrifttypen

    Im Prinzip wird immer jene Schrift verwendet, wie sie auch am Bildschirm zu sehenist.

    Nichtproportionale Schrift (monospace):Ebenso wie für den R Input und Output als auch für Variablen-, Funktions-,Options- und Dateinamen verwenden wir nichtproportionale Schrifttypen, wiez. B. für die Variable geschlecht oder die Datei fragebogen.RData. Funktionenwerden mit Klammern geschrieben (z. B. plot()), um anzudeuten, dass nachFunktionsnamen immer Klammern folgen. Nach Namen von Optionen bzw.Argumenten von Funktionen schreiben wir = (z. B. type=), um anzudeuten, dassnach dem = etwas zu spezifizieren ist.Serifenlose Schrift (sans serif ):Alles, was sich in der R Benutzeroberfläche in serifenloser Schrift dargestellt wird(im Wesentlichen Fenstertitel und Menüpunkte), hat diese Form, wie z. B. derMenüpunkt Datei. R-Packages werden serifenlos fett geschrieben wie z. B. dasPackage foreign.Schrift mit Serifen (serif ):Verweise auf Links, die in Screenshots von Webseiten vorkommen, sind so darge-stellt wie z. B. Task Views.

    Weiters verwenden wir

    Schrifttyp: Kapitälchen (small caps)Wichtige Begriffe werden, wenn sie zum ersten Mal auftauchen, IN DER FORM bzw.IN DER FORM gekennzeichnet, wie z. B. HYPOTHESE.

    22

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 23 — le-tex

    1.5 Typografische und andere Konventionen in diesem Buch

    kursive Schrift (slanted)Kursiv wird verwendet, wenn wir etwas hervorheben wollen oder bei englischenÜbersetzungen, wenn sie zum ersten Mal auftauchen, wie z. B. Arbeitsverzeichnis(engl. working directory).

    Buttons und Keyboard-Tasten

    Wenn in der Bedienung von R ein Mausklick auf eine Schaltfläche (Button) erfol-gen soll, dann wird es

    ��

    ��so oder durch das entsprechende Icon, z. B. dargestellt.

    Die Verwendung von Tasten am Keyboard wird durch die Symbole , , undgekennzeichnet, die Eingabe-Taste (Return-Taste) durch . Tastenkombinatio-

    nen, wie z. B. für Kopieren und Einfügen, werden symbolisiert durch��

    ��Strg+C und�

    ���Strg+V .

    Hinweise, Tipps und Warnungen

    Manchmal gibt es Textpassagen, die spezielle Hinweise enthalten. Diese sind in Blaugesetzt und werden zusätzlich durch ein Symbol am Rand gekennzeichnet.

    Navigation und Auswahl von Menüpunkten

    Die grafische Benutzeroberfläche ist in R eher spartanisch gehalten und wird beson-ders bei der Anwendung von statistischen Methoden kaum benutzt. In diesem Buchwerden Menüpunkte so dargestellt wie z. B. für Hilfe. Die Auswahl von Untermenü-punkten wird wie z. B. in Datei � Speichern repräsentiert.

    23

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 24 — le-tex

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 25 — le-tex

    ÜB

    ER

    BL

    IC

    K

    2

    Statistische Grundbegriffe

    2.1 Einige Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 272.1.1 Hochrechnung (statistisches Schätzen) . . . . . . . . . . . 272.1.2 Prüfen von Fragestellungen

    (Testen von Hypothesen) . . . . . . . . . . . . . . . . . . . . . . . . . . . 282.1.3 Erstellen von Modellen

    (statistisches Modellieren) . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    2.2 Grundlegende Konzepte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    2.3 Messung und Typen von Daten . . . . . . . . . . . . . . . . . . . 33

    2.4 Arten von Fragestellungen und Variablen . . . . 36

    2.5 Zusammenfassung der Konzepte . . . . . . . . . . . . . . . . . 40

    2.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 26 — le-tex

    2 Statistische Grundbegriffe

    Dieses Kapitel gibt einen Überblick über wesentliche Konzepte der Statistik, ohnederen Kenntnis die Verwendung von R nicht besonders sinnvoll erscheint. Es beginntmit einigen Beispielen, die die Hauptaufgabengebiete der Statistik illustrieren sollen.Es handelt sich hierbei um Hochrechnung (statistisches Schätzen), das Prüfen vonFragestellungen und die Hilfe bei Entscheidungen (Testen von Hypothesen) sowie dieModellbildung, um komplexere Zusammenhangsstrukturen zu verstehen (statisti-sches Modellieren). Es folgt eine Besprechung grundlegender Begriffe wie Stichprobeund Population, Beobachtungseinheiten und Variablen. Ein kurzer Abschnitt behan-delt die Frage wie Daten zustande kommen (Messung) und welche Arten von Datenunterschieden werden (kategorial bzw. metrisch). Dies ist deshalb besonders wichtig,weil die Art der statistischen Analysen davon abhängt. Schließlich werden nochTypen von Fragestellungen und die damit verbundene Einteilung von Variablenbehandelt.

    LERNZIELENach Durcharbeiten dieses Kapitels haben Sie Folgendes erreicht:

    Sie kennen die Hauptaufgabengebiete der Statistik und die Unterschiede zwi-schen Schätzen, Testen und Modellieren.Sie wissen, was eine Population, eine Stichprobe und Beobachtungseinheitensind, und verstehen die Beziehungen zwischen diesen Begriffen.Sie wissen, was eine Messung ist, und können metrische und kategorialeDaten definieren und unterscheiden.Sie können Nominal-, Ordinal, Intervall- und Ratio(nal)-Skalen erklären undDaten diesen Skalen zuordnen.Sie wissen, was Variablen sind.Sie können zwei wichtige Typen von statistischen Zusammenhängen zwi-schen Variablen („je – desto“-Zusammenhänge und Unterschiede zwischenGruppen von Personen) unterscheiden und inhaltliche Fragestellungendanach einteilen.Sie wissen, was „wenn – dann“-Fragestellungen sind, und können dabeiunabhängige und abhängige Variablen bzw. erklärende und Responsevaria-blen charakterisieren.

    26

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 27 — le-tex

    2.1 Einige Beispiele

    2.1 Einige Beispiele

    Anhand einiger Beispiele (Keller und Warrack, 1997) sollen zunächst grundlegendeIdeen und typische Problemstellungen der Statistik dargestellt werden.

    2.1.1 Hochrechnung (statistisches Schätzen)

    Produkteinführung

    In den USA gibt es ein Unternehmen, NPDC (National Patent Development Corporation), das sichzur Aufgabe gesetzt hat, neu entwickelte Produktideen vom Patent bis zur Markteinführung zubetreuen. Eines dieser neuen Produkte ist CARIDEX, eine Paste, die zur Zahnbehandlung dient.Diese Paste wird auf kariöse Zähne aufgetragen und löst dort die erkrankten Stellen auf. Dergroße Vorteil dieses Produkts ist, dass sich sowohl Patient wie auch Zahnarzt das Bohren erspa-ren. Um nun CARIDEX auf den Markt zu bringen und die dafür benötigten Investitionen undEinkünfte abzuschätzen, braucht NPDC einige Informationen. Die Fixkosten beziffert das Unter-nehmen mit 4 Millionen Dollar. Eine Marktanalyse ergab, dass 10 000 von den insgesamt 100 000Dentisten und Zahnärzten in den USA CARIDEX im ersten Jahr nach der Einführung verwendenwürden. NPDC würde jedem Zahnarzt ein Gerät zum Auftragen der Paste zum Selbstkostenpreisvon 200$ zur Verfügung stellen. Die Paste für einen Zahn kostet 0,50$, NPDC würde dafür 2,50$in Rechnung stellen. Ob sich die Markteinführung rentiert, hängt also nur von der Gesamtzahlbehandelter Zähne ab, da NPDC pro Zahn, der mit CARIDEX behandelt wird, wieder 2$ zurück-erhält. Die Hauptfrage, die sich NPDC stellt, ist, ob die Markteinführung von CARIDEX schonim ersten Jahr profitabel ist. Man benötigt also Information darüber, wie viele Zähne die 10 000Zahnärzte innerhalb eines Jahres mit CARIDEX behandeln würden.Zu diesem Zweck wurde eine Stichprobe von 400 Zahnärzten befragt, wie viele Zähne sie ineiner typischen (durchschnittlichen) Woche behandeln würden. Die Zahlen, die NPDC aus dieserBefragung erhalten hat, könnten so aussehen:

    7, 3, 5, 5, 4, 7, 7, . . .

    d. h., der erste Zahnarzt würde 7 Zähne pro Woche, der zweite 3 etc. behandeln. Was fängt NPDCnun mit dem Ergebnis der Befragung an? In diesem Beispiel ist eine wichtige Frage wohl:

    Wie viele Zähne werden von den Zahnärzten durchschnittlich pro Woche behandelt?

    Zunächst wird man versuchen, diese Zahlen übersichtlich und sinnvoll zusammen-zufassen, um einen ersten Eindruck zu bekommen, welche Information in den Datensteckt. Dies ist das Aufgabengebiet der sogenannten BESCHREIBENDEN oder DESKRIP-TIVEN STATISTIK.

    Deskriptive Statistikstellt Methoden bereit, mit deren Hilfe man die Gesamtinformation, die in Rohdatensteckt, numerisch oder grafisch so darstellen bzw. komprimieren kann, dass wesentlicheAspekte erkennbar sind, ohne allzu viel an wichtiger Information zu verlieren.

    27

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 28 — le-tex

    2 Statistische Grundbegriffe

    Dies dient vor allem zur Präsentation bzw. Strukturierung (möglicherweise umfang-reichen) Datenmaterials. Hierzu gibt es eine Reihe von numerischen und grafischenMethoden, die je nach Art der Daten und nach der jeweiligen Fragestellung ange-wendet werden. Wir werden solche deskriptiven statistischen Methoden zur Zusam-menfassung, Reduktion und Darstellung von Informationen noch ausführlich behan-deln.

    Deskriptive statistische Methoden werden meistens bei Stichprobendaten ange-wendet, also hier auf die Angaben der 400 befragten Zahnärzte. Es geht aber eigent-lich darum, vorherzusagen, wie viele Zähne insgesamt, also von allen 10 000 Zahn-ärzten, behandelt werden. Aufgrund des Stichprobenmittelwerts kann man hoch-rechnen, wie viele behandelte Zähne insgesamt zu erwarten wären. Man erhält einebestimmte Zahl als Ergebnis dieser Schätzung. Allerdings kann man nicht erwarten,dass diese Zahl ganz genau stimmen wird, sondern sie wird nur ungefähr stimmen.Aber natürlich möchte man schon wissen, wie groß dieses „ungefähr“ ist. Und dasist die zweite wichtige Frage:

    In welchem Bereich wird die Gesamtanzahl aller von 10 000 Zahnärzten innerhalbeines Jahres behandelten Zähne liegen?

    Methoden, die uns helfen, solche Fragen zu beantworten, gehören in das Gebiet dersogenannten INFERENZSTATISTIK (auch INFERENTIELLE oder SCHLIESSENDE STATIS-TIK).

    Inferenzstatistikstellt Methoden bereit, mit deren Hilfe man Schlüsse über die Eigenschaften von Grund-gesamtheiten (oder Populationen) basierend auf Stichprobendaten ziehen kann.

    In unserem Beispiel wäre es wohl schwer gewesen, alle 10 000 Zahnärzte zu befra-gen, wie viele Zähne sie behandeln würden. Aber es genügt, nur einen kleinen Teilvon ihnen (nämlich 400) zu befragen, um eine verlässliche Vorhersage über die zuerwartenden Einnahmen von NPDC abgeben zu können. Dieses erste Beispiel isttypisch für eine der Aufgaben der Statistik. Es soll versucht werden, bestimmte Werteaus einer Stichprobe für die Population hochzurechnen. Diese Aufgabe nennt manSCHÄTZUNG. Dazu gehört auch zusätzlich noch eine Angabe der Genauigkeit dieserHochrechnung.

    2.1.2 Prüfen von Fragestellungen (Testen von Hypothesen)

    Wirksamkeit von Werbung

    In den USA gibt es bestimmte TV-Shows, die inzwischen auch im deutschsprachigen Privatfern-sehen zu finden sind, in denen der Showmaster gleichzeitig als Werbeträger auftritt. Einer derGründe für diese Art von Werbung besteht darin, dass Marketingfachleute glauben, dadurch einehöhere Glaubwürdigkeit des Werbeträgers zu erreichen und dadurch eine bessere Wirksamkeitder Werbung zu erzielen. Eine Studie an Kindern im Alter von 6 bis 10 Jahren sollte feststellen, obdiese Art von Werbung – sie soll im Folgenden kurz Showmaster-Werbung genannt (SW) werden –

    28

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 29 — le-tex

    2.1 Einige Beispiele

    wirksamer als normale Werbung (NW) ist. Im Speziellen wurde untersucht, ob die Erinnerungs-leistung bei Showmaster-Werbung höher ist und ob die Kinder dann eher das beworbene Pro-dukt kaufen würden. Zu diesem Zweck wurden zwei Gruppen von Kindern gebildet. Eine Gruppevon 121 Kindern (NW) sah ein Fernsehprogramm, das von normalen Werbepausen unterbrochenwar. Die zweite Gruppe von ebenfalls 121 Kindern (SW) sah dasselbe Programm, mit der Aus-nahme, dass die Werbung nicht von einem unbekannten Schauspieler, sondern vom Showmasterselbst präsentiert wurde. Das beworbene Produkt war ein bestimmtes Frühstücksgericht (Zerealie)mit dem Namen Canary Crunch. Unmittelbar nach der Show wurden den Kindern einige Fragengestellt, um zu untersuchen, was sie sich vom Werbeinhalt gemerkt haben. Jedes Kind wurde aufeiner 10-Punkte-Skala beurteilt, wobei der Wert 10 bedeutete, dass ein Kind ausgezeichnet in derLage war, sich Details der Werbung zu merken. Außerdem bekam jedes Kind die Gelegenheit, eineGratispackung mit nach Hause zu nehmen, wobei es unter vier verschiedenen Produkten wäh-len konnte: Kangaroo Hops (KH), Froot Loops (FL), Boo Berries (BB) und Canary Crunch (CC). DieResultate könnten folgendermaßen aufgezeichnet worden sein:

    Punkte beim gewählteGruppe Merken von Details Gratispackung

    SW 6 FLSW 9 CCSW 7 KHSW 7 CC

    ......

    ...NW 9 FLNW 5 CCNW 7 BBNW 9 CC

    Welche Informationen resultieren nun aus dieser Untersuchung? Folgende zwei Fragen lassen sichmit den erhobenen Daten beantworten:

    Merken sich Kinder mehr Details der Werbung, wenn sie vom Showmaster präsentiert wird?Wählen die Kinder, die die Showmaster-Werbung gesehen haben, eher das beworbene Pro-dukt?

    Es geht also um die generelle Frage, ob sich die zwei Gruppen bezüglich der unter-suchten Merkmale, nämlich Gedächtnisleistung und gewähltes Produkt, unterschei-den. Dazu wird man zunächst die Daten, wie sie in der obigen Tabelle dargestelltsind, so zusammenzufassen, dass aus den 726 Detailinformationen einige wenigeübersichtliche Vergleichszahlen und Grafiken resultieren, die die untersuchte Stich-probe beschreiben.

    Aber natürlich möchte man aufgrund der Ergebnisse dieser Studie auch daraufschließen können, wie generell sechs- bis zehnjährige Kinder auf Showmaster-Werbung reagieren. Man wird also wieder versuchen, die Ergebnisse, die anhandder untersuchten Stichprobe gewonnen wurden, auf alle vergleichbaren Kinder zuverallgemeinern. Letztlich wollen die Werbewissenschaftler die Frage beantworten,ob Showmaster-Werbung effektiver als normale Werbung ist.

    29

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 30 — le-tex

    2 Statistische Grundbegriffe

    Fragen dieser Art werden als Hypothesen bezeichnet und eine Aufgabe der Statis-tik ist es, solche zu überprüfen. Diese Aufgabe nennt man das TESTEN VON HYPO-THESEN. Natürlich kann man nie hundertprozentig sicherstellen, ob eine Hypothesezutrifft. Die Aufgabe der Statistik ist hierbei eine Entscheidungsgrundlage dafür zugeben, ob eher „JA“ oder eher „NEIN“ die richtige Antwort ist.

    2.1.3 Erstellen von Modellen (statistisches Modellieren)

    Bücherverkauf und Freiexemplare

    Der Markt für Lehrbücher und wissenschaftliche Texte ist nicht ohne Weiteres mit anderen Pro-duktmärkten vergleichbar, da die Entscheidung zum Kauf eines akademischen Werks auf anderenGrundlagen beruht als beim Kauf anderer Produkte. In den meisten Fällen sind SchülerInnen oderStudentInnen die Käufer und oft wird ein Lehrbuch nur deswegen gekauft, weil die LehrerIn-nen oder ProfessorInnen dieses Buch als Lernunterlage empfehlen. Also muss ein Verlag, der einbestimmtes Buch verkaufen will, versuchen, jene Personen von den Vorteilen ihres Produkts zuüberzeugen, die dann die Empfehlung aussprechen. Nun ist es für einen Unterrichtenden meistnicht leicht, die Qualität von Büchern zu beurteilen, da oft viele verschiedene Bücher mit gleichemoder ähnlichem Inhalt am Markt sind und er oder sie nicht alle kaufen und lesen kann. Aus diesemGrund gibt es Rezensionen in Fachzeitschriften, die den LehrerInnen helfen sollen, ein geeignetesBuch auszuwählen. Aber auch die Verlage haben sich eine Strategie einfallen lassen, um die Leh-rerInnen zu überzeugen, ihr Buch zu verwenden und zu empfehlen. Sie verschenken Freiexemplarean LehrerInnen in der Hoffnung, diese freundlich gegenüber ihrem Buch stimmen zu können.Eine Managerin eines wissenschaftlichen Verlages untersucht die letzten Geschäftszahlen einesneu herausgegebenen Statistikbuchs. Besonders interessiert sie, wie viele Freiexemplare vergebenund wie viele Exemplare verkauft wurden. Ein Mitarbeiter hat ihr dazu eine Liste zusammenge-stellt, die wie in der folgenden Tabelle aussehen könnte:

    Nummer des Bruttoerlös Anzahl vergebenerRepräsentanten in US-Dollar Freiexemplare

    1305 2086 1061307 63093 3371327 41017 1821329 7621 1921330 28725 1611331 55298 185

    ......

    ...

    Er fragt sich, ob seine Vertreter zu viele Bücher verschenken (dies kostet natürlich eine Menge).Es könnte aber auch sein, dass man die Erträge erhöhen könnte, wenn man mehr Freiexemplarevergeben würde. Im Prinzip interessiert ihn also:

    Gibt es eine direkte Beziehung zwischen der Anzahl verschenkter Exemplare und den Einnah-men aus dem Verkauf dieser Bücher?

    30

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 31 — le-tex

    2.2 Grundlegende Konzepte

    Man könnte aber auch weitere Fragen bezüglich dieser Beziehung stellen. Etwa, obes einen Unterschied macht, wenn man ein Freiexemplar an jemanden vergibt, deran einer Universität mit nur wenigen Studenten unterrichtet, oder an jemanden, derviele Studenten zu betreuen hat. Eine andere Frage könnte sein, ob es eine Grenzefür die Anzahl verschenkter Bücher gibt, ab der es sich nicht mehr rentiert, nochmehr zu vergeben. Sollte eine direkte Beziehung zwischen der Anzahl verschenkterund verkaufter Exemplare bestehen, dann lässt sich auch prognostizieren, wie vieleBücher verkauft würden, wenn man eine bestimmte Anzahl verschenken würde.Dies ist eine weitere Aufgabe der Inferenzstatistik. Es geht darum, ein STATISTISCHESMODELL zu formulieren, das bestimmte Sachverhalte geeignet abbildet und Bezie-hungen zwischen ihnen zu erklären hilft. In der Folge kann man solch ein Modellauch dazu verwenden, vernünftige PROGNOSEN abzugeben.

    2.2 Grundlegende Konzepte

    Die Beispiele und Fragestellungen, wie sie im vorigen Abschnitt dargestellt wurden,sind typische Anwendungssituationen für statistische Methoden. Die Frage, was mitdem Begriff Statistik eigentlich verbunden ist, könnte man so beantworten:

    Was ist Statistik? (Arbeitsdefinition)Statistik beschäftigt sich mit

    dem Sammeln,der Präsentation,und der Analyse

    von Daten (Information). Dabei will man üblicherweise aufgrund von Informationen, dieman anhand von Stichproben gewonnen hat, allgemeine Schlussfolgerungen ziehen.

    In empirischen Wissenschaften (das sind solche, in denen Erkenntnisse durch Beob-achtung gewonnen werden) geht es darum, Ordnungsprinzipien bei natürlichen Phä-nomenen zu entdecken, zu beschreiben, zu erklären und vorherzusagen. Hierbei ver-läuft der Prozess der Erkenntnisgewinnung in vier Schritten:

    1. Beobachtung von Phänomenen

    2. Aufstellen von Hypothesen und Theorien

    3. (daraus) Ableitung von Vorhersagen

    4. (und schließlich deren) Überprüfung

    Im Prinzip begleiten statistische Methoden alle diese vier Schritte. Allerdings wer-den die drei oben angeführten Aspekte von Statistik (nämlich Sammeln, Präsentationund Analyse von Daten) vor allem im ersten und im vierten Schritt vorrangig sein.Die Statistik liefert dazu ein Methodeninventar (oder anders ausgedrückt, eine Werk-zeugkiste), mit dessen Hilfe man Informationen aus Daten gewinnen und verarbeitenkann. Hauptaufgabe dieses Textes ist es, solche Werkzeuge zu besprechen und dieAnwendung bei typischen Problemstellungen zu erläutern.

    31

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 32 — le-tex

    2 Statistische Grundbegriffe

    Dabei geht es im Wesentlichen um die Gewinnung und Verarbeitung von Informa-tion. Information gewinnt man durch Beobachtung. Es ist daher naheliegend, sichdie einfache Frage zu stellen: WORAN beobachte ich WAS?

    Ein bestimmtes, einzelnes WORAN, an dem man etwas beobachtet, nennt manBEOBACHTUNGSEINHEIT (oder auch statistische Einheit oder Fall, engl. case). Dabeiwird es sich oft um Personen handeln, es können aber im Prinzip beliebige Objekte(wie Firmen, Regionen, aber auch bestimmte definierte Situationen) sein.

    Beobachtungseinheiten:Individuen, Objekte oder (Trans-)Aktionen, an denen etwas beobachtet wird. Eine sta-tistische Erhebung dient üblicherweise dazu, Informationen über eine bestimmte, abge-grenzte (oder wohldefinierte) Menge von Beobachtungseinheiten zu gewinnen.

    Diese wohldefinierte Menge nennt man POPULATION oder GRUNDGESAMTHEIT.

    Population oder Grundgesamtheitist die Menge aller möglichen Beobachtungseinheiten, über die man eine Aussage tref-fen will.

    Im Beispiel der Produkteinführung war als Population die Menge der 10 000 ameri-kanischen Zahnärzte festgelegt, die CARIDEX im ersten Jahr nach Markteinführungverwenden würden. Will man den Ausgang einer Parlamentswahl prognostizieren,dann besteht die Grundgesamtheit aus allen wahlberechtigten Bürgern des betref-fenden Landes. Will man eine bestimmte Fragestellung nur bei Frauen untersuchen,dann spricht man von Teilpopulationen. Üblicherweise sind Grundgesamtheitensehr groß, sie können im Prinzip aber auch unendlich groß oder sogar hypothetischsein. Will man z. B. die Ausdehnungsgeschwindigkeit sterbender Sterne untersu-chen, so hat man es im Universum mit unendlich vielen Sternen zu tun. Im Beispielder Werbewirksamkeit von Showmastern wollen wir Aussagen über die hypotheti-sche Gesamtheit aller sechs- bis zehnjährigen Kindern treffen. Die Ergebnisse sollenja auch für Kinder gelten, die erst sechs Jahr alt werden, d. h. irgendwann in dieseAltersgruppe kommen.

    Normalerweise wird es aus verschiedensten Gründen nicht möglich sein, alleObjekte einer Population zu untersuchen. Man wird dann aus der Population nachbestimmten Kriterien eine Auswahl treffen und diese Gruppe untersuchen. Diesenennt man STICHPROBE.

    Stichprobe (engl. sample)ist eine Teilmenge der Grundgesamtheit. Sie soll ein möglichst getreues Abbild derGrundgesamtheit sein.

    Stichprobenumfang (oder Größe der Stichprobe)ist die Anzahl der Beobachtungseinheiten, die eine Stichprobe umfasst. (Sie wird in derStatistik üblicherweise mit n oder N bezeichnet.)

    32

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 33 — le-tex

    2.3 Messung und Typen von Daten

    Eine Stichprobe sollte so auswählt werden, dass sie möglichst repräsentativ für diePopulation ist. Der Grund, warum man ein möglichst getreues Abbild der Populationhaben möchte, besteht natürlich darin, dass man ja aufgrund von Stichprobeninfor-mation gültige Aussagen über die Population machen bzw. gültige Schlussfolgerun-gen ziehen will. Es gibt verschiedene Methoden, wie Stichproben gewonnen werden,das ist aber nicht Gegenstand dieses Buchs. Ein wichtiger Begriff in diesem Zusam-menhang ist jener der ZUFALLSSTICHPROBE, auf dem ein Großteil der statistischenTheorie beruht.

    Zufallsstichprobe (engl. random sample)ist eine Stichprobe, in der jedes Element der Population die gleiche Chance hat, in dieStichprobe zu kommen. (Oder anders gesagt, alle möglichen Stichproben mit einembestimmten Umfang sollen gleich wahrscheinlich sein.)

    In manchen Fällen kann oder muss man die gesamte Population untersuchen. Manspricht dann von VOLLERHEBUNG. Wenn man Daten nur auf der Basis einer Stich-probe sammelt, nennt man das eine STICHPROBENERHEBUNG.

    Das WAS, das ich beobachte, sind bestimmte Merkmale der Beobachtungsein-heiten. Deshalb werden diese manchmal auch Merkmalsträger genannt. Solch einMERKMAL, das man beobachtet, nennt man in der Statistik VARIABLE.

    Variablen (Merkmale)sind Charakteristika (bzw. Eigenschaften) von Beobachtungseinheiten, die man erhebenwill.

    Im Beispiel der Produkteinführung von CARIDEX war das Merkmal, das an derStichprobe der 400 Zahnärzte beobachtet wurde, deren subjektive Einschätzung derAnzahl in einer durchschnittlichen Woche behandelter Zähne. Die untersuchtenVariablen im Beispiel der Wirksamkeit von Showmaster-Werbung waren Behaltens-leistung, gewähltes Produkt und Art der Werbung, die ein Kind gesehen hat. EinMerkmal kann verschiedene Werte annehmen und wird deshalb Variable genannt,da die beobachteten Werte von Beobachtungseinheit zu Beobachtungseinheit vari-ieren (d. h. nicht bei allen gleich sind). Man nennt diese unterschiedlichen Werteauch MERKMALSAUSPRÄGUNGEN oder kurz Ausprägungen. Wichtig ist die Unter-scheidung zwischen dem Begriff Merkmal (bzw. Variable) und dem Begriff Merk-malsausprägung (bzw. Wert), den eine Variable bei einer bestimmten Beobachtungs-einheit hat. Wenn wir z. B. untersuchen, welches Produkt ein Kind nach der gezeig-ten Werbung gewählt hat, dann ist die untersuchte Variable (bzw. das untersuchteMerkmal) gewähltes Produkt, der Wert (bzw. die Ausprägung) für diese Variable beimersten Kind war FL (siehe die Tabelle auf Seite 29).

    2.3 Messung und Typen von Daten

    Im Allgemeinen verbindet man den Begriff Daten mit Zahlen und tatsächlich wirdman meist mit Zahlen operieren, wenn man Statistik betreibt. Allerdings müssen wir

    33

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 34 — le-tex

    2 Statistische Grundbegriffe

    mit unseren Überlegungen einen Schritt früher beginnen, nämlich wie wir zu die-sen Zahlen kommen. Wir können die Frage „WORAN beobachte ich WAS“ um dasWort „WOMIT“ erweitern. Hier kommt der Begriff Messung bzw. Messinstrumentins Spiel. Im Alltagssprachgebrauch versteht man unter Messung einen Vorgang, beidem man mit einem Messinstrument irgendeine Zahl bestimmt, die eine interessie-rende Größe beschreibt, z. B. mit einem Metermaß wird die Breite eines Zimmersbestimmt, in das man einen Teppich legen möchte. Allerdings verwendet man inempirischen Wissenschaften den Begriff Messung allgemeiner (es gibt auch eineneigenen Forschungszweig, der sich Messtheorie nennt). Man spricht auch dann vonMessung, wenn man bei einer Befragung das Alter und das Geschlecht eines Befrag-ten bestimmt. Messung heißt nämlich allgemein, einem beobachtbaren Tatbestandeine Zahl zuzuordnen.

    Messungist die Zuordnung von Zahlen zu beobachtbaren Phänomenen.

    Die Beziehungen zwischen beobachteten Phänomenen sollen durch die Beziehungen zwi-schen den zugeordneten Zahlen widergespiegelt werden.

    Wir wollen einige Situationen betrachten, in denen verschiedene Typen von Mes-sungen stattfinden:

    Beispiel 1: So kann man z. B. bei der „Messung“ des Geschlechts für männlich dieZahl 0 und für weiblich die Zahl 1 verwenden. Wichtig bei der Zuordnungvon Zahlen zu den beobachtbaren Tatbeständen und ihrer Verwendung ist es,wie gesagt, dass diese Zahlen die Beziehungen zwischen den einzelnen Tat-beständen widerspiegeln. Für Geschlecht gibt es (ohne biologische Ausnah-men zu berücksichtigen) zwei Ausprägungen, nämlich männlich und weib-lich. Die beobachtbare Beziehung zwischen diesen beiden Kategorien ist, dasssie unterschiedlich sind. Wenn wir die beiden Zahlen 0 und 1 verwenden,dann widerspiegeln diese ebenfalls einen Unterschied, nämlich 0 �= 1. Wirhätten aber ebenso 1 für männlich und 2 für weiblich verwenden können.Auch diese beiden Zahlen reflektieren den Unterschied. Wir können alsobeliebige Zahlen zuordnen, mit der Einschränkung, dass sie unterschiedlichsind.

    Beispiel 2: Etwas anders ist es, wenn man z. B. Schulnoten betrachtet. Hier habendie Zahlen 1, 2, 3, . . . eine bestimmte Bedeutung, die sich auch in den Bezie-hungen zwischen den Zahlen widerspiegelt. So ist 1 üblicherweise besserals 2 oder 3 etc. Ohne jetzt auf die Problematik einzugehen, was mit derSchulnote eigentlich gemessen wird (das ist ein Anwendungsfall für dieoben genannte Messtheorie), unterscheiden sich diese Messungen der, sagenwir, Leistung in Geschichte von der Messung des Geschlechts dadurch, dassman bei Geschlecht nur Unterschiede beobachten kann, während bei derLeistung in Geschichte zusätzlich ein mehr oder weniger vorkommt (1 istanders als 2, aber 1 ist auch besser als 2). Wir können jetzt nicht mehrirgendwelche Zahlen verwenden, die sich einfach unterscheiden, sondernes muss zusätzlich die Größenordnung berücksichtigt werden. Allerdingsstünde es uns frei (vorausgesetzt man kann wirklich Leistungen unterschei-

    34

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 35 — le-tex

    2.3 Messung und Typen von Daten

    den, die sehr gut, gut, . . . , nicht genügend sind), auch andere Zahlen zuverwenden (z. B. 11, 43, 95, . . . ), solange sie die Relation (besser, schlechter)widerspiegeln.

    Beispiel 3: Noch einen Schritt weiter gehen wir, wenn wir etwa die Breite undLänge eines Zimmers messen, in das wir einen Teppich legen wollen. Wirmüssen natürlich auch die Breite und Länge des Teppichs gemessen haben,um zu sehen, ob er in das Zimmer passt. Vergleicht man die Länge von zweiObjekten, so kann man folgende Eigenschaften feststellen: zwei Objekte sindgleich oder nicht gleich lang (sie können sich unterscheiden, wie schonmännlich von weiblich bei Geschlecht), ein Objekt ist länger als das andere(„gut“ ist besser als „genügend“ beim Geschichte-Test). Als Drittes kommtaber jetzt noch hinzu, dass auch Unterschiede (Differenzen) zwischen zweiObjekten gleich oder ungleich bzw. kleiner oder größer sein können. Sokann z. B. die Breite des Teppichs um 5 cm kleiner sein als die Breite desZimmers und ebenso die Länge des Teppichs um 5 cm kleiner sein als dieLänge des Zimmers (der Teppich passt also, zumindest in das leere Zimmer).In beiden Fällen ist der Unterschied 5 cm, also gleich. Das kann man beiden Schulnoten nicht sagen (der Unterschied zwischen 1 und 2, also 1, istsicher nicht gleich groß wie der Unterschied zwischen 4 und 5, der auch 1beträgt.

    Wir müssen also je nach Messung unterscheiden, welche Bedeutung die Zahlenhaben, die wir verwenden. Dementsprechend werden sich dann auch die Methodenunterscheiden, die wir zu statistischen Analysen heranziehen werden.

    Nach diesen Vorüberlegungen können wir uns jetzt an eine Einteilung von Datenmachen. Dazu gibt es verschiedene Möglichkeiten, die wichtigste aber ist, nach derauch der Aufbau dieses Buchs gestaltet ist, die Einteilung in KATEGORIALE undMETRISCHE DATEN.

    Kategoriale Daten:

    Das Ergebnis einer Messung erfolgt durch Klassifikation oder Einteilung in Katego-rien.Kategoriale Daten können Zahlen, aber auch irgendwelche Zeichen oder Wörter sein.

    Kategoriale Daten sind also solche, wo ein beobachtetes Merkmal oder die Angabeeiner Person in eine von zwei oder mehreren Kategorien (Gruppen, Klassen) einge-teilt wird. Beispiele hierfür sind: Geschlecht (männlich, weiblich), Blutgruppe (0,A, B, AB) oder Interesse an Mode (sehr interessiert, mäßig interessiert, überhauptnicht interessiert). Wie an diesen Beispielen ersichtlich, gibt es zwei Arten vonkategorialen Daten. Diese beiden Arten entsprechen auch den ersten beiden Artenvon Messungen, wie wir sie eingangs dieses Kapitels besprochen haben. Wenndie Kategorien so definiert sind, dass dadurch nur Unterschiede beschrieben wer-den (wie männlich/weiblich bei Geschlecht oder 0/A/B/AB bei Blutgruppe), dannspricht man von UNGEORDNETEN KATEGORIEN. Man spricht auch davon, dass solcheDaten auf einer NOMINALSKALA gemessen werden. Wenn zwischen den Kategoriennoch eine Beziehung der Art größer–kleiner oder mehr–weniger besteht (wie beisehr/mäßig/gar nicht interessiert an Mode), dann spricht man von GEORDNETEN

    35

  • �Reinhold Hatzinger: R — 2011/1/17 — 14:01 — page 36 — le-tex

    2 Statistische Grundbegriffe

    KATEGORIEN. Die entsprechende Skala, auf der solche Variablen gemessen wer-den, heißt ORDINALSKALA oder RANGSKALA, weil man hier die Kategorien in eineRangreihe bringen kann.

    Metrische Daten:

    Das Ergebnis einer Messung kommt durch eine Art Zählen zustande und ist numerisch.Metrische Daten können nur Zahlen sein.

    Metrische (numerische) Daten beruhen im Vergleich zu kategorialen Daten darauf,was man im Alltagssprachgebrauch unter Messungen versteht, z. B. die Zeit, diejemand benötigt, um von zu Hause zum Arbeitsplatz zu gelangen, die Länge derStrecke, die er/sie dabei zurücklegt, oder die Gewichtsveränderung, nachdem maneine Hochzeitsfeierlichkeit besucht hat. Solche Daten entsprechen der dritten Artvon Messung vom Beginn dieses Kapitels, als wir über die Länge und Breite desTeppichs gesprochen haben, der ins Zimmer passen soll. Erst metrische Daten sindsolche, wo wir wirklich Zahlen verwenden und mit ihnen operieren. So ist es offen-sichtlich, dass man bei der kategorialen Variable Geschlecht keinen Durchschnitts-wert ausrechnen kann. Aber wenn man daran interessiert ist, wie lange man z. B.im Durchschnitt auf einen Autobus einer bestimmten Linie warten muss, dann istein Durchschnittswert eine durchaus sinnvolle Beschreibung dafür, wie viel Warte-zeit man zu erwarten hat, wenn man mit einem Bus dieser Linie fahren will. Auchmetrische Daten sind durch Mess-Skalen definiert. Diese heißen INTERVALLSKALAund RATIO(NAL)- bzw. VERHÄLTNISSKALA. Für beide gilt, dass Unterschiede zwi-schen zwei Zahlen gleich groß bzw. kleiner/größer sein können. Die Verhältnisskalahat zusätzlich noch die Eigenschaft, dass auch Verhältnisse zwischen Zahlen gleichgroß bzw. kleiner/größer sein können. In der statistischen Praxis ist diese Unterschei-dung aber meist nicht sehr wichtig.

    Einen Überblick über Datentypen und Beispiele dazu gibt � Abbildung 2.1.Ein erwähnenswerter Punkt im Zus