Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot...

9
Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte Auflage Springer Spektrum

Transcript of Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot...

Page 1: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

Ludwig Fahrmeir • Christian Heumann • Rita Künstler

Iris Pigeot • Gerhard Tutz

Statistik Der Weg zur Datenanalyse

8., überarbeitete und ergänzte Auflage

~ Springer Spektrum

Page 2: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

Inhaltsverzeichnis

Vorwort

1 Einführung

1.1 Wo braucht man Statistik?

1.2 Was macht man mit Statistik? .

1.3 Was steht am Anfang? . . . .

1.3.l Statistische Einheiten, Merkmale und Gesamtheiten.

1.3.2 Merkmalstypen . . . . . . . . .

Stetige und diskrete Merkmale . . . . .

Skalen ................. .

Quantitative und qualitative Merkmale .

1.4 Wie gewinnt man Daten? .......... .

1.4. l Elemente der Versuchsplanung . . . .

1.4.2 Datengewinnung und Erhebungsarten

Einfache Zufallsstichproben . .

Geschichtete Zufallsstichproben

Klumpenstichprobe . . . . . . .

Mehrstufige Auswahlverfahren .

Bewusste Auswahlverfahren .

Studiendesigns . . . . . . . .

1.5 Zusammenfassung und Bemerkungen

1.6 Statistische Software

1. 7 Aufgaben . . . . . . . . . . . . . . .

2 Univariate Deskription und Exploration von Daten

2.1 Verteilungen und ihre Darstellungen

2.1.1 Häufigkeiten . . . . . . . .

2.1.2 Grafische Darstellungen . .

Stab- und Kreisdiagramme .

Stamm-Blatt-Diagramme ..

Histogramme . . . . . . . .

Unimodale und multimodale Verteilungen .

Symmetrie und Schiefe . . . . . . . . . . .

V

1

1

10

12

13

14

15

15

17

18

19

21

22

23

23

24

24

25

25

26 27

29 29 30

32

32

34

38 43

44

2.1.3 Kumulierte Häufigkeitsverteilung und empirische Verteilungsfunktion . 45

Page 3: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

X

2.2 Beschreibung von Verteilungen .

2.2.1 Lagemaße . . . . . . . .

Arithmetisches Mittel .

Das getrimmte und das winsorisierte Mittel

Median .................. .

Modus .................. .

Berechnung der Lagemaße bei gruppierten Daten

Lageregeln . . . . . . .

Das geometrische Mittel

Das harmonische Mittel

2.2.2 Quantile und Box-Plot .

2.2.3 Standardabweichung, Varianz und Variationskoeffizient .

2.2.4 Maßzahlen für Schiefe und Wölbung . . . . . . . . . .

2.3 Konzentrationsmaße . . . . . . . . . . . . . . . . . . . . . . .

2.3.1 Relative Konzentration: Lorenzkurve und Gini-Koeffizient

Lorenzkurve aus den geordneten Daten

Lorenzkurve bei gruppierten Daten

Gini-Koeffizient ....... .

2.3.2 Alternative Konzentrationsmaße

Konzentrationsrate C R9 • • •

Herfindahl-Index ...... .

2.4 Dichtekurven und Normalverteilung .

2.4.1 Dichtekurven . . . . .

2.4.2 Normalverteilungen .... .

*Normal-Quantil-Plots .... .

*2.4.3 Approximation von Dichtekurven

2.5 Zusammenfassung und Bemerkungen . .

2.6 Univariate Datenanalyse mit R . . . . . . 2.6.1 Verteilungen und ihre Darstellungen .

2.6.2 Beschreibung von Verteilungen . .

~.6.3 Konzentrationsmaße . . . . . . . .

2.6.4 Dichtekurven und Normalverteilung

2.7 Aufgaben ............... .

3 Multivariate Deskription und Exploration 3.1 Diskrete und gruppierte Merkmale . . . . . . . . . . . .

3.1.1 Zweidimensionale Daten: Die Kontingenztabelle

3.1.2 Bedingte Häufigkeiten . . . . . . . . .

3.2 Zusammenhangsanalyse in Kontingenztabellen

3.2.1 Chancen und relative Chancen . . . . .

3.2.2 Kontingenz- und x2-Koeffizient ....

3.3 Grafische Darstellungen quantitativer Merkmale .

3.3. l Streudiagramm . . . . . . . . . . . . . .

Inhaltsverzeichnis

48

49

49

51

52

53

55

56

57

59

59

64

69 71

72

72

75

76

78 78 79 80

80

83 87 91

94

96 97 98

. 100

. 100

. 101

105

. 105

. 105

. 110

. 113

. 113

. 115

. 120

. 121

Page 4: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

mrwttneqeichnis

3.3.2 Zweidimensionale Histogramme und Dichten

3.3.3 Mehrdimensionale Darstellungen . . . . . .

3.4 Zusammenhangsmaße bei metrischen Merkmalen . .

3.4.1 Empirischer Korrelationskoeffizient nach Bravais-Pearson

3.4.2

3.4.3

Spearmans Korrelationskoeffizient .

Alternative Rangkorrelationsmaße

3.4.4 Invarianzeigenschaften

3.5 Korrelation und Kausalität . . . . . . .

3.6 Regression . . . . . . . . . . . . . . . .

3.6.1 Das lineare Regressionsmodell .

3.6.2 Die Berechnung der Ausgleichsgeraden

3.6.3 Bestimmtheitsmaß und Residualanalyse

*3.6.4 Nichtlineare Regression . . .

3.7 Zusammenfassung und Bemerkungen

3.8 Multivariate Deskription mit R . . . .

3.8.1 Diskrete und gruppierte Daten

3.8.2 Zusammenhangsanalyse in Kontingenztabellen

3.8.3 Grafische Darstellungen quantitativer Merkmale

3.8.4 Zusammenhangsmaße bei metrischen Merkmalen .

3.8...5 Regression

3.9 Aufgaben . . . . . . . . .

4 Wahrscheinlichkeitsrechnung

4.1 Definition und Begriff der Wahrscheinlichkeit

4.1.1 Mengen und Mengenoperationen

4.1.2 Zufallsereignisse . . . . . . . . . . .

4.1.3 Wahrscheinlichkeiten . . . . . . . . .

xi

. 122

. 124

. 126

. 126

. 133

. 136

. 138

. 140

. 144

. 144

. 145

. 149

. 155

. 156

. 158

. 158

. 160

. 160

. 161

. 161

. 162

165 . 166

. 167

. 170

. 172

4.2 Zur empirischen Interpretation von Wahrscheinlichkeiten . 177

4.2.1 Die Laplace-Wahrscheinlichkeit . . . . . . . . . . 178

4.2.2 Objektive Wahrscheinlichkeiten als Grenzwert relativer Häufigkeiten . 181

4.2.3 Subjektive Wahrscheinlichkeiten . . 183

4.3 Zufallsstichproben und Kombinatorik . 184

4.3.1 Modell mit Zurücklegen . . 184

4.3.2 Modell ohne Zurücklegen . .

4.3.3 Permutationen . . . .... .

. 185

. 186

4.3.4 Modell ohne Zurücklegen und ohne Berücksichtigung der Reihenfolge . 187

4.4 Bedingte Wahrscheinlichkeiten . . . . . 190

4.5 Unabhängigkeit von zwei Ereignissen . 193

4.6 Totale Wahrscheinlichkeit . . . . . 196

4.7 Der Satz von Bayes . . . . . . . . . . . 198

4.8 Unendliche Grundgesamtheiten . . . .

4.9 Zusammenfassung und Bemerkungen

4.10 Aufgaben . ....... . .. ... .

. 203

. 205

. 206

Page 5: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

xii Inhaltsverzeichnis

5 Diskrete Zufallsvariablen 209

. 209

. 212

. 212

. 218

. 219

. 222

5.1 Zufallsvariablen . . .

5.2 Verteilungen und Parameter von diskreten Zufallsvariablen

5.2.1 Definition und Verteilung.

Diskrete Gleichverteilung . . . . . . . . . . .

Geometrische Verteilung . . . . . . . . . . . .

5.2.2 Unabhängigkeit von diskreten Zufallsvariablen

5.2.3 Lageparameter, Quantile und Streuungsparameter einer diskreten Verteilung . 225

Erwartungswert . . . . . . . . . . . 225

5.2.4 Weitere Lageparameter . . . . . . . 230

Varianz und Standardabweichung

5.3 Spezielle diskrete Verteilungsmodelle ..

5.3.1 Die Binomialverteilung . . . . . .

5.3.2 Die hypergeometrische Verteilung

5.3.3 Die Poisson-Verteilung . . . .

5.4 Zusammenfassung und Bemerkungen

5.5 Diskrete Verteilungen in R

5.6 Aufgaben . . . . .

6 Stetige Zufallsvariablen

6.1 Definition und Verteilung .

Unabhängigkeit von stetigen Zufallsvariablen

Exponentialverteilung . . . . . . . . . . . .

6.2 Lageparameter, Quantile und Varianz von stetigen Zufallsvariablen .

Erwartungswert . . .

Modus . .. .. . .

Median und Quantile

Varianz ...... .

Standardisierung von Zufallsvariablen .

Symmetrie und Schiefe .. .

6.3 Spezielle stetige Verteilungsmodelle

6.3.1 Die Normalverteilung . . .

Quantile ....... . .. .

6.3.2 Die logarithmische Normalverteilung

6.3.3 Chi-Quadrat-, Student- und Fisher-Verteilung

Die Chi-Quadrat-Verteilung

Die Student-Verteilung .. . .

Die Fisher-Verteilung . . . . .

6.4 Zusammenfassung und Bemerkungen

6.5 Stetige Zufallsvariablen in R

6.6 Aufgaben . . . . . . . . . . . . . . .

. 231

. 234

. 235

. 240

. 242

. 245

. 247

. 248

251 . 251

. 256

. 260

. 262

. 262

. 265

. 265

. 267

. 269

. 269

. 271

. 271

. 274

. 278

. 279

. 279

. 280

. 281

. 283

. 284

. 285

Page 6: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

Inhaltsverzeichnis

7 Mehr über Zufallsvariablen und Verteilungen

7 .1 Gesetz der großen Zahlen und Grenzwertsätze . . . . . . . . . . . . .

7.1.1 Das Gesetz der großen Zahlen und der Hauptsatz der Statistik

7.1.2 Der zentrale Grenzwertsatz .

7 .2 Approximation von Verteilungen .

*7.3 Zufallszahlen und Simulation ... .

*7.4 Einige Ergänzungen ........ .

7.4.1 Zufallsvariablen als Abbildungen

7.4.2

7.4.3

7.4.4

Verteilungsfunktion und ihre Eigenschaften

Ungleichung von Tschebyscheff . . .

Maßzahlen für Schiefe und Wölbung

7.5 Zusammenfassung und Bemerkungen

7.6 Zufallszahlen mit R .

7.7 Aufgaben ......... .. .

8 Mehrdimensionale Zufallsvariablen

8.1 Begriff mehrdimensionaler Zufallsvariablen

8.2 Zweidimensionale diskrete Zufallsvariablen

8.3 Zweidimensionale stetige Zufallsvariablen .

8.4 Unabhfulgigkeit von Zufallsvariablen . . .

8.5 Kovarianz und Korrelation . . . . . . . .

8.6 Die zweidimensionale Normalverteilung .

8.7 Zusammenfassung und Bemerkungen ..

8.8 Die zweidimensionale Normalverteilung in R

8.9 Aufgaben . . . . . . . . . . . . . . . . . . .

9 Parameterschätzung

9.1 Punktschätzung .

9.2 Eigenschaften von Schätzstatistiken

9 .2.1 Erwartungstreue . . . . . .

9.2.2 Erwartete mittlere quadratische Abweichung und Konsistenz .

9.2.3 Wirksamste Schätzstatistiken . . .

9.3 Konstruktion von Schätzfunktionen ...

9.3.1 Maximum Likelihood-Schätzung

9.3.2 Kleinste-Quadrate-Schätzung

9.3.3 Bayes-Schätzung ........ .

9.4 Intervallschätzung .... ........ .

9.4.1 Konfidenzintervalle für Erwartungswert und Varianz

9.4.2 Konfidenzintervalle für den Anteilswert

9.5 Zusammenfassung und Bemerkungen

9.6 Konfidenzintervalle in R

9.7 Aufgaben .............. .

Xlll

289

. 289

. 291

. 293

. 296

. 298

. 300

. 301

. 302

. 304

. 306

. 307

. 307

. 309

311

. 311

. 313

. 319

. 321

. 323

. 330

. 333

. 334

. 334

337

. 338

. 340

. 340

. 343

. 346

. 348

. 348

. 351

. 351

. 356

. 358

. 362

. 363

. 364

. 366

Page 7: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

xiv

10 Testen von Hypothesen

10.1 Der Binomial- und der Gauß-Test

10.1.1 Der exakte Binomialtest .

10.1.2 Der approximative Binomialtest

10.1.3 Der Gauß-Test . . .

10.2 Prinzipien des Testens . . . . . . . . . .

10.2.1 Fehlentscheidungen ...... .

10.2.2 Statistische Tests und Konfidenzintervalle

l 0.2.3 Überschreitungs wahrscheinlichkeit

10.2.4 Gütefunktion ........ .

*Multiple Testprobleme . . . . . . . .

10.3 Zusammenfassung und Bemerkungen

l 0.4 Aufgaben . . . . . . . . . . . . . . .

11 Spezielle Testprobleme

11.1 Ein-Stichproben-Fall

11. l. l Tests zu Lagealternativen . 11.1.2 Anpassungstests . . . . . . . . .

11.2 Vergleiche aus unabhängigen Stichproben

11.2. l Tests zu Lagealternativen .

11.2.2 x2-Homogenitätstest . . . . . . .

11.2.3 Exakter Test von Fisher . . . . . .

11 .3 Vergleiche aus verbundenen Stichproben .

11.4 Zusammenhangsanalyse . . . . . . . . .

11.4. l x2-Unabhängigkeitstest . . . . .

11.4.2 Korrelation bei metrischen Merkmalen

11.5 Zusammenfassung und Bemerkungen

11.6 Tests mit R 11. 7 Aufgaben . . .

12 Regressionsanalyse

12.l Lineare Einfachregression ............ .

12.1.1 Das Modell der linearen Einfachregression

12.1.2 Schätzen, Testen und Prognose.

Schätzen

Testen ..... .

Prognose ... .

12.1.3 Residualanalyse .

12.2 Multiple lineare Regression .

12.2. l Das multiple lineare Regressionsmodell

12.2.2 Schätzen, Testen und Prognose.

Schätzen

Testen ..

Prognose

Inhaltsverzeichnis

369

. 369

. 372

. 375

. 378

. 381

. 384

. 386

. 387

. 389

. 395

. 396

. 397

399

. 400

. 401

. 409

. 417

. 418

. 423

. 426

. 428

. 428

. 429

. 431

. 433

. 434

. 435

437 . 438

. 438

. 441

. 441

. 445

. 448

. 449

. 450

. 453

. 454

. 455

. 457

. 460

Page 8: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

l11haltsverzeichnis

*12.2.3 Multiple lineare Regression in Matrixnotation .

12.3 Binäre Regression ................. .

*12.4 Nichtlineare und nichtpararnetrische Regression ..

12.5 Zusammenfassung und Bemerkungen

12.6 Regressionsanalysen mit R .....

12.6.1 Einfache lineare Regression

12.6.2 Multiple lineare Regression

12.6.3 Weitere Regressionsmodelle

12. 7 Aufgaben . . . . . . . . . . . . . .

13 Varianzanalyse

13.1 Einfaktorielle Varianzanalyse .

Modellformulierung (1) .

Modellformulierung (II)

13.2 Zweifaktorielle Varianzanalyse mit festen Effekten

Modellformulierung (1) .

Modellformulierung (II)

13.3 Zusammenfassung und Bemerkungen

13.4 Aufgaben .............. .

14 Zeitreihen

14.1 Indizes .

14.2 Komponentenmodelle .

14.3 Globale Regressionsansätze .

14.3.1 Trendbestimmung .

14.3.2 Bestimmung der Saisonkomponente

1~.4 Lokale Ansätze . . . . . .

14.4. l Trendbestimmung

Gleitende Durchschnitte

Lokale Regression

*Spline-Glättung . .

14.4.2 Bestimmung der Saisonkomponente

Gleitende Durchschnitte und lokale Regression

*Spline-Glättung ....... .

14.5 Zusammenfassung und Bemerkungen

14.6 Zeitreihenanalyse mit R

14.7 Aufgaben ....... .

XV

. 461

. 463

. 465

. 468

. 470

. 470

. 472

. 473

. 474

477

. 478

. 479

. 480

. 486

. 488

. 488

. 498

. 499

503

. 507

. 509

. 511

. 511

. 513

. 516

. 516

. 516

. 517

. 518

. 520

. 520

. 523

. 523

. 524

. 525

Page 9: Christian Heumann - gbv.de · Ludwig Fahrmeir • Christian Heumann • Rita Künstler Iris Pigeot • Gerhard Tutz Statistik Der Weg zur Datenanalyse 8., überarbeitete und ergänzte

xvi Inhaltsverzeichnis

15 Eintlihrung in R

15.l R als Taschenrechner

15.2 Grundlegende Datenstrukturen in R

15.2.1 Vektoren ....... .

15.2.2 Matrizen und Datensätze

15.2.3 Listen ......... .

15.2.4 Arrays ......... .

15.2.5 Mehr zu Faktorvariablen

15.2.6 Mehr zur Indizierung . .

15.3 Funktionen und mathematische Konstanten

15.3.1 Statistische Funktionen ...... .

15.3.2 Weitere praktische mathematische Funktionen

15.3.3 Mathematische Konstanten .

15.3.4 Eigene Funktionen in R

15.4 Datenverarbeitung ..

15.4.1 Sortieren ....... .

15.4.2 Ränge bilden ..... .

15.4.3 Duplikate und eindeutige Werte, Minimum und Maximum finden

15.4.4 Diskretisierung numerischer Variablen .

15.5 Verteilungen und Zufallsvariablen

15.6 Grafiken ......... .

15.7 Weiterführende Hinweise

Tabellen

A Standardnormalverteilung .

B Binornialverteilung .

C x2-Verteilung ....

D Students t-Verteilung

E F-Verteilung . . . .

F Wilcoxon-Vorzeichen-Rang-Test

G Wilcoxon-Rangsummen-Test .

Literatur

Verzeichnis der Beispiele

Sachregister

529 . 529

. 532

. 532

. 533

. 536

. 537

. 538

. 539

. 540

. 540

. 540

. 541

. 541

. 542

. 542

. 543

. 543

. 544

. 545

. 545

. 546

547

. 547

. 548

. 556

. 557

. 558

. 562

. 564

565

569

575