Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur...

121
Jan Kallsen Stochastik f ¨ ur Lehramtsstudierende CAU Kiel, SS 2018, Stand 4. September 2019

Transcript of Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur...

Page 1: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

Jan Kallsen

Stochastik fur Lehramtsstudierende

CAU Kiel, SS 2018, Stand 4. September 2019

Page 2: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

Inhaltsverzeichnis

1 Grundbegriffe der beschreibenden Statistik 51.1 Grundgesamtheit, Merkmale, Stichproben . . . . . . . . . . . . . . . . . . 51.2 Empirische Verteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . 61.3 Lage- und Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.1 Beschreibung des Zentrums der Daten . . . . . . . . . . . . . . . . 101.3.2 Beschreibung der Streuung der Daten . . . . . . . . . . . . . . . . 131.3.3 Weitere Maßzahlen fur die Form der Daten . . . . . . . . . . . . . 141.3.4 Maßzahlen fur gemeinsames Verhalten bivariater Daten . . . . . . . 15

1.4 Methode der kleinsten Quadrate (empirische Regression) . . . . . . . . . . 17

2 Wahrscheinlichkeitsrechnung 192.1 Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.1 Diskrete Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . . 202.1.2 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.1.3 Allgemeine Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . 282.1.4 Exkurs zur Maßtheorie . . . . . . . . . . . . . . . . . . . . . . . . 292.1.5 Unabhangigkeit und bedingte Wahrscheinlichkeiten . . . . . . . . . 362.1.6 Wahrscheinlichkeitsbaume fur mehrstufige Experimente . . . . . . 42

2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 442.2.1 Zufallsvariablen im diskreten Fall . . . . . . . . . . . . . . . . . . 452.2.2 Unabhangigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . 472.2.3 Erwartungswert und Momente . . . . . . . . . . . . . . . . . . . . 512.2.4 Zufallsvariablen im allgemeinen Fall . . . . . . . . . . . . . . . . 60

2.3 Grenzwertsatze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 692.3.1 Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 692.3.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 712.3.3 Verteilungsapproximation und zentraler Grenzwertsatz . . . . . . . 73

3 Schließende Statistik 833.1 Statistische Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . 833.2 Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

3.2.1 Konstruktionsmethoden fur Schatzer . . . . . . . . . . . . . . . . . 893.3 Testen von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

2

Page 3: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

INHALTSVERZEICHNIS 3

3.4 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1083.5 Elemente der Bayesschen Statistik . . . . . . . . . . . . . . . . . . . . . . 110

3.5.1 Schatzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1123.5.2 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . 1133.5.3 Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

A Liste einiger wichtiger Verteilungen 116

Index 119

Page 4: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

4 INHALTSVERZEICHNIS

Die Vorlesung besteht aus drei Teilen:

1. Beschreibende Statistik (kurz): (nur) Erhebung und Darstellung von Daten, keine ma-thematische Theorie im engeren Sinne

2. Wahrscheinlichkeitsrechnung: Prognosen uber zukunftige Ereignisse, Berechnung derWahrscheinlichkeiten komplexerer Ereignisse auf Grundlage der Wahrscheinlichkei-ten einfacher Ereignisse

3. Mathematische/Schließende Statistik: Bestimmung der fur die Wahrscheinlichkeits-rechnung benotigten Wahrscheinlichkeiten auf Grundlage von Daten

Die rubinroten Passagen dienen dem vertieften Verstandnis oder erganzen den schwarzenHauptteil des Skriptes.

Page 5: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

Kapitel 1

Grundbegriffe der beschreibendenStatistik

Der Begriff ”Statistik“ stammt aus dem Staatswesen bzw. der Staatskunde. Die beschrei-bende (deskriptive) Statistik befasst sich mit der Erhebung und Darstellung von Daten,die schließende (beurteilende, induktive, inferentielle, mathematische) Statistik schließt aufGrundlage von Stichproben bzw. Daten auf die Grundgesamtheit bzw. den zu Grunde lie-genden Zufallsmechanismus.

1.1 Grundgesamtheit, Merkmale, Stichproben

Definition 1.1.1 Die Grundgesamtheit oder Population Ω ist die Menge aller denkbarenBeobachtungseinheiten, auf die sich die statistische Untersuchung bezieht. Die Elementeω ∈ Ω heißen Merkmalstrager.

Beispiel 1.1.2Ω1 := ω : ω Horer der Vorlesung,Ω2 := ω : ω hat gultige Stimme bei letzter Landtagswahl abgegeben.

Von Interesse sind oft weniger die Merkmalstrager selbst, sondern bestimmte Eigenschaften(Merkmale):

Definition 1.1.3 Ein Merkmal ist eine Abbildung X : Ω → R (oder allgemeiner X : Ω →M mit einer beliebigen Menge M ). X(Ω) heißt Menge der Merkmalsauspragungen. Xheißt quantitatives Merkmal, falls X(Ω) ⊆ R, sonst qualitatives Merkmal. Ein quantitati-ves Merkmal heißt diskret, falls es nur isolierte Zahlenwerte annimmt, und stetig, falls esprinzipiell jeden Wert eines Intervalls annehmen kann.

Beispiel 1.1.4X1 : Ω1 → mannlich, weiblich, ω 7→ Geschlecht von ω; qualitatives Merkmal.X2 : Ω1 → sehr gut, gut, befriedigend, ausreichend, ω 7→ Abiturnote von ω; qualitatives

5

Page 6: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

6 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Merkmal, aber aquivalent dazu:X3 : Ω1 → 1, 2, 3, 4, ω 7→ Abiturnote von ω; diskretes quantitatives Merkmal.X4 : Ω1 → R, ω 7→ Korpergroße von ω; stetiges quantitatives Merkmal.X5 : Ω2 → CDU, SPD, FDP, Grune, Linke, SSW, Sonstige, ω 7→ gewahlte Partei (Zweit-stimme); qualitatives Merkmal.

Bemerkung 1.1.5 Unterscheidung nach Skalentypen:metrische/kardinale quantitative Merkmale: Zahlenwert X(ω) hat Bedeutung (vgl. X4

oben).ordinale Merkmale: Rang hat Bedeutung, (Zahlen-)Wert an sich nicht (vgl. X2, X3 oben).nominale Merkmale: keine Struktur auf X(Ω) in obigem Sinne (vgl. X1, X5 oben).

Die vollstandige Erhebung der Population Ω ist wunschenswert, aber aus prakti-schen Grunden oft nicht moglich. Daher erfolgt die Beschrankung auf eine Teilerhe-bung/Stichprobe.

Definition 1.1.6 Sei n ∈ N. Teilmengen ω1, . . . , ωn ⊆ Ω der Grundgesamtheit werdenals (empirische) Stichprobe bezeichnet. Falls X : Ω → R (bzw. M ) ein Merkmal ist, nenntman auch (X(ω1), . . . , X(ωn)) (empirische) Stichprobe oder Messreihe, Urliste, Daten (desMerkmalsX). Eine Stichprobe heißt zufallig, wenn jedes Element der Population die gleicheAussicht hatte, in die Stichprobe aufgenommen zu werden.

Bemerkung 1.1.7 1. Obwohl die Reihenfolge unerheblich ist, bezeichnen wir nichtX(ω1), . . . , X(ωn) als Stichprobe, da sonst Informationen uber die Haufigkeit ver-loren gingen.

2. ”Reprasentative“ Stichprobe: Das soll andeuten, dass die Stichprobe die Populationbezuglich des Merkmals X gut reprasentiert. Die konkrete Bedeutung des Begriffs istaber nicht immer klar.

3. Schlusse von (zufalligen) Stichproben auf die Population sind Aufgabe der schließen-den Statistik.

1.2 Empirische Verteilung von Merkmalen

Definition 1.2.1 Sei n ∈ N. Sei X : Ω→M ein Merkmal und (x1, . . . , xn) Stichprobe desMerkmals X . Fur A ⊆M heißen

h(A) :=n∑i=1

1A(xi) absolute Haufigkeit von A und

r(A) :=1

nh(A) relative Haufigkeit von A

Page 7: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN 7

in der Stichprobe. Dabei sei

1A :=

1 falls x ∈ A,0 sonst.

Die Abbildungen h : P(M) → R bzw. r : P(M) → R nennen wir empirische Haufig-keitsverteilung des Merkmals X in der Stichprobe, wobei P(M) := A : A ⊆ M diePotenzmenge von M sei.

Bemerkung 1.2.2 1. h(A): Wie oft taucht eine A-wertige Beobachtung in der Stichpro-be auf?r(A): Anteil der A-wertigen Beobachtungen an der Stichprobe

2. Eigenschaften:r(∅) = 0 (da 1∅(x) = 0 fur alle x ∈M ).r(M) = 1 (da 1M(x) = 1 fur alle x ∈M ).r(A ∪ B) = r(A) + r(B), falls A,B ⊆ M disjunkt sind (da 1A∪B = 1A + 1B, fallsA ∩B = ∅).

3. Haufigkeiten sind bei stetigen Merkmalen (vgl. X4 in 1.1.4) wenig sinnvoll, da Wertein der Regel nur einmal auftreten. Stattdessen wird eine Bildung von Klassen vorge-nommen, d. h. eine Partition von X(Ω) in disjunkte Intervalle (ai−1, ai], i = 1, . . . , n.Faustregeln: konstante Intervalllange, ”einfache“ Intervallgrenzen, Anzahl der Inter-valle m ≈

√n falls 5 ≤ m ≤ 25.

Bemerkung 1.2.3 (Darstellung von Haufigkeiten). Beispiel: Landtagswahl Schleswig-Holstein.

1. Tabelle: Vergleiche Abb. 1.1.

2. Stabdiagramm: Vergleiche Abb. 1.2.

3. Kreisdiagramm: Vergleiche Abb. 1.3.

Beispiel: Korpergewicht von Schulern.

1. Histogramm: Vergleiche Abb. 1.4.

2. Stamm- und Blattdarstellung: Vergleiche Abb. 1.5.

Bezeichnung 1.2.4 (Eigenschaften von Histogrammen/Verteilungen). Vergleiche Abb. 1.6.

Definition 1.2.5 Sei n ∈ N. Seien X : Ω→ R quantitative Merkmale und (x1, . . . , xn) eineStichprobe von X . Die Funktion F : R→ R mit

F (x) := r((−∞, x]) =1

n

n∑i=1

1(−∞,x](xi)

heißt empirische Verteilungsfunktion des Merkmals in der Stichprobe.

Page 8: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

8 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Abbildung 1.1: Tabelle.

Abbildung 1.2: Stabdiagramm.

Abbildung 1.3: Kreisdiagramm.

Page 9: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN 9

Abbildung 1.4: Histogramm.

Abbildung 1.5: Stamm- und Blattdarstellung: Links befindet sich der Stamm, rechts das Blatt.

Abbildung 1.6: Eigenschaften von Histogrammen: a) unimodal eingipflig; b) bimodal zweigipflig;c) linkssteil, rechtsschief; d) symmetrisch; e) rechtssteil, linksschief.

Page 10: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

10 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Satz 1.2.6 Sei F die empirische Verteilungsfunktion des Merkmals X in der Stichprobe(x1, . . . , xn). Dann gelten:

1. F ist monoton steigend,

2. F ist rechtsseitig stetig,

3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0.

Beweis. Klar.

Bemerkung 1.2.7 (Darstellung von Haufigkeiten multivariater (= mehrdimensionaler)Merkmale)

1. Kontingenztabelle (fur bivariate diskrete Merkmale)Beispiel: Ω = ω : ω erwachsener Bundesburger,X : Ω→ uberhaupt nicht, etwas, ziemlich, sehr × 1, 2, 3, 4, 5,ω 7→ (Beeintrachtigung durch Umweltschadstoffe, Schulabschluss)(ω),wobei ”1“ = ungelernt, . . . , ”5“ = Hochschulabschluss.(Vergleiche Abb. 1.7 und 1.8).

2. Streudiagramme (fur bivariate stetige Merkmale)Beispiel: Ω = ω : ω Kieler Mietwohnung,X : Ω→ R2, ω 7→ (Flache von ω, Nettomiete von ω).(Vergleiche Abb. 1.9).

1.3 Lage- und Streuungsmaße

Wir befassen uns nun mit Maßzahlen und Objekten zur Beschreibung der Lage bzw. Streu-ung der Daten auf der Zahlengeraden. Seien x1, . . . , xn ∈ R Daten (Stichprobe eines quan-titativen Merkmals).

1.3.1 Beschreibung des Zentrums der Daten

Definition 1.3.1

x :=1

n

n∑i=1

xi

heißt arithmetisches Mittel von (x1, . . . , xn).

Bemerkung 1.3.2 Schwerpunkteigenschaft:

n∑i=1

(xi − x) = 0.

Page 11: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

1.3. LAGE- UND STREUUNGSMASSE 11

Abbildung 1.7: Kontingenztabelle: Absolute Werte.

Abbildung 1.8: Kontingenztabelle: Relative Werte.

0 20 40 60 80 100

02

00

40

06

00

80

01

00

0

Fläche (qm)

Mie

te (

Eu

ro)

Abbildung 1.9: Streudiagramm.

Page 12: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

12 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Das arithmetische Mittel ist eher instabil im Hinblick auf ”Ausreißer“, also extreme Beob-achtungen, die zufallig oder durch Erhebungsfehler im Datensatz auftreten. Robuster ist derMedian:

Definition 1.3.3 Seien (x(1), . . . , x(n)) die nach Große aufsteigend geordneten Daten, al-so x(1) ≤ x(2) ≤ · · · ≤ x(n−1) ≤ x(n). Der empirische Median (Zentralwert) x1/2 von(x1, . . . , xn) ist definiert als

x1/2 :=

x(n+1

2) falls n ungerade,

12(x(n

2) + x(n

2+1)) falls n gerade.

Bemerkung 1.3.4 Jeweils mindestens 50% der Daten sind großer oder gleich bzw. kleineroder gleich dem empirischen Median.

Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modusinteressant:

Definition 1.3.5 Der Modus (Modalwert) xmod der Daten (x1, . . . , xn) ist der am haufigstenauftretende Wert (falls ein solcher existiert).

Beispiel 1.3.6 Daten (beispielsweise Studiendauern in Semestern):(x1, . . . , x10) = (11, 10, 8, 11, 30, 9, 13, 11, 10, 12).geordnete Daten: (x(1), . . . , x(10)) = (8, 9, 10, 10, 11, 11, 11, 12, 13, 30).arithmetisches Mittel: x = 12,5.empirischer Median: x1/2 = 1

2(x(5) + x(6)) = 11.

Modus: xmod = 11.

Bemerkung 1.3.7 Weitere Mittelwerte:

1. geometrisches Mittel : xg := (∏n

i=1 xi)1n ,

2. harmonisches Mittel : xh := n(∑n

i=11xi

)−1,

3. α-getrimmtes Mittel : arithmetisches Mittel der Daten, die ubrig bleiben, wenn zuvordie 100α% großten und kleinsten Werte entfernt wurden. Das α-getrimmte Mittel istalso robuster gegen Ausreißer.

Eine Verallgemeinerung des Medians stellen die Quantile dar:

Definition 1.3.8 Seien (x(1), . . . , x(n)) wie in Definition 1.3.3. Fur p ∈ (0, 1) wird das em-pirische p-Quantil xp von (x1, . . . , xn) definiert durch

xp :=

x([np+1]) falls np /∈ N,12(x(np) + x(np+1)) falls np ∈ N,

wobei [y] := maxk ∈ N : k ≤ y.

Page 13: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

1.3. LAGE- UND STREUUNGSMASSE 13

Bemerkung 1.3.9 Mindestens 100p% der Daten sind kleiner oder gleich xp. Mindestens100(1− p)% der Daten sind großer oder gleich xp.

Bezeichnung 1.3.10 x1/4 heißt unteres Quartil, x3/4 heißt oberes Quartil.

Beispiel 1.3.11 Fur die Daten aus Beispiel 1.3.6 gilt x1/4 = x(3) = 10, x3/4 = x(8) = 12.

1.3.2 Beschreibung der Streuung der Daten

Definition 1.3.12 Sei n ∈ N.

s2 :=1

n− 1

n∑i=1

(xi − x)2

(=

1

n− 1

(n∑i=1

x2i − nx2

))

heißt empirische Varianz von (x1, . . . , xn).s =√s2 heißt empirische Standardabweichung (Streuung) von (x1, . . . , xn).

Bemerkung 1.3.13 1. Warum 1/n−1 und nicht 1/n? Diese Frage wird in Kapitel 3 thema-tisiert werden, vgl. Bemerkung 3.2.7.

2. s besitzt dieselbe ”Einheit“ wie die Daten (beispielsweise m, kg oder Semester), s2

hingegen nicht.

Definition 1.3.14 Weitere Streuungsmaße:

1. mittlere lineare Streuung: sL := 1n

∑ni=1 |xi − x1/2|

2. mittlere absolute Abweichung: 1n

∑ni=1 |xi − x|

3. Interquartilsabstand: x3/4 − x1/4

4. Stichprobenspannweite/-variationsbreite: x(n) − x(1)

5. Variationskoeffizient (fur positive Daten): s/x

Bemerkung 1.3.15 (Graphische Darstellung). Kistendiagramm (Box-Plot), vgl. Abb. 1.10.

Page 14: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

14 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Abbildung 1.10: Box-Plot:a) Extrem große Beobachtungen (Ausreißer),b) großte normale Beobachtung: max

xi : xi ≤ x3/4 + 3

2

(x3/4 − x1/4

),

c) oberes Quartil x3/4,d) Median x1/2,e) unteres Quartil x1/4,f) kleinste normale Beobachtung: min

xi : xi ≥ x1/4 − 3

2

(x3/4 − x1/4

),

g) extrem kleine Beobachtungen (Ausreißer).

1.3.3 Weitere Maßzahlen fur die Form der Daten

Definition 1.3.16

b3 :=m3

s3mit m3 :=

1

n

n∑i=1

(xi − x)3

heißt Schiefe von (x1, . . . , xn).

b4 :=m4

s4− 3 mit m4 :=

1

n

n∑i=1

(xi − x)4

heißt Wolbung (Exzess, Kurtosis) von (x1, . . . , xn).

Bemerkung 1.3.17 1. Die Schiefe beschreibt die Asymmetrie der Daten (Links-/Rechtssteilheit), vgl. Abb. 1.6.

2. Die Wolbung beschreibt, ob Randbereiche und Zentrum stark bzw. schwach besetztsind, vgl. Abb. 1.12. Das Teilen durch s3, s4 fuhrt dazu, dass es sich bei b3, b4 umdimensionslose Zahlen handelt. Der Summand ”−3“ ist dadurch motiviert, dass dieWolbung in diesem Sinne bei der Normalverteilung verschwindet, vgl. Bemerkung2.3.26(2).

Page 15: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

1.3. LAGE- UND STREUUNGSMASSE 15

1.3.4 Maßzahlen fur gemeinsames Verhalten bivariater Daten

Seien (x1, y1), . . . , (xn, yn) ∈ R2 Daten (Stichprobe eines R2-wertigen Merkmals (X, Y )).

Definition 1.3.18

sXY :=1

n− 1

n∑i=1

(xi − x)(yi − y)

(=

1

n− 1

(n∑i=1

xiyi − nxy

))

heißt empirische Kovarianz von ((x1, y1), . . . , (xn, yn)). Im Falle s2X 6= 0, s2

Y 6= 0 heißt

rXY :=sXY√s2Xs

2Y

empirische Korrelation von ((x1, y1), . . . , (xn, yn)), wobei s2X , s

2Y die empirischen Varian-

zen von (x1, . . . , xn) bzw. (y1, . . . , yn) seien.

Bemerkung 1.3.19 Die empirische Korrelation beschreibt den linearen Zusammenhangvon Daten, vgl. Abb. 1.13.Eigenschaften (bewiesen in Satz 2.2.32):

1. −1 ≤ rXY ≤ 1,

2. rXY = ±1 gilt genau dann, wenn es a ∈ R, b ∈ (0,∞) derart gibt, dass fur allei ∈ 0, . . . , n gilt: yi = a± bxi.

Page 16: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

16 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Abbildung 1.11: Schiefe: a) b3 > 0, b) b3 < 0.

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

0.5

0.6

x

Dic

hte

Abbildung 1.12: Wolbung: b4 > 0 (blau), b4 = 0 (schwarz), b4 < 0 (rot).

Abbildung 1.13: Korrelation: a) r = 1; b) r ≈ 0,7; c) r ≈ 0; d) r ≈ 0; e) r = −1.

Page 17: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

1.4. METHODE DER KLEINSTEN QUADRATE (EMPIRISCHE REGRESSION) 17

1.4 Methode der kleinsten Quadrate (empirische Regres-sion)

Seien (x1, y1), . . . , (xn, yn) ∈ R2 Daten (Stichprobe eines R2-wertigen Merkmals (X, Y )).Vermutung: Zwischen den Komponenten besteht bis auf Messfehler, zufallige Storungenoder Ahnliches ein linearer Zusammenhang y = a+ bx mit a, b ∈ R.Idee: Bestimme a, b zu den Daten so, dass die quadratische Abweichung

Q(a, b) :=n∑i=1

(yi − a− bxi)2

minimiert wird.Dabei handelt es sich bisher um ein rein heuristisches Konzept. Weshalb bzw. unter welchenAnnahmen es sich bei diesem Verfahren um eine gute Schatzung eines tatsachlichen linearenZusammenhangs handelt, ist eine Frage, die von der mathematischen Statistik beantwortetwird, siehe Beispiel 3.2.27.

Satz 1.4.1 Im Fall sX 6= 0 (d. h. wenn nicht alle xi identisch sind) wird Q(a, b) minimiertdurch

b∗ =

∑ni=1(xi − x)(yi − y)∑n

i=1(xi − x)2=sXYs2X

und a∗ = y − b∗x.

Beweis. Bei Q : R2 → R handelt es sich um eine stetig differenzierbare Funktion mit

D1Q(a, b) = −2n∑i=1

(yi − a− bxi) = −2n(y − a− bx),

D2Q(a, b) = −2n∑i=1

(yi − a− bxi)xi = −2

(n∑i=1

xiyi − nax− bn∑i=1

x2i

).

Diese Ableitungen werden genau dann 0, wenna a = y − bx und

0 =n∑i=1

xiyi − n(y − bx)x− bn∑i=1

x2i

=n∑i=1

xiyi − nx y − b

(n∑i=1

(x2i − x2)

)

=n∑i=1

(xi − x)(yi − y)− b

(n∑i=1

(xi − x)2

),

also fur a = a∗, b = b∗ wie oben. Die Hessematrix

H(a, b) =

(D11Q(a, b) D12Q(a, b)

D21Q(a, b) D22Q(a, b)

)= 2n

(1 x

x 1n

∑ni=1 x

2i

)

Page 18: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

18 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

ist positiv definit, denn 2n > 0 und

detH(a, b) = 2n

(1

n

n∑i=1

x2i − x2

)= 2

n∑i=1

(xi − x)2 > 0

(vgl. Heuser, Analysis 2, Satz 172.6). Es folgt, dass Q genau bei (a∗, b∗) minimal wird.

0 20 40 60 80 100

02

00

40

06

00

80

01

00

0

Fläche (qm)

Mie

te (

Eu

ro)

Abbildung 1.14: Streudiagramm mit Regressionsgerade.

Page 19: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

Kapitel 2

Wahrscheinlichkeitsrechnung

Wir befassen uns jetzt mit der Betrachtung von Zufallsexperimenten. Ziel ist es, aus derKenntnis der Grundgesamtheit oder einfacher Wahrscheinlichkeiten Aussagen uber kom-plexe Wahrscheinlichkeiten in durchzufuhrenden Stichproben/Experimenten abzuleiten.Einige wichtige historische Stationen der Wahrscheinlichkeitsrechnung:

• De Vetula (Richard de Fournival?,1201-1260): Wahrscheinlichkeiten von Augensum-men dreier Wurfel,

• Cardano (1501-1576): Liber de Ludo Aleae,

• Briefwechsel 1654 von Pascal (1623-1662) und Fermat (1601-1665): ”Geburtsstundeder Wahrscheinlichkeitsrechnung“,

• Huygens (1629-1695): Tractatus de Rationiciis in Aleae Ludo,

• Jakob Bernoulli (1655-1705): Ars Conjectandi,

• De Moivre (1667-1754): The Doctrine of Chances,

• Bayes (1702?-1761): An Essay towards solving a Problem in the Doctrine of Chances,

• Laplace (1749-1827): Theorie Analytique des Probabilites,

• . . .

• Kolmogorow (1903-1987): Grundbegriffe der Wahrscheinlichkeitsrechnung (1933)

”zweite Geburtsstunde der Wahrscheinlichkeitsrechnung“.

• . . .

19

Page 20: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

20 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

2.1 Wahrscheinlichkeitsraume

2.1.1 Diskrete Wahrscheinlichkeitsraume

Wir mochten Zufallsexperimente mathematisch modellieren. Es ist dabei unerheblich, obdas Experiment wirklich zufallig ist und ob es Zufall uberhaupt gibt. Eine stochastischeModellierung kann auch bei Nichtwissen angemessen sein.

Definition 2.1.1 Die Menge Ω aller moglichen Ausgange eines Zufallsexperimentes nennenwir Ergebnisraum, Grundraum, Stichprobenraum. Die Elemente ω ∈ Ω heißen Ergebnisse.Teilmengen A ⊆ Ω heißen (vorlaufig) Ereignisse. (Vergleiche Grundgesamtheit in Definiti-on 1.1.1).

Beispiel 2.1.2 1. Einmaliger Wurfelwurf: Ω = 1, 2, 3, 4, 5, 6,Ereignis ”Wurf ist gerade Zahl“: A = 2, 4, 6.

2. n-maliger Wurfelwurf:Ω = 1, 2, 3, 4, 5, 6n = (ω1, . . . , ωn) : ωi ∈ 1, . . . , 6 fur i = 1, . . . , n.Achtung: Anders als in Kapitel 1 wahlt man zur Modellierung nicht Ω = 1, . . . , 6und n Ergebnisse ω1, . . . , ωn ∈ Ω, sondern einen ”großen“ Grundraum, aus dem mannur ein Ergebnis ω = (ω1, . . . , ωn) zieht.Bei der Wahl von Ω besteht oft große Freiheit. Falls beispielsweise nur die Anzahl derEinsen, Zweien usw. von Belang ist, konnte man alternativ wahlen:Ω′ = (k1, . . . , k6) ∈ N6 :

∑6i=1 ki = n.

3. Unendlich viele Munzwurfe: Schreibe 0 fur ”Kopf“ und 1 fur ”Zahl“:Ω = 0, 1N∗ = Abb(N∗, 0, 1)

= (ωi)i∈N∗ : ωi ∈ 0, 1 fur alle i ∈ N∗.(Bezeichnung: N := 0, 1, 2, . . . , N∗ := 1, 2, . . . )

4. Wartezeit auf den nachsten Bus: Ω = R+ oder auch Ω = [0, 10], falls der Bus allezehn Minuten fahrt.

Von nun an sei Ω hochstens abzahlbar, der allgemeine Fall folgt in Abschnitt 2.1.3.

Definition 2.1.3 Sei Ω nichtleer und hochstens abzahlbar. Eine Abbildung P : P(Ω) →[0, 1] heißt Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung, Verteilung) auf Ω, fallsdie Kolmogorowschen Axiome gelten:

1. P (Ω) = 1 (Normiertheit) und

2. P (⋃∞i=1Ai) =

∑∞i=1 P (Ai) fur paarweise disjunkte A1, A2, . . . ⊆ Ω

(d. h. falls Ai ∩ Aj = ∅ fur i 6= j) (σ-Additivitat).

(Ω,P(Ω), P ) heißt (diskreter) Wahrscheinlichkeitsraum.

Page 21: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 21

Beispiel 2.1.4 Seien M eine (nichtleere, vorerst hochstens abzahlbare) Menge undx1, . . . , xn ∈ M . Dann ist die relative Haufigkeit r : P(M) → [0, 1] aus Definition 1.2.1ein Wahrscheinlichkeitsmaß auf M , die empirische Verteilung von x1, . . . , xn.

Motivation 2.1.5 Warum verwenden wir diese Axiome? Was kann man sich unter Wahr-scheinlichkeiten vorstellen? Was bedeutet P (A) = 0,3 eigentlich?

1. (Frequentistische Sichtweise).Wahrscheinlichkeiten werden interpretiert als idealisierte relative Haufigkeiten, d. h.P (A) steht fur den Anteil an Versuchswiederholungen, in denen das Ereignis A ein-trate, wenn man das Experiment theoretisch bzw. im Geiste ”unendlich oft unter glei-chen Bedingungen“ ablaufen ließe. Nach dieser Sichtweise sind Wahrscheinlichkei-ten ohne prinzipielle Wiederholbarkeit des Experiments sinnlos. Auch muss klar sein,worin die ”gleichen Bedingungen“ bestehen.

Motivation der Axiome: Diese gelten fur relative Haufigkeiten, wie sie in 1.2.1 defi-niert wurden. P (A) = 0,3 bedeutet also, dass das Ereignis A auf lange Sicht in 30%der Versuchswiederholungen eintreten wurde.

2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten und subjektive Deutung).Fur endliches Ω definiere

P (A) :=|A||Ω|

, A ⊆ Ω. (2.1)

P (A) beschreibt den Anteil der moglichen Versuchsergebnisse, die zum Ereignis Afuhren. Wenn wegen offensichtlicher oder naheliegender Symmetrie alle ω ∈ Ω gleichplausibel sind (Indifferenzprinzip, Prinzip des unzureichenden Grundes), ist P (A) einnaturliches Maß dafur, mit welchem Grad an Sicherheit A zu erwarten ist. (P (A) = 0

impliziert ein unmogliches, P (A) = 1 ein sicheres Ereignis usw.)

Motivation der Axiome: Sie gelten offensichtlich fur die Laplace-Wahrscheinlichkeiten aus (2.1). In allgemeinen Situationen (in denen (2.1) nichtunbedingt gilt) lassen sich Wahrscheinlichkeiten durch Vergleich mit Laplace-Wahrscheinlichkeiten interpretieren. In diesem Sinne bedeutet P (A) = 0,3, dassA so wahrscheinlich ist oder dass man es fur so wahrscheinlich halt wie einedreielementige Menge in einem Zufallsexperiment mit zehn gleich wahrscheinlichenAusgangen (z. B. drei Seiten eines zehnseitigen Wurfels). Bei irrationalen Zahlenapproximiere man. Diese eher subjektive Interpretation ist prinzipiell auch fureinmalige Experimente moglich: P (”Gott existiert“) = 0,7?

Bemerkung 2.1.6 1. Die Verbindung zwischen Wirklichkeit und mathematischem Mo-dell wird vor allem durch Wahl eines geeigneten Wahrscheinlichkeitsmaßes P ge-schaffen. Diesen Vorgang nennt man Modellierung oder auch Modellbildung. Wieerhalt man nun P ? Entweder (i) durch Kenntnis des Versuchsaufbaus bzw. mittelsAnnahmen uber den Zufallsmechanismus (Symmetrien) oder (ii) mit Mitteln der ma-thematischen Statistik. Viele Fehler, scheinbare Paradoxien und Missverstandnisse

Page 22: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

22 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

gerade auch in der Schule sind auf die falsche Wahl von P (falsche Modellierung)zuruckzufuhren. Die stochastische Modellierung ist eine eigenstandige und nur teil-weise mathematische Leistung.

2. Das Axiom der Additivitat (A ∩ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)) kannuber relative Haufigkeiten bzw. Laplace-Wahrscheinlichkeiten motiviert werden, dieσ-Additivitat (d. h. Additivitat unendlicher statt endlicher Vereinigungen) hingegennicht direkt. Bei der σ-Additivitat handelt es sich zusatzlich zur Additivitat um eineArt Stetigkeitsannahme, die das Arbeiten mit Wahrscheinlichkeiten erleichtert.

Satz 2.1.7 Sei 0 < |Ω| <∞. Es existiert genau ein Wahrscheinlichkeitsmaß P auf Ω derart,dass P (ω) fur alle ω ∈ Ω gleich ist, namlich die oben erwahnte Laplace-Verteilung(Gleichverteilung) mit P (A) = |A|/|Ω| fur A ⊆ Ω.

Beweis. Nachweis der Existenz durch Nachrechnen:P (A) = |A|/|Ω| ∈ [0, 1] sowie

1. P (Ω) = |Ω||Ω| = 1;

2. | ∪∞i=1 Ai| =∑∞

i=1 |Ai| fur disjunkte Vereinigungen⇒ P (∪∞i=1Ai) =∑∞

i=1 P (Ai).

Eindeutigkeit: Fur alle ω ∈ Ω gilt auf Grund der Additivitat, dass

1 = P (Ω) =∑ω∈Ω

P (ω) = |Ω|P (ω),

also P (ω) = 1/|Ω|. Es folgt

P (A) =∑ω∈A

P (ω) = |A| 1

|Ω|.

Beispiel 2.1.8 Wurfelwurf: Ω = 1, . . . , 6. Da alle Wurfelseiten ”gleich“ sind, wahlt manals Wahrscheinlichkeitsmaß P die Laplace-Verteilung.

Satz 2.1.9 Sei (Ω,P(Ω), P ) ein Wahrscheinlichkeitsraum. Seien A,B,A1, A2, . . . ⊆ Ω.Dann gelten:

1. P (∅) = 0,

2. A1, . . . , An paarweise disjunkt⇒ P (∪ni=1Ai) =∑n

i=1 P (Ai) (endliche Additivitat,

3. P (A ∪B) + P (A ∩B) = P (A) + P (B),

4. A ⊆ B ⇒ P (A) ≤ P (B) (Monotonie),

5. P (∪∞i=1Ai) ≤∑∞

i=1 P (Ai) (σ-Subadditivitat),

Page 23: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 23

6. P (AC) = 1− P (A), wobei AC := Ω \ A,

7. An ↑ A (d. h. A1 ⊆ A2 ⊆ . . . und A = ∪∞i=1Ai)⇒ P (An)→ P (A) fur n→∞;An ↓ A (d. h. A1 ⊇ A2 ⊇ . . . und A = ∩∞i=1Ai)⇒ P (An)→ P (A) fur n→∞;(σ-Stetigkeit bzw. Stetigkeit von unten/oben).

Beweis.

1. P (∅) = P (∪∞i=1∅) =∑∞

i=1 P (∅), also P (∅) = 0

2. σ-Additivitat mit ∅ = An+1 = An+2 = . . .

3. Aus 2. folgen

P (A) = P (A \B) + P (A ∩B),

P (B) = P (B \ A) + P (A ∩B),

P (A ∪B) = P (A \B) + P (B \ A) + P (A ∩B).

4. P (B)2.= P (A) + P (B \ A)︸ ︷︷ ︸

≥0

≥ P (A)

5. ∪∞i=1Ai = ∪∞i=1Bi, wobei

Bi := Ai \

(i−1⋃j=1

Aj

)⊆ Ai.

Da B1, B2, . . . paarweise disjunkt sind, folgt

P (∪∞i=1Ai) = P (∪∞i=1Bi)σ-Add.

=∞∑i=1

P (Bi)4.

≤∞∑i=1

P (Ai);

6. P (A) + P (AC)2.= P (Ω) = 1.

7. Mit σ-Additivitat gilt:

P (A) = P (∪∞i=1(Ai \ Ai−1))

=∞∑i=1

P (Ai \ Ai−1)

= limn→∞

n∑i=1

P (Ai \ Ai−1)

2.= lim

n→∞P (∪ni=1(Ai \ Ai−1))

= limn→∞

P (An).

Außerdem folgt aus An ↓ A schon ACn ↑ AC und somit

1− P (An)6.= P (ACn )

1. Teil−→ P (AC)6.= 1− P (A).

Page 24: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

24 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

2.1.2 Kombinatorik

Motivation: Zur Berechnung von Laplace-Wahrscheinlichkeiten wie in 2.1.5 (d. h. mitP (A) = |A|/|Ω|) mussen Mengen abgezahlt werden. Das geschieht mit Mitteln der Kom-binatorik.

Bemerkung 2.1.10 (Fundamentale Zahlprinzipien)Seien A,B,A1, A2, . . . endliche Mengen.

1. (a) Falls eine Bijektion f : A→ B existiert, gilt |A| = |B|.

(b) A ∩B = ∅⇒ |A ∪B| = |A|+ |B|.

(c) A ⊆ B ⇒ |B \ A| = |B| − |A|.

Begrundung:

(a) Definition der Gleichmachtigkeit: |A| = n bedeutet, dass eine Bijektion g gibtmit g : A→ 1, . . . , n.Da g f−1 : B → 1, . . . , n eine Bijektion ist, folgt |B| = n = |A|.

(b) Seien |A| = m, |B| = n. Dann existieren Bijektionen gA und gB mit gA : A →1, . . . ,m und gB : B → 1, . . . , n. Ebenso existiert eine Bijektion h : B →m+1, . . . ,m+n. Also existiert eine Bijektion gA∪B : (A∪B)→ 1, . . . ,m+

n, namlich

gA∪B(x) :=

gA(x) falls x ∈ A,h(x) falls x ∈ B.

Somit ist |A ∪B| = m+ n.

(c) B = A ∪ (B \ A) wobei der Punkt disjunkte Vereinigung symbolisiert. DieBehauptung folgt mit (b).

2. Kartesisches Produkt:|A×B| = |A||B|Allgemeiner |A1 × · · · × AN | =

∏ni=1 |Ai|, insbesondere |An| = |A|n.

Begrundung: Sei |B| = m, etwa B = b1, . . . , bm. Aus |A × B| =⋃m

i=1A × biund |A× bi|

1(a)= |A| folgt, dass |A×B| 1(b)

=∑m

i=1 |A| = m|A|.Induktion ergibt die zweite Aussage, denn A1× · · · ×An = (A1× · · · ×An−1)×An(bzw. es existiert eine naturliche Bijektion).

3. Funktionen:

(a) Beliebige Funktionen: Fur BA := Abb(A,B) := f : A→ B ist|BA| = |B||A|.

(b) Injektive Funktionen: |f ∈ Abb(A,B) : f injektiv| = |B|!(|B|−|A|)! .

Page 25: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 25

(c) Spezialfall bijektive Funktionen fur |A| = |B|:|f ∈ Abb(A,B) : f bijektiv| = |A|!,also beispielsweise |Sn| = n! fur A = B = 1, . . . , n.

Begrundung:

(a) SeiA = a1, . . . , an. Wir identifizieren die Funktion f : A→ B mit dem Tupel(f(a1), . . . , f(an)) ∈ B × · · · ×B = Bn.Es folgt |f : A→ B| 1(a)

= |Bn| 2.= |B|n = |B||A|.

(b) Seien A = a1, . . . , am, B = b1, . . . , bn. Identifiziere injektive Funktionenf : A→ B mit einem Tupel (x1, . . . , xm). Hierbei sei

x1 ∈ 1 . . . , n der Rangplatz von f(a1) in b1, . . . , bn︸ ︷︷ ︸n Elemente

,

x2 ∈ 1, . . . , n− 1 der Rangplatz von f(a2) in b1, . . . , bn \ f(a1)︸ ︷︷ ︸(n−1) Elemente

,

usw.,xm ∈ 1, . . . , n−m+ 1 der Rangplatz von f(am)

in b1, . . . , bn \ f(a1), . . . , f(am−1)︸ ︷︷ ︸(n−m+1) Elemente

.

Es folgt

|f ∈ Abb(A,B) : f injektiv| 1(a)= |1, . . . , n × · · · × 1, . . . , n−m+ 1|2(a)= n(n− 1) · · · (n−m+ 1)

=n!

(n−m)!.

4. (a) k-elementige Teilmengen:|C ⊆ A : |C| = k| =

(|A|k

)fur k ∈ N, wobei(

n

k

):=

n(n− 1) · · · (n− k + 1)

k!

falls k≤n=

n!

(n− k)!k!

fur k, n ∈ N den Binomialkoeffizient bezeichnet.

(b) Aufteilen auf Teilmengen gegebener Große:Seien n1, . . . , nr ∈ N mit

∑ri=1 ni = n = |A|. Dann gilt

|(A1, . . . , Ar) : A1, . . . , Ar ⊆ A pw. disj., |Ai| = ni fur i = 1, . . . , r|

=n!

n1! · · ·nr!

(Multinomialkoeffizient).

(c) Alle Teilmengen: |P(A)| = 2|A|

Begrundung:

Page 26: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

26 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

(b) Seien A = a1, . . . , an und M := (A1, . . . , Ar) : A1, . . . , Ar ⊆A pw. disjunkt, |Ai| = ni fur i = 1, . . . , r.Identifiziere die Bijektion f : A → A mit dem Tupel (α, π1, . . . , πr ∈ M ×Sn1 × · · · × Snr via(f(a1), . . . , f(an1)︸ ︷︷ ︸

A1

, f(an1+1), . . . , f(an1+n2)︸ ︷︷ ︸A2

, . . . , f(a∑r−1i=1 ni+1), . . . , f(an)︸ ︷︷ ︸

Ar

),

denn eine Permutation von A entspricht der Aufteilung von A in r Mengen,zusammen mit der Festlegung der Reihenfolge auf den r einzelnen Teilmengen.Also

n!3(c)= |f ∈ Abb(A,A) : f bijektiv|1(a)= |M × Sn1 × · · · × Snr |2.= |M ||Sn1| · · · |Snr |3(c)= |M |n1! · · ·nr!

und damit |M | = n!/(n1! · · ·nr!).

(a) Identifiziere die k-elementige Teilmenge C von A mit der Aufteilung von A inzwei Mengen A1 := C,A2 := A \C. Dann gilt |A1| = k, |A2| = |A| − k, und esfolgt

|C ⊆ A : |C| = k| 1(a), 4(b)=

|A|!k!(|A| − k)!

.

(c) 2n = (1 + 1)n(2.1.11)

=∑n

k=0

(nk

)1k1n−k =

∑nk=1

(nk

), also

|P(A)| = |⋃|A|

k=0C ⊆ A : |C| = k|

1(b)=

|A|∑k=0

|C ⊆ A : |C| = k|

=

|A|∑k=0

(|A|k

)= 2|A|.

(Alternativ: Beachte, dass P(A)= Abb(A, 0, 1) und wahle die AbbildungC 7→ 1C , es folgt |P(A)| 1(a)

= |Abb(A, 0, 1)| 3(a)= 2|A|.)

5. Aquivalenzklassen:Sei ∼ eine Aquivalenzrelation auf A derart, dass alle Aquivalenzklassen [x], x ∈ A,genau n Elemente haben. Dann gilt

|[x] : x ∈ A| = |A|n.

Page 27: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 27

Begrundung: Seien [x1], . . . , [xk] die Aquivalenzklassen von ∼. Es ist A =⋃ki=1[xi]

und nach 1(b) also |A| =∑k

i=1 |[xi]| = kn.

Korollar 2.1.11 (Multinomialsatz) Fur x1, . . . , xr ∈ R, r ∈ N∗ gilt

(x1 + · · ·+ xr)n =

∑n1,...,nr≥0n1+···+nr=n

n!

n1! · · ·nr!xn1

1 · · ·xnrr .

Fur r = 2 und x, y ∈ R ergibt sich der Binomialsatz:

(x+ y)n =n∑k=0

(n

k

)xkyn−k.

Beweis. (r∑i=1

xi

)n

=∑

(A1,...,Ar) Zer-legung von 1,...,n

r∏i=1

x|Ai|i

=∑

n1,...,nr≥0n1+···+nr=n

∑(A1,...,Ar) Zer-

legung von 1,...,nmit |Ai|=ni

r∏i=1

xnii

=∑

n1,...,nr≥0n1+···+nr=n

n!

n1! · · ·nr!

r∏i=1

xnii .

Der Binomialsatz folgt direkt. Beachte dafur, dass n2 = n− n1 wegen n1 + n2 = n.

Beispiel 2.1.12 Viele Zufallsexperimente entsprechen aus wahrscheinlichkeitstheoretischerSicht einem Urnenmodell (Ziehen von Kugeln aus einem Krug).

1. (Ziehen mit Zurucklegen unter Beachtung der Reihenfolge).Hierbei handelt es sich um Anordnungen der Lange n aus N Elementen. Wiederho-lungen sind moglich, d. h. Elemente konnen mehrfach auftauchen.Ω := (ω1, . . . , ωn) : ωi ∈ 1, . . . , N fur i = 1, . . . , n = 1, . . . , NnNach 2.1.10(3) gilt |Ω| = Nn.Beispiele: n-maliges Wurfeln mit einem N -seitigen Wurfel; Ziehung der Lottozahlenmit Zurucklegen, aber ohne Sortieren.

2. (Ziehen ohne Zurucklegen mit Beachtung der Reihenfolge).Hierbei handelt es sich ebenfalls um Anordnungen der Lange n aus N Elementen, beidenen allerdings kein Element mehr als einmal auftreten kann.Ω := (ω1, . . . , ωn) ∈ 1, . . . , Nn : ωi 6= ωj fur i 6= jNach 2.1.10(1a, 3b) ist |Ω| = |f : 1, . . . , n → 1, . . . , N : f injektiv| = N !

(N−n)!.

Beispiel: Ziehung der Lottozahlen ohne Sortieren.

Page 28: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

28 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. (Ziehen ohne Zurucklegen ohne Beachtung der Reihenfolge).Kombinationen der Lange n aus N Elementen ohne Wiederholungen:Ω := (ω1, . . . , ωn) ∈ 1, . . . , Nn : ω1 < ω2 < · · · < ωnNach 2.1.10(1a) und (4a) ist |Ω| = |C ⊆ 1, . . . , N : |C| = n| =

(Nn

).

Beispiel: Ziehung der Lottozahlen.

4. (Ziehen mit Zurucklegen ohne Beachtung der Reihenfolge).Kombinationen der Lange n aus N Elementen mit Wiederholungen:Ω := (ω1, . . . , ωn) ∈ 1, . . . , Nn : ω1 ≤ ω2 ≤ · · · ≤ ωnUm |Ω| zu berechnen, betrachteΩ := (ω1, . . . , ωn) ∈ 1, . . . , N + n− 1n : ω1 < · · · < ωn undf : Ω→ Ω, (ω1, . . . , ωn) 7→ (ω1, ω2 + 1, . . . , ωn + n− 1).f ist bijektiv, also gilt nach 2.1.10(1a) und (3), dass |Ω| = |Ω| =

(N+n−1

n

).

Achtung: Die Elemente von Ω sind bei realen, ”dazu passenden“ Zufallsexperimen-ten (beispielsweise Wurf mit n Wurfeln und Sortieren, Ziehung der Lottozahlenmit Zurucklegen) in aller Regel nicht gleichwahrscheinlich. Die zugehorige Laplace-Verteilung ist also unangemessen! Eine bemerkenswerte Ausnahme bilden zufalligeZustande von Bosonen (Elementarteilchen) in der statistischen Physik (Bose-Einstein-Verteilung).

Beispiel 2.1.13 Wurfeln mit 3 Wurfeln.Ω = 1, . . . , 63, P entspreche der Laplace-Verteilung auf Ω.A = ”Gesamtaugenzahl ist 11“ := (ω1, ω2, ω3) ∈ Ω: ω1 + ω2 + ω3 = 11,B = ”Gesamtaugenzahl ist 12“ := (ω1, ω2, ω3) ∈ Ω: ω1 + ω2 + ω3 = 12.Abzahlen ergibt |A| = 27, |B| = 25, also P (A) = |A|/|Ω| = 27/216 = 0,125 und P (B) =

|B|/|Ω| = 25/216 ≈ 0,116.Im Modell aus 2.1.12(4) hatten beide Ergebnisse die gleiche Wahrscheinlichkeit, denn 11lasst sich ohne Berucksichtigung der Reihenfolge darstellen als 146, 155, 236, 245, 335,344, und 12 lasst sich darstellen als 156, 246, 255, 336, 345, 444. Das entsprache in beidenFallen einer Wahrscheinlichkeit von 6/56 ≈ 0,1071. Bei Verwendung der Gleichvertei-lungsannahme ist also Vorsicht geboten!

2.1.3 Allgemeine Wahrscheinlichkeitsraume

Motivation 2.1.14 Manchmal reicht ein abzahlbares Ω (vgl. Definition 2.1.3) nicht aus,siehe Beispiele 2.1.2(3, 4). Unser nachstes Ziel wird es daher sein, die Grundlagen aus Ab-schnitt 2.1.1 auf beliebige Ω zu ubertragen. Beispielsweise hatten wir gerne fur Beispiel (4)eine Art Gleichverteilung auf Ω = [0, 1], d. h. P ([a, b]) = b− a fur a, b ∈ [0, 1] und a ≤ b.Dies entspricht der Intuition, dass die Wahrscheinlichkeit einer Busankunft proportional zurWartezeit an der Haltestelle wachst.Es ergibt sich aber folgendes Problem: Es ist nicht allzu schwer zu zeigen, dass es keinWahrscheinlichkeitsmaß P auf ([0, 1],P[0, 1]) mit den oben geforderten Eigenschaften ge-ben kann. Maßtheoretisch gesprochen heißt das, dass man nicht jeder Teilmenge von [0, 1]

Page 29: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 29

in sinnvoller Weise eine Lange zuordnen kann. Derselbe Sachverhalt in stochastischer Spra-che: Wenn man an einer Gleichverteilung interessiert ist, kann man nicht jedem denkbarenEreignis A ⊆ [0, 1] in sinnvoller Weise eine Wahrscheinlichkeit zuordnen.Ausweg: Wir beschranken uns auf eine Teilmenge F ⊆ P , eine sogenannte σ-Algebra.Nur Elementen dieser Teilmenge wird eine Wahrscheinlichkeit (oder in der Maßtheorie eineLange, Flache, ein Volumen, . . . ) zugeordnet. Daher muss man sich, wenn man Stochastikmathematisch sauber behandeln will, mit Maßtheorie auseinandersetzen.

2.1.4 Exkurs zur Maßtheorie

Definition 2.1.15 Sei Ω 6= ∅. Ein Mengensystem F ⊆P(Ω) heißt σ-Algebra auf Ω, falls

1. Ω ∈ F ,

2. A ∈ F ⇒ AC := Ω \ A ∈ F und

3. A1, A2, . . . ∈ F ⇒⋃∞i=1Ai ∈ F .

(Ω,F ) heißt messbarer Raum, Messraum, Ereignisraum. Die Elemente von F heißen Er-eignisse oder messbare Mengen.

Wahrscheinlichkeiten werden spater nur fur die Elemente von F definiert. Es wird alsonicht jeder Menge eine Wahrscheinlichkeit zugeordnet, aber abzahlbare Mengenoperatio-nen fuhren nicht aus den in diesem Sinne messbaren Mengen heraus, wie an der folgendenBemerkung sichtbar wird.

Bemerkung 2.1.16 Aus den Axiomen folgt:

4. ∅ ∈ F (denn ∅ = ΩC),

5. A1, A2, · · · ∈ F ⇒⋂∞i=1Ai ∈ F (denn

⋂∞i=1Ai = (

⋃∞i=1A

Ci )C),

6. A1, . . . , An ∈ F ⇒ A1 ∪ · · · ∪ An ∈ F (denn⋃ni=1Ai =

⋃∞i=1 Ai mit Ai = ∅ fur

i > n),

7. A1, . . . , An ∈ F ⇒ A1 ∩ · · · ∩ An ∈ F (denn⋂ni=1 Ai =

⋂∞i=1Ai mit Ai = Ω fur

i > n),

8. A,B ∈ F ⇒ A \B ∈ F (denn A \B = A ∩BC).

Wie gewinnt man nun eine σ-Algebra?

Definition 2.1.17 Seien Ω 6= ∅,G ⊆P(Ω).

σ(G ) :=⋂F ⊆P(Ω) : F ist σ-Algebra mit G ⊆ F

heißt von G erzeugte σ-Algebra.

Page 30: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

30 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Bemerkung 2.1.18 σ(G ) ist tatsachlich eine σ-Algebra, und zwar die kleinste σ-Algebrain Ω, die G umfasst. (Nachrechnen)

Beispiel 2.1.19 1. ∅,Ω ist die kleinste σ-Algebra auf Ω.

2. P(Ω) ist eine σ-Algebra, namlich die großte auf Ω. Falls Ω abzahlbar ist, giltP(Ω) = σ(ω : ω ∈ Ω) (d. h. die Potenzmenge wird von den einelementigenMengen erzeugt).

Faustregel: Fur hochstens abzahlbares Ω wird immer die Potenzmenge verwendet.

3. Fur Ω = Rn verwenden wir in aller Regel (Faustregel: immer) die Borel-σ-Algebra

Bn := σ(A ⊆ Rn : A offen)= σ(A ⊆ Rn : A abgeschlossen)= σ([a1, b1]× · · · × [an, bn] ⊆ Rn : ai, bi ∈ Q mit ai < bi fur i = 1, . . . , n).

Fur n = 1 gilt B := B1 = σ((−∞, c] : c ∈ R). Nicht Borel-messbare Mengenexistieren, sofern wenn man das Auswahlaxiom der Mengenlehre akzeptiert, sind abersehr exotisch.

4. Fur nichtleeres Ω ⊆ Rn verwenden wir die Borel-σ-Algebra auf Ω:Bn

Ω := A ∩ Ω: A ∈ Bn.

Nun konnen wir analog zu Definition 2.1.3 den Begriff des Wahrscheinlichkeitsmaßeseinfuhren:

Definition 2.1.20 Sei (Ω,F ) ein Ereignisraum. Eine Abbildung P : F → R+ (oder furWahrscheinlichkeitsmaße aquivalent [0, 1] statt R+) heißt Wahrscheinlichkeitsmaß (Wahr-scheinlichkeitsverteilung, Verteilung) auf (Ω,F ), falls

1. P (Ω) = 1 und

2. A1, A2, . . . ∈ F paarweise disjunkt⇒ P (⋃∞i=1Ai) =

∑∞i=1 P (Ai).

(Ω,F , P ) heißt Wahrscheinlichkeitsraum.Falls 1. ersetzt wird durch das (schwachere) Axiom

1’. P (∅) = 0,

heißt P Maß und (Ω,F , P ) Maßraum.

Bemerkung 2.1.21 Satz 2.1.9 gilt weiterhin, falls P(Ω) durch F und ”⊆ Ω“ durch ”∈ F“ersetzt wird.

Ein wichtiges Resultat ist der

Page 31: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 31

Satz 2.1.22 (Eindeutigkeitssatz) Sei G ein ∩-stabiler Erzeuger des Ereignisraums (Ω,F ),d. h. F = σ(G ) und A ∩ B ∈ G fur A,B ∈ G . Fur Wahrscheinlichkeitsmaße P,Q auf(Ω,F ) mit P |G = Q|G gilt dann schon P = Q.

Beweis. Maßtheorie

Nun zur Charakterisierung, Konstruktion und Existenz von Verteilungen:

Satz 2.1.23 Sei Ω 6= ∅ abzahlbar. Sei % : Ω → [0, 1] mit∑

ω∈Ω %(ω) = 1. Dann existiertgenau ein Wahrscheinlichkeitsmaß P auf (Ω,P(Ω)) mit P (ω) = %(ω) fur alle ω ∈ Ω. Indiesem Fall gilt

P (A) =∑ω∈A

%(ω), A ∈P(Ω). (2.2)

% heißt Zahldichte oder Wahrscheinlichkeitsfunktion von P .

Beweis.Existenz und (2.2): Sei P wie in (2.2) definiert. Dann ist P (Ω) = 1. Seien A1, A2, . . . ⊆ Ω

paarweise disjunkt. Mit dem Doppelreihensatz aus der Analysis (Heuser, Analysis 1, Satz45.1) folgt

P

(∞⋃i=1

Ai

)=

∑ω∈⋃∞i=1 Ai

%(ω)

=∞∑i=1

∑ω∈Ai

%(ω)

=∞∑i=1

P (Ai).

Eindeutigkeit: Sei P ein Maß, das die oben genannten Bedingungen erfullt. Dann ist schon

P (A)σ-Add.

=∑ω∈A

P (ω) Vorauss.=

∑ω∈A

%(ω)

fur alle A ∈P(Ω).

Beispiel 2.1.24 Seien Ω = N, λ > 0 und definiere fur alle k ∈ N

%(k) := e−λλk

k!.

Wegen ∑k∈Ω

%(k) = e−λ∞∑k=0

λk

k!= e−λeλ = 1,

gibt es nach obigem Satz genau ein Wahrscheinlichkeitsmaß P auf (N,P(N)) mit Zahldich-te %. P heißt Poisson-Verteilung zum Parameter λ. Die Poisson-Verteilung wird genutzt, umbeispielsweise die Anzahl von Telefonanrufen, Kunden, Versicherungsschaden usw. in ei-nem festen Zeitintervall zu modellieren. Argumente hierfur werden wir spater kennenlernen,siehe Bemerkung 2.3.18.

Page 32: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

32 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Satz 2.1.25 Seien Ω = R, % : Ω → R+ (abschnittsweise) stetig mit∫∞−∞ %(x)dx = 1. Dann

existiert genau ein Wahrscheinlichkeitsmaß P auf (R,B) mit

P ((a, b]) =

∫ b

a

%(x) dx

fur alle −∞ ≤ a ≤ b <∞. % heißt (Lebesgue-)Dichte von P .

Beweis. Eindeutigkeit: G := (−∞, c] : c ∈ R ist ∩-stabiler Erzeuger von B, vgl.2.1.19(3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P damit durch P ((−∞, c]), c ∈ R,eindeutig festgelegt ist.Existenz: Definiere P (A) :=

∫A%(x)dx fur alle A ∈ B. Dann gilt:

1. P (Ω) =∫R %(x)dx = 1.

2. Fur paarweise disjunkte A1, A2, . . . ∈ B:

P

(∞⋃i=1

Ai

)=

∫1⋃∞

i=1 Ai(x)︸ ︷︷ ︸∑∞

i=1 1Ai (x)

%(x) dx

=

∫limn→∞

n∑i=1

1Ai(x)%(x) dx

mon. Konv.= lim

n→∞

∫ n∑i=1

1Ai%(x) dx

= limn→∞

n∑i=1

∫1Ai%(x) dx

=∞∑i=1

P (Ai).

3. P ((a, b]) =∫

(a,b]%(x) dx =

∫ ba%(x) dx fur a ≤ b.

Beispiel 2.1.26 Sei λ > 0 und definiere fur x ∈ R

%(x) := 1R+(x)λe−λx.

Wegen ∫ ∞−∞

%(x) dx =

∫ ∞0

λe−λx dx = −e−λx|∞x=0 = 0− (−1) = 1

folgt nach obigem Satz die Existenz eines eindeutigen Wahrscheinlichkeitsmaßes P auf(R,B) mit Dichte %. Die Wahrscheinlichkeitsverteilung P heißt Exponentialverteilung zumParameter λ. Die Exponentialverteilung wird genutzt, um beispielsweise die Wartezeit aufTelefonanrufe, Kunden, Versicherungsschaden usw. oder die Lebensdauer von Bauteilen zumodellieren. Den Grund dafur werden wir spater kennenlernen, siehe Satz 2.1.51.

Page 33: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 33

Beispiel 2.1.27 Seien a, b ∈ R mit a < b und definiere fur x ∈ R

%(x) :=1

b− a1[a,b](x).

Wegen ∫ ∞−∞

%(x) dx =1

b− a

∫ b

a

1 dx =b− ab− a

= 1

existiert ein eindeutiges Wahrscheinlichkeitsmaß P auf (R,B) mit Dichte %. Die Wahr-scheinlichkeitsverteilung P heißt Gleichverteilung auf [a, b] und ist das in Vorbemerkung2.1.14 gesuchte Analogon zur diskreten Gleichverteilung.

Bemerkung 2.1.28 Ein Wahrscheinlichkeitsmaß auf Ω = N oder anderen abzahlbaren(z. B. 1, . . . , n,Z,Q) oder uberabzahlbaren (z. B. [a, b],R+) Teilmengen von R induziertin naturlicher Weise ein Wahrscheinlichkeitsmaß auf R, namlich fur A ∈ B via

P (A) := P (A ∩ Ω).

Definition 2.1.29 Sei P ein Wahrscheinlichkeitsmaß auf (Ω,F ) = (R,B). Die FunktionF : R→ [0, 1] mit

F (x) := P ((−∞, x])

heißt (kumulative) Verteilungsfunktion von P .

Beispiel 2.1.30 1. Die Verteilungsfunktion der empirischen Verteilung von x1, . . . , xn ∈R (vgl. Beispiel 2.1.4) ist gerade die empirische Verteilungsfunktion aus Definition1.2.5.

2. Die Exponentialverteilung zum Parameter λ > 0 hat die Verteilungsfunktion

F (x) =

0 fur x < 0,

1− e−λx fur x ≥ 0.

3. Die Gleichverteilung auf [a, b] hat die Verteilungsfunktion

F (x) =

0 fur x < a,x−ab−a fur a ≤ x < b,

1 fur x ≥ b.

4. Die diskrete Gleichverteilung auf 1, . . . , n (vgl. Satz 2.1.7) hat die Verteilungsfunk-tion

F (x) =

0 fur x < 1,1n[x] fur 1 ≤ x < n,

1 fur x ≥ n.

Page 34: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

34 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Satz 2.1.31 Sei F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R,B).Dann gelten:

1. F ist monoton wachsend,

2. F ist rechtsseitig stetig,

3. limx→∞ F (x) = 1 und limx→−∞ F (x) = 0.

Beweis.

1. Satz 2.1.9(4) (Monotonie von P )

2. Satz 2.1.9(6) (Stetigkeit von oben)

3. Sei (xn)n eine wachsende Folge reeller Zahlen mit limn→∞ xn = ∞. Dann gilt nachSatz 2.1.9(6)

F (xn) = P ((−∞, xn])n→∞−−−→ P

((−∞,∞)︸ ︷︷ ︸

=R

)= 1.

Analog fur fallende Folgen mit limn→∞ xn = −∞.

Satz 2.1.32 Sei eine Funktion F : R → [0, 1] mit den Eigenschaften 1–3 aus Satz 2.1.31gegeben. Dann existiert genau ein Wahrscheinlichkeitsmaß P auf (R,B) mit Verteilungs-funktion F .

Beweis. Eindeutigkeit: G := (−∞, c] : c ∈ R ist ∩-stabiler Erzeuger von B, vgl.2.1.19(3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P durch P ((−∞, c]), c ∈ R ein-deutig festgelegt ist.Existenz: Maßtheorie.

Satz 2.1.33 Sei P ein Wahrscheinlichkeitsmaß auf (R,B) mit Verteilungsfunktion F .Falls F stetig differenzierbar mit Ableitung f ist (oder allgemeiner: falls F (c) =∫ c−∞ f(x) dx, c ∈ R fur ein stuckweise stetiges f : R → R+), dann ist f Lebesgue-Dichte

von P .

Beweis. Fur a ≤ b ist ∫ b

a

f(x) dx =

∫ b

−∞f(x) dx−

∫ a

−∞f(x) dx

= F (b)− F (a)

= P ((−∞, b])− P ((−∞, a])

= P ((a, b]).

Nun zu Produktraumen:

Page 35: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 35

Definition 2.1.34 Seien (Ω1,F1), . . . , (Ωn,Fn) messbare Raume und sei Ω :=∏n

i=1 Ωi =

Ω1 × · · · × Ωn das kartesische Produkt.

F :=n⊗i=1

Fi := F1 ⊗ · · · ⊗Fn := σ(A1 × · · · × An : Ai ∈ Fi fur i = 1, . . . , n)

heißt Produkt-σ-Algebra und ist die Standard-σ-Algebra auf Ω.

Satz 2.1.35 Seien (Ωi,Fi, Pi), i = 1, . . . , n Wahrscheinlichkeitsraume und definiere Ω :=∏ni=1 Ω und F :=

⊗ni=1 Fi. Dann gibt es genau ein Wahrscheinlichkeitsmaß P auf (Ω,F )

mit

P (A1 × · · · × An) =n∏i=1

Pi(Ai)

fur alle Ai ∈ Fi, i = 1, . . . , n. Man nennt P Produktmaß schreibt P =:⊗n

i=1 Pi.

Beweis. Existenz: Maßtheorie.Eindeutigkeit: A1,× · · · × An : Ai ∈ Fi fur i = 1, . . . , n ist ∩-stabiler Erzeuger von F .Die Behauptung folgt mit dem Eindeutigkeitssatz 2.1.22.

Bemerkung 2.1.36 1. Ω =∏n

i=1 Ωi verwendet man fur aus Einzelexperimenten mit Er-gebnisraum Ωi zusammengesetzte Experimente. Warum bzw. wann das ProduktmaßPzur Modellierung angemessen ist, werden wir in Bemerkung 2.2.13 erfahren.

2. Satz 2.1.35 gilt auch fur Maße anstelle von Wahrscheinlichkeitsmaßen.

Betrachte beispielsweise (R,B, λ), wobei λ das Lebesguemaß, also das eindeutigeMaß auf (R,B) sei mit

λ((a, b]) = b− a

fur a ≤ b, d. h. λ misst die Lange einer Menge. Das Produktmaß λn :=⊗n

i=1 λ auf(Rn,Bn) = (

∏ni=1 R,

⊗ni=1 B) heißt Lebesguemaß auf (Rn,Bn) und ist charakteri-

siert durch

λn((a1, b1]× · · · × (an, bn]) =n∏i=1

(bi − ai),

d. h. λn misst die Flache bzw. das Volumen usw. einer Menge.

3. Produkt-σ-Algebren und Produktwahrscheinlichkeitsmaße gibt es auch fur unendlichekartesische Produkte Ω =

∏i∈I Ωi mit beliebiger Indexmenge I . Dabei ist∏

i∈I

Ωi :=

ω : I →

⋃i∈I

Ωi : ω(i) ∈ Ωi fur alle i ∈ I

(insbesondere ΩI :=

∏i∈I Ω = Abb(I,Ω)) und

F :=⊗i∈I

Fi := σ(

ω ∈∏i∈I

Ωi : ω(i1) ∈ A1, . . . , ω(in) ∈ An

:

n ∈ N, i1, . . . , in ∈ I, Ak ∈ Fik fur k = 1, . . . , n).

Page 36: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

36 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

⊗i∈I Pi ist das eindeutige Wahrscheinlichkeitsmaß P auf (Ω,F ) mit

P

(ω ∈

∏i∈I

Ωi : ω(i1) ∈ A1, . . . , ω(an) ∈ An

)=

n∏k=1

Pik(Ak).

fur alle Rechteckmengen, also alle Mengen der Form auf der rechten Seite.

Bemerkung 2.1.37 Seien (Ωi,P(Ωi), Pi), i = 1, . . . , n, endliche Wahrscheinlichkeits-raume mit Laplace-Verteilung Pi auf Ωi.Definiere (Ω,F , P ) := (

∏ni=1 Ωi,

⊗ni=1 P(Ωi),

⊗ni=1 Pi). Dann ist F = P(Ω) und P die

Laplace-Verteilung auf Ω.

Beweis.

1. Fur ω = (ω1, . . . , ωn) ∈ Ω gilt

ω = (ω1, . . . , ωn) = ω1 × · · · × ωn ∈n⊗i=1

P(Ωi) = F

und somitP(Ω)

2.1.19(2)= σ(ω : ω ∈ Ω) ⊆ F ⊆P(Ω).

2. Fur alle ω = (ω1, . . . , ωn) ∈ Ω ist

P (ω) = P (ω1 × · · · × ωn)Def.=

n∏i=1

Pi(ωi) =1∏n

i=1 |Ωi|2.1.10=

1

|Ω|,

somit folgt die Behauptung mit dem Eindeutigkeitssatz 2.1.22.

2.1.5 Unabhangigkeit und bedingte Wahrscheinlichkeiten

Definition 2.1.38 Seien (Ω,F , P ) ein Wahrscheinlichkeitsraum und B ∈ F mit P (B) >

0. Fur A ∈ F heißt

P (A | B) := PB(A) :=P (A ∩B)

P (B)(2.3)

die bedingte Wahrscheinlichkeit von A gegeben B.

Satz 2.1.39 Seien (Ω,F , P ) und B wie in Definition 2.1.38. Dann ist PB : F → [0, 1] einWahrscheinlichkeitsmaß auf (Ω,F ) mit PB(B) = 1.

Beweis.

1. PB(A) ∈ [0, 1] fur alle A ∈ F

2. PB(Ω) = P (B)P (B)

= 1

Page 37: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 37

3.PB

(⋃∞

i=1Ai

)=P ((⋃∞i=1Ai) ∩B)

P (B)

=P (⋃∞i=1(Ai ∩B))

P (B)

=

∑∞i=1 P (Ai ∩B)

P (B)

=∞∑i=1

PB(Ai)

4. PB(B) = P (B∩B)P (B)

= 1

Motivation 2.1.40 Warum definiert man bedingte Wahrscheinlichkeiten durch die Formelin (2.3)? Analog zu 2.1.5 gibt es zwei Begrundungen:

1. (Frequentistische Sichtweise)Sei (x1, . . . , xn) die Stichprobe eines Merkmals X : Ω → M . Fur A ⊆ M ist dierelative Haufigkeit

r(A) =Zahl der xi ∈ A in Stichprobe (x1, . . . , xn)

Zahl der xi uberhaupt in Stichprobe (x1, . . . , xn).

Fur festesB ⊂M entferne nun alle Beobachtungen aus der Stichprobe, die nicht inBliegen. Wir betrachten also eine kleinere Stichprobe (x1, . . . , xk), k ≤ n. Die relativeHaufigkeit von A in der neuen Stichprobe ist

rB(A) :=Zahl der xi ∈ A in neuer Stichprobe (x1, . . . , xk)

Zahl der xi uberhaupt in Stichprobe (x1, . . . , xk)

=nr(A ∩B)

nr(B)=r(A ∩B)

r(B).

Die frequentistische Interpretation von Wahrscheinlichkeiten als idealisierte relativeHaufigkeiten motiviert somit die Definition (2.3) von bedingten Wahrscheinlichkeiten.

Falls keine ”Beziehung“ zwischen A und B besteht, wird man ferner erwarten, dassder Anteil von A in der verminderten Stichprobe dem in der ursprunglichen Stichpro-be ahnelt, d. h. rB(A) ≈ r(A).

Beispiel: Seien (x1, . . . , xn) die Studenten an der CAU Kiel, A das Ereignis, dass einStudent weiblich ist undB das Ereignis, dass ein Student im Mai geboren wurde. Hiersollte man vermuten, dass rB(A) ≈ r(A) gilt.

2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten)Fur endliche Ω betrachte die Laplace-Verteilung P (A) = |A|/|Ω|, A ⊆ Ω. Fur dieLaplace-Verteilung PB auf B ⊆ Ω mit |B| > 0 gilt

PB(A) =|A ∩B||B|

=|A ∩B||Ω|

|Ω||B|

=P (A ∩B)

P (B), A ⊆ Ω.

Page 38: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

38 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Die Interpretation von Wahrscheinlichkeiten als verallgemeinerten Laplace-Wahrscheinlichkeiten motiviert somit ebenfalls (2.3). PB kann als Maß der Plausi-bilitat angesehen werden, wenn man die zusatzliche Information die Tatsache ”ω ∈B“erhalt, aber nichts sonst, was die Plausibilitat innerhalb von B neu gewichtenwurde.

Wie im Beispiel aus 1. kann PB(A) ≈ P (A) so gedeutet werden, dassA durch Kennt-nis von B nicht plausbiler/unplausibler wird.

Beispiel 2.1.41 (Zweimaliger Wurfelwurf)Ω = 1, . . . , 62, P sei die Laplace-Verteilung auf Ω.

A := ”2. Wurf ist eine 6“ = 1, . . . , 6 × 6, P (A) = |A|/|Ω| = 1/6

B := ”Augensumme ist 11 “ = (5, 6)(6, 5), P (B) = |B|/|Ω| = 1/18

|A ∩B| = (5, 6), P (A ∩B) = |A ∩B|/|Ω| = 1/36

P (A | B) = P (A ∩B)/P (B) = 1/2.

Sei ab jetzt (Ω,F , P ) ein Wahrscheinlichkeitsraum.

Satz 2.1.42 (Multiplikationsformel) Seien A1, . . . , An ∈ F mit P (A1 ∩ · · · ∩ An) > 0.Dann gilt

P (A1 ∩ · · · ∩ An) = P (A1)P (A2 | A1) · · ·P (An | A1 ∩ · · · ∩ An−1).

Beweis. Vollstandige Induktion: Der Induktionsanfang n = 1 ist trivial.Die Aussage gelte nun fur (n− 1). Es folgt

P (A1 ∩ · · · ∩ An) =P (An ∩ (A1 ∩ · · · ∩ An−1))

P (A1 ∩ · · · ∩ An−1)P (A1 ∩ · · · ∩ An−1)

Ind.vor.= P (A1)P (A2|A1) · · ·P (An|A1 ∩ · · · ∩ An−1).

Satz 2.1.43 (Satz von der totalen Wahrscheinlichkeit) Sei Ω =⋃i∈I Bi eine (hochstens)

abzahlbare Zerlegung von Ω in paarweise disjunkte Bi ∈ F . Dann gilt fur alle A ∈ F :

P (A) =∑i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Beweis. A =⋃i∈I(A ∩Bi) (paarweise disjunkt), also

P (A) =∑i∈I

P (A ∩Bi) =∑i∈I mitP (Bi)>0

P (A ∩Bi) =∑i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Page 39: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 39

Satz 2.1.44 (Formel von Bayes) Sei (Bi)i∈I eine Zerlegung von Ω wie in Satz 2.1.43. Furalle A ∈ F mit P (A) > 0 und alle j ∈ I mit P (Bj) > 0 gilt

P (Bj | A) =P (A | Bj)P (Bj)∑

i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Beweis.

P (Bj | A) =P (A ∩Bj)

P (A)2.1.43=

P (A | Bj)P (Bj)∑i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Die Formel von Bayes kommt zur Anwendung, falls man nur die ”umgekehrten“ bedingtenWahrscheinlichkeiten kennt:

Beispiel 2.1.45 Eine Krankheit K trete bei einer von 145 Personen auf. Somit tritt das Er-eignis B = ”Sie haben K“ mit P (B) = 1/145 auf. Angenommen, es wurde ein Test zurUntersuchung auf das Vorliegen von K entwickelt. Sei A das Ereignis, dass der Test positivausfallt. Der Test sei relativ gut: P (A | B) = 0,96, P (AC | BC) = 0,94. Dann ist

P (B | A)2.1.44=

P (A | B)P (B)

P (A | B)P (B) + P (A | BC)P (BC)=

0,96 1145

0,96 1145

+ 0,06144145

=1

10.

Wenn der Test positiv ausfallt, sind Sie also nur mit 10%-iger Wahrscheinlichkeit tatsachlichan K erkrankt!

Definition 2.1.46 Zwei Ereignisse A,B ∈ F heißen (stochastisch) unabhangig, falls

P (A ∩B) = P (A)P (B).

Bemerkung 2.1.47 1. Im Falle P (B) > 0 ist dies aquivalent zu P (A | B) = P (A).

2. A und Ω sowie A und ∅ sind stets unabhangig.

3. Unabhangigkeit hat nicht unbedingt etwas mit Kausalbeziehungen zu tun: Beispiels-weise konnte die beobachtete stochastische Abhangigkeit der Zahl der Storche undder Zahl der Geburten auf eine Kausalbeziehung hindeuten, obwohl beide nur voneiner dritten Große abhangen. Dies ist hier die Zeit, da beide in den letzten dreißigJahren allmahlich zuruckgingen. Das Auftreten von stochastischer Abhangigkeit bzw.Unabhangigkeit birgt also die Gefahr von Fehlinterpretationen.Umgekehrtes Beispiel (Unabhangigkeit trotz Kausalbeziehung): Betrachtet sei derzweifache Wurfelwurf, Ω = 1, . . . , 62 mit Laplace-Verteilung P auf Ω.A := ”2. Wurf ist eine 6 “ = 1, . . . , 6 × 6, P (A) = 1/6,B := ”Augensumme ist 7 “ = (1, 6), . . . , (6, 1), P (B) = 1/6,A ∩ B = (1, 6), P (A ∩ B) = 1/36 = P (A)P (B), also sind A und B unabhangig,obwohl das Ergebnis des zweiten Wurfelwurfs und die Summe der Augenzahlennaturlich kausal zusammenhangen.

Page 40: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

40 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Allgemeiner:

Definition 2.1.48 Seien I 6= ∅ eine Indexmenge, Ai ∈ F fur alle i ∈ I . Die Familie(Ai)i∈I heißt unabhangig, falls fur jede endliche, nichtleere Teilmenge J ⊆ I gilt:

P

(⋂i∈J

Ai

)=∏i∈J

P (Ai).

Bemerkung 2.1.49 1. Falls fur (Ai)i∈I nur gilt, dass P (Ai ∩ Aj) = P (Ai)P (Aj) furi 6= j, dann heißt die Familie paarweise unabhangig. Diese Eigenschaft ist im Allge-meinen schwacher als Unabhangigkeit.

Beispiel: Zweifacher Munzwurf, Ω = 0, 12 und P sei die Gleichverteilung auf Ω.A := ”1. Wurf ist 0“ = 0 × 0, 1, P (A) = 1/2,B := ”2. Wurf ist 0“ = 0, 1 × 0, P (B) = 1/2,C := ”Beide Wurfe sind gleich“ = (0, 0), (1, 1), P (C) = 1/2.A ∩B = B ∩C = A ∩C = A ∩B ∩C = (0, 0) haben die Wahrscheinlichkeit 1/4,somit sind die drei Mengen paarweise unabhangig.Aber P (A ∩ B ∩ C) = 1/4 6= (1/2)3 = P (A)P (B)P (C), also sind A,B,C nichtunabhangig.

2. Unabhangigkeit impliziert, dass alle bedingten Wahrscheinlichkeiten von A1, . . . , Anin der Multiplikationsformel 2.1.42 nicht von den Bedingungen abhangen.

Satz 2.1.50 Sei (Ai)i∈I eine unabhangige Familie von Ereignissen. Dann ist auch (Ci)i∈Iunabhangig, wobei Ci ∈ Ai, ACi fur alle i ∈ I .

Beweis. Sei J ⊆ I nichtleer und endlich.Beweis durch Induktion nach |i ∈ J : Ci = ACi | =: n.n = 0:

P

(⋂i∈J

Ci

)= P

(⋂i∈J

Ai

)Vor.=∏i∈J

P (Ai) =∏i∈J

P (Ci)

n→ n+ 1: Sei dazu j ∈ J so gewahlt, dass Cj = ACj .

P

(⋂i∈J

Ci

)= P

( ⋂i∈J\j

Ci \( ⋂i∈J\j

Ci ∩ Aj))

= P

( ⋂i∈J\j

Ci

)− P

( ⋂i∈J\j

Ci ∩ Aj)

Ind.vor.=

∏i∈J\j

P (Ci)−( ∏i∈J\j

P (Ci)

)P (Aj)

=∏

i∈J\j

P (Ci) (1− P (Aj))︸ ︷︷ ︸=P (Cj)

=∏i∈J

P (Ci).

Page 41: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 41

Nun zur Motivation der Exponentialverteilung fur Wartezeiten und Lebensdauern ”ohneGedachtnis“:

Satz 2.1.51 (Gedachtnislosigkeit und Exponentialverteilung) Eine Wahrscheinlichkeits-verteilung P auf (R,B) mit P (R+) = 1 und P ([0, t]) < 1 fur alle t ∈ R+ heißt gedacht-nislos, falls

P ((t+ s,∞) | (t,∞)) = P ((s,∞)) (2.4)

fur alle s, t ∈ R+. Die in diesem Sinne gedachtnislosen Verteilungen sind genau die Expo-nentialverteilungen aus Beispiel 2.1.26.

Beweis.

1. Sei P eine Exponentialverteilung zum Parameter λ. Dann gilt

P ((t+ s,∞) | (t,∞)) =P ((t+ s,∞))

P ((t,∞))

=1− P ((−∞, t+ s])

1− P ((−∞, t])2.1.26=

1− (1− e−λ(t+s))

1− (1− e−λt)= e−λs

2.1.26= 1− P ((−∞, s])= P ((s,∞)).

2. Sei P gedachtnislos mit Verteilungsfunktion F . Sei ferner λ := − logP ((1,∞)).Nach Satz 2.1.32 und Beispiel 2.1.30 reicht es zu zeigen, dass F (t) = 1 − e−λt furalle t > 0 (denn F (t) = 0 fur alle t ≤ 0 ist klar). Aquivalent zeigen wir, dass furG := 1− F gilt, dass G(t) = e−λt, t > 0. Aufgrund der rechtsseitigen Stetigkeit vonG genugt es, rationale t, etwa t = m/n fur m,n ∈ N∗ zu betrachten. Es gilt

G(t)G(s) = P ((t,∞))P ((s,∞))

(2.4)= P ((t,∞))

P ((t+ s,∞))

P ((t,∞))

= P ((t+ s,∞))

= G(t+ s)

fur alle t ∈ R. Mit Induktion folgt

G(t1 + . . .+ tk) =k∏i=1

G(ti) (2.5)

Page 42: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

42 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

fur t1, . . . , tk ≥ 0 und somit(G

(1

n

))n(2.5)= G(1) = e−λ ⇒ G

(1

n

)= e−λ

1n

sowie

G(mn

)(2.5)=

(G

(1

n

))m=(e−λ

1n

)m= e−λ

mn .

2.1.6 Wahrscheinlichkeitsbaume fur mehrstufige Experimente

Bisweilen ist man an mehrstufigen Experimenten interessiert, in denen die Wahrscheinlich-keiten im folgenden Teilexperiment von den vorangegangenen Ergebnissen abhangen.

Beispiel 2.1.52 Zunachst wird ein vierseitiger Wurfel geworfen und anschließend einWurfel, der soviele Seiten hat, wie es der Augenzahl des ersten Wurfs entspricht. Wir großist die Wahrscheinlichkeit, im zweiten Wurf eine ”3“zu wurfeln?

Solche Zufallsexperimente kann man mit Wahrscheinlichkeitsbaumen wie im folgendenSatz modellieren.

Satz 2.1.53 Gegeben seien abzahlbare Mengen Ω1, . . . ,Ωn sowie Zahldichten %(1) auf Ω1

und %(k)ω1,...,ωk−1 auf Ωk fur k = 2, . . . , n und alle (ω1, . . . , ωk−1) ∈ Ω1 × · · · × Ωk−1. Dann

gibt es ein eindeutiges Wahrscheinlichkeitsmaß P auf Ω := Ω1 × · · · × Ωn mit Zahldichte

%((ω1, . . . , ωn)) =n∏k=1

%(k)ω1,...,ωk−1

(ωk).

Beweis. Nach Satz 2.1.23 genugt es zu uberprufen, dass∑

ω∈Ω %(ω) = 1 gilt. Wir zeigenper Induktion nach `, dass

∑(ω1,...,ω`)∈Ω1×···×Ω`

∏k=1

%(k)ω1,...,ωk−1

(ωk) = 1, (2.6)

woraus fur ` = n die Behauptung folgt. Fur ` = 1 gilt (2.6), da %(1) eine Zahldichte ist.Analog erhalt man

∑(ω1,...,ω`+1)∈Ω1×···×Ω`+1

`+1∏k=1

%(k)ω1,...,ωk−1

(ωk)

=∑

(ω1,...,ω`)∈Ω1×···×Ω`

∏k=1

%(k)ω1,...,ωk−1

(ωk)

( ∑ω`+1∈Ω`+1

%(`+1)ω1,...,ω`

(ω`+1)

)= 1

aus der Induktionsvoraussetzung sowie der Tatsache, dass die Abbildungen %(`+1)ω1,...,ω` Zahl-

dichten sind.

Page 43: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.1. WAHRSCHEINLICHKEITSRAUME 43

ω1 ω2 %((ω1, ω2))%(2)ω1 (ω2)%(1)(ω1)

1 1 14

1

1/4

2

1 181/2

2 18

1/2

1/4

3

1 112

1/3

2 112

1/3

3 112

1/3

1/4

4

1 116

1/4

2 1161/4

3 116

1/4

4 116

1/4

1/4

Abbildung 2.1: Wahrscheinlichkeitsbaum zu den Beispielen 2.1.52/2.1.55

Page 44: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

44 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Bemerkung 2.1.54 Die Zahldichten %(k)ω1,...,ωk−1 reprasentieren die Wahrscheinlichkeitsver-

teilungen im k-ten Teilexperiment, wenn zuvor ω1, . . . , ωk−1 eingetreten sind. Dies passtauch zum im Satz definierten Wahrscheinlichkeitsmaß P auf Ω, denn fur vorgegebeneω1 ∈ Ω1, . . . , ωk ∈ Ωk gilt

P(ωk im k-ten Teilexperiment

∣∣ω1, . . . , ωk−1 in Teilexperimenten 1, . . . , k − 1)

= P((ω1, . . . , ωn) ∈ Ω : ωk = ωk

∣∣(ω1, . . . , ωn) ∈ Ω : ωj = ωj fur j = 1, . . . , k − 1)

=P ((ω1, . . . , ωn) ∈ Ω : ωj = ωj fur j = 1, . . . , k)

P ((ω1, . . . , ωn) ∈ Ω : ωj = ωj fur j = 1, . . . , k − 1)

=

∑(ωk+1,...,ωn)∈Ωk+1×···×Ωn

P (ω1, . . . , ωk, ωk+1, . . . , ωn)∑(ωk,...,ωn)∈Ωk×···×Ωn

P (ω1, . . . , ωk−1, ωk, . . . , ωn)

=

∏k`=1 %

(`)ω1,...,ω`−1(ω`)

∑(ωk+1,...,ωn)∈Ωk+1×···×Ωn

∏nm=k+1 %

(m)ω1,...,ωk,ωk+1,...,ωm−1

(ωm)∏k−1`=1 %

(`)ω1,...,ω`−1(ω`)

∑(ωk,...,ωn)∈Ωk×···×Ωn

∏nm=k %

(m)ω1,...,ωk−1,ωk,...,ωm−1

(ωm)

=

∏k`=1 %

(`)ω1,...,ω`−1(ω`)∏k−1

`=1 %(`)ω1,...,ω`−1(ω`)

= %(k)ω1,...,ωk−1

(ωk),

wobei das vorletzte Gleichheitszeichen aus∑

ωm∈Ωm%

(m)ω1,...,ωk,ωk+1,...,ωm−1

(ωm) = 1 bzw.∑ωm∈Ωm

%(m)ω1,...,ωk−1,ωk,...,ωm−1

(ωm) = 1 folgt.

Zuruck zu Beispiel 2.1.52:

Beispiel 2.1.55 Zur Modellierung des Wurfelbeispiels wahle in Satz 2.1.53 die RaumeΩ1 := 1, 2, 3, 4 mit %(1)(ω1) := 1/4 fur ω1 = 1, . . . , 4 und Ω2 := 1, 2, 3, 4 mit

%(2)ω1

(ω2) :=

1/ω1 fur ω2 = 1, . . . , ω1,

0 sonst.

Der zugehorige Wahrscheinlichkeitsbaum ist in Abbildung 2.1 dargestellt. Die Pfade(ω1, ω2) mit Wahrscheinlichkeit 0 wurden der Ubersichtlichkeit halber weggelassen. Diein Beispiel 2.1.52 gesuchte Wahrscheinlichkeit ist

P (”3“ im zweiten Wurf) = P (Ω1 × 3)

=4∑

ω1=1

%((ω1, 3))

=1

4· 0 +

1

4· 0 +

1

4· 1

3+

1

4· 1

4=

7

48.

2.2 Zufallsvariablen

In vielen Situationen ist oft weniger das Ergebnis ω ∈ Ω eines Zufallsexperimentes vonInteresse, als vielmehr quantitative Aspekte davon, vgl. Merkmale in Definition 1.1.3.

Page 45: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 45

2.2.1 Zufallsvariablen im diskreten Fall

Sei zunachst Ω hochstens abzahlbar. Der allgemeine Fall folgt in Abschnitt 2.2.4.

Definition 2.2.1 Sei (Ω,F , P ) ein (diskreter) Wahrscheinlichkeitsraum. Eine AbbildungX : Ω → R (oder allgemeiner X : Ω → Ω′) heißt Zufallsgroße bzw. im allgemeinen FallZufallsvariable.

Bezeichnung 2.2.2 Wir definieren

X ∈ B := ω ∈ Ω: X(ω) ∈ B = X−1(B)

sowieP (X ∈ B) := P (X ∈ B).

Beispiel: P (X > 5) := P (ω ∈ Ω: X(ω) > 5), X > 5 := ω ∈ Ω: X(ω) > 5Allgemein: P ((von ω ∈ Ω abhangige) Aussage) := P (w ∈ Ω: Aussage gilt fur ω)

Beispiel 2.2.3 n-facher Munzwurf, Ω = 0, 1n (0 entspricht Kopf, 1 entspricht Zahl).X : Ω → Ω′ := 0, . . . , n (oder alternativ R), ω = (ω1, . . . , ωn) 7→ X(ω) :=

∑ni=1 ωi.

steht fur die Anzahl der ”Zahl“-Wurfe.

Satz 2.2.4 Seien (Ω,P(Ω), P ) ein (diskreter) Wahrscheinlichkeitsraum, X : Ω → Ω′ eineZufallsvariable, wobei Ω′ abzahlbar sei. Dann definiert

PX(A′) := P (X−1(A′)) = P (X ∈ A′)

fur A′ ⊂ Ω′ ein Wahrscheinlichkeitsmaß PX auf (Ω′,P(Ω′)).

Beweis.

1. PX(A′) = P (X−1(A′)) ∈ [0, 1]

2. PX(Ω′) = P (X−1(Ω′)) = P (Ω) = 1

3. Seien A′1, A′2, . . . paarweise disjunkt. Dann sind auch X−1(A′1), X−1(A′2), . . . paar-

weise disjunkt und somit

PX

(∞⋃i=1

A′i

)= P

(X−1

(∞⋃i=1

A′i

)︸ ︷︷ ︸

=⋃∞i=1 X

−1(A′i)

)σ-Add.

=∞∑i=1

P (X−1(A′i)) =∞∑i=1

PX(A′i).

Definition 2.2.5 1. PX in Satz 2.2.4 heißt Verteilung von X oder Bildmaß von P unterX .Schreibweisen: PX = PX = P X−1 = X(P ) = L(X;P ) = L(X).

Page 46: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

46 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

2. Zufallsvariablen X, Y heißen identisch verteilt, falls PX = P Y .

Beispiel 2.2.6 Ziehen mit Zurucklegen aus einer Urne mit schwarzen und weißen Ku-geln, vgl. Beispiel 2.1.12(1). Sei Ω := 1, . . . , s + wn, wobei 1, . . . , s einer schwarzen,s+ 1, . . . , s+ w einer weißen Kugel entspreche. P sei die Laplace-Verteilung auf Ω.Definiere X als die Anzahl der in n Durchgangen gezogenen schwarzen Kugeln, d. h.X : Ω→ 0, . . . , n mit X((ω1, . . . , ωn)) = |i ∈ 1, . . . , n : ωi ∈ 1, . . . , s|.Was ist die Verteilung von X?

PX(k) = P (X = k)

= P

( ⋃I⊆1,...,n :|I|=k

(ω1, . . . , ωn) ∈ Ω: ωi ∈ 1, . . . , s fur i ∈ I,

ωi ∈ s+ 1, . . . , s+ w fur i ∈ IC)

=∑

I⊆1,...,n :|I|=k

1

|Ω|

∣∣∣∣∣∏i∈I

1, . . . , s ×∏i∈ICs+ 1, . . . , s+ w

∣∣∣∣∣2.1.10(2)

=∑

I⊆1,...,n :|I|=k

skwn−k

(s+ w)n

2.1.10(4)=

(n

k

)(s

s+ w

)k (w

s+ w

)n−k=

(n

k

)pk(1− p)n−k, k ∈ 0, . . . , n

mit p := ss+w

. Diese Verteilung auf 0, . . . , n heißt Binomialverteilung zu Parametern n, p.

Beispiel 2.2.7 Ziehen ohne Zurucklegen aus einer Urne mit schwarzen und weißen Kugeln,vgl. Beispiel 2.1.12(3). Sei Ω := (ω1, . . . , ωn) ∈ 1, . . . , s + wn : ω1 < · · · < ωn,wobei 1, . . . , s einer schwarzen, s+ 1, . . . , s+ w einer weißen Kugel entspreche. P sei dieLaplace-Verteilung auf Ω. Definiere wiederX als die Anzahl der in n ≤ s+w Durchgangengezogenen schwarzen Kugeln, d. h. X : Ω → 0, . . . , n mit X((ω1, . . . , ωn)) 7→ |i ∈1, . . . , n : ωi ≤ s|. Wieder interessiert uns die Verteilung von X .Fur k = 0, . . . , n mit k ≤ s und n− k ≤ w gilt X = k = Ω′ × Ω′′ mit

Ω′ :=

(ω1, . . . , ωk) ∈ 1, . . . , sk : ω1 < · · · < ωk, |Ω′| =

(s

k

),

Ω′′ :=

(ωk+1, . . . , ωn) ∈ s+ 1, . . . , s+ wn−k : ωk+1 < · · · < ωn, |Ω′′| =

(w

n− k

),

also

PX(k) = P (X = k) =|Ω′ × Ω′′||Ω|

2.1.12(3),2.1.10(2)

=

(sk

)(wn−k

)(s+wn

) .

Page 47: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 47

Diese Verteilung heißt hypergeometrisch. Nach Satz 2.2.4 handelt es sich tatsachlich umeine Wahrscheinlichkeitsverteilung.

Definition 2.2.8 Seien n ∈ N \ 0,Ω = 0, . . . , n (oder N), s, w ∈ N mit (s+ w) ≥ n.Die hypergeometrische Verteilung zu Parametern n, s, w auf (Ω,P(Ω)) ist definiert durchdie Zahldichte

%(k) :=

(sk

)(wn−k

)(s+wn

) .

Beispiel 2.2.9 Ziehung der Lottozahlen ”6 aus 49“ im Urnenmodell aus Beispiel 2.2.7.s + w = 49, s = 6 (entspricht den angekreuzten Zahlen), n = 6 (entspricht den gezogenenKugeln). Sei X wie oben, entspreche also den ”richtigen“ Kugeln, die sowohl angekreuztals auch gezogen wurden.

P (”Genau 5 Richtige“) = P (X = 5) =

(65

)(431

)(496

) ≈ 1,8 · 10−5.

2.2.2 Unabhangigkeit von Zufallsvariablen

Sei Ω weiterhin (hochstens) abzahlbar.

Definition 2.2.10 Seien I 6= ∅ eine Indexmenge und Xi : Ω→ Ωi Zufallsvariablen fur allei ∈ I . Die Familie (Xi)i∈I heißt unabhangig, falls fur jede endliche Teilmenge J ⊆ I mitJ 6= ∅ und alle Bi ⊆ Ωi, i ∈ J gilt, dass

P

(⋂i∈J

Xi ∈ Bi)

=∏i∈J

P (Xi ∈ Bi)

(d. h. fur alle Bi ∈ Ωi, i ∈ I ist die Familie (Xi ∈ Bi)i∈I unabhangig).

Satz 2.2.11 Seien Xi : Ω → Ωi, i = 1, . . . , n Zufallsvariablen, wobei fur i = 1, . . . , n

die Mengen Ωi hochstens abzahlbar seien. Dann sind X1, . . . , Xn genau dann unabhangig,wenn

P (X1 = ω1, . . . , Xn = ωn) =n∏i=1

P (Xi = ωi)

fur alle ω1 ∈ Ω1, . . . , ωn ∈ Ωn gilt.

Beweis.

”⇒“: Setze J := 1, . . . , n, Bi := ωi fur i = 1, . . . , n.

”⇐“: Seien J ⊆ I, Bi ⊆ Ωi wie in Definition 2.2.10. Ohne Beschrankung der Allgemeinheit

Page 48: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

48 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

sei J = 1, . . . , n (sonst wahle Bi := Ωi fur i /∈ J). Dann gilt

P

(n⋂i=1

Xi ∈ Bi

)σ-Add.

=∑

ω1∈B1,...,ωn∈Bn

P (X1 = ω1, . . . , Xn = ωn)

=∑

ω1∈B1,...,ωn∈Bn

n∏i=1

P (Xi = ωi)

=n∏i=1

(∑ωi∈Bi

P (Xi = ωi)

)σ-Add.

=n∏i=1

P (Xi ∈ Bi).

Satz 2.2.12 Seien Xi : Ω → Ωi, i = 1, . . . , n Zufallsvariablen, wobei fur i = 1, . . . , n dieMengen Ωi hochstens abzahlbar seien.Definiere X := (X1, . . . , Xn) : Ω→

∏ni=1 Ωi, X(ω) = (X1(ω), . . . , Xn(ω)). Dann gilt:

X1, . . . , Xn unabhangig⇔ PX =n⊗i=1

PXi

(d. h. Unabhangigkeit gilt ganau dann, wenn die gemeinsame Verteilung gerade dem Pro-dukt der Randverteilungen entspricht).

Beweis.

X1, . . . , Xn unabhangig

⇔ P

(n⋂i=1

Xi ∈ Bi

)︸ ︷︷ ︸ =

n∏i=1

P (Xi ∈ Bi)︸ ︷︷ ︸ fur Bi ⊆ Ωi, i = 1, . . . , n

⇔ PX(B1 × · · · ×Bn) =n∏i=1

PXi(Bi) fur Bi ⊆ Ωi, i = 1, . . . , n

⇔ PX =n⊗i=1

PXi

Bemerkung 2.2.13 Zuruck zu Bemerkung 2.1.36(1) uber Wahrscheinlichkeitsmaße bei un-abhangigen Versuchswiederholungen:Sei (Ω,P(Ω), P ) als (diskreter) Wahrscheinlichkeitsraum Modell fur ein Zufallsexperi-ment. Wenn das zugehorige Experiment n-mal wiederholt wird, passt dazu der GrundraumΩn =

∏ni=1 Ω. Die i-te Projektion

πi : Ωn → Ω, (ω1, . . . , ωn) 7→ ωi

Page 49: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 49

steht fur das i-te Einzelexperiment.Frage: Welches Wahrscheinlichkeitsmaß Q auf (Ωn,P(Ωn)) passt zu dem Mehrfach- bzw.Gesamtexperiment?Nebenbedingungen: Wir mochten, dass das Einzelexperiment πi die Verteilung P besitztund dass die Einzelexperimente stochastisch unabhangig sind, da dies der Anschauung einerunabhangigen Versuchswiederholung unter identischen Bedingungen entspricht.Antwort: Wenden wir Satz 2.2.12 auf X = (π1, . . . , πn) = id: Ωn → Ωn an, kommt nur dasProduktmaß

P⊗n :=n⊗i=1

P

in Frage. Bei der unabhangigen Hintereinanderausfuhrung verschiedener Experimente(Ωi,P(Ωi), Pi), i = 1, . . . , n, fuhrt analoges Vorgehen zum Produktmaß

⊗ni=1 Pi auf∏n

i=1 Ωi.

Beispiel 2.2.14 n-maliger Wurf einer p-Munze mit p ∈ [0, 1].Ωi = 0, 1, Pi(1) = p = 1− Pi(0), i = 1, . . . , n.

(Ω,P(Ω), P ) := (0, 1n,P(0, 1n),⊗n

i=1 Pi) mit

P ((ω1, . . . , ωn)) =n∏i=1

Pi(ωi)

= pZahl der Einsen(1− p)Zahl der Nullen

= p∑ni=1 ωi(1− p)n−

∑ni=1 ωi .

Diese Verteilung heißt Bernoulli-Verteilung.Sei nun X : Ω→ 0, . . . , n, (ω1, . . . , ωn) 7→

∑ni=1 ωi die Zufallsgroße, die die Anzahl der

Einsen wiedergibt. Die Verteilung von X ist charakterisiert durch

PX(k) = P (X = k)

=∑

I⊆1,...,nmit |I|=k

P (ωI) wobei (ωI)i :=

1 falls i ∈ I,0 sonst

=∑

I⊆1,...,nmit |I|=k

pk(1− p)n−k

=

(n

k

)pk(1− p)n−k, k = 0, . . . , n.

Die Zufallsgroße ist also binomialverteilt, vgl. Beispiel 2.2.6. Man beachte, dass X =∑ni=1 πi gilt, wobei πi die 0, 1-wertige Zufallsgroße ist, die fur den i-ten Munzwurf steht.

Nach Bemerkung 2.2.13 sind die πi, i = 1, . . . , n unabhangig und besitzen Verteilung Pi,also eine Bernoulli-Verteilung auf 0, 1.

Page 50: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

50 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Definition 2.2.15 Seien n ∈ N∗,Ω = 0, 1, . . . , n (oder N), p ∈ [0, 1]. Die Binomialver-teilung mit Parametern n, p auf (Ω,P(Ω), P ) ist definiert durch die Zahldichte

%(k) :=

(n

k

)pk(1− p)n−k, k ∈ 0, . . . , n (bzw. N).

Beispiel 2.2.16 Analog: n-maliges Werfen eines ”unfairen“ Wurfels mit r Seiten und Wahr-scheinlichkeiten p1, . . . , pr.Ωi = 1, . . . , r, Pi(k) = pk mit k = 1, . . . , r und i = 1, . . . , n,(Ω,P(Ω), P ) := (1, . . . , rn,P(1, . . . , rn),

⊗ni=1 Pi).

Betrachte die Zufallsvariable X : Ω→ (n1, . . . , nr) : n1, . . . , nr ∈ N mit∑n

i=1 ni = n,

(ω1, . . . , ωn) 7→ (|i ∈ 1, . . . , n : ωi = 1|, . . . , |i ∈ 1, . . . , n : ωi = r|)= (Anzahl der Einsen, Anzahl der Zweien, . . . , Anzahl der ”r“-Wurfe ).

Die Verteilung von X ist charakterisiert durch

PX((n1, . . . , nr))= P (X = (n1, . . . , nr))

=∑

(Ai)i=1,...,r

Zerlegung von 1,...,nmit |Ai|=ni fur i=1,...,r

n∏i=1

Pi(ωA1,...,Ari)︸ ︷︷ ︸=p

n11 ···p

nrr

mit (ωA1,...,Ar)i := k fur i ∈ Ak

2.1.10(4b)=

n!

n1! · · ·nr!pn1

1 · · · pnrr fur n1, . . . , nr ∈ N mitn∑i=1

ni = n.

Diese Verteilung heißt Multinomialverteilung.

Definition 2.2.17 Seien n, r ∈ N∗, Ω = (n1, . . . , nr) ∈ Nr :∑r

i=1 ni = n sowiep1, . . . , pr ∈ [0, 1] mit

∑ri=1 pi = 1. Die Multinomialverteilung auf (Ω,P(Ω), P ) mit Para-

metern n, r, p1, . . . , pr ist definiert durch die Zahldichte

%((n1, . . . , nr)) =n!

n1! · · ·nr!pn1

1 · · · pnrr .

Nun zu Summen unabhangiger Zufallsgroßen:

Definition 2.2.18 Seien X, Y unabhangige Zufallsvariablen und S := X + Y . Die Vertei-lung P S heißt Faltung von PX und P Y . Schreibweise: PX ∗ P Y := P S .

Satz 2.2.19 SeienX, Y unabhangige Zufallsgroßen mit Werten in Z und %X , %Y : Z→ [0, 1]

die zu PX , P Y gehorigen Zahldichten. Dann ist

%S := Z→ [0, 1], %S(k) :=∑`∈Z

%X(`)%Y (k − `)

die Zahldichte von PX ∗ P Y . Schreibweise: %X ∗ %y := %S (Faltung von %X und %Y ).

Page 51: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 51

Beweis.

%S(k) = PX+Y (k)= P (X + Y = k)

=∑`∈Z

P (X = `, Y = k − `)

Unabh.=

∑`∈Z

P (X = `)P (Y = k − `)

=∑`∈Z

%X(`)%Y (k − `).

2.2.3 Erwartungswert und Momente

Der Erwartungswert einer Zufallsgroße ist das Mittel ihrer Werte, gewichtet mit den Wahr-scheinlichkeiten ihres Auftretens. Was bedeutet diese Zahl, denn bei einem Wurfelwurf wirdman alles mogliche ”erwarten“, aber sicher nicht, eine 3,5 zu wurfeln?Interpretation gemaß Motivation 2.1.5:

1. (Frequentistische Sichtweise). Der Erwartungswert ist das Stichprobenmittel einer

”unendlich großen“ Stichprobe.

2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten). Der Erwartungswert ist das arith-metische Mittel der Werte von X bezogen auf eine Grundgesamtheit gleichwahr-scheinlicher Ergebnisse.

Sei Ω weiterhin hochstens abzahlbar.

Definition 2.2.20 Sei X : Ω → R eine Zufallsgroße. Der Erwartungswert von X ist defi-niert als

E[X] :=∑ω∈Ω

X(ω)P (ω),

falls dies sinnvoll ist, genauer: fallsX ≥ 0 (dann gilt moglicherweise E[X] =∞) oder fallsX ∈ L 1 :⇔ E[ |X|︸︷︷︸

≥0

] <∞.

Beispiel 2.2.21 Einfacher WurfelwurfΩ = 1, . . . , 6, P sei die Laplace-Verteilung auf Ω, X : Ω→ R, ω 7→ ω.E[X] =

∑6ω=1 X(ω)P (ω) =

∑6ω=1 ω

16

= 3,5.

Satz 2.2.22 (Transformationssatz) Sei X : Ω→ R eine Zufallsgroße. Dann gilt

E[X] =∑

x∈X(Ω)

xP (X = x),

Page 52: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

52 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

falls der Ausdruck sinnvoll ist, d. h. falls X ≥ 0 oder

X ∈ L 1 ⇔∑

x∈X(Ω)

|x|P (X = x) <∞.

Allgemeiner: Fur f : R→ R gilt

E[f(X)] =∑

x∈X(Ω)

f(x)P (X = x),

falls f ≥ 0 oderf(X) ∈ L 1 ⇔

∑x∈X(Ω)

|f(x)|P (X = x) <∞.

Beweis.∑ω∈Ω

f(X(ω))P (ω) =∑

x∈X(ω)

f(x)∑

ω∈X=x

P (ω) =∑

x∈X(Ω)

f(x)P (X = x)

sowief(X) ∈ L 1 ⇔ E[|f(X)|] <∞ s.o.⇔

∑x∈X(Ω)

|f(x)|P (X = x) <∞.

Die ersten Aussagen erhalt man fur f = id, also die Abbildung f(x) = x.

Bemerkung 2.2.23 1. E[X] hangt nicht direkt von X als Abbildung ab, sondern nurvon dessen Verteilung PX auf X(Ω).

2. Fur A ⊆ Ω ist E[1A] = 0P (1A = 0) + 1P (1A = 1) = P (A).

3. Wenn PX die empirische Verteilung von x1, . . . , xn ∈ R ist (vgl. Definition 2.1.4), istder Erwartungswert E(X) gerade deren arithmetisches Mittel, vgl. Definition 1.3.1.

Satz 2.2.24 (Rechenregeln) Seien X, Y,X1, X2, . . . : Ω→ R Zufallsgroßen in L 1, c ∈ R.Dann gelten:

1. Monotonie:X ≤ Y ⇒ E[X] ≤ E[Y ],

2. Linearitat:

X + Y ∈ L 1 und E[X + Y ] = E[X] + E[Y ] sowie

cX ∈ L 1 und E[cX] = cE[X] (insbesondere E[c] = c),

3. monotone Konvergenz:

0 ≤ Xn ↑ X fur n→∞⇒ E[Xn] ↑ E[X] fur n→∞,

Page 53: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 53

4. Produktregel bei Unabhangigkeit:

X, Y unabhangig ⇒ XY ∈ L 1 und E[XY ] = E[X]E[Y ].

Beweis.

1. E[X] =∑

ω∈Ω X(ω)︸ ︷︷ ︸≤Y (ω)

P (ω) ≤∑

ω∈Ω Y (ω)P (ω) = E[Y ]

2.∑

ω∈Ω |(X + Y )(ω)|︸ ︷︷ ︸≤|X(ω)|+|Y (ω)|

P (ω) ≤∑

ω∈Ω |X(ω)|P (ω) +∑

ω∈Ω |Y (ω)|P (ω) <∞.

Bei Weglassen der Betragsstriche gilt Gleichheit und damit

E[X + Y ] = E[X] + E[Y ].

Die zweite Aussage folgt analog.

3. Aus der Monotonie folgt, dass E[Xn] ↑ c ≤ E[X] fur ein c ∈ R+. Sei nun ε > 0. SeiA ⊆ Ω mit |A| <∞ so groß, dass E[X]−

∑ω∈AX(ω)P (ω) < ε (existiert wegen

Konvergenz). Sei n so groß, dass X(ω)−Xn(ω) < ε fur alle ω ∈ A. Dann folgt

0 ≤ E[X]− E[Xn] ≤∑ω∈AC

X(ω)P (ω) +∑ω∈A

(X(ω)−Xn(ω))︸ ︷︷ ︸≤ε

P (ω)

≤ ε+ P (A)ε ≤ 2ε.

4. ∑z∈XY (Ω)

|z|P (XY = z) =∑

z∈XY (Ω),06=x∈X(Ω)

|z|P(X = x, Y =

z

x

)︸ ︷︷ ︸6=0 nur falls y:= z

x∈Y (Ω)

=∑

y∈Y (Ω)x∈X(Ω)

|xy|︸︷︷︸=|x||y|

P (X = x, Y = y)︸ ︷︷ ︸Unabh.

= P (X=x)P (Y=y)

=∑

x∈X(Ω)

|x|P (X = x)∑

y∈Y (Ω)

|y|P (Y = y) <∞.

Die gleiche Rechnung ohne Betragsstriche ergibt, dass E[XY ] = E[X]E[Y ].

Beispiel 2.2.25 Sei X binomialverteilt mit Parametern n, p (vgl. Definition 2.2.15). Dannist

E[X] =∑

k∈X(Ω)

kP (X = k) =n∑k=0

k

(n

k

)pk(1− p)n−k

= npn∑k=1

(n− 1

k − 1

)pk−1(1− p)(n−1)−(k−1) binom. Lehrs.

= np(p+ (1− p))n−1 = np.

Eine einfachere Herleitung ergibt sich aus X =∑n

i=1 πi in Beispiel 2.2.14. Wegen E(πi) =

P (πi = 1) = p fur i = 1, . . . , n folgt E(X) =∑n

i=1E(πi) =∑n

i=1 p = np aus Satz2.2.24(2).

Page 54: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

54 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Definition 2.2.26 Seien X : Ω→ R eine Zufallsgroße und p ∈ [1,∞).Man schreibt X ∈ L p, falls |X|p ∈ L 1 (d. h. falls E[|X|p] < ∞). Fur X ∈ L p heißtE[Xp] p-tes Moment von X .

Bemerkung 2.2.27 Fur p ≤ p′ gilt L p′ ⊆ L p, denn |X|p ≤ 1 + |X|p′ .

Definition 2.2.28 Seien X, Y ∈ L 2.

1. Var(X) := E[(X − E[X])2] heißt Varianz von X ,σX :=

√Var(X) heißt Streuung oder Standardabweichung von X .

2. Kov(X, Y ) := E[(X − E[X])(Y − E[Y ])] heißt Kovarianz von X und Y .

3. Im Falle σX , σY 6= 0 heißt %X,Y = Kov(X,Y )σXσY

Korrelationskoeffizient von X, Y .

4. X, Y heißen unkorreliert, falls Kov(X, Y ) = 0.

Bemerkung 2.2.29 1. Kov(X, Y ) ist definiert, denn fur X, Y ∈ L 2

E[|(X − E[X])(Y − E[Y ])|]≤ E[|XY |] + E[|E[X]Y |] + E[|XE[Y ]|] + E[|E[X]E[Y ]|]≤ E [ |XY |︸ ︷︷ ︸

≤X2+Y 2

] + 3E[|X|]E[|Y |] <∞.

2. Varianz und Streuung beschreiben, wie dicht die Zufallsgroße am Erwartungswertliegt. Kovarianz und Korrelation beschreiben die lineare Abhangigkeit von Zufalls-großen.

3. Empirische Varianz, Streuung, Kovarianz und Korrelation von Daten x1, . . . , xn inKapitel 1 sind ”fast“ Varianz, Streuung, Kovarianz und Korrelation einer Zufallsgroße,deren Verteilung die empirische Verteilung der Daten x1, . . . , xn ist. Der einzige Un-terschied besteht im Vorfaktor 1/(n− 1) anstelle von 1/n in der Definition von empi-rischer Varianz, Streuung und Kovarianz. Ein Grund dafur wird in Bemerkung 3.2.7genannt.

4. Var(X) und σX hangen nur von PX ab, vgl. Bemerkung 2.2.23.

Satz 2.2.30 (Rechenregeln) Seien X, Y,X1, . . . , Xn ∈ L 2 und a, b, c ∈ R.

1. Var(X) = E[X2]− (E[X])2

2. Kov(X, Y ) = E[XY ]− E[X]E[Y ]

3. Die Abbildung (X, Y ) 7→ Kov(X, Y ) ist bilinear und symmetrisch, d. h.

(a) Kov(X1 +X2, Y ) = Kov(X1, Y ) + Kov(X2, Y ),

Page 55: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 55

(b) Kov(cX, Y ) = cKov(X, Y ),

(c) Kov(Y,X) = Kov(X, Y ).

4. Kov(X + b, Y ) = Kov(X, Y )

5. Var(aX + b) = a2Var(X)

6. (E[XY ])2 ≤ E[X2]E[Y 2] (Cauchy-Schwarzsche Ungleichung),insbesondere (Kov(X, Y ))2 ≤ Var(X)Var(Y )

7.∑n

i=1Xi ∈ L 2 und

Var

(n∑i=1

Xi

)=

n∑i=1

Var(Xi) +n∑

i,j=1i 6=j

Kov(Xi, Xj)

Sind X1, . . . , Xn paarweise unkorreliert, gilt

Var

(n∑i=1

Xi

)=

n∑i=1

Var(Xi) (Gleichung von Bienayme).

8. X, Y unabhangig⇒ X, Y unkorreliert.

Beweis.

1. Folgt aus 2.

2. Kov(X, Y ) = E[(X − E[X])(Y − E[Y ])]

= E[XY ]− E[X]E[Y ]− E[X]E[Y ] + E[X]E[Y ]

= E[XY ]− E[X]E[Y ].

3. Kov(X1 +X2, Y )2.= E[(X1 +X2)Y ]− E[X1 +X2]E[Y ]

E[·] linear= E[X1Y ] + E[X2Y ]− E[X1]E[Y ]− E[X2]E[Y ]

= Kov(X1, Y ) + Kov(X2, Y ).Analog fur Kov(cX, Y ). Symmetrie ist klar.

4. Kov(X + b, Y ) = E[(X + b− E[X + b]︸ ︷︷ ︸=X−E[X]

)(Y − E[Y ])] = Kov(X, Y ).

5. Var(aX + b) = Kov(aX + b, aX + b)4.= Kov(aX, aX)

3.= a2Kov(X,X) = a2Var(X).

6. Fall 1: E[X2] = 0. Dann P (|X| > ε) = 0 fur ε > 0, denn

ε21|X|>ε ≤ |X|2 ⇒ ε2P (|X| > ε) = E[ε21|X|>ε] ≤ E[X2] = 0,

Page 56: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

56 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

also P (X 6= 0) = 0 (Stetigkeit von unten) und somit E[XY ] = 0.Fall 2: E[X2] 6= 0. Fur beliebige λ ∈ R gilt

0 ≤ E[(λX − Y )2] = λ2E[X2]− 2λE[XY ] + E[Y 2]

und mit λ := E[XY ]E[X2]

somit

0 ≤ (E[XY ])2

E[X2]− 2

(E[XY ])2

E[X2]+ E[Y 2]⇒ (E[XY ])2 ≤ E[X2]E[Y 2].

7. Wegen 4. konnen wir o. B. d. A. annehmen, dass E[Xi] = 0. Also

Var

(n∑i=1

Xi

)= E

( n∑i=1

Xi

)2

=n∑i=1

E[X2i ] +

n∑i,j=1i 6=j

E[XiXj]

=n∑i=1

Var(Xi) +n∑

i,j=1i 6=j

Kov(Xi, Xj).

8. Satz 2.2.24(4)

Beispiel 2.2.31 Sei X binomialverteilt mit Parametern n, p, vgl. Definition 2.2.15.

E[X2] =n∑k=0

k2

(n

k

)pk(1− p)n−k

= np

n∑k=1

k

(n− 1

k − 1

)pk−1(1− p)n−k

= npn−1∑k=0

(k + 1)

(n− 1

k

)pk(1− p)n−k−1

= np

(n−1∑k=0

k

(n− 1

k

)pk(1− p)n−1−k

︸ ︷︷ ︸=(n−1)p (Bsp. 2.2.25)

+n−1∑k=0

(n− 1

k

)pk(1− p)n−1−k

︸ ︷︷ ︸=1

)

= np((n− 1)p+ 1),

also Var(X) = E[X2]− (E[X])2 2.2.25= (np)2 − np2 + np− (np)2 = np(1− p).

Eine einfachere Berechnung der Varianz erhalt man mit X =∑n

i=1 πi in Beispiel 2.2.14.Aus Var(πi) = E(π2

i ) − E(πi)2 = P (πi = 1) − p2 = p − p2 = p(1 − p), aus der

Unabhangigkeit der πi und aus Satz 2.2.30(7) folgt Var(X) =∑n

i=1 Var(πi) = np(1− p).

Satz 2.2.32 Seien X, Y ∈ L 2 mit σX , σY 6= 0. Dann gelten:

Page 57: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 57

1. %XY ∈ [−1, 1],

2. %XY = ±1 genau dann, wenn es a ∈ R, b ∈ (0,∞) gibt mit P (Y = a± bX) = 1.

Beweis.

1. Satz 2.2.30(6).

2. ”⇐“: Kov(X, Y ) = Kov(X, a± bX)2.2.30(4)

= ±bKov(X,X) = ±bVar(X) und√Var(X)Var(Y )

2.2.30(5)=

√Var(X)b2Var(X) = bVar(X).

”⇒“. Fur X := X − E[X], Y := Y − E[Y ] gilt (E[XY ])2 = E[X2]E[Y 2]. Analogzum Beweis von 2.2.30(6) folgt

0 = E[(λX − Y )2] fur λ =E[XY ]

E[X2]= %XY

σYσX

und somit P (Y 6= λX − λE[X] + E[Y ]) = P (λX − Y 6= 0) = 0.

Bemerkung 2.2.33 Achtung: Aus der Unkorreliertheit von X, Y folgt nicht, dass X, Y un-abhangig sind!Seien beispielsweise P (X = −1) = P (X = 0) = P (X = 1) = 1/3, Y := X2.P (X = 1, Y = 1) = P (X = 1) = 1/3 6= 2/9 = (1/3)(2/3) = P (X = 1)P (Y = 1), alsosind X, Y nicht unabhangig.Aber Kov(X, Y ) = E[XY ] − E[X]E[Y ] = 1/3 + 0 − 1/3 − 0(2/3) = 0, also sind X, Yunkorreliert.

Nun zum mehrdimensionalen Fall:

Definition 2.2.34 Sei X = (X1, . . . , Xn) eine Rn-wertige Zufallsvariable.

1. Im Fall X1, . . . , Xn ∈ L 1 heißt

E[X] = (E[X1], . . . , E[Xn]) ∈ Rn

Erwartungswertvektor von X .

2. Im Fall X1, . . . , Xn ∈ L 2 ist die Kovarianzmatrix Kov(X) ∈ Rn×n definiert durch

Kov(X)ij := Kov(Xi, Xj).

Satz 2.2.35 Seien X eine Rn-wertige Zufallsvariable, A ∈ Rm×n, b ∈ Rm. Dann gelten:

1. X1, . . . , Xn ∈ L 1 ⇒ E[AX + b] = AE[X] + b,

2. X1, . . . , Xn ∈ L 2 ⇒ Kov(AX + b) = AKov(X)AT ,

3. X1, . . . , Xn ∈ L 2 ⇒ Kov(X) ist symmetrisch und positiv semidefinit.

Page 58: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

58 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beweis.

1. Satz 2.2.24(2).

2. Kov(AX + b)ij = Kov(∑n

k=1AikXk + bi,∑n

l=1 AjlXl + bj)2.2.30=∑n

k,l=1 AikAjlKov(Xk, Xl) = (AKov(X)AT )ij .

3. Symmetrie ist klar. Fur a ∈ Rn gilt aTKov(X)a2.= Kov(aTX, aTX) = Var(aTX) ≥

0, also ist Kov(X) auch positiv semidefinit.

Nutzlich fur konkrete Berechnungen:

Definition 2.2.36 Sei P ein Wahrscheinlichkeitsmaß auf (N,P(N)) mit Zahldichte %. DieFunktion ϕP : [0, 1]→ R mit

ϕP (s) :=∞∑k=0

%(k)sk

heißt erzeugende Funktion von P .

Bemerkung 2.2.37∑∞

k=0 %(k) = 1 <∞⇒ ϕP endlich und auf [0, 1) unendlich oft diffe-renzierbar.

Beispiel 2.2.38 1. P Gleichverteilung auf 1, . . . , n:ϕP (s) = 1

n(s+ s2 + · · ·+ sn)

2. P Binomialverteilung mit Parametern n, p:ϕP (s) =

∑nk=0

(nk

)pk(1− p)n−ksk = (ps+ (1− p))n

3. P Poisson-Verteilung mit Parameter λ:ϕP (s) =

∑∞k=0 e

−λ(λk/k!)sk = e−λ(1−s)

Bezeichnung 2.2.39 IstX eine N-wertige Zufallsgroße, nennt man ϕX := ϕPX erzeugendeFunktion von X .

Bemerkung 2.2.40 ϕX(s) =∑∞

k=0 P (X = k)sk = E[sX ] fur s ∈ [0, 1].

Satz 2.2.41 1. Sei P Wahrscheinlichkeitsverteilung auf N mit Zahldichte %. Dann gilt

%(k) =1

k!ϕ

(k)P (0), k ∈ N,

wobei ϕ(k)P die k-te Ableitung sei. Insbesondere ist P durch ϕP eindeutig bestimmt.

2. Sei X eine N-wertige Zufallsgroße. Dann gelten:

(a) X ∈ L 1 ⇔ ϕ′X(1−) := lims↑1 ϕ′X(s) existiert ⇔ ϕ′X(1) existiert.

In diesem Fall ist E[X] = ϕ′X(1).

Page 59: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 59

(b) X ∈ L 2 ⇔ ϕ′′X(1−) := lims↑1 ϕ′′X(s) existiert.

In diesem Fall ist Var(X) = ϕ′′X(1)− (E[X])2 + E[X].

Beweis.

1. Analysis, z. B. Heuser, Analysis I, 64.2.

2. (a)

(ϕ′X(1) =) lims↑1

ϕX(1)− ϕX(s)

1− s= lim

s↑1

∞∑k=0

%(k)1− sk

1− s

= lims↑1

∞∑k=0

%(k)k−1∑j=0

sj = sups<1

supn∈N

n∑k=0

%(k)k−1∑j=0

sj

= supn∈N

n∑k=0

%(k)k =∞∑k=0

%(k)k (= E[X])

= lims↑1

∞∑k=0

%(k)ksk−1 = lims↑1

ϕ′X(s).

(b) Analog zu (a):

lims↑1

ϕ′X(1)− ϕ′X(s)

1− s=∞∑k=1

%(k)k(k − 1)

= lims↑1

∞∑k=2

%(k)k(k − 1)sk−2 = lims↑1

ϕ′′(s),

insbesondere im Fall X ∈ L 2:ϕ′′X(1) = E[X2 −X] = Var(X) + (E[X])2 − E[X] = lims↑1 ϕ

′′X(s).

Beispiel 2.2.42 Sei X Poisson-verteilt mit Parameter λ.Dann sind E[X] = ∂

∂se−λ(1−s)|s=1 = λ und Var(X) = ∂2

∂s2e−λ(1−2)|s=1 − λ2 + λ = λ.

Satz 2.2.43 Seien X, Y unabhangige N-wertige Zufallsgroßen. Dann gilt

ϕX+Y (s) = ϕX(s)ϕY (s), s ∈ [0, 1].

Beweis. ϕX+Y (s) = E[sX+Y ] = E[sXsY ]2.2.24(4)

= E[sX ]E[sY ] = ϕX(s)ϕY (s).

Korollar 2.2.44 Seien P1, P2 Verteilungen auf N. Dann gilt

ϕP1∗P2(s) = ϕP1(s)ϕP2(s), s ∈ [0, 1].

Beweis. Definition der Faltung 2.2.18.

Page 60: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

60 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beispiel 2.2.45 1. Sind P1, P2 Binomialverteilungen mit Parametern m, p bzw. n, p, soist P1∗P2 eine Binomialverteilung mit Parametern (m+n), p (nach Beispiel 2.2.38(2)und Korollar 2.2.44). Anders formuliert ist die Summe unabhangiger binomialverteil-ter Zufallsgroßen mit gleichem Erfolgsparameter wieder binomialverteilt.

2. Sind P1, P2 Poisson-Verteilungen mit Parametern λ1 bzw. λ2, so ist P1 ∗ P2 Poisson-verteilt mit Parameter λ1 +λ2 (nach Beispiel 2.2.38(3) und Korollar 2.2.44). Somit istdie Summe unabhangiger Poisson-verteilter Zufallsgroßen mit gleichem Erfolgspara-meter wieder Poisson-verteilt.

2.2.4 Zufallsvariablen im allgemeinen Fall

Wir mochten unsere Theorie nun auf uberabzahlbare Ω ubertragen. Dabei ergeben sich fol-gende Probleme:

• P (X ∈ B) = P (X−1(B)) ist eventuell nicht definiert fur das Wahrscheinlichkeits-maß P : F → R+, denn im Allgemeinen ist F 6= P(Ω);

• E[X] =∑

ω∈Ω X(ω)P (ω) ergibt fur uberabzahlbares Ω keinen Sinn.

Auf maßtheoretische Beweise verzichten wir in dieser Einfuhrung.

Definition 2.2.46 (vgl. Definition 2.2.1)Seien (Ω,F ), (Ω′,F ′) Ereignisraume.X : Ω→ Ω′ heißt (F -F ′)-messbar, fallsX−1(A′) ∈ F fur alleA′ ∈ F ′ (Urbilder messba-rer Mengen sind messbar). Falls (Ω,F , P ) ein Wahrscheinlichkeitsraum ist, heißen mess-bare X Zufallsvariablen, falls zusatzlich (Ω′,F ′) = (R,B), auch Zufallsgroßen.

Bemerkung 2.2.47 1. Es reicht, X−1(A′) ∈ F fur alle A′ aus dem Erzeuger von F ′ zuzeigen.

2. A ∈ F ⇒ 1A : Ω→ R ist messbar.Summen, Produkte, inf, sup, lim inf, lim sup und Hintereinanderausfuhrungen mess-barer Abbildungen sind messbar.Stetige Abbildungen sind Borel-messbar (d. h. messbar bezuglich der Borel-σ-Algebra).Faustregel: Messbarkeit ist kein kritischer Punkt.

Satz 2.2.48 (vgl. Satz 2.2.4)Sei X : (Ω,F , P )→ (Ω′,F ′) eine Zufallsvariable, d. h. (Ω,F , P ) ist ein Wahrscheinlich-keitsraum, (Ω′,F ′) ein Ereignisraum, und X ist messbar. Dann definiert

PX(A′) := P (X−1(A′)) = P (X ∈ A′), A′ ∈ F ′

ein Wahrscheinlichkeitsmaß PX auf (Ω′,F ′) (allgemeiner: ein Maß PX , falls P ein Maßist).

Page 61: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 61

Beweis. Die Funktion ist wohldefiniert, da X−1(A′) ∈ F . Rest wie in Satz 2.2.4.

Definition 2.2.49 (vgl. Definition 2.2.5)Die Verteilung von X , das Bildmaß von P unter X (auch falls P nur Maß) und identischverteilt werden genau wie im abzahlbaren Fall definiert.

Definition 2.2.50 (vgl. Definition 2.2.10)Seien I 6= ∅ eine Indexmenge und Xi : (Ω,F , P ) → (Ωi,Fi) Zufallsvariablen fur allei ∈ I .(Xi)i∈I heißt unabhangig, falls

P

(⋂i∈J

Xi ∈ Bi

)=∏i∈J

P (Xi ∈ Bi)

fur alle nichtleeren, endlichen J ⊆ I und alle Bi ∈ Fi, i ∈ J .

Bemerkung 2.2.51 1. (vgl. Satz 2.2.11)Statt allerBi ∈ Fi reicht es, alleBi aus einem ∩-stabilen Erzeuger von Fi zu betrach-ten. Beispielsweise sind Zufallsgroßen X1, . . . , Xn genau dann unabhangig, wenn

P (X1 ≤ c1, . . . , Xn ≤ cn) =n∏i=1

P (Xi ≤ ci)

fur alle c1, . . . , cn ∈ [−∞,∞]. (Es reichen sogar c1, . . . , cn ∈ R.)

2. Ist (Xi)i∈I unabhangig, ist auch (fi(Xi))i∈I unabhangig, falls fi messbare Funktionensind. Ferner sind auch ”Kombinationen“ der Xi unabhangig. Beispielsweise folgt ausder Unabhangigkeit von X1, . . . , X5, dass auch (X1 + X2, X3,

√X4X5) unabhangig

ist.

Satz 2.2.52 (vgl. Satz 2.2.12)Seien Xi : (Ω,F , P ) → (Ωi,Fi), i ∈ I Zufallsvariablen. Definiere X := (Xi)i∈I : Ω →∏

i∈I Ωi, vgl. Bemerkung 2.1.36(3). Dann gilt:

(Xi)i∈I unabhangig ⇔ PX =⊗i∈I

PXi .

(PX ,⊗

i∈I PXi sind Wahrscheinlichkeitsmaße auf (

∏i∈I Ωi,

⊗i∈I Fi), vgl. Bemerkung

2.1.36(3))

Bemerkung 2.2.53 Bemerkung 2.2.13 (unabhangige Versuchswiederholung) gilt entspre-chend. Sie ist auch fur unendliche Versuchswiederholungen sinnvoll. Die Modellierung er-folgt via (

∏i∈I Ωi,

⊗i∈I Fi,

⊗i∈I Pi), wobei (Ωi,Fi, Pi) das Einzelexperiment mit Num-

mer i beschreibt.

Page 62: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

62 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beispiel 2.2.54 (vgl. Beispiel 2.2.14)Folge unendlich vieler Wurfe einer p-Munze mit p ∈ (0, 1].Ωi = 0, 1, Pi(1) = p = 1− Pi(0), i = 1, 2, . . .

Die 0 wird als Misserfolg, die 1 als Erfolg interpretiert.(Ω,F , P ) := (

∏∞i=10, 1,

⊗∞i=1 P(0, 1),

⊗∞i=1 Pi)

Hierbei ist∏∞

i=10, 1 =: 0, 1N∗ die Menge aller Abbildungen N∗ → 0, 1.Die Zufallsgroße Xr beschreibe fur r ∈ N die Zahl der Misserfolge bis zum r-ten Erfolg,d. h.

Xr : Ω→ N, ω 7→ inf

k ∈ N :

k∑i=1

ωi = r

− r

(insbesondere ist X1 die Wartezeit bis zum ersten Erfolg). Dann gilt

P (Xr = k) = P

(ω ∈ Ω: ωk+r = 1,

k+r−1∑i=1

ωi = r − 1

)=

∑A⊆1,...,k+r−1|A|=r−1

P (ω ∈ Ω: ωi = 1 fur i ∈ A ∪ k + r,ωi = 0 fur i ∈ 1, . . . , k + r − 1 \ A)

Unabh.=

∑A⊆1,...,k+r−1|A|=r−1

pr(1− p)(k+r−1)−(r−1)

=

(k + r − 1

r − 1

)pr(1− p)k, k ∈ N.

Diese Verteilung heißt negative Binomialverteilung und fur r = 1 geometrische Verteilung.

Definition 2.2.55 Seien p ∈ (0, 1), r ∈ N∗. Die negative Binomialverteilung oder Pascal-Verteilung mit Parametern r, p auf (N,P(N)) ist definiert durch die Zahldichte

%(k) :=

(k + r − 1

r − 1

)pr(1− p)k, k ∈ N.

Fur r = 1 heißt die Verteilung geometrische Verteilung mit Parameter p.

Beispiel 2.2.56 Sei P die negative Binomialverteilung mit Parametern r, p.

1. Erzeugende Funktion:

ϕP (s) =∞∑k=0

(k + r − 1

r − 1

)︸ ︷︷ ︸

=(k+r−1k )=(−rk )(−1)k

pr(1− p)ksk

= pr∞∑k=0

(−rk

)(−s(1− p))k

=

(p

1− (1− p)s

)r.

(Binomische Reihe: (1 + x)α =∑∞

k=0

(αk

)xk)

Page 63: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 63

2. Folgerung: Seien P1, P2 negative Binomialverteilungen mit Parametern r1, p bzw.r2, p. Dann ist P1 ∗ P2 eine negative Binomialverteilung mit Parametern r1 + r2, p

(nach Korollar 2.2.44).

3. Sei X negativ binomialverteilt mit Parametern r, p. Dann gelten

E[X]2.2.41=

∂s

(p

1− (1− p)s

)r∣∣∣∣s=1

= r(1− p)pr(1− (1− p)s)−r−1|s=1

= r1− pp

= r

(1

p− 1

),

Var(X)2.2.41=

∂2

∂s2

(p

1− (1− p)s

)r∣∣∣∣s=1

− r2(1− p)2

p2+r(1− p)

p

= r(r + 1)(1− p)2pr(1− (1− p)s)−r−2∣∣s=1︸ ︷︷ ︸

=r(r+1)(1−r)2p2

−r2(1− p)2

p2+r(1− p)

p

= r1− pp2

.

Man beachte, dass Erwartungswert und Varianz proportional zu r sind. Dies ist auchzu erwarten, wenn man die Wartezeit auf den r-ten Erfolg als unabhangige Summevon r Wartezeiten jeweils auf den nachsten Erfolg versteht.

Nun zum Erwartungswert mittels Lebesgue-Integration:

Definition 2.2.57 (vgl. Definition 2.2.20)Sei (Ω,F , P ) ein Wahrscheinlichkeitsraum (oder allgemeiner ein Maßraum). X : Ω → Rheißt elementar, falls

X =n∑i=1

ai1Ai

mit a1, . . . , an ∈ R+, A1, . . . , An ∈ F . (Die Mengen A1, . . . , An konnen in diesem Falldisjunkt gewahlt werden.)

1. Definiere das Integral fur solche X als gewichteten Mittelwert:

∫X dP :=

n∑i=1

aiP (Ai)

=∑

x∈X(Ω)

xP (X = x)

.

2. Sei X : Ω→ R eine Zufallsgroße (bzw. messbar) mit X ≥ 0. Definiere das Integral∫X dP := sup

∫Y dP : Y elementar mit Y ≤ X

.

Page 64: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

64 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. Sei X : Ω → R eine Zufallsgroße (bzw. messbar) mit∫X+ dP < ∞ oder∫

X− dP < ∞ im Sinne von 2., wobei X+ := max0, X, X− := max0,−X.Definiere das Integral ∫

X dP :=

∫X+ dP −

∫X− dP.

X heißt integrierbar, falls∫|X| dP <∞ (oder aquivalent dazu, falls

∫X+ dP <∞

und∫X− dP <∞). Schreibweise: X ∈ L 1

4. Seien X : Ω → R eine Zufallsgroße (bzw. messbar) wie in 2. oder 3. und A ∈ F .Definiere das Integral ∫

A

X dP :=

∫X1A dP.

Bezeichnung 2.2.58 1. Man schreibt auch∫X dP =:

∫X(ω)P (dω).

2. Im Fall P = λ (Lebesguemaß) sei∫Af(x) dx :=

∫Af dλ. Dieses Lebesgue-Integral

stimmt mit dem (eigentlichen) Riemann-Integral uberein, falls letzteres existiert.

3. Fur Wahrscheinlichkeitsmaße P schreibt manE[X] :=∫X dP und nennt das Integral

Erwartungswert von X , vgl. Definition 2.2.20 und Satz 2.2.22.

Eigenschaften 2.2.59 (vgl. Satz 2.2.24)

1. Fur hochstens abzahlbares Ω entspricht der Erwartungswert dem Erwartungswert ausDefinition 2.2.20.Begrundung fur endliches Ω und X ≥ 0:

X =∑ω∈Ω

X(ω)1ω2.2.57(1)⇒

∫X dP =

∑ω∈Ω

X(ω)P (ω)

oderX =

∑x∈X(Ω)

x1X=x2.2.57(1)⇒

∫X dP =

∑x∈X(Ω)

xP (X = x).

2.∫X dP ist wohldefiniert.

3. X 7→∫X dP ist linear und monoton.

4. Falls X,X1, X2, . . . messbar und nichtnegativ sind mit Xn ↑ X fur n→∞, gilt∫Xn dP ↑n→∞

∫X dP (monotone Konvergenz).

5. Falls X,X1, X2, . . . messbar sind mit Xn → X fur n → ∞ (punktweise) und∫supn |Xn| dP <∞, gilt∫

Xn dPn→∞−−−→

∫X dP (majorisierte Konvergenz).

Page 65: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 65

Satz 2.2.60 (Transformationssatz) (vgl. Satz 2.2.22)Seien X : (Ω,F , P ) → (Ω′,F ′) und die Funktion f : (Ω′,F ′) → (R,B) messbar. Danngilt ∫

f(X) dP =

∫f dPX ,

falls der Ausdruck definiert ist, d. h. f ≥ 0 oder∫|f(X)| dP <∞ (⇔

∫|f | dPX <∞).

Bemerkung 2.2.61 (vgl. Bemerkung 2.2.23(1))Insbesondere gilt E[X] =

∫X dP =

∫xPX(dx), d. h. der Erwartungswert hangt nur von

PX ab.

Satz 2.2.62 (vgl. Satz 2.2.22)Sei P ein Wahrscheinlichkeitsmaß auf (R,B) mit Lebesgue-Dichte %, vgl. Satz 2.1.25. Danngilt

P (B) =

∫B

%(x) dx, B ∈ B.

mit dem Integral aus Bezeichnung 2.2.58(2). Allgemeiner:∫f dP =

∫f(x)%(x) dx

fur f : (R,B)→ (R,B) mit f ≥ 0 oder∫|f | dP <∞ (⇔

∫|f(x)|%(x) dx <∞).

Beispiel 2.2.63 1. Sei X eine auf [a, b] gleichverteilte Zufallsgroße, d. h. PX ist dieGleichverteilung auf [a, b]. Dann ist

E[X]2.2.61=

∫xPX(dx)

2.2.62=

∫x%(x) dx mit %(x) =

1

b− a1[a,b](x)

=

∫[a,b]

x1

b− adx =

1

b− a

∫ b

a

x dx

=1

b− ax2

2

∣∣∣∣bx=a

=b2 − a2

2(b− a)

=a+ b

2.

2. Sei X eine exponentialverteile Zufallsgroße mit Parameter λ, d. h. PX ist exponenti-alverteilt mit Parameter λ. Dann ist

E[X]2.2.61=

∫xPX(dx)

2.2.62=

∫x%(x) dx mit %(x) = 1R+(x)λe−λx

=

∫ ∞0

xλe−λx dx

= −xe−λx∣∣∞x=0

+

∫ ∞0

e−λx dx

= 0− 1

λe−λx

∣∣∣∣∞x=0

=1

λ.

Page 66: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

66 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. Allgemein also: Ist X eine Zufallsgroße, deren Verteilung Lebesgue-Dichte % hat undist f : R→ R messbar, gilt

E[f(X)] =

∫f(x)%(x) dx,

falls der Erwartungswert existiert, denn

E[f(X)]Def.=

∫f(X) dP

2.2.60=

∫f dPX 2.2.62

=

∫f(x)%(x) dx.

Vergleiche im Diskreten:

E[f(X)]2.2.22=

∑x∈X(Ω)

f(x)P (X = x) =∑

x∈X(Ω)

f(x)%(x),

falls % die Zahldichte der Verteilung von X ist.

Bemerkung 2.2.64 L p, p-te Momente, Varianz, Streuung, Standardabweichung, Kovari-anz, Korrelationskoeffizient, Unkorreliertheit, Erwartungswertvektor und Kovarianzmatrixwerden wie in Definitionen 2.2.26, 2.2.28, 2.2.34 definiert. Die Rechenregeln und Bemer-kungen 2.2.23, 2.2.24, 2.2.27, 2.2.29, 2.2.30, 2.2.32, 2.2.33, 2.2.35 gelten mit denselbenBeweisen auch allgemein.

Beispiel 2.2.65 Sei X exponentialverteilt mit Parameter λ. Dann ist

E[X2]2.2.63(3)

=

∫ ∞0

x2λe−λx dx = −x2e−λx∣∣∞x=0

+

∫ ∞0

2xe−λx dx

= 0 +2

λ

∫ ∞0

xλe−λx dx2.2.63(2)

=2

λ

1

λ

=2

λ2

und somitVar(X) = E[X2]− (E[X])2 2.2.63(2)

=2

λ2− 1

λ2=

1

λ2.

Zur Integration von Produktmaßen:

Satz 2.2.66 (Satz von Fubini) Seien (Ω1,F1, P1), (Ω2,F2, P2) Wahrscheinlichkeitsraumeund f : Ω1 × Ω2 → R mit f ≥ 0 oder f ∈ L 1(P1 ⊗ P2). Dann gilt∫

f d(P1 ⊗ P2) =

∫∫f(ω1, ω2)P2( dω2)P1( dω1)

=

∫∫f(ω1, ω2)P1( dω1)P2( dω2).

Insbesondere fur A ∈ F1 ⊗F2:

(P1 ⊗ P2)(A) =

∫∫1A(ω1, ω2)P2( dω2)P1( dω1)

=

∫∫1A(ω1, ω2)P1( dω1)P2( dω2).

Page 67: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.2. ZUFALLSVARIABLEN 67

Bemerkung 2.2.67 Satz 2.2.66 gilt nicht nur fur Wahrscheinlichkeitsmaße, sondern auchfur die meisten anderen Maße, beispielsweise das Lebesguemaß, d. h.∫

R2

f(x) dx =

∫∫f(x1, x2) dx1 dx2 =

∫∫f(x1, x2) dx2 dx1.

Beispiel 2.2.68 1. Sie schalten zwei Gluhbirnen ein, deren Lebensdauern unabhangigexponentialverteilt sind mit Parametern λ1, λ2. Mit welcher Wahrscheinlichkeit ist dieerste Gluhbirne zuerst defekt? Seien X1, X2 die Lebensdauer der jeweiligen Gluhbir-ne. Dann gilt

P (X1 ≤ X2) = P ((X1, X2) ∈ x ∈ R2 : x1 ≤ x2)= P (X1,X2)(x ∈ R2 : x1 ≤ x2)

Unabh.= (PX1 ⊗ PX2)(x ∈ R2 : x1 ≤ x2)

(2.2.66)=

∫∫1x∈R2 : x1≤x2(x1, x2)PX1( dx1)PX2( dx2)

(2.2.61)=

∫ ∞0

∫ x2

0

1R+(x1)λ1e−λ1x1 dx1 1R+(x2)λ2e

−λ2x2 dx2

=

∫ ∞0

(−e−λ1x1)∣∣x2

x1=0λ2e

−λ2x2 dx2

=

∫ ∞0

(1− e−λ1x2)λ2e−λ2x2 dx2

= 1 +

(λ2

λ1 + λ2

e−(λ1+λ2)x2

)∣∣∣∣∞x2=0

= 1− λ2

λ1 + λ2

=λ1

λ1 + λ2

.

2. Seien X1, X2 unabhangige Zufallsgroßen mit Verteilungsdichten %1, %2 und seif : R2 → R (vgl. Beispiel 2.2.63(3)). Dann gilt

E[f(X1, X2)] =

∫∫f(x1, x2)%1(x1) dx1%2(x2) dx2.

Insbesondere fur A ⊆ R2:

P ((X1, X2) ∈ A) =

∫∫1A(x1, x2)%1(x1) dx1%2(x2) dx2.

Fur diskrete Zufallsgroßen mit Zahldichten %1, %2 vereinfacht sich dies zu

E[f(X1, X2)] =∑

(x1,x2)∈(X1,X2)(Ω)

f(x1, x2) P ((X1, X2) = (x1, x2))︸ ︷︷ ︸Unabh.

= P (X1=x1)P (X2=x2)=%1(x1)%2(x2)

=∑

x2∈X2(Ω)

∑x1∈X1(Ω)

f(x1, x2)%1(x1)%2(x2).

Page 68: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

68 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Motivation 2.2.69 Die Summe unabhangiger Zufallsgroßen mit Dichten hat eine Dichte,die man durch Integration berechnen kann.

Satz 2.2.70 (vgl. Satz 2.2.19)Seien X, Y unabhangige Zufallsgroßen mit zugehorigen Verteilungsdichten %X , %Y : R →R+. Dann ist %S : R→ R+ mit

%S(x) =

∫%X(z)%Y (x− z) dz

die Dichte von PX ∗ P Y , also die Verteilungsdichte von S = X + Y .Schreibweise: %X ∗ %Y := %S (Faltung von %X und %Y ).

Beweis. Seien X, Y unabhangig, S := X + Y .Sei F die Verteilungsfunktion von PX ∗ P Y = PX+Y = P S . Dann gilt

F (t) = P (S ≤ t) = P (X + Y ≤ t)

= P ((X, Y ) ∈ (x, y) ∈ R2 : x+ y ≤ t)2.2.68(2)

=

∫ ∫1x+y≤t%Y (y) dy %X(x) dx

=

∫ ∞−∞

∫ t−x

−∞%Y (y) dy %X(x) dx

=

∫ t

−∞

∫ ∞−∞

%Y (z − x)%X(x) dx dz,

also

%S(t)2.1.33=

∂tF (t)

HDI=

∫ ∞−∞

%Y (t− x)%X(x) dx.

Definition 2.2.71 Sei F : R → [0, 1] die Verteilungsfunktion einer Verteilung auf (R,B)

(z. B. der Verteilung einer Zufallsgroße X). Dann heißt F← : (0, 1)→ R mit

p 7→ infx ∈ R : F (x) ≥ p

verallgemeinerte Inverse oder Quantilfunktion von F .

Bemerkung 2.2.72 1. F← ist linksseitig stetig;

2. F← = F−1|(0,1) falls F streng monoton und stetig;

3. F←(p) ≤ t⇔ p ≤ F (t) fur alle t ∈ R, p ∈ (0, 1).

Definition 2.2.73 Sei F die Verteilungsfunktion einer Verteilung P auf (R,B), etwa dieVerteilung einer Zufallsgroße X .

Page 69: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.3. GRENZWERTSATZE 69

1. Jede Zahl m ∈ [F←(12), F←(1

2+)] heißt Median von P bzw. X , wobei

F←(p+) := limq↓p F←(q).

2. Fur p ∈ (0, 1) heißt jede Zahl q ∈ [F←(p), F←(p+)] p-Quantil von P bzw. X .

Bemerkung 2.2.74 1. q ist ein p-Quantil von X genau dann wenn P (X ≤ q) ≥ p undP (X ≥ q) ≥ 1− p.

2. Der Median ist gerade das 1/2-Quantil, 1/4- und 3/4-Quantile heißen untere bzw. obereQuartile.

Beispiel 2.2.75 1. Wenn F die empirische Verteilungsfunktion von x1, . . . , xn ∈ R ist,entsprechen Median und p-Quantil bis auf die spezielle Wahl denen aus den Defini-tionen 1.3.3 und 1.3.8.

2. Sei X exponentialverteilt mit Parameter λ > 0 (beispielsweise Lebensdauer einesradioaktiven Teilchens). X hat die Verteilungsfunktion

F (t) = P (X ≤ t)2.1.30(1)

= 1− e−λt,

also F←(p) = − 1λ

log(1− p).Der eindeutige Median (Halbwertszeit) von X ist somit

m = −1

λlog

(1

2

)=

1

λlog(2)

(6= 1

λ= E[X]

).

Definition 2.2.76 Sei X eine Zufallsgroße, deren Verteilung die Zahldichte oder Lebesgue-Dichte % hat. Falls % ein eindeutiges Maximum bei x0 ∈ R hat, heißt x0 Modus oder Modal-wert von X .

2.3 Grenzwertsatze

2.3.1 Konvergenzbegriffe

Frage: Wie verhalten sich stochastische Experimente im Limes, z. B. wenn Versuche oft wie-derholt werden? Gesetze der großen Zahlen etwa besagen, dass bei haufiger Versuchswie-derholung das arithmetische Mittel gegen den Erwartungswert konvergiert (bzw. die relativeHaufigkeit gegen die entsprechende Wahrscheinlichkeit). Allerdings ist nicht von vornhereinklar, in welchem Sinne Konvergenz bei Folgen von Zufallsgroßen zu verstehen ist.

Definition 2.3.1 Seien X,X1, X2, . . . : (Ω,F , P )→ (R,B) Zufallsgroßen.

Page 70: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

70 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

1. (Xn)n∈N∗ konvergiert stochastisch (oder in Wahrscheinlichkeit) gegenX , falls fur alleε > 0

P (|Xn −X| ≤ ε)n→∞−−−→ 1.

(Schreibweise: XnP−→ X).

2. (Xn)n∈N∗ konvergiert P -fast sicher gegen X , falls

P (Xn → X fur n→∞) = 1.

Bemerkung 2.3.2 1. Fast sichere Konvergenz impliziert stochastische Konvergenz. Wirbetrachten in dieser Vorlesung nur stochastische Konvergenz.

2. Es gibt weitere Begriffe, wie z. B.

Xn → X in L p :⇔ E[|Xn −X|p]n→∞−−−→ 0.

Diese betrachten wir in dieser Vorlesung nicht.

Definition 2.3.3 Seien X,X1, X2, . . . Zufallsgroßen mit zugehorigen Verteilungsfunktio-nen FX , FX1 , FX2 , . . .

Die Folge (Xn)n∈N∗ konvergiert in Verteilung gegen X (bzw. (PXn)n∈N∗ konvergiertschwach gegen PX), falls

FXn(c)n→∞−−−→ FX(c)

fur alle c ∈ R, in denen FX stetig ist.Schreibweisen: Xn

L−→ X , Xnd−→ X , Xn

D−→ X fur n→∞.

Bemerkung 2.3.4 1. Verteilungskonvergenz hangt nur von der Folge der VerteilungenPX1 , PX2 , . . . ab. Die Zufallsgroßen selbst brauchen in keiner Beziehung zueinanderzu stehen.

2. Man kann zeigen:Xn → X in Verteilung ⇔ E[f(Xn)] → E[f(X)] fur alle stetigen, beschranktenFunktionen f : R→ R.

Satz 2.3.5 Seien X,X1, X2, . . . N-wertige Zufallsgroßen mit VerteilungsfunktionenFX , FX1 , FX2 , . . . . Die folgenden Aussagen sind aquivalent:

1. Xn → X in Verteilung,

2. FXn(c)n→∞−−−→ FX(c) fur alle c ∈ R,

Page 71: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.3. GRENZWERTSATZE 71

3. P (Xn = k)n→∞−−−→ P (X = k) fur alle k ∈ N

(d. h. punktweise Konvergenz der Zahldichten von PXn).

Beweis. 2⇒ 1: klar1⇒ 3:

P (Xn = k) = PXn

((k − 1

2, k +

1

2

])= FXn

(k +

1

2

)− FXn

(k − 1

2

)n→∞−−−→ FX

(k +

1

2

)− FX

(k − 1

2

)= P (X = k), k ∈ N

3⇒ 2:

FXn(c) =

[c]∑k=0

P (Xn = k)n→∞−−−→

[c]∑k=0

P (X = k) = FX(c)

Satz 2.3.6 Falls XnP−→ X , dann auch Xn → X in Verteilung.

Beweis. Seien η > 0 und c ein Stetigkeitspunkt von FX . Dann gilt

FXn(c)− FX(c) = P (Xn ≤ c)− P (X ≤ c)

≤ P (X ≤ c+ ε)− P (X ≤ c)︸ ︷︷ ︸< η

2fur kleines ε

+P (|Xn −X| > ε)︸ ︷︷ ︸< η

2fur großes n(ε)

< η

fur großes n. Analog: FXn(c)− FX(c) > −η fur großes n.

2.3.2 Gesetze der großen Zahlen

Nun zur eingangs erwahnten Konvergenz:

Satz 2.3.7 (Markow-Ungleichung) Seien X eine Zufallsgroße und f : R+ → R+ monotonwachsend mit f(x) > 0 fur x > 0. Dann gilt

P (|X| ≥ ε) ≤ E[f(|X|)]f(ε)

, ε > 0.

Beweis. E[f(|X|)] ist definiert, da f(|X|) ≥ 0. Weiter ist f(ε)1|X|≥ε ≤ f(|X|) und somit

f(ε)P (|X| ≥ ε) = E[f(ε)1|X|≥ε] ≤ E[f(|X|)].

Korollar 2.3.8 (Tschebyschow-Ungleichung) Fur X ∈ L 2 und ε > 0 gilt

P (|X − E[X]| ≥ ε) ≤ Var(X)

ε2.

Page 72: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

72 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beweis. Satz 2.3.7 fur X ′ := X − E[X] und f(x) := x2.

Satz 2.3.9 (Schwaches Gesetz der großen Zahlen) Seien X1, X2, . . . unabhangige, iden-tisch verteilte Zufallsgroßen in L 2. Dann gilt

1

n

n∑i=1

XiP−→ E[X1]

fur n→∞.

Beweis. Fur Yn := 1n

∑ni=1 Xi gilt

E[Yn] =1

n

n∑i=1

E[Xi] = E[X1],

Var(Yn)2.2.30=

1

n2

n∑i=1

Var(Xi) =1

nVar(X1),

also folgt

P

(∣∣∣∣∣ 1nn∑i=1

Xi − E[X1]

∣∣∣∣∣ > ε

)= P (|Yn − E[Yn]| > ε)

2.3.8

≤ Var(X1)

ε2

1

n→ 0

fur n→∞.

Korollar 2.3.10 Seien X1, X2, . . . unabhangige, identisch verteilte Zufallsgroßen und A ∈B. Dann gilt

1

n

n∑i=1

1A(Xi)︸ ︷︷ ︸rel. Haufigkeit

P−→ PX1(A)︸ ︷︷ ︸Wahrscheinlichkeit

fur n→∞.

Beweis. PX1(A) = P (X−11 (A)) = E[1X−1(A)] = E[1A(X1)]

Beispiel 2.3.11 Seien X1, X2, . . . unabhangig und auf 1, . . . , 6 gleichverteilt (Wurfel-wurfe). Dann gelten

1

n

n∑i=1

XiP−→ E[X1] = 3,5

sowie1

n

n∑i=1

1k(Xi)P−→ P (X1 = k) =

1

6, k = 1, . . . , 6.

Bemerkung 2.3.12 1. In 2.3.9 und 2.3.10 genugt es, statt Unabhangigkeit paarweiseUnabhangigkeit oder im Falle von Satz 2.3.3 sogar nur paarweise Unkorreliertheit zufordern. Der Beweis bleibt gleich.

Page 73: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.3. GRENZWERTSATZE 73

2. 2.3.9 und 2.3.10 gelten sogar mit fast sicherer anstelle von stochastischer Konvergenz.Satz 2.3.9 heißt dann starkes Gesetz der großen Zahlen.

3. Konkrete Abschatzungen erhalt man beispielsweise mit der Tschebyschow-Ungleichung. Diese sind jedoch oft sehr grob.

4. Das Gesetz der großen Zahlen ist einer der wichtigsten Satze der Stochastik. Es sorgtdafur, dass man trotz Zufall oft ohne Stochastik auskommt, da mit Erwartungswertengerechnet werden kann.

2.3.3 Verteilungsapproximation und zentraler Grenzwertsatz

Motivation 2.3.13 Die hypergeometrische Verteilung steht fur die Zahl der Erfolge bei Zie-hen ohne Zurucklegen aus einer Urne, die Binomialverteilung fur Ziehen mit Zurucklegen,vgl. Beispiele 2.2.6, 2.2.7. Ist die Urne im Vergleich zur Stichprobe groß, ist das Zuruckle-gen nahezu irrelevant fur die Wahrscheinlichkeiten.

Satz 2.3.14 Seien (KN)N∈N eine Folge in N, n ∈ N und p ∈ (0, 1) mit KNN

N→∞−−−→ p. SeiXN

hypergeometrisch verteilt mit Parametern n,KN , N −KN (vgl. Definition 2.2.8). Sei fernerX binomialverteilt mit Parametern n, p. Dann konvergiert (XN)N∈N in Verteilung gegen Xfur N →∞.

Beweis. Satz 2.3.5: Zu zeigen ist P (XN = k)N→∞−−−→ P (X = k) fur alle k ∈ N (bzw.

k = 0, . . . , n).

P (XN = k) =

(KNk

)(N−KNn−k

)(Nn

)=

(n

k

)(KN

N︸︷︷︸→p

KN − 1

N − 1︸ ︷︷ ︸→p

· · · KN − k + 1

N − k + 1︸ ︷︷ ︸→p

)︸ ︷︷ ︸

k Stuck(N −KN

N − k︸ ︷︷ ︸→1−p

N −KN − 1

N − k − 1︸ ︷︷ ︸→1−p

· · · N −KN − (n− k) + 1

N − n+ 1︸ ︷︷ ︸→1−p

)︸ ︷︷ ︸

(n−k) Stuck

N→∞−−−→(n

k

)pk(1− p)n−k = P (X = k).

Beispiel 2.3.15 Von 10 000 Gluhbirnen sind 200 defekt. Der Kunde weist die Sendungzuruck, falls in einer Stichprobe von 20 Gluhbirnen mindestens eine defekt ist. Wie hochist die Wahrscheinlichkeit hierfur?

Page 74: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

74 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Die Zufallsgroße X beschreibe die Zahl der defekten Gluhbirnen in der Stichprobe. Bei-spiel 2.2.7: X ist hypergeometrisch verteilt mit Parametern 20 (Große der Stichprobe), 200

(defekte Gluhbirnen), 9 800 (heile Gluhbirnen). Also ist

P (X 6= 0) = 1− P (X = 0) = 1−(

2000

)(9 800

20

)(10 000

20

) = 1− 9 800 · · · 9 781

10 000 · · · 9 981≈ 0,3327.

Approximation durch die Binomialverteilung mit n = 20, p = 20010 000

= 0,02:

P (X 6= 0) = 1− P (X = 0) ≈ 1−(

20

0

)0,020︸ ︷︷ ︸

=1

0,9820 = 1− 9 800 · · · 9 800

10 000 · · · 10 000≈ 0,3324.

Motivation 2.3.16 Fur Anrufe in einer Telefonzentrale wird eine plausible Wahrscheinlich-keitsverteilung fur die Anzahl der Anrufe in einer Stunde gesucht, wenn im Mittel 20 Anrufepro Stunde eingehen.Intuition: Munzwurfexperiment mit einem Munzwurf pro Sekunde, die Wahrscheinlichkeitfur Kopf (entspricht einem Anruf) ist p = 20/3 600. Man erhalt eine Binomialverteilung mitParametern 3 600, 20/3 600.Alternativ: Betrachte Millisekunden statt Sekunden. Man erhalt eine Binomialverteilung mitParametern 3 600 000, 20/3 600 000.Was passiert im Limes verschwindender Zeitintervalle?

Satz 2.3.17 (”Gesetz der kleinen Zahlen“) Sei Xn binomialverteilt mit Parametern n, pn,wobei npn

n→∞−−−→ λ ∈ (0,∞). Sei ferner X Poisson-verteilt mit Parameter λ. Dann konver-giert Xn fur n→∞ in Verteilung gegen X .

Beweis. Satz 2.3.5: Zu zeigen ist P (Xn = k)n→∞−−−→ P (X = k) fur alle k ∈ N. Fur

λn := npn gilt

P (Xn = k) =

(n

k

)pkn(1− pn)n−k

=n(n− 1) · · · (n− k + 1)

nkλknk!

(1− λn

n

)n(1− λn

n

)−k= 1︸︷︷︸

=1

(1− 1

n

)︸ ︷︷ ︸

→1

· · ·(

1− k − 1

n

)︸ ︷︷ ︸

→1

1

(1− λnn

)k︸ ︷︷ ︸→1

λknk!︸︷︷︸→λk

k!

(1− λn

n

)n︸ ︷︷ ︸→e−λ, da λn→λ

(Analysis)

n→∞−−−→ λk

k!e−λ = P (X = k), k ∈ N.

Bemerkung 2.3.18 2.3.16 und 2.3.17 liefern die fehlende Motivation der Poisson-Verteilung in Beispiel 2.1.24.

Page 75: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.3. GRENZWERTSATZE 75

Beispiel 2.3.19 Wir betrachten noch einmal die Situation aus Beispiel 2.3.15 und approxi-mieren die Binomialverteilung nun durch die Poisson-Verteilung mit Parameter λ = np =

20 · 0,02 = 0,4:

P (X 6= 0) = 1− P (X = 0) ≈ 1− e−0,4 0,40

0!= 1− e−0,4 ≈ 0,3297.

Motivation 2.3.20 1. Fur die Approximation der Binomialverteilung durch die Poisson-Verteilung in Satz 2.3.17 muss pn klein sein (wegen npn → λ). Was passiert fur großesn und festes p?

2. Seien X1, X2, . . . unabhangig identisch verteilte Zufallsgroßen, Sn :=∑n

i=1Xi

(z. B. Wurfe einer p-Munze wie in 2.2.14, d. h. die Xi sind Bernoulli-verteilt und Snist – nach Beispiel 2.2.45 und Induktion – binomialverteilt mit Parametern n, p).

Frage: Was ist die Verteilung von Sn fur große n? Konvergiert die Verteilung?

Wir wissen: Nach dem Gesetz der großen Zahlen gilt Sn/nP−→ E[X1] fur n → ∞,

d. h. der Zufall verschwindet bei Teilen durch n im Limes. Ferner gilt E[Sn] =∑ni=1E[Xi] = nE[X1] sowie Var(Sn) =

∑ni=1 Var(Xi) = nVar(X1), d. h. oh-

ne Reskalierung kann die Folge in keinem vernunftigen Sinne konvergieren, da Er-wartungswert und Varianz divergieren. Um uberhaupt nichttriviale Konvergenz zuermoglichen, mussen wir die Sn zunachst geeignet standardisieren.

Bezeichnung 2.3.21 Seien X1, X2, . . . Zufallsgroßen in L 2. Dann heißt

S∗n :=Sn − E[Sn]√

Var(Sn)

standardisierte Summe(nvariable), wobei Sn :=∑n

i=1Xi.

Bemerkung 2.3.22 1. E[S∗n] = 1√Var(Sn)

(E[Sn]− E[Sn]) = 0

Var(S∗n) = 1(√Var(Sn)

)2 Var(Sn) = 1

2. Falls X1, X2, . . . unabhangig und identisch verteilt sind, ist

S∗n =Sn − nE[X1]√nVar(X1)

.

FallsX1, X2, . . . zudem Bernoulli-verteilt sind mit Parameter p (d. h. binomialverteiltmit Parametern 1, p), dann ist

S∗n =Sn − np√np(1− p)

.

Page 76: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

76 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Satz 2.3.23 (Lokale Approximation der Binomialverteilung) Sei p ∈ (0, 1), q := 1 − p

und c > 0. Sei Sn binomialverteilt mit Parametern n, p. Dann gilt

limn→∞

max

∣∣∣∣P (Sn = k)

ϕnp,npq(k)− 1

∣∣∣∣ :

∣∣∣∣k − np√npq

∣∣∣∣ ≤ c

= 0

fur

ϕµ,σ2(x) :=1√

2πσ2exp

(−(x− µ)2

2σ2

).

Beweis. Hilfsmittel aus der Analysis: n! ∼√

2πnnne−n fur n → ∞ (Stirlingsche Formel),z. B. Heuser, Analysis I, §96. ”∼“ bedeutet hier, dass der Quotient fur n → ∞ gegen 1konvergiert.

Definiere xn(k) := k−np√npq

.

Sei (kn)n eine beliebige Folge in N mit |xn(kn)| = |kn−np√npq| ≤ c.

⇒ |knn− p| → 0, |n−kn

n− (1− p)| → 0

⇒ kn →∞ und (n− kn)→∞ fur n→∞⇒

P (Sn = kn) =n!

kn!(n− kn)!pknqn−kn

∼ 1√2π

√n

kn(n− kn)

(np

kn

)kn ( nq

n− kn

)n−knfur n→∞.

Es ist knnp

= 1 + xn(kn)√n

√qp

und n−knnq

= 1− xn(kn)√n

√pq

also

kn(n− kn)

n= npq

(1 +

xn(kn)√n

√q

p︸ ︷︷ ︸→0

)(1− xn(kn)√

n

√p

q︸ ︷︷ ︸→0

)∼ npq fur n→∞.

Page 77: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.3. GRENZWERTSATZE 77

Ferner folgt mit der Taylorentwicklung log(1 + x) = x− x2

2+O(x3), dass

log

((knnp

)kn (n− knnq

)n−kn)

= kn log

(knnp

)+ (n− kn) log

(n− knnq

)= np

(1 +

xn (kn)√n

√q

p

)log

(1 +

xn (kn)√n

√q

p

)+ nq

(1− xn (kn)√

n

√p

q

)log

(1− xn (kn)√

n

√p

q

)Taylor= np

(1 +

xn (kn)√n

√q

p

)(xn (kn)√

n

√q

p− xn (kn)2

2n

q

p+O

(n−

32

))

+ nq

(1− xn (kn)√

n

√p

q

)(−xn (kn)√

n

√p

q− xn (kn)2

2n

p

q+O

(n−

32

))Ausmult.

= np

(xn (kn)√

n

√q

p+xn (kn)2

2n

q

p+O

(n−

32

))

+ nq

(−xn (kn)√

n

√p

q+xn (kn)2

2n

p

q+O

(n−

32

))

=(xn (kn))2

2+O

(n−

12

),

wobei O(np) fur eine Folge derart steht, dass |O(np)|np

eine beschrankte Folge ist. Zusammenfolgt

P (Sn = kn) ∼ 1√2π

1√npq

exp

(−(xn(kn))2

2

)= ϕnp,npq(kn).

Wahlt man kn so, dass das Maximum in Satz 2.3.23 bei kn angenommen wird, folgt dieBehauptung.

Bemerkung 2.3.24 Satz 2.3.23 bedeutet P (Sn = k) ≈ ϕnp,npq(k) fur große n.Gehort ϕµ,σ2 auch zu einer Wahrscheinlichkeitsverteilung? Ja, in folgendem Sinne:

Definition 2.3.25 Seien µ ∈ R, σ2 > 0. Die Normalverteilung oder Gauß-VerteilungN(µ, σ2) auf (R,B) ist definiert durch die Lebesgue-Dichte

ϕµ,σ2(x) :=1√

2πσ2exp

(−(x− µ)2

2σ2

), x ∈ R.

N(0, 1) heißt Standard-Normalverteilung.

Page 78: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

78 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Bemerkung 2.3.26 1.(∫ ∞−∞

e−x2

2 dx

)2

=

∫ ∞−∞

∫ ∞−∞

e−x2+y2

2 dy dx

Subst.-regel=

∫ 2π

0

∫ ∞0

re−r2

2 dr dp

= −2π e−r2

2

∣∣∣∞r=0

= 2π

und somit ∫ ∞−∞

ϕµ,σ2(x) dxy=x−µ

σ=

∫ ∞−∞

1√2πe−

y2

2 dy = 1.

Also ist ϕµ,σ2 tatsachlich eine Dichte im Sinne von Satz 2.1.25. Dann gilt

E[X] =

∫ ∞−∞

xϕµ,σ2(x) dx

=1√

2πσ2

∫ ∞−∞

x exp

(−(x− µ)2

2σ2

)dx

y=x−µ=

1√2πσ2

∫ ∞−∞

y exp

(− y2

2σ2

)dy︸ ︷︷ ︸

=0, da Integrand ungerade

(2.7)

+ µ1√

2πσ2

∫ ∞−∞

exp

(−(x− µ)2

2σ2

)dx︸ ︷︷ ︸

=1

= µ,

Var(X) = E[(X − µ)2]

=

∫ ∞−∞

(x− µ)2ϕµ,σ2(x) dx

y=x−µσ=

1√2π

∫ ∞−∞

σ2y2e−y2

2 dy

part. Int.=

σ2

√2π

(−ye−

y2

2

∣∣∣∣∞y=−∞︸ ︷︷ ︸

=0

+

∫ ∞−∞

e−y2

2 dy︸ ︷︷ ︸=√

)

= σ2.

Ahnlich erhalt manE[(X−µ)3] = 0 undE[(X−µ)4] = 3σ4. Strenggenommen mussman noch die Existenz des Integrals in (2.7) zeigen. Sie folgt wegen |y| ≤ 1 + y2 ausder Integrierbarkeit der Dichte und der Endlichkeit des zweiten Moments, die bei derBerechnung der Varianz gezeigt wird.

Aus dem lokalen Grenzwertsatz erhalten wir den folgenden Zentralen Grenzwertsatz furBernoulli-Folgen.

Page 79: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.3. GRENZWERTSATZE 79

Korollar 2.3.27 (Satz von de Moivre-Laplace)Sei X1, X2, . . . eine Folge unabhangiger, identisch verteilter Zufallsgroßen mit P (X1 =

1) = p = 1 − P (X1 = 0) fur ein p ∈ (0, 1). Seien S∗n die zugehorigen standardisiertenSummen, vgl. 2.3.22(2). Sei ferner S standard-normalverteilt, d. h. P S = N(0, 1).Dann konvergiert S∗n in Verteilung gegen S fur n→∞, d. h.

P (a ≤ S∗n ≤ b)n→∞−−−→ Φ(b)− Φ(a)

fur alle a, b ∈ [−∞,∞] mit a ≤ b, wobei

Φ(x) :=

∫ x

−∞

1√2πe−

y2

2 dy.

Beweis. Fall 1: −∞ < a < b <∞.Seien c := max|a|, |b| und ε > 0. Nach Satz 2.3.23 existiert ein N ∈ N derart, dass furalle n > N

max

∣∣∣∣ ϕnp,npq(k)

P (Sn = k)− 1

∣∣∣∣ : |xn(k)| ≤ c

< ε

und somit ∣∣∣∣∣∣∣P (a ≤ S∗n ≤ b)−∑k mit

a≤xn(k)≤b

ϕ0,1(xn(k))√npq

∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∑k mit

a≤xn(k)≤b

P (Sn = k)−∑k mit

a≤xn(k)≤b

ϕ0,1(xn(k))√npq

∣∣∣∣∣∣∣≤

∑k mit

a≤xn(k)≤b

|P (Sn = k)|

︸ ︷︷ ︸≤1

∣∣∣∣1− ϕnp,npq(k)

P (Sn = k)

∣∣∣∣︸ ︷︷ ︸

≤ε

≤ ε.

Ferner gilt ∣∣∣∣∣∣∣∫ b

a

ϕ0,1(x) dx−∑k mit

a≤xn(k)≤b

ϕ0,1(xn(k))√npq

∣∣∣∣∣∣∣ n→∞−−−→ 0,

da es sich um die Riemann-Approximation des Integrals handelt. (Beachte, dassxn(k + 1)− xn(k) = 1√

npq). Mit der Dreiecksungleichung folgt die Behauptung.

Fall 2: a = −∞ (b =∞ folgt analog).Sei ε > 0. Da limc→−∞Φ(c) = 0, muss es ein c >

√3/ε derart geben, dass Φ(−c) < ε/3.

Nach Fall 1 gibt es weiter ein N ∈ N derart, dass fur alle n > N

|P (−c ≤ S∗n ≤ b)− Φ(b) + Φ(−c)| < ε

3.

Page 80: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

80 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Also gilt

|P (S∗n ≤ b)− Φ(b)|≤ |P (S∗n ≤ b)− P (−c ≤ S∗n ≤ b)|

+ |P (−c ≤ S∗n ≤ b)− Φ(b) + Φ(−c)|+ |Φ(−c)|

< P (|S∗n| > c)︸ ︷︷ ︸≤Var(S∗n)

c2< ε

3nach 2.3.8

3+ε

3.

Bemerkung 2.3.28 1. Seien X1, X2, . . . wie in Korollar 2.3.27. Fur ganzzahlige k, l istoffenbar P (k ≤ Sn ≤ l) = P (k − 1

2≤ Sn ≤ l + 1

2). Die Approximation in Korollar

2.3.27 wird besser, wenn man mit a :=k− 1

2−np

√npq

und b :=l+ 1

2−np

√npq

anstelle von a = k−np√npq

und b = l−np√npq

arbeitet.

2. Faustregel: Fur npq ≥ 9 ist die Approximation gut.Fur großes n und kleines np eignet sich die Poisson-Verteilung aus Satz 2.3.17 besser.

Beispiel 2.3.29 Betrachte die Situation aus Beispiel 2.3.15.Approximation der Binomialverteilung durch den zentralen Grenzwertsatz mit np = 0,9,npq = 0,392:

P (X 6= 0) = 1− P (X = 0) ≈ 1− ϕnp,npq(0) = 1− 1√2π0,392

≈ 0,3628.

Das Beispiel ist fur die Anwendung des zentralen Grenzwertsatzes schlecht geeignet, danpq ≈ 0,4 deutlich kleiner als 9 ist.

Beispiel 2.3.30 (Qualitatskontrolle)Betrachte Kartons mit jeweils 1 000 Gluhbirnen. Mit welcher Wahrscheinlichkeit sind nichtmehr als 1% der Gluhbirnen in einem Karton defekt, wenn im Mittel 1% der Gluhbirnendefekt sind? (Annahme: Es gibt keine Serienfehler).Seien dazu X1, X2, . . . , X1000 unabhangig Bernoulli-verteilt mit Parameter 0,01, wobei die0 fur eine heile, die 1 fur eine kaputte Gluhbirne stehe.Gesucht ist P (S ≤ 10) mit S :=

∑1 000i=1 Xi. Als Summe ist S mit Parametern 1 000 und 0,01

binomialverteilt.

1. Exakte Wahrscheinlichkeit (muhsame Rechnung):

P (S ≤ 10) =10∑k=0

(1 000

k

)0,01k0,991 000−k ≈ 0,583.

Page 81: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

2.3. GRENZWERTSATZE 81

2. Mit Korollar 2.3.27 (”quick and dirty“):

E[S] = 1 000 · 0,01 = 10

Var(S) = 1 000 · 0,01 · 0,99 = 9,9

P (S ≤ 10) = P

(S − 10√

9,9≤ 0

)≈ Φ(0) =

1

2.

3. Etwas besser mit Bemerkung 2.3.28:

P (S ≤ 10) = P (S ≤ 10,5) = P

(S − 10√

9,9≤ 0,159

)≈ Φ(0,159) ≈ 0,563.

Außerst wichtig und bemerkenswert: Satz 2.3.27 gilt auch fur beliebige Verteilungen:

Satz 2.3.31 (Zentraler Grenzwertsatz von Lindeberg-Levy) Sei X1, X2, . . . eine Folgeunabhangiger, identisch verteilter Zufallsgroßen in L 2 mit Var(X1) > 0. Seien S∗n die zu-gehorigen standardisierten Summen, vgl. 2.3.21. Sei ferner S standard-normalverteilt, d. h.P S = N(0, 1). Dann konvergiert S∗n in Verteilung gegen S fur n→∞.

Beweis. nicht in dieser Vorlesung

Bemerkung 2.3.32 1. Die Grenzverteilung hangt magischerweise nicht von der Vertei-lung der Xi ab. (Bitte staunen!)

2. Satz 2.3.31 macht die Normalverteilung zur wichtigsten Verteilung uberhaupt, obwohlvermutlich so gut wie nichts exakt normalverteilt ist.

Achtung: Trotz ihrer Universalitat ist die Normalverteilung nicht immer zur Modellie-rung von Zufallsexperimenten angemessen, warum sollte sie auch?

Bemerkung 2.3.33 1. Was tun, wenn X1, X2, . . . > 0 unabhangig und identisch verteiltsind, aber Zn :=

∏ni=1 Xi von Interesse ist (multiplikative Effekte)?

Betrachte dann

Sn := logZn =n∑i=1

log(Xi).︸ ︷︷ ︸unabh., ident. verteilt

⇒ Sn ist approximativ normalverteilt (im Sinne von Satz 2.3.31).

2. Was ist die Verteilung von Z = eS , falls S normalverteilt ist mit N(µ, σ2)?Sei FZ die Verteilungsfunktion von Z und % die zugehorige Dichte. Dann gelten

Fz(t) = P (Z ≤ t) = P (S ≤ log t) =

∫ log(t)

0

ϕµ,σ2(x) dx, t ≥ 0,

%(t) = F ′z(t) = ϕµ,σ2(log t)1

t=

1√2πσ2t

exp

(−(log(t)− µ)2

2σ2

), t ≥ 0.

Page 82: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

82 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Definition 2.3.34 Die Verteilung auf R+ mit Lebesguedichte

%(x) := 1(0,∞)(x)1√

2πσ2texp

(−(log(t)− µ)2

2σ2

)heißt Lognormalverteilung (Gallon-McAlister-Verteilung, Cobb-Douglas-Verteilung) mitParametern µ ∈ R, σ2 > 0.

Page 83: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

Kapitel 3

Schließende Statistik

Bisher haben wir uns mit Wahrscheinlichkeitsrechnung beschaftigt, in der es darum ging,Schlussfolgerungen aus einem gegebenen stochastischen Modell (Ω,F , P ) zu ziehen. Wo-her aber bekommt man dieses Modell, insbesondere P , sofern nicht gerade der Versuchsauf-bau die Laplace-Verteilung nahelegt?In der Statistik geht es darum, mit Hilfe von Beobachtungen/Daten auf das unbekannteWahrscheinlichkeitsmaß P , das diesen Daten zugrunde liegt, zu schließen. Wegen der Sto-chastik der Daten werden Aussagen uber P aber in der Regel mit mehr oder minder großerUnsicherheit behaftet sein. Fragestellungen in der Statistik laufen daher oft auf ein Entschei-den unter Unsicherheit hinaus.

3.1 Statistische Modellbildung

Motivation 3.1.1 Eine p-Munze werde 100 mal geworfen, vgl. Beispiel 2.2.14. p ist unbe-kannt.

1. (Schatzen). Was ist p?Idee: Seien x1, . . . , x100 die Ergebnisse der hundert Wurfe. Man konnte p durch dierelative Haufigkeit p := 1

100

∑100i=1 xi schatzen. Ist das vernunftig?

2. (Testen). Ist die Munze fair, d. h. ist p = 1/2?Idee: Vermutlich ja, falls p nah bei 1/2. Vermutlich nein, falls p weit weg von 1/2. Washeißt in diesem Zusammenhang nah und weit weg?

3. (Konfidenzintervalle). Erganzung zur ersten Frage: Schatzung von p mit Genauig-keitsaussage, d. h. in der Form p± Toleranz. Welche Toleranz?

Bemerkung 3.1.2 Stochastische Modellbildung(Ω,F , P ) ist ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgroße. Berechne dannP (X ∈ B), E[X],Var(X) etc.Genauer: Oft ist nur PX bekannt (nicht aber der Raum (Ω,F , P ) und die Abbildung Xselbst), dies reicht aber fur Berechnungen aus.

83

Page 84: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

84 KAPITEL 3. SCHLIESSENDE STATISTIK

Statistik: Wir wollen Aussagen uber das unbekannte PX mit Hilfe von Daten x1, . . . , xntreffen, vgl. 3.1.1.Achtung: Wir modellieren Motivation 3.1.1 nicht mit einer einzelnen ZufallsgroßenX : Ω → R, die den einfachen Munzwurf reprasentiert, und 100 zufallig gezogenen Er-gebnissen ω1, . . . , ω100, die zur Stichprobe (x1, . . . , x100) = (X(ω1), . . . , X(ω100)) fuhren.Sondern: Wir betrachten 100 Zufallsgroßen Xi : Ω → R, i = 1, . . . , 100, und fassendie Stichprobe (x1, . . . , x100) = (X1(ω), . . . , X100(ω)) = X(ω) als in einem nur ein-mal durchgefuhrten Experiment erhaltenen Wert der vektorwertigen Zufallsvariable X =

(X1, . . . , X100) : Ω→ R100 auf.In der obigen Situation wissen wir, dass X1, . . . , X100 unabhangig und Bernoulli-verteiltsind, allerdings mit unbekanntem Parameter p. Somit ist PX = P (X1,...,X100) =

⊗100i=1 P

Xi

mit PXi(1) = 1 − PXi(0) = p die Bernoulli-Verteilung im Sinne von Beispiel 2.2.14auf 0, 1100 bzw. R100.

Mathematischer Rahmen 3.1.3 Wir betrachten folgendes statistisches AusgangsmodellSeien (Ω,F ) ein messbarer Raum und (Pϑ)ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßenauf Ω. Seien weiter X1, . . . , Xn : Ω→ R Zufallsgroßen und X = (X1, . . . , Xn).Interpretation: X1, . . . , Xn sind die vorliegenden Beobachtungen (die Stichprobe).Bekannt ist die Verteilung von (X1, . . . , Xn) unter Pϑ fur alle ϑ ∈ Θ (Parameterraum).Unbekannt (und gesucht) ist der Parameter ϑ (bzw. Eigenschaften davon).Gegeben sind die Daten (x1, . . . , xn) = (X1(ω), . . . , Xn(ω)), die man Realisierungen derZufallsgroßen X1, . . . , Xn nennt.Das Modell heißt parametrisch, falls Θ ⊆ Rd fur ein d ∈ N (insbesondere einparametrigfur d = 1), andernfalls nichtparametrisch.Das Modell heißt diskret, falls die Zufallsvariablen X1, . . . , Xn hochstens abzahlbar vie-le Werte annehmen konnen, und stetig, falls die Verteilungen der Xi eine Lebesguedichtebesitzen.

Bemerkung 3.1.4 1. Meistens nehmen wir X1, . . . , Xn unter allen Pϑ als unabhangigund identisch verteilt an (unabhangige Versuchswiederholung), z. B. als exponential-verteilt mit Parameter ϑ ∈ Θ := (0,∞), wenn es sich um Lebensdauern handelt.Beispiel einer Ausnahme: Seien X1, . . . , Xn Ergebnisse beim Ziehen ohne Zuruck-legen aus einer Urne mit ϑ ∈ n, n + 1, . . . durchnummerierten Kugeln. Dann istP

(X1,...,Xn)ϑ die Gleichverteilung auf

M := (x1, . . . , xn) ∈ Nn : xi ∈ 1, . . . , ϑ und xi 6= xj fur i 6= j.

Die Xi sind hier nicht unabhangig.

2. Die Beschrankung auf die Familie moglicher Pϑ erfolgt z. B. durch theoretische Uber-legungen. Diese Auswahl (Modellbildung) kann schon hochgradig nicht-trivial sein.

Beispiel 3.1.5 vgl. 3.1.1, 3.1.2: Munzwurfe mit unbekanntem Erfolgsparameter ϑ (bei-spielsweise Werfen einer Heftzwecke): X1, . . . , Xn sind unter allen Pϑ unabhangig undidentisch verteilt mit P (X1 = 1) = ϑ = 1− P (X1 = 0), wobei Θ = [0, 1].

Page 85: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.2. PARAMETERSCHATZUNG 85

3.2 Parameterschatzung

Gesucht ist ein vernunftiger, von den Daten abhangiger Schatzwert fur den unbekanntenParameter ϑ oder eine Funktion τ(ϑ) davon.

Definition 3.2.1 Eine Zufallsgroße der Form T = t(X1, . . . , Xn) mit t : Rn → R (oderallgemeiner Rd, . . . ) nennen wir Statistik.Sei τ : Θ→ R (oder allgemeiner Rd, . . . ) eine Abbildung (Kenngroße).Eine Statistik T heißt auch Schatzer fur τ .

Beispiel 3.2.2 n-facher Munzwurf wie in Beispiel 3.1.5.Sei τ : Θ→ R, τ(ϑ) = ϑ (d. h. ϑ soll voll geschatzt werden).Wahle beispielsweise T := 1

n

∑ni=1 Xi als Schatzer fur τ , d. h. t(x1, . . . , xn) = 1

n

∑ni=1 xi

(arithmetisches Mittel).Weitere Beispiele: Median, getrimmtes Mittel, . . .

Wunschenswerte Eigenschaften:

Definition 3.2.3 Ein Schatzer T = t(X1, . . . , Xn) fur τ : ϑ → R heißt erwartungstreu(unverfalscht, unverzerrt), falls

Eϑ[T ] = τ(ϑ), ϑ ∈ Θ.

Allgemein heißt Bϑ(T ) := Eϑ[T ]− τ(ϑ) Verzerrung (Bias, systematischer Fehler) von T .

Beispiel 3.2.4 siehe Beispiel 3.2.2:

Eϑ[T ] =1

n

n∑i=1

Eϑ(Xi) =1

nnϑ = ϑ = τ(ϑ)

T ist also erwartungstreu.

Beispiel 3.2.5 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch verteilt derart,dass der Erwartungswert m(ϑ) := Eϑ(X1) und die Varianz v(ϑ) := Varϑ(X1) existierenund endlich sind.

1. Ein naheliegender Schatzer ist sicher das arithmetische Mittel X := 1n

∑ni=1Xi. Sei

T allgemeiner ein linearer Schatzer fur m, d. h. T =∑n

i=1 αiXi mit α1, . . . , αn ∈ R.Dann gilt

Eϑ[T ] =n∑i=1

αiEϑ[Xi] = m(ϑ)n∑i=1

αi,

d. h. T ist genau dann erwartungstreu, wenn∑n

i=1 αi = 1.Das ist insbesondere der Fall, wenn αi = 1/n fur i = 1, . . . , n, d. h. fur T = X .

2. Schatzer fur die Varianz v:

Page 86: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

86 KAPITEL 3. SCHLIESSENDE STATISTIK

(a) m(ϑ) sei bekannt, d. h. m(ϑ) = m ∈ R fur alle ϑ ∈ Θ. Das ist einfacher, kommtaber in der Praxis kaum vor.Wahle T :=

∑ni=1 αi(Xi −m)2. Dann gilt

Eϑ[T ] =n∑i=1

αiEϑ[(Xi −m)2] = v(ϑ)n∑i=1

αi. (3.1)

T ist genau dann erwartungstreu, wenn∑n

i=1 αi = 1, also insbesondere furαi = 1/n, i = 1, . . . , n.

(b) m(ϑ) sei unbekannt, wie es in Anwendungen auch eher anzutreffen ist.Idee: Ersetze m durch den Schatzer X := 1

n

∑ni=1Xi.

Wahle T :=∑n

i=11n(Xi −X)2. Dann gilt

Eϑ [T ] =n∑i=1

1

nEϑ

[(Xi −X

)2]

Eϑ[Xi−X]=0=

n∑i=1

1

nVarϑ

(Xi −X

)=

1

n

n∑i=1

Varϑ

(n− 1

nXi −

1

n

∑j 6=i

Xj

)Unabh.

=1

n

n∑i=1

(Varϑ

(n− 1

nXi

)+∑j 6=i

Varϑ

(1

nXj

))

=1

n

((n− 1

n

)2

+n− 1

n2

)v (ϑ)

=n− 1

nv (ϑ) .

T ist nicht erwartungstreu fur v.Stattdessen ist n

n−1T erwartungstreu fur v.

Korollar 3.2.6 Seien X1, . . . , Xn wie in Beispiel 3.2.5. Dann ist das Stichprobenmittel

X :=1

n

n∑i=1

Xi

ein erwartungstreuer Schatzer fur m.Ferner ist die Stichprobenvarianz

S2 :=1

n− 1

n∑i=1

(Xi −X)2

ein erwartungstreuer Schatzer fur v.

Page 87: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.2. PARAMETERSCHATZUNG 87

Bemerkung 3.2.7 Korollar 3.2.6 motiviert die Definition der empirischen Varianz in Defi-nition 1.3.12.

Es gibt viele weitere erwartungstreue Schatzer, beispielsweise ist auch T := X1 erwartungs-treu fur m. Interessant ist daher auch z. B. die mittlere Abweichung des Schatzers:

Definition 3.2.8 Sei T = t(X1, . . . , Xn) Schatzer fur die Kenngroße τ : Θ→ R.

1. Der mittlere quadratische Fehler von T (bei ϑ) ist definiert als

Fϑ(T ) := Eϑ[(T − τ(ϑ))2] = Varϑ(T ) + (Bϑ(T ))2.

2. Sei T zudem erwartungstreu. T heißt varianzminimierender/gleichmaßig bester/UMVU-Schatzer (fur uniform minimum variance unbiased), falls fur alle erwartungs-treuen Schatzer S gilt:

Varϑ(T ) ≤ Varϑ(S), ϑ ∈ Θ.

Bemerkung 3.2.9 Zwei Schatzer S, T sind im Allgemeinen nicht direkt vergleichbar, d. h.im Allgemeinen ist Fϑ(S) < Fϑ(T ) fur manche ϑ und Fϑ(S) > Fϑ(T ) fur andere ϑ. Insbe-sondere ist es in 2. sinnlos, einen Schatzer mit allen denkbaren (also auch nicht erwartungs-treuen) Schatzern zu vergleichen, da z. B. S := ϑ0 bei ϑ0 optimal schatzt und bei anderen ϑschlecht.

Beispiel 3.2.10 Achtung:

• Es gibt nicht immer einen gleichmaßig besten Schatzer.

• Es lasst sich nicht immer klaren, ob es einen gleichmaßig besten Schatzer gibt.

• Es kann vorkommen, dass ein nicht erwartungstreuer Schatzer einen gleichmaßig klei-neren mittleren quadratischen Fehler hat als jeder erwartungstreue Schatzer.

• Das Stichprobenmittel ist nicht immer UMVU fur den Erwartungswert (z. B. in Bei-spiel 3.2.11(5) mit m(ϑ) = ϑ/2).

Beispiel 3.2.11 Seien X1, . . . , Xn unabhangig und identisch verteilt unter allen Pϑ.

1. Sei PX1ϑ Bernoulli-verteilt mit Parameter ϑ ∈ Θ := [0, 1].

Dann ist X UMVU fur ϑ (vgl. Beispiel 3.2.2).

2. Sei PX1ϑ Poisson-verteilt mit Parameter ϑ ∈ Θ := (0,∞).

Dann ist X UMVU fur ϑ.

3. Sei PX1ϑ N(µ, σ2)-verteilt fur ϑ = (µ, σ2) ∈ Θ := R× (0,∞).

Dann ist X UMVU fur µ und S2 ist UMVU fur σ2.

Page 88: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

88 KAPITEL 3. SCHLIESSENDE STATISTIK

4. Sei PX1ϑ exponentialverteilt mit Parameter ϑ ∈ Θ := (0,∞).

Dann ist X UMVU fur 1ϑ

.

5. Sei PX1ϑ gleichverteilt auf [0, ϑ] mit Parameter ϑ ∈ Θ := (0,∞).

Dann ist n+1n

max(X1, . . . , Xn) UMVU fur ϑ.

Beispiel 3.2.12 zuruck zu Beispiel 3.2.5(1):Wegen T =

∑ni=1 αiXi, gilt

Fϑ(T ) = Eϑ[(T −m(ϑ))2] = Varϑ(T ) =

(n∑i=1

α2i

)Varϑ(X1).

Außerdem1

n

n∑i=1

α2i

1.3.12

(1

n

n∑i=1

αi

)2

=1

n2=

1

n

n∑i=1

(1

n

)2

.

Der Fehler wird also minimal fur αi = 1/n fur i = 1, . . . , n.Unter den linearen erwartungstreuen Schatzern des Erwartungswerts ist das Stichproben-mittel also der beste (der BLUE – best linear unbiased estimator).

Ein weiteres alternatives Gutekriterium betrifft die Konvergenz fur wachsenden Stichpro-benumfang.

Definition 3.2.13 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch verteilt.Sei τ : ϑ → R eine Kenngroße, und fur alle n ∈ N sei Tn = tn(X1, . . . , Xn) ein (nur vonden ersten n Beobachtungen abhangiger) Schatzer fur τ .Die Schatzfolge (Tn)n∈N fur τ heißt konsistent, falls

TnPϑ−→ τ(ϑ), ϑ ∈ Θ,

d. h. fur alle ϑ ∈ Θ und alle ε > 0 gilt Pϑ(|Tn − τ(ϑ)| ≤ ε)n→∞−−−→ 1.

Satz 3.2.14 Seien (Xn)n∈N, (Yn)n∈N Folgen von Zufallsgroßen.

1. Falls XnP−→ 0, dann auch X2

nP−→ 0.

2. Falls XnP−→ 0 und Yn

P−→ 0, dann auch Xn + YnP−→ 0.

Beweis.

1. Fur ε > 0 gilt P (|X2n| ≤ ε) = P (|Xn| ≤

√ε)

n→∞−−−→ 1.

2. Fur ε > 0 gilt P (|Xn + Yn| > ε) ≤ P(|Xn| >

ε

2

)︸ ︷︷ ︸

→0

+P(|Yn| >

ε

2

)︸ ︷︷ ︸

→0

n→∞−−−→ 0.

Page 89: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.2. PARAMETERSCHATZUNG 89

Satz 3.2.15 In der Situation aus 3.2.5 ist (Xn)n konsistent fur m und (S2n)n konsistent fur

v.

Beweis.

1. Schwaches Gesetz der großen Zahlen (Satz 2.3.9): (Xn)n ist konsistent.

2. Sei ϑ ∈ Θ. Fur

S2n :=

1

n

n∑i=1

(Xi −m(ϑ))2

gilt nach dem schwachen Gesetz der großen Zahlen (das auch fur Folgen in L 1 an-stelle von L 2 gilt), dass S2

n

Pϑ−→ v(ϑ) fur n → ∞. Mit Satz 2.3.9 und Satz 3.2.14(1)folgt außerdem, dass (Xn −m(ϑ))2 Pϑ−→ 0 fur n→∞. Wegen

S2n − (Xn −m(ϑ))2 1.3.12

=1

n

n∑i=1

(Xi −Xn)2 =n− 1

nS2n

folgt aus Satz 3.2.14(2), dass n−1nS2n − v(ϑ)

Pϑ−→ 0 und somit, dass

S2n − v(ϑ) =

n

n− 1

(n− 1

nS2n − v(ϑ)

)︸ ︷︷ ︸

Pϑ−→0

+1

n− 1v(ϑ)︸ ︷︷ ︸

→0

Pϑ−→ 0.

3.2.1 Konstruktionsmethoden fur Schatzer

Maximum-Likelihood-Prinzip

Bemerkung 3.2.16 Sei ein diskretes oder stetiges statistisches Modell gegeben. Wir nennen%ϑ : Rn → R die zugehorige Dichte, falls

1. im diskreten Fall (d. h. (X1, . . . , Xn)(Ω) ist hochstens abzahlbar), falls

Pϑ((X1, . . . , Xn) = (x1, . . . , xn)) = %ϑ(x1, . . . , xn), (x1, . . . , xn) ∈ Rn,

2. im stetigen Fall, falls

Pϑ((X1, . . . , Xn) ∈ B1 × · · · ×Bn) =

∫B1

· · ·∫Bn

%ϑ(x1, . . . , xn) dxn · · · dx1

fur alle Intervalle (oder allgemeiner Borelmengen) Bi ⊆ R, i = 1, . . . , n.(Verallgemeinerung des Dichtebegriffs auf Rn).

Falls (wie meistens) X1, . . . , Xn unter allen Pϑ, ϑ ∈ Θ unabhangig und identisch verteiltsind, dann ist

Page 90: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

90 KAPITEL 3. SCHLIESSENDE STATISTIK

1. %ϑ(x1, . . . , xn) =∏n

i=1 %ϑ(xi), wobei %ϑ : R→ R die Zahldichte von PX1ϑ ist,

2. %ϑ(x1, . . . , xn) =∏n

i=1 %ϑ(xi), wobei %ϑ : R→ R die Lebesguedichte von PX1ϑ ist.

Begrundung: In diesen Fallen ist P (X1,...,Xn)ϑ

Unabh.=

⊗ni=1 P

Xiϑ =

⊗ni=1 P

X1ϑ und somit

Pϑ(X1 ∈ B1, . . . , Xn ∈ Bn) =∏n

i=1 Pϑ(X1 ∈ B1).

Definition 3.2.17 Sei ein diskretes oder stetiges statistisches Modell mit zugehorigen Dich-ten %ϑ : Rn → R gegeben.

i) Die Funktion % : Rn × Θ → R+ mit %(x, ϑ) := %ϑ(x) heißt Likelihood- oder Plausi-bilitatsfunktion.Die Abbildung %x : Θ → R+, ϑ 7→ %(x, ϑ) heißt Likelihood-Funktion zum Beobach-tungswert x ∈ Rn.

ii) Ein Schatzer T = t(X1, . . . , Xn) fur ϑ (d. h. fur die Identitat τ : ϑ 7→ ϑ) heißtMaximum-Likelihood-Schatzer (ML-Schatzer), falls

%(x, t(x)) = maxϑ∈Θ

%(x, ϑ), x ∈ Rn

(d. h. %x wird bei t(x) maximal).

Bemerkung 3.2.18 1. Idee: Zufallsexperimente bringen in der Regel Ergebnisse x mitgroßer Wahrscheinlichkeitsdichte %(x) hervor. Man glaubt daher eher an Parameter ϑ,fur die die Beobachtung x eine große Wahrscheinlichkeit %ϑ(x) besitzt. Das bedeutetnicht, dass ϑ große Wahrscheinlichkeit besitzt, denn auf Θ ist kein Wahrscheinlich-keitsmaß gegeben (außer in der Bayesschen Statistik).

2. ML-Schatzer sind in der Regel konsistent (ohne Beweis) und oft auch in anderer Hin-sicht gut.

3. Statt %x maximiert man meistens log %x, da das viele Rechnungen vereinfacht.

4. Falls T ML-Schatzer fur ϑ ist, heißt τ(T ) ML-Schatzer fur eine Kenngroße τ .

Beispiel 3.2.19 Seien X1, . . . , Xn wie in Beispiel 3.1.5, d. h. mit Parameter ϑ Bernoulli-verteilt (Munzwurfe).Nach Beispiel 2.2.19 ist die zugehorige Zahldichte gegeben durch

%ϑ(x1, . . . , xn) = ϑ∑ni=1 xi(1− ϑ)n−

∑ni=1 xi =: %(x1, . . . , xn;ϑ).

Maximiere

ϑ 7→ log %(x1, . . . , xn;ϑ) =n∑i=1

xi log ϑ+

(n−

n∑i=1

xi

)log(1− ϑ).

Page 91: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.2. PARAMETERSCHATZUNG 91

Ermitteln eines Kandidaten:

0 =∂

∂ϑlog %(x1, . . . , xn;ϑ)

=1

ϑ

n∑i=1

xi −1

1− ϑ

(n−

n∑i=1

xi

),

d. h.∑n

i=1 xi = ϑn, wahle also ϑ := 1n

∑ni=1 xi. Nachrechnen liefert, dass ϑ tatsachlich eine

globale Maximalstelle ist. Der ML-Schatzer fur ϑ ist also

T =1

n

n∑i=1

xi,

also die relative Haufigkeit, vgl. Beispiele 3.1.1, 3.2.2, 3.2.11.

Beispiel 3.2.20 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch N(µ, σ2)-verteilt, wobei ϑ = (µ, σ2) ∈ Θ := R× (0,∞) (ein ubliches Modell etwa bei wiederholten,fehlerbehafteten physikalischen Messungen).Dann gilt

%x(ϑ) = %(x, ϑ)3.2.16(2)

=n∏i=1

1√2πσ2

exp

(−(xi − µ)2

2σ2

)

=1

(2πσ2)n2

exp

(−

n∑i=1

(xi − µ)2

2σ2

)

fur x ∈ Rn, ϑ = (µ, σ2) ∈ Θ. Somit ist

`x(µ, σ2) := log %x(µ, σ

2) = −n2

log(2πσ2)− 1

2σ2

n∑i=1

(xi − µ)2

und

D1`x(µ, σ2) = 0 +

2

2σ2

n∑i=1

(xi − µ) =1

σ2

(n∑i=1

xi − nµ

),

D2`x(µ, σ2) = −n

2

2πσ2+

1

2σ4

n∑i=1

(xi − µ)2.

Beide Ableitungen werden null fur µ := 1n

∑ni=1 xi und σ2 := 1

n

∑ni=1(xi−µ)2. Untersuchen

der Hesse-Matrix und Grenzbetrachtungen zeigen, dass es sich tatsachlich um eine globaleMaximalstelle handelt. Der ML-Schatzer fur (µ, σ2) ist also

T =

(1

n

n∑i=1

Xi,1

n

n∑i=1

(Xi −X)2

)=

(X,

n− 1

nS2

).

(Beachte, dass T2 = n−1nS2 nicht erwartungstreu fur σ2 ist.)

Page 92: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

92 KAPITEL 3. SCHLIESSENDE STATISTIK

Beispiel 3.2.21 Schatzen von Tierpopulationen (beispielsweise Fische in einem Teich).Vorgehen:

1. fangen, zahlen, kennzeichnen, freilassen (beispielsweise n1 = 213),

2. spater an ggf. anderer Stelle erneut fangen und zahlen (beispielsweise n2 = 104,

davon k = 13 schon gekennzeichnet).

Gesucht ist die Anzahl der Fische im Teich.Idee: k

n2≈ n1

n, wahle also n ≈ n1n2

kals Schatzer (hier: n = (213 · 104)/13 = 1 704).

Stochastisches Modell: Urnenmodell wie in 2.2.7, Ziehen ohne Zurucklegen.Seien X die Zahl der gefangenen, markierten Fische unter den n2 gezogenen (eine Beob-achtung) und PX

ϑ die hypergeometrische Verteilung auf N (bzw. R) mit Parametern n2 (ge-zogen), n1 (markiert) und ϑ− n1 (nicht markiert). Sei weiter Θ = n ∈ N : n ≥ n1 ∨ n2.Die Zahldichte ist gegeben durch

%ϑ(k) = Pϑ(X = k) =

(n1

k

)(ϑ−n1

n2−k

)(ϑn2

) .

Betrachte den Quotienten %ϑ(k)/%ϑ−1(k):

%ϑ(k)

%ϑ−1(k)=

(ϑ− n1)!(ϑ− n2)!

(ϑ− n1 − n2 + k)!ϑ!

(ϑ− 1− n1 − n2 + k)!(ϑ− 1)!

(ϑ− 1− n1)!(ϑ− 1− n2)!

=(ϑ− n1)(ϑ− n2)

(ϑ− n1 − n2 + k)ϑ.

Es gilt

%ϑ(k)

%ϑ−1(k)≥ 1⇔ (ϑ− n1)(ϑ− n2) ≥ ϑ(ϑ− n1 − n2 + k)

⇔ ϑ2 − ϑn2 − ϑn1 + n1n2 ≥ ϑ2 − ϑn1 − ϑn2 + ϑk

⇔ n1n2 ≥ ϑk,

d. h. ϑ 7→ %ϑ(k) wachst fur ϑ ≤ n1n2

kund fallt fur ϑ > n1n2

k. Die Zahldichte nimmt somit

ein Maximum in [n1n2

k] an, und

T :=[n1n2

X

]ist der ML-Schatzer fur die unbekannte Anzahl ϑ (= n).

Momentenmethode und Substitutionsprinzip

Idee: Schatze unbekannte Parameter so, dass empirische und theoretische Momente uber-einstimmen.

Page 93: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.2. PARAMETERSCHATZUNG 93

Definition 3.2.22 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch verteilt. SeiΘ ⊆ Rd. Fur alle ϑ ∈ ϑ sei |X1|d ∈ L 1. Ein Schatzer T = t(X1, . . . , Xn) fur ϑ (d. h. furτ : ϑ→ ϑ) heißt Momentenschatzer, falls

1

n

n∑i=1

Xki = mk(T ), k = 1, . . . , d

wobei mk(ϑ) := Eϑ[Xk1 ] das k-te Moment sei.

Bemerkung 3.2.23 Unter gewissen Voraussetzungen sind Momentenschatzer konsistent.(ohne Beweis)

Beispiel 3.2.24 Situation aus Beispielen 3.1.5 und 3.2.20:

m1(ϑ) = µ, m2(ϑ) = Varϑ(X1) + (Eϑ[X1])2 = σ2 + µ2.

Wahle T = (T1, T2) so, dass

1

n

n∑i=1

Xi = m1(T1, T2) = T1,

1

n

n∑i=1

X2i = m2(T1, T2) = T 2

1 + T2.

Das ist der Fall, wenn T1 = X und

T2 =1

n

n∑i=1

X2i −X

2=

1

n

n∑i=1

(Xi −X)2 =n− 1

nS2.

Also ist

T =

(X,

n− 1

nS2

)auch Momentenschatzer fur ϑ = (µ, σ2). (Dies gilt offensichtlich auch fur jede andere Ver-teilungsfamilie mit Erwartungswert µ und Varianz σ2.)

Die Momentenmethode beruht auf folgendem Substitutionsprinzip:

Bemerkung 3.2.25 1. Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch ver-teilt.Sei τ : Θ→ R (oder allgemeiner Rd) eine Kenngroße, die nur von PX1

ϑ abhangt, z. B.das k-te Moment

τ(ϑ) := mk(ϑ) = Eϑ(Xk1 ) =

∫xkPX1

ϑ (dx).

fur ein k ∈ N. Nach dem Substitutionsprinzip schatzt man τ(ϑ), indem man die un-bekannte Verteilung PX1

ϑ in der Definition von τ durch die empirische Verteilung der

Page 94: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

94 KAPITEL 3. SCHLIESSENDE STATISTIK

Daten X1(ω), . . . , Xn(ω) ersetzt (vgl. Beispiel 2.1.4), also das Wahrscheinlichkeits-maß P(X1,...,Xn) auf R der Form

P(X1,...,Xn)(A) :=1

n

n∑i=1

1A(Xi), A ∈ B. (3.2)

Fur τ wie oben fuhrt dies zum Schatzer

T :=

∫xkP(X1,...,Xn)(dx)

2.2.59(1)=

1

n

n∑i=1

Xki

Oft sind solche Schatzer konsistent, da nach dem Gesetz der großen Zahlen die empi-rische Verteilung P(X1,...,Xn) im Sinne von Definition 2.3.3 schwach gegen PX1

ϑ kon-vergiert.

2. Verwandt dazu hat man bisweilen einen Ausdruck, der sich als Schatzer anbietet, abernoch von einer Funktion des unbekannten Parameters abhangt. Das ist z. B. beimVarianzschatzer (3.1) der Fall, wenn m(ϑ) wie in Fall (b) noch unbekannt ist. Esliegt dann nahe, die unbekannte Funktion durch einen konsistenten Schatzer dafur zuersetzen. Genau das geschieht in Beispiel 3.2.5(2b), wo m(ϑ) durch das arithmetischeMittel X ersetzt wird.

Beispiel 3.2.26 (Value at risk)Im Risikomanagement des Finanzwesens ist der sogenannte Value at risk zum Niveauα ∈ (0, 1) von Interesse, z. B. fur α = 0,99. Darunter versteht man das α-Quantil ei-ner Zufallsgroßen X , die den zukunftigen Verlust etwa einer Bank innerhalb der folgendenzehn Tage bezeichnet, vgl. Definition 2.2.73. Dieses mit VaRα(X) bezeichnete Quantil stehtalso fur die Verlusthohe, die mit Wahrscheinlichkeit α nicht uberschritten werden wird.In der Praxis ist die Verteilung von X unbekannt, aber es stehen moglicherweise Datenx1, . . . , xn uber vergangene 10-Tages-Verluste zur Verfugung, die als Realisierungen un-abhangiger, nach PX identisch verteilter Zufallsgroßen X1, . . . , Xn angenommen werdenkonnen. Nach dem Substitutionsprinzip ist dann das α-Quantil der empirischen Verteilung(vgl. Beispiel 2.1.4) ein naheliegender Schatzer fur VaRα(X), Dieses stimmt nach Bei-spiel 2.2.75(1) im Wesentlichen mit dem empirischen Quantil der beobachteten Verlustex1, . . . , xn uberein.

Kleinste-Quadrate-Methode

Idee: Schatze Parameter so, dass die mittlere quadratische Abweichung der Daten zum Er-wartungswert minimal wird.

Beispiel 3.2.27 Einfache lineare Regression, vergleiche Abschnitt 1.4:Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch N(a + bti, σ

2)-verteilt, i =

1, . . . , n.

Page 95: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.3. TESTEN VON HYPOTHESEN 95

Seien ϑ = (a, b, σ2) ∈ Θ = R2 × (0,∞) und t1, . . . , tn ∈ R gegeben.T = t(X1, . . . , Xn) heißt Kleinste-Quadrate-Schatzer fur τ(ϑ) = (a, b), falls

n∑i=1

(Xi − T )2 = minϑ∈Θ

n∑i=1

(Xi − Eϑ[Xi]︸ ︷︷ ︸

=a+bti

)2.

Nach Satz 1.4.1 ist also

T =

(X − bt, StX

S2t

)Kleinste-Quadrate–Schatzer, wobei

t :=1

n

n∑i=1

ti, StX :=1

n− 1

n∑i=1

(ti − t)(Xi −X),

S2t :=

1

n− 1

n∑i=1

(ti − t)2, b :=StXS2t

.

Man kann zeigen: T ist BLUE fur (a, b).

Bayes-Schatzer

Diese werden in Abschnitt 3.5 behandelt.

3.3 Testen von Hypothesen

In der Praxis laufen statistische Probleme haufig auf eine Ja-Nein-Entscheidung hinaus, diedavon abhangt, ob eine Hypothese uber den unbekannten Sachverhalt wahr ist oder nicht.Soll ein Patient behandelt werden oder nicht? Soll eine neue Methode eingefuhrt werdenoder nicht? Soll man einer neuen wissenschaftlichen Theorie glauben oder nicht? Ob dieHypothese stimmt, kann oft nur indirekt aus Daten erschlossen werden, die einem zufalligenEinfluss unterliegen.

Beispiel 3.3.1 Es gebe ein neues Verfahren, das angeblich das Geschlechterverhaltnis beiRindergeburten beeinflusst: Angeblich werden mehr (wertvollere) Kuhkalber als Stierkalbergeboren. Soll der Landwirt/Zuchter das Verfahren kaufen oder nicht? Als Entscheidungs-grundlage dient die Beobachtung von aus Zeitgrunden nicht zu vielen Geburten.

Definition 3.3.2 Sei ein statistisches Modell wie in 3.1.3 gegeben.Ein Testproblem besteht aus einer disjunkten Zerlegung Θ = Θ0 ∪ Θ1 in eine (Null-)Hypo-these Θ0 und eine Alternative (Gegenhypothese) Θ1.Ein Test von Θ0 gegen Θ1 ist eine Statistik ϕ(X1, . . . , Xn) mit ϕ : Rn → 0, 1.Die Menge K := x ∈ Rn : ϕ(x) = 1 heißt Ablehnungsbereich, Verwerfungsbereich oderkritischer Bereich des Tests.

Page 96: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

96 KAPITEL 3. SCHLIESSENDE STATISTIK

Bemerkung 3.3.3 1. Interpretation: Die Hypothese ist der erwartete/angenommeneNormalfall, die Alternative die Abweichung von der Norm, die wir gegebenenfallsentdecken mochten. ϕ(x) = 1 bedeutet, dass wir uns auf Grund der Daten x fur dieAlternative entscheiden.

2. Zwei Arten von Fehlern sind moglich:Fehler 1. Art. Falschliches Ablehnen der Hypothese: ϕ(x) = 1, obwohl ϑ ∈ Θ0.Fehler 2. Art. Falschliches Akzeptieren der Hypothese: ϕ(x) = 0, obwohl ϑ ∈ Θ1.Ziel ist es, die Wahrscheinlichkeit fur beide Fehler klein zu halten.

3. Schatztheorie: Bestimmung von ϑ ∈ Θ.Testtheorie: (nur) Entscheidung, ob ϑ ∈ Θ0 oder ϑ ∈ Θ1.

Beispiel 3.3.4 zu Beispiel 3.3.1:Beobachtet seien n = 20 Geburten, davon X Kuhkalber (Erfolge). X (nur eine Beobach-tung) sei unter Pϑ binomialverteilt mit Parametern n, ϑ, wobei Θ = [1/2, 1].Hypothese: Θ0 = 1/2 (kein Effekt)Alternative: Θ1 = (1/2, 1] (Das Verfahren wirkt.)

Definition 3.3.5 Fortsetzung von Definition 3.3.2

1. Der maximale Fehler 1. Art, d. h.

supϑ∈Θ0

Pϑ((X1, . . . , Xn) ∈ K)

heißt Umfang oder effektives Niveau von ϕ. Wir bezeichnen ϕ als Test zum (Irrtums-,Signifikanz-)Niveau α, falls supϑ∈Θ0

Pϑ((X1, . . . , Xn) ∈ K) ≤ α.

2. Die Funktion Gϕ : Θ→ [0, 1] mit

Gϕ(ϑ) := Pϑ((X1, . . . , Xn) ∈ K) (= Eϑ[ϕ(X)])

heißt Gutefunktion des Tests. Fur ϑ ∈ Θ1 heißtGϕ(ϑ) Macht, Starke oder Scharfe vonϕ bei ϑ.

Bemerkung 3.3.6 Fur ϑ ∈ Θ0 ist Gϕ(ϑ) die Wahrscheinlichkeit eines Fehlers 1. Art. Furϑ ∈ Θ1 ist βϕ(ϑ) := 1−Gϕ(ϑ) die Wahrscheinlichkeit eines Fehlers 2. Art.Problem: Eine Verringerung der Wahrscheinlichkeit des Fehlers 1. Art bewirkt meist eineErhohung der Wahrscheinlichkeit des Fehlers 2. Art. Eine gleichzeitige Minimierung ist alsonicht moglich.Ausweg: Asymmetrische Betrachtung der Fehler. Man wahlt ein Niveau α ∈ (0, 1) (oftα = 0,05) und sucht unter allen Tests zum Niveau α (d. h. Tests mit einer Irrtumswahr-scheinlichkeit 1. Art ≤ α) einen Test mit maximaler Macht Gϕ(ϑ) fur alle ϑ ∈ Θ1 (d. h. miteiner moglichst kleinen Irrtumswahrscheinlichkeit 2. Art fur alle ϑ ∈ Θ1).

Page 97: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.3. TESTEN VON HYPOTHESEN 97

Definition 3.3.7 Fortsetzung von Definitionen 3.3.2, 3.3.4

1. Ein Test ϕ von Θ0 gegen Θ1 heißt (gleichmaßig) bester Test zum Niveau α, falls erein α-Niveau-Test ist und

Gϕ(ϑ) ≥ Gψ(ϑ), ϑ ∈ Θ1

fur alle anderen α-Niveau-Tests ψ.

2. Ein Test ϕ heißt unverfalscht zum Niveau α, falls

Gϕ(ϑ0) ≤ α ≤ Gϕ(ϑ1), ϑ0 ∈ Θ0, ϑ1 ∈ Θ1

(d. h. die Entscheidung fur die Alternative ist wahrscheinlicher, wenn sie wahr ist, alswenn sie falsch ist).

Bemerkung 3.3.8 1. Die Zuordnung von Hypothese und Alternative hangt von der An-wendung, dem Interesse bzw. den Folgen eines Irrtums ab. Die Hypothese ist das,wofur man sich entscheidet, wenn aus Mangel an Daten kein Urteil moglich ist.

2. Asymmetrische Sprechweise:ϕ(x) = 1: Man lehnt die Hypothese ab (entspricht Entscheidung fur die Alternative).ϕ(x) = 0: Man lehnt die Hypothese nicht ab. Dies bedeutet nicht unbedingt, dass mandie Alternative fur falsch halt, sondern vielleicht nur, dass die Daten nicht ausreichen,um die Hypothese zu verwerfen (d. h. in dubio pro reo, wobei der Angeklagte hier dieHypothese ist).

3. Achtung: Wenn ein Test ϕ das Niveau 0,05 hat, bedeutet das nicht, dass im Fall ϕ(x) =

1 die Alternative oder im Fall ϕ(x) = 0 die Hypothese mit Wahrscheinlichkeit 0,95wahr sind. Hypothese und Alternative sind nicht zufallig (außer in der BayesschenStatistik, vgl. Abschnitt 3.5)!

4. Gleichmaßig beste Tests mussen nicht existieren. Manchmal existieren immerhingleichmaßig beste unverfalschte Tests. Aber auch diese mussen nicht immer existierenoder bestimmbar sein.

5. Es gibt eine Analogie zu Kontrapositionsbeweisen: Wenn fur Aussagen A,B gilt,dass A B impliziert, aber B falsch ist, dann ist auch A falsch (denn A ⇒ B

impliziert ¬B ⇒ ¬A). Man betrachte nun die Aussagen A = ”ϑ ∈ Θ0“ undB = ”ϕ(X1, . . . , Xn) = 0“. Es gilt zwar nicht A ⇒ B, aber immerhin ist B mithoher Wahrscheinlichkeit wahr, wenn A wahr ist. Wenn wir also ϕ(X1, . . . , Xn) 6= 0

beobachten, glauben wir eher nicht an A, auch wenn wir die Gultigkeit von A undsomit der Nullhypothese nicht vollig ausschließen konnen.

Page 98: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

98 KAPITEL 3. SCHLIESSENDE STATISTIK

Beispiel 3.3.9 zu Beispiel 3.3.1, 3.3.4:Wahle beispielsweise das Niveau α = 0,05 (falls das Verfahren nutzlos ist, soll es hochstensmit 5% Wahrscheinlichkeit gekauft werden).Idee: Wahle ϕ(x) = 1(c,∞)(x), d. h. K = c+ 1, c+ 2, . . . , n fur ein c ∈ 0, . . . , n.Fehler 1. Art: P1/2(X ∈ K) = P1/2(X > c) =

∑20k=c+1

(20k

)(1

2)20. Dieser Wert betragt

0,0207 fur c = 14 und 0,0577 fur c = 13. Fur c ≥ 14 wird das Niveau α eingehalten.Macht bei ϑ ∈ Θ1: Pϑ(X ∈ K) =

∑20k=c+1

(20k

)ϑk(1 − ϑ)(20−k). Diese fallt monoton in c.

Wahle also c = 14, d. h. das Verfahren wird gekauft, wenn mehr als 14 der 20 geborenenTiere Kuhkalber sind.Angenommen, ϑ = 0,7. Das Verfahren ware also schon wirtschaftlich interessant. DieMacht bei ϑ = 0,7 ist P0,7(X ∈ K) ≈ 0,417, d. h. mit Wahrscheinlichkeit 1−0,417 = 0,583

wird ein solches Verfahren nicht entdeckt. Der Fehler 2. Art ist hier also unbefriedigendgroß.Moglicher Ausweg: Betrachtung einer großeren Stichprobe n zur Erhohung derTrennscharfe.

Bemerkung 3.3.10 zur Konstruktion von Tests:Wir betrachten zunachst den sehr einfachen Fall von einfachen Hypothesen, d. h. Θ0,Θ1

sind einelementig. Sei im Folgenden ein diskretes oder stetiges stochastisches Modell mitzugehorigen Dichten %ϑ gegeben, vergleiche Bemerkung 3.2.16. Seien Θ = ϑ0, ϑ1,Θ0 =

ϑ0,Θ1 = ϑ1.Idee: Ist die Wahrscheinlichkeit der Beobachtung x unter ϑ1 groß und unter ϑ0 klein, ent-scheiden wir uns fur Θ1. Im umgekehrten Fall entscheiden wir uns fur Θ0.

Definition 3.3.11 1. Die Funktion R : Rn → [0,∞] mit

R(x) :=

%ϑ1

(x)

%ϑ0(x)

falls %ϑ0(x) > 0,

∞ sonst

heißt Likelihood-Quotient (LQ) oder Dichte-Quotient.

2. Ein Likelihood-Quotienten-Test (LQT) von ϑ0 gegen ϑ1 ist ein Test ϕ(X1, . . . , Xn)

der Form

ϕ(x) =

1 falls R(x) > c,

0 falls R(x) < c(3.3)

fur ein c ≥ 0.

Solche Tests sind tatsachlich optimal.

Satz 3.3.12 (Neyman-Pearson-Lemma) In obigem Rahmen ist jeder LQT ϕ(X1, . . . , Xn)

bester Test zu seinem effektiven Niveau α.

Page 99: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.3. TESTEN VON HYPOTHESEN 99

Beweis. Wir beweisen nur den Fall diskreter Dichten. Stetige Dichten werden analog behan-delt.Sei ψ ein weiterer Test zum Niveau α und x ∈ Rn. Fur %ϑ1(x)− c%ϑ0(x) > 0 ist ϕ(x) = 1,fur %ϑ1(x)− c%ϑ0(x) < 0 ist ϕ(x) = 0. Es folgt, dass

(ϕ(x)− ψ(x))(%ϑ1(x)− c%ϑ0(x)) ≥ 0

und damit auch ∑x∈Rn

(ϕ(x)− ψ(x))(%ϑ1(x)− c%ϑ0(x)) ≥ 0.

Also ist

Eϑ1 [ϕ(X1, . . . , Xn)]− Eϑ1 [ψ(X1, . . . , Xn)]

2.2.22=

∑x∈Rn

ϕ(x)%ϑ1(x)−∑x∈Rn

ψ(x)%ϑ1(x)

≥ c(∑x∈Rn

ϕ(x)%ϑ0(x)− ψ(x)%ϑ0(x))

= c(Eϑ0 [ϕ(X1, . . . , Xn)]︸ ︷︷ ︸

−Eϑ0 [ψ(X1, . . . , Xn)]︸ ︷︷ ︸≤α

)≥ 0,

d. h. Eϑ1 [ϕ(X1, . . . , Xn)] ≥ Eϑ1 [ψ(X1, . . . , Xn)].

Dieser einfache Fall ist eher selten. Jetzt werden daher mit der obigen Idee zusammenge-setzte (d. h. mehrelementige) Hypothesen bzw. Alternativen betrachtet.

Definition 3.3.13 Sei ein diskretes oder stetiges stochastisches Modell mit zugehorigenDichten %ϑ gegeben, vgl. Bemerkung 3.2.16. Sei Θ = Θ0 ∪Θ1 eine disjunkte Zerlegung.

1. Die Funktion R : Rn → [0,∞] mit

R(x) :=

supϑ∈Θ1

%ϑ(x)

supϑ∈Θ0

%ϑ(x)falls der Nenner > 0 ist,

∞ sonst

heißt (verallgemeinerter) Likelihood-Quotient.

2. Ein Likelihood-Quotienten-Test (LQT) von Θ0 gegen Θ1 ist ein Test ϕ(X1, . . . , Xn)

der Form

ϕ(x) =

1 falls R(x) > c,

0 falls R(x) < c

fur ein c ≥ 0.

Bemerkung 3.3.14 1. LQ-Tests haben nicht immer, aber zumindest oft gewisse Opti-malitatseigenschaften (vgl. ML-Schatzer).

Page 100: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

100 KAPITEL 3. SCHLIESSENDE STATISTIK

2. Falls T0 = t0(X1, . . . , Xn) ML-Schatzer von ϑ bezuglich Θ0 (anstelle von Θ) undT1 = t1(X1, . . . , Xn) ML-Schatzer von ϑ bezuglich Θ1 (anstelle von Θ) ist, dann ist

R(x) =%T1(x)(x)

%T0(x)(x)

fur alle x ∈ Rn, fur die der Nenner positiv ist.

Beispiel 3.3.15 Welche Gestalt haben LQ-Tests in Beispiel 3.3.1, 3.3.4, 3.3.9?Es ist %ϑ(x) =

(nx

)ϑx(1− ϑ)n−x, also

∂ϑ%ϑ(x) =

(n

x

)ϑx−1(1− ϑ)n−x−1︸ ︷︷ ︸

>0

(x(1− ϑ)− (n− x)ϑ)︸ ︷︷ ︸=x−nϑ

.

Wegen x− nϑ > 0 fur ϑ < x/n und x− nϑ < 0 fur ϑ > x/n ist

supϑ∈(1/2,1]

%ϑ(x) = %max 12, xn(x),

und der Likelihood-Quotient hat somit die Form

R(x) =%max 1

2, xn(x)

%1/2(x)=

(nx)( x

n)x(1− x

n)n−x

(nx)( 12

)n= (2κκ(1− κ)1−κ)n falls κ := x

n> 1

2,

1 falls xn≤ 1

2.

Es ist ∂∂κ

log(κκ(1−κ)1−κ) = ∂∂κ

(κ log(κ) + (1−κ) log(1−κ)) = log( κ1−κ) > 0 fur κ > 1

2,

also ist x 7→ R(x) monoton wachsend und LQ-Tests sind von der Form

ϕ(x) =

1 falls x ≥ c,

0 falls x < c

fur ein c, wie in Beispiel 3.3.9 angesetzt.

Beispiel 3.3.16 Normalverteilung, einseitiger Test bei bekannter Varianz:Seien X1, . . . , Xn unter Pϑ unabhangig und N(µ, σ2)-verteilt, wobei σ2 > 0 gegeben sei.Gesucht ist ϑ = µ. Hypothese Θ0 = (−∞, µ0], Alternative Θ1 = (µ0,∞) fur ein µ0 ∈ R.Es liegt anschaulich nahe, die Nullhypothese fur große x := 1

n

∑ni=1 xi abzulehnen, also

einen Test der Form

ϕ(x) =

1 falls x > c,

0 falls x < c

fur ein c ∈ R zu verwenden.

Page 101: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.3. TESTEN VON HYPOTHESEN 101

Was ist das effektive Niveau α von ϕ? Nach Satz 3.3.19 ist X unter Pϑ gerade N(µ, σ2/n)-verteilt. Also gilt

α := supϑ∈Θ0

Pϑ(ϕ(X1, . . . , Xn) = 1) = supµ≤µ0

N(µ,σ2/n)((c,∞))

= supµ≤µ0

N(0,1)

((c− µσ/√n

,∞))

= supµ≤µ0

(1− Φ

(c− µσ/√n

))= 1− Φ

(c− µ0

σ/√n

),

da Φ monoton wachsend ist. Zu gegebenem Niveau α wahle also c−µ0σ/√n

= Φ−1(1 − α), umdas Niveau voll auszuschopfen, d. h. den Test

ϕ(x) =

1 falls x−µ0

σ/√n> Φ−1(1− α),

0 sonst.(3.4)

Die Gutefunktion des Tests ist

Gϕ(ϑ) = Pϑ

(X − µσ/√n︸ ︷︷ ︸

N(0,1)-vert.unter Pϑ

> Φ−1(1− α) +µ0 − µσ/√n

)= 1− Φ

(Φ−1(1− α) +

µ0 − µσ/√n

).

Fur Interessierte untersuchen wir die Gestalt von LQ-Tests. Es ist

%ϑ(x) =n∏i=1

(1√

2πσ2exp

(−(xi − µ)2

2σ2

))

= (2πσ2)−n2 exp

(− 1

2σ2

(n∑i=1

(xi − x)2 + n(x− µ)2

)).

Also gilt supϑ∈Θ0%ϑ(x) = %minx,µ0(x) sowie supϑ∈Θ1

%ϑ(x) = %maxx,µ0(x), und derLikelihood-Quotient hat die Form

R(x) =%maxx,µ0(x)

%minx,µ0(x)=

exp(− 1

2σ2n(x− µ0)2) falls x ≤ µ0,

exp( 12σ2n(x− µ0)2) falls x > µ0.

Folglich ist x 7→ R(x) eine in x monoton wachsende Funktion und LQ-Tests haben dieForm (3.4), die auch intuitiv plausibel erschien.

Bemerkung 3.3.17 Der einseitige Gaußtest in Beispiel 3.3.16 ist gleichmaßig bester Testzu seinem Niveau (ohne Beweis).

Page 102: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

102 KAPITEL 3. SCHLIESSENDE STATISTIK

Beispiel 3.3.18 Normalverteilung, zweiseitiger Test bei bekannter Varianz:Sei das stochastische Modell wie in Beispiel 3.3.16.Hypothese Θ0 = µ0, Alternative Θ1 = R \ µ0 fur ein µ0 ∈ R.Es liegt nahe, die Nullhypothese dann abzulehnen, wenn |x − µ0| groß ist, also einen Testder Form

ϕ(x) =

1 falls |x− µ0| > c,

0 falls |x− µ0| < c,

fur ein c ∈ R zu verwenden.Was ist das effektive Niveau?

α := supϑ∈Θ0

Pϑ(ϕ(X1, . . . , Xn) = 1) = N(µ0, σ2/n)

([µ0 − c, µ0 + c]C

)= N(0, 1)

([−c√n

σ,c√n

σ

]C)= 1−

(c√n

σ

)− Φ

(−−c

√n

σ

))= 2

(1− Φ

(c√n

σ

)),

da Φ symmetrisch ist.Zu gegebenem Niveau wahle also c

√nσ

= Φ−1(1− α2), d. h. den Test

ϕ(x) =

1 falls |x−µ0|

σ/√n> Φ−1(1− α

2),

0 sonst.(3.5)

Fur Interessierte untersuchen wir wieder die Gestalt von LQ-Tests. Analog zu Beispiel3.3.16 gilt, dass supϑ∈Θ1

%ϑ(x) = %x(x) und supϑ∈Θ0%ϑ(x) = %µ0(x) sowie

R(x) =%x(x)

%µ0(x)= exp

(1

2σ2n(x− µ0)2

).

Weiter ist x 7→ R(x) eine streng monotone Funktion von |x − µ0|. Die LQ-Tests sind alsovon der oben intuitiv gewahlten Form (3.5).

Die folgenden Erganzungen zur Normalverteilung (zum Teil ohne Beweis) werden im Zu-sammenhang mit dem vorigen und dem folgenden Test benotigt.

Satz 3.3.19 1. Seien X1, X2 unabhangig und N(µ1, σ21)- bzw. N(µ2, σ

22)-verteilt.

Dann ist S := X1 +X2 gerade N(µ1 + µ2, σ21 + σ2

2)-verteilt(d. h. N(µ1, σ

21) ∗N(µ2, σ

22) = N(µ1 + µ2, σ

21 + σ2

2)).

2. Seien X1, . . . , Xn unabhangig und N(µ, σ2)-verteilt.Dann ist X gerade N(µ, σ2/n)-verteilt.

Beweis.

Page 103: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.3. TESTEN VON HYPOTHESEN 103

1. Die Verteilungsfunktion von S ist

%S(x)2.2.70=

∫ϕµ1,σ2

1(z)ϕµ2,σ2

2(x− z) dz

=1

2πσ1σ2

∫exp

(−(z − µ1)2

2σ21

− (x− z − µ2)2

2σ22

)dz

= c exp

(−(x− µ)2

2σ2

)fur c ∈ R, µ ∈ R, σ2 ∈ R+. Da %S eine Dichte ist, muss c = 1√

2πσ2gelten, S ist

also N(µ, σ2)-verteilt. Aus E[S] = E[X1] + E[X2] folgt µ = µ1 + µ2, und ausVar(S) = Var(X1) + Var(X2) folgt σ2 = σ2

1 + σ22 .

2. Induktion:∑n

i=1Xi ist N(nµ, nσ2)-verteilt. Es folgt sofort, dass 1n

∑ni=1Xi dann

N(µ, σ2/√n)-verteilt ist.

Satz 3.3.20 SeienX,X1, . . . , Xn unabhangig undN(0, 1)-verteilt. Dann hat die Verteilungvon T := X√

1n

∑ni=1 X

2i

fur alle x ∈ R die Dichte

%n(x) =Γ(n+1

2)

Γ(n2)√nπ

(1 +

x2

n

)−n+12

.

Γ ist die Gammafunktion, d. h. Γ(x) :=∫∞

0e−ttx−1 dt fur x > 0

(insbesondere Γ(1) = 1, Γ(x+ 1) = xΓ(x), Γ(n+ 1) = n!, Γ(1/2) =√π).

(ohne Beweis)

Definition 3.3.21 Die Verteilung tn mit Dichte %n wie in Satz 3.3.20 heißt Studentsche t-Verteilung mit n Freiheitsgraden.

Satz 3.3.22 Seien X1, . . . , Xn unabhangig, N(µ, σ2)-verteilt. Dann ist

T :=X − µ√S2/n

tn−1-verteilt, wobei X := 1n

∑ni=1 Xi, S2 := 1

n−1

∑ni=1(Xi −X)2.

(ohne Beweis)

In praktischen Anwendungen ist die Varianz in den Beispielen 3.3.16, 3.3.18 meist unbe-kannt.

Beispiel 3.3.23 Normalverteilung, einseitiger Test bei unbekannter Varianz:Seien X1, . . . , Xn unter Pϑ unabhangig und N(µ, σ2)-verteilt, wobei ϑ = (µ, σ2) ∈ R ×(0,∞).Hypothese: Θ0 = (−∞, µ0]× (0,∞), Alternative Θ1 = (µ0,∞)× (0,∞) fur ein µ0 ∈ R.

Page 104: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

104 KAPITEL 3. SCHLIESSENDE STATISTIK

In Anbetracht von Test (3.4) in Beispiel 3.3.16 liegt ein Test der Form

ϕ(x) =

1 falls τµ0 > c,

0 falls τµ0 < c(3.6)

fur ein c ∈ R nahe, wobei

τµ0:=

(x− µ0)√n√

1n−1

∑ni=1(xi − x)2

.

Dies beruht auf der Idee, die unbekannte Varianz in (3.4) durch die Stichprobenvarianz alsSchatzer dafur zu ersetzen,Was ist das effektive Niveau? Unter Pϑ ist τµ(X1, . . . , Xn) gerade tn−1-verteilt nach Satz3.3.22. Da

τµ0 = τµ −(µ0 − µ)

√n√

1n−1

∑ni=1(xi − x)2︸ ︷︷ ︸≥0

,

ist Pϑ(ϕ(X1, . . . , Xn) = 1) auf Θ0 maximal fur µ = µ0. Also

α := supϑ∈Θ0

Pϑ(ϕ(X1, . . . , Xn) = 1) = tn−1((c,∞)) = 1− tn−1((−∞, c]).

Zum Niveau α wahle also c = tn−1,1−α, wobei tn−1,1−α das (1 − α)-Quantil der tn−1-Verteilung sei, d. h.

ϕ(x) =

1 falls τµ0 > tn−1,1−α,

0 sonst.(3.7)

Fur Interessierte leiten wir wieder dir Gestalt von LQ-Tests her? Es gilt

log %ϑ(x) = log

(n∏i=1

1√2πσ2

e−(xi−µ)2

2σ2

)

= −n2

log(2πσ2)− 1

2σ2

n∑i=1

(xi − µ)2

und somit∂

∂(σ2)log(%ϑ(x)) = −n

2

1

σ2+

1

2(σ2)2

n∑i=1

(xi − µ)2.

Der Ausdruck ist großer null fur σ2 < vµ := 1n

∑ni=1(xi − µ)2 und kleiner null fur σ2 > vµ.

Also istsupϑ∈Θ0

%ϑ(x) = supµ≤µ0

σ2>0

%(µ,σ2)(x) = supµ≤µ0

%(µ,vµ)(x)

und analogsupϑ∈Θ1

%ϑ(x) = supµ>µ0

%(µ,vµ)(x).

Page 105: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.3. TESTEN VON HYPOTHESEN 105

Folglich ist

R(x) =

supµ>µ0

%(µ,vµ)(x)

supµ≤µ0

%(µ,vµ)(x)

=

supµ>µ0

(2πvµ)−n2 exp(− 1

2vµnvµ)

supµ≤µ0

(2πvµ)−n2 exp(− 1

2vµnvµ)

=

supµ>µ0

v−n

supµ≤µ0

v−n

.

Da

vµ =1

n

n∑i=1

(xi − µ)2 =1

n

n∑i=1

(xi − x)2

︸ ︷︷ ︸=:σ2

+ (x− µ)2

︸ ︷︷ ︸wachsend in |x−µ|

,

folgt

R(x) =

( σ2

vµ0)n2 falls x < µ0,

(vµ0

σ2 )n2 falls x ≥ µ0.

Ferner gilt vµ0

σ2 = 1 + (x−µ0)2

σ2 = 1 +τ2µ0

n−1mit

τµ0:=

(x− µ0)√n√

1n−1

∑ni=1(xi − x)2

.

R ist eine streng monoton wachsende Funktion von τµ0 (sofern x ≥ µ0). Somit hat derLQ-Test die oben betrachtete Form (3.6).

Beispiel 3.3.24 Normalverteilung, zweiseitiger Test bei unbekannter Varianz:Sei das Modell wie in Beispiel 3.3.23.Hypothese Θ0 = µ0 × (0,∞), Alternative Θ1 = (R \ µ0)× (0,∞).Analog zu Beispiel 3.3.18 liegt ein Test der Form

ϕ(x) =

1 falls |τµ0| > c,

0 falls |τµ0| < c(3.8)

fur ein c ∈ R nahe. Das gewunschte Niveau wird fur c = tn−1,1−α/2 eingehalten, also fur

ϕ(x) =

1 falls |τµ0| > tn−1,1−α/2,

0 sonst.(3.9)

Page 106: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

106 KAPITEL 3. SCHLIESSENDE STATISTIK

Auch hier betrachten wir der Vollstandigkeit halber den LQ-Test. Analog zu Beispiel 3.3.23ergibt sich supϑ∈Θ0

%ϑ(x) = %(µ0,vµ0 )(x) sowie supϑ∈Θ1%ϑ(x) = %(x,σ2)(x) und somit

R(x) =(vµ0

σ2

)n2

=

(1 +

τ 2µ0

n− 1

)n2

.

R ist eine streng monoton wachsende Funktion von |τµ0|. Somit hat der LQ-Test die obenbetrachtete Form (3.8).

Bemerkung 3.3.25 1. Die ein- bzw. zweiseitigen t-Tests in den Beispielen 3.3.23, 3.3.24sind gleichmaßig beste unverfalschte Tests zum Niveau α, aber nicht gleichmaßigbeste Tests (ohne Beweis).

2. Fur n → ∞ konvergiert die t-Verteilung schwach gegen die Standard-Normalvertei-lung (ohne Beweis). In Anbetracht von (3.7) und (3.9) ist also fur genugend großes nder quantitative Unterschied zwischen den t-Tests und den entsprechenden Gaußtests(3.4, 3.5) klein, wenn man in letzteren die unbekannte Varianz durch die Stichproben-varianz ersetzt.

Bemerkung 3.3.26 In den bisherigen Beispielen wurden Familien von Tests mit kritischemBereich Kα, α ∈ (0, 1) berechnet, wobei Kα ⊆ Kα′ fur α ≤ α′, etwa Kα = t(x) > t1−αfur eine feste Statistik T = t(X1, . . . , Xn).Fur x ∈ Rn definiert man den p-Wert als

p(x) := infα ∈ (0, 1) : x ∈ Kα,

d. h. das kleinste Niveau α derart, dass die Hypothese bei Beobachtung von x durch den zuα gehorigen Test der Testfamilie abgelehnt wird.

Beispiel 3.3.27 Seien X1, . . . , Xn wie in den Beispielen 3.1.5, 3.2.19, d. h. mit Parameterϑ Bernoulli-verteilt (Munzwurfe).Getestet werden soll, ob die Munze fair ist, d. h. ob ϑ = 1/2. Wir betrachten allgemeiner dieFrage, ob ϑ = p fur festes p ∈ (0, 1), z. B. p = 1/2.Hypothese Θ0 = p, Alternative Θ1 = [0, 1] \ p.Mogliche Testkonstruktionen:

1. LQ-Test: Da wir ML-Schatzer in Beispiel 3.2.19 berechnet haben, kann man im Prin-zip den LQ-Test angeben, vgl. Bemerkung 3.3.15. In der Literatur ist dieser Testnicht ublich, vielleicht, weil die Berechnung der zu gegebenem Niveau α gehoren-den Schranke c in (3.3) etwas aufwandig ist.

2. Wir wahlen p, p ∈ [0, 1] mit p < p < p und einen Test

ϕ(x) =

0 falls p < x < p,

1 sonst,

Page 107: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.3. TESTEN VON HYPOTHESEN 107

d. h. die Hypothese wird wie in Motivation 3.1.1 abgelehnt, fallsX weit von p entferntliegt. Fur den Fehler 1. Art gilt

Pp(ϕ = 1) = Pp(X ≤ p) + Pp(X ≥ p)

= Pp(X ≤ p) + Pp(1−X ≤ 1− p)= Fn,p(np) + Fn,1−p(n(1− p)),

wobei Fn,p, Fn,1−p die Verteilungsfunktionen der Binominalverteilungen mit Parame-tern n, p bzw. n, 1 − p bezeichnen. Zu gegebenem Niveau α wahlen wir p, p ausSymmetriegrunden so, dass beide Fehlerquellen hochstens α/2 betragen. Es seienalso p maximal mit Fn,p(np) ≤ α/2 und p maximal mit Fn,1−p(n(1 − p)) ≤ α/2.Ausgedruckt durch die Quantilfunktion erhalten wir p = F←n,p(

α2+)/n und p =

1− F←n,1−p(α2 +)/n.

3. Fur genugend große n ist X unter Pϑ ungefahr N(ϑ, σ2)-verteilt, wobei σ2 = ϑ(1 −ϑ)/n. Wir wahlen daher einen Test der Form

ϕ(x) =

1 falls |x− p| >√

p(1−p)n

Φ−1(1− α2),

0 sonst,

in Analogie zu (3.5). Da X aber nicht exakt normalverteilt ist, halt er das Niveau nurungefahr ein.

Bemerkung 3.3.28 zu sauberem und unsauberem Vorgehen:

1. Man sollte in der folgenden Reihenfolge arbeiten:

(a) Wahl des statistischen Modells,

(b) Wahl von Hypothese und Alternative,

(c) Wahl des Niveaus,

(d) Wahl des Tests,

(e) Erhebung der Daten,

(f) Entscheidung.

2. In der Medizinstatistik geht man noch weiter (good clinical practice)

(a) Kontrollgruppe: Es wird mit ununterscheidbarem Medikament ohne Wirkstoffverglichen, um einen Placebo-Effekt auszuschließen;

(b) Doppel-Blind: Weder Arzt noch Patient wissen, ob Medikament oder Placeboverabreicht werden;

(c) Randomisieren: Die Zuordnung Placebo/Wirkstoff erfolgt zufallig.

Page 108: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

108 KAPITEL 3. SCHLIESSENDE STATISTIK

3. Mogliche Fehler (→ publication bias):

• Hypothese an denselben Daten bilden und testen,

• Niveau dem Ergebnis anpassen (p-Werte!),

• mehrere Tests nacheinander, bis Ablehnung erfolgt,

• und viele andere mehr . . .

3.4 Konfidenzintervalle

Problem: Schatzer liefern in aller Regel nicht genau den ”wahren“ Wert der Kenngroße,sondern weichen mehr oder weniger stark davon ab.Ausweg: Angabe eines ganzen Intervalls, in dem man den wahren Wert mit hoher Wahr-scheinlichkeit vermutet.

Definition 3.4.1 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben. Seien τ : Θ→R (bzw. Rd, . . . ) eine Kenngroße, α ∈ (0, 1).Eine Abbildung C = c(X1, . . . , Xn) mit c : Rn → P(R) (bzw. P(Rd), . . . ) heißt Be-reichsschatzer fur τ zum Irrtumsniveau α (oder Sicherheitsniveau (1− α)), falls

infϑ∈Θ

Pϑ(τ(ϑ) ∈ C) ≥ 1− α.

Fur x ∈ Rn heißt c(x) Konfidenzintervall fur τ (bzw. bei Rd-wertigem τ Konfidenz- oderVertrauensbereich).

Bemerkung 3.4.2 Das bedeutet anschaulich, dass der wahre Parameter hochstens mitWahrscheinlichkeit α nicht im Konfidenzbereich liegt.Achtung: Zufallig (da von Daten X1, . . . , Xn abhangig) ist hier die Menge C =

c(X1, . . . , Xn), nicht aber der Parameter ϑ.

Aus einer Familie von Tests zu jedem Parameter kann man sich einen Konfidenzbereichkonstruieren. Umgekehrt liefert ein Konfidenzbereich einen zweiseitigen Test fur jeden ein-zelnen Parameterwert:

Satz 3.4.3 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben.Seien τ : Θ→ R (bzw. Rd, . . . ) eine Kenngroße, α ∈ (0, 1).

1. Ist fur alle ϑ0 ∈ Θ ein α-Niveau-Test ϕϑ0(X1, . . . , Xn)

von Θ0 = ϑ ∈ Θ: τ(ϑ) = τ(ϑ0) gegen Θ1 = Θ \Θ0 gegeben, definiert

c(x) := τ(ϑ) : ϑ ∈ Θ mit ϕϑ(x) = 0

einen Bereichsschatzer τ zum Niveau α.

Page 109: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.4. KONFIDENZINTERVALLE 109

2. Ist C = c(X1, . . . , Xn) ein Bereichsschatzer fur τ zum Niveau α, dann definiert furϑ0 ∈ Θ0

ϕ(x) := 1− 1c(x)(τ(ϑ0))

einen α-Niveau-Test von Θ0 = ϑ ∈ Θ: τ(ϑ) = τ(ϑ0) gegen Θ1 = Θ \Θ0.

Beweis.

1. Sei ϑ0 ∈ Θ, sei ϑ ∈ Θ mit τ(ϑ) = τ(ϑ0). (Im Fall τ(ϑ) = ϑ oder falls τ injektiv ist,heißt das einfach ϑ = ϑ0.) Dann gilt

Pϑ(τ(ϑ0) ∈ c(X1, . . . , Xn)) ≥ Pϑ0(ϕϑ(X1, . . . , Xn) = 0)α-Niv.-Test≥ 1− α.

2. Sei ϑ0 ∈ Θ, sei ϑ ∈ Θ mit τ(ϑ) = τ(ϑ0). Dann gilt

Pϑ(ϕ(X1, . . . , Xn) = 0) = Pϑ(τ(ϑ) ∈ c(X1, . . . , Xn)) ≥ 1− α.

Ein Konfidenzbereich enthalt anschaulich betrachtet die Werte τ(ϑ0), die man angesichts derBeobachtungen fur denkbar halt. Da ein Test von Θ0 = ϑ ∈ Θ: τ(ϑ) = τ(ϑ0) ja geradeuntersucht, ob man τ(ϑ0) fur mit den Beobachtungen vertraglich halt, liegt es intuitiv nahe,im Konfidenzbereich genau die Werte τ(ϑ0) zu sammeln, fur die der Test nicht ablehnt.Genau dies geschieht im vorigen Satz.

Beispiel 3.4.4 Seien X1, . . . , Xn unter Pϑ unabhangig und N(µ, σ2)-verteilt, wobei σ2 > 0

gegeben und ϑ = µ seien, vgl. Beispiel 3.3.18.Zu schatzen sei ϑ = µ (d. h. τ(ϑ) = ϑ).Sei α ∈ (0, 1). Nach Beispiel 3.3.18 ist der α-Niveau-Test fur Θ0 = µ0 gegen Θ1 = R\Θ0

ϕ(X1, . . . , Xn) = 1|X−µ0|>

√σ2

nΦ−1(1−α

2)

.Satz 3.4.3: Wahle als Konfidenzbereich beispielsweise C = c(X1, . . . , Xn) mit

c(x) =

[x− σ√

nΦ−1

(1− α

2

), x+

σ√n

Φ−1(

1− α

2

)].

Beispiel 3.4.5 Realistischere Situation: Auch σ2 ist unbekannt, wie in Beispiel 3.2.20 bzw.3.3.24. Fur ϑ := (µ, σ2) sei τ(ϑ) = µ zu schatzen.Sei α ∈ (0, 1) gegeben. Nach Beispiel 3.3.24 ist der α-Niveau-Test fur Θ0 = µ0 ×(0,∞) = ϑ ∈ Θ: m(ϑ) = µ0 gegen Θ1 = Θ \Θ0 gegeben durch

ϕ(X1, . . . , Xn) = 1∣∣∣∣ (X−µ0)√n√

S2

∣∣∣∣>tn−1,1−α/2

,wobei X das Stichprobenmittel, S2 die Stichprobenvarianz und tn−1,1−α/2 das (1 − α/2)-Quantil der tn−1-Verteilung sei. Nach Satz 3.4.3 wahle als Konfidenzbereich daher z. B.

C = c(X1, . . . , Xn) =

[X −

√S2

√ntn−1,1−α/2, X +

√S2

√ntn−1,1−α/2

].

Page 110: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

110 KAPITEL 3. SCHLIESSENDE STATISTIK

Bemerkung 3.4.6 1. Die Lange des Konfidenzintervalls ist proportional zu 1/√n. Umdie Genauigkeit zu verdoppeln, muss man n vervierfachen.

2. Die Konfidenzintervalle in 3.4.4 und 3.4.5 sind asymptotisch auch fur andere Vertei-lungen anwendbar, da X nach dem zentralen Grenzwertsatz auch dann approximativnormalverteilt ist, wenn das fur die Xi nicht der Fall ist.

Beispiel 3.4.7 Produktion von Schrauben mittlerer Lange µ (Maschineneinstellung) undVarianz σ2 (Maschinenkonstante):Schatzung von µ durch Vermessen von 100 Schrauben

1. X = 115 mm, σ2 = (15,4 mm)2, n = 100, α = 0,05:Dann ist σ√

nΦ−1(1− α/2) ≈ 2,6, also C = (112,4 mm, 117,6 mm), falls σ2 bekannt.

2. Wie oben, aber S2 = (15,4 mm)2 geschatzt:√S2√ntn−1,1−α/2 ≈ 2,65, also C = (112,35 mm, 117,65 mm).

Beispiel 3.4.8 Seien X1, . . . , Xn wie in den Beispielen 3.1.5, 3.2.19, 3.3.27, d. h. mit Para-meter ϑ Bernoulli-verteilt (Munzwurfe).Mogliche Konstruktionen eines Konfidenzintervalls:

1. Verwende die Testfamilie aus Vorschlag 2 in Beispiel 3.3.27. Man erhalt als Konfi-denzbereich dann das Intervall [p, p] mit p, p aus Beispiel 3.3.27(2).

2. Verwende den Test aus Vorschlag 3 in Beispiel 3.3.27. Dies fuhrt zu einem Konfidenz-bereich [p, p], dessen Rander p, p die Gleichung

|x− p| =√p(1− p)

nΦ−1

(1− α

2

)in p losen, die nach Quadrieren quadratisch in p wird. Dieses Konfidenzintervall haltallerdings das gewunschte Niveau nur approximativ ein, wobei die Approximation furkleine und große Werte von x schlechter ist.

Bemerkung 3.4.9 Es gibt nicht das richtige Konfidenzintervall zu einem Niveau. Man kannes nach links oder rechts verschieben, solange man die Mindestwahrscheinlichkeit einhalt.

3.5 Elemente der Bayesschen Statistik

Motivation 3.5.1 Idee der Bayesschen Statistik:Man betrachtet den Parameter als zufallig. Hierzu hat man eine Vorbewertung (Vorinforma-tion, Erfahrung, Vorurteil), die dann auf Grund von Beobachtungen konkretisiert wird.Vorteile: Man erhalt Verteilungsaussagen uber den Parameter. Das Verfahren entspricht aucheher der menschlichen Vorgehensweise, aus Erfahrung zu lernen.Nachteil: Abhangigkeit der Resultate von der oft subjektiven Wahl der Vorbewertung

Page 111: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.5. ELEMENTE DER BAYESSCHEN STATISTIK 111

Mathematischer Rahmen 3.5.2 Seien X1, . . . , Xn unter allen Pϑ, ϑ ∈ Θ unabhangig undidentisch verteilt. Sei zunachst ein diskretes Modell mit (Zahl-)Dichten %ϑ und abzahlba-rem Θ betrachtet. Der unbekannte Parameter wird als Zufallsgroße U : Ω → Θ aufgefasst,d. h. nun sind sowohl der unbekannte und nicht beobachtbare Parameter ϑ (genauer: diezugehorige Zufallsgroße U ), als auch die Beobachtungen X1, . . . , Xn zufallig.Gegeben sei die Verteilung PU (Vorbewertung) mit Zahldichte α : Θ → R, d. h. α(ϑ) =

P (U = ϑ). PU heißt auch a priori-Verteilung, α heißt a priori-Dichte.Die Pϑ werden nunmehr als bedingte Wahrscheinlichkeiten interpretiert, d. h.

%ϑ(x) := Pϑ((X1, . . . , Xn) = x) := P ((X1, . . . , Xn) = x | U = ϑ)

fur x ∈ Rn, ϑ ∈ Θ.Gesucht ist die a posteriori-Dichte

πx(ϑ) := P (U = ϑ | (X1, . . . , Xn) = x), (3.10)

ϑ ∈ Θ, x ∈ (X1, . . . , Xn)(Ω), also die (Zahl-)Dichte der a posteriori-Verteilung A 7→P (U ∈ A | (X1, . . . , Xn) = x), also der Verteilung des unbekannten Parameters unterBerucksichtigung der beobachteten Daten x = (x1, . . . , xn)

Interpretation: Neubewertung der Einschatzung uber ϑ auf Grund der Beobachtungen.Berechnung:

πx(ϑ) = P (U = ϑ | (X1, . . . , Xn) = x)

BayesscheFormel=

P ((X1, . . . , Xn) = x | U = ϑ)P (U = ϑ)∑ϑ∈Θ P ((X1, . . . , Xn) = x | U = ϑ)P (U = ϑ)

=%ϑ(x)α(ϑ)∑

ϑ∈Θ %ϑ(x)α (ϑ). (3.11)

Falls das Modell stetig ist (d. h. %ϑ ist Lebesgue-Dichte), wird analog vorgegangen, auchwenn die rechte Seite von (3.10) wegen P ((X1, . . . , Xn) = x) = 0 mathematisch sinnlosscheint. Fur eine saubere Definition ist mehr Maßtheorie erforderlich. Falls Θ ⊆ R und PU

stetig ist (d. h. α ist Lebesgue-Dichte statt Zahldichte), ist die a posteriori-Dichte analog zu(3.11) definiert durch

πx(ϑ) :=%ϑ(x)α(ϑ)∫

Θ%ϑ(x)α (ϑ) dϑ

. (3.12)

Beispiel 3.5.3 n-facher Munzwurf, vgl. 3.1.5, 3.2.2, 3.2.19Da uns nichts Besseres einfallt, wahlen wir als Vorbewertung die Gleichverteilung auf Θ =

[0, 1], d. h. PU hat die Dichte α : [0, 1]→ R, α(ϑ) = 1. Dies ist ein gemischter Fall: PU hateine stetige Dichte, Pϑ hingegen eine Zahldichte.

Page 112: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

112 KAPITEL 3. SCHLIESSENDE STATISTIK

A posteriori-Dichte in Analogie zu (3.11, 3.12):

πx(ϑ) =%ϑ(x)α(ϑ)∫

A%ϑ(x)α (ϑ) dϑ

=ϑk(1− ϑ)n−k∫ 1

0ϑk (1− ϑ)n−k dϑ

mit k :=n∑i=1

xi

=ϑk(1− ϑ)n−k

B(k + 1, n− k + 1)

=(n+ 1)!

k!(n− k)!ϑk(1− ϑ)n−k

mit B(x, y) :=∫ 1

0tx−1(1− t)y−1 dt = (x−1)!(y−1)!

(x+y−1)!fur x, y ∈ N \ 0.

πx ist die Dichte einer Beta-Verteilung mit Parametern k + 1, n− k + 1.

3.5.1 Schatzen

Definition 3.5.4 Ein Schatzer T = t(X1, . . . , Xn) fur eine Kenngroße τ : Θ → R heißtBayes-Schatzer, falls er den erwarteten quadratischen Fehler E[(T − τ(U))2] unter allenSchatzern minimiert.

Satz 3.5.5 Der Bayes-Schatzer in 3.5.2 ist gegeben durch

t(x) =

∑ϑ∈Θ τ(ϑ)πx(ϑ) falls πx Zahldichte,∫τ(ϑ)πx(ϑ) dϑ falls πx Lebesgue-Dichte,

d. h. T ist der Erwartungswert von τ unter der durch πx gegebenen a posteriori-Verteilungauf dem Parameterraum Θ.

Beweis. Hier fur den diskreten Fall, der stetige Fall wird ahnlich bewiesen.Sei %(x) := P ((X1, . . . , Xn) = x). Dann ist

%(x)πx(ϑ) = P (U = ϑ | (X1, . . . , Xn) = x)P ((X1, . . . , Xn) = x)

= P ((X1, . . . , Xn) = x, U = ϑ).

Page 113: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.5. ELEMENTE DER BAYESSCHEN STATISTIK 113

Sei S = s(X1, . . . , Xn) ein weiterer Schatzer. Dann gilt

E[(S − τ(ϑ))2]− E[(T − τ(ϑ))2]

=∑ϑ∈Θ

x∈(X1,...,Xn)(Ω)

P ((X1, . . . , Xn) = x, U = ϑ)(

(s(x)− τ(ϑ))2 − (t(x)− τ(ϑ))2︸ ︷︷ ︸=s(x)2−2s(x)τ(ϑ)−t(x)2+2t(x)τ(ϑ)

)=

∑x∈(X1,...,Xn)(Ω)

%(x)(s(x)2

∑ϑ∈Θ

πx(ϑ)︸ ︷︷ ︸=1

−2s(x)∑ϑ∈Θ

πx(ϑ)τ(ϑ)︸ ︷︷ ︸=t(x)

− t(x)2∑ϑ∈Θ

πx(ϑ)︸ ︷︷ ︸=1

+2t(x)∑ϑ∈Θ

πx(ϑ)τ(ϑ)︸ ︷︷ ︸=t(x)

)

=∑

x∈(X1,...,Xn)(Ω)

%(x)(s(x)− t(x))2

≥ 0.

Beispiel 3.5.6 n-facher Munzwurf, vgl. 3.1.5, 3.2.2, 3.2.19, 3.5.3, zur Notation siehe Bei-spiel 3.5.3.Betrachte τ(ϑ) = ϑ, d. h. ϑ soll geschatzt werden. Der Bayes-Schatzer ist gegeben durch

t(x) =

∫ϑπx(ϑ) dϑ

=(n+ 1)!

k!(n− k)!

∫ϑk+1(1− ϑ)n−k dϑ

=(n+ 1)!

k!(n− k)!B(k + 2, n− k + 1)

=(n+ 1)!

k!(n− k)!

(k + 1)!(n− k)!

(n+ 2)!

=k + 1

n+ 2

fur k =∑n

i=1 xi. (Vgl. mit t(x) = kn

in 3.2.2 bzw. 3.2.19.)

3.5.2 Konfidenzbereiche

Definition 3.5.7 Seien eine Kenngroße τ : Θ→ R und α ∈ (0, 1) gegeben. Eine AbbildungC = c(X1, . . . , Xn) mit c : Rn → P(R) heißt Bereichsschatzer fur τ zum Irrtumsniveauα, falls

P (τ(U) ∈ c(X1, . . . , Xn)) ≥ 1− α.

Bemerkung 3.5.8 Achtung: Anders als in Definition 3.4.1 sind nun beide Seiten zufallig,also neben X1, . . . , Xn auch der unbekannte Parameter U .

Page 114: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

114 KAPITEL 3. SCHLIESSENDE STATISTIK

Idee zur Konstruktion, hier nur im Fall Θ ⊆ R und τ(ϑ) = ϑ: Wahle ϑ ∈ c(x) genau dann,wenn πx(ϑ) > q(α), wobei q(α) maximal gewahlt sei mit der Eigenschaft, dass∑

ϑ∈c(x)

πx(ϑ) ≥ 1− α(

bzw.∫c(x)

πx(ϑ) dϑ ≥ 1− α).

Es wird also ein moglichst kleiner Konfidenzbereich gewahlt, da er gerade die ϑ mit großtera-posteriori Wahrscheinlichkeit enthalt.C = c(X1, . . . , Xn) ist dann ein Konfidenzbereich, denn

P (U ∈ c(X1, . . . , Xn)) =∑

x∈(X1,...,Xn)(Ω)

∑ϑ∈c(x)

P ((X1, . . . , Xn) = x, U = ϑ)

=∑

x∈(X1,...,Xn)(Ω)

%(x)∑ϑ∈c(x)

πx(ϑ)

︸ ︷︷ ︸≥1−α

≥ (1− α)∑

x∈(X1,...,Xn)(Ω)

%(x)

= (1− α).

(Im Fall von Lebesgue-Dichten argumentiert man analog.)

Beispiel 3.5.9 n-facher Munzwurf, vgl. 3.1.5, 3.2.2, 3.2.19, 3.5.3, 3.5.6. Das oben angege-bene kleinste Konfidenzintervall ist vielleicht etwas aufwandig zu berechnen. Denkbar istalternativ ein Intervall der Form c(x) = [ϑ(x), ϑ(x)] wobei ϑ(x), ϑ(x) so gewahlt seien,dass P (U < ϑ|(X1, . . . , Xn) = x) = α/2 und P (U > ϑ|(X1, . . . , Xn) = x) = α/2. DieGrenzen ϑ, ϑ sind also Losungen von∫ ϑ

0

(n+ 1)!

k!(n− k)!ϑk(1− ϑ)n−kdϑ =

α

2

und ∫ 1

ϑ

(n+ 1)!

k!(n− k)!ϑk(1− ϑ)n−kdϑ =

α

2,

wobei k :=∑n

i=1 xi.

3.5.3 Testen

Definition 3.5.10 Seien Θ = Θ0 ∪ Θ1 eine disjunkte Zerlegung in die Hypothese Θ0 unddie Alternative Θ1 sowie c0, c1 > 0. Ein Test (vgl. Definition 3.3.2) ϕ(X1, . . . , Xn) von Θ0

gegen Θ1 heißt Bayes-Test zu Kosten c0, c1, falls

E[c0ϕ(X1, . . . , Xn)1Θ0(U) + c1(1− ϕ(X1, . . . , Xn))1Θ1(U)]

minimal wird unter allen Tests.

Page 115: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

3.5. ELEMENTE DER BAYESSCHEN STATISTIK 115

In Definition 3.5.10 stehen c0 fur die Kosten des Fehlers 1. Art und c1 fur die Kosten des Feh-lers 2. Art. Der Bayes-Test minimiert die erwarteten Fehlerkosten, insbesondere die Wahr-scheinlichkeit einer Fehlentscheidung fur c0 = c1 = 1.

Satz 3.5.11 Wahle

ϕ(x) :=

1 falls P (U∈Θ1|(X1,...,Xn)=x)

P (U∈Θ0|(X1,...,Xn)=x)> c0

c1,

0 sonst

(wobei P (U ∈ Θi | (X1, . . . , Xn) = x) =∑

ϑ∈Θiπx(ϑ) bzw. im stetigen Fall

∫Θiπx(ϑ)dϑ

fur i ∈ 0, 1).Dann definiert ϕ einen Bayes-Test.

Beweis. Wir betrachten den abzahlbaren Fall (sonst analog):

E[c0ϕ(X1, . . . , Xn)1Θ0(U) + c1(1− ϕ(X1, . . . , Xn))1Θ1(U)]

=∑x∈R

P ((X1, . . . , Xn) = x)(c0ϕ(x)P (U ∈ Θ0 | (X1, . . . , Xn) = x)

+ c1(1− ϕ(x))P (U ∈ Θ1 | (X1, . . . , Xn) = x))

=:∑x∈R

P ((X1, . . . , Xn) = x)`(x).

Es ist

`(x) =

c0p0(x) falls ϕ(x) = 1,

c1(1− p0(x)) falls ϕ(x) = 0

mit p0(x) = P (U ∈ Θ0 | (X1, . . . , Xn) = x).

c0p0(x) < c1(1 − p0(x)), gilt genau dann, wenn c0c1< 1−p0(x)

p0(x). Also minimiert das im Satz

definierte ϕ den Ausdruck `(x) fur alle x.

Im Fall c0 = c1 = 1 kann ϕ(x) aus Satz 3.5.11 so interpretiert werden, dass man sich fur die-jenige der beiden Hypothesen entscheidet, die die großere a posteriori-Wahrscheinlichkeitbesitzt.

Bemerkung 3.5.12 Fur die Vorbewertung aus Beispiel 3.5.3 ist der Bayes-Test der Hypo-these Θ0 = p gegenuber Θ1 = [0, 1] \ p im Munzwurfbeispiel aus 3.1.5, 3.2.2, 3.2.19,3.3.27, 3.5.3, 3.5.9 sinnlos, da die a-posteriori-Wahrscheinlichkeit der Hypothese null ist.

Page 116: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

Anhang A

Liste einiger wichtiger Verteilungen

In den folgenden zwei Tabellen sind einige haufig verwendete Verteilungen aufgelistet.

116

Page 117: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

117

Einige wichtige eindimensionale diskrete VerteilungenN

ame

Anw

endu

ng(s

beis

piel

)Pa

ram

eter

Zah

ldic

hte

Erw

artu

ngsw

ertu

ndV

aria

nzB

emer

kung

en

Ein

punk

tmas

se(D

irac

-Maß

)al

les

Det

erm

inis

tisch

ea∈

ΩP

(a)

=1,

P(Ω\a)

=0

falls

aufR

:E:a

,V

ar

:0

einz

ige

Ver

teilu

ngm

itV

aria

nz0

Gle

ichv

erte

ilung

(Lap

lace

-V

erte

ilung

)

alle

s”Sy

mm

etri

sche

“,z.

B.

Wur

fel,

fair

eM

unze

eine

Men

geΩ

P(ω)

=1 |Ω|

fura

lleω

falls

aufa,...,b:

E:a+b

2,

Var

:(b−a)(b−a+

2)

12

vgl.

mit

stet

iger

Gle

ichv

erte

ilung

hype

rgeo

met

risc

heV

erte

ilung

Zah

lder

rote

nK

ugel

nbe

imZ

iehe

nvo

nn

Kug

eln

ohne

Zur

uckl

egen

aus

eine

rUrn

em

its

+w

Kug

eln,

von

dene

ns

schw

arz

sind

n,s,w∈N

mit

n≤s

+w

P(k)

=( s k)( w n−

k

)/( s+wn

)E

:n

ss+w

,Var

:

ns

s+w

(1−

ss+w

)s+w−n

s+w−

1

beii

mV

ergl

eich

zuN

klei

nemn

durc

hdi

eB

inom

ialv

erte

ilung

appr

oxim

ierb

ar

Bin

omia

lver

teilu

ng(f

urn

=1:

Ber

noul

li-V

erte

ilung

)

Zah

lder

Erf

olge

bein

Mun

zwur

fen

mit

eine

rp-M

unze

n∈N

,p∈

(0,1

)

P(k)

=( n k) pk (1

−p)n−k

E:np

,V

ar

:np(1−p)

beig

roße

mn

und

klei

nemp

gutd

urch

die

Pois

sonv

erte

ilung

appr

oxim

ierb

ar;

meh

rdim

ensi

onal

eV

eral

lgem

eine

rung

:M

ultin

omia

lver

teilu

ng

Pois

son-

Ver

teilu

ngZ

ahld

erbi

szu

eine

mfe

sten

Zei

tpun

ktei

ntre

ffen

den

Kun

den,

falls

die

Ank

unft

srat

kons

tant

ist

λ∈R

+P

(k)

=e−

λλk

k!

E:λ

,Var

geho

rtw

iedi

eN

orm

al-

und

die

stab

ilen

Ver

teilu

ngen

zurK

lass

ede

runb

egre

nztt

eilb

aren

Ver

teilu

ngen

geom

etri

sche

Ver

teilu

ngM

isse

rfol

gevo

rdem

erst

enE

rfol

gbe

iein

erFo

lge

von

Mun

zwur

fen

mit

eine

rp-M

unze

p∈

(0,1

)P

(k)

=(1−p)kp

E:

1 p,V

ar

:1−p

p2

unei

nhei

tlich

defin

iert

;Sp

ezia

lfall

dern

egat

iven

Bin

omia

lver

teilu

ng;

vgl.

mit

der

Exp

onen

tialv

erte

ilung

Neg

ativ

eB

inom

ialv

erte

ilung

(Pas

cal-

Ver

teilu

ng)

Mis

serf

olge

vord

emr-

ten

Erf

olg

beie

iner

Folg

evo

nM

unzw

urfe

nm

itei

nerp

-Mun

ze

r∈N

,p∈

(0,1

)

P(k)

=( k−1 r−

1

) (1−p)k−rpr

E:r p

,Var

:r

1−p

p2

unei

nhei

tlich

defin

iert

;vg

l.m

itde

rΓ-V

erte

ilung

Page 118: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

118 ANHANG A. LISTE EINIGER WICHTIGER VERTEILUNGEN

Einige wichtige eindimensionale Verteilungen mit stetiger DichteN

ame

Anw

endu

ng(s

beis

piel

)Pa

ram

eter

Dic

hte

Erw

artu

ngsw

ertu

ndV

aria

nzB

emer

kung

en

Gle

ichv

erte

ilung

(Rec

htec

kver

tei-

lung

)

alle

s”Sy

mm

etri

sche

“a,b∈R

mit

a<b

f(x

)=

1b−a1 [a,b

](x

)E

:a+b

2,V

ar

:(b−a)2

12

Nor

mal

vert

eilu

ngse

hrvi

ele

Anw

endu

ngen

,da

Gre

nzve

rtei

lung

imZ

entr

alen

Gre

nzw

erts

atz

µ∈R

2∈R

+

f(x

)=

1√

2πσ2e−

(x−µ)2

2σ2

E:µ

,Var

2di

ew

icht

igst

eV

erte

ilung

uber

haup

t

Cau

chy-

Ver

teilu

ngIn

tens

itats

vert

eilu

ngau

fein

emSc

hirm

imA

bsta

nda

eine

rpu

nktf

orm

igen

,iso

trop

stra

hlen

den

Que

lle

µ∈R

,a∈R

+

f(x

)=

1 πa

a2+

(x−µ

)2E

und

Var

exis

tiere

nni

cht

wie

die

Nor

mal

vert

eilu

ngei

nest

abile

Ver

teilu

ng

Exp

onen

tial-

vert

eilu

ngW

arte

zeit

aufd

aser

ste

Ere

igni

sbe

imit

kons

tant

erR

ateλ

auft

rete

nden

Ere

igni

ssen

λ∈R

+f

(x)

=λe−

λx1R

+(x

)E

:1 λ

,Var

:1 λ2

Spez

ialfa

llde

-Ver

teilu

ng(u

ndde

2-V

erte

ilung

-Ver

teilu

nghi

erfu

rr∈N

:War

teze

itau

fdas

r-te

Ere

igni

sbe

imit

kons

tant

erR

ateλ

:=1 α

auft

rete

nden

Ere

igni

ssen

r,α∈R

+f

(x)

=xr−

1

αrΓ

(r)e−

x/α

1R

+(x

)

E:rα

,Var

:rα

2au

chfu

rpos

itive

sre

elle

sr

defin

iert

χ2-V

erte

ilung

Qua

drat

sum

men

von

N(0,1

)-ve

rtei

lten

Zuf

alls

groß

enn∈N

f(x

)=

x(n/2)−

1e−x/2

2n/2Γ

(n/2)

1 R+

(x)

E:n

,Var

:2n

wic

htig

inde

rSta

tistik

;Sp

ezia

lfall

der

Γ-V

erte

ilung

(fur

halb

zahl

igesr)

F-V

erte

ilung

Quo

tient

envo

2-v

erte

ilten

Zuf

alls

groß

enm,n∈N

f(x

)=

1 R+

(x)mm/2nn/2

·Γ

((m

+n

)/2)

Γ(m/2)Γ

(n/2)

x(m/2)−

1

(n+mx

)(m

+n)/2

E:

nn−

2fu

rn>

2,

Var

:2n2(m

+n

+2)

m(n−

2)2

(n−

4)

furn

>4

wic

htig

inde

rSta

tistik

norm

alve

rtei

lter

Zuf

alls

groß

en

Stud

ents

che

t-V

erte

ilung

Ver

teilu

ngvo

nX/√ Y/

nfu

rN

(0,1

)-ve

rtei

ltesX

und

χ2 n

-ve

rtei

ltesY

n∈N

f(x

)=

Γ((n

+1)/

2)

Γ(n/2)Γ

(1/2)√n

·(1+

x2 2)−

(n+

1)/

2

E:

0fu

rn>

1,

Var

:nn−

2fu

rn>

2

wic

htig

inde

rSta

tistik

norm

alve

rtei

lter

Zuf

alls

groß

enB

eta-

Ver

teilu

nga

post

erio

ri-V

erte

ilung

inde

rB

ayes

sche

nSt

atis

tikα,β

>0

f(x

)=

1B

(α,β

)xα−

1

·(1−x

)β−

11 [

0,1

](x

)

E:

αα

,

Var

:αβ

(α+β

)2(α

+1)

Page 119: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

Index

Γ-Verteilung, 118χ2-Verteilung, 118σ-Additivitat, 20σ-Algebra, 29

erzeugte, 29σ-Subadditivitat, 22

a posteriori-Verteilung, 111a priori-Verteilung, 111Ablehnungsbereich, 95Additivitat, 22Alternative, 95

Bayes-Schatzer, 112Bayes-Test, 114Bayessche Formel, 39bedingte Wahrscheinlichkeit, 36Bereichsschatzer, 108, 113Bernoulli-Verteilung, 49Beta-Verteilung, 112, 118Bias, 85Bildmaß, 45, 61Binomialkoeffizient, 25Binomialverteilung, 46, 50, 58, 60, 74, 76Borel-σ-Algebra, 30Borel-messbar, 60

Cauchy-Schwarzsche Ungleichung, 55Cauchy-Verteilung, 118

Dichte, 32, 89Dichte-Quotient, 98

effektives Niveau, 96empirische Haufigkeitsverteilung, 7empirische Verteilungsfunktion, 7Ereignis, 20, 29

Ereignisraum, 29Ergebnisraum, 20erwartungstreu, 85Erwartungswert, 51, 64Erwartungswertvektor, 57erzeugende Funktion, 58Exponentialverteilung, 32, 41, 65, 66, 69,

118

F -Verteilung, 118Faltung, 50, 68Fehler 1. Art., 96Fehler 2. Art., 96

Gauß-Verteilung, 77Gaußtest

einseitiger, 101zweiseitiger, 102

gedachtnislos, 41Gegenhypothese, 95geometrische Verteilung, 62Gesetz der großen Zahlen

schwaches, 72starkes, 73

Gesetz der kleinen Zahlen, 74Gleichverteilung, 22, 33, 58, 65, 118good clinical practice, 107Grundgesamtheit, 5Grundraum, 20Gutefunktion, 96

Histogramm, 7hypergeometrische Verteilung, 47, 73Hypothese, 95

identisch verteilt, 46, 61Integral, 63

119

Page 120: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

120 INDEX

Kenngroße, 85kleinste Quadrate, 17Kleinste-Quadrate-Schatzer, 95Konfidenzbereich, 108Konfidenzintervall, 83, 108konsistent, 88Konvergenz

fast sicher, 70in Verteilung, 70in Wahrscheinlichkeit, 70schwache, 70stochastische, 70

Korrelationempirische, 15

Korrelationskoeffizient, 54Kovarianz, 54

empirische, 15Kovarianzmatrix, 57kritischer Bereich, 95

Laplace-Verteilung, 22Lebesgue-Dichte, 32Lebesgue-Integral, 64Lebesguemaß, 35Likelihood-Quotient, 98, 99Likelihood-Quotienten-Test, 98, 99Likelihoodfunktion, 90Lognormalverteilung, 82LQ-Test, 98, 99

Maß, 30Maßraum, 30Macht, 96majorisierte Konvergenz, 64Markow-Ungleichung, 71Maximum-Likelihood-Schatzer, 90Median, 12, 69Merkmal, 5Merkmalstrager, 5messbar, 60messbare Menge, 29messbarer Raum, 29

Messraum, 29Mittel

arithmetisches, 10geometrisches, 12getrimmtes, 12harmonisches, 12

mittlerer quadratischer Fehler, 87ML-Schatzer, 90Modus, 12, 69Momentenschatzer, 93monotone Konvergenz, 52, 64Monotonie, 22Multinomialsatz, 27Multinomialverteilung, 50Multinominalkoeffizient, 25Multiplikationsformel, 38

negative Binomialverteilung, 62Niveau, 96Normalverteilung, 77, 118Normiertheit, 20Nullhypothese, 95

p-Wert, 106Parameter, 84Parameterraum, 84Pascal-Verteilung, 62Poisson-Verteilung, 31, 58–60, 74Population, 5Produkt-σ-Algebra, 35Produktmaß, 35Projektion, 48

Quantil, 69empirisches, 12

Quantilfunktion, 68

Realisierung, 84Rechteckverteilung, 118Regression, 17

Satz von de Moivre-Laplace, 79Satz von Fubini, 66Scharfe, 96

Page 121: Stochastik fur Lehramtsstudierende¨ · 2019-09-04 · Jan Kallsen Stochastik fur Lehramtsstudierende¨ CAU Kiel, SS 2018, Stand 4. September 2019

INDEX 121

Schatzen, 83Schatzer, 85

UMVU-, 87varianzminimierender, 87

Schatzfolge, 88Schiefe, 14Starke, 96Standardabweichung, 54

empirische, 13standardisierte Summe, 75Statistik, 85

beschreibende, 5schließende, 83

statistisches Ausgangsmodell, 84Stetigkeit von unten/oben, 23Stichprobe, 6, 84Stichprobenmittel, 86Stichprobenvarianz, 86Streuung, 54

empirische, 13Studentsche t-Verteilung, 103, 118Substitutionsprinzip, 93

t-Testeinseitiger, 106zweiseitiger, 106

Test, 95gleichmaßig bester, 97gleichmaßig bester unverfalschter, 97

Testen, 83Testproblem, 95totale Wahrscheinlichkeit, 38Transformationssatz, 51, 65Trennscharfe, 98Tschebyschow-Ungleichung, 71

Umfang, 96unabhangig, 39, 40, 47, 61unkorreliert, 54unverfalscht, 85, 97unverzerrt, 85Urnenmodell, 27

Value at risk, 94Varianz, 54verallgemeinerte Inverse, 68Verteilung, 20, 30, 45, 61

empirische, 21Verteilungsfunktion, 33

empirische, 7Verwerfungsbereich, 95Verzerrung, 85Vorbewertung, 111

Wolbung, 14Wahrscheinlichkeitsbaume, 42Wahrscheinlichkeitsfunktion, 31Wahrscheinlichkeitsmaß, 20, 30Wahrscheinlichkeitsraum, 20, 30Wahrscheinlichkeitsverteilung, 20, 30

Zahldichte, 31Zahlprinzipien, 24Zentraler Grenzwertsatz, 78, 81Zufallsgroße, 45, 60Zufallsvariable, 45, 60