Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder...

108
Jan Kallsen Stochastik f ¨ ur Lehramtsstudierende CAU Kiel, SS 2014, Stand 14. Juli 2015

Transcript of Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder...

Page 1: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

Jan Kallsen

Stochastik fur Lehramtsstudierende

CAU Kiel, SS 2014, Stand 14. Juli 2015

Page 2: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

Inhaltsverzeichnis

1 Grundbegriffe der beschreibenden Statistik 51.1 Grundgesamtheit, Merkmale, Stichproben . . . . . . . . . . . . . . . . . . 51.2 Empirische Verteilung von Merkmalen . . . . . . . . . . . . . . . . . . . . 61.3 Lage- und Streuungsmaße . . . . . . . . . . . . . . . . . . . . . . . . . . 10

1.3.1 Beschreibung des Zentrums der Daten . . . . . . . . . . . . . . . . 121.3.2 Beschreibung der Streuung der Daten . . . . . . . . . . . . . . . . 131.3.3 Weitere Maßzahlen fur die Form der Daten . . . . . . . . . . . . . 141.3.4 Maßzahlen fur gemeinsames Verhalten bivariater Daten . . . . . . . 15

1.4 Methode der kleinsten Quadrate (empirische Regression) . . . . . . . . . . 17

2 Wahrscheinlichkeitsrechnung 192.1 Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.1.1 Diskrete Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . . 202.1.2 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 242.1.3 Allgemeine Wahrscheinlichkeitsraume . . . . . . . . . . . . . . . . 282.1.4 Exkurs zur Maßtheorie . . . . . . . . . . . . . . . . . . . . . . . . 292.1.5 Unabhangigkeit und bedingte Wahrscheinlichkeiten . . . . . . . . . 37

2.2 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 422.2.1 Zufallsvariablen im diskreten Fall . . . . . . . . . . . . . . . . . . 422.2.2 Unabhangigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . 452.2.3 Erwartungswert und Momente . . . . . . . . . . . . . . . . . . . . 492.2.4 Zufallsvariablen im allgemeinen Fall . . . . . . . . . . . . . . . . 57

2.3 Grenzwertsatze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 662.3.1 Konvergenzbegriffe . . . . . . . . . . . . . . . . . . . . . . . . . . 662.3.2 Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . 682.3.3 Verteilungsapproximation und zentraler Grenzwertsatz . . . . . . . 70

3 Schließende Statistik 803.1 Statistische Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . 803.2 Parameterschatzung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

3.2.1 Konstruktionsmethoden fur Schatzer . . . . . . . . . . . . . . . . . 863.3 Testen von Hypothesen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 923.4 Konfidenzintervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

2

Page 3: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

INHALTSVERZEICHNIS 3

3.5 Elemente der Bayesschen Statistik . . . . . . . . . . . . . . . . . . . . . . 1043.5.1 Schatzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1063.5.2 Konfidenzbereiche . . . . . . . . . . . . . . . . . . . . . . . . . . 1073.5.3 Testen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

Page 4: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

4 INHALTSVERZEICHNIS

Die Vorlesung besteht aus drei Teilen:

1. Beschreibende Statistik (kurz): (Nur) Erhebung und Darstellung von Daten, keine ma-thematische Theorie im engeren Sinne

2. Wahrscheinlichkeitsrechnung: Prognosen uber zukunftige Ereignisse, Berechnung derWahrscheinlichkeiten komplexerer Ereignisse auf Grundlage der Wahrscheinlichkei-ten einfacher Ereignisse

3. Mathematische/Schließende Statistik: Bestimmung der fur die Wahrscheinlichkeits-rechnung benotigten Wahrscheinlichkeiten auf Grundlage von Daten

Page 5: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

Kapitel 1

Grundbegriffe der beschreibendenStatistik

Der Begriff ”Statistik“ stammt aus dem Staatswesen bzw. der Staatskunde. Die beschrei-bende (deskriptive) Statistik befasst sich mit der Erhebung und Darstellung von Daten,die schließende (beurteilende, induktive, inferentielle, mathematische) Statistik schließt aufGrundlage von Stichproben bzw. Daten auf die Grundgesamtheit bzw. den zu Grunde lie-genden Zufallsmechanismus.

1.1 Grundgesamtheit, Merkmale, Stichproben

Definition 1.1.1 Die Grundgesamtheit oder Population Ω ist die Menge aller denkbarenBeobachtungseinheiten, auf die sich die statistische Untersuchung bezieht. Die Elementeω ∈ Ω heißen Merkmalstrager.

Beispiel 1.1.2Ω1 := ω : ω Horer der Vorlesung,Ω2 := ω : ω hat gultige Stimme bei letzter Landtagswahl abgegeben.

Von Interesse sind oft weniger die Merkmalstrager selbst, sondern bestimmte Eigenschaften(Merkmale):

Definition 1.1.3 Ein Merkmal ist eine Abbildung X : Ω → R (oder allgemeiner X : Ω →M mit einer beliebigen Menge M ). X(Ω) heißt Menge der Merkmalsauspragungen. Xheißt quantitatives Merkmal, falls X(Ω) ⊆ R, sonst qualitatives Merkmal. Ein quantitati-ves Merkmal heißt diskret, falls es nur isolierte Zahlenwerte annimmt, und stetig, falls esprinzipiell jeden Wert eines Intervalls annehmen kann.

Beispiel 1.1.4X1 : Ω1 → mannlich, weiblich, ω 7→ Geschlecht von ω; qualitatives Merkmal.X2 : Ω1 → sehr gut, gut, befriedigend, ausreichend, ω 7→ Abiturnote von ω; qualitatives

5

Page 6: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

6 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Merkmal, aber aquivalent dazu:X3 : Ω1 → 1, 2, 3, 4, ω 7→ Abiturnote von ω; diskretes quantitatives Merkmal.X4 : Ω1 → R, ω 7→ Korpergroße von ω; stetiges quantitatives Merkmal.X5 : Ω2 → CDU, SPD, FDP, Grune, Linke, SSW, Sonstige, ω 7→ gewahlte Partei (Zweit-stimme); qualitatives Merkmal.

Bemerkung 1.1.5 Unterscheidung nach Skalentypen:metrische/kardinale quantitative Merkmale: Zahlenwert X(ω) hat Bedeutung (vgl. X4

oben).ordinale Merkmale: Rang hat Bedeutung, (Zahlen-)Wert an sich nicht (vgl. X2, X3 oben).nominale Merkmale: keine Struktur auf X(Ω) in obigem Sinne (vgl. X1, X5 oben).

Die vollstandige Erhebung der Population Ω ist wunschenswert, aber aus prakti-schen Grunden oft nicht moglich. Daher erfolgt die Beschrankung auf eine Teilerhe-bung/Stichprobe.

Definition 1.1.6 Sei n ∈ N. Teilmengen ω1, . . . , ωn ⊆ Ω der Grundgesamtheit werdenals (empirische) Stichprobe bezeichnet. Falls X : Ω → R (bzw. M ) ein Merkmal ist, nenntman auch (X(ω1), . . . , X(ωn)) (empirische) Stichprobe oder Messreihe, Urliste, Daten (desMerkmalsX). Eine Stichprobe heißt zufallig, wenn jedes Element der Population die gleicheAussicht hatte, in die Stichprobe aufgenommen zu werden.

Bemerkung 1.1.7 1. Obwohl die Reihenfolge unerheblich ist, bezeichnen wir nichtX(ω1), . . . , X(ωn) als Stichprobe, da sonst Informationen uber die Haufigkeit ver-loren gingen.

2. ”Reprasentative“ Stichprobe: Das soll andeuten, dass die Stichprobe die Populationbezuglich des Merkmals X gut reprasentiert. Die konkrete Bedeutung des Begriffs istaber nicht immer klar.

3. Schlusse von (zufalligen) Stichproben auf die Population sind Aufgabe der schließen-den Statistik.

1.2 Empirische Verteilung von Merkmalen

Definition 1.2.1 Sei n ∈ N. Sei X : Ω→M ein Merkmal und (x1, . . . , xn) Stichprobe desMerkmals X . Fur A ⊆M heißen

h(A) :=n∑i=1

1A(xi) absolute Haufigkeit von A und

r(A) :=1

nh(A) relative Haufigkeit von A

Page 7: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN 7

in der Stichprobe. Dabei sei

1A :=

1 falls x ∈ A,0 sonst.

Die Abbildungen h : P(M) → R bzw. r : P(M) → R nennen wir empirische Haufig-keitsverteilung des Merkmals X in der Stichprobe, wobei P(M) := A : A ⊆ M diePotenzmenge von M sei.

Bemerkung 1.2.2 1. h(A): Wie oft taucht eine A-wertige Beobachtung in der Stichpro-be auf?r(A): Anteil der A-wertigen Beobachtungen an der Stichprobe

2. Eigenschaften:r(∅) = 0 (da 1∅(x) = 0 fur alle x ∈M ).r(M) = 1 (da 1M(x) = 1 fur alle x ∈M ).r(A ∪ B) = r(A) + r(B), falls A,B ⊆ M disjunkt sind (da 1A∪B = 1A + 1B, fallsA ∩B = ∅).

3. Haufigkeiten sind bei stetigen Merkmalen (vgl. X4 in 1.1.4) wenig sinnvoll, da Wertein der Regel nur einmal auftreten. Stattdessen wird eine Bildung von Klassen vor-genommen, d. h. eine Partition von Ω in disjunkte Intervalle (ai−1, ai], i = 1, . . . , n.Faustregeln: konstante Intervalllange, ”einfache“ Intervallgrenzen, Anzahl der Inter-valle m ≈

√n falls 5 ≤ m ≤ 25.

Bemerkung 1.2.3 (Darstellung von Haufigkeiten). Beispiel: Landtagswahl Schleswig-Holstein.

1. Tabelle: Vergleiche Abbildung 1.1.

2. Stabdiagramm: Vergleiche Abbildung 1.2.

3. Kreisdiagramm: Vergleiche Abbildung 1.3.

Beispiel: Korpergewicht von Schulern.

1. Histogramm: Vergleiche Abbildung 1.4.

2. Stamm- und Blattdarstellung: Vergleiche Abbildung 1.5.

Bezeichnung 1.2.4 (Eigenschaften von Histogrammen/Verteilungen). Vergleiche Abbil-dung 1.6.

Page 8: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

8 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Abbildung 1.1: Tabelle.

Abbildung 1.2: Stabdiagramm.

Abbildung 1.3: Kreisdiagramm.

Page 9: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

1.2. EMPIRISCHE VERTEILUNG VON MERKMALEN 9

Abbildung 1.4: Histogramm.

Abbildung 1.5: Stamm- und Blattdarstellung: Links befindet sich der Stamm, rechts das Blatt.

Abbildung 1.6: Eigenschaften von Histogrammen: a) unimodal eingipflig; b) bimodal zweigipflig;c) linksschief, rechssteil; d) symmetrisch; e) rechtssteil, linksschief.

Page 10: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

10 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Definition 1.2.5 Sei n ∈ N. Seien X : Ω→ R quantitative Merkmale und (x1, . . . , xn) eineStichprobe von X . Die Funktion F : R→ R mit

F (x) := r((−∞, x]) =1

n

n∑i=1

1(−∞,x](xi)

heißt empirische Verteilungsfunktion des Merkmals in der Stichprobe.

Satz 1.2.6 Sei F die empirische Verteilungsfunktion des Merkmals X in der Stichprobe(x1, . . . , xn). Dann gelten:

1. F ist monoton steigend,

2. F ist rechtsseitig stetig,

3. limx→∞ F (x) = 1, limx→−∞ F (x) = 0.

Beweis. Klar.

Bemerkung 1.2.7 (Darstellung von Haufigkeiten multivariater (= mehrdimensionaler)Merkmale)

1. Kontingenztabelle (fur bivariate diskrete Merkmale)Beispiel: Ω = ω : ω erwachsener Bundesburger,X : Ω→ uberhaupt nicht, etwas, ziemlich, sehr × 1, 2, 3, 4, 5,ω 7→ (Beeintrachtigung durch Umweltschadstoffe, Schulabschluss)(ω),wobei ”1“ = ungelernt, . . . , ”5“ = Hochschulabschluss.(Vergleiche Abbildungen 1.7 und 1.8).

2. Streudiagramme (fur bivariate stetige Merkmale)Beispiel: Ω = ω : ω Kieler Mietwohnung,X : Ω→ R2, ω 7→ (Flache von ω, Nettomiete von ω).(Vergleiche Abbildung 1.9).

1.3 Lage- und Streuungsmaße

Wir befassen uns nun mit Maßzahlen und Objekten zur Beschreibung der Lage bzw. Streu-ung der Daten auf der Zahlengeraden. Seien x1, . . . , xn ∈ R Daten (Stichprobe eines quan-titativen Merkmals).

Page 11: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

1.3. LAGE- UND STREUUNGSMASSE 11

Abbildung 1.7: Kontingenztabelle: Absolute Werte.

Abbildung 1.8: Kontingenztabelle: Relative Werte.

Abbildung 1.9: Streudiagramm.

Page 12: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

12 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

1.3.1 Beschreibung des Zentrums der Daten

Definition 1.3.1

x :=1

n

n∑i=1

xi

heißt arithmetisches Mittel von (x1, . . . , xn).

Bemerkung 1.3.2 Schwerpunkteigenschaft:

n∑i=1

(xi − x) = 0.

Das arithmetische Mittel ist eher instabil im Hinblick auf ”Ausreißer“, also extreme Beob-achtungen, die zufallig oder durch Erhebungsfehler im Datensatz auftreten. Robuster ist derMedian:

Definition 1.3.3 Seien (x(1), . . . , x(n)) die nach Große aufsteigend geordneten Daten, al-so x(1) ≤ x(2) ≤ · · · ≤ x(n−1) ≤ x(n). Der empirische Median (Zentralwert) x1/2 von(x1, . . . , xn) ist definiert als

x1/2 :=

x(n+1

2) falls n ungerade,

12(x(n

2) + x(n

2+1)) falls n gerade.

Bemerkung 1.3.4 Jeweils mindestens 50% der Daten sind großer oder gleich bzw. kleineroder gleich dem empirischen Median.

Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modusinteressant:

Definition 1.3.5 Der Modus (Modalwert) xmod der Daten (x1, . . . , xn) ist der am haufigstenauftretende Wert (falls ein solcher existiert).

Beispiel 1.3.6 Daten (beispielsweise Studiendauern in Semestern):(x1, . . . , x10) = (11, 10, 8, 11, 30, 9, 13, 11, 10, 12).geordnete Daten: (x(1), . . . , x(10)) = (8, 9, 10, 10, 11, 11, 11, 12, 13, 30).arithmetisches Mittel: x = 12,5.empirischer Median: x1/2 = 1

2(x(5) + x(6)) = 11.

Modus: xmod = 11.

Bemerkung 1.3.7 Weitere Mittelwerte:

1. geometrisches Mittel: xg := (∏n

i=1 xi)1n ,

2. harmonisches Mittel: xh := n(∑n

i=11xi

)−1,

Page 13: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

1.3. LAGE- UND STREUUNGSMASSE 13

3. α-getrimmes Mittel: arithmetisches Mittel der Daten, die ubrig bleiben, wenn zuvordie 100α% großten und kleinsten Werte entfernt wurden. Das α-getrimme Mittel istalso robuster gegen Ausreißer.

Eine Verallgemeinerung des Medians stellen die Quantile dar:

Definition 1.3.8 Seien (x(1), . . . , x(n)) wie in Definition 1.3.3. Fur p ∈ (0, 1) wird das em-pirische p-Quantil xp von (x1, . . . , xn) definiert durch

xp :=

x([np+1]) falls np /∈ N,12(x(np) + x(np+1)) falls np ∈ N,

wobei [y] := maxk ∈ N : k ≤ y.

Bemerkung 1.3.9 Mindestens 100p% der Daten sind kleiner oder gleich xp. Mindestens100(1− p)% der Daten sind großer oder gleich xp.

Bezeichnung 1.3.10 x1/4 heißt unteres Quartil, x3/4 heißt oberes Quartil.

Beispiel 1.3.11 Fur die Daten aus Beispiel 1.3.6 gilt x1/4 = x(3) = 10, x3/4 = x(8) = 12.

1.3.2 Beschreibung der Streuung der Daten

Definition 1.3.12 Sei n ∈ N.

s2 :=1

n− 1

n∑i=1

(xi − x)2

(=

1

n− 1

(n∑i=1

x2i − nx2

))heißt empirische Varianz von (x1, . . . , xn).s =√s2 heißt empirische Standardabweichung (Streuung) von (x1, . . . , xn).

Bemerkung 1.3.13 1. Warum 1/n−1 und nicht 1/n? Diese Frage wird in Kapitel 3 thema-tisiert werden, vgl. Bemerkung 3.2.7.

2. s besitzt dieselbe ”Einheit“ wie die Daten (beispielsweise m, kg oder Semester), s2

hingegen nicht.

Definition 1.3.14 Weitere Streuungsmaße:

1. mittlere lineare Streuung: sL := 1n

∑ni=1 |xi − x1/2|

2. mittlere absolute Abweichung: 1n

∑ni=1 |xi − x|

3. Interquartilsabstand: x3/4 − x1/4

4. Stichprobenspannweite/-variationsbreite: x(n) − x(1)

5. Variationskoeffizient (fur positive Daten): s/x

Bemerkung 1.3.15 (Graphische Darstellung). Kistendiagramm (Box-Plot): Vergleiche Ab-bildung 1.10.

Page 14: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

14 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Abbildung 1.10: Box-Plot:a) Extrem große Beobachtungen (Ausreißer),b) großte normale Beobachtung: max

xi : xi ≤ x3/4 +

32

(x3/4 − x1/4

),

c) oberes Quartil x3/4,d) Median x1/2,e) unteres Quartil x1/4,f) kleinste normale Beobachtung: min

xi : xi ≥ x1/4 − 3

2

(x3/4 − x1/4

),

g) extrem kleine Beobachtungen (Ausreißer).

1.3.3 Weitere Maßzahlen fur die Form der Daten

Definition 1.3.16

b3 :=m3

s3mit m3 :=

1

n

n∑i=1

(xi − x)3

heißt Schiefe von (x1, . . . , xn).

b4 :=m4

s4− 3mit m4 :=

1

n

n∑i=1

(xi − x)4

heißt Wolbung (Exzess, Kurtosis) von (x1, . . . , xn).

Bemerkung 1.3.17 1. Die Schiefe beschreibt die Asymmetrie der Daten (Links-/Rechtssteilheit): GRAFIK

2. Die Wolbung beschreibt, ob Randbereiche und Zentrum stark bzw. schwach besetztsind. GRAFIK Das Teilen durch s3, s4 fuhrt dazu, dass es sich bei b3, b4 um di-mensionslose Zahlen handelt. Der Summand ”−3“ ist dadurch motiviert dass dieWolbung bei in diesem Sinne bei der Normalverteilung verschwindet, vgl. Bemer-kung 2.3.26(2).

Page 15: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

1.3. LAGE- UND STREUUNGSMASSE 15

1.3.4 Maßzahlen fur gemeinsames Verhalten bivariater Daten

Seien (x1, y1), . . . , (xn, yn) ∈ R2 Daten (Stichprobe eines R2-wertigen Merkmals (X, Y )).

Definition 1.3.18

sXY :=1

n− 1

n∑i=1

(xi − x)(yi − y)

heißt empirische Kovarianz von ((x1, y1), . . . , (xn, yn)). Im Falle s2X 6= 0, s2

Y 6= 0 heißt

τXY :=sXY√s2Xs

2Y

empirische Korrelation von ((x1, y1), . . . , (xn, yn)), wobei s2X , x

2Y die empirischen Varian-

zen von (x1, . . . , xn) bzw. (y1, . . . , yn) seien.

Bemerkung 1.3.19 Die empirische Korrelation beschreibt den linearen Zusammenhangvon Daten: Vergleiche Abbildung 1.13.Eigenschaften (bewiesen in Satz 2.2.32):

1. −1 ≤ %XY ≤ 1,

2. %XY = ±1 gilt genau dann, wenn es a ∈ R, b ∈ (0,∞) derart gibt, dass fur allei ∈ 0, . . . , n gilt: yi = a± bxi.

Page 16: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

16 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

Abbildung 1.11: Schiefe: a) b3 > 0, b) b3 < 0.

Abbildung 1.12: Wolbung: a) b4 > 0, b) b4 = 0, c) b4 < 0.

Abbildung 1.13: Korrelation: a) r = 1; b) r ≈ 0,7; c) r ≈ 0; d) r ≈ 0; e) r = −1.

Page 17: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

1.4. METHODE DER KLEINSTEN QUADRATE (EMPIRISCHE REGRESSION) 17

1.4 Methode der kleinsten Quadrate (empirische Regres-sion)

Seien (x1, y1), . . . , (xn, yn) ∈ R2 Daten (Stichprobe eines R2-wertigen Merkmals (X, Y )).Vermutung: Zwischen den Komponenten besteht bis auf Messfehler, zufallige Storungenoder Ahnliches ein linearer Zusammenhang y = a+ bx mit a, b ∈ R.Idee: Bestimme a, b zu den Daten so, dass die quadratische Abweichung

Q(a, b) :=n∑i=1

(yi − a− bxi)2

minimiert wird.Dabei handelt es sich bisher um ein rein heuristisches Konzept. Weshalb bzw. unter welchenAnnahmen es sich bei diesem Verfahren um eine gute Schatzung eines tatsachlichen linearenZusammenhangs handelt, ist eine Frage, die von der mathematischen Statistik beantwortetwird, siehe Beispiel 3.2.27.

Satz 1.4.1 Im Fall sX 6= 0 (d. h. wenn nicht alle xi identisch sind) wird Q(a, b) minimiertdurch

b∗ =

∑ni=1(xi − x)(yi − y)∑n

i=1(xi − x)2=sXYs2X

und a∗ = y − b∗x.

Beweis. Bei Q : R2 → R handelt es sich um eine stetig differenzierbare Funktion mit

D1Q(a, b) = −2n∑i=1

(yi − a− bxi) = −2n(y − a− bx),

D2Q(a, b) = −2n∑i=1

(yi − a− bxi)xi = −2

(n∑i=1

xiyi − nax− bn∑i=1

x2i

).

Diese Ableitungen werden genau dann 0, wenna a = y − bx und

0 =n∑i=1

xiyi − n(y − bx)x− bn∑i=1

x2i

=n∑i=1

xiyi − nx y − b

(n∑i=1

(x2i − x2)

)

=n∑i=1

(xi − x)(yi − y)− b

(n∑i=1

(xi − x)2

),

also fur a = a∗, b = b∗ wie oben. Die Hessematrix

H(a, b) =

(D11Q(a, b) D12Q(a, b)

D21Q(a, b) D22Q(a, b)

)= 2n

(1 x

x 1n

∑ni=1 x

2i

)

Page 18: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

18 KAPITEL 1. GRUNDBEGRIFFE DER BESCHREIBENDEN STATISTIK

ist positiv definit, denn 2n > 0 und

detH(a, b) = 2n

(1

n

n∑i=1

x2i − x2

)= 2

n∑i=1

(xi − x)2 > 0

(vgl. Heuser, Analysis 2, Satz 172.6). Es folgt, dass Q genau bei (a∗, b∗) minimal wird.

Abbildung 1.14: Streudiagramm mit Regressionsgerade.

Page 19: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

Kapitel 2

Wahrscheinlichkeitsrechnung

Wir befassen uns jetzt mit der Betrachtung von Zufallsexperimenten. Ziel ist es, aus derKenntnis der Grundgesamtheit oder einfacher Wahrscheinlichkeiten Aussagen uber kom-plexe Wahrscheinlichkeiten in durchzufuhrenden Stichproben/Experimenten abzuleiten.Einige wichtige historische Stationen der Wahrscheinlichkeitsrechnung:

• De Vetula (Richard de Fournival?,1201-1260): Wahrscheinlichkeiten von Augensum-men dreier Wurfel,

• Cardano (1501-1576): Liber de Ludo Aleae,

• Briefwechsel 1654 von Pascal (1623-1662) und Fermat (1601-1665): ”Geburtsstundeder Wahrscheinlichkeitsrechnung“,

• Huygens (1629-1695): Tractatus de Rationiciis in Aleae Ludo,

• Jakob Bernoulli (1655-1705): Ars Conjectandi,

• De Moivre (1667-1754): The Doctrine of Chances,

• Bayes (1702?-1761): An Essay towards solving a Problem in the Doctrine of Chances,

• Laplace (1749-1827): Theorie Analytique des Probabilites,

• . . .

• Kolmogorow (1903-1987): Grundbegriffe der Wahrscheinlichkeitsrechnung (1933)

”zweite Geburtsstunde der Wahrscheinlichkeitsrechnung“.

• . . .

19

Page 20: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

20 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

2.1 Wahrscheinlichkeitsraume

2.1.1 Diskrete Wahrscheinlichkeitsraume

Wir mochten Zufallsexperimente mathematisch modellieren. Es ist dabei unerheblich, obdas Experiment wirklich zufallig ist und ob es Zufall uberhaupt gibt. Eine stochastischeModellierung kann auch bei Nichtwissen angemessen sein.

Definition 2.1.1 Die Menge Ω aller moglichen Ausgange eines Zufallsexperimentes nennenwir Ergebnisraum, Grundraum, Stichprobenraum. Die Elemente ω ∈ Ω heißen Ergebnisse.Teilmengen A ⊆ Ω heißen (vorlaufig) Ereignisse. (Vergleiche Grundgesamtheit in Definiti-on 1.1.1).

Beispiel 2.1.2 1. Einmaliger Wurfelwurf: Ω = 1, 2, 3, 4, 5, 6,Ereignis ”Wurf ist gerade Zahl“: A = 2, 4, 6.

2. n-maliger Wurfelwurf:Ω = 1, 2, 3, 4, 5, 6n = (ω1, . . . , ωn) : ωi ∈ 1, . . . , 6 fur i = 1, . . . , n.Achtung: Anders als in Kapitel 1 wahlt man zur Modellierung nicht Ω = 1, . . . , 6und n Ergebnisse ω1, . . . , ωn ∈ Ω, sondern einen ”großen“ Grundraum, aus dem mannur ein Ergebnis ω = (ω1, . . . , ωn) zieht.Bei der Wahl von Ω besteht oft große Freiheit. Falls beispielsweise nur die Anzahl derEinsen, Zweien usw. von Belang ist, konnte man alternativ wahlen:Ω′ = (k1, . . . , k6) ∈ N6 :

∑6i=1 ki = n.

3. Unendlich viele Munzwurfe: Schreibe 0 fur ”Kopf“ und 1 fur ”Zahl“:Ω = 0, 1N∗ = Abb(N∗, 0, 1)

= (ωi)i∈N∗ : ωi ∈ 0, 1 fur alle i ∈ N∗.(Bezeichnung: N := 0, 1, 2, . . . , N∗ := 1, 2, . . . )

4. Wartezeit auf den nachsten Bus: Ω = R+ oder auch Ω = [0, 10], falls der Bus allezehn Minuten fahrt.

Von nun an sei Ω hochstens abzahlbar, der allgemeine Fall folgt in Abschnitt 2.1.3.

Definition 2.1.3 Sei Ω nichtleer und hochstens abzahlbar. Eine Abbildung P : P(Ω) →[0, 1] heißt Wahrscheinlichkeitsmaß (Wahrscheinlichkeitsverteilung, Verteilung) auf Ω, fallsdie Kolmogorowschen Axiome gelten:

1. P (Ω) = 1 (Normiertheit) und

2. P (⋃∞i=1Ai) =

∑∞i=1 P (Ai) fur paarweise disjunkte A1, A2, . . . ⊆ Ω

(d. h. falls Ai ∩ Aj = ∅ fur i 6= j) (σ-Additivitat).

(Ω,P(Ω), P ) heißt (diskreter) Wahrscheinlichkeitsraum.

Page 21: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 21

Beispiel 2.1.4 Seien M eine (nichtleere, vorerst hochstens abzahlbare) Menge undx1, . . . , xn ∈ M . Dann ist die relative Haufigkeit r : P(M) → [0, 1] aus Definition 1.2.1ein Wahrscheinlichkeitsmaß auf M , die empirische Verteilung von x1, . . . , xn.

Motivation 2.1.5 Warum verwenden wir diese Axiome? Was kann man sich unter Wahr-scheinlichkeiten vorstellen? Was bedeutet P (A) = 0,3 eigentlich?

1. (Frequentistische Sichtweise).Wahrscheinlichkeiten werden interpretiert als idealisierte relative Haufigkeiten, d. h.P (A) steht fur den Anteil an Versuchswiederholungen, in denen das Ereignis A ein-trate, wenn man das Experiment theoretisch bzw. im Geiste ”unendlich oft unter glei-chen Bedingungen“ ablaufen ließe. Nach dieser Sichtweise sind Wahrscheinlichkei-ten ohne prinzipielle Wiederholbarkeit des Experiments sinnlos. Auch muss klar sein,worin die ”gleichen Bedingungen“ bestehen.

Motivation der Axiome: Diese gelten fur relative Haufigkeiten, wie sie in 1.2.1 defi-niert wurden. P (A) = 0,3 bedeutet also, dass das Ereignis A auf lange Sicht in 30%der Versuchswiederholungen eintreten wurde.

2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten und subjektive Deutung).Fur endliches Ω definiere

P (A) :=|A||Ω|

, A ⊆ Ω. (2.1)

P (A) beschreibt den Anteil der moglichen Versuchsergebnisse, die zum Ereignis Afuhren. Wenn wegen offensichtlicher oder naheliegender Symmetrie alle ω ∈ Ω gleichplausibel sind (Indifferenzprinzip, Prinzip des unzureichenden Grundes), ist P (A) einnaturliches Maß dafur, mit welchem Grad an Sicherheit A zu erwarten ist. (P (A) = 0

impliziert ein unmogliches, P (A) = 1 ein sicheres Ereignis usw.)

Motivation der Axiome: Sie gelten offensichtlich fur die Laplace-Wahrscheinlichkeiten aus (2.1). In allgemeinen Situationen (in denen (2.1) nichtunbedingt gilt) lassen sich Wahrscheinlichkeiten durch Vergleich mit Laplace-Wahrscheinlichkeiten interpretieren. In diesem Sinne bedeutet P (A) = 0,3, dass A sowahrscheinlich ist oder fur man es fur so wahrscheinlich halt wie eine dreielementigeMenge in einem Zufallsexperiment mit zehn gleich wahrscheinlichen Ausgangen(z. B. drei Seiten eines zehnseitigen Wurfels). Bei irrationalen Zahlen approxi-miere man. Diese eher subjektive Interpretation ist prinzipiell auch fur einmaligeExperimente moglich: P (”Gott existiert“) = 0,7?

Bemerkung 2.1.6 1. Die Verbindung zwischen Wirklichkeit und mathematischem Mo-dell wird vor allem durch Wahl eines geeigneten Wahrscheinlichkeitsmaßes P ge-schaffen. Diesen Vorgang nennt man Modellierung oder auch Modellbildung. Wieerhalt man nun P ? Entweder (i) durch Kenntnis des Versuchsaufbaus bzw. mittels

Page 22: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

22 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Annahmen uber den Zufallsmechanismus (Symmetrien) oder (ii) mit Mitteln der ma-thematischen Statistik. Viele Fehler, scheinbare Paradoxien und Missverstandnissegerade auch in der Schule sind auf die falsche Wahl von P (falsche Modellierung)zuruckzufuhren. Die stochastische Modellierung ist eine eigenstandige und nur teil-weise mathematische Leistung.

2. Das Axiom der Additivitat (A ∪ B = ∅ ⇒ P (A ∪ B) = P (A) + P (B)) kannuber relative Haufigkeiten bzw. Laplace-Wahrscheinlichkeiten motiviert werden, dieσ-Additivitat (d. h. Additivitat unendlicher statt endlicher Vereinigungen) hingegennicht direkt. Bei der σ-Additivitat handelt es sich zusatzlich zur Additivitat um eineArt Stetigkeitsannahme, die das Arbeiten mit Wahrscheinlichkeiten erleichtert.

Satz 2.1.7 Sei |Ω| < ∞. Es existiert genau ein Wahrscheinlichkeitsmaß P auf Ω derart,dass P (ω) fur alle ω ∈ Ω gleich ist, namlich die oben erwahnte Laplace-Verteilung(Gleichverteilung) mit P (A) = |A|/|Ω| fur A ⊆ Ω.

Beweis. Nachweis der Existenz durch Nachrechnen:P (A) = |A|/|Ω| ∈ [0, 1] sowie

1. P (Ω) = |Ω||Ω| = 1;

2. | ∪∞i=1 Ai| =∑∞

i=1 |Ai| fur disjunkte Vereinigungen⇒ P (∪∞i=1Ai) =∑∞

i=1 P (Ai).

Eindeutigkeit: Fur alle ω ∈ Ω gilt auf Grund der Additivitat, dass

1 = P (Ω) =∑ω∈Ω

P (ω) = |Ω|P (ω),

also P (ω) = 1/|Ω|. Es folgt

P (A) =∑ω∈A

P (ω) = |A| 1

|Ω|.

Beispiel 2.1.8 Wurfelwurf: Ω = 1, . . . , 6. Da alle Wurfelseiten ”gleich“ sind, wahlt manals Wahrscheinlichkeitsmaß P die Laplace-Verteilung.

Satz 2.1.9 Sei (Ω,P(Ω), P ) ein Wahrscheinlichkeitsraum. Seien A,B,A1, A2, . . . ⊆ Ω.Dann gelten:

1. P (∅) = 0,

2. A1, . . . , An paarweise disjunkt⇒ P (∪ni=1Ai) =∑n

i=1 P (Ai) (endliche Additivitat),

3. P (A ∪B) + P (A ∩B) = P (A) + P (B),

4. A ⊆ B ⇒ P (A) ≤ P (B) (Monotonie),

Page 23: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 23

5. P (∪∞i=1Ai) ≤∑∞

i=1 P (Ai) (σ-Subadditivitat),

6. An ↑ A (d. h. A1 ⊆ A2 ⊆ . . . und A = ∪∞i=1Ai)⇒ P (An)→ P (A) fur n→∞;An ↓ A (d. h. A1 ⊇ A2 ⊇ . . . und A = ∩∞i=1Ai)⇒ P (An)→ P (A) fur n→∞;(σ-Stetigkeit bzw. Stetigkeit von unten/oben),

7. P (AC) = 1− P (A), wobei AC := Ω \ A.

Beweis.

1. P (∅) = P (∪∞i=1∅) =∑∞

i=1 P (∅), also P (∅) = 0

2. σ-Additivitat mit ∅ = An+1 = An+2 = . . .

3. Aus 2. folgen

P (A) = P (A \B) + P (A ∩B),

P (B) = P (B \ A) + P (A ∩B),

P (A ∪B) = P (A \B) + P (B \ A) + P (A ∩B).

4. P (B)2.= P (A) + P (B \ A)︸ ︷︷ ︸

≥0

≥ P (A)

5. ∪∞i=1Ai = ∪∞i=1Bi, wobei

Bi := Ai \

(i−1⋃j=1

Aj

)⊆ Ai.

Da B1, B2, . . . paarweise disjunkt sind, folgt

P (∪∞i=1Ai) = P (∪∞i=1Bi)σ-Add.

=∞∑i=1

P (Bi)4.

≤∞∑i=1

P (Ai);

6. P (A) + P (AC)2.= P (Ω) = 1.

7. Mit σ-Additivitat gilt:

P (A) = P (∪∞i=1(Ai \ Ai−1))

=∞∑i=1

P (Ai \ Ai−1)

= limn→∞

n∑i=1

P (Ai \ Ai−1)

2.= lim

n→∞P (∪ni=1(Ai \ Ai−1))

= limn→∞

P (An).

Page 24: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

24 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Außerdem folgt aus An ↓ A schon ACn ↑ AC und somit

1− P (An)6.= P (ACn )

(1. Teil)→ P (AC)6.= 1− P (A).

2.1.2 Kombinatorik

Motivation: Zur Berechnung von Laplace-Wahrscheinlichkeiten wie in 2.1.5 (d. h. mitP (A) = |A|/|Ω|) mussen Mengen abgezahlt werden. Das geschieht mit Mitteln der Kom-binatorik.

Bemerkung 2.1.10 (Fundamentale Zahlprinzipien)Seien A,B,A1, A2, . . . endliche Mengen.

1. (a) Falls eine Bijektion f : A→ B existiert, gilt |A| = |B|.

(b) A ∩B = ∅⇒ |A ∪B| = |A|+ |B|.

(c) A ⊆ B ⇒ |B \ A| = |B| − |A|.

Begrundung:

(a) Definition der Gleichmachtigkeit: |A| = n bedeutet, dass eine Bijektion g gibtmit g : A→ 1, . . . , n.Da g f−1 : B → 1, . . . , n eine Bijektion ist, folgt |B| = n = |A|.

(b) Seien |A| = m, |B| = n. Dann existieren Bijektionen gA und gB mit gA : A →1, . . . ,m und gB : B → 1, . . . , n. Ebenso existiert eine Bijektion h : B →m+1, . . . ,m+n. Also existiert eine Bijektion gA∪B : (A∪B)→ 1, . . . ,m+

n, namlich

gA∪B(x) :=

gA(x) falls x ∈ A,h(x) falls x ∈ B.

Somit ist |A ∪B| = m+ n.

(c) B = A ∪ (B \ A) wobei der Punkt disjunkte Vereinigung symbolisiert. DieBehauptung folgt mit (b).

2. Kartesisches Produkt:|A×B| = |A||B|Allgemeiner |A1 × · · · × AN | =

∏ni=1 |Ai|, insbesondere |An| = |A|n.

Begrundung: Sei |B| = m, etwa B = b1, . . . , bm. Aus |A × B| =⋃m

i=1A × biund |A× bi|

1(a)= |A| folgt, dass |A×B| 1(b)

=∑m

i=1 |A| = m|A|.Induktion ergibt die zweite Aussage, denn A1× · · · ×An = (A1× · · · ×An−1)×An(bzw. es existiert eine naturliche Bijektion).

3. Funktionen:

Page 25: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 25

(a) Beliebige Funktionen: Fur BA := Abb(A,B) := f : A→ B ist|BA| = |B||A|.

(b) Injektive Funktionen: |f ∈ Abb(A,B) : f injektiv| = |B|!(|B|−|A|)! .

(c) Spezialfall bijektive Funktionen fur |A| = |B|:|f ∈ Abb(A,B) : f bijektiv| = |A|!,also beispielsweise |Sn| = n! fur A = B = 1, . . . , n.

Begrundung:

(a) SeiA = a1, . . . , an. Wir identifizieren die Funktion f : A→ B mit dem Tupel(f(a1), . . . , f(an)) ∈ B × · · · ×B = Bn.Es folgt |f : A→ B| 1(a)

= |Bn| 2.= |B|n = |B||A|.

(b) Seien A = a1, . . . , an, B = b1, . . . , bn. Identifiziere injektive Funktionenf : A→ B mit einem Tupel (x1, . . . , xn). Hierbei sei

x1 ∈ 1 . . . , n der Rangplatz von f(a1) in b1, . . . , bn︸ ︷︷ ︸n Elemente

,

x2 ∈ 1, . . . , n− 1 der Rangplatz von f(a2) in b1, . . . , bn \ f(a1)︸ ︷︷ ︸(n−1) Elemente

,

usw.,xm ∈ 1, . . . , n−m+ 1 der Rangplatz von f(am)

in b1, . . . , bn \ f(a1), . . . , f(am−1)︸ ︷︷ ︸(n−m+1) Elemente

.

Es folgt

|f ∈ Abb(A,B) : f injektiv| 1(a)= |1, . . . , n × · · · × 1, . . . , n−m+ 1|2(a)= n(n− 1) · · · (n−m+ 1)

=n!

(n−m)!.

4. (a) k-elementige Teilmengen:|C ⊆ A : |C| = k| =

(|A|k

)fur k ∈ N, wobei(

n

k

):=

n(n− 1) · · · (n− k + 1)

k!

falls k≤n=

n!

(n− k)!k!

fur k, n ∈ N den Binomialkoeffizient bezeichnet.

(b) Aufteilen auf Teilmengen gegebener Große:Seien n1, . . . , nr ∈ N mit

∑ri=1 ni = n = |A|. Dann gilt

|(A1, . . . , Ar) : A1, . . . , Ar ⊆ A pw. disj., |Ai| = ni fur i = 1, . . . , r|

=n!

n1! · · ·nr!(Multinomialkoeffizient).

Page 26: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

26 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

(c) Alle Teilmengen: |P(A)| = 2|A|

Begrundung:

(b) Seien A = a1, . . . , an und M := (A1, . . . , Ar) : A1, . . . , Ar ⊆A pw. disjunkt, |Ai| = ni fur i = 1, . . . , r.Identifiziere die Bijektion f : A → A mit dem Tupel (α, π1, . . . , πr ∈ M ×Sn1 × · · · × Snr via

(f(a1), . . . , f(an1)︸ ︷︷ ︸

A1

, f(an1+1), . . . , f(an1+n2)︸ ︷︷ ︸A2

, . . . , f(a∑ar−1i=1 ni+1), . . . , f(an)︸ ︷︷ ︸

Ar

),

denn eine Permutation von A entspricht der Aufteilung von A in r Mengen,zusammen mit der Festlegung der Reihenfolge auf den r einzelnen Teilmengen.Also

n!3(c)= |f ∈ Abb(A,A) : f bijektiv|1(a)= |M × Sn1 × · · · × Snr |2.= |M ||Sn1| · · · |Snr |3(b)= |M |n1! · · ·nr!

und damit |M | = n!/(n1! · · ·nr!).

(a) Identifiziere die k-elementige Teilmenge C von A mit der Aufteilung von A inzwei Mengen A1 := C,A2 := A \C. Dann gilt |A1| = k, |A2| = |A| − k, und esfolgt

|C ⊆ A : |C| = k| 1(a), 4(b)=

|A|!k!(|A| − k)!

.

(c) 2n = (1 + 1)n(2.1.11)

=∑n

k=0

(nk

)1k1n−k =

∑nk=1

(nk

), also

|P(A)| = |⋃|A|

k=0C ⊆ A : |C| = k|

1(b)=

|A|∑k=0

|C ⊆ A : |C| = k|

=

|A|∑k=0

(|A|k

)= 2|A|.

(Alternativ: Beachte, dass P(A)= Abb(A, 0, 1) und wahle die AbbildungC 7→ 1C , es folgt |P(A)| 1(a)

= |Abb(A, 0, 1)| 3(a)= 2|A|.)

Page 27: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 27

5. Aquivalenzklassen:Sei ∼ eine Aquivalenzrelation auf A derart, dass alle Aquivalenzklassen [x], x ∈ A,genau n Elemente haben. Dann gilt

|[x] : x ∈ A| = |A|n.

Begrundung: Seien [x1], . . . , [xk] die Aquivalenzklassen von ∼. Es ist A =⋃ki=1[xi]

und nach 1(b) also |A| =∑k

i=1 |[xi]| = kn.

Korollar 2.1.11 (Multinomialsatz) Fur x1, . . . , xn ∈ R, r ∈ N gilt

(x1 + · · ·+ xn)n =∑

n1,...,nr≥0n1+···+nr=n

n!

n1! · · ·nr!xn1

1 · · ·xnrr .

Fur r = 2 und x, y ∈ R ergibt sich der Binomialsatz:

(x+ y)n =n∑k=0

(n

k

)xkyn−k.

Beweis. (n∑i=1

xi

)n

=∑

(A1,...,Ar) Zer-legung von 1,...,n

r∏i=1

x|Ai|i

=∑

n1,...,nr≥0n1+···+nr=n

∑(A1,...,Ar) Zer-

legung von 1,...,nmit |Ai|=ni

r∏i=1

xnii

=∑

n1,...,nr≥0n1+···+nr=n

n!

n1! · · ·nr!

r∏i=1

xnii .

Der Binomialsatz folgt direkt. Beachte dafur, dass n2 = n− n1 wegen n1 + n2 = n.

Beispiel 2.1.12 Viele Zufallsexperimente entsprechen aus wahrscheinlichkeitstheoretischerSicht einem Urnenmodell (Ziehen von Kugeln aus einem Krug).

1. (Ziehen mit Zurucklegen unter Beachtung der Reihenfolge).Hierbei handelt es sich um Anordnungen der Lange n aus N Elementen. Wiederho-lungen sind moglich, d. h. Elemente konnen mehrfach auftauchen.Ω := (ω1, . . . , ωn) : ωi ∈ 1, . . . , N fur i = 1, . . . , n = 1, . . . , NnNach 2.1.10 (3) gilt |Ω| = Nn.Beispiele: n-maliges Wurfeln mit einem N -seitigen Wurfel; Ziehung der Lottozahlenmit Zurucklegen, aber ohne Sortieren.

Page 28: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

28 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

2. (Ziehen ohne Zurucklegen mit Beachtung der Reihenfolge).Hierbei handelt es sich ebenfalls um Anordnungen der Lange n aus N Elementen, beidenen allerdings kein Element mehr als einmal auftreten kann.Ω := (ω1, . . . , ωn) ∈ 1, . . . , Nn : ωi 6= ωj fur i 6= jNach 2.1.10 (1a, 3b) ist |Ω| = |f : 1, . . . , n → 1, . . . , N : f injektiv| = N !

(N−n)!.

Beispiel: Ziehung der Lottozahlen ohne Sortieren.

3. (Ziehen ohne Zurucklegen ohne Beachtung der Reihenfolge).Kombinationen der Lange n aus N Elementen ohne Wiederholungen:Ω := (ω1, . . . , ωn) ∈ 1, . . . , Nn : ω1 < ω2 < · · · < ωnNach 2.1.10 (1a) und (4a) ist |Ω| = |C ⊆ 1, . . . , N : |C| = n| =

(Nn

).

Beispiel: Ziehung der Lottozahlen.

4. (Ziehen mit Zurucklegen ohne Beachtung der Reihenfolge).Kombinationen der Lange n aus N Elementen mit Wiederholungen:Ω := (ω1, . . . , ωn) ∈ 1, . . . , Nn : ω1 ≤ ω2 ≤ · · · ≤ ωnUm |Ω| zu berechnen, betrachteΩ := (ω1, . . . , ωn) ∈ 1, . . . , N + n− 1 : ω1 < · · · < ωn undf : Ω→ Ω, (ω1, . . . , ωn) 7→ (ω1, ω2 + 1, . . . , ωn + n− 1).f ist bijektiv, also gilt nach 2.1.10 (1a) und (3), dass |Ω| = |Ω| =

(N+n−1

n

).

Achtung: Die Elemente von Ω sind bei realen, ”dazu passenden“ Zufallsexperimen-ten (beispielsweise Wurf mit n Wurfeln und Sortieren, Ziehung der Lottozahlenmit Zurucklegen) in aller Regel nicht gleichwahrscheinlich. Die zugehorige Laplace-Verteilung ist also unangemessen! Eine bemerkenswerte Ausnahme bilden zufalligeZustande von Bosonen (Elementarteilchen) in der statistischen Physik (Bose-Einstein-Verteilung).

Beispiel 2.1.13 Wurfeln mit 3 Wurfeln.Ω = 1, . . . , 63, P entspreche der Laplace-Verteilung auf Ω.A = ”Gesamtaugenzahl ist 11“ := (ω1, ω2, ω3) ∈ Ω: ω1 + ω2 + ω3 = 11,B = ”Gesamtaugenzahl ist 12“ := (ω1, ω2, ω3) ∈ Ω: ω1 + ω2 + ω3 = 12.Abzahlen ergibt |A| = 27, |B| = 25, also P (A) = |A|/|Ω| = 27/216 = 0,125 und P (B) =

|B|/|Ω| = 25/216 ≈ 0,116.Im Modell aus 2.1.12 (4) hatten beide Ergebnisse die gleiche Wahrscheinlichkeit, denn 11lasst sich ohne Berucksichtigung der Reihenfolge darstellen als 146, 155, 236, 245, 335,344, und 12 lasst sich darstellen als 156, 246, 255, 336, 345, 344. Das entsprache in beidenFallen einer Wahrscheinlichkeit von 6/56 ≈ 0,1071. Bei Verwendung der Gleichvertei-lungsannahme ist also Vorsicht geboten!

2.1.3 Allgemeine Wahrscheinlichkeitsraume

Motivation 2.1.14 Manchmal reicht ein abzahlbares Ω (vgl. Definition 2.1.3) nicht aus,siehe Beispiele 2.1.2 (3, 4). Unser nachstes Ziel wird es daher sein, die Grundlagen aus

Page 29: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 29

Abschnitt 2.1.1 auf beliebige Ω zu ubertragen. Beispielsweise hatten wir gerne fur Beispiel(4) eine Art Gleichverteilung auf Ω = [0, 1], d. h. P ([a, b]) = b−a fur a, b ∈ [0, 1] und a ≤ b.Dies entspricht der Intuition, dass die Wahrscheinlichkeit einer Busankunft proportional zurWartezeit an der Haltestelle wachst.Es ergibt sich aber folgendes Problem: Es ist nicht allzu schwer zu zeigen, dass es keinWahrscheinlichkeitsmaß P auf ([0, 1],P[0, 1]) mit den oben geforderten Eigenschaften ge-ben kann. Maßtheoretisch gesprochen heißt das, dass man nicht jeder Teilmenge von [0, 1]

in sinnvoller Weise eine Lange zuordnen kann. Derselbe Sachverhalt in stochastischer Spra-che: Wenn man an einer Gleichverteilung interessiert ist, kann man nicht jedem denkbarenEreignis A ⊆ [0, 1] in sinnvoller Weise eine Wahrscheinlichkeit zuordnen.Ausweg: Wir beschranken uns auf eine Teilmenge F ⊆ P , eine sogenannte σ-Algebra.Nur Elementen dieser Teilmenge wird eine Wahrscheinlichkeit (oder in der Maßtheorie eineLange, Flache, ein Volumen, . . . ) zugeordnet. Daher muss man sich, wenn man Stochastikmathematisch sauber behandeln will, mit Maßtheorie auseinandersetzen.

2.1.4 Exkurs zur Maßtheorie

Definition 2.1.15 Sei Ω 6= ∅. Ein Mengensystem F ⊆P(Ω) heißt σ-Algebra auf Ω, falls

1. Ω ∈ F ,

2. A ∈ F ⇒ AC := Ω \ A ∈ F und

3. A1, A2, . . . ∈ F ⇒⋃∞i=1Ai ∈ F .

(Ω,F ) heißt messbarer Raum, Messraum, Ereignisraum. Die Elemente von F heißen Er-eignisse oder messbare Mengen.

Wahrscheinlichkeiten werden spater nur fur die Elemente von F definiert. Es wird also nichtjeder Menge wird eine Wahrscheinlichkeit zugeordnet, aber abzahlbare Mengenoperationenfuhren nicht aus den in diesem Sinne messbaren Mengen heraus, wie an der folgenden Be-merkung sichtbar wird.

Bemerkung 2.1.16 Aus den Axiomen folgt:

4. ∅ ∈ F (denn ∅ = ΩC),

5. A1, A2, · · · ∈ F ⇒⋂∞i=1Ai ∈ F (denn

⋂∞i=1Ai = (

⋃∞i=1A

Ci )C),

6. A1, . . . , An ∈ F ⇒ A1 ∪ · · · ∪ An ∈ F (denn⋃ni=1Ai =

⋃∞i=1 Ai mit Ai = ∅ fur

i > n),

7. A1, . . . , An ∈ F ⇒ A1 ∩ · · · ∩ An ∈ F (denn⋂ni=1 Ai =

⋂∞i=1Ai mit Ai = Ω fur

i > n),

8. A,B ∈ F ⇒ A \B ∈ F (denn A \B = A ∩BC).

Page 30: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

30 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Wie gewinnt man nun eine σ-Algebra?

Definition 2.1.17 Seien Ω 6= ∅,G ⊆P(Ω).

σ(G ) :=⋂F ⊆P(Ω) : F ist σ-Algebra mit G ⊆ F

heißt von G erzeugte σ-Algebra.

Bemerkung 2.1.18 σ(G ) ist tatsachlich eine σ-Algebra, und zwar die kleinste σ-Algebrain Ω, die G umfasst. (Nachrechnen)

Beispiel 2.1.19 1. ∅,Ω ist die kleinste σ-Algebra auf Ω.

2. P(Ω) ist eine σ-Algebra, namlich die großte auf Ω. Falls Ω abzahlbar ist, giltP(Ω) = σ(ω : ω ∈ Ω) (d. h. die Potenzmenge wird von den einelementigenMengen erzeugt).

Faustregel: Fur hochstens abzahlbares Ω wird immer die Potenzmenge verwendet.

3. Fur Ω = Rn verwenden wir in aller Regel (Faustregel: immer) die Borel-σ-Algebra

Bn := σ(A ⊆ Rn : A offen)= σ(A ⊆ Rn : A abgeschlossen)= σ([a1, b1]× · · · × [an, bn] ⊆ Rn : ai, bi ∈ Q mit ai < bi fur i = 1, . . . , n).

Fur n = 1 gilt B := B1 = σ((∞, c] : c ∈ R). Nicht borel-messbare Mengenexistieren, sofern wenn man das Auswahlaxiom der Mengenlehre akzeptiert, sind abersehr exotisch.

4. Fur nichtleeres Ω ⊆ Rn verwenden wir die Borel-σ-Algebra auf Ω:Bn

Ω := A ∩ Ω: A ∈ Bn.

Nun konnen wir analog zu Definition 2.1.3 den Begriff des Wahrscheinlichkeitsmaßeseinfuhren:

Definition 2.1.20 Sei (Ω,F ) ein Ereignisraum. Eine Abbildung P : F → R+ (oder furWahrscheinlichkeitsmaße aquivalent [0, 1] statt R+) heißt Wahrscheinlichkeitsmaß (Wahr-scheinlichkeitsverteilung, Verteilung) auf (Ω,F ), falls

1. P (Ω) = 1 und

2. A1, A2, . . . ∈ F paarweise disjunkt⇒ P (⋃∞i=1 Ai) =

∑∞i=1 P (Ai).

(Ω,F , P ) heißt Wahrscheinlichkeitsraum.Falls 1. ersetzt wird durch das (schwachere) Axiom

1’. P (∅) = 0,

Page 31: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 31

heißt P Maß und (Ω,F , P ) Maßraum.

Bemerkung 2.1.21 Satz 2.1.9 gilt weiterhin, falls P(Ω) durch F und ”⊆ Ω“ durch ”∈ F“ersetzt wird.

Ein wichtiges Resultat ist der

Satz 2.1.22 (Eindeutigkeitssatz) Sei G ein ∩-stabiler Erzeuger des Ereignisraums (Ω,F ),d. h. F = σ(G ) und A ∩ B ∈ G fur A,B ∈ G . Fur Wahrscheinlichkeitsmaße P,Q auf(Ω,F ) mit P |G = Q|G gilt dann schon P = Q.

Beweis. Maßtheorie

Nun zur Charakterisierung, Konstruktion und Existenz von Verteilungen:

Satz 2.1.23 Sei Ω 6= ∅ abzahlbar. Sei % : Ω → [0, 1] mit∑

ω∈Ω %(ω) = 1. Dann existiertgenau ein Wahrscheinlichkeitsmaß P auf (Ω,P(Ω)) mit P (ω) = %(ω) fur alle ω ∈ Ω. Indiesem Fall gilt

P (A) =∑ω∈A

%(ω), A ∈P(Ω). (2.2)

% heißt Zahldichte oder Wahrscheinlichkeitsfunktion von P .

Beweis.Existenz und (2.2): Sei P wie in (2.2) definiert. Dann ist P (Ω) = 1. Seien A1, A2, . . . ⊆ Ω

paarweise disjunkt. Mit dem Doppelreihensatz aus der Analysis (Heuser, Analysis 1, Satz45.1) folgt

P

(∞⋃i=1

Ai

)=

∑ω∈⋃∞i=1 Ai

%(ω)

=∞∑i=1

∑ω∈Ai

%(ω)

=∞∑i=1

P (Ai).

Eindeutigkeit: Sei P ein Maß, das die oben genannten Bedingungen erfullt. Dann ist schon

P (A)σ-Add.

=∑ω∈A

P (ω) Vorauss.=

∑ω∈A

%(ω)

fur alle A ∈P(Ω).

Beispiel 2.1.24 Seien Ω = N, λ > 0 und definiere fur alle k ∈ N

%(k) := e−λλk

k!.

Page 32: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

32 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Wegen ∑k∈Ω

%(k) = e−λ∞∑k=0

λk

k!= e−λeλ = 1,

gibt es nach obigem Satz genau ein Wahrscheinlichkeitsmaß P auf (N,P(N)) mit Zahldich-te %. P heißt Poisson-Verteilung zum Parameter λ. Die Poisson-Verteilung wird genutzt, umbeispielsweise die Anzahl von Telefonanrufen, Kunden, Versicherungsschaden usw. in ei-nem festen Zeitintervall zu modellieren. Argumente hierfur werden wir spater kennenlernen,siehe Bemerkung 2.3.18.

Satz 2.1.25 Seien Ω = R, % : Ω → R+ (abschnittsweise) stetig mit∫∞−∞ %(x)dx = 1. Dann

existiert genau ein Wahrscheinlichkeitsmaß P auf (R,B) mit

P ((a, b]) =

∫ b

a

%(x) dx

fur alle −∞ ≤ a ≤ b <∞. % heißt (Lebesgue-)Dichte von P .

Beweis. Eindeutigkeit: G := (−∞, c] : c ∈ R ist ∩-stabiler Erzeuger von B, vgl. 2.1.19(3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P damit durch P ((−∞, c]), c ∈ R, ein-deutig festgelegt ist.Existenz: Definiere P (A) :=

∫A%(x)dx fur alle A ∈ B. Dann gilt:

1. P (Ω) =∫R %(x)dx = 1.

2. Fur paarweise disjunkte A1, A2, . . . ∈ B:

P

(∞⋃i=1

Ai

)=

∫1⋃∞

i=1 Ai(x)︸ ︷︷ ︸∑∞

i=1 1Ai (x)

%(x) dx

=

∫limn→∞

n∑i=1

1Ai(x)%(x) dx

mon. Konv.= lim

n→∞

∫ n∑i=1

1Ai%(x) dx

= limn→∞

n∑i=1

∫1Ai%(x) dx

=∞∑i=1

P (Ai).

3. P ((a, b]) =∫

(a,b]%(x) dx =

∫ ba%(x) dx fur a ≤ b.

Beispiel 2.1.26 Sei λ > 0 und definiere fur x ∈ R

%(x) := 1R+(x)λe−λx.

Page 33: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 33

Wegen ∫ ∞−∞

%(x) dx =

∫ ∞0

λe−λx dx = −e−λx|∞x=0 = 0− (−1) = 1

folgt nach obigem Satz die Existenz eines eindeutigen Wahrscheinlichkeitsmaßes P auf(R,B) mit Dichte %. Die Wahrscheinlichkeitsverteilung P heißt Exponentialverteilung zumParameter λ. Die Exponentialverteilung wird genutzt, um beispielsweise die Wartezeit aufTelefonanrufe, Kunden, Versicherungsschaden, etc. oder die Lebensdauer von Bauteilen zumodellieren. Den Grund dafur werden wir spater kennenlernen, siehe Satz 2.1.51.

Beispiel 2.1.27 Seien a, b ∈ R mit a ≤ b und definiere fur x ∈ R

%(x) :=1

b− a1[a,b](x).

Wegen ∫ ∞−∞

%(x) dx =1

b− a

∫ b

a

1 dx =b− ab− a

= 1

existiert ein eindeutiges Wahrscheinlichkeitsmaß P auf (R,B) mit Dichte %. Die Wahr-scheinlichkeitsverteilung P heißt Gleichverteilung auf [a, b] und ist das in Vorbemerkung2.1.14 gesuchte Analogon zur diskreten Gleichverteilung.

Bemerkung 2.1.28 Ein Wahrscheinlichkeitsmaß auf Ω = N oder anderen abzahlbaren(z. B. 1, . . . , n,Z,Q) oder uberabzahlbaren (z. B. [a, b],R+) Teilmengen von R induziertin naturlicher Weise ein Wahrscheinlichkeitsmaß auf R, namlich fur A ∈ B via

P (A) := P (A ∩ Ω).

Definition 2.1.29 Sei P ein Wahrscheinlichkeitsmaß auf (Ω,F ) = (R,B). Die FunktionF : R→ [0, 1] mit

F (x) := P ((−∞, x])

heißt (kumulative) Verteilungsfunktion von P .

Beispiel 2.1.30 1. Die Verteilungsfunktion der empirischen Verteilung von x1, . . . , xn ∈R (vgl. Beispiel 2.1.4) ist gerade die empirische Verteilungsfunktion aus Definition1.2.5.

2. Die Exponentialverteilung zum Parameter λ > 0 hat die Verteilungsfunktion

F (x) =

0 fur x < 0,

1− e−λx fur x ≥ 0.

3. Die Gleichverteilung auf [a, b] hat die Verteilungsfunktion

F (x) =

0 fur x < a,x−ab−a fur a ≤ x < b,

1 fur x ≥ b.

Page 34: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

34 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

4. Die diskrete Gleichverteilung auf 1, . . . , n (vgl. Satz 2.1.7) hat die Verteilungsfunk-tion

F (x) =

0 fur x < 1,1n[x] fur 1 ≤ x < n,

1 fur x ≥ n.

Satz 2.1.31 Sei F die Verteilungsfunktion eines Wahrscheinlichkeitsmaßes P auf (R,B).Dann gelten:

1. F ist monoton wachsend,

2. F ist rechtsseitig stetig,

3. limx→∞ F (x) = 1 und limx→−∞ F (x) = 0.

Beweis.

1. Satz 2.1.9(4) (Monotonie von P )

2. Satz 2.1.9(6) (Stetigkeit von oben)

3. Sei (xn)n eine wachsende Folge reeller Zahlen mit limn→∞ xn = ∞. Dann gilt nachSatz 2.1.9(6)

F (xn) = P ((−∞, xn])n→∞−−−→ P

((−∞,∞)︸ ︷︷ ︸

=R

)= 1.

Analog fur fallende Folgen mit limn→∞ xn = −∞.

Satz 2.1.32 Sei eine Funktion F : R → [0, 1] mit den Eigenschaften 1–3 aus Satz 2.1.31gegeben. Dann existiert genau ein Wahrscheinlichkeitsmaß P auf (R,B) mit Verteilungs-funktion F .

Beweis. Eindeutigkeit: G := (−∞, c] : c ∈ R ist ∩-stabiler Erzeuger von B, vgl. 2.1.19(3). Aus dem Eindeutigkeitssatz 2.1.22 folgt, dass P durch P ((−∞, c]), c ∈ R eindeutigfestgelegt ist.Existenz: Maßtheorie.

Satz 2.1.33 Sei P ein Wahrscheinlichkeitsmaß auf (R,B) mit Verteilungsfunktion F .Falls F stetig differenzierbar mit Ableitung f ist (oder allgemeiner: falls F (c) =∫ c−∞ f(x) dx, c ∈ R fur ein stuckweise stetiges f : R → R+), dann ist f Lebesgue-Dichte

von P .

Page 35: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 35

Beweis. Fur a ≤ b ist ∫ b

a

f(x) dx =

∫ b

−∞f(x) dx−

∫ a

−∞f(x) dx

= F (b)− F (a)

= P ((−∞, b])− P ((−∞, a])

= P ((a, b]).

Nun zu Produkraumen:

Definition 2.1.34 Seien (Ω1,F1), . . . , (Ωn,Fn) messbare Raume und sei Ω :=∏n

i=1 Ωi =

Ω1 × · · · × Ωn das kartesische Produkt.

F :=n⊗i=1

Fi := F1 ⊗ · · · ⊗Fn := σ(A1 × · · · × An : Ai ∈ Fi fur i = 1, . . . , n)

heißt Produkt-σ-Algebra und ist die Standard-σ-Algebra auf Ω.

Satz 2.1.35 Seien (Ωi,Fi, Pi), i = 1, . . . , n Wahrscheinlichkeitsraume und definiere Ω :=∏ni=1 Ω und F :=

⊗ni=1 Fi. Dann gibt es genau ein Wahrscheinlichkeitsmaß P auf (Ω,F )

mit

P (A1 × · · · × An) =n∏i=1

Pi(Ai)

fur alle Ai ∈ Fi, i = 1, . . . , n. Man nennt P Produktmaß schreibt P =:⊗n

i=1 Pi.

Beweis. Existenz: Maßtheorie.Eindeutigkeit: A1,× · · · × An : Ai ∈ Fi fur i = 1, . . . , n ist ∩-stabiler Erzeuger von F .Die Behauptung folgt mit dem Eindeutigkeitssatz 2.1.22.

Bemerkung 2.1.36 1. Ω =∏n

i=1 Ωi verwendet man fur aus Einzelexperimenten mit Er-gebnisraum Ωi zusammengesetzte Experimente. Warum bzw. wann das ProduktmaßPzur Modellierung angemessen ist, werden wir in Bemerkung 2.2.13 erfahren.

2. Satz 2.1.35 gilt auch fur Maße anstelle von Wahrscheinlichkeitsmaßen.

Betrachte beispielsweise (R,B, λ), wobei λ das Lebesguemaß, also das eindeutigeMaß auf (R,B) sei mit

λ((a, b]) = b− a

fur a ≤ b, d. h. λ misst die Lange einer Menge. Das Produktmaß λn :=⊗n

i=1 λ auf(Rn,Bn) = (

∏ni=1 R,

⊗ni=1 B) heißt Lebesguemaß auf (Rn,Bn) und ist charakteri-

siert durch

λn((a1, b1]× · · · × (an, bn]) =n∏i=1

(bi − ai),

d. h. λn misst die Flache bzw. das Volumen usw. einer Menge.

Page 36: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

36 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. Produkt-σ-Algebren und Produktwahrscheinlichkeitsmaße gibt es auch fur unendlichekartesische Produkte Ω =

∏i∈I Ωi mit beliebiger Indexmenge I . Dabei ist

∏i∈I

Ωi :=

ω : I →

⋃i∈I

Ωi : ω(i) ∈ Ωi fur alle i ∈ I

(insbesondere ΩI :=∏

i∈I Ω = Abb(I,Ω)) und

F :=⊗i∈I

Fi := σ(

ω ∈∏i∈I

Ωi : ω(i1) ∈ A1, . . . , ω(in) ∈ An

:

n ∈ N : i1, . . . , in ∈ I, Ak ∈ Ωik fur k = 1, . . . , n).

⊗i∈I Pi ist das eindeutige Wahrscheinlichkeitsmaß P auf (Ω,F ) mit

P

(ω ∈

∏i∈I

Ωi : ω(i1) ∈ A1, . . . , ω(an) ∈ An

)=

n∏k=1

Pik(Ak).

fur alle Rechteckmengen, also alle Mengen der Form auf der rechten Seite.

Bemerkung 2.1.37 Seien (Ωi,P(Ωi), Pi), i = 1, . . . , n, endliche Wahrscheinlichkeits-raume mit Laplace-Verteilung Pi auf Ωi.Definiere (Ω,F , P ) := (

∏ni=1 Ωi,

⊗ni=1 P(Ωi),

⊗ni=1 Pi). Dann ist F = P(Ω) und P die

Laplace-Verteilung auf Ω.

Beweis.

1. Fur ω = (ω1, . . . , ωn) ∈ Ω gilt

ω = (ω1, . . . , ωn) = ω1 × · · · × ωn ∈n⊗i=1

P(Ωi) = F

und somit

P(Ω)2.1.19(2)

= σ(ω : ω ∈ Ω) ⊆ F ⊆P(Ω).

2. Fur alle ω = (ω1, . . . , ωn) ∈ Ω ist

P (ω) = P (ω1 × · · · × ωn)Def.=

n∏i=1

Pi(ωi) =1∏n

i=1 |Ωi|2.1.10=

1

|Ω|,

somit folgt die Behauptung mit dem Eindeutigkeitssatz 2.1.22.

Page 37: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 37

2.1.5 Unabhangigkeit und bedingte Wahrscheinlichkeiten

Definition 2.1.38 Seien (Ω,F , P ) ein Wahrscheinlichkeitsraum und B ∈ F mit P (B) >

0. Fur A ∈ F heißt

P (A | B) := PB(A) :=P (A ∩B)

P (B)(2.3)

die bedingte Wahrscheinlichkeit von A gegeben B.

Satz 2.1.39 Seien (Ω,F , P ) und B wie in Definition 2.1.38. Dann ist PB : F → [0, 1] einWahrscheinlichkeitsmaß auf (Ω,F ) mit PB(B) = 1.

Beweis.

1. PB(A) ∈ [0, 1] fur alle A ∈ F

2. PB(Ω) = P (B)P (B)

= 1

3.PB

(⋃∞

i=1Ai

)=P ((⋃∞i=1Ai) ∩B)

P (B)

=P (⋃∞i=1(Ai ∩B))

P (B)

=

∑∞i=1 P (Ai ∩B)

P (B)

=∞∑i=1

PB(Ai)

4. PB(B) = P (B∩B)P (B)

= 1

Motivation 2.1.40 Warum definiert man bedingte Wahrscheinlichkeiten durch die Formelin (2.3)? Analog zu 2.1.5 gibt es zwei Begrundungen:

1. (Frequentistische Sichtweise)Sei (x1, . . . , xn) die Stichprobe eines Merkmals X : Ω → M . Fur A ⊆ M ist dierelative Haufigkeit

r(A) =Zahl der xi ∈ A in Stichprobe (x1, . . . , xn)

Zahl der xi uberhaupt in Stichprobe (x1, . . . , xn).

Fur festes B ∈M entferne nun alle Beobachtungen aus der Stichprobe, die nicht in Bliegen. Wir betrachten also eine kleinere Stichprobe (x1, . . . , xk), k ≤ n. Die relativeHaufigkeit von A in der neuen Stichprobe ist

rB(A) :=Zahl der xi ∈ A in neuer Stichprobe (x1, . . . , xn)

Zahl der xi uberhaupt in Stichprobe (x1, . . . , xn)

=nr(A ∩B)

nr(B)=r(A ∩B)

r(B).

Page 38: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

38 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Die frequentistische Interpretation von Wahrscheinlichkeiten als idealisierte relativeHaufigkeiten motiviert somit die Definition (2.3) von bedingten Wahrscheinlichkeiten.

Falls keine ”Beziehung“ zwischen A und B besteht, wird man ferner erwarten, dassder Anteil von A in der verminderten Stichprobe dem in der ursprunglichen Stichpro-be ahnelt, d. h. rB(A) ≈ r(A).

Beispiel: Seien (x1, . . . , xn) die Studenten an der CAU Kiel, A das Ereignis, dass einStudent weiblich ist undB das Ereignis, dass ein Student im Mai geboren wurde. Hiersollte man vermuten, dass rB(A) ≈ r(A) gilt.

2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten)Fur endliche Ω betrachte die Laplace-Verteilung P (A) = |A|/|Ω|, A ⊆ Ω. Fur dieLaplace-Verteilung PB auf B ⊆ Ω mit |B| > 0 gilt

PB(A) =|A ∩B||B|

=|A ∩B||Ω|

|Ω||B|

=P (A ∩B)

P (B), A ⊆ Ω.

Die Interpretation von Wahrscheinlichkeiten als verallgemeinerten Laplace-Wahrscheinlichkeiten motiviert somit ebenfalls (2.3). PB kann als Maß der Plausi-bilitat angesehen werden, wenn man die zusatzliche Information die Tatsache ”ω ∈B“erhalt, aber nichts sonst, was die Plausibilitat innerhalb von B neu gewichtenwurde.

Wie im Beispiel aus 1. kann PB(A) ≈ P (A) so gedeutet werden, dassA durch Kennt-nis von B nicht plausbiler/unplausibler wird.

Beispiel 2.1.41 (Zweimaliger Wurfelwurf)Ω = 1, . . . , 62, P sei die Laplace-Verteilung auf Ω.

A := ”2. Wurf ist eine 6“ = 1, . . . , 6 × 6, P (A) = |A|/|Ω| = 1/6

B := ”Augensumme ist 11 “ = (5, 6)(6, 5), P (B) = |B|/|Ω| = 1/18

|A ∩B| = (5, 6), P (A ∩B) = |A ∩B|/|Ω| = 1/36

P (A | B) = P (A ∩B)/P (B) = 1/2.

Sei ab jetzt (Ω,F , P ) ein Wahrscheinlichkeitsraum.

Satz 2.1.42 (Multiplikationsformel) Seien A1, . . . , An ∈ F mit P (A1 ∩ · · · ∩ An) > 0.Dann gilt

P (A1 ∩ · · · ∩ An) = P (A1)P (A2 | A1) · · ·P (An | A1 ∩ · · · ∩ An−1).

Beweis. Vollstandige Induktion: Der Induktionsanfang n = 1 ist trivial.Die Aussage gelte nun fur (n− 1). Es folgt

P (A1 ∩ · · · ∩ An) =P (An ∩ (A1 ∩ · · · ∩ An−1))

P (A1 ∩ · · · ∩ An−1)P (A1 ∩ · · · ∩ An−1)

Ind.vor.= P (A1)P (A2|A1) · · ·P (An|A1 ∩ · · · ∩ An−1).

Page 39: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 39

Satz 2.1.43 (Satz von der totalen Wahrscheinlichkeit) Sei Ω =⋃i∈I Bi eine (hochstens)

abzahlbare Zerlegung von Ω in paarweise disjunkte Bi ∈ F . Dann gilt fur alle A ∈ F :

P (A) =∑i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Beweis. A =⋃i∈I(A ∩Bi) (paarweise disjunkt), also

P (A) =∑i∈I

P (A ∩Bi) =∑i∈I mitP (Bi)>0

P (A ∩Bi) =∑i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Satz 2.1.44 (Formel von Bayes) Sei (Bi)i∈I eine Zerlegung von Ω wie in Satz 2.1.43. Furalle A ∈ F mit P (A) > 0 und alle j ∈ I mit P (Bj) > 0 gilt

P (Bj | A) =P (A | Bj)P (Bj)∑

i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Beweis.

P (Bj | A) =P (A ∩Bj)

P (A)2.1.43=

P (A | Bj)P (Bj)∑i∈I mitP (Bi)>0

P (A | Bi)P (Bi).

Die Formel von Bayes kommt zur Anwendung, falls man nur die ”umgekehrten“ bedingtenWahrscheinlichkeiten kennt:

Beispiel 2.1.45 Eine Krankheit K trete bei einer von 145 Personen auf. Somit tritt das Er-eignis B = ”Sie haben K“ mit P (B) = 1/145 auf. Angenommen, es wurde ein Test zurUntersuchung auf das Vorliegen von K entwickelt. Sei A das Ereignis, dass der Test positivausfallt. Der Test sei relativ gut: P (A | B) = 0,96, P (AC | BC) = 0,94. Dann ist

P (B | A)2.1.44=

P (A | B)P (B)

P (A | B)P (B) + P (A | BC)P (BC)=

0,96 1145

0,96 1145

+ 0,06144145

=1

10.

Wenn der Test positiv ausfallt, sind Sie also nur mit 10%-iger Wahrscheinlichkeit tatsachlichan K erkrankt!

Definition 2.1.46 Zwei Ereignisse A,B ∈ F heißen (stochastisch) unabhangig, falls

P (A ∩B) = P (A)P (B).

Bemerkung 2.1.47 1. Im Falle P (B) > 0 ist dies aquivalent zu P (A | B) = P (A).

2. A und Ω sowie A und ∅ sind stets unabhangig.

Page 40: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

40 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. Unabhangigkeit hat nicht unbedingt etwas mit Kausalbeziehungen zu tun: Beispiels-weise konnte die beobachtete stochastische Abhangigkeit der Zahl der Storche undder Zahl der Geburten auf eine Kausalbeziehung hindeuten, obwohl beide nur voneiner dritten Große abhangen. Dies ist hier die Zeit, da beide in den letzten dreißigJahren allmahlich zuruckgingen. Das Auftreten von stochastischer Abhangigkeit bzw.Unabhangigkeit birgt also die Gefahr von Fehlinterpretationen.Umgekehrtes Beispiel (Unabhangigkeit trotz Kausalbeziehung): Betrachtet sei derzweifache Wurfelwurf, Ω = 1, . . . , 62 mit Laplace-Verteilung P auf Ω.A := ”2. Wurf ist eine 6 “ = 1, . . . , 6 × 6, P (A) = 1/6,B := ”Augensumme ist 7 “ = (1, 6), . . . , (6, 1), P (B) = 1/6,A ∩ B = (1, 6), P (A ∩ B) = 1/36 = P (A)P (B), also sind A und B unabhangig,obwohl das Ergebnis des zweiten Wurfelwurfs und die Summe der Augenzahlennaturlich kausal zusammenhangen.

Allgemeiner:

Definition 2.1.48 Seien I 6= ∅ eine Indexmenge, Ai ∈ F fur alle i ∈ I . Die Familie(Ai)i∈I heißt unabhangig, falls fur jede endliche, nichtleere Teilmenge J ⊆ I gilt:

P

(⋂i∈J

Ai

)=∏i∈J

P (Ai).

Bemerkung 2.1.49 1. Falls fur (Ai)i∈I nur gilt, dass P (Ai ∩ Aj) = P (Ai)P (Aj) furi 6= j, dann heißt die Familie paarweise unabhangig. Diese Eigenschaft ist im Allge-meinen schwacher als Unabhangigkeit.

Beispiel: Zweifacher Munzwurf, Ω = 0, 12 und P sei die Gleichverteilung auf Ω.A := ”1. Wurf ist 0“ = 0 × 0, 1, P (A) = 1/2,B := ”2. Wurf ist 0“ = 0, 1 × 0, P (B) = 1/2,C := ”Beide Wurfe sind gleich“ = (0, 0), (1, 1), P (C) = 1/2.A ∩B = B ∩C = A ∩C = A ∩B ∩C = (0, 0) haben die Wahrscheinlichkeit 1/4,somit sind die drei Mengen paarweise unabhangig.Aber P (A ∩ B ∩ C) = 1/4 6= (1/2)3 = P (A)P (B)P (C), also sind A,B,C nichtunabhangig.

2. Unabhangigkeit impliziert, dass alle bedingten Wahrscheinlichkeiten von A1, . . . , Anin der Multiplikationsformel 2.1.42 nicht von den Bedingungen abhangen.

Satz 2.1.50 Sei (Ai)i∈I eine unabhangige Familie von Ereignissen. Dann ist auch (Ci)i∈Iunabhangig, wobei Ci ∈ Ai, ACi fur alle i ∈ I .

Beweis. Sei J ⊆ I nichtleer und endlich.Beweis durch Induktion nach |i ∈ J : Ci = ACi | =: n.n = 0:

P

(⋂i∈J

Ci

)= P

(⋂i∈J

Ai

)Vor.=∏i∈J

P (Ai) =∏i∈J

P (Ci)

Page 41: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.1. WAHRSCHEINLICHKEITSRAUME 41

n→ n+ 1: Sei dazu j ∈ J so gewahlt, dass Cj = ACj .

P

(⋂i∈J

Ci

)= P

( ⋂i∈J\j

Ci \( ⋂i∈J\j

Ci ∩ Aj))

= P

( ⋂i∈J\j

Ci

)− P

( ⋂i∈J\j

Ci ∩ Aj)

Ind.vor.=

∏i∈J\j

P (Ci)−( ∏i∈J\j

P (Ci)

)P (Aj)

=∏

i∈J\j

P (Ci) (1− P (Aj))︸ ︷︷ ︸=P (Cj)

=∏i∈J

P (Ci).

Nun zur Motivation der Exponentialverteilung fur Wartezeiten und Lebensdauern ”ohneGedachtnis“:

Satz 2.1.51 (Gedachtnislosigkeit und Exponentialverteilung) Eine Wahrscheinlichkeits-verteilung P auf (R,B) mit P (R+) = 1 und P ([t,∞)) <∞ fur alle t ∈ R+ heißt gedacht-nislos, falls

P ((t+ s,∞) | (t,∞)) = P ((s,∞)) (2.4)

fur alle s, t ∈ R+. Die in diesem Sinne gedachtnislosen Verteilungen sind genau die Expo-nentialverteilungen aus Beispiel 2.1.26.

Beweis.

1. Sei P eine Exponentialverteilung zum Parameter λ. Dann gilt

P ((t+ s,∞) | (t,∞)) =P ((t+ s,∞))

P ((t,∞))

=1− P ((−∞, t+ s])

1− P ((−∞, t])2.1.26=

1− (1− e−λ(t+s))

1− (1− e−λt)= e−λs

2.1.26= 1− P ((−∞, s])= P ((s,∞)).

2. Sei P gedachtnislos mit Verteilungsfunktion F . Sei ferner λ := − logP ((1,∞)).Nach Satz 2.1.32 und Beispiel 2.1.30 reicht es zu zeigen, dass F (t) = 1 − e−λt furalle t > 0 (denn F (t) = 0 fur alle t ≤ 0 ist klar). Aquivalent zeigen wir, dass fur

Page 42: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

42 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

G := 1 − F gilt, dass G(t) = e−λt, t > 0. Auf Grund der Monotonie und Stetigkeitgenugt es, rationale t, etwa t = m/n fur m,n ∈ N zu betrachten. Es gilt

G(t)G(s) = P ((t,∞))P ((s,∞))

(2.4)= P ((t,∞))

P ((t+ s,∞))

P ((t,∞))

= P ((t+ s,∞))

= G(t+ s)

fur alle t ∈ R. Mit Induktion folgt

G(t1 + . . .+ tk) =k∏i=1

G(ti) (2.5)

fur t1, . . . , tk ≥ 0 und somit(G

(1

n

))n(2.5)= G(1) = e−λ ⇒ G

(1

n

)= e−λ

1n

sowie

G(mn

)(2.5)=

(G

(1

n

))m=(e−λ

1n

)m= e−λ

mn .

2.2 Zufallsvariablen

In vielen Situationen ist oft weniger das Ergebnis ω ∈ Ω eines Zufallsexperimentes vonInteresse, als vielmehr quantitative Aspekte davon, vgl. Merkmale in Definition 1.1.3.

2.2.1 Zufallsvariablen im diskreten Fall

Sei zunachst Ω hochstens abzahlbar. Der allgemeine Fall folgt in Abschnitt 2.2.4.

Definition 2.2.1 Sei (Ω,F , P ) ein (diskreter) Wahrscheinlichkeitsraum. Eine AbbildungX : Ω → R (oder allgemeiner X : Ω → Ω′) heißt Zufallsgroße bzw. im allgemeinen FallZufallsvariable.

Bezeichnung 2.2.2 Wir definieren

X ∈ B := ω ∈ Ω: X(ω) ∈ B = X−1(B)

sowieP (X ∈ B) := P (X ∈ B).

Beispiel: P (X > 5) := P (ω ∈ Ω: X(ω) > 5), X > 5 := ω ∈ Ω: X(ω) > 5Allgemein: P ((von ω ∈ Ω abhangige) Aussage) := P (w ∈ Ω: Aussage gilt fur ω)

Page 43: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 43

Beispiel 2.2.3 n-facher Munzwurf, Ω = 0, 1n (0 entspricht Kopf, 1 entspricht Zahl).X : Ω → Ω′ := 0, . . . , n (oder alternativ R), ω = (ω1, . . . , ωn) 7→ X(ω) :=

∑ni=1 ωi.

steht fur die Anzahl der ”Zahl“-Wurfe.

Satz 2.2.4 Seien (Ω,P(Ω), P ) ein (diskreter) Wahrscheinlichkeitsraum, X : Ω → Ω′ eineZufallsvariable, wobei Ω′ abzahlbar sei. Dann definiert

PX(A′) := P (X−1(A′)) = P (X ∈ A′)

fur A′ ∈ Ω′ ein Wahrscheinlichkeitsmaß PX auf (Ω′,P(Ω′)).

Beweis.

1. PX(A′) = P (X−1(A′)) ∈ [0, 1]

2. PX(Ω′) = P (X−1(Ω′)) = P (Ω) = 1

3. Seien A′1, A′2, . . . paarweise disjunkt. Dann sind auch X−1(A′1), X−1(A′2), . . . paar-

weise disjunkt und somit

PX

(∞⋃i=1

A′i

)= P

(X−1

(∞⋃i=1

A′i

)︸ ︷︷ ︸

=⋃∞i=1 X

−1(A′i)

)σ-Add.

=∞∑i=1

P (X−1(A′i)) =∞∑i=1

PX(A′i).

Definition 2.2.5 1. PX in Satz 2.2.4 heißt Verteilung von X oder Bildmaß von P unterX .Schreibweisen: PX = PX = P X−1 = X(P ) = L(X;P ) = L(X).

2. Zufallsvariablen X, Y heißen identisch verteilt, falls PX = P Y .

Beispiel 2.2.6 Ziehen mit Zurucklegen aus einer Urne mit schwarzen und weißen Kugeln,vgl. Definition 2.1.12(1). Sei Ω := 1, . . . , s + wn, wobei 1, . . . , s einer schwarzen,s+ 1, . . . , s+ w einer weißen Kugel entspreche. P sei die Laplace-Verteilung auf Ω.Definiere X als die Anzahl der in n Durchgangen gezogenen schwarzen Kugeln, d. h.X : Ω→ 0, . . . , n mit X((ω1, . . . , ωn)) = |i ∈ 1, . . . , n : ωi ∈ 1, . . . , s|.

Page 44: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

44 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Was ist die Verteilung von X?

PX(k) = P (X = k)

= P

( ⋃I⊆1,...,n :|I|=k

(ω1, . . . , ωn) ∈ Ω: ωi ∈ 1, . . . , s fur i ∈ I,

ωi ∈ s+ 1, . . . , s+ w fur i ∈ IC)

=∑

I⊆1,...,n :|I|=k

1

|Ω|

∣∣∣∣∣∏i∈I

1, . . . , s ×∏i∈ICs+ 1, . . . , s+ w

∣∣∣∣∣2.1.10(2)

=∑

I⊆1,...,n :|I|=k

skwn−k

(s+ w)n

2.1.10(4)=

(n

k

)(s

s+ w

)k (w

s+ w

)n−k=

(n

k

)pk(1− p)n−k, k ∈ 0, . . . , n

mit p := ss+w

. Diese Verteilung auf 0, . . . , n heißt Binomialverteilung zu Parametern n, p.

Beispiel 2.2.7 Ziehen ohne Zurucklegen aus einer Urne mit schwarzen und weißen Kugeln,vgl. Beispiel 2.1.12 (2). Sei Ω := (ω1, . . . , ωn) ∈ 1, . . . , s + wn : ω1 < · · · < ωn,wobei 1, . . . , s einer schwarzen, s+ 1, . . . , s+ w einer weißen Kugel entspreche. P sei dieLaplace-Verteilung vonX . Definiere wiederX als die Anzahl der in n ≤ s+w Durchgangengezogenen schwarzen Kugeln, d. h. X : Ω → 0, . . . , n mit X((ω1, . . . , ωn)) 7→ |i ∈1, . . . , n : ωi ≤ s|. Wieder interessiert uns die Verteilung von X .Fur k = 0, . . . , n mit k ≤ s und n− k ≤ w gilt X = k = Ω′ × Ω′′ mit

Ω′ :=

(ω1, . . . , ωn) ∈ 1, . . . , sk : ω1 < · · · < ωn, |Ω′| =

(s

k

),

Ω′′ :=

(ωk+1, . . . , ωn) ∈ s+ 1, . . . , s+ wn−k : ωk+1 < · · · < ωn, |Ω′′| =

(w

n− k

),

also

PX(k) = P (X = k) =|Ω′ × Ω′′||Ω|

2.1.12(3),2.1.10(2)

=

(sk

)(wn−k

)(s+wn

) .

Diese Verteilung heißt hypergeometrisch. Nach Satz 2.2.4 handelt es sich tatsachlich umeine Wahrscheinlichkeitsverteilung.

Definition 2.2.8 Seien n ∈ N \ 0,Ω = 0, . . . , n (oder N), s, w ∈ N mit (s+ w) ≥ n.Die hypergeometrische Verteilung zu Parametern n, s, w auf (Ω,P(Ω)) ist definiert durchdie Zahldichte

%(k) :=

(sk

)(wn−k

)(s+wn

) .

Page 45: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 45

Beispiel 2.2.9 Ziehung der Lottozahlen ”6 aus 49“ im Urnenmodell aus Beispiel 2.2.7.s + w = 49, s = 6 (entspricht den angekreuzten Zahlen), n = 6 (entspricht den gezogenenKugeln). Sei X wie oben, entspreche also den ”richtigen“ Kugeln, die sowohl angekreuztals auch gezogen wurden.

P (”Genau 5 Richtige“) = P (X = 5) =

(65

)(431

)(496

) ≈ 1,8 · 10−5.

2.2.2 Unabhangigkeit von Zufallsvariablen

Sei Ω weiterhin (hochstens) abzahlbar.

Definition 2.2.10 Seien I 6= ∅ eine Indexmenge und Xi : Ω→ Ωi Zufallsvariablen fur allei ∈ I . Die Familie (Xi)i∈I heißt unabhangig, falls fur jede endliche Teilmenge J ⊆ I mitJ 6= ∅ und alle Bi ⊆ Ωi, i ∈ J gilt, dass

P

(⋂i∈J

Xi ∈ Bi)

=∏i∈J

P (Xi ∈ Bi)

(d. h. fur alle Bi ∈ Ωi, i ∈ I ist die Familie (Xi ∈ Bi)i∈I unabhangig).

Satz 2.2.11 Seien Xi : Ω → Ωi, i = 1, . . . , n Zufallsvariablen, wobei fur i = 1, . . . , n

die Mengen Ωi hochstens abzahlbar seien. Dann sind X1, . . . , Xn genau dann unabhangig,wenn

P (X1 = ω1, . . . , Xn = ωn) =n∏i=1

P (Xi = ωi)

fur alle ω1 ∈ Ω1, . . . , ωn ∈ Ωn gilt.

Beweis.

”⇒“: Setze J := 1, . . . , n, Bi := ωi fur i = 1, . . . , n.

”⇐“: Seien J ⊆ I, Bi ⊆ Ωi wie in Definition 2.2.10. Ohne Beschrankung der Allgemeinheitsei J = 1, . . . , n (sonst wahle Bi := Ωi fur i /∈ J). Dann gilt

P

(n⋂i=1

Xi ∈ Bi

)σ-Add.

=∑

ω1∈B1,...,ωn∈Bn

P (X1 = ω1, . . . , Xn = ωn)

=∑

ω1∈B1,...,ωn∈Bn

n∏i=1

P (Xi = ωi)

=n∏i=1

(∑ωi∈Bi

P (Xi = ωi)

)σ-Add.

=n∏i=1

P (Xi ∈ Bi).

Page 46: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

46 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Satz 2.2.12 Seien Xi : Ω → Ωi, i = 1, . . . , n Zufallsvariablen, wobei fur i = 1, . . . , n dieMengen Ωi hochstens abzahlbar seien.Definiere X := (X1, . . . , Xn) : Ω→

∏ni=1 Ωi, X(ω) = (X1(ω), . . . , Xn(ω)). Dann gilt:

X1, . . . , Xn unabhangig⇔ PX =n⊗i=1

PXi

(d. h. Unabhangigkeit gilt ganau dann, wenn die gemeinsame Verteilung gerade dem Pro-dukt der Randverteilungen entspricht).

Beweis.

X1, . . . , Xn unabhangig

⇔ P

(n⋂i=1

Xi ∈ Bi

)︸ ︷︷ ︸ =

n∏i=1

P (Xi ∈ Bi)︸ ︷︷ ︸ fur Bi ⊆ Ωi, i = 1, . . . , n

⇔ PX(B1 × · · · ×Bn) =n∏i=1

PXi(Bi) fur Bi ⊆ Ωi, i = 1, . . . , n

⇔ PX =n⊗i=1

PXi

Bemerkung 2.2.13 Zuruck zu Bemerkung 2.1.36 (1) uber Wahrscheinlichkeitsmaße bei un-abhangigen Versuchswiederholungen:Sei (Ω,P(Ω), P ) als (diskreter) Wahrscheinlichkeitsraum Modell fur ein Zufallsexperi-ment. Wenn das zugehorige Experiment n-mal wiederholt wird, passt dazu der GrundraumΩn =

∏ni=1 Ω. Die i-te Projektion

πi : Ωn → Ω, (ω1, . . . , ωn) 7→ ωi

steht fur das i-te Einzelexperiment.Frage: Welches Wahrscheinlichkeitsmaß Q auf (Ωn,P(Ωn)) passt zu dem Mehrfach- bzw.Gesamtexperiment?Nebenbedingungen: Wir mochten, dass das Einzelexperiment πi die Verteilung P besitztund dass die Einzelexperimente stochastisch unabhangig sind, da dies der Anschauung einerunabhangigen Versuchswiederholung unter identischen Bedingungen entspricht.Antwort: Wenden wir Satz 2.2.12 auf X = (π1, . . . , πn) = id: Ωn → Ωn an, kommt nur dasProduktmaß

P⊗n :=n⊗i=1

P

in Frage. Bei der unabhangigen Hintereinanderausfuhrung verschiedener Experimente(Ωi,P(Ωi), Pi), i = 1, . . . , n, fuhrt analoges Vorgehen zum Produktmaß

⊗ni=1 Pi auf∏n

i=1 Ωi.

Page 47: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 47

Beispiel 2.2.14 n-maliger Wurf einer p-Munze mit p ∈ [0, 1].Ωi = 0, 1, Pi(1) = p = 1− Pi(0), i = 1, . . . , n.

(Ω,P(Ω), P ) := (0, 1n,P(0, 1n),⊗n

i=1 Pi) mit

P ((ω1, . . . , ωn)) =n∏i=1

Pi(ωi)

= pZahl der Einsen(1− p)Zahl der Nullen

= p∑ni=1 ωi(1− p)n−

∑ni=1 ωi .

Diese Verteilung heißt Bernoulli-Verteilung.Sei nun X : Ω→ 0, . . . , n, (ω1, . . . , ωn) 7→

∑ni=1 ωi die Zufallsgroße, die die Anzahl der

Einsen wiedergibt. Die Verteilung von X ist charakterisiert durch

PX(k) = P (X = k)

=∑

I⊆1,...,nmit |I|=k

n∏i=1

P ((ωI)i) wobei (ωI)i :=

1 falls i ∈ I,0 sonst

=∑

I⊆1,...,nmit |I|=k

pk(1− p)n−k

=

(n

k

)pk(1− p)n−k, k = 0, . . . , n.

Die Zufallsgroße ist also binomialverteilt, vgl. Beispiel 2.2.6.

Definition 2.2.15 Seien n ∈ N∗,Ω = 0, 1, . . . , n (oder N), p ∈ [0, 1]. Die Binomialver-teilung mit Parametern n, p auf (Ω,P(Ω), P ) ist definiert durch die Zahldichte

%(k) :=

(n

k

)pk(1− p)n−k, k ∈ 0, . . . , n (bzw. N).

Beispiel 2.2.16 Analog: n-maliges Werfen eines ”unfairen“ Wurfels mit r Seiten und Wahr-scheinlichkeiten p1, . . . , pr.Ωi = 1, . . . , r, Pi(k) = pk mit k = 1, . . . , r und i = 1, . . . , n,(Ω,P(Ω), P ) := (1, . . . , rn,P(1, . . . , rn),

⊗ni=1 Pi).

Betrachte die Zufallsvariable X : Ω→ (n1, . . . , nr) : n1, . . . , nr ∈ N mit∑n

i=1 ni = n,

(ω1, . . . , ωn) 7→ (|i ∈ 1, . . . , n : ωi = 1|, . . . , |i ∈ 1, . . . , n : ωi = r|)= (Anzahl der Einsen, Anzahl der Zweien, . . . , Anzahl der ”r“-Wurfe ).

Page 48: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

48 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Die Verteilung von X ist charakterisiert durch

PX((n1, . . . , nr))= P (X = (n1, . . . , nr))

=∑

(Ai)i=1,...,r

Zerlegung von 1,...,nmit |Ai|=ni fur i=1,...,r

n∏i=1

Pi(ωA1,...,Ari)︸ ︷︷ ︸=p

n11 ···p

nrr

mit (ωA1,...,Ar)i := k fur i ∈ Ak

2.1.10(4b)=

n!

n1! · · ·nr!pn1

1 · · · pnrr fur n1, . . . , nr ∈ N mitn∑i=1

ni = n.

Diese Verteilung heißt Multinomialverteilung.

Definition 2.2.17 Seien n, r ∈ N∗, Ω = (n1, . . . , nr) ∈ Nr :∑r

i=1 ni = n sowiep1, . . . , pr ∈ [0, 1] mit

∑ri=1 pi = 1. Die Multinomialverteilung auf (Ω,P(Ω), P ) mit Para-

metern n, r, p1, . . . , pr ist definiert durch die Zahldichte

%((n1, . . . , nr)) =n!

n1! · · ·nr!pn1

1 · · · pnrr .

Nun zu Summen unabhangiger Zufallsgroßen:

Definition 2.2.18 Seien X, Y unabhangige Zufallsvariablen und S := X + Y . Die Vertei-lung P S heißt Faltung von PX und P Y . Schreibweise: PX ∗ P Y := P S .

Satz 2.2.19 SeienX, Y unabhangige Zufallsgroßen mit Werten in Z und %X , %Y : Z→ [0, 1]

die zu PX , P Y gehorigen Zahldichten. Dann ist

%S := Z→ [0, 1], %S(k) :=∑`∈Z

%X(`)%Y (k − `)

die Zahldichte von PX ∗ P Y . Schreibweise: %X ∗ %y := %S (Faltung von %X und %Y ).

Beweis.

%S(k) = PX+Y (k)= P (X + Y = k)

=∑`∈Z

P (X = `, Y = k − `)

Unabh.=

∑`∈Z

P (X = `)P (Y = k − `)

=∑`∈Z

%X(`)%Y (k − `).

Page 49: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 49

2.2.3 Erwartungswert und Momente

Der Erwartungswert einer Zufallsgroßen ist das Mittel ihrer Werte, gewichtet mit den Wahr-scheinlichkeiten ihres Auftretens. Was bedeutet diese Zahl, denn bei einem Wurfelwurf wirdman alles mogliche ”erwarten“, aber sicher nicht, eine 3,5 zu wurfeln?Interpretation gemaß Motivation 2.1.5:

1. (Frequentistische Sichtweise). Der Erwartungswert ist das Stichprobenmittel einer

”unendlich großen“ Stichprobe.

2. (Verallgemeinerte Laplace-Wahrscheinlichkeiten). Der Erwartungswert ist das arith-metische Mittel der Werte von X bezogen auf eine Grundgesamtheit gleichwahr-scheinlicher Ergebnisse.

Sei Ω weiterhin hochstens abzahlbar.

Definition 2.2.20 Sei X : Ω → R eine Zufallsgroße. Der Erwartungswert von X ist defi-niert als

E[X] :=∑ω∈Ω

X(ω)P (ω),

falls dies sinnvoll ist, genauer: fallsX ≥ 0 (dann gilt moglicherweise E[X] =∞) oder fallsX ∈ L 1 :⇔ E[ |X|︸︷︷︸

≥0

] <∞.

Beispiel 2.2.21 Einfacher WurfelwurfΩ = 1, . . . , 6, P sei die Laplace-Verteilung auf Ω, X : Ω→ R, ω 7→ ω.E[X] =

∑6ω=1X(ω)P (ω) =

∑6ω=1 ω

16

= 3,5.

Satz 2.2.22 (Transformationssatz) Sei X : Ω→ R eine Zufallsgroße. Dann gilt

E[X] =∑

x∈X(Ω)

xP (X = x),

falls der Ausdruck sinnvoll ist, d. h. falls X ≥ 0 oder

X ∈ L 1 ⇔∑

x∈X(Ω)

|x|P (X = x) <∞.

Allgemeiner: Fur f : R→ R gilt

E[f(X)] =∑

x∈X(Ω)

f(x)P (X = x),

falls f ≥ 0 oderf(X) ∈ L 1 ⇔

∑x∈X(Ω)

|f(x)|P (X = x) <∞.

Page 50: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

50 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beweis.∑ω∈Ω

f(X(ω))P (ω) =∑

x∈X(ω)

f(x)∑

ω∈X=x

P (ω) =∑

x∈X(Ω)

f(x)P (X = x)

sowief(X) ∈ L 1 ⇔ E[|f(X)|] <∞ s.o.⇔

∑x∈X(Ω)

|f(x)|P (X = x) <∞.

Bemerkung 2.2.23 1. E[X] hangt nicht direkt von X als Abbildung ab, sondern nurvon dessen Verteilung PX auf X(Ω).

2. Fur A ⊆ Ω ist E[1A] = 0P (1A = 0) + 1P (1A = 1) = P (A).

3. Wenn PX die empirische Verteilung von x1, . . . , xn ∈ R ist (vgl. Definition 2.1.4), istder Erwartungswert E(X) gerade deren arithmetisches Mittel, vgl. Definition 1.3.1.

Satz 2.2.24 (Rechenregeln) Seien X, Y,X1, X2, . . . : Ω→ R Zufallsgroßen in L 1, c ∈ R.Dann gelten:

1. Monotonie:X ≤ Y ⇒ E[X] ≤ E[Y ],

2. Linearitat:

X + Y ∈ L 1 und E[X + Y ] = E[X] + E[Y ] sowie

cX ∈ L 1 und E[cX] = cE[X] (insbesondere E[c] = c),

3. monotone Konvergenz:

0 ≤ Xn ↑ X fur n→∞⇒ E[Xn] ↑ E[X] fur n→∞,

4. Produktregel bei Unabhangigkeit:

X, Y unabhangig ⇒ XY ∈ L 1 und E[XY ] = E[X]E[Y ].

Beweis.

1. E[X] =∑

ω∈ΩX(ω)︸ ︷︷ ︸≤Y (ω)

P (ω) ≤∑

ω∈Ω Y (ω)P (ω) = E[Y ]

2.∑

ω∈Ω |(X + Y )(ω)|︸ ︷︷ ︸≤|X(ω)|+|Y (ω)|

P (ω) ≤∑

ω∈Ω |X(ω)|P (ω) +∑

ω∈Ω |Y (ω)|P (ω) <∞.

Bei Weglassen der Betragsstriche gilt Gleichheit und damit

E[X + Y ] = E[X] + E[Y ].

Die zweite Aussage folgt analog.

Page 51: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 51

3. Aus der Monotonie folgt, dass E[Xn] ↑ c ≤ E[X] fur ein c ∈ R+. Sei nun ε > 0. SeiA ⊆ Ω mit |A| <∞ so groß, dass E[X]−

∑ω∈AX(ω)P (ω) < ε (existiert wegen

Konvergenz). Sei n so groß, dass X(ω)−Xn(ω) < ε fur alle ω ∈ A. Dann folgt

0 ≤ E[X]− E[Xn] ≤∑ω∈AC

X(ω)P (ω) +∑ω∈A

(X(ω)−Xn(ω))︸ ︷︷ ︸≤ε

P (ω)

≤ ε+ P (A)ε ≤ 2ε.

4. ∑z∈XY (Ω)

|z|P (XY = z) =∑

z∈XY (Ω),06=x∈X(Ω)

|z|P(X = x, Y =

z

x

)︸ ︷︷ ︸6=0 nur falls y:= z

x∈Y (Ω)

=∑

y∈Y (Ω)x∈X(Ω)

|xy|︸︷︷︸=|x||y|

P (X = x, Y = y)︸ ︷︷ ︸Unabh.

= P (X=x)P (Y=y)

=∑

x∈X(Ω)

|x|P (X = x)∑

y∈Y (Ω)

|y|P (Y = y) <∞.

Die gleiche Rechnung ohne Betragsstriche ergibt, dass E[XY ] = E[X]E[Y ].

Beispiel 2.2.25 Sei X binomialverteilt mit Parametern n, p (vgl. Definition 2.2.6). Dann ist

E[X] =∑

k∈X(Ω)

kP (X = k) =n∑k=0

k

(n

k

)pk(1− p)n−k

= npn∑k=1

(n− 1

k − 1

)pk−1(1− p)(n−1)(k−1) binom. Lehrs.

= np(p+ (1− p))n−1 = np.

Definition 2.2.26 Seien X : Ω→ R eine Zufallsgroße und p ∈ [1,∞).Man schreibt X ∈ L p, falls |X|p ∈ L 1 (d. h. falls E[|X|p] < ∞). Fur X ∈ L p heißtE[Xp] p-tes Moment von X .

Bemerkung 2.2.27 Fur p ≤ p′ gilt L p′ ⊆ L p, denn |X|p ≤ 1 + |X|p′ .

Definition 2.2.28 Seien X, Y ∈ L 2.

1. Var(X) := E[(X − E[X])2] heißt Varianz von X ,σX :=

√Var(X) heißt Streuung oder Standardabweichung von X .

2. Kov(X, Y ) := E[(X − E[X])(Y − E[Y ])] heißt Kovarianz von X und Y .

3. Im Falle σX , σY 6= 0 heißt %X,Y = Kov(X,Y )σXσY

Korrelationskoeffizient von X, Y .

4. X, Y heißen unkorreliert, falls Kov(X, Y ) = 0.

Page 52: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

52 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Bemerkung 2.2.29 1. Kov(X, Y ) ist definiert, denn fur X, Y ∈ L 2

E[|(X − E[X])(Y − E[Y ])|]≤ E[|XY |] + E[|E[X]Y |] + E[|XE[Y ]|] + E[|E[X]E[Y ]|]≤ E [ |XY |︸ ︷︷ ︸

≤X2+Y 2

] + 3E[|X|]E[|Y |] <∞.

2. Varianz und Streuung beschreiben, wie dicht die Zufallsgroße am Erwartungswertliegt. Kovarianz und Korrelation beschreiben die lineare Abhangigkeit von Zufalls-großen.

3. Empirische Varianz, Streuung, Kovarianz und Korrelation von Daten x1, . . . , xn inKapitel 1 sind ”fast“ Varianz, Streuung, Kovarianz und Korrelation einer Zufalls-großen, deren Verteilung die empirische Verteilung der Daten x1, . . . , xn ist. Der ein-zige Unterschied besteht im Vorfaktor 1/(n − 1) anstelle von 1/n in der Definitionvon empirischer Varianz, Streuung und Kovarianz. Ein Grund dafur wird in Bemer-kung 3.2.7 genannt.

4. Var(X) und σX hangen nur von PX ab, vgl. Bemerkung 2.2.23.

Satz 2.2.30 (Rechenregeln) Seien X, Y,X1, . . . , Xn ∈ L 2 und a, b, c ∈ R.

1. Var(X) = E[X2]− (E[X])2

2. Kov(X, Y ) = E[XY ]− E[X]E[Y ]

3. Die Abbildung (X, Y ) 7→ Kov(X, Y ) ist bilinear und symmetrisch, d. h.

(a) Kov(X1 +X2, Y ) = Kov(X1, Y ) + Kov(X2, Y ),

(b) Kov(cX, Y ) = cKov(X, Y ),

(c) Kov(Y,X) = Kov(X, Y ).

4. Kov(X + b, Y ) = Kov(X, Y )

5. Var(aX + b) = a2Var(X)

6. (E[XY ])2 ≤ E[X2]E[Y 2] (Cauchy-Schwarzsche Ungleichung),insbesondere (Kov(X, Y ))2 ≤ Var(X)Var(Y )

7.∑n

i=1Xi ∈ L 2 und

Var

(n∑i=1

Xi

)=

n∑i=1

Var(Xi) +n∑

i,j=1i 6=j

Kov(Xi, Xj)

Sind X1, . . . , Xn paarweise unkorreliert, gilt

Var

(n∑i=1

Xi

)=

n∑i=1

Var(Xi) (Gleichung von Bienayme).

Page 53: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 53

8. X, Y unabhangig⇒ X, Y unkorreliert.

Beweis.

1. Folgt aus 2.

2. Kov(X, Y ) = E[(X − E[X])(Y − E[Y ])]

= E[XY ]− E[X]E[Y ]− E[X]E[Y ] + E[X]E[Y ]

= E[XY ]− E[X]E[Y ].

3. Kov(X1 +X2, Y ) = E[(X1 +X2)Y ]− E[X1 +X2]E[Y ]2.= E[X1Y ] + E[X2Y ]− E[X1]E[Y ]− E[X2]E[Y ]E[·] linear

= Kov(X1, Y ) + Kov(X2, Y ).Analog fur Kov(cX, Y ). Symmetrie ist klar.

4. Kov(X + b, Y ) = E[(X + b− E[X + b]︸ ︷︷ ︸=X−E[X]

)(Y − E[Y ])] = Kov(X, Y ).

5. Var(aX + b) = Kov(aX + b, aX + b)4.= Kov(aX, aX)

3.= a2Kov(X,X) = a2Var(X).

6. Fall 1: E[X2] = 0. Dann P (|X| > ε) = 0 fur ε > 0, denn

ε21|X|>ε ≤ |X|2 ⇒ ε2P (|X| > ε) = E[ε21|X|>ε] ≤ E[X2] = 0,

also P (X 6= 0) = 0 (Stetigkeit von unten) und somit E[XY ] = 0.Fall 2: E[X2] 6= 0. Fur beliebige λ ∈ R gilt

0 ≤ E[(λX − Y )2] = λ2E[X2]− 2λE[XY ] + E[Y 2]

und mit λ := E[XY ]E[X2]

somit

0 ≤ (E[XY ])2

E[X2]− 2

(E[XY ])2

E[X2]+ E[Y 2]⇒ (E[XY ])2 ≤ E[X2]E[Y 2].

7. Wegen 4. konnen wir o. B. d. A. annehmen, dass E[Xi] = 0. Also

Var

(n∑i=1

Xi

)= E

( n∑i=1

Xi

)2

=n∑i=1

E[X2i ] +

n∑i,j=1i 6=j

E[XiXj]

=n∑i=1

Var(Xi) +n∑

i,j=1i 6=j

Kov(Xi, Xj).

Page 54: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

54 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

8. Satz 2.2.24(4)

Beispiel 2.2.31 Sei X binomialverteilt mit Parametern n, p, vgl. Definition 2.2.15.

E[X2] =n∑k=0

k2

(n

k

)pk(1− p)n−k

= np

n∑k=1

k

(n− 1

k − 1

)pk−1(1− p)n−k

= np

n−1∑k=0

(k + 1)

(n− 1

k

)pk(1− p)n−k−1

= np

(n−1∑k=0

k

(n− 1

k

)pk(1− p)n−1−k

︸ ︷︷ ︸=(n−1)p (Bsp. 2.2.25)

+n−1∑k=0

(n− 1

k

)pk(1− p)n−1−k

︸ ︷︷ ︸=1

)

= np((n− 1)p+ 1),

also Var(X) = E[X2]− (E[X])2 2.2.25= (np)2 − np2 + np− (np)2 = np(1− p).

Satz 2.2.32 Seien X, Y ∈ L 2 mit σX , σY 6= 0. Dann gelten:

1. %XY ∈ [−1, 1],

2. %XY = ±1 genau dann, wenn es a ∈ R, b ∈ (0,∞) gibt mit P (Y = a± bX) = 1.

Beweis.

1. Satz 2.2.30(6).

2. ”⇐“: Kov(X, Y ) = Kov(X, a± bX)2.2.30(4)

= ±bKov(X,X) = ±bVar(X) und√Var(X)Var(Y )

2.2.30(5)=

√Var(X)b2Var(X) = bVar(X).

”⇒“. Fur X := X − E[X], Y := Y − E[Y ] gilt (E[XY ])2 = E[X2]E[Y 2]. Analogzum Beweis von 2.2.30(6) folgt

0 = E[(λX − Y )2] fur λ =E[XY ]

E[X2]= %XY

σYσX

und somit P (Y 6= λX − λE[X] + E[Y ]) = P (λX − Y 6= 0) = 0.

Bemerkung 2.2.33 Achtung: Aus der Unkorreliertheit von X, Y folgt nicht, dass X, Y un-abhangig sind!Seien beispielsweise P (X = −1) = P (X = 0) = P (X = 1) = 1/3, Y := X2.P (X = 1, Y = 1) = P (X = 1) = 1/3 6= 2/9 = (1/3)(2/3) = P (X = 1)P (Y = 1), alsosind X, Y nicht unabhangig.Aber Kov(X, Y ) = E[XY ] − E[X]E[Y ] = 1/3 + 0 − 1/3 − 0(2/3) = 0, also sind X, Yunkorreliert.

Page 55: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 55

Nun zum mehrdimensionalen Fall:

Definition 2.2.34 Sei X = (X1, . . . , Xn) eine Rn-wertige Zufallsvariable.

1. Im Fall X1, . . . , Xn ∈ L 1 heißt

E[X] = (E[X1], . . . , E[Xn]) ∈ Rn

Erwartungswertvektor von X .

2. Im Fall X1, . . . , Xn ∈ L 2 ist die Kovarianzmatrix Kov(X) ∈ Rn×n definiert durch

Kov(X)ij := Kov(Xi, Xj).

Satz 2.2.35 Seien X eine Rn-wertige Zufallsvariable, A ∈ Rm×n, b ∈ Rm. Dann gelten:

1. X1, . . . , Xn ∈ L 1 ⇒ E[AX + b] = AE[X] + b,

2. X1, . . . , Xn ∈ L 2 ⇒ Kov(AX + b) = AKov(X)AT ,

3. X1, . . . , Xn ∈ L 2 ⇒ Kov(X) ist symmetrisch und positiv semidefinit.

Beweis.

1. Satz 2.2.24(2).

2. Kov(AX + b)ij = Kov(∑n

k=1AikXk + bi,∑n

l=1AjlXl + bj)2.2.30=∑n

k,l=1AikAjlKov(Xk, Xl) = (AKov(X)AT )ij .

3. Symmetrie ist klar. Fur a ∈ Rn gilt aTKov(X)a2.= Kov(aTX, aTX) = Var(aTX) ≥

0, also ist Kov(X) auch positiv semidefinit.

Nutzlich fur konkrete Berechnungen:

Definition 2.2.36 Sei P ein Wahrscheinlichkeitsmaß auf (N,P(N)) mit Zahldichte %. DieFunktion ϕP : [0, 1]→ R mit

ϕP (s) :=∞∑k=0

%(k)sk

heißt erzeugende Funktion von P .

Bemerkung 2.2.37∑∞

k=0 %(k) = 1 <∞⇒ ϕP endlich und auf [0, 1) unendlich oft diffe-renzierbar.

Beispiel 2.2.38 1. P Gleichverteilung auf 1, . . . , n:ϕP (s) = 1

n(s+ s2 + · · ·+ sn)

2. P Binomialverteilung mit Parametern n, p:ϕP (s) =

∑nk=0

(nk

)pk(1− p)n−ksk = (ps+ (1− p))n

Page 56: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

56 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. P Poissonverteilung mit Parameter λ:ϕP (s) =

∑∞k=0 e

−λ(λk/k!)sk = e−λ(1−s)

Bezeichnung 2.2.39 IstX eine N-wertige Zufallsgroße, nennt man ϕX := ϕPX erzeugendeFunktion von X .

Bemerkung 2.2.40 ϕX(s) =∑∞

k=0 P (X = k)sk = E[sX ] fur s ∈ [0, 1].

Satz 2.2.41 1. Sei P Wahrscheinlichkeitsverteilung auf N mit Zahldichte %. Dann gilt

%(k) =1

k!ϕ

(k)P (0), k ∈ N,

wobei ϕ(k)P die k-te Ableitung sei. Insbesondere ist P durch ϕP eindeutig bestimmt.

2. Sei X eine N-wertige Zufallsgroße. Dann gelten

(a) X ∈ L 1 ⇔ ϕ′X(1−) := lims↑1 ϕ′X(s) existiert ⇔ ϕ′X(1) existiert;

(b) X ∈ L 2 ⇔ ϕ′′X(1−) := lims↑1 ϕ′′X(s) existiert .

In diesem Fall Var(X) = ϕ′′X(1)− (E[X])2 + E[X].

Beweis.

1. Analysis, z. B. Heuser, Analysis I, 64.2.

2. (a)

(ϕ′X(1) =) lims↑1

ϕX(1)− ϕX(s)

1− s= lim

s↑1

∞∑k=0

%(k)1− sk

1− s

= lims↑1

∞∑k=0

%(k)k−1∑j=0

si = sups<1

supn∈N

n∑k=0

%(k)k−1∑j=0

sj

= supn∈N

n∑k=0

%(k)k =∞∑k=0

%(k)k (= E[X])

= lims↑1

∞∑k=0

%(k)ksk−1 = lims↑1

ϕ′X(s).

(b) Analog zu (a):

lims↑1

ϕ′X(1)− ϕ′X(s)

1− s=∞∑k=1

%(k)k(k − 1)

= lims↑1

∞∑k=1

%(k)k(k − 1)sk−2 = lims↑1

ϕ′′(s),

insbesondere im Fall X ∈ L 2:ϕ′′X(1) = E[X2 −X] = Var(X) + (E[X])2 − E[X] = lims↑1 ϕ

′′X(s).

Page 57: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 57

Beispiel 2.2.42 Sei X Poissonverteilt mit Parameter λ.Dann sind E[X] = ∂

∂se−λ(1−s)|s=1 = λ und Var(X) = ∂2

∂s2e−λ(1−2)|s=1 − λ2 + λ = λ.

Satz 2.2.43 Seien X, Y unabhangige N-wertige Zufallsgroßen. Dann gilt

ϕX+Y (s) = ϕX(s)ϕY (s), s ∈ [0, 1].

Beweis. ϕX+Y (s) = E[sX+Y ] = E[sXsY ]2.2.24(4)

= E[sX ]E[sY ] = ϕX(s)ϕY (s).

Korollar 2.2.44 Seien P1, P2 Verteilungen auf N. Dann gilt

ϕP1∗P2(s) = ϕP1(s)ϕP2(s), s ∈ [0, 1].

Beweis. Definition der Faltung 2.2.18.

Beispiel 2.2.45 1. Sind P1, P2 binomialverteilt mit Parametern m, p bzw. n, p, ist auchP1 ∗ P2 binomialverteilt mit Parametern (m + n), p (nach Beispiel 2.2.38 (2) undKorollar 2.2.44).

2. Sind P1, P2 poissonverteilt mit Parametern λ1 bzw. λ2, ist auch P1 ∗P2 poissonverteiltmit Parameter (λ1 + λ2) (nach Beispiel 2.2.38 (3) und Korollar 2.2.44).

2.2.4 Zufallsvariablen im allgemeinen Fall

Wir mochten unsere Theorie nun auf uberabzahlbare Ω ubertragen. Dabei ergeben sich fol-gende Probleme:

• P (X ∈ B) = P (X−1(B)) ist eventuell nicht definiert fur das Wahrscheinlichkeits-maß P : F → R+, denn im Allgemeinen ist F 6= P(Ω);

• E[X] =∑

ω∈Ω X(ω)P (ω) ergibt fur uberabzahlbares Ω keinen Sinn.

Auf maßtheoretische Beweise verzichten wir in dieser Einfuhrung.

Definition 2.2.46 (vgl. Definition 2.2.1)Seien (Ω,F ), (Ω′,F ′) Ereignisraume.X : Ω→ Ω′ heißt (F -F ′)-messbar, fallsX−1(A′) ∈ F fur alleA′ ∈ F ′ (Urbilder messba-rer Mengen sind messbar). Falls (Ω,F , P ) ein Wahrscheinlichkeitsraum ist, heißen mess-bare X Zufallsvariablen, falls zusatzlich (Ω′,F ′) = (R,B), auch Zufallsgroßen.

Bemerkung 2.2.47 1. Es reicht, X−1(A′) ∈ F fur alle A′ aus dem Erzeuger von F ′ zuzeigen.

Page 58: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

58 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

2. A ∈ F ⇒ 1A : Ω→ R ist messbar.Summen, Produkte, inf, sup, lim inf, lim sup und Hintereinanderausfuhrungen mess-barer Abbildungen sind messbar.Stetige Abbildungen sind Borel-messbar (d. h. messbar bezuglich der Borel-σ-Algebra).Faustregel: Messbarkeit ist kein kritischer Punkt.

Satz 2.2.48 (vgl. Satz 2.2.4)Sei X : (Ω,F , P )→ (Ω′,F ′) eine Zufallsvariable, d. h. (Ω,F , P ) ist ein Wahrscheinlich-keitsraum, (Ω′,F ′) ein Ereignisraum, und X ist messbar. Dann definiert

PX(A′) := P (X−1(A′)) = P (X ∈ A′), A′ ∈ F ′

ein Wahrscheinlichkeitsmaß PX auf (Ω′,F ′) (allgemeiner: ein Maß PX , falls P ein Maßist).

Beweis. Die Funktion ist wohldefiniert, da X−1(A′) ∈ F . Rest wie in Satz 2.2.4.

Definition 2.2.49 (vgl. Definition 2.2.5)Die Verteilung von X , das Bildmaß von P unter X (auch falls P nur Maß) und identischverteilt werden genau wie im abzahlbaren Fall definiert.

Definition 2.2.50 (vgl. Definition 2.2.10)Seien I 6= ∅ eine Indexmenge und Xi : (Ω,F , P ) → (Ωi,Fi) Zufallsvariablen fur allei ∈ I .(Xi)i∈I heißt unabhangig, falls

P

(⋂i∈J

Xi ∈ Bi

)=∏i∈J

P (Xi ∈ Bi)

fur alle nichtleeren, endlichen J ⊆ I und alle Bi ∈ Fi, i ∈ J .

Bemerkung 2.2.51 1. (vgl. Satz 2.2.11)Statt allerBi ∈ Fi reicht es, alleBi aus einem ∩-stabilen Erzeuger von Fi zu betrach-ten. Beispielsweise sind Zufallsgroßen X1, . . . , Xn genau dann unabhangig, wenn

P (X1 ≤ c1, . . . , Xn ≤ cn) =n∏i=1

P (Xi ≤ ci)

fur alle c1, . . . , cn ∈ [−∞,∞]. (Es reichen sogar c1, . . . , cn ∈ R).

2. Ist (Xi)i∈I unabhangig, ist auch (fi(Xi))i∈I unabhangig, falls fi messbare Funktionensind. Ferner sind auch ”Kombinationen“ der Xi unabhangig. Beispielsweise folgt ausder Unabhangigkeit von X1, . . . , X5, dass auch (X1 + X2, X3,

√X4X5) unabhangig

ist.

Page 59: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 59

Satz 2.2.52 (vgl. Satz 2.2.12)Seien Xi : (Ω,F , P ) → (Ωi,Fi), i ∈ I Zufallsvariablen. Definiere X := (Xi)i∈I : Ω →∏

i∈I Ωi, vgl. Bemerkung 2.1.36(3). Dann gilt:

(Xi)i∈I unabhangig ⇔ PX =⊗i∈I

PXi .

(PX ,⊗

i∈I PXi sind Wahrscheinlichkeitsmaße auf (

∏i∈I Ωi,

⊗i∈I Fi), vgl. Bemerkung

2.1.36(3))

Bemerkung 2.2.53 Bemerkung 2.2.13 (unabhangige Versuchswiederholung) gilt entspre-chend. Sie ist auch fur unendliche Versuchswiederholungen sinnvoll. Die Modellierung er-folgt via (

∏i∈I Ωi,

⊗i∈I Fi,

⊗i∈I Pi), wobei (Ωi,Fi, Pi) das Einzelexperiment mit Num-

mer i beschreibt.

Beispiel 2.2.54 (vgl. Beispiel 2.2.14)Folge unendlich vieler Wurfe einer p-Munze mit p ∈ [0, 1].Ωi = 0, 1, Pi(1) = p = 1− Pi(0), i = 1, 2, . . .

Die 0 wird als Misserfolg, die 1 als Erfolg interpretiert.(Ω,F , P ) := (

∏∞i=10, 1,

⊗∞i=1 P(0, 1),

⊗∞i=1 Pi)

Hierbei ist∏∞

i=10, 1 =: 0, 1N∗ die Menge aller Abbildungen N∗ → 0, 1.Die Zufallsgroße Xr beschreibe fur r ∈ N die Zahl der Misserfolge bis zum r-ten Erfolg,d. h.

Xr : Ω→ N, ω 7→ inf

k ∈ N :

k∑i=1

ωi = r

− r

(insbesondere ist X1 die Wartezeit bis zum ersten Erfolg). Dann gilt

P (Xr = k) = P

(ω ∈ Ω: ωk+r = 1,

k+r−1∑i=1

ωi = r − 1

)=

∑A⊆1,...,k+r−1|A|=r−1

P (ω ∈ Ω: ωi = 1 fur i ∈ A ∪ k + i,ωi = 0 fur i ∈ 1, . . . , k + r − 1 \ A)

Unabh.=

∑A⊆1,...,k+r−1|A|=r−1

pr(1− p)(k+r−1)−(r−1)

=

(k + r − 1

r − 1

)pr(1− p)k, k ∈ N.

Diese Verteilung heißt negative Binomialverteilung und fur r = 1 geometrische Verteilung.

Definition 2.2.55 Seien p ∈ (0, 1), r ∈ N∗. Die negative Binomialverteilung oder Pascal-Verteilung mit Parametern r, p auf (N,P(N)) ist definiert durch die Zahldichte

%(k) :=

(k + r − 1

r − 1

)pr(1− p)k, k ∈ N.

Fur r = 1 heißt die Verteilung geometrische Verteilung mit Parameter p.

Page 60: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

60 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beispiel 2.2.56 Sei P die negative Binomialverteilung mit Parametern r, p.

1. Erzeugende Funktion:

ϕP (s) =∞∑k=0

(k + r − 1

r − 1

)︸ ︷︷ ︸

=(k+r−1k )=(−rk )(−1)k

pr(1− p)ksk

= pr∞∑k=0

(−rk

)(−s(1− p))k

=

(p

1− (1− p)s

)r.

(Binomische Reihe: (1 + x)α =∑∞

k=0

(αk

)xk)

2. Folgerung: Seien P1, P2 negative Binomialverteilungen mit Parametern r1, p bzw.r2, p. Dann ist P1 ∗ P2 eine negative Binomialverteilung mit Parametern r1 + r2, p

(nach Korollar 2.2.44).

3. Sei X negativ binomialverteilt mit Parametern r, p. Dann gelten

E[X]2.2.41=

∂s

(p

1− (1− p)s

)r∣∣∣∣s=1

= r(1− p)pr(1− (1− p)s)−r−1|s=1

= r1− pp

= r

(1

p− 1

),

Var(X)2.2.41=

∂2

∂s2

(p

1− (1− p)s

)r∣∣∣∣s=1

− r2(1− p)2

p2+r(1− p)

p

= r(r + 1)(1− p)2pr(1− (1− p)s)−r−2∣∣s=1︸ ︷︷ ︸

=r(r+1)(1−r)2p2

−r2(1− p)2

p2+r(1− p)

p

= r1− pp2

.

Man beachte, dass Erwartungswert und Varianz proportional zu r sind. Dies ist auchzu erwarten, wenn man die Wartezeit auf den r-ten Erfolg als unabhangige Summevon r Wartezeiten jeweils auf den nachsten Erfolg versteht.

Nun zum Erwartungswert mittels Lebesgue-Integration:

Definition 2.2.57 (vgl. Definition 2.2.20)Sei (Ω,F , P ) ein Wahrscheinlichkeitsraum (oder allgemeiner ein Maßraum). X : Ω → Rheißt elementar, falls

X =n∑i=1

ai1Ai

mit a1, . . . , an ∈ R+, A1, . . . , An ∈ F . (Die Mengen A1, . . . , An konnen in diesem Falldisjunkt gewahlt werden.)

Page 61: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 61

1. Definiere das Integral fur solche X als gewichteten Mittelwert:

∫X dP :=

n∑i=1

aiP (Ai)

=∑

x∈X(Ω)

xP (X = x)

.

2. Sei X : Ω→ R eine Zufallsgroße (bzw. messbar) mit X ≥ 0. Definiere das Integral∫X dP := sup

∫Y dP : Y elementar mit Y ≤ X

.

3. Sei X : Ω → R eine Zufallsgroße (bzw. messbar) mit∫X+ dP < ∞ oder∫

X− dP < ∞ im Sinne von 2., wobei X+ := max0, X, X− := max0,−X.Definiere das Integral ∫

X dP :=

∫X+ dP −

∫X− dP.

X heißt integrierbar, falls∫|X| dP <∞ (oder aquivalent dazu, falls

∫X+ dP <∞

und∫X− dP <∞). Schreibweise: X ∈ L 1

4. Seien X : Ω → R eine Zufallsgroße (bzw. messbar) wie in 2. oder 3. und A ∈ F .Definiere das Integral ∫

A

X dP :=

∫X1A dP.

Bezeichnung 2.2.58 1. Man schreibt auch∫X dP :=

∫X(ω)P (dω).

2. Im Fall P = λ (Lebesguemaß) sei∫Af(x) dx :=

∫Af dλ. Dieses Lebesgue-Integral

stimmt mit dem (eigentlichen) Riemann-Integral uberein, falls letzteres existiert.

3. Fur Wahrscheinlichkeitsmaße P schreibt manE[X] :=∫X dP und nennt das Integral

Erwartungswert von X , vgl. Definition 2.2.20 und Satz 2.2.22.

Eigenschaften 2.2.59 (vgl. Satz 2.2.24)

1. Fur hochstens abzahlbares Ω entspricht der Erwartungswert dem Erwartungswert ausDefinition 2.2.20.Begrundung fur endliches Ω und X ≥ 0:

X =∑ω∈Ω

X(ω)1ω2.2.57(1)⇒

∫X dP =

∑ω∈Ω

X(ω)P (ω)

oderX =

∑x∈X(Ω)

x1X=x2.2.57(1)⇒

∫X dP =

∑x∈X(Ω)

xP (X = x).

2.∫X dP ist wohldefiniert.

Page 62: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

62 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. X 7→∫X dP ist linear und monoton.

4. Falls X,X1, X2, . . . messbar und nichtnegativ sind mit Xn ↑ X fur n→∞, gilt∫Xn dP ↑n→∞

∫X dP (monotone Konvergenz).

5. Falls X,X1, X2, . . . messbar sind mit Xn → X fur n → ∞ (punktweise) und∫supn |Xn| dP <∞, gilt∫

Xn dPn→∞−−−→

∫X dP (majorisierte Konvergenz).

Satz 2.2.60 (Transformationssatz) (vgl. Satz 2.2.22)Seien X : (Ω,F , P ) → (Ω′,F ′) und die Funktion f : (Ω′,F ′) → (R,B) messbar. Danngilt ∫

f(X) dP =

∫f dPX ,

falls der Ausdruck definiert ist, d. h. f ≥ 0 oder∫|f(X)| dP <∞ (⇔

∫|f | dPX <∞).

Bemerkung 2.2.61 (vgl. Bemerkung 2.2.23(1))Insbesondere gilt E[X] =

∫X dP =

∫xPX(dx), d. h. der Erwartungswert hangt nur von

PX ab.

Satz 2.2.62 (vgl. Satz 2.2.22)Sei P ein Wahrscheinlichkeitsmaß auf (R,B) mit Lebesgue-Dichte %, vgl. Satz 2.1.25. Danngilt

P (B) =

∫B

%(x) dx, B ∈ B.

mit dem Integral aus Bemerkung 2.2.58(2). Allgemeiner:∫f dP =

∫f(x)%(x) dx

fur f : (R,B)→ (R,B) mit f ≥ 0 oder∫|f | dP <∞ (⇔

∫|f(x)|%(x) dx <∞).

Beispiel 2.2.63 1. Sei X eine auf [a, b] gleichverteilte Zufallsgroße, d. h. PX ist dieGleichverteilung auf [a, b]. Dann ist

E[X]2.2.61=

∫xPX(dx)

2.2.62=

∫x%(x) dx mit %(x) =

1

b− a1[a,b](x)

=

∫[a,b]

x1

b− adx =

1

b− a

∫ b

a

x dx

=1

b− ax2

2

∣∣∣∣bx=a

=b2 − a2

2(b− a)

=a+ b

2.

Page 63: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 63

2. Sei X eine exponentialverteile Zufallsgroße mit Parameter λ, d. h. PX ist exponenti-alverteilt mit Parameter λ. Dann ist

E[X]2.2.61=

∫xPX(dx)

2.2.62=

∫x%(x) dx mit %(x) = 1R+(x)λe−λx

=

∫ ∞0

xλe−λx dx

= −xe−λx∣∣∞x=0

+

∫ ∞0

e−λx dx

= 0− 1

λe−λx

∣∣∣∣∞x=0

=1

λ.

3. Allgemein also: Ist X eine Zufallsgroße, deren Verteilung Lebesgue-Dichte % hat undist f : R→ R messbar, gilt

E[f(X)] =

∫f(x)%(x) dx,

falls der Erwartungswert existiert, denn

E[f(X)]Def.=

∫f(X) dP

2.2.60=

∫f dPX 2.2.62

=

∫f(x)%(x) dx.

Vergleiche im Diskreten:

E[f(X)]2.2.22=

∑x∈X(Ω)

f(x)P (X = x) =∑

x∈X(Ω)

f(x)%(x),

falls % die Zahldichte der Verteilung von X ist.

Bemerkung 2.2.64 L p, p-te Momente, Varianz, Streuung, Standardabweichung, Kovari-anz, Korrelationskoeffizient, Unkorreliertheit, Erwartungswertvektor und Kovarianzmatrixwerden wie in Definitionen 2.2.26, 2.2.28, 2.2.34 definiert. Die Rechenregeln und Bemer-kungen 2.2.23, 2.2.24, 2.2.27, 2.2.29, 2.2.30, 2.2.32, 2.2.33, 2.2.35 gelten mit denselbenBeweisen auch allgemein.

Beispiel 2.2.65 Sei X exponentialverteilt mit Parameter λ. Dann ist

E[X2]2.2.63(3)

=

∫ ∞0

x2λe−λx dx = −x2e−λx∣∣∞x=0

+

∫ ∞0

2xe−λx dx

= 0 +2

λ

∫ ∞0

xλe−λx dx2.2.63(2)

=2

λ

1

λ

=2

λ2

und somitVar(X) = E[X2]− (E[X])2 2.2.63(2)

=2

λ2− 1

λ2=

1

λ2.

Page 64: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

64 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Zur Integration von Produktmaßen:

Satz 2.2.66 (Satz von Fubini) Seien (Ω1,F1, P1), (Ω2,F2, P2) Wahrscheinlichkeitsraumeund f : Ω1 × Ω2 → R mit f ≥ 0 oder f ∈ L 1(P1 ⊗ P2). Dann gilt∫

f d(P1 ⊗ P2) =

∫ ∫f(ω1, ω2)P2( dω2)P1( dω1)

=

∫ ∫f(ω1, ω2)P1( dω1)P2( dω2).

Insbesondere fur A ∈ F1 ⊗F2:

(P1 ⊗ P2)(A) =

∫ ∫1A(ω1, ω2)P2( dω2)P1( dω1)

=

∫ ∫1A(ω1, ω2)P1( dω1)P2( dω2).

Bemerkung 2.2.67 Satz 2.2.66 gilt nicht nur fur Wahrscheinlichkeitsmaße, sondern auchfur die meisten anderen Maße, beispielsweise das Lebesguemaß, d. h.∫

R2

f(x) dx =

∫ ∫f(x1, x2) dx1 dx2 =

∫ ∫f(x1, x2) dx2 dx1.

Beispiel 2.2.68 1. Sie schalten zwei Gluhbirnen ein, deren Lebensdauern unabhangigexponentialverteilt sind mit Parametern λ1, λ2. Mit welcher Wahrscheinlichkeit ist dieerste Gluhbirne zuerst defekt? Seien X1, X2 die Lebensdauer der jeweiligen Gluhbir-ne. Dann gilt

P (X1 ≤ X2) = P ((X1, X2) ∈ x ∈ R2 : x1 ≤ x2)= P (X1,X2)(x ∈ R2 : x1 ≤ x2)

Unabh.= (PX1 ⊗ PX2)(x ∈ R2 : x1 ≤ x2)

(2.2.66)=

∫ ∫1x∈R2 : x1≤x2(x1, x2)PX1( dx1)PX2( dx2)

(2.2.61)=

∫ ∞0

∫ x2

0

1R+(x1)λ1e−λ1x1 dx1 1R+(x2)λ2e

−λ2x2 dx2

=

∫ ∞0

.(−e−λ1x1)|x2x1=0λ2e

−λ2x2 dx2

=

∫ ∞0

(1− e−λ1x2)λ2e−λ2x2 dx2

= 1− .( λ2

λ1 + λ2

e−(λ1+λ2)x2)|∞x2=0

= 1− λ2

λ1 + λ2

=λ1

λ1 + λ2

.

2. Seien X1, X2 unabhangige Zufallsgroßen mit Verteilungsdichten %1, %2 und seif : R2 → R (vgl. Beispiel 2.2.63 (3)). Dann gilt

E[f(X1, X2)] =

∫ ∫f(x1, x2)%1(x1) dx1%2(x2) dx2.

Page 65: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.2. ZUFALLSVARIABLEN 65

Insbesondere fur A ⊆ R2:

P ((X1, X2) ∈ A) =

∫ ∫1A(x1, x2)%1(x1) dx1%2(x2) dx2.

Fur diskrete Zufallsgroßen mit Zahldichten %1, %2 vereinfacht sich dies zu

E[f(X1, X2)] =∑

(x1,x2)∈(X1,X2)(Ω)

f(x1, x2) P ((X1, X2) = (x1, x2))︸ ︷︷ ︸Unabh.

= P (X1=x1)P (X2=x2)=%1(x1)%2(x2)

=∑

x2∈X2(Ω)

∑x1∈X1(Ω)

f(x1, x2)%1(x1)%2(x2).

Zur Faltung bei Dichten:

Satz 2.2.69 (vgl. Satz 2.2.19)Seien X, Y unabhangige Zufallsgroßen mit zugehorigen Verteilungsdichten %X , %Y : R →R+. Dann ist %S : R→ R+ mit

%S(x) =

∫%X(z)%Y (x− z) dz

die Dichte von PX ∗ P Y . Schreibweise: %X ∗ %Y := %S (Faltung von %X und %Y ).

Beweis. Seien X, Y unabhangig, S := X + Y .Sei F die Verteilungsfunktion von PX ∗ P Y = PX+Y = P S . Dann gilt

F (t) = P (S ≤ t) = P (X + Y ≤ t)

= P ((X, Y ) ∈ (x, y) ∈ R2 : x+ y ≤ t)2.2.68(2)

=

∫ ∫1x+y≤t%Y (y) dy %X(x) dx

=

∫ ∞−∞

∫ t−x

−∞%Y (y) dy %X(x) dx

=

∫ t

−∞

∫ ∞−∞

%Y (z − x)%X(x) dx dz,

also%S(t)

2.1.33=

∂tF (t)

HDI=

∫ ∞−∞

%Y (t− x)%X(x) dx.

Definition 2.2.70 Sei F : R → [0, 1] die Verteilungsfunktion einer Verteilung auf (R,B)

(z. B. der Verteilung einer Zufallsgroße X). Dann heißt F← : (0, 1)→ R mit

p 7→ infx ∈ R : F (x) ≥ p

verallgemeinerte Inverse oder Quantilfunktion von F .

Page 66: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

66 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Bemerkung 2.2.71 1. F← ist linksseitig stetig;

2. F← = F−1|(0,1) falls F streng monoton und stetig;

3. F←(p) ≤ t⇔ p ≤ F (t) fur alle t ∈ R, p ∈ (0, 1).

Definition 2.2.72 Sei F die Verteilungsfunktion einer Verteilung P auf (R,B), etwa dieVerteilung einer Zufallsgroße X .

1. Jede Zahl m ∈ [F←(12), F←(1

2+)] heißt Median von P bzw. X , wobei

F←(p+) := limq↓p F←(q).

2. Fur p ∈ (0, 1) heißt jede Zahl q ∈ [F←(p), F←(p+)] p-Quantil von P bzw. X .

Bemerkung 2.2.73 1. q ist ein p-Quantil von X genau dann wenn P (X ≤ q) ≥ p undP (X ≥ q) ≥ 1− p.

2. Der Median ist gerade das 1/2-Quantil, 1/4- und 3/4-Quantile heißen untere bzw. obereQuartile.

Beispiel 2.2.74 1. Wenn F die empirische Verteilungsfunktion von x1, . . . , xn ∈ R ist,entsprechen Median und p-Quantil bis auf die spezielle Wahl denen aus den Defini-tionen 1.3.3 und 1.3.8.

2. Sei X exponentialverteilt mit Parameter λ > 0 (beispielsweise Lebensdauer einesradioaktiven Teilchens). X hat die Verteilungsfunktion

F (t) = P (X ≤ t)2.1.30(1)

= 1− e−λt,

also F←(p) = − 1λ

log(1− p).Der eindeutige Median (Halbwertszeit) von X ist somit

m = −1

λlog

(1

2

)=

1

λlog(2)

(6= 1

λ= E[X]

).

Definition 2.2.75 Sei X eine Zufallsgroße, deren Verteilung die Zahldichte oder Lebesgue-Dichte % hat. Falls % ein eindeutiges Maximum bei x0 ∈ R hat, heißt x0 Modus oder Modal-wert von X .

2.3 Grenzwertsatze

2.3.1 Konvergenzbegriffe

Frage: Wie verhalten sich stochastische Experimente im Limes, z. B. wenn Versuche oft wie-derholt werden? Gesetze der großen Zahlen etwa besagen, dass bei haufiger Versuchswie-derholung das arithmetische Mittel gegen den Erwartungswert konvergiert (bzw. die relativeHaufigkeit gegen die entsprechende Wahrscheinlichkeit). Allerdings ist nicht von vornhereinklar, in welchem Sinne Konvergenz bei Folgen von Zufallsgroßen zu verstehen ist.

Page 67: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.3. GRENZWERTSATZE 67

Definition 2.3.1 Seien X,X1, X2, . . . : (Ω,F , P )→ (R,B) Zufallsgroßen.

1. (Xn)n∈N∗ konvergiert stochastisch (oder in Wahrscheinlichkeit) gegenX , falls fur alleε > 0

P (|Xn −X| ≤ ε)n→∞−−−→ 1.

(Schreibweise: XnP−→ X).

2. (Xn)n∈N∗ konvergiert P -fast sicher gegen X , falls

P (Xn → X fur n→∞) = 1.

Bemerkung 2.3.2 1. Fast sichere Konvergenz impliziert stochastische Konvergenz. Wirbetrachten in dieser Vorlesung nur stochastische Konvergenz.

2. Es gibt weitere Begriffe, wie z. B.

Xn → X in L p :⇔ E[|Xn −X|p]n→∞−−−→ 0.

Diese betrachten wir in dieser Vorlesung nicht.

Definition 2.3.3 Seien X,X1, X2, . . . Zufallsgroßen mit zugehorigen Verteilungsfunktio-nen FX , FX1 , FX2 , . . .

Die Folge (Xn)n∈N∗ konvergiert in Verteilung gegen X (bzw. (PXn)n∈N∗ konvergiertschwach gegen PX), falls

FXn(c)n→∞−−−→ FX(c)

fur alle c ∈ R, in denen FX stetig ist.Schreibweisen: Xn

L−→ X , Xnd−→ X , Xn

D−→ X fur n→∞.

Bemerkung 2.3.4 1. Verteilungskonvergenz hangt nur von der Folge der VerteilungenPX1 , PX2 , . . . ab. Die Zufallsgroßen selbst brauchen in keiner Beziehung zueinanderzu stehen.

2. Man kann zeigen:Xn → X in Verteilung ⇔ E[f(Xn)] → E[f(X)] fur alle stetigen, beschranktenFunktionen f : R→ R.

Satz 2.3.5 Seien X,X1, X2, . . . N-wertige Zufallsgroßen mit VerteilungsfunktionenFX , FX1 , FX2 , . . . . Die folgenden Aussagen sind aquivalent:

1. Xn → X in Verteilung,

2. FXn(c)n→∞−−−→ FX(c) fur alle c ∈ R,

3. P (Xn = k)n→∞−−−→ P (X = k) fur alle k ∈ N

(d. h. punktweise Konvergenz der Zahldichten von PXn).

Page 68: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

68 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beweis. 2⇒ 1: klar1⇒ 3:

P (Xn = k) = PXn

((k − 1

2, k +

1

2

])= FXn

(k +

1

2

)− FXn

(k − 1

2

)n→∞−−−→ FX

(k +

1

2

)− FX

(k − 1

2

)= P (X = k), k ∈ N

3⇒ 2:

FXn(c) =

[c]∑k=0

P (Xn = k)n→∞−−−→

[c]∑k=0

P (X = k) = FX(c)

Satz 2.3.6 Falls XnP−→ X , dann auch Xn → X in Verteilung.

Beweis. Seien η > 0 und c ein Stetigkeitspunkt von FX . Dann gilt

FXn(c)− FX(c) = P (Xn ≤ c)− P (X ≤ c)

≤ P (X ≤ c+ ε)− P (X ≤ c)︸ ︷︷ ︸< η

2fur kleines ε

+P (|Xn −X| > ε)︸ ︷︷ ︸< η

2fur großes n(ε)

< η

fur großes n. Analog: FXn(c)− FX(c) > −η fur großes n.

2.3.2 Gesetze der großen Zahlen

Nun zur eingangs erwahnten Konvergenz:

Satz 2.3.7 (Markow-Ungleichung) Seien X eine Zufallsgroße und f : R+ → R+ monotonwachsend mit f(x) > 0 fur x > 0. Dann gilt

P (|X| ≥ ε) ≤ E[f(|X|)]f(ε)

, ε > 0.

Beweis. E[f(|X|)] ist definiert, da f(|X|) ≥ 0. Weiter ist f(ε)1|X|≥ε ≤ f(|X|) und somit

f(ε)P (|X| ≥ ε) = E[f(ε)1|X|≥ε] ≤ E[f(|X|)].

Korollar 2.3.8 (Tschebyschow-Ungleichung) Fur X ∈ L 2 und ε > 0 gilt

P (|X − E[X]| ≥ ε) ≤ Var(X)

ε2.

Beweis. Satz 2.3.7 fur X ′ := X − E[X] und f(x) := x2.

Page 69: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.3. GRENZWERTSATZE 69

Satz 2.3.9 (Schwaches Gesetz der großen Zahlen) Seien X1, X2, . . . unabhangige, iden-tische verteilte Zufallsgroßen in L 2. Dann gilt

1

n

n∑i=1

XiP−→ E[X1]

fur n→∞.

Beweis. Fur Yn := 1n

∑ni=1 gilt

E[Yn] =1

n

n∑i=1

E[Xi] = E[X1],

Var(Yn)2.2.30=

1

n2

n∑i=1

Var(Xi) =1

nVar(X1),

also folgt

P

(∣∣∣∣∣ 1nn∑i=1

Xi − E[X1]

∣∣∣∣∣ > ε

)= P (|Yn − E[Yn]| > ε)

2.3.8

≤ Var(X1)

ε2

1

n→ 0

fur n→∞.

Korollar 2.3.10 Seien X1, X2 unabhangige, identisch verteilte Zufallsgroßen und A ∈ B.Dann gilt

1

n

n∑i=1

1A(Xi)︸ ︷︷ ︸rel. Haufigkeit

P−→ PX1(A)︸ ︷︷ ︸Wahrscheinlichkeit

fur n→∞.

Beweis. PX1(A) = P (X−11 (A)) = E[1X−1(A)] = E[1A(X1)]

Beispiel 2.3.11 Seien X1, X2, . . . unabhangig und auf 1, . . . , 6 gleichverteilt (Wurfel-wurfe). Dann gelten

1

n

n∑i=1

XiP−→ E[X1] = 3,5

sowie1

n

n∑i=1

1k(Xi)P−→ P (X1 = k) =

1

6, k = 1, . . . , 6.

Bemerkung 2.3.12 1. In 2.3.9 und 2.3.10 genugt es, statt Unabhangigkeit nur paarweiseUnkorreliertheit zu fordern. Der Beweis bleibt gleich.

2. 2.3.9 und 2.3.10 gelten sogar mit fast sicherer anstelle von stochastischer Konvergenz.Satz 2.3.9 heißt dann starkes Gesetz der großen Zahlen.

Page 70: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

70 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

3. Konkrete Abschatzungen erhalt man beispielsweise mit der Tschebyschow-Ungleichung. Diese sind jedoch oft sehr grob.

4. Das Gesetz der großen Zahlen ist einer der wichtigsten Satze der Stochastik. Es sorgtdafur, dass man trotz Zufall oft ohne Stochastik auskommt, da mit Erwartungswertengerechnet werden kann.

2.3.3 Verteilungsapproximation und zentraler Grenzwertsatz

Motivation 2.3.13 Die hypergeometrische Verteilung steht fur die Zahl der Erfolge bei Zie-hen ohne Zurucklegen aus einer Urne, die Binomialverteilung fur Ziehen mit Zurucklegen,vgl. Beispiele 2.2.6, 2.2.7. Ist die Urne im Vergleich zur Stichprobe groß, ist das Zuruckle-gen nahezu irrelevant fur die Wahrscheinlichkeiten.

Satz 2.3.14 Seien (KN)N∈N eine Folge in N, n ∈ N und p ∈ (0, 1) mit KNN

N→∞−−−→ p. SeiXN

hypergeometrisch verteilt mit Parametern n, kN , N −KN (vgl. Definition 2.2.8). Sei fernerX binomialverteilt mit Parametern n, p. Dann konvergiert (XN)N∈N in Verteilung gegen Xfur N →∞.

Beweis. Satz 2.3.5: Zu zeigen ist P (XN = k)N→∞−−−→ P (X = k) fur alle k ∈ N (bzw.

k = 0, . . . , n).

P (XN = k) =

(KNk

)(N−KNn−k

)(Nn

)=

(n

k

)(KN

N︸︷︷︸→p

KN − 1

N − 1︸ ︷︷ ︸→p

· · · KN − k + 1

N − k + 1︸ ︷︷ ︸→p

)︸ ︷︷ ︸

k Stuck(N −KN

N − k︸ ︷︷ ︸→1−p

N −KN − 1

N − k − 1︸ ︷︷ ︸→1−p

· · · N −KN − (n− k) + 1

N − n+ 1︸ ︷︷ ︸→1−p

)︸ ︷︷ ︸

(n−k) Stuck

N→∞−−−→(n

k

)pk(1− p)n−k = P (X = k).

Beispiel 2.3.15 Von 10 000 Gluhbirnen sind 200 defekt. Der Kunde weist die Sendungzuruck, falls in einer Stichprobe von 20 Gluhbirnen mindestens eine defekt ist. Wie hochist die Wahrscheinlichkeit hierfur?Die Zufallsgroße X beschreibe die Zahl der defekten Gluhbirnen in der Stichprobe. Bei-spiel 2.2.7: X ist hypergeometrisch verteilt mit Parametern 20 (Große der Stichprobe), 200

Page 71: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.3. GRENZWERTSATZE 71

(defekte Gluhbirnen), 9 800 (heile Gluhbirnen). Also ist

P (X 6= 0) = 1− P (X = 0) = 1−(

2000

)(9 800

20

)(10 000

20

) = 1− 9 800 · · · 9 781

10 000 · · · 9 981≈ 0,3327.

Approximation durch die Binomialverteilung mit n = 20, p = 20010 000

= 0,02:

P (X 6= 0) = 1− P (X = 0) ≈ 1−(

20

0

)0,020︸ ︷︷ ︸

=1

0,9820 = 1− 9 800 · · · 9 800

10 000 · · · 10 000≈ 0,3324.

Motivation 2.3.16 Fur Anrufe in einer Telefonzentrale wird eine plausible Wahrscheinlich-keitsverteilung fur die Anzahl der Anrufe in einer Stunde gesucht, wenn im Mittel 20 Anrufepro Stunde eingehen.Intuition: Munzwurfexperiment mit einem Munzwurf pro Sekunde, die Wahrscheinlichkeitfur Kopf (entspricht einem Anruf) ist p = 20/3 600. Man erhalt eine Binomialverteilung mitParametern 3 600, 20/3 600.Alternativ: Betrachte Millisekunden statt Sekunden. Man erhalt eine Binomialverteilung mitParametern 3 600 000, 20/3 600 000.Was passiert im Limes verschwindender Zeitintervalle?

Satz 2.3.17 (”Gesetz der kleinen Zahlen“) Sei Xn binomialverteilt mit Parametern n, pn,wobei npn

n→∞−−−→ λ ∈ (0,∞). Sei ferner X poissonverteilt mit Parameter λ. Dann konver-giert Xn fur n→∞ in Verteilung gegen X .

Beweis. Satz 2.3.5: Zu zeigen ist P (Xn = k)n→∞−−−→ P (X = k) fur alle k ∈ N. Fur

λn := npn gilt

P (Xn = k) =

(n

k

)pk(1− p)n−k

=n(n− 1) · · · (n− k + 1)

nkλknk!

(1− λn

n

)n(1− λn

n

)−k= 1︸︷︷︸

=1

(1− 1

n

)︸ ︷︷ ︸

→1

· · ·(

1− k − 1

n

)︸ ︷︷ ︸

→1

1

(1− λnn

)k︸ ︷︷ ︸→1

λknk!︸︷︷︸→λk

k!

(1− λn

n

)n︸ ︷︷ ︸→e−λ, da λn→λ

(Analysis)

n→∞−−−→ λk

k!e−λ = P (X = k), k ∈ N.

Bemerkung 2.3.18 2.3.16 und 2.3.17 liefern die fehlende Motivation der Poissonverteilungin Beispiel 2.1.24.

Page 72: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

72 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Beispiel 2.3.19 Wir betrachten noch einmal die Situation aus Beispiel 2.3.15 und approxi-mieren die Binomialverteilung nun durch die Poissonverteilung mit Parameter λ = np =

20 · 0,02 = 0,4:

P (X 6= 0) = 1− P (X = 0) ≈ 1− e−0,4 0,40

0!= 1− e−0,4 ≈ 0,3297.

Motivation 2.3.20 1. Fur die Approximation der Binomialverteilung durch die Poisson-verteilung in Satz 2.3.17 muss p klein sein (wegen np → λ). Was passiert fur großesn und festes p?

2. Seien X1, X2, . . . unabhangig identisch verteilte Zufallsgroßen, Sn :=∑n

i=1Xi

(z. B. Wurfe einer p-Munze wie in 2.2.14, d. h. die Xi sind Bernoulli-verteilt und Snist – nach Beispiel 2.2.45 und Induktion – binomialverteilt mit Parametern n, p).

Frage: Was ist die Verteilung von Sn fur große n? Konvergiert die Verteilung?

Wir wissen: Nach dem Gesetz der großen Zahlen gilt Sn/nP−→ E[X1] fur n → ∞,

d. h. der Zufall verschwindet bei Teilen durch n im Limes. Ferner gilt E[Sn] =∑ni=1E[Xi] = nE[X1] sowie Var(Sn) =

∑ni=1 Var(Xi) = nVar(X1), d. h. oh-

ne Reskalierung kann die Folge in keinem vernunftigen Sinne konvergieren, da Er-wartungswert und Varianz divergieren. Um uberhaupt nichttriviale Konvergenz zuermoglichen, mussen wir die Sn zunachst geeignet standardisieren.

Bezeichnung 2.3.21 Seien X1, X2, . . . Zufallsgroßen in L 2. Dann heißt

S∗n :=Sn − E[Sn]√

Var(Sn)

standardisierte Summe(nvariable), wobei Sn :=∑n

i=1Xi.

Bemerkung 2.3.22 1. E[S∗n] = 1√Var(Sn)

(E[Sn]− E[Sn]) = 0

Var(S∗n) = 1(√Var(Sn)

)2 Var(Sn) = 1

2. Falls X1, X2, . . . unabhangig und identisch verteilt sind, ist

S∗n =Sn − nE[X1]√nVar(X1)

.

FallsX1, X2, . . . zudem Bernoulli-verteilt sind mit Parameter p (d. h. binomialverteiltmit Parametern 1, p), dann ist

S∗n =Sn − np√np(1− p)

.

Page 73: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.3. GRENZWERTSATZE 73

Satz 2.3.23 (Lokale Approximation der Binomialverteilung) Sei p ∈ (0, 1), q := 1 − p

und c > 0. Sei Sn binomialverteilt mit Parametern n, p. Dann gilt

limn→∞

max

∣∣∣∣P (Sn = k)

ϕnp,npq(k)− 1

∣∣∣∣ :

∣∣∣∣k − np√npq

∣∣∣∣ ≤ c

= 0

fur

ϕµ,σ2(x) :=1√

2πσ2exp

(−(x− µ)2

2σ2

).

Beweis. Hilfsmittel aus der Analysis: n! ∼√

2πnnne−n fur n → ∞ (Stirlingsche Formel),z. B. Heuser, Analysis I, §96. ”∼“ bedeutet hier, dass der Quotient fur n → ∞ gegen 1konvergiert.

Definiere xn(k) := k−np√npq

.

Sei (kn)n eine beliebige Folge in N mit |xn(kn)| = |kn−np√npq| ≤ c.

⇒ |knn− p| → 0, |n−kn

n− (1− p)| → 0

⇒ kn →∞ und (n− kn)→∞ fur n→∞⇒

P (Sn = kn) =n!

kn!(n− kn)!pknqn−kn

∼ 1√2π

√n

kn(n− kn)

(np

kn

)kn ( nq

n− kn

)n−knfur n→∞.

Es ist knnp

= 1 + xn(kn)√n

√qp

und n−knnq

= 1− xn(kn)√n

√pq

also

kn(m− kn)

n= npq

(1 +

xn(kn)√n

√q

p︸ ︷︷ ︸→0

)(1− xn(kn)√

n

√p

q︸ ︷︷ ︸→0

)∼ npq fur n→∞.

Page 74: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

74 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Ferner folgt mit der Taylorentwicklung log(1 + x) = x− x2

2+O(x3), dass

log

((knnp

)kn (n− knnq

)n−kn)

= kn log

(knnp

)+ (n− kn) log

(n− knnq

)= np

(1 +

xn (kn)√n

√q

p

)log

(1 +

xn (kn)√n

√q

p

)+ nq

(1− xn (kn)√

n

√p

q

)log

(1− xn (kn)√

n

√p

q

)Taylor= np

(1 +

xn (kn)√n

√q

p

)(xn (kn)√

n

√q

p− xn (kn)2

2n

q

p+O

(n−

32

))

+ nq

(1− xn (kn)√

n

√p

q

)(−xn (kn)√

n

√p

q− xn (kn)2

2n

p

q+O

(n−

32

))Ausmult.

= np

(xn (kn)√

n

√q

p+xn (kn)2

2n

q

p+O

(n−

32

))

+ nq

(−xn (kn)√

n

√p

q+xn (kn)2

2n

p

q+O

(n−

32

))

=(xn (kn))2

2+O

(n−

12

),

wobei O(np) fur eine Folge derart steht, dass |O(np)|np

eine beschrankte Folge ist. Zusammenfolgt

P (Sn = kn) ∼ 1√2π

1√npq

exp

(−(xn(kn))2

2

)= ϕnp,npq(kn).

Wahlt man kn so, dass das Maximum in Satz 2.3.23 bei kn angenommen wird, folgt dieBehauptung.

Bemerkung 2.3.24 Satz 2.3.23 bedeutet P (Sn = k) ≈ ϕnp,npq(k) fur große n.Gehort ϕµ,σ2 auch zu einer Wahrscheinlichkeitsverteilung? Ja, in folgendem Sinne:

Definition 2.3.25 Seien µ ∈ R, σ2 > 0. Die Normalverteilung oder Gauß-VerteilungN(µ, σ2) auf (R,B) ist definiert durch die Lebesgue-Dichte

ϕµ,σ2(x) :=1√

2πσ2exp

(−(x− µ)2

2σ2

), x ∈ R.

N(0, 1) heißt Standard-Normalverteilung.

Page 75: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.3. GRENZWERTSATZE 75

Bemerkung 2.3.26 1.(∫ ∞−∞

e−x2

2 dx

)2

=

∫ ∞−∞

∫ ∞−∞

e−x2+y2

2 dy dx

Subst.-regel=

∫ 2π

0

∫ ∞0

re−r2

2 dr dp

= −2π e−r2

2

∣∣∣∞r=0

= 2π

und somit ∫ ∞−∞

ϕµ,σ2(x) dxy=x−µ

σ=

∫ ∞−∞

1√2πe−

y2

2 dy = 1.

Also ist ϕµ,σ2 tatsachlich eine Dichte im Sinne von Satz 2.1.25.

2. Sei XN(µ, σ2)-verteilt. Dann gilt

E[X] =

∫ ∞−∞

xϕµ,σ2(x) dx

=1√

2πσ2

∫ ∞−∞

x exp

(−(x− µ)2

2σ2

)dx

y=x−µ=

1√2πσ2

∫ ∞−∞

y exp

(− y2

2σ2

)dy︸ ︷︷ ︸

=0, da Integrand ungerade

+ µ1√

2πσ2

∫ ∞−∞

exp

(−(x− µ)2

2σ2

)dx︸ ︷︷ ︸

=1

= µ,

Var(X) = E[(X − µ)2]

=

∫ ∞−∞

(x− µ)2ϕµ,σ2(x) dx

y=x−µσ2

=1√2π

∫ ∞−∞

σ2y2e−y2

2 dy

part. Int.=

σ2

√2π

(ye−

y2

2

∣∣∣∣∞y=−∞︸ ︷︷ ︸

=0

+

∫ ∞−∞

e−y2

2 dy︸ ︷︷ ︸=√

)

= σ2.

Ahnlich erhalt man E[(X − µ)3] = 0 und E[(X − µ)4] = 3σ4.

Aus dem lokalen Grenzwertsatz erhalten wir den folgenden Zentralen Grenzwertsatz furBernoulli-Folgen.

Page 76: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

76 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

Korollar 2.3.27 (Satz von de Moivre-Laplace)Sei X1, X2, . . . eine Folge unabhangiger, identisch verteilter Zufallsgroßen mit P (X1 =

1) = p = 1 − P (X1 = 0) fur ein p ∈ (0, 1). Seien S∗n die zugehorigen standardisiertenSummen, vgl. 2.3.22(2). Sei ferner S standard-normalverteilt, d. h. P S = N(0, 1).Dann konvergiert S∗n in Verteilung gegen S fur n→∞, d. h.

P (a ≤ S∗n ≤ b)n→∞−−−→ Φ(b)− Φ(a)

fur [a, b] ∈ [−∞,∞] mit a ≤ b, wobei

Φ(x) :=

∫ x

−∞

1√2πe−

x2

2 dx.

Beweis. Fall 1: −∞ < a < b <∞.Seien c := max|a|, |b| und ε > 0. Nach Satz 2.3.23 existiert ein N ∈ N derart, dass furalle k > N

max

∣∣∣∣ ϕnp,npq(k)

P (Sn = k)− 1

∣∣∣∣ : |xn(k)| ≤ c

< ε

und somit ∣∣∣∣∣∣∣P (a ≤ S∗n ≤ b)−∑k mit

a≤xn(k)≤b

ϕ0,1(xn(k))√npq

∣∣∣∣∣∣∣=

∣∣∣∣∣∣∣∑k mit

a≤xn(k)≤b

P (Sn = k)−∑k mit

a≤xn(k)≤b

ϕ0,1(xn(k))√npq

∣∣∣∣∣∣∣≤

∑k mit

a≤xn(k)≤b

|P (Sn = k)|

︸ ︷︷ ︸≤1

∣∣∣∣1− ϕnp,npq(k)

P (Sn = k)

∣∣∣∣︸ ︷︷ ︸

≤ε

≤ ε.

Ferner gilt ∣∣∣∣∣∣∣∫ b

a

ϕ0,1(x) dx−∑k mit

a≤xn(k)≤b

ϕ0,1(xn(k))√npq

∣∣∣∣∣∣∣ n→∞−−−→ 0,

da es sich um die Riemann-Approximation des Integrals handelt. (Beachte, dassxn(k + 1)− xn(k) = 1√

npq). Mit der Dreiecksungleichung folgt die Behauptung.

Fall 2: a = −∞ (b =∞ folgt analog).Sei ε > 0. Da limc→−∞Φ(c) = 0, muss es ein c >

√3/ε derart geben, dass Φ(−c) < ε/3.

Nach Fall 1 gibt es weiter ein N ∈ N derart, dass fur alle n > N

|P (−c ≤ S∗n ≤ b)− Φ(b)− Φ(−c)| < ε

3.

Page 77: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.3. GRENZWERTSATZE 77

Also gilt

|P (S∗n ≤ b)− Φ(b)|≤ |P (S∗n ≤ b)− P (−c ≤ S∗n ≤ b)|

+ |P (−c ≤ S∗n ≤ b)− Φ(b) + Φ(−c)|+ |Φ(−c)|

< P (|S∗n| > c)︸ ︷︷ ︸≤Var(S∗n)

c2< ε

3nach 2.3.8

3+ε

3.

Bemerkung 2.3.28 1. Seien X1, X2, . . . wie in Korollar 2.3.27. Fur ganzzahlige k, l istoffenbar P (k ≤ Sn ≤ l) = P (k − 1

2≤ Sn ≤ l + 1

2). Die Approximation in Korollar

2.3.27 wird besser, wenn man mit a :=k− 1

2−np

√npq

und b :=l+ 1

2−np

√npq

anstelle von a = k−np√npq

und b = l−np√npq

arbeitet.

2. Faustregel: Fur npq ≥ 9 ist die Approximation gut.Fur großes n und kleines np eignet sich die Poisson-Verteilung aus Satz 2.3.17 besser.

Beispiel 2.3.29 Betrachte die Situation aus Beispiel 2.3.15.Approximation der Binomialverteilung durch den zentralen Grenzwertsatz mit np = 0,9,npq = 0,392:

P (X 6= 0) = 1− P (X = 0) ≈ 1− ϕnp,npq(0) = 1− 1√2π0,392

≈ 0,3628.

Das Beispiel ist fur die Anwendung des zentralen Grenzwertsatzes schlecht geeignet, danpq ≈ 0,4 deutlich kleiner als 9 ist.

Beispiel 2.3.30 (Qualitatskontrolle)Betrachte Kartons mit jeweils 1 000 Gluhbirnen. Mit welcher Wahrscheinlichkeit sind nichtmehr als 1% der Gluhbirnen in einem Karton defekt, wenn im Mittel 1% der Gluhbirnendefekt sind? (Annahme: Es gibt keine Serienfehler).Seien dazu X1, X2, . . . , X100 unabhangig Bernoulli-verteilt mit Parameter 0,01, wobei die 0

fur eine heile, die 1 fur eine kaputte Gluhbirne stehe.Gesucht ist P (S ≤ 10) mit S :=

∑1 000i=1 Xi. Als Summe ist S mit Parametern 1 000 und 0,01

binomialverteilt.

1. Exakte Wahrscheinlichkeit (muhsame Rechnung):

P (S ≤ 10) =10∑k=0

(1 000

k

)0,01k0,991 000−k ≈ 0,583.

Page 78: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

78 KAPITEL 2. WAHRSCHEINLICHKEITSRECHNUNG

2. Mit Korollar 2.3.27 (”quick and dirty“):

E[S] = 1 000 · 0,01 = 10

Var(S) = 1 000 · 0,01 · 0,99 = 9,9

P (S ≤ 10) = P

(S − 10√

9,9≤ 0

)≈ Φ(0) =

1

2.

3. Etwas besser mit Bemerkung 2.3.28:

P (S ≤ 10) = P (S ≤ 10,5) = P

(S − 10√

9,9≤ 0,159

)≈ Φ(0,159) ≈ 0,563.

Außerst wichtig und bemerkenswert: Satz 2.3.27 gilt auch fur beliebige Verteilungen:

Satz 2.3.31 (Zentraler Grenzwertsatz von Lindeberg-Levy) Sei X1, X2, . . . eine Folgeunabhangiger, identisch verteilter Zufallsgroßen in L 2 mit Var(X1) > 0. Seien S∗n die zu-gehorigen standardisierten Summen, vgl. 2.3.21. Sei ferner S standard-normalverteilt, d. h.P S = N(0, 1). Dann konvergiert S∗n in Verteilung gegen S fur n→∞.

Beweis. nicht in dieser Vorlesung

Bemerkung 2.3.32 1. Die Grenzverteilung hangt magischerweise nicht von der Vertei-lung der Xi ab. (Bitte staunen!)

2. Satz 2.3.31 macht die Normalverteilung zur wichtigsten Verteilung uberhaupt, obwohlvermutlich so gut wie nichts exakt normalverteilt ist.

Achtung: Trotz ihrer Universalitat ist die Normalverteilung nicht immer zur Modellie-rung von Zufallsexperimenten angemessen, warum sollte sie auch?

Bemerkung 2.3.33 1. Was tun, wenn X1, X2, . . . > 0 unabhangig und identisch verteiltsind, aber Zn :=

∏ni=1 Xi von Interesse ist (multiplikative Effekte)?

Betrachte dann

Sn := logZn =n∑i=1

log(Xi).︸ ︷︷ ︸unabh., ident. verteilt

⇒ Sn ist approximativ normalverteilt (im Sinne von Satz 2.3.31).

2. Was ist die Verteilung von Z = eS , falls S normalverteilt ist mit N(µ, σ2)?Sei FZ die Verteilungsfunktion von Z und % die zugehorige Dichte. Dann gelten

Fz(t) = P (Z ≤ t) = P (S ≤ log t) =

∫ log(t)

0

ϕµ,σ2(x) dx, t ≥ 0,

%(t) = F ′z(t) = ϕµ,σ2(log t)1

t=

1√2πσ2t

exp

(−(log(t)− µ)2

2σ2

), t ≥ 0.

Page 79: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

2.3. GRENZWERTSATZE 79

Definition 2.3.34 Die Verteilung auf R+ mit Lebesguedichte

%(x) := 1(0,∞)(x)1√

2πσ2texp

(−(log(t)− µ)2

2σ2

)heißt Lognormalverteilung (Gallon-McAlister-Verteilung, Cobb-Douglas-Verteilung) mitParametern µ ∈ R, σ2 > 0.

Page 80: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

Kapitel 3

Schließende Statistik

Bisher haben wir uns mit Wahrscheinlichkeitsrechnung beschaftigt, in der es darum ging,Schlussfolgerungen aus einem gegebenen stochastischen Modell (Ω,F , P ) zu ziehen. Wo-her aber bekommt man dieses Modell, insbesondere P , sofern nicht gerade der Versuchsauf-bau die Laplace-Verteilung nahelegt?In der Statistik geht es darum, mit Hilfe von Beobachtungen/Daten auf das unbekannteWahrscheinlichkeitsmaß P , das diesen Daten zugrunde liegt, zu schließen. Wegen der Sto-chastik der Daten werden Aussagen uber P aber in der Regel mit mehr oder minder großerUnsicherheit behaftet sein. Fragestellungen in der Statistik laufen daher oft auf ein Entschei-den unter Unsicherheit hinaus.

3.1 Statistische Modellbildung

Beispiel 3.1.1 Eine p-Munze werde 100 mal geworfen, vgl. Beispiel 2.2.14. p ist unbekannt.

1. (Schatzen). Was ist p?Idee: Seien x1, . . . , x100 die Ergebnisse der hundert Wurfe. Man konnte p durch dierelative Haufigkeit p := 1

100

∑100i=1 xi schatzen. Ist das vernunftig?

2. (Testen). Ist die Munze fair, d. h. ist p = 1/2?Idee: Vermutlich ja, falls |p− 1/2| klein. Vermutlich nein, falls |p− 1/2| groß. Was heißtin diesem Zusammenhang klein und groß?

3. (Konfidenzintervalle). Erganzung zur ersten Frage: Schatzung von p mit Genauig-keitsaussage, d. h. in der Form p± Toleranz. Welche Toleranz?

Bemerkung 3.1.2 Stochastische Modellbildung(Ω,F , P ) ist ein Wahrscheinlichkeitsraum, X : Ω → R eine Zufallsgroße. Berechne dannP (X ∈ B), E[X],Var(X) etc.Genauer: Oft ist nur PX bekannt (nicht aber der Raum (Ω,F , P ) und die Abbildung Xselbst), dies reicht aber fur Berechnungen aus.

80

Page 81: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.1. STATISTISCHE MODELLBILDUNG 81

Statistik: Wir wollen Aussagen uber das unbekannte PX mit Hilfe von Daten x1, . . . , xntreffen, vgl. 3.1.1.Achtung: Wir modellieren Beispiel 3.1.1 nicht mit einer einzelnen Zufallsgroßen X : Ω →R, die den einfachen Munzwurf reprasentiert, und 100 zufallig gezogenen Ergebnissenω1, . . . , ω100, die zur Stichprobe (x1, . . . , x100) = (X(ω1), . . . , X(ω100)) fuhren.Sondern: Wir betrachten 100 Zufallsgroßen Xi : Ω → R, i = 1, . . . , 100, und fassendie Stichprobe (x1, . . . , x100) = (X1(ω), . . . , X100(ω)) = X(ω) als in einem nur ein-mal durchgefuhrten Experiment erhaltenen Wert der vektorwertigen Zufallsvariable X =

(X1, . . . , X100) : Ω→ R100 auf.In der obigen Situation wissen wir, dass X1, . . . , X100 unabhangig und Bernoulli-verteiltsind, allerdings mit unbekanntem Parameter p. Somit ist PX = P (X1,...,X100) =

⊗100i=1 P

Xi

mit PXi(1) = 1 − PXi(0) = p die Bernoulli-Verteilung im Sinne von Beispiel 2.2.14auf 0, 1100 bzw. R100.

Mathematischer Rahmen 3.1.3 Wir betrachten folgendes statistisches Ausgangsmodell:Seien (Ω,F ) ein messbarer Raum und (Pϑ)ϑ∈Θ eine Familie von Wahrscheinlichkeitsmaßenauf Ω. Seien weiter X1, . . . , Xn : Ω→ R Zufallsgroßen und X = (X1, . . . , Xn).Interpretation: X1, . . . , Xn sind die vorliegenden Beobachtungen (die Stichprobe).Bekannt ist die Verteilung von (X1, . . . , Xn) unter Pϑ fur alle ϑ ∈ Θ (Parameterraum).Unbekannt (und gesucht) ist der Parameter ϑ (bzw. Eigenschaften davon).Gegeben sind die Daten (x1, . . . , xn) = (X1(ω), . . . , Xn(ω)), die man Realisierungen derZufallsgroßen X1, . . . , Xn nennt.Das Modell heißt parametrisch, falls Θ ⊆ Rd fur ein d ∈ N (insbesondere einparametrigfur d = 1), andernfalls nichtparametrisch.Das Modell heißt diskret, falls die Zufallsvariablen X1, . . . , Xn hochstens abzahlbar vie-le Werte annehmen konnen, und stetig, falls die Verteilungen der Xi eine Lebesguedichtebesitzen.

Bemerkung 3.1.4 1. Meistens nehmen wir X1, . . . , Xn unter allen Pϑ als unabhangigund identisch verteilt an (unabhangige Versuchswiederholung), z. B. als exponential-verteilt mit Parameter ϑ ∈ Θ := (0,∞), wenn es sich um Lebensdauern handelt.Beispiel einer Ausnahme: Seien X1, . . . , Xn Ergebnisse beim Ziehen ohne Zuruck-legen aus einer Urne mit ϑ ∈ n, n + 1, . . . durchnummerierten Kugeln. Dann istP

(X1,...,Xn)ϑ die Gleichverteilung auf

M := (x1, . . . , xn) ∈ Nn : xi ∈ 1, . . . , ϑ und xi 6= xj fur i 6= j.

Die Xi sind hier nicht unabhangig.

2. Die Beschrankung auf die Familie moglicher Pϑ erfolgt z. B. durch theoretische Uber-legungen. Diese Auswahl (Modellbildung) kann schon hochgradig nicht-trivial sein.

Beispiel 3.1.5 vgl. Beispiel 3.1.2: Munzwurfe mit unbekanntem Erfolgsparameter ϑ (bei-spielsweise Werfen einer Heftzwecke): X1, . . . , Xn sind unter allen Pϑ unabhangig undidentisch verteilt mit P (X1 = 1) = ϑ = 1− P (X1 = 0), wobei Θ = [0, 1].

Page 82: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

82 KAPITEL 3. SCHLIESSENDE STATISTIK

3.2 Parameterschatzung

Gesucht ist ein vernunftiger Schatzwert fur den unbekannten Parameter ϑ oder eine Funktionτ(ϑ) davon.

Definition 3.2.1 Eine Zufallsvariable der Form T = t(X1, . . . , Xn) mit t : Rn → R (oderallgemeiner Rd, . . . ) nennen wir Statistik.Sei τ : Θ→ R (oder allgemeiner Rd, . . . ) eine Abbildung (Kenngroße).Eine Statistik T heißt auch Schatzer fur τ .

Beispiel 3.2.2 n-facher Munzwurf wie in Beispiel 3.1.5.Sei τ : Θ→ R, τ(ϑ) = ϑ (d. h. ϑ soll voll geschatzt werden).Wahle beispielsweise T := 1

n

∑ni=1 Xi als Schatzer fur τ , d. h. t(x1, . . . , xn) = 1

n

∑ni=1 xi

(arithmetisches Mittel).Weitere Beispiele: Median, getrimmtes Mittel, . . .

Wunschenswerte Eigenschaften:

Definition 3.2.3 Ein Schatzer T = t(X1, . . . , Xn) fur τ : ϑ → R heißt erwartungstreu(unverfalscht, unverzerrt), falls

Eϑ[T ] = τ(ϑ), ϑ ∈ Θ.

Allgemein heißt Bϑ(T ) := Eϑ[T ]− τ(ϑ) Verzerrung (Bias, systematischer Fehler) von T .

Beispiel 3.2.4 siehe Beispiel 3.2.2:

Eϑ[T ] =1

n

n∑i=1

Eϑ(Xi) =1

nnϑ = ϑ = τ(ϑ)

T ist also erwartungstreu.

Beispiel 3.2.5 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch verteilt derart,dass der Erwartungswert m(ϑ) := Eϑ(X1) und die Varianz v(ϑ) := Varϑ(X1) existierenund endlich sind.

1. Sei T ein linearer Schatzer fur m, d. h. T =∑n

i=1 αiXi mit α1, . . . , αn ∈ R. Danngilt

Eϑ[T ] =n∑i=1

αiEϑ[Xi] = m(ϑ)n∑i=1

αi,

d. h. T ist genau dann erwartungstreu, wenn∑n

i=1 αi = 1.Das ist beispielsweise der Fall, wenn αi = 1/n fur i = 1, . . . , n.

2. Schatzer fur die Varianz v:

Page 83: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.2. PARAMETERSCHATZUNG 83

(a) m(ϑ) sei bekannt, d. h. m(ϑ) = m ∈ R fur alle ϑ ∈ Θ.Wahle T :=

∑ni=1 αi(Xi −m)2. Dann gilt

Eϑ[T ] =n∑i=1

αiEϑ[(Xi −m)2] = v(ϑ)n∑i=1

αi.

T ist genau dann erwartungstreu, wenn∑n

i=1 αi = 1.

(b) m(ϑ) sei unbekannt.Idee: Ersetze m durch den Schatzer X := 1

n

∑ni=1Xi.

Wahle T :=∑n

i=11n(Xi −X)2. Dann gilt

Eϑ [T ] =n∑i=1

1

nEϑ

[(Xi −X

)2]

Eϑ[Xi−X]=0=

n∑i=1

1

nVarϑ

(Xi −X

)=

1

n

n∑i=1

Varϑ

(n− 1

nXi −

1

n

∑j 6=i

Xj

)Unabh.

=1

n

n∑i=1

(Varϑ

(n− 1

nXi

)+∑j 6=i

Varϑ

(1

nXj

))

=1

n

((n− 1

n

)2

+n− 1

n2

)v (ϑ)

=n− 1

nv (ϑ) .

T ist nicht erwartungstreu fur v.Stattdessen ist n

n−1T erwartungstreu fur v.

Korollar 3.2.6 Seien X1, . . . , Xn wie in Beispiel 3.2.5. Dann ist das Stichprobenmittel

X :=1

n

n∑i=1

Xi

ein erwartungstreuer Schatzer fur m.Ferner ist die Stichprobenvarianz

S2 :=1

n− 1

n∑i=1

(Xi −X)2

ein erwartungstreuer Schatzer fur v.

Bemerkung 3.2.7 Korollar 3.2.6 motiviert die Definition der empirischen Varianz in Defi-nition 1.3.12.

Page 84: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

84 KAPITEL 3. SCHLIESSENDE STATISTIK

Es gibt viele weitere erwartungstreue Schatzer, beispielsweise ist auch T := X1 erwartungs-treu fur m. Interessant ist daher auch z. B. die mittlere Abweichung des Schatzers:

Definition 3.2.8 Sei T = t(X1, . . . , Xn) Schatzer fur die Kenngroße τ : Θ→ R.

1. Der mittlere quadratische Fehler von T (bei ϑ) ist definiert als

Fϑ(T ) := Eϑ[(T − τ(ϑ))2] = Varϑ(T ) + (Bϑ(T ))2.

2. Sei T zudem erwartungstreu. T heißt varianzminimierender/gleichmaßig bester/UMVU-Schatzer (fur uniform minimum variance unbiased), falls fur alle erwartungs-treuen Schatzer S gilt:

Varϑ(T ) ≤ Varϑ(S), ϑ ∈ Θ.

Bemerkung 3.2.9 Zwei Schatzer S, T sind im Allgemeinen nicht direkt vergleichbar, d. h.im Allgemeinen ist Fϑ(S) < Fϑ(T ) fur manche ϑ und Fϑ(S) > Fϑ(T ) fur andere ϑ. Insbe-sondere ist es in 2. sinnlos, einen Schatzer mit allen denkbaren (also auch nicht erwartungs-treuen) Schatzern zu vergleichen, da z. B. S := ϑ0 bei ϑ0 optimal schatzt und bei anderen ϑschlecht.

Beispiel 3.2.10 Achtung:

• Es gibt nicht immer einen gleichmaßig besten Schatzer.

• Es lasst sich nicht immer klaren, ob es einen gleichmaßig besten Schatzer gibt.

• Es kann vorkommen, dass ein nicht erwartungstreuer Schatzer einen gleichmaßig klei-neren mittleren quadratischen Fehler hat als jeder erwartungstreue Schatzer.

• Das Stichprobenmittel ist nicht immer UMVU fur den Erwartungswert (z. B. in Bei-spiel 3.2.11(5) mit m(ϑ) = ϑ/2).

Beispiel 3.2.11 Seien X1, . . . , Xn unabhangig und identisch verteilt unter allen Pϑ.

1. Sei PX1ϑ Bernoulli-verteilt mit Parameter ϑ ∈ Θ := [0, 1].

Dann ist X UMVU fur ϑ (vgl. Beispiel 3.2.2).

2. Sei PX1ϑ Poisson-verteilt mit Parameter ϑ ∈ Θ := (0,∞).

Dann ist X UMVU fur ϑ.

3. Sei PX1ϑ N(µ, σ2)-verteilt fur ϑ = (µ, σ2) ∈ Θ := R× (0,∞).

Dann ist X UMVU fur µ und S2 ist UMVU fur σ2.

4. Sei PX1ϑ exponentialverteilt mit Parameter ϑ ∈ Θ := (0,∞).

Dann ist X UMVU fur 1ϑ

.

Page 85: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.2. PARAMETERSCHATZUNG 85

5. Sei PX1ϑ gleichverteilt mit Parameter ϑ ∈ Θ := (0,∞).

Dann ist n+1n

max(X1, . . . , Xn) UMVU fur ϑ.

Beispiel 3.2.12 zuruck zu Beispiel 3.2.5(1):Wegen T =

∑ni=1 αiXi, gilt

Fϑ(T ) = Eϑ[(T −m(ϑ))2] = Varϑ(T ) =

(n∑i=1

α2i

)Varϑ(X1).

Außerdem1

n

n∑i=1

α2i

1.3.12

(1

n

n∑i=1

αi

)2

=1

n2=

1

n

n∑i=1

(1

n

)2

.

Der Fehler wird also minimal fur αi = 1/n fur i = 1, . . . , n.Unter den linearen erwartungstreuen Schatzern des Erwartungswerts ist das Stichproben-mittel also der beste (der BLUE – best linear unbiased estimator).

Ein weiteres alternatives Gutekriterium betrifft die Konvergenz fur wachsenden Stichpro-benumfang.

Definition 3.2.13 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch verteilt.Sei τ : ϑ → R eine Kenngroße, und fur alle n ∈ N sei Tn = tn(X1, . . . , Xn) ein (nur vonden ersten n Beobachtungen abhangiger) Schatzer fur τ .Die Schatzfolge (Tn)n∈N fur τ heißt konsistent, falls

TnPϑ−→ τ(ϑ), ϑ ∈ Θ,

d. h. fur alle ϑ ∈ Θ und alle ε > 0 gilt Pϑ(|Tn − τ(ϑ)| ≤ ε)n→∞−−−→ 1.

Satz 3.2.14 Seien (Xn)n∈N, (Yn)n∈N Folgen von Zufallsgroßen.

1. Falls XnP−→ 0, dann auch X2

nP−→ 0.

2. Falls XnP−→ 0 und Yn

P−→ 0, dann auch Xn + YnP−→ 0.

Beweis.

1. Fur ε > 0 gilt P (|X2n| ≤ ε) = P (|Xn| ≤

√ε)

n→∞−−−→ 1.

2. Fur ε > 0 gilt P (|Xn + Yn| > ε) ≤ P(|Xn| >

ε

2

)︸ ︷︷ ︸

→0

+P(|Yn| >

ε

2

)︸ ︷︷ ︸

→0

n→∞−−−→ 0.

Satz 3.2.15 In der Situation aus 3.2.5 ist (Xn)n konsistent fur m und (S2n)n konsistent fur

v.

Beweis.

Page 86: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

86 KAPITEL 3. SCHLIESSENDE STATISTIK

1. Schwaches Gesetz der großen Zahlen (Satz 2.3.9): (Xn)n ist konsistent.

2. Sei ϑ ∈ Θ. Fur

S2n :=

1

n

n∑i=1

(Xi −m(ϑ))2

gilt nach dem schwachen Gesetz der großen Zahlen (das auch fur Folgen in L 1 an-stelle von L 2 gilt), dass S2

n

Pϑ−→ v(ϑ) fur n → ∞. Mit Satz 2.3.9 und Satz 3.2.14(1)folgt außerdem, dass (Xn −m(ϑ))2 Pϑ−→ 0 fur n→∞. Wegen

S2n − (Xn −m(ϑ))2 1.3.12

=1

n

n∑i=1

(Xi −Xn)2 =n− 1

nS2n

folgt aus Satz 3.2.14(2), dass n−1nS2n − v(ϑ)

Pϑ−→ 0 und somit, dass

S2n − v(ϑ) =

n

n− 1

(n− 1

nS2n − v(ϑ)

)︸ ︷︷ ︸

Pϑ−→0

+1

n− 1v(ϑ)︸ ︷︷ ︸

→0

Pϑ−→ 0.

3.2.1 Konstruktionsmethoden fur Schatzer

Maximum-Likelihood-Prinzip

Bemerkung 3.2.16 Sei ein diskretes oder stetiges statistisches Modell gegeben. Wir nennen%ϑ : Rn → R die zugehorige Dichte, falls

1. im diskreten Fall (d. h. (X1, . . . , Xn)(Ω) ist hochstens abzahlbar), falls

Pϑ((X1, . . . , Xn) = (x1, . . . , xn)) = %ϑ(x1, . . . , xn) (x1, . . . , xn) ∈ Rn,

2. im stetigen Fall, falls

Pϑ((X1, . . . , Xn) ∈ B1 × · · · ×Bn) =

∫B1

· · ·∫Bn

%ϑ(x1, . . . , xn) dxn · · · dx1

fur alle Intervalle (oder allgemeiner Borelmengen) Bi ⊆ R, i = 1, . . . , n.(Verallgemeinerung des Dichtebegriffs auf Rn).

Falls (wie meistens) X1, . . . , Xn unter allen Pϑ, ϑ ∈ Θ unabhangig und identisch verteiltsind, dann ist

1. %ϑ(x1, . . . , xn) =∏n

i=1 %ϑ(xi), wobei %ϑ : R→ R die Zahldichte von PX1ϑ ist,

2. %ϑ(x1, . . . , xn) =∏n

i=1 %ϑ(xi), wobei %ϑ : R→ R die Lebesguedichte von PX1ϑ ist.

Page 87: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.2. PARAMETERSCHATZUNG 87

Begrundung: In diesen Fallen ist P (X1,...,Xn)ϑ

Unabh.=

⊗ni=1 P

Xiϑ =

⊗ni=1 P

X1ϑ und somit

Pϑ(X1 ∈ B1, . . . , Xn ∈ Bn) =∏n

i=1 Pϑ(X1 ∈ B1).

Definition 3.2.17 Sei ein diskretes oder stetiges statistisches Modell mit zugehorigen Dich-ten %ϑ : Rn → R gegeben.

i) Die Funktion % : Rn × ϑ→ R+ mit %(x, ϑ) := %ϑ(x) heißt Likelihood- oder Plausibi-litatsfunktion.Die Abbildung %x : Θ → R+, ϑ 7→ %(x, ϑ) heißt Likelihood-Funktion zum Beobach-tungswert x ∈ Rn.

ii) Ein Schatzer T = t(X1, . . . , Xn) fur ϑ (d. h. fur die Identitat τ : ϑ 7→ ϑ) heißtMaximum-Likelihood-Schatzer (ML-Schatzer), falls

%(x, t(x)) = maxϑ∈Θ

%(x, ϑ), x ∈ Rn

(d. h. %x wird bei t(x) maximal).

Bemerkung 3.2.18 1. Idee: Zufallsexperimente bringen in der Regel Ergebnisse x mitgroßer Wahrscheinlichkeitsdichte %(x) hervor. Man glaubt daher eher an Parameter ϑ,fur die die Beobachtung x eine große Wahrscheinlichkeit %ϑ(x) besitzt. Das bedeutetnicht, dass ϑ große Wahrscheinlichkeit besitzt, denn auf Θ ist kein Wahrscheinlich-keitsmaß gegeben (außer in der Bayesschen Statistik).

2. ML-Schatzer sind in der Regel konsistent (ohne Beweis) und oft auch in anderer Hin-sicht gut.

3. Statt %x maximiert man meistens log %x, da das viele Rechnungen vereinfacht.

4. Falls T ML-Schatzer fur ϑ ist, heißt τ(T ) ML-Schatzer fur eine Kenngroße τ .

Beispiel 3.2.19 Seien X1, . . . , Xn wie in Beispiel 3.1.5, d. h. mit Parameter ϑ Bernoulli-verteilt (Munzwurfe).Nach Beispiel 2.2.19 ist die zugehorige Zahldichte gegeben durch

%ϑ(x1, . . . , xn) = ϑ∑ni=1 xi(1− ϑ)n−

∑ni=1 xi =: %(x1, . . . , xn;ϑ).

Maximiere

ϑ 7→ log %(x1, . . . , xn;ϑ) =n∑i=1

xi log ϑ+

(n−

n∑i=1

xi

)log(1− ϑ).

Ermitteln eines Kandidaten:

0 =∂

∂ϑlog %(x1, . . . , xn;ϑ)

=1

ϑ

n∑i=1

xi −1

1− ϑ

(n−

n∑i=1

xi

),

Page 88: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

88 KAPITEL 3. SCHLIESSENDE STATISTIK

d. h.∑n

i=1 xi = ϑn, wahle also ϑ := 1n

∑ni=1 xi. Nachrechnen liefert, dass ϑ tatsachlich eine

globale Maximalstelle ist. Der ML-Schatzer fur ϑ ist also

T =1

n

n∑i=1

xi,

also die relative Haufigkeit, vgl. Beispiele 3.1.1, 3.2.2, 3.2.11.

Beispiel 3.2.20 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch N(µ, σ2)-verteilt, wobei ϑ = (µ, σ2) ∈ Θ := R× (0,∞) (ein ubliches Modell etwa bei wiederholten,fehlerbehafteten physikalischen Messungen).Dann gilt

%x(ϑ) = %(x, ϑ)3.2.16(2)

=n∏i=1

1√2πσ2

exp

(−(xi − µ)2

2σ2

)

=1

(2πσ2)n2

exp

(−

n∑i=1

(xi − µ)2

2σ2

)

fur x ∈ Rn, ϑ = (µ, σ2) ∈ Θ. Somit ist

`x(µ, σ2) := log %x(µ, σ

2) = −n2

log(2πσ2)− 1

2σ2

n∑i=1

(xi − µ)2

und

D1`x(µ, σ2) = 0 +

2

2σ2

n∑i=1

(xi − µ) =1

σ2(n∑i=1

xi − nµ),

D2`x(µ, σ2) = −n

2

2πσ2+

1

2σ4

n∑i=1

(xi − µ)2.

Beide Ableitungen werden null fur µ := 1n

∑ni=1 xi und σ2 := 1

n

∑ni=1(xi−µ)2. Untersuchen

der Hesse-Matrix und Grenzbetrachtungen zeigen, dass es sich tatsachlich um eine globaleMaximalstelle handelt. Der ML-Schatzer fur (µ, σ2) ist also

T =

(1

n

n∑i=1

Xi,1

n

n∑i=1

(Xi −X)2

)=

(X,

n− 1

nS2

).

(Beachte, dass T2 = n−1nS2 nicht erwartungstreu fur σ2 ist.)

Beispiel 3.2.21 Schatzen von Tierpopulationen (beispielsweise Fische in einem Teich).Vorgehen:

1. fangen, zahlen, kennzeichnen, freilassen (beispielsweise n1 = 213),

2. spater an ggf. anderer Stelle erneut fangen und zahlen (beispielsweise n2 = 104,

davon k = 13 schon gekennzeichnet).

Page 89: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.2. PARAMETERSCHATZUNG 89

Gesucht ist die Anzahl der Fische im Teich.Idee: k

n2≈ n1

n, wahle also n ≈ n1n2

kals Schatzer (hier: n = (213 · 104)/13 = 1 704).

Stochastisches Modell: Urnenmodell wie in 2.2.7, Ziehen ohne Zurucklegen.Seien X die Zahl der gefangenen, markierten Fische unter den n2 gezogenen (eine Beob-achtung) und PX

ϑ die hypergeometrische Verteilung auf N (bzw. R) mit Parametern n2 (ge-zogen), n1 (markiert) und ϑ− n1 (nicht markiert). Sei weiter Θ = n ∈ N : n ≥ n1 ∨ n2.Die Zahldichte ist gegeben durch

%ϑ(k) = Pϑ(X = k) =

(n1

k

)(ϑ−n1

n2−k

)(n2

k

) .

Betrachte den Quotienten %ϑ(k)/%ϑ(k − 1):

%ϑ(k)

%ϑ(k − 1)=

(ϑ− n1)!(ϑ− n2)!

(ϑ− n1 − n2 + k)!ϑ!

(ϑ− 1− n1 − n2 + k)!(ϑ− 1)!

(ϑ− 1− n1)!(ϑ− 1− n2)!

=(ϑ− n1)(ϑ− n2)

(ϑ− n1 − n2 + k)n.

Es gilt

%ϑ(k)

%ϑ(k − 1)≥ 1⇔ (ϑ− n1)(ϑ− n2) ≥ ϑ(ϑ− n1 − n2 + k)

⇔ ϑ2 − ϑn2 − ϑn1 + n1n2 ≥ ϑ2 − ϑn1 − ϑn2 + ϑk

⇔ n1n2 ≥ ϑk,

d. h. ϑ 7→ %ϑ(k) wachst fur ϑ ≤ n1n2

kund fallt fur % > n1n2

k. Die Zahldichte nimmt somit

ein Maximum in [n1n2

k] an, und

T :=[n1n2

X

]ist der ML-Schatzer fur die unbekannte Anzahl ϑ (= n).

Momentenmethode und Substitutionsprinzip

Idee: Schatze unbekannte Parameter so, dass empirische und theoretische Momente uber-einstimmen.

Definition 3.2.22 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch verteilt. SeiΘ ⊆ Rd. Fur alle ϑ ∈ ϑ sei |X1|d ∈ L 1. Ein Schatzer T = t(X1, . . . , Xn) fur ϑ (d. h. furτ : ϑ→ ϑ) heißt Momentenschatzer, falls

1

n

n∑i=1

Xki = mk(T ), k = 1, . . . , d

wobei mk(ϑ) := Eϑ[Xk1 ] das k-te Moment sei.

Page 90: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

90 KAPITEL 3. SCHLIESSENDE STATISTIK

Bemerkung 3.2.23 Unter gewissen Voraussetzungen sind Momentenschatzer konsistent.(ohne Beweis)

Beispiel 3.2.24 Situation aus Beispielen 3.1.5 und 3.2.20:

m1(ϑ) = µ, m2(ϑ) = Varϑ(X1) + (Eϑ[X1])2 = σ2 + µ2.

Wahle T = (T1, T2) so, dass

1

n

n∑i=1

Xi = m1(T1, T2) = T1,

1

n

n∑i=1

X2i = m2(T1, T2) = T 2

1 + T2.

Das ist der Fall, wenn T1 = X und

T2 =1

n

n∑i=1

X2i −X

2=

1

n

n∑i=1

(Xi −X)2 =n− 1

nS2.

Also ist

T =

(X,

n− 1

nS2

)auch Momentenschatzer fur ϑ = (µ, σ2). (Dies gilt offensichtlich auch fur jede andere Ver-teilungsfamilie mit Erwartungswert µ und Varianz σ2.)

Die Momentenmethode beruht auf folgendem Substitutionsprinzip:

Bemerkung 3.2.25 Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch verteilt.Sei τ : Θ → R (oder allgemeiner Rd) eine Kenngroße, die nur von PX1

ϑ abhangt, z. B. dask-te Moment

τ(ϑ) := mk(ϑ) = Eϑ(Xk1 ) =

∫xkPX1

ϑ (dx).

fur ein k ∈ N. Nach dem Substitutionsprinzip schatzt man τ(ϑ), indem man die unbe-kannte Verteilung PX1

ϑ in der Definition von τ durch die empirische Verteilung der DatenX1(ω), . . . , Xn(ω) ersetzt (vgl. Beispiel 2.1.4), also das Wahrscheinlichkeitsmaß P(X1,...,Xn)

auf R der Form

P(X1,...,Xn)(A) :=1

n

n∑i=1

1A(Xi), A ∈ B. (3.1)

Fur τ wie oben fuhrt dies zum Schatzer

T :=

∫xkP(X1,...,Xn)(dx)

2.2.59(1)=

1

n

n∑i=1

Xki

Page 91: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.2. PARAMETERSCHATZUNG 91

Beispiel 3.2.26 (Value at risk)Im Risikomanagement des Finanzwesens ist der sogenannte Value at risk zum Niveauα ∈ (0, 1) von Interesse, z. B. fur α = 0,99. Darunter versteht man das α-Quantil ei-ner Zufallsgroßen X , die den zukunftigen Verlust etwa einer Bank innerhalb der folgendenzehn Tage bezeichnet, vgl. Definition 2.2.72. Dieses mit VaRα(X) bezeichnete Quantil stehtalso fur die Verlusthohe, die mit Wahrscheinlichkeit α nicht uberschritten werden wird.In der Praxis ist die Verteilung von X unbekannt, aber es stehen moglicherweise Datenx1, . . . , xn uber vergangene 10-Tages-Verluste zur Verfugung, die als Realisierungen un-abhangiger, nach PX identisch verteilter Zufallsgroßen X1, . . . , Xn angenommen werdenkonnen. Nach dem Substitutionsprinzip ist dann das α-Quantil der empirischen Verteilung(vgl. Beispiel 2.1.4) ein naheliegender Schatzer fur VaRα(X), Dieses stimmt nach Bei-spiel 2.2.74(1) im Wesentlichen mit dem empirischen Quantil der beobachteten Verlustex1, . . . , xn uberein.

Kleinste-Quadrate-Methode

Idee: Schatze Parameter so, dass die mittlere quadratische Abweichung der Daten zum Er-wartungswert minimal wird.

Beispiel 3.2.27 Einfache lineare Regression, vergleiche Abschnitt 1.4:Seien X1, . . . , Xn unter allen Pϑ unabhangig und identisch N(a + bti, σ

2)-verteilt, i =

1, . . . , n.Seien ϑ = (a, b, σ2) ∈ Θ = R2 × (0,∞) und t1, . . . , tn ∈ R gegeben.T = t(X1, . . . , Xn) heißt Kleinste-Quadrate-Schatzer fur τ(ϑ) = (a, b), falls

n∑i=1

(Xi − T )2 = minϑ∈Θ

n∑i=1

(Xi − Eϑ[Xi]︸ ︷︷ ︸

=a+bti

)2.

Nach Satz 1.4.1 ist also

T =

(X − bt, StX

S2t

)Kleinste-Quadrate–Schatzer, wobei

t :=1

n

n∑i=1

ti, StX :=1

n− 1

n∑i=1

(ti − t)(Xi −X),

S2t :=

1

n− 1

n∑i=1

(ti − t)2, b :=StXS2t

.

Man kann zeigen: T ist BLUE fur (a, b).

Bayes-Schatzer

Diese werden in Abschnitt 3.5 behandelt.

Page 92: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

92 KAPITEL 3. SCHLIESSENDE STATISTIK

3.3 Testen von Hypothesen

In der Praxis laufen statistische Probleme haufig auf eine Ja-Nein-Entscheidung hinaus, diedavon abhangt, ob eine Hypothese uber den unbekannten Sachverhalt wahr ist oder nicht.Soll ein Patient behandelt werden oder nicht? Soll eine neue Methode eingefuhrt werdenoder nicht? Soll man einer neuen wissenschaftlichen Theorie glauben oder nicht? Ob dieHypothese stimmt, kann oft nur indirekt aus Daten erschlossen werden, die einem zufalligenEinfluss unterliegen.

Beispiel 3.3.1 Es gebe ein neues Verfahren, das angeblich das Geschlechterverhaltnis beiRindergeburten beeinflusst: Angeblich werden mehr (wertvollere) Kuhkalber als Stierkalbergeboren. Soll der Landwirt/Zuchter das Verfahren kaufen oder nicht? Als Entscheidungs-grundlage dient die Beobachtung von aus Zeitgrunden nicht zu vielen Geburten.

Definition 3.3.2 Sei ein statistisches Modell wie in 3.1.3 gegeben.Ein Testproblem besteht aus einer disjunkten Zerlegung Θ = Θ0 ∪ Θ1 in eine (Null-)Hypo-these Θ0 und eine Alternative (Gegenhypothese) Θ1.Ein Test von Θ0 gegen Θ1 ist eine Statistik ϕ(X1, . . . , Xn) mit ϕ : Rn → 0, 1.Die Menge K := x ∈ Rn : ϕ(x) = 1 heißt Ablehnungsbereich, Verwerfungsbereich oderkritischer Bereich des Tests.

Bemerkung 3.3.3 1. Interpretation: Die Hypothese ist der erwartete/angenommeneNormalfall, die Alternative die Abweichung von der Norm, die wir gegebenenfallsentdecken mochten. ϕ(x) = 1 bedeutet, dass wir uns auf Grund der Daten x fur dieAlternative entscheiden.

2. Zwei Arten von Fehlern sind moglich:Fehler 1. Art. Falschliches Ablehnen der Hypothese: ϕ(x) = 1, obwohl ϑ ∈ Θ0.Fehler 2. Art. Falschliches Akzeptieren der Hypothese: ϕ(x) = 0, obwohl ϑ ∈ Θ1.Ziel ist es, die Wahrscheinlichkeit fur beide Fehler klein zu halten.

3. Schatztheorie: Bestimmung von ϑ ∈ Θ.Testtheorie: (nur) Entscheidung, ob ϑ ∈ Θ0 oder ϑ ∈ Θ1.

Beispiel 3.3.4 zu Beispiel 3.3.1:Beobachtet seien n = 20 Geburten, davon X Kuhkalber (Erfolge). X (nur eine Beobach-tung) sei unter Pϑ binomialverteilt mit Parametern n, ϑ, wobei Θ = [1/2, 1].Hypothese: Θ0 = 1/2 (kein Effekt)Alternative: Θ1 = (1/2, 1] (Das Verfahren wirkt.)

Definition 3.3.5 Fortsetzung von Definition 3.3.2

1. Der maximale Fehler 1. Art, d. h.

supϑ∈Θ0

Pϑ((X1, . . . , Xn) ∈ K)

Page 93: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.3. TESTEN VON HYPOTHESEN 93

heißt Umfang oder effektives Niveau von ϕ. Wir bezeichnen ϕ als Test zum (Irrtums-,Signifikanz-)Niveau α, falls supϑ∈Θ0

Pϑ((X1, . . . , Xn) ∈ K) ≤ α.

2. Die Funktion Gϕ : Θ→ [0, 1] mit

Gϕ(ϑ) := Pϑ((X1, . . . , Xn) ∈ K) (= Eϑ[ϕ(X)])

heißt Gutefunktion des Tests. Fur ϑ ∈ Θ1 heißtGϕ(ϑ) Macht, Starke oder Scharfe vonϕ bei ϑ.

Bemerkung 3.3.6 Fur ϑ ∈ Θ0 ist Gϕ(ϑ) die Wahrscheinlichkeit eines Fehlers 1. Art. Furϑ ∈ Θ1 ist βϕ(ϑ) := 1−Gϕ(ϑ) die Wahrscheinlichkeit eines Fehlers 2. Art.Problem: Eine Verringerung der Wahrscheinlichkeit des Fehlers 1. Art bewirkt meist eineErhohung der Wahrscheinlichkeit des Fehlers 2. Art. Eine gleichzeitige Minimierung ist alsonicht moglich.Ausweg: Asymmetrische Betrachtung der Fehler. Man wahlt ein Niveau α ∈ (0, 1) (oftα = 0,05) und sucht unter allen Tests zum Niveau α (d. h. Tests mit einer Irrtumswahr-scheinlichkeit 1. Art ≤ α.) einen Test mit maximaler Macht Gϕ(ϑ) fur alle ϑ ∈ Θ1 (d. h.mit einer moglichst kleinen Irrtumswahrscheinlichkeit 2. Art fur alle ϑ ∈ Θ1).

Definition 3.3.7 Fortsetzung von Definitionen 3.3.2, 3.3.4

1. Ein Test ϕ von Θ0 gegen Θ1 heißt (gleichmaßig) bester Test zum Niveau α, falls erein α-Niveau-Test ist und

Gϕ(ϑ) ≥ Gψ(ϑ), ϑ ∈ Θ1

fur alle anderen α-Niveau-Tests ψ.

2. Ein Test ϕ heißt unverfalscht zum Niveau α, falls

Gϕ(ϑ0) ≤ α ≤ Gϕ(ϑ1), ϑ0 ∈ Θ0, ϑ1 ∈ Θ1

(d. h. die Entscheidung fur die Alternative ist wahrscheinlicher, wenn sie wahr ist, alswenn sie falsch ist).

Bemerkung 3.3.8 1. Die Zuordnung von Hypothese und Alternative hangt von der An-wendung, dem Interesse bzw. den Folgen eines Irrtums ab. Die Hypothese ist das,wofur man sich entscheidet, wenn aus Mangel an Daten kein Urteil moglich ist.

2. Asymmetrische Sprechweise:ϕ(x) = 1: Man lehnt die Hypothese ab (entspricht Entscheidung fur die Alternative).ϕ(x) = 0: Man lehnt die Hypothese nicht ab. Dies bedeutet nicht unbedingt, dass mandie Alternative fur falsch halt, sondern vielleicht nur, dass die Daten nicht ausreichen,um die Hypothese zu verwerfen (d. h. in dubio pro reo, wobei der Angeklagte hier dieHypothese ist).

Page 94: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

94 KAPITEL 3. SCHLIESSENDE STATISTIK

3. Achtung: Wenn ein Test ϕ das Niveau 0,05 hat, bedeutet das nicht, dass im Fall ϕ(x) =

1 die Alternative oder im Fall ϕ(x) = 0 die Hypothese mit Wahrscheinlichkeit 0,95wahr sind. Hypothese und Alternative sind nicht zufallig (außer in der BayesschenStatistik, vgl. Abschnitt 3.5)!

4. Gleichmaßig beste Tests mussen nicht existieren. Manchmal existieren immerhingleichmaßig beste unverfalschte Tests. Aber auch diese mussen nicht immer existierenoder bestimmbar sein.

Beispiel 3.3.9 zu Beispiel 3.3.1, 3.3.4:Wahle beispielsweise das Niveau α = 0,05 (falls das Verfahren nutzlos ist, soll es hochstensmit 5% Wahrscheinlichkeit gekauft werden).Idee: Wahle ϕ(x) = 1(c,∞)(x), d. h. K = c+ 1, c+ 2, . . . , n fur ein c ∈ 0, . . . , n.Fehler 1. Art: P1/2(X ∈ K) = P1/2(X > c) =

∑20k=c+1

(20k

)(1

2)20. Dieser Wert betragt

0,0207 fur c = 14 und 0,0577 fur c = 13. Fur c ≥ 14 wird das Niveau α eingehalten.Macht bei ϑ ∈ Θ1: Pϑ(X ∈ K) =

∑20k=c+1

(20k

)ϑk(1 − ϑ)(20−k). Diese fallt monoton in c.

Wahle also c = 14, d. h. das Verfahren wird gekauft, wenn mehr als 14 der 20 geborenenTiere Kuhkalber sind.Angenommen, ϑ = 0,7. Das Verfahren ware also schon wirtschaftlich interessant. DieMacht bei ϑ = 0,7 ist P0,7(X ∈ K) ≈ 0,417, d. h. mit Wahrscheinlichkeit 1−0,417 = 0,583

wird ein solches Verfahren nicht entdeckt. Der Fehler 2. Art ist hier also unbefriedigendgroß.Moglicher Ausweg: Betrachtung einer großeren Stichprobe n zur Erhohung derTrennscharfe.

Bemerkung 3.3.10 zur Konstruktion von Tests:Wir betrachten zunachst den sehr einfachen Fall von einfachen Hypothesen, d. h. Θ0,Θ1

sind einelementig. Sei im Folgenden ein diskretes oder stetiges stochastisches Modell mitzugehorigen Dichten %ϑ gegeben, vergleiche Bemerkung 3.2.16. Seien Θ = ϑ0, ϑ1,Θ0 =

ϑ0,Θ1 = ϑ1.Idee: Ist die Wahrscheinlichkeit der Beobachtung x unter ϑ1 groß und unter ϑ0 klein, ent-scheiden wir uns fur Θ1. Im umgekehrten Fall entscheiden wir uns fur Θ0.

Definition 3.3.11 1. Die Funktion R : Rn → [0,∞] mit

R(x) :=

%ϑ1

(x)

%ϑ0(x)

falls %ϑ0(x) > 0,

∞ sonst

heißt Likelihood-Quotient (LQ) oder Dichte-Quotient.

2. Ein Likelihood-Quotienten-Test (LQT) von ϑ0 gegen ϑ1 ist ein Test ϕ(X1, . . . , Xn)

der Form

ϕ(x) =

1 falls R(x) > c,

0 falls R(x) < c

fur ein c ≥ 0.

Page 95: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.3. TESTEN VON HYPOTHESEN 95

Solche Tests sind tatsachlich optimal.

Satz 3.3.12 (Neyman-Pearson-Lemma) In obigem Rahmen ist jeder LQT ϕ(X1, . . . , Xn)

bester Test zu seinem effektiven Niveau α.

Beweis. Wir beweisen nur den Fall diskreter Dichten. Stetige Dichten werden analog behan-delt.Sei ψ ein weiterer Test zum Niveau α und x ∈ Rn. Fur %ϕ1(x)− c%ϕ0(x) > 0 ist ϕ(x) = 1,fur %ϕ1(x)− c%ϕ0(x) < 0 ist ϕ(x) = 0. Es folgt, dass

(ϕ(x)− ψ(x))(%ϕ1(x)− c%ϕ0(x)) ≥ 0

und damit auch ∑x∈Rn

(ϕ(x)− ψ(x))(%ϕ1(x)− c%ϕ0(x)) ≥ 0.

Also ist

Eϕ1 [ϕ(X1, . . . , Xn)]− Eϕ1 [ψ(X1, . . . , Xn)]

2.2.22=

∑x∈Rn

ϕ(x)%ϕ1(x)−∑x∈Rn

ψ(x)%ϕ1(x)

≥ c(∑x∈Rn

ϕ(x)%ϕ0(x)− ψ(x)%ϕ0(x))

= c(Eϕ0 [ϕ(X1, . . . , Xn)]︸ ︷︷ ︸

−Eϕ0 [ψ(X1, . . . , Xn)]︸ ︷︷ ︸≤α

)≥ 0,

d. h. Eϕ1 [ϕ(X1, . . . , Xn)] ≥ Eϕ1 [ψ(X1, . . . , Xn)].

Dieser einfache Fall ist eher selten. Jetzt werden daher mit der obigen Idee zusammenge-setzte (d. h. mehrelementige) Hypothesen bzw. Alternativen betrachtet.

Definition 3.3.13 Sei ein diskretes oder stetiges stochastisches Modell mit zugehorigenDichten %ϑ gegeben, vgl. Bemerkung 3.2.16. Sei Θ = Θ0 ∪Θ1 eine disjunkte Zerlegung.

1. Die Funktion R : Rn → [0,∞] mit

R(x) :=

supϑ∈Θ1

%ϑ(x)

supϑ∈Θ0

%ϑ(x)falls der Nenner > 0 ist,

∞ sonst

heißt (verallgemeinerter) Likelihood-Quotient.

2. Ein Likelihood-Quotienten-Test (LQT) von Θ0 gegen Θ1 ist ein Test ϕ(X1, . . . , Xn)

der Form

ϕ(x) =

1 falls R(x) > c,

0 falls R(x) < c

fur ein c ≥ 0.

Page 96: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

96 KAPITEL 3. SCHLIESSENDE STATISTIK

Bemerkung 3.3.14 1. LQ-Tests haben nicht immer, aber zumindest oft gewisse Opti-malitatseigenschaften (vgl. ML-Schatzer).

2. Falls T0 = t0(X1, . . . , Xn) ML-Schatzer von ϑ bezuglich Θ0 (anstelle von Θ) undT1 = t1(X1, . . . , Xn) ML-Schatzer von ϑ bezuglich Θ1 (anstelle von Θ) ist, dann ist

R(x) =%T1(x)(x)

%T0(x)(x)

fur alle x ∈ Rn, fur die der Nenner positiv ist.

Beispiel 3.3.15 Welche Gestalt haben LQ-Tests in Beispiel 3.3.1, 3.3.4, 3.3.9?Es ist %ϑ(x) =

(nx

)ϑx(1− ϑ)n−x, also

∂ϑ%ϑ(x) =

(n

x

)ϑx−1(1− ϑ)n−x−1︸ ︷︷ ︸

>0

(x(1− ϑ)− (n− x)ϑ)︸ ︷︷ ︸=x−nϑ

.

Wegen x− nϑ > 0 fur ϑ < x/n und x− nϑ < 0 fur ϑ > x/n ist

supϑ∈(1/2,1]

%ϑ(x) = %max 12, xn(x),

und der Likelihood-Quotient hat somit die Form

R(x) =%max 1

2, xn(x)

%1/2(x)=

(nx)( x

n)x(1− x

n)n−x

(nx)( 12

)n= (2κk(1− κ)1−k)n falls κ := x

n> 1

2,

1 falls xn≤ 1

2.

Es ist ∂∂κ

log(κk(1−κ)1−k) = ∂∂κ

(k log(k) + (1−κ) log(1− k)) = log( k1−k ) > 0 fur k > 1

2,

also ist x 7→ R(x) monoton wachsend und LQ-Tests sind von der Form

ϕ(x) =

1 falls x ≥ c,

0 falls x < c

fur ein c, wie in Beispiel 3.3.9 angesetzt.

Beispiel 3.3.16 Normalverteilung, einseitiger Test bei bekannter Varianz:Seien X1, . . . , Xn unter Pϑ unabhangig und N(µ, σ2)-verteilt, wobei σ2 > 0 gegeben sei.Gesucht ist ϑ = µ. Hypothese Θ0 = (−∞, µ0], Alternative Θ1 = (µ0,∞) fur ein µ0 ∈ R.Welche Gestalt haben die LQ-Tests? Es ist

%ϑ(x) =n∏i=1

(1√

2πσ2exp

(−(xi − µ)2

2σ2

))

= (2πσ2)−n2 exp

(− 1

2σ2

(n∑i=1

(xi − x)2 + n(x− µ)2

))

Page 97: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.3. TESTEN VON HYPOTHESEN 97

mit x := 1n

∑ni=1 xi. Also ist

supϑ∈Θ0

%ϑ(x) = %minx,µ0(x) und supϑ∈Θ1

%ϑ(x) = %maxx,µ0(x),

und der Likelihood-Quotient hat die Form

R(x) =%maxx,µ0(x)

%minx,µ0(x)=

exp(− 1

2σ2n(x− µ0)2) falls x ≤ µ0,

exp( 12σ2n(x− µ0)2) falls x > µ0.

Also ist x 7→ R(x) eine in x monoton wachsende Funktion und LQ-Tests haben die Form

ϕ(x) =

1 falls x > c,

0 falls x < c

fur ein c ∈ R.Was ist das effektive Niveau α von ϕ? Nach Satz 3.3.19 ist X unter Pϑ gerade N(µ, σ2/n)-verteilt. Also gilt

α := supϑ∈Θ0

Pϑ(ϕ(X1, . . . , Xn) = 1) = supµ≤µ0

N(µ,σ2/n)((c,∞))

= supµ≤µ0

N(0,1)

((c− µσ/√n

,∞))

= supµ≤µ0

(1− Φ

(c− µσ/√n

))= 1− Φ

(c− µ0

σ/√n

),

da Φ monoton wachsend ist. Zu gegebenem Niveau α wahle also c−µ0σ/√n

= Φ−1(1 − α), umdas Niveau voll auszuschopfen, d. h. den Test

ϕ(x) =

1 falls x > µ0 +√

σ2

nΦ−1(1− α),

0 sonst.

Die Gutefunktion des Tests ist

Gϕ(ϑ) = Pϑ

(X − µσ/√n︸ ︷︷ ︸

N(0,1)-vert.unter Pϑ

> Φ−1(1− α) +µ0 − µσ/√n

)= 1− Φ

(Φ−1(1− α) +

µ0 − µσ/√n

).

Bemerkung 3.3.17 Der einseitige Gaußtest in Beispiel 3.3.16 ist gleichmaßig bester Testzu seinem Niveau (ohne Beweis).

Beispiel 3.3.18 Normalverteilung, zweiseitiger Test bei bekannter Varianz:Sei das stochastische Modell wie in Beispiel 3.3.16.Hypothese Θ0 = µ0, Alternative Θ1 = R \ µ0 fur ein µ0 ∈ R.

Page 98: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

98 KAPITEL 3. SCHLIESSENDE STATISTIK

Welche Gestalt haben die LQ-Tests? Analog gilt, dass

supϑ∈Θ1

%ϑ(x) = %x(x) und supϑ∈Θ0

%ϑ(x) = %µ0(x)

und

R(x) =%x(x)

%µ0(x)= exp

(1

2σ2n(x− µ0)2

).

Weiter ist x 7→ R(x) eine streng monotone Funktion von |x − µ0|. Die LQ-Tests sind vonder Form

ϕ(x) =

1 falls |x− µ0| > c,

0 falls |x− µ0| < c,

fur ein c ∈ R.Was ist das effektive Niveau?

α := supϑ∈Θ0

Pϑ(ϕ(X1, . . . , Xn) = 1) = N(µ0, σ2/n)

([µ0 − c, µ0 + c]C

)= N(0, 1)

([−c√n

σ,c√n

σ

]C)= 1−

(c√n

σ

)− Φ

(−−c

√n

σ

))= 2

(1− Φ

(c√n

σ

)),

da Φ symmetrisch ist.Zu gegebenem Niveau wahle also c

√nσ

= Φ−1(1− α2), d. h. den Test

ϕ(x) =

1 falls |x− µ0| >√

σ2

nΦ−1(1− α

2),

0 sonst.

Erganzungen zur Normalverteilung (zum Teil ohne Beweis):

Satz 3.3.19 1. Seien X1, X2 unabhangig und N(µ1, σ21)- bzw. N(µ2, σ

22)-verteilt.

Dann ist S := X1 +X2 gerade N(µ1 + µ2, σ21 + σ2

2)-verteilt(d. h. N(µ1, σ

21) ∗N(µ2, σ

22) = N(µ1 + µ2, σ

21 + σ2

2)).

2. Seien X1, . . . , Xn unabhangig und N(µ, σ2)-verteilt.Dann ist X gerade N(µ, σ2/n)-verteilt.

Beweis.

1. Die Verteilungsfunktion von S ist

%S(x)2.2.69=

∫ϕµ1,σ2

1(z)ϕµ2,σ2

2(x− z) dz

=1

2πσ1σ2

∫exp

(−(z − µ1)2

2σ21

− (x− z − µ2)2

2σ22

)dz

= c exp

(−(x− µ)2

2σ2

)

Page 99: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.3. TESTEN VON HYPOTHESEN 99

fur c ∈ R, µ ∈ R, σ2 ∈ R+. Da %S eine Dichte ist, muss c = 1√2πσ2

gelten, S istalso N(µ, σ2)-verteilt. Aus E[S] = E[X1] + E[X2] folgt µ = µ1 + µ2, und ausVar(S) = Var(X1) + Var(X2) folgt σ2 = σ2

1 + σ22 .

2. Induktion:∑n

i=1Xi ist N(nµ, nσ2)-verteilt. Es folgt sofort, dass 1n

∑ni=1Xi dann

N(µ, σ2/√n)-verteilt ist.

Satz 3.3.20 Seien X1, . . . , Xn unabhangig und N(0, 1)-verteilt. Dann hat die Verteilungvon T := X√

1n

∑ni=1 X

2i

fur alle x ∈ R die Dichte

%n(x) =Γ(n+1

2)

Γ(n2)√nπ

(1 +

x2

n

)−n+12

.

Γ ist die Gammafunktion, d. h. Γ(x) :=∫∞

0e−ttx−1 dt fur x > 0

(insbesondere Γ(1) = 1, Γ(x+ 1) = xΓ(x), Γ(n+ 1) = n!, Γ(1/2) =√π).

(ohne Beweis)

Definition 3.3.21 Die Verteilung tn mit Dichte %n wie in Satz 3.3.20 heißt Studentsche t-Verteilung mit n Freiheitsgraden.

Satz 3.3.22 Seien X1, . . . , Xn unabhangig, N(µ, σ2)-verteilt. Dann ist

T :=X − µ√S2/n

tn−1-verteilt, wobei X := 1n

∑ni=1 Xi, S2 := 1

n−1

∑ni=1(Xi −X)2.

(ohne Beweis)

In praktischen Anwendungen ist die Varianz in den Beispielen 3.3.16, 3.3.18 meist unbe-kannt.

Beispiel 3.3.23 Normalverteilung, einseitiger Test bei unbekannter Varianz:Seien X1, . . . , Xn unter Pϑ unabhangig und N(µ, σ2)-verteilt, wobei ϑ = (µ, σ2) ∈ R ×(0,∞).Hypothese: Θ0 = (−∞, µ0]× (0,∞), Alternative Θ1 = (µ0,∞)× (0,∞) fur ein µ0 ∈ R.Welche Gestalt haben die LQ-Tests? Es gilt

log %ϑ(x) = log

(n∏i=1

1√2πσ2

e−(xi−µ)2

2σ2

)

= −n2

log(2πσ2)− 1

2σ2

n∑i=1

(xi − µ)2

Page 100: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

100 KAPITEL 3. SCHLIESSENDE STATISTIK

und somit∂

∂(σ2)log(%ϑ(x)) = −n

2

1

σ2+

1

2(σ2)2

n∑i=1

(xi − µ)2.

Der Ausdruck ist großer null fur σ2 < vµ := 1n

∑ni=1(xi − µ)2 und kleiner null fur σ2 > vµ.

Also istsupϑ∈Θ0

%ϑ(x) = supµ≤µ0

σ2>0

%(µ,σ2)(x) = supµ≤µ0

%(µ,vµ)(x)

und analogsupϑ∈Θ1

%ϑ(x) = supµ>µ0

%(µ,vµ)(x).

Also ist

R(x) =

supµ>µ0

%(µ,vµ)(x)

supµ≤µ0

%(µ,vµ)(x)

=

supµ>µ0

(2πvµ)−n2 exp(− 1

2vµnvµ)

supµ≤µ0

(2πvµ)−n2 exp(− 1

2vµnvµ)

=

supµ>µ0

v−n

supµ≤µ0

v−n

.

Da

vµ =1

n

n∑i=1

(xi − µ)2 =1

n

n∑i=1

(xi − x)2

︸ ︷︷ ︸=:σ2

+ (x− µ)2

︸ ︷︷ ︸wachsend in |x−µ|

,

folgt

R(x) =

( σ2

vµ0)n2 falls x < µ0,

(vµ0

σ2 )n2 falls x ≥ µ0.

Ferner gilt vµ0

σ2 = 1 + (x−µ0)2

σ2 = 1 +τ2µ0

n−1mit

τµ0:=

(x− µ0)√n√

1n−1

∑ni=1(xi − x)2

.

R ist eine streng monoton wachsende Funktion von τµ0 (sofern x ≥ µ0), und der LQ-Testhat die Form

ϕ(x) =

1 falls τµ0 > c,

0 falls τµ0 < c

fur ein c ∈ R.

Page 101: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.3. TESTEN VON HYPOTHESEN 101

Was ist das effektive Niveau? Unter Pϑ ist τµ(X1, . . . , Xn) gerade tn−1-verteilt nach Satz3.3.22. Da

τµ0 = τµ −(µ0 − µ)

√n√

1n−1

∑ni=1(xi − x)2︸ ︷︷ ︸≥0

,

ist Pϑ(ϕ(X1, . . . , Xn) = 1) auf Θ0 maximal fur µ = µ0. Also

α := supϑ∈Θ0

Pϑ(ϕ(X1, . . . , Xn) = 1) = tn−1((c,∞)) = 1− tn−1((−∞, c]).

Zum Niveau α wahle also c = tn−1,1−α, wobei tn−1,1−α das (1 − α)-Quantil der tn−1-Verteilung sei, d. h.

ϕ(x) =

1 falls τµ0 > tn−1,1−α,

0 sonst.

Beispiel 3.3.24 Normalverteilung, zweiseitiger Test bei unbekannter Varianz:Sei das Modell wie in Beispiel 3.3.23.Hypothese Θ0 = µ0 × (0,∞), Alternative Θ1 = (R \ µ0)× (0,∞).Analog zu Beispiel 3.3.23 ergibt sich

supϑ∈Θ0

%ϑ(x) = %(µ0,vµ0 )(x) und supϑ∈Θ1

%ϑ(x) = %(x,σ2)(x)

und somit

R(x) =(vµ0

σ2

)n2

=

(1 +

τ 2µ0

n− 1

)n2

.

R ist eine streng monoton wachsende Funktion von |τµ0|.Analog zu den Beispiel 3.3.18 und 3.3.23 hat dann der LQ-Test zum Niveau α die Form

ϕ(x) =

1 falls |τµ0| > tn−1,1−α,

0 sonst.

Bemerkung 3.3.25 Die ein- bzw. zweiseitigen t-Tests in den Beispielen 3.3.23, 3.3.24 sindgleichmaßig beste unverfalschte Tests zum Niveau α, aber nicht gleichmaßig beste Tests(ohne Beweis).

Bemerkung 3.3.26 In den bisherigen Beispielen wurden Familien von Tests mit kritischemBereich Kα, α ∈ (0, 1) berechnet, wobei Kα ⊆ Kα′ fur α ≤ α′, etwa Kα = t(x) > t1−αfur eine feste Statistik T = t(X1, . . . , Xn).Fur x ∈ Rn definiert man den p-Wert als

p(x) := infα ∈ (0, 1) : x ∈ Kα,

d. h. das kleinste Niveau α derart, dass die Hypothese bei Beobachtung von x durch den zuα gehorigen Test der Testfamilie abgelehnt wird.

Page 102: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

102 KAPITEL 3. SCHLIESSENDE STATISTIK

Bemerkung 3.3.27 zu sauberem und unsauberem Vorgehen:

1. Man sollte in der folgenden Reihenfolge arbeiten:

(a) Wahl des statistischen Modells,

(b) Wahl von Hypothese und Alternative,

(c) Wahl des Niveaus,

(d) Wahl des Tests,

(e) Erhebung der Daten,

(f) Entscheidung.

2. In der Medizinstatistik geht man noch weiter (good clinical practice):

(a) Kontrollgruppe: Es wird mit ununterscheidbarem Medikament ohne Wirkstoffverglichen, um einen Placebo-Effekt auszuschließen;

(b) Doppel-Blind: Weder Arzt noch Patient wissen, ob Medikament oder Placeboverabreicht werden;

(c) Randomisieren: Die Zuordnung Placebo/Wirkstoff erfolgt zufallig.

3. Mogliche Fehler (→ publication bias):

• Hypothese an denselben Daten bilden und testen,

• Niveau dem Ergebnis anpassen (p-Werte!),

• mehrere Tests nacheinander, bis Ablehnung erfolgt,

• und viele andere mehr . . .

3.4 Konfidenzintervalle

Problem: Schatzer liefern in aller Regel nicht genau den ”wahren“ Wert der Kenngroße,sondern weichen mehr oder weniger stark davon ab.Ausweg: Angabe eines ganzen Intervalls, in dem man den wahren Wert mit hoher Wahr-scheinlichkeit vermutet.

Definition 3.4.1 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben. Seien τ : Θ→R (bzw. Rd, . . . ) eine Kenngroße, α ∈ (0, 1).Eine Abbildung C = c(X1, . . . , Xn) mit c : Rn → P(R) (bzw. P(Rd), . . . ) heißt Be-reichsschatzer fur τ zum Irrtumsniveau α (oder Sicherheitsniveau (1− α)), falls

infϑ∈Θ

Pϑ(τ(ϑ) ∈ C) ≥ 1− α.

Fur x ∈ Rn heißt c(x) Konfidenzintervall fur τ (bzw. bei Rd-wertigem τ Konfidenz- oderVertrauensbereich).

Page 103: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.4. KONFIDENZINTERVALLE 103

Bemerkung 3.4.2 Das bedeutet anschaulich, dass der wahre Parameter hochstens mitWahrscheinlichkeit α nicht im Konfidenzbereich liegt.Achtung: Zufallig (da von Daten X1, . . . , Xn abhangig) ist hier die Menge C =

c(X1, . . . , Xn), nicht aber der Parameter ϑ.

Satz 3.4.3 Sei ein statistisches Modell wie in Definition 3.1.3 gegeben.Seien τ : Θ→ R (bzw. Rd, . . . ) eine Kenngroße, α ∈ (0, 1).

1. Ist fur alle ϑ0 ∈ Θ ein α-Niveau-Test ϕϑ0(X1, . . . , Xn)

von H0 = ϑ0 gegen H1 = Θ \ ϑ0 gegeben, definiert

c(x) := τ(ϑ) : ϑ ∈ Θ mit ϕϑ(x) = 0

einen Bereichsschatzer τ zum Niveau α.

2. Ist C = c(X1, . . . , Xn) ein Bereichsschatzer fur τ zum Niveau α, dann definiert furϑ0 ∈ Θ0

ϕ(x) := 1− 1c(x)(τ(ϑ0))

einen α-Niveau-Test von Θ0 = ϑ ∈ Θ: τ(ϑ) = τ(ϑ0) gegen Θ1 = Θ \Θ0.

Beweis.

1. Sei ϑ0 ∈ Θ. Dann gilt

Pϑ0(τ(ϑ0) ∈ c(X1, . . . , Xn)) ≥ Pϑ0(ϕϑ0(X1, . . . , Xn) = 0)α-Niv.-Test≥ 1− α.

2. Sei ϑ0 ∈ Θ, sei ϑ ∈ Θ mit τ(ϑ) = τ(ϑ0). Dann gilt

Pϑ(ϕ(X1, . . . , Xn) = 0) = Pϑ(τ(ϑ) ∈ c(X1, . . . , Xn)) ≥ 1− α.

Beispiel 3.4.4 Seien X1, . . . , Xn unter Pϑ unabhangig und N(µ, σ2)-verteilt, wobei σ2 > 0

gegeben und ϑ = µ seien, vgl. Beispiel 3.3.18.Zu schatzen sei ϑ = µ (d. h. τ(ϑ) = ϑ).Sei α ∈ (0, 1). Nach Beispiel 3.3.18 ist der α-Niveau-Test fur Θ0 = µ0 gegen Θ1 = R\Θ0

ϕ(X1, . . . , Xn) = 1|X−µ0|>

√σ2

nΦ−1(1−α

2)

.

Satz 3.4.3: Wahle als Konfidenzbereich beispielsweise C = c(X1, . . . , Xn) mit

c(x) =

(x− σ√

nΦ−1

(1− α

2

), x+

σ√n

Φ−1(

1− α

2

)).

Page 104: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

104 KAPITEL 3. SCHLIESSENDE STATISTIK

Beispiel 3.4.5 Realistischere Situation: Auch σ2 ist unbekannt, wie in Beispiel 3.2.20 bzw.3.3.24. Fur ϑ := (µ, σ2) sei τ(ϑ) = µ zu schatzen.Sei α ∈ (0, 1) gegeben. Nach Beispiel 3.3.24 ist der α-Niveau-Test fur Θ0 = µ0 ×(0,∞) = ϑ ∈ Θ: m(ϑ) = µ0 gegen Θ1 = Θ \Θ0 gegeben durch

ϕ(X1, . . . , Xn) = 1∣∣∣∣ (X−µ0)√n√

S2

∣∣∣∣>tn−1,1−α/2

,wobei X das Stichprobenmittel, S2 die Stichprobenvarianz und tn−1,1−α/2 das (1 − α/2)-Quantil der tn−1-Verteilung sei. Nach Satz 3.4.3 wahle als Konfidenzbereich daher z. B.

C = c(X1, . . . , Xn) =

(X −

√S2

√ntn−1,1−α/2, X +

√S2

√ntn−1,1−α/2

).

Bemerkung 3.4.6 1. Die Lange des Konfidenzintervalls ist proportional zu 1/√n. Umdie Genauigkeit zu verdoppeln, muss man n vervierfachen.

2. Die Konfidenzintervalle in 3.4.4 und 3.4.5 sind asymptotisch auch fur andere Vertei-lungen anwendbar, da X nach dem zentralen Grenzwertsatz auch dann approximativnormalverteilt ist, wenn das fur die Xi nicht der Fall ist.

Beispiel 3.4.7 Produktion von Schrauben mittlerer Lange µ (Maschineneinstellung) undVarianz σ2 (Maschinenkonstante):Schatzung von µ durch Vermessen von 100 Schrauben

1. X = 115 mm, σ2 = (15,4 mm)2, n = 100, α = 0,05:Dann ist σ√

nΦ−1(1− α/2) ≈ 2,6, also C = (112,4 mm, 117,6 mm), falls σ2 bekannt.

2. Wie oben, aber S2 = (15,4 mm)2 geschatzt:√S2√ntn−1,1−α/2 ≈ 2,65, also C = (112,35 mm, 117,65 mm).

3.5 Elemente der Bayesschen Statistik

Motivation 3.5.1 Idee der Bayesschen Statistik:Man betrachtet den Parameter als zufallig. Hierzu hat man eine Vorbewertung (Vorinforma-tion, Erfahrung, Vorurteil), die dann auf Grund von Beobachtungen konkretisiert wird.Vorteile: Man erhalt Verteilungsaussagen uber den Parameter. Das Verfahren entspricht aucheher der menschlichen Vorgehensweise, aus Erfahrung zu lernen.Nachteil: Abhangigkeit der Resultate von der oft subjektiven Wahl der Vorbewertung

Mathematischer Rahmen 3.5.2 Seien X1, . . . , Xn unter allen Pϑ, ϑ ∈ Θ unabhangig undidentisch verteilt. Sei zunachst ein diskretes Modell mit (Zahl-)Dichten %ϑ und abzahlba-rem Θ betrachtet. Der unbekannte Parameter wird als Zufallsgroße U : Ω → Θ aufgefasst,d. h. nun sind sowohl der unbekannte und nicht beobachtbare Parameter ϑ (genauer: diezugehorige Zufallsgroße U ), als auch die Beobachtungen X1, . . . , Xn zufallig.

Page 105: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.5. ELEMENTE DER BAYESSCHEN STATISTIK 105

Gegeben seien die Verteilung PU (Vorbewertung) mit Zahldichte α : Θ → R, d. h. α(ϑ) =

P (U = ϑ). PU heißt auch a priori-Verteilung, α heißt a priori-Dichte.Die Pϑ werden nunmehr als bedingte Wahrscheinlichkeiten interpretiert, d. h.

%ϑ(x) := Pϑ((X1, . . . , Xn) = x) := P ((X1, . . . , Xn) = x | U = ϑ)

fur x ∈ Rn, ϑ ∈ Θ.Gesucht ist die a posteriori-Dichte

πx(ϑ) := P (U = ϑ | (X1, . . . , Xn) = x), (3.2)

ϑ ∈ Θ, x ∈ (X1, . . . , Xn)(Ω), also die (Zahl-)Dichte der a posteriori-Verteilung A 7→P (U ∈ A | (X1, . . . , Xn) = x), also der Verteilung des unbekannten Parameters unterBerucksichtigung der beobachteten Daten x = (x1, . . . , xn)

Interpretation: Neubewertung der Einschatzung uber ϑ auf Grund der Beobachtungen.Berechnung:

πx(ϑ) = P (U = ϑ | (X1, . . . , Xn) = x)

BayesscheFormel=

P ((X1, . . . , Xn) = x | U = ϑ)P (U = ϑ)∑ϑ∈Θ P ((X1, . . . , Xn) = x | U = ϑ)P (U = ϑ)

=%ϑ(x)α(ϑ)∑

ϑ∈Θ %ϑ(x)α (ϑ). (3.3)

Falls das Modell stetig ist (d. h. %ϑ ist Lebesgue-Dichte), wird analog vorgegangen, auchwenn die rechte Seite von (3.2) wegen P ((X1, . . . , Xn) = x) = 0 mathematisch sinnlosscheint. Fur eine saubere Definition ist mehr Maßtheorie erforderlich. Falls Θ ⊆ R und PU

stetig ist (d. h. α ist Lebesgue-Dichte statt Zahldichte), ist die a posteriori-Dichte analog zu(3.3) definiert durch

πx(ϑ) :=%ϑ(x)α(ϑ)∫

Θ%ϑ(x)α (ϑ) dϑ

. (3.4)

Beispiel 3.5.3 n-facher Munzwurf, vgl. 3.1.5, 3.2.2, 3.2.19Vorbewertung: Gleichverteilung auf Θ = [0, 1], d. h. PU hat die Dichte α : [0, 1] →R, α(ϑ) = 1, also ein gemischter Fall: PU hat eine stetige Dichte, Pϑ hingegen eine Zahl-dichte.A posteriori-Dichte in Analogie zu (3.3, 3.4):

πx(ϑ) =%ϑ(x)α(ϑ)∫

A%ϑ(x)α (ϑ) dϑ

=ϑk(1− ϑ)n−k∫ 1

0ϑk (1− ϑ)n−k dϑ

mit k :=n∑i=1

xi

=ϑk(1− ϑ)n−k

B(k + 1, n− k + 1)

=(n+ 1)!

k!(n− k)!ϑk(1− ϑ)n−k

Page 106: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

106 KAPITEL 3. SCHLIESSENDE STATISTIK

mit B(x, y) :=∫ 1

0tx−1(1− t)y−1 dt = (x−1)!(y−1)!

(x+y−1)!fur x, y ∈ N \ 0.

πx ist die Dichte einer Beta-Verteilung mit Parametern k + 1, n− k + 1.

3.5.1 Schatzen

Definition 3.5.4 Ein Schatzer T = t(X1, . . . , Xn) fur eine Kenngroße τ : Θ → R heißtBayes-Schatzer, falls er den erwarteten quadratischen Fehler E[(T − τ(U))2] unter allenSchatzern minimiert.

Satz 3.5.5 Der Bayes-Schatzer in Beispiel 3.5.3 ist gegeben durch

t(x) =

∑ϑ∈Θ τ(ϑ)πx(ϑ) falls πx Zahldichte,∫τ(ϑ)πx(ϑ) dϑ falls πx Lebesgue-Dichte,

d. h. T ist der Erwartungswert von τ unter der durch πx gegebenen a posteriori-Verteilungauf dem Parameterraum Θ.

Beweis. Hier fur den diskreten Fall, der stetige Fall wird ahnlich bewiesen.Sei %(x) := P ((X1, . . . , Xn) = x). Dann ist

%(x)πx(ϑ) = P (U = ϑ | (X1, . . . , Xn) = x)P ((X1, . . . , Xn) = x)

= P ((X1, . . . , Xn) = x, U = ϑ).

Sei S = s(X1, . . . , Xn) ein weiterer Schatzer. Dann gilt

E[(S − τ(ϑ))2]− E[(T − τ(ϑ))2]

=∑ϑ∈Θ

x∈(X1,...,Xn)(Ω)

P ((X1, . . . , Xn) = x, U = ϑ)(

(s(x)− τ(ϑ))2 − (t(x)− τ(ϑ))2︸ ︷︷ ︸=s(x)2−2s(x)τ(ϑ)−t(x)2+2t(x)τ(ϑ)

)=

∑x∈(X1,...,Xn)(Ω)

%(x)(s(x)2

∑ϑ∈Θ

πx(ϑ)︸ ︷︷ ︸=1

−2s(x)∑ϑ∈Θ

πx(ϑ)τ(ϑ)︸ ︷︷ ︸=t(x)

− t(x)2∑ϑ∈Θ

πx(ϑ)︸ ︷︷ ︸=1

+2t(x)∑ϑ∈Θ

πx(ϑ)τ(ϑ)︸ ︷︷ ︸=t(x)

)

=∑

x∈(X1,...,Xn)(Ω)

%(x)(s(x)− t(x))2

≥ 0.

Page 107: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

3.5. ELEMENTE DER BAYESSCHEN STATISTIK 107

Beispiel 3.5.6 n-facher Munzwurf, vgl. 3.1.5, 3.2.2, 3.2.19, 3.5.3, zur Notation siehe Bei-spiel 3.5.3.Betrachte τ(ϑ) = ϑ, d. h. ϑ soll geschatzt werden. Der Bayes-Schatzer ist gegeben durch

t(x) =

∫ϑπx(ϑ) dϑ

=(n+ 1)!

k!(n− k)!

∫ϑk+1(1− ϑ)n−k dϑ

=(n+ 1)!

k!(n− k)!B(k + 2, n− k + 1)

=(n+ 1)!

k!(n− k)!

(k + 1)!(n− k)!

(k + 2)!

=k + 1

n+ 2

fur k =∑n

i=1 xi. (Vgl. mit t(x) = kn

in 3.2.2 bzw. 3.2.19.)

3.5.2 Konfidenzbereiche

Definition 3.5.7 Seien eine Kenngroße τ : Θ→ R und α ∈ (0, 1) gegeben. Eine AbbildungC = c(X1, . . . , Xn) mit c : Rn → P(R) heißt Bereichsschatzer fur τ zum Irrtumsniveauα, falls

P (τ(U) ∈ c(X1, . . . , Xn)) > 1− α.

Bemerkung 3.5.8 Achtung: Anders als in Definition 3.4.1 sind nun beide Seiten zufallig,also neben X1, . . . , Xn auch der unbekannte Parameter U .Idee zur Konstruktion, hier nur im Fall Θ ⊆ R und τ(ϑ) = ϑ: Wahle ϑ ∈ c(x) genau dann,wenn πx(ϑ) > q(x), wobei q(x) derart beschaffen sei, dass∑

ϑ∈c(x)

πx(ϑ) > 1− α.(

bzw.∫c(x)

πx(ϑ) dϑ > 1− α)

Es wird also ein moglichst kleiner Konfidenzbereich gewahlt, da er gerade die ϑ mit großtera-posteriori Wahrscheinlichkeit enthalt.C = c(X1, . . . , Xn) ist dann ein Konfidenzbereich, denn

P (U ∈ c(X1, . . . , Xn)) =∑

x∈(X1,...,Xn)(Ω)

∑ϑ∈c(x)

P ((X1, . . . , Xn) = x, U = ϑ)

=∑

x∈(X1,...,Xn)(Ω)

%(x)∑ϑ∈c(x)

πx(ϑ)

︸ ︷︷ ︸>1−α

> (1− α)∑

x∈(X1,...,Xn)(Ω)

%(x)

= (1− α).

(Im Fall von Lebesgue-Dichten argumentiert man analog.)

Page 108: Stochastik fur Lehramtsstudierende¨...Fur diskrete, durch Klassenbildung entstandene oder qualitative Daten ist auch der Modus¨ interessant: Definition 1.3.5 Der Modus (Modalwert)

108 KAPITEL 3. SCHLIESSENDE STATISTIK

3.5.3 Testen

Definition 3.5.9 Seien Θ = Θ0 ∪ Θ1 eine disjunkte Zerlegung in die Hypothese Θ0 unddie Alternative Θ1 sowie c0, c1 > 0. Ein Test (vgl. Definition 3.3.2) ϕ(X1, . . . , Xn) von Θ0

gegen Θ1 heißt Bayes-Test zu Kosten c0, c1, falls

E[c0ϕ(X1, . . . , Xn)1Θ0(U) + c1(1− ϕ(X1, . . . , Xn))1Θ1(U)]

minimal wird unter allen Tests.

Bemerkung 3.5.10 In Definition 3.5.9 stehen c0 fur die Kosten des Fehlers 1. Art und c1

fur die Kosten des Fehlers 2. Art. Der Bayes-Test minimiert die erwarteten Fehlerkosten,insbesondere die Wahrscheinlichkeit einer Fehlentscheidung fur c0 = c1 = 1.

Satz 3.5.11 Wahle

ϕ(x) :=

1 falls P (U∈Θ1|(X1,...,Xn)=x)

P (U∈Θ0|(X1,...,Xn)=x)> c0

c1,

0 sonst

(wobei P (U ∈ Θi | (X1, . . . , Xn) = x) =∑

ϑ∈Θiπx(ϑ) fur i ∈ 0, 1).

Dann definiert ϕ einen Bayes-Test.

Beweis. Wir betrachten den abzahlbaren Fall (sonst analog):

E[c0ϕ(X1, . . . , Xn)1Θ0(U) + c1(1− ϕ(X1, . . . , Xn))1Θ1(U)]

=∑x∈R

P ((X1, . . . , Xn) = x)(c0ϕ(x)P (U ∈ Θ0 | (X1, . . . , Xn) = x)

+ c1(1− ϕ(x))P (U ∈ Θ1 | (X1, . . . , Xn) = x))

=:∑x∈R

P ((X1, . . . , Xn) = x)`(x).

Es ist

`(x) =

c0p0(x) falls ϕ(x) = 1,

c1(1− p0(x)) falls ϕ(x) = 0

mit p0(x) = P (U ∈ Θ0 | (X1, . . . , Xn) = x).

c0p0(x) < c1(1 − p0(x)), gilt genau dann, wenn c0c1< 1−p0(x)

p0(x). Also minimiert das im Satz

definierte ϕ den Ausdruck `(x) fur alle x.

Bemerkung 3.5.12 Im Fall c0 = c1 = 1 kann ϕ(x) aus Satz 3.5.11 so interpretiert werden,dass man sich fur diejenige der beiden Hypothesen entscheidet, die die großere a posteriori-Wahrscheinlichkeit besitzt.