Grundlagen der Stochastik

168
Grundlagen der Stochastik In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universit¨ at G¨ ottingen von PD Dr. Fiebig im Wintersemester 2007/2008 Kirsten Bolze ottingen, [email protected] Frank Werner ottingen, [email protected]

description

In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universität Göttingen von PD Dr. Fiebig im Wintersemester 2007/2008.Kirsten Bolze & Frank Werner

Transcript of Grundlagen der Stochastik

Page 1: Grundlagen der Stochastik

Grundlagen der Stochastik

In Anlehnung an die Vorlesung ’Grundlagen der Stochastik’ an der Georg-August-Universitat Gottingenvon PD Dr. Fiebig im Wintersemester 2007/2008

Kirsten Bolze

Gottingen, [email protected]

Frank Werner

Gottingen, [email protected]

Page 2: Grundlagen der Stochastik

2 Inhaltsverzeichnis

Inhaltsverzeichnis

Inhaltsverzeichnis 2

Literatur 4

Vorwort 5

1 Grundbegriffe 61.1 Einfuhrung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.1.1 Mengentheoretische Verknupfungen . . . . . . . . . . . . . . . . . . . . . . . . . . . 71.1.2 Relative Haufigkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81.1.3 Axiomatik nach Kolmogoroff (1939) . . . . . . . . . . . . . . . . . . . . . . . . . . 8

1.2 Laplace Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.3 Allgemeine diskrete Wahrscheinlichkeitsraume und -funktionen . . . . . . . . . . . . . . . 131.4 Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.1 Allgemeine Siebformeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.4.2 Die Bonferroni-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 171.4.3 Anwendung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2 Kombinatorik 222.1 Binomial- und Hypergeometrische Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1.1 Ziehen mit Zurucklegen (Binomialverteilung) . . . . . . . . . . . . . . . . . . . . . 262.1.2 Ziehen ohne Zurucklegen (Hypergeometrische Verteilung) . . . . . . . . . . . . . . 27

2.2 Das Stimmzettelproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 313.1 Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 313.2 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.3 Mehrstufige Experimente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen . . . . . 403.4 Produkt-Experimente und spezielle Verteilungen . . . . . . . . . . . . . . . . . . . . . . . 43

3.4.1 Mit Produktexperimenten zusammenhangende Verteilungen . . . . . . . . . . . . . 45

4 Zufallsvariablen, Verteilungen 484.1 Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

4.1.1 Unabhangigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . 514.2 Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

4.2.1 Eigenschaften der Possionverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . 59

5 Kenngroßen von Verteilungen 605.1 Der Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

5.1.1 Erwartungswerte einiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . 605.1.2 Eigenschaften des Erwartungswertes . . . . . . . . . . . . . . . . . . . . . . . . . . 625.1.3 Produktformel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.2 Varianzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 655.2.1 Varianzen einiger diskreter Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 69

6 Wahrscheinlichkeitsungleichungen und das SGGZ 726.1 Das schwache Gesetz großer Zahlen (SGGZ) . . . . . . . . . . . . . . . . . . . . . . . . . . 72

6.1.1 Spezialfall - Das SGGZ von Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 736.2 Exponential-Ungleichungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

7 Faltung, bedingte Verteilungen und Korrelation 777.1 Die Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

7.1.1 Spezialfall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 787.1.2 Faltungen einiger wichtiger Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . 78

7.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 807.2.1 Der bedingte Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 827.2.2 Die bedingte Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 827.2.3 Anwendung der iterierten Erwartung . . . . . . . . . . . . . . . . . . . . . . . . . . 837.2.4 Anwendung des allgemeineren Satzes (Satz 7.23) . . . . . . . . . . . . . . . . . . . 84

7.3 Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

Page 3: Grundlagen der Stochastik

Inhaltsverzeichnis 3

8 Erzeugende Funktion und Verzweigungsprozesse 878.1 Verzweigungsprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

8.1.1 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 928.1.2 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 928.1.3 Aussterbewahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

9 Grenzwertsatz von de Moivre-Laplace 959.1 Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . 959.2 Anwendung I: Normalapproximation der Binomialverteilung . . . . . . . . . . . . . . . . . 989.3 Anwendung II: Bestimmung eines Stichprobenumfangs . . . . . . . . . . . . . . . . . . . . 99

10 Allgemeine Modelle und stetige Verteilungen 10010.1 Allgemeine Wahrscheinlichkeitsraume und Zufallsvariablen . . . . . . . . . . . . . . . . . . 10010.2 Wahrscheinlichkeitsverteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen . . . 10210.3 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10410.4 Zufallsvariablen mit stetiger Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

10.4.1 Die Gleichverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10510.4.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10610.4.3 Die Exponentialverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10610.4.4 Die Pareto-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10710.4.5 Die Cauchy-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10810.4.6 Die Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

10.5 Berechnung und Transformation von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . 10810.6 Erwartungswert und Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11110.7 Mehrdimensionale stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11410.8 Unabhangigkeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11710.9 Die mehrdimensionale Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122

10.9.1 Folgerungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12510.10Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz . . . . . . . . . . . . . . . 125

10.10.1Die Jensen’sche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12610.10.2Der zentrale Grenzwertsatz (ZGWS) . . . . . . . . . . . . . . . . . . . . . . . . . . 127

11 Markov-Ketten mit endlichem Zustandsraum 13311.1 Steuerung der Sprunge: Ubergangsmatrizen und -graphen . . . . . . . . . . . . . . . . . . 133

11.1.1 Potenzen der Matrix P . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13511.1.2 Die Periode einer Ubergangsmatrix . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

11.2 Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13911.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten . . . . . . . . . . . . . . 140

11.3 Invariante Maße und Konvergenzsatze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14111.4 Ruckkehrzeiten und starkes Gesetz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146

11.4.1 Der Ruckkehrzeitensatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14711.5 Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150

11.5.1 Irrfahrt auf ungerichtetem Graphen . . . . . . . . . . . . . . . . . . . . . . . . . . 15011.5.2 Ehrenfeld-Diffusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152

12 Schatzer und statistische Tests 15412.1 Punktschatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

12.1.1 ML-Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15512.1.2 Erwartungstreue Schatzer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

12.2 Statistische Tests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15912.2.1 Der einseitige Gaußtest . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16112.2.2 Der t-Test . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162

A Tabelle der Standardnormalverteilung 163

B Kenngroßen der wichtigsten Verteilungen 164B.1 Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 164B.2 Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 165

Stichwortverzeichnis 166

Page 4: Grundlagen der Stochastik

4 Literatur

Literatur

[Dehling/Haupt] Herold Dehling, Beate Haupt : Einfuhrung in die Wahrscheinlichkeitstheorie undStatistikSpringerverlag Berlin, 1. Auflage 2007, 306 Seiten, ISBN: 3-540-20380-X

[Krengel] Ulrich Krengel: Einfuhrung in die Wahrscheinlichkeitstheorie und StatistikViewegverlag, 8. Auflage 2005, 257 Seiten, ISBN: 3-834-80063-5

Page 5: Grundlagen der Stochastik

Vorwort 5

Vorwort

Dieses Skript ist unter einigem Arbeitsaufwand wahrend der Vorlesung”Grundlagen der Stochastik“ von

PD Dr. Fiebig im Wintersemester 2007/2008 an der Georg-August-Universitat Gottingen entstanden.

Der Begriff der Stochastik umfasst heutzutage die Unterbegriffe der Wahrscheinlichkeitstheorie und derStatistik. Die Wahrscheinlichkeitstheorie umfasst dabei die Wahrscheinlichkeitsgesetze und das Studiumwahrscheinlichkeitstheoretischer Modelle mit mathematischen Methoden, wahrend die Statistik sich mitder Analyse und Modellierung von Datenstrukturen befasst. Die Ursprunge der Stochastik als Wissen-schaft gehen auf das Glucksspiel (Wurfeln, Kartenspiel etc.) zuruck und liegen etwa um 1630. Als erstestellten Menschen wie Pascal oder Fermat Fragen wie

”Was ist wahrscheinlicher? Bei vier Wurfen mit

einem Wurfel eine 6 oder bei 24 Wurfen mit zwei Wurfeln eine Doppel-6 zu haben?“

Der Begriff der Wahrscheinlichkeit selbst wurde dann im Wesentlichen von Laplace (1749-1827) gepragt.Die axiomatische Einfuhrung eines Wahrscheinlichkeitsraumes kam allerdings erst 1933 durch Kolmogo-roff.

Heutzutage findet die Stochastik in vielen Gebieten Anwendung. Zum Beispiel in der Informatik bei Da-tenkompression, Spracherkennung, maschinellem Lernen oder Netzwerken, in der Technik bei der Qua-litatskontrolle oder der Signalerkennung, in der Finanzmathematik bei der Berechnung von Pramien oderin der Biologie und Medizin bei der Bilderkennung oder der DNA-Analyse.

In sich ist die Stochastik ein Wechselspiel zwischen Modellen und Daten, wobei von den Modellen ausPrognosen fur die Daten getatigt werden und gleichzeitig mittels Daten bereits bestehende Modelle ge-pruft und neue Modelle geschaffen werden.

Es handelt sich hierbei ausdrucklich nur um eine studentische Mitschrift, nicht um ein offiziell vom Do-zenten herausgegebenes Skript. Trotz großer Anstrengungen sind sicherlich einige Fehler mathematischerwie auch sprachlicher Natur im Skript verblieben, was hoffentlich nicht allzu große Schwierigkeiten furdas Verstandnis aufwerfen wird.

Gottingen, 23. Januar 2009

Kirsten Bolze, Frank Werner

Page 6: Grundlagen der Stochastik

6 1 Grundbegriffe

Motivation

Zur Motivation wollen wir zwei Beispiele fur stochastische Modelle angeben.

• Europaische Call-Option

Dieses Beispiel kommt aus der Finanzmathematik. Wir nehmen folgende Situation an: Zum Zeit-punkt t0 = 0 (heute) kaufe ich das Recht, zu einem Preis k eine Aktie zum Zeitpunkt t1 > 0 kaufenzu konnen. Die Frage, die sich dort stellt, ist: Was kostet dieses Recht?

Eine mogliche Antwort auf diese Frage wurde 1973 durch Black / Scholes unter Benutzung einesstochastischen Modells zur Entwicklung der Preisentwicklung gegeben:

C = S(0) · Φ(ω)− k · exp (−r) · Φ(ω − σ

√t1)

Dabei ist S(0) der heutige Preis der Aktie, r ein festgesetzter Zinssatz und σ die Voluntaritat(Schwankung) des Marktes. ω ist gegeben als

ω =rt1 + σ2 t1

2 − log(

kS(0)

)

σ√

t1

und Φ ist die Verteilungsfunktion der Standard-Normalverteilung, d.h.

Φ (ω) =

ω∫

−∞

1√2π

exp

(−x2

2

)dx

Fur dieses Modell wurde 1997 der Nobelpreis fur Okonomie verliehen.

• Spracherkennung

Sei A die Mikrofonaufnahme eines gesprochenen Wortes. Fur jedes Wort wi in der deutschen Sprachesei Wi das Ereignis

”wi wurde gesprochen“

Gesucht ist nun das Wort wi, das der Sprecher tatsachlich gesagt hat, d.h. mit unserem Modell dasWort wi, fur welches

P (wi | A)

am großten ist. Praktisch lassen wir dabei i den Zahlenbereich i = 1, ..., 100.000 o.A. durchlaufen,um alle Worter der deutschen Sprache abzudecken.

Eine Spracherkennungssoftware tut nun Folgendes: Sie berechnet fur jedes (!) i mit Hilfe stochasti-scher Aussprachemodelle die Wahrscheinlichkeit P (A | wi). Aus Tabellen entnimmt sie zusatzlichdie relative Haufigkeit P (Wi) mit der das Wort wi in der deutschen Sprache auftritt. Dann nutzenwir die Bayes-Formel

P (wi | A) =P (A | wi) · P (Wi)

100.000∑k=1

P (A | wk) · P (Wk)

Der Nenner dieses Ausdrucks hangt nicht von i ab, daher ist P (wi | A) maximal genau dann, wennP (A | wi) · P (Wi) maximal ist.

1 Grundbegriffe

1.1 Definition:

Unter einem Zufallsexperiment verstehen wir ein Experiment, dessen Ausgang nicht durch die Ver-suchsbedingungen bestimmt ist.

Unser Ziel in diesem Abschnitt soll es sein, Zufallsexperimente zu modellieren.

Page 7: Grundlagen der Stochastik

1 Grundbegriffe 7

1.1 Einfuhrung

1.2 Definition:

Ein diskreter Grundraum Ω = ω1, ω2, ... ist eine nicht leere, abzahlbare (oder endliche) Menge.

Ein Element ω ∈ Ω nennen wir Ergebnis, eine Teilmenge A ⊆ Ω ein Ereignis.

Beispiel 1.3:

Fur einen Wurfelwurf mit einem Wurfel ware Ω = 1, 2, 3, 4, 5, 6. 5 ∈ Ω entspricht dann dem Ergebnis

”5 wurde geworfen“ und 2, 4, 6 dem Ereignis

”eine gerade Zahl wurde gewurfelt“.

1.4 Definition:

Sei Ω ein diskreter Grundraum. Wir nennen

• Ω ⊆ Ω das sichere Ereignis und

• ∅ ⊆ Ω das unmogliche Ereignis.

1.1.1 Mengentheoretische Verknupfungen

Beispiel 1.5:

Wir betrachten einen zweifachen Wurfelwurf. Ein geeigneter Grundraum hier ist

Ω = 1, 2, 3, 4, 5, 6)× 1, 2, 3, 4, 5, 6) = 1, 2, 3, 4, 5, 62 = (i, j) | i, j ∈ N, 1 ≤ i, j ≤ 6

Wir betrachten die Ereignisse

A =”Beim ersten Wurf wird eine 6 gewurfelt“

A =”Beim zweiten Wurf wird eine 3 gewurfelt“

Diese Ereignisse entsprechen dann den Teilmengen

A = (6, i) | i ∈ N, 1 ≤ i ≤ 6 ⊂ Ω

undB = (j, 3) | j ∈ N, 1 ≤ j ≤ 6

Dann ist A∩B = (6, 3) und das entspricht dem Ereignis, dass sowohl A als auch B eintreten, d.h. dassim ersten Wurf eine 6 und im zweiten Wurf eine 3 kommt.

1.6 Definition:

Sei Ω ein diskreter Grundraum und seien Ai, i ∈ N sowie A,B Ereignisse. Dann entsprechen

•”A und B treten ein“ dem Ereignis A ∩B

•”A oder B treten ein“ dem Ereignis A ∪B

•”Jedes der Ai, i ∈ N ist eingetreten“ dem Ereignis

⋂i∈N

Ai

•”Mindestens eins der Ai, i ∈ N ist eingetreten“ dem Ereignis

⋃i∈N

Ai

•”A ist nicht eingetreten“ dem Ereignis Ac := Ω \A.

Man kann sich mittels Venn-Diagrammen gut Verknupfungen von Ereignissen verdeutlichen.

1.7 Definition:

Sei Ω ein diskreter Grundraum und seien Ai ⊆ Ω, i ∈ N paarweise disjunkte Ereignisse, d.h.

i 6= j ⇒ Ai ∩Aj = ∅

Dann schreiben wir auch ⋃

i∈N

Ai =:∑

i∈N

Ai

Page 8: Grundlagen der Stochastik

8 1 Grundbegriffe

1.1.2 Relative Haufigkeiten

Wir wollen nun Ereignissen Wahrscheinlichkeiten zuordnen. Unsere Motivation dafur sind sogenannterelative Haufigkeiten:

1.8 Definition:

Sei Ω0 ein diskreter Grundraum. Die relative Haufigkeit eines Ereignisses A ⊆ Ω0 in einer Folge vonRelationen ω1, ω2, ..., ωn aus gleichwertigen Experimenten ist definiert als

rn (A) :=1

n# j = 1, ..., n | ωj ∈ A

Beispiel 1.9:

Bei 300 Wurfen einer Reißzwecke landet 124 mal die Spitze oben, sonst landet der Kopf oben. Sei”1“

das Ergebnis”Spitze nach oben“ und

”0“ das Ergebnis

”Kopf nach oben“. Dann ist

Ω := 0, 1300 = (ω1, ..., ω300) | ωi ∈ 0, 1 ∀ 1 ≤ i ≤ 300

ein geeigneter Grundraum fur dieses Experiment. Außerdem setzt man Ω0 := 0, 1 als den Grundraumfur einen einfachen Wurf der Reißzwecke fest. Entsprechend ist fur n = 300 also

Ω = Ωn0

und es gilt rn (1) = 1300 · 124.

Wir wollen nun einige offensichtliche Eigenschaften relativer Haufigkeiten in einem Lemma festhalten:

1.10 Lemma:

Es gelten die folgenden Relationen:

• 0 ≤ rn (A) ≤ 1 ∀ A ⊆ Ω0.

• rn (Ω0) = 1.

• rn (A + B) = rn (A) + rn (B) fur A,B ⊆ Ω mit A ∩B = ∅.

Die Idee ist nun, dass die relativen Haufigkeiten rn (A) fur n //∞ gegen die Wahrscheinlichkeit P (A)eines Ereignisses A konvergieren. Das macht in sofern Sinn, dass man beobachten kann, wie sich dierelativen Haufigkeiten fur immer großer werdendes n stabilsieren. Um diese Aussage auch beweisen zukonnen, brauchen wir nun eine geeignete Axiomatik.

1.1.3 Axiomatik nach Kolmogoroff (1939)

1.11 Definition:

Ein diskreter Wahrscheinlichkeitsraum ist ein Paar (Ω, P ), wobei Ω ein diskreter Grundraum undP eine auf den Teilmengen P (Ω) definierte reellwertige Funktion ist, welche die folgenden Axiome erfullt:

(A1) Positivitat

Es gilt P (A) ≥ 0 fur alle A ⊆ Ω.

(A2) Normiertheit

Es gilt P (Ω) = 1.

(A3) σ-Additivitat

Fur jede Folge paarweise disjunkter Teilmengen A1, A2, ... ⊆ Ω gilt

P

( ∞∑

i=1

Ai

)=

∞∑

i=1

P (Ai)

P heißt Wahrscheinlichkeitsmaß oder auch (Wahrscheinlichkeits-)Verteilung auf Ω. P (A) ist dieWahrscheinlichkeit des Ereignisses A ⊂ Ω.

Page 9: Grundlagen der Stochastik

1 Grundbegriffe 9

Folgerung 1.12 (Rechenregeln):

(R1) Es ist P (∅) = 0.

(R2) Es gilt Additivitat, d.h.

P

(n∑

i=1

Ai

)=

n∑

i=1

P (Ai)

fur endlich viele paarweise disjunkte Mengen A1, ..., An.

Beweis:

(R1) Setze Ai = ∅ fur i = 1, 2, 3, .... Dann gilt

R ∋ P (∅) = P

( ∞⋃

i=1

Ai

)(A3)=

∞∑

i=1

P (Ai) =

∞∑

i=1

P (∅)

Aus der Konvergenz der Summe folgt P (∅) = 0.

(R2) Setze in (A3) Ai = ∅ fur i > n und benutze (R1).

In der Stochastik sollten die Ergebnisse, die man aus der Modellierung erhalt, empirisch verifiziert werden.Beim Wurf der Reißzwecke setzt man z.B. Ω = 0, 1, P (1) = 0.4 und P (0) = 0.6 (wobei 1

”Spitze oben“

bedeutet) und bestatigt sich dies so in unserem Versuch mit 300 Wurfen, denn

r300(1) =124

300≈ 0.4 und r300(0) =

176

300≈ 0.6

1.13 Definition:

Sei Ω eine Menge und A ⊆ Ω eine Teilmenge. Wir wollen das Komplement von A bezeichnen mit

Ac := Ω \A

Wir erinnern uns an die de Morgan’schen Regeln:

1.14 Hilfssatz:

Fur zwei Mengen M und N gelten:

M c ∪N c = (M ∩N)c

(1.1)

M c ∩N c = (M ∪N)c

(1.2)

Beweis:

Sei x ∈ M c ∪ N c. Dann gilt sicherlich entweder x ∈ M c oder x ∈ N c (oder beides), d.h. x /∈ M oderx /∈ N (oder beides). Daher ist x /∈M ∩N und daher

x ∈ (M ∩N)c

Ist andersherum x ∈ (M ∩N)c, so ist x /∈M ∩N und daher entweder x /∈ N oder x /∈M (oder beides).

Entsprechend gilt sicherlich x ∈M c oder x ∈ N c was (1.1) zeigt.

Sei x ∈M c ∩N c. Dann ist x ∈M c und x ∈ N c, d.h. x /∈M und x /∈ N . Daher gilt auch x /∈M ∪N undentsprechend

x ∈ (M ∪N)c

Ist andersherum x ∈ (M ∪N)c, so ist x /∈ M ∪ N , also x /∈ M und x /∈ N . Das hat aber x ∈ M c und

x ∈ N c zur Folge und daher giltx ∈M c ∩N c

Das zeigt (1.2).

Bemerkung 1.15:

Naturlich verallgemeinern die de Morgan’schen Regeln sich direkt auf unendliche Vereinigungen undSchnitte. Sind Ai, i ∈ N Mengen, so gilt:

∞⋃

i=1

Aci =

( ∞⋂

i=1

Ai

)c

(1.3)

∞⋂

i=1

Aci =

( ∞⋃

i=1

Ai

)c

(1.4)

Der Beweis dieser Aussage ist analog zu Hilfssatz 1.14.

Page 10: Grundlagen der Stochastik

10 1 Grundbegriffe

1.16 Lemma (weitere Rechenregeln):

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum. A,B und Ai seien Ereignisse fur i ∈ N. Dann gilt:

(R3) P (A) = 1− P (Ac)

(R4) P (A) ≤ 1 fur alle A ⊂ Ω

(R5) P (A \B) = P (A)− P (B) falls B ⊂ A

(R6) P (B) ≤ P (A), wenn B ⊂ A (Monotonie)

(R7) Fur beliebige endliche oder unendliche Folgen A1, A2, A3, ... gilt (Boole’sche Ungleichung)

P

(⋃

i

Ai

)≤∑

i

P (Ai)

(R8) Falls A1 ⊂ A2 ⊂ A3 ⊂ ..., so gilt (Stetigkeit von unten)

P

( ∞⋃

i=1

Ai

)= lim

i→∞P (Ai)

(R9) Falls A1 ⊃ A2 ⊃ A3 ⊃ ..., so gilt (Stetigkeit von oben)

P

( ∞⋂

i=1

Ai

)= lim

i→∞P (Ai)

Beweis:

Zum Beweis werden nur die Kolmogoroff-Axiome sowie die Folgerungen (R1) und (R2) benutzt:

(R3) Es gilt Ω = A ∪ Ac mit A,Ac disjunkt und damit 1(A2)= P (Ω) = P (A ∪ Ac)

(R2)= P (A) + P (Ac).

Durch Umstellen erhalt man P (A) = 1− P (Ac).

(R4) Da P (Ac)(A1)

≥ 0 folgt mit (R3) P (A) = 1− P (Ac) ≤ 1.

(R5) Da A = (A \B) ∪B eine disjunkte Vereinigung ist, gilt laut (R2) P (A) = P (A \B) + P (B).

(R6) Nach Rechenregel (R3) ist P (B) = P (A)−P (A \B). Außerdem ist P (A \B)(A1)

≥ 0 und es folgt dieBehauptung.

(R7) Setze B1 := A1, B2 := A2 \A1, B3 := A3 \ (A1 ∪A2), ... d.h.

Bn := An \ (A1 ∪A2 ∪ ... ∪An−1) fur n ∈ N

Die Bi sind paarweise disjunkt und Bi ⊂ Ai fur alle i ∈ N. Es gilt also∑

i∈N

Bi =⋃

i∈N

Ai

und damit

P

(⋃

i∈N

Ai

)= P

(∑

i∈N

Bi

)(A3)=∑

i∈N

P (Bi)(R4)

≤∑

i∈N

P (Ai)

(R8) Setze die Bi wie eben. Dann gilt:

P

( ∞⋃

i=1

Ai

)= P

( ∞∑

i=1

Bi

)

(A3)=

∞∑

i=1

P (Bi)

= limn→∞

n∑

i=1

P (Bi)

(R2)= lim

n→∞P

(n∑

i=1

Bi

)

= limn→∞

P (An)

Page 11: Grundlagen der Stochastik

1 Grundbegriffe 11

(R9) Gilt A1 ⊃ A2 ⊃ ..., so ist offenbarAc

1 ⊂ Ac2 ⊂ ...

Wir berechnen daher

P

( ∞⋂

i=1

Ai

)(1.4)= P

(( ∞⋃

i=1

Aci

)c)

(R3)= 1− P

( ∞⋃

i=1

Aci

)

(R8)= 1− lim

i→∞P (Ac

i )

(R3)= 1−

(1− lim

i→∞P (A1)

)

= limi→∞

P (Ai)

was die Behauptung zeigt.

1.2 Laplace Experimente

1.17 Definition:

Ein Paar (Ω, P ) heißt Laplace-Raum, wenn

• Ω = ω1, ..., ωn endlich ist und

• fur alle A ⊆ Ω

P (A) =#A

#Ω=

#”gunstige Falle“

#”mogliche Falle“

gilt.

P heißt Laplace-Verteilung oder diskrete Gleichverteilung auf Ω = ω1, ..., ωn.

Bemerkung 1.18:

Sei (Ω, P ) ein Laplace-Raum. Dann ist

P (ω) =1

#Ω=

1

n∀ ω ∈ Ω

Beispiel 1.19:

(1) Gegeben sei ein Wurfel. Wir setzen als Grundraum Ω = 1, 2, ..., 6mit P als der Laplace-Verteilung.Uns interessiert das Ereignis A =“gerade Zahl“ = 2, 4, 6. Dann gilt:

P (A) =#A

#Ω=

#2, 4, 66

=1

2

(2) Beim Wurf der Reißzwecke liegt kein Laplace-Raum vor, da

P (1) = 0.4 6= 0.6 = P (0)

(3) Man muss darauf achten den”richtigen“ Laplace-Raum zu wahlen. Beim (gleichzeitigen) Wurf

zweier fairer Munzen ist die Wahrscheinlichkeit des Ereignisses

B = “einmal Kopf und einmal Zahl wird geworfen“

gesucht.

Modell 1: Wir setzen Ω := KK,KZ,ZK,ZZ als Laplace-Raum. Das liefert

P (B) = P (KZ,ZK) =#ZK,KZ

#Ω=

2

4=

1

2

Page 12: Grundlagen der Stochastik

12 1 Grundbegriffe

Modell 2: Wir setzen Ω := KK,KZ,ZZ ohne Beachtung der Ordnung - das liefert

P (KZ) =1

3

Dieses Ergebnis ist empirisch wiederlegbar.

(4) Summe von Augenzahlen

Es werde zwei Mal gewurfelt. Sei Am =“Die Augensumme ist m“ fur m = 2, 3, ..., 12.

Unser Modell ist Ω = 1, 2, ..., 62 = (i, j) | 1 ≤ i, j ≤ 6 als Laplace-Raum, d.h.

P (Am) =#Am

Offenbar ist #Ω = 36. Nun ergibt sich

#A2 = #(1, 1) = 1 P (A2) = 136

#A3 = #(1, 2), (2, 1) = 2 P (A3) = 236

#A4 = #(1, 3), (2, 2), (3, 1) = 3 P (A4) = 336

#A5 = #(1, 4), (2, 3), (3, 2), (4, 1) = 4 P (A5) = 436

#A6 = #(1, 5), (2, 4), (3, 3), (4, 2), (5, 1) = 5 P (A6) = 536

#A7 = #(1, 6), (2, 5), (3, 4), (4, 3), (5, 2), (6, 1) = 6 P (A7) = 636

#A8 = #(2, 6), (3, 5), (4, 4), (5, 3), (6, 2) = 5 P (A8) = 536

......

...

#A12 = #(6, 6) = 1 P (A12) = 136

(5) Teilungsproblem des Luca Paccioli (1494)

Zwei Spieler A und B wiederholen ein faires Spiel (z.B. Munzwurf). Wer zuerst sechs Spiele gewonnenhat, bekommt den gesamten Einsatz. Das Spiel muss beim Stand 5:3 abgebrochen werden. Wie istder Einsatz gerecht aufzuteilen?

Um diese Frage zu beantworten, betrachten wir Verlaufe, die zu einer Entscheidung fuhren. Esergeben sich die folgenden Modelle:

Modell 1: A, BA, BBA, BBB. Bei dieser Betrachtung gewinnt A in 3 von 4 Fallen. Damit gehen 34 des

Einsatzes an Spieler A und 14 an Spieler B.

Modell 2: AAA, AAB, ABA, ABB, BAA, BAB, BBA, BBB. Nur bei BBB gewinnt B. Nach der Definitiondes Laplace-Raums gehen 7

8 des Einsatzes an Spieler A und 18 an Spieler B.

(6) Wir werfen 10 mal eine Munze. Gesucht ist die Wahrscheinlichkeit des Ereignisses

C = “mindestens 1 mal tritt Kopf auf“

Unser Modell ist Ω := K,Z10 = (a1, ..., a10) | ai ∈ K,Z als Laplace-Raum.

Es folgt #Ω = 1024 und wir berechnen

P (C) =#C

mit Hilfe des Komplements von C, denn dieses ist einfacher zu bestimmen!

P (C) = 1− P (Cc) = 1− #Cc

#Ω= 1− #

”Es tritt kein mal Kopf auf“

#Ω= 1− 1

1024=

1023

1024

(7) Maxima von Augenzahlen

Es wird k mal gewurfelt. Sei m ∈ 1, 2, ..., 6 und das Ereignis Bm =“hochste Augenzahl ist m“.

Wir verwenden als Modell den Laplace-Raum

Ω := 1, ..., 6k = (a1, ..., ak) | ai ∈ 1, ..., 6Fur 1 ≤ m ≤ 6 setze Am als das Ereignis Am =“alle Augenzahlen sind ≤ m“ fest und erhalte so

P (Am) =#Am

#Ω=

mk

6k.

Dann gilt Bm = Am \Am−1 und Am−1 ⊂ Am. Die Rechenregel (R5) liefert nun

P (Bm) = P (Am)− P (Am−1) =mk

6k− (m− 1)k

6k=

mk − (m− 1)k

6k.

Page 13: Grundlagen der Stochastik

1 Grundbegriffe 13

1.3 Allgemeine diskrete Wahrscheinlichkeitsraume und -funktionen

1.20 Lemma:

Ist (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, so ist P festgelegt durch die Werte

P (ω) , ω ∈ Ω

Beweis:

Sei A ⊆ Ω beliebig. Dann gilt

A =⋃

ω∈A

ω =∑

ω∈A

ω

und diese Vereinigung ist abzahlbar, da der Grundraum Ω selbst schon abzahlbar ist. Es folgt aus (A3):

P (A) = P

(∑

ω∈A

ω)

=∑

ω∈Ω

P (ω) .

Daher ist P durch die Werte in der Voraussetzung bereits festgelegt.

Bemerkung 1.21:

Wegen (A1) und (R4) ist bereits klar, dass

0 ≤ P (ω) ≤ 1

fur alle ω ∈ Ω gilt. Genauso muss nach (A2) und (A3) auch

ω∈Ω

P (ω) (A3)= P

(∑

ω∈Ω

ω)

= P (Ω)(A2)= 1

gelten.

Das veranlasst uns zu folgender

1.22 Definition:

Sei Ω ein diskreter Grundraum. Eine Abbildung p : Ω // [0, 1] mit der Eigenschaft

ω∈Ω

p (ω) = 1

heißt Wahrscheinlichkeitsfunktion auf Ω.

Bemerkung 1.23:

Ist P eine Wahrscheinlichkeitsverteilung auf Ω, so ist

p (ω) := P (ω)

wie oben gesehen eine Wahrscheinlichkeitsfunktion.

Beispiel 1.24:

Wir betrachten den zu einmaligem Wurfeln gehorigen Laplace-Raum. Dann ist die entsprechende Wahr-scheinlichkeitsfunktion p gegeben durch

p (1) = p (2) = ... = p (6) =1

6.

Beispiel 1.25:

Wir betrachten wieder unser Beispiel der Reißzwecke. Die hier entstehende Wahrscheinlichkeitsfunktionp ist gegeben durch

p (1) = 0.4, p (0) = 0.6.

1.26 Satz:

Sei Ω ein diskreter Grundraum und p eine Wahrscheinlichkeitsfunktion auf Ω. Dann definieren wir durch

P (A) :=∑

ω∈A

p (ω) , A ⊆ Ω

eine Wahrscheinlichkeitsverteilung P auf Ω.

Page 14: Grundlagen der Stochastik

14 1 Grundbegriffe

Beweis:

Wir mussen lediglich die Axiome (A1), (A2) und (A3) prufen.

(A1) Sei A ⊆ Ω beliebig. Da p ≥ 0 gilt, folgt sofort

P (A) =∑

ω∈A

p (ω)︸ ︷︷ ︸≥0

≥ 0.

(A2) Offenbar ist

P (Ω) =∑

ω∈Ω

p (ω) = 1.

(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann ist

P

( ∞∑

i=1

Ai

)=

ω∈∞∑

i=1

Ai

p (ω) .

Per Definition ist p ≥ 0, d.h. diese Summe konvergiert absolut. Umordnung liefert wegen derDisjunktheit der Ai:

P

( ∞∑

i=1

Ai

)=

∞∑

i=1

ω∈Ai

p (ω) =

∞∑

i=1

P (Ai) .

Das zeigt die Behauptung.

Bemerkung 1.27:

Fur diskrete Grundraume Ω haben wir also folgendes:

Die Menge M aller Wahrscheinlichkeitsverteilungen P auf Ω und die Menge aller Wahrscheinlichkeits-funktionen p auf Ω lassen sich bijektiv durch

P 7→ p, p (ω) := P (ω) , ω ∈ Ω

ineinander abbilden.

Die Frage, die man sich also stellt ist, warum man nicht gleich nur mit Wahrscheinlichkeitsfunktionenarbeitet.

Eine Antwort darauf ist leicht zu geben, denn im Fall eines nicht-diskreten Grundraumes wie Ω = [0, 1]oder Ω = R macht eine Frage nach P (a), a ∈ Ω - also nach der Wahrscheinlichkeit eines einzelnenErgebnisses - keinen Sinn! Diese Wahrscheinlichkeit ware stets 0.

Man stelle sich Beispielsweise einen Zufallsgenerator vor, der”gleichverteilt“ Zahlen aus [0, 1] zieht. Die

Wahrscheinlichkeit, dass eine 0 gezogen wird, musste dann 0 sein, aber die Summe uber alle Zahlen derWahrscheinlichkeiten ware weiterhin 1. Das macht schlicht und ergreifend keinen Sinn!

Die Axiome (A1), (A2) und (A3) hingegen lassen sich auf allgemeine (nicht abzahlbare) Grundraume Ωverallgemeinern und liefern so eine einheitliche Theorie fur alle Wahrscheinlichkeitsraume.

Beispiel 1.28:

Wir konnen einen gefalschten Wurfel modellieren durch

p (1) := 0.1, p (2) = ... = p (5) = 0.175, p (6) = 0.2.

Das definiert eine Wahrscheinlichkeitsfunktion auf Ω = 1, 2, ..., 6. Die zugehorige Wahrscheinlichkeits-verteilung nach Satz 1.26 liefert dann die entsprechende gesuchte Wahrscheinlichkeitsverteilung.

Beispiel 1.29:

Auf Ω = 2, 3, ..., 12 definiere die Wahrscheinlichkeitsfunktion p durch den Vektor

(1

36,

2

36, ...,

5

36,

6

36,

5

36, ...,

1

36

).

Damit ist naturlich gemeint, dass p (2) = 136 , p (3) = 2

36 etc. ist. Diese Wahrscheinlichkeitsfunktion defi-niert als Wahrscheinlichkeitsverteilugn genau die Verteilung der Augensumme bei zweimaligem Wurfeln.

Page 15: Grundlagen der Stochastik

1 Grundbegriffe 15

1.4 Siebformeln

In diesem Abschnitt wollen wir Wahrscheinlichkeiten von Vereinigungen berechnen oder abschatzen, wennwir die Wahrscheinlichkeiten von Durchschnitten kennen. Sei stets (Ω, P ) ein Wahrscheinlichkeitsraum.

1.30 Lemma:

Sind A1, A2 ⊆ Ω Ereignisse, so gilt

P (A1 ∪A2) = P (A1) + P (A2)− P (A1 ∩A2) .

Beweis:

Setze B1 := A1 und B2 := A2 \ A1 = A2 \ (A1 ∩A2). Dann ist A1 ∪ A2 = B1 ∪ B2 und B1 ∩ B2 = ∅.Daher gilt:

P (A1 ∪A2) = P (B1 ∪B2)

(R2)= P (B1) + P (B2)

= P (A1) + P (A1 \ (A1 ∩A2))

(R5)= P (A1) + P (A2)− P (A1 ∩A2) .

Das zeigt die Behauptung.

Beispiel 1.31:

Wir definieren das Ereignis A als

A:=”Eine in 1,2,...,100 rein zufallig gewahlte Zahl ist durch 2 oder durch 5 teilbar“

Um P (A) zu berechnen definieren wir

A2:=”Eine in 1,2,...,100 rein zufallig gewahlte Zahl ist durch 2 teilbar“

A5:=”Eine in 1,2,...,100 rein zufallig gewahlte Zahl ist durch 5 teilbar“

Dann gilt A = A2 ∪A5, offenbar ist P (A2) = 50100 = 1

2 , P (A5) = 20100 = 1

5 und

P (A2 ∩A5) = P (”Eine in 1,2,...,100 rein zufallig gewahlte Zahl ist durch 2 und durch 5 teilbar“)

= P (”Eine in 1,2,...,100 rein zufallig gewahlte Zahl ist durch 10 teilbar“) =

10

100=

1

10.

Nach Lemma 1.30 ist also

P (A) = P (A2) + P (A5)− P (A2 ∩A5) =1

2+

1

5− 1

10=

3

5.

Sind A1, A2, A3 ⊆ Ω nun drei Ereignisse, so ergibt sich als Siebregel

P (A1 ∪A2 ∪A3)

= P (A1) + P (A2) + P (A3)− P (A1 ∩A2)− P (A1 ∩A3)− P (A2 ∩A3) + P (A1 ∩A2 ∩A3) ,

wie man sich mit einem Venn-Diagramm schnell verdeutlichen kann. Aber diese Aussage folgt auch ausden folgenden allgemeinen Siebformeln.

1.4.1 Allgemeine Siebformeln

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1, ..., An ⊂ Ω Ereignisse, n ≥ 2. Setze

Sk :=∑

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik)

fur 1 ≤ k ≤ n.

1.32 Satz (Siebformel von Poincare-Sylvester):

Unter obigen Voraussetzungen gilt

P

(n⋃

i=1

Ai

)=

n∑

k=1

(−1)k−1

Sk

Page 16: Grundlagen der Stochastik

16 1 Grundbegriffe

Beweis:

Wir zeigen die Aussage durch Induktion uber n.

• Induktionsanfang (I.A.):

Lemma 1.30 liefert

P (A1 ∪A2) = P (A1)︸ ︷︷ ︸=S1

+P (A2)− P (A1 ∩A2)︸ ︷︷ ︸=S2

=

n∑

k=1

(−1)k−1

Sk

• Induktionsvoraussetzung (I.V.):

Gelte

P

(n⋃

i=1

Ai

)=

n∑

k=1

(−1)k−1

Sk

fur alle Ereignisse A1, ..., Am ⊆ Ω.

• Induktionsschritt (n // n + 1):

Wir setzenB := A1 ∪ ... ∪An

Dann gilt:

P

(n+1⋃

i=1

Ai

)= P (B ∪An+1)

I.A.= P (B) + P (An+1)− P (B ∩An+1)

= P

(n⋃

i=1

Ai

)+ P (An+1)− P

((n⋃

i=1

Ai

)∩An+1

)

I.V.=

n∑

k=1

(−1)k−1

Sk + P (An+1)− P

(n⋃

i=1

(Ai ∩An+1)

)

I.V.=

n∑

k=1

(−1)k−1

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik) + P (An+1)

−n∑

k=1

(−1)k−1

1≤i1<i2<...<ik≤n

P ((Ai1 ∩An+1) ∩ ... ∩ (Aik∩An+1))

=

n∑

k=1

(−1)k−1

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik) + P (An+1)

−n∑

k=1

(−1)k−1

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik∩An+1)

=∑

1≤i≤n

P (Ai) +n∑

k=2

(−1)k−1

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik) + P (An+1)

−n∑

k=1

(−1)k−1

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik∩An+1)

=∑

1≤i≤n+1

P (Ai) +n−1∑

k=1

(−1)k

1≤i1<i2<...<ik+1≤n

P(Ai1 ∩ ... ∩Aik+1

)

−n∑

k=1

(−1)k−1

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik∩An+1)

Page 17: Grundlagen der Stochastik

1 Grundbegriffe 17

=

n+1∑

i=1

P (Ai)−n−1∑

k=1

(−1)k−1

1≤i1<i2<...<ik+1≤n

P(Ai1 ∩ ... ∩Aik+1

)

+∑

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik∩An+1)

− (−1)n−1

P (A1 ∩ ... ∩An)

=

n+1∑

i=1

P (Ai)−n−1∑

k=1

(−1)k−1

1≤i1<i2<...<ik+1≤n+1

P(Ai1 ∩ ... ∩Aik+1

)

− (−1)n−1

P (A1 ∩ ... ∩An)

=

n+1∑

i=1

P (Ai) +

n∑

k=2

(−1)k−1

1≤i1<i2<...<ik≤n+1

P (Ai1 ∩ ... ∩Aik)

+(−1)n

P (A1 ∩ ... ∩An)

=

n+1∑

k=1

(−1)k−1

Sk

Es folgt die Behauptung.

1.4.2 Die Bonferroni-Ungleichungen

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1, ..., An ⊂ Ω Ereignisse.

Wir beweisen hier zunachst die folgende Variante der Siebformel:

1.33 Lemma:

Es gilt

P

(n⋃

i=1

Ai

)=

n∑

i=1

P (Ai)−n∑

i=1

P

i−1⋃

j=1

(Ai ∩Aj)

(1.5)

Beweis:

Wir setzen B1 := A1 und fur 2 ≤ k ≤ n:

Bk := Ak \(

k−1⋃

i=1

Ai

)= Ak \

(k−1⋃

i=1

(Ai ∩Ak)

)

Dann giltn⋃

i=1

Ai =n⋃

i=1

Bi

und die Mengen Bi sind disjunkt. Außerdem gilt wegen

k−1⋃

i=1

(Ai ∩Ak) ⊂ Ak

auch

P (Bk) = P (Ak)− P

(k−1⋃

i=1

(Ai ∩Ak)

)

Page 18: Grundlagen der Stochastik

18 1 Grundbegriffe

Damit folgt dann:

P

(n⋃

i=1

Ai

)= P

(n⋃

i=1

Bi

)

=n∑

i=1

P (Bi)

=

n∑

i=1

P (Ai)− P

i−1⋃

j=1

(Aj ∩Ai)

=

n∑

i=1

P (Ai)−n∑

i=1

P

i−1⋃

j=1

(Aj ∩Ai)

was die Behauptung zeigt.

Mit den Bezeichnungen

Sk :=∑

1≤i1<i2<...<ik≤n

P (Ai1 ∩ ... ∩Aik)

fur 1 ≤ k ≤ n kann man jetzt folgern:

Folgerung 1.34:

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1, ..., An ⊂ Ω Ereignisse. Dann gilt fur jedes m ∈1, ..., n die Formel

P

(n⋃

i=1

Ai

)=

m∑

i=1

(−1)i−1

Si + (−1)m

1≤i1<...<im≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

(1.6)

Beweis:

Der Beweis erfolgt durch Induktion nach m ≤ n.

• Induktionsanfang (I.A.):

Das ist genau die bereits gezeigte Gleichung (1.5).

• Induktionsvoraussetzung (I.V.):

Gelte (1.6).

• Induktionsschritt (m < n, m // m + 1):

Wir wollen Gleichung (1.5) auf den Term

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

aus der Induktionsvoraussetzung anwenden. Setze dazu fur gegebene 1 ≤ j < i1 < ... < im ≤ n

Bj := Ai1 ∩ ... ∩Aim∩Aj

Dann gilt:

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

= P

i1−1⋃

j=1

Bj

(1.5)=

i1−1∑

j=1

P (Bj)−i1−1∑

j=1

P

(j−1⋃

k=1

(Bj ∩Bk)

)

Page 19: Grundlagen der Stochastik

1 Grundbegriffe 19

=

i1−1∑

j=1

P (Ai1 ∩ ... ∩Aim∩Aj)

−i1−1∑

j=1

P

(j−1⋃

k=1

(Ai1 ∩ ... ∩Aim∩Aj ∩Ai1 ∩ ... ∩Aim

∩Ak)

)

=

i1−1∑

j=1

P (Ai1 ∩ ... ∩Aim∩Aj)

−i1−1∑

j=1

P

(j−1⋃

k=1

(Ai1 ∩ ... ∩Aim∩Aj ∩Ak)

)

Setzen wir das nun in die Induktionsvoraussetzung ein, so erhalten wir

P

(n⋃

i=1

Ai

)

I.V.=

m∑

i=1

(−1)i−1

Si + (−1)m

1≤i1<...<im≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

=

m∑

i=1

(−1)i−1

Si + (−1)m

1≤i1<...<im≤n

i1−1∑

j=1

P (Ai1 ∩ ... ∩Aim∩Aj)

−i1−1∑

j=1

P

(j−1⋃

k=1

(Ai1 ∩ ... ∩Aim∩Aj ∩Ak)

)

=

m∑

i=1

(−1)i−1

Si + (−1)m

1≤i1<...<im≤n

i1−1∑

j=1

P (Ai1 ∩ ... ∩Aim∩Aj)

+ (−1)m+1

1≤i1<...<im≤n

i1−1∑

j=1

P

(j−1⋃

k=1

(Ai1 ∩ ... ∩Aim∩Aj ∩Ak)

)

=

m∑

i=1

(−1)i−1

Si + (−1)m

1≤i1<...<im+1≤n

P(Ai1 ∩ ... ∩Aim+1

)

︸ ︷︷ ︸=Sm+1

+(−1)m+1

1≤i1<...<im+1≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim+1

∩Aj

)

=m+1∑

i=1

(−1)i−1

Si + +(−1)m+1

1≤i1<...<im+1≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim+1

∩Aj

)

was die Behauptung zeigt.

Als einfache Folgerung erhalten wir nun

1.35 Satz (Bonferroni-Ungleichungen):

Unter den Voraussetzungen wie oben gelten:

(1) Fur ungerades m ∈ 1, ..., n gilt

P

(n⋃

i=1

Ai

)≤

m∑

i=1

(−1)i−1

Si

(2) Fur gerades m ∈ 1, ..., n gilt

P

(n⋃

i=1

Ai

)≥

m∑

i=1

(−1)i−1

Si

Page 20: Grundlagen der Stochastik

20 1 Grundbegriffe

Beweis:

Nach Definition eines Wahrscheinlichkeitsraums ist fur jede Auswahl 1 ≤ i1 < ... < im ≤ n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

≥ 0

Ist nun m ∈ 1, ..., n ungerade, so folgt

P

(n⋃

i=1

Ai

)(1.6)=

m∑

i=1

(−1)i−1

Si + (−1)m

1≤i1<...<im≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

=

m∑

i=1

(−1)i−1

Si −∑

1≤i1<...<im≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

≤m∑

i=1

(−1)i−1

Si

Ganz analog gilt fur jedes gerade m ∈ 1, ..., n, dass

P

(n⋃

i=1

Ai

)(1.6)=

m∑

i=1

(−1)i−1

Si + (−1)m

1≤i1<...<im≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

=

m∑

i=1

(−1)i−1

Si +∑

1≤i1<...<im≤n

P

i1−1⋃

j=1

(Ai1 ∩ ... ∩Aim∩Aj)

≥m∑

i=1

(−1)i−1

Si

womit die Behauptung gezeigt ist.

Bemerkung 1.36:

Fur m = 1 liefert das genau die in (R7) unabhangig schon gezeigte Boole’sche Ungleichung

P

(n⋃

i=1

Ai

)≤

n∑

i=1

P (Ai) (1.7)

1.4.3 Anwendung

Wir wollen hier eine Anwendung aus der Zuverlassigkeitstheorie diskutieren:

Korollar 1.37:

Mogen die Voraussetzungen von oben gelten. Sind A1, ..., An Ereignisse mit P (Ai) ≥ 1 − εi fur Zahlen0 ≤ εi ≤ 1, i = 1, ..., n, so gilt

P

(n⋂

i=1

Ai

)≥ 1−

n∑

i=1

εi

Page 21: Grundlagen der Stochastik

1 Grundbegriffe 21

Beweis:

Es gilt

P

(n⋂

i=1

Ai

)(R3)= 1− P

((n⋂

i=1

Ai

)c)

(1.3)= 1− P

(n⋃

i=1

Aci

)

(1.7)

≥ 1−n∑

i=1

P (Aci )

(R3)= 1−

n∑

i=1

(1− P (Ai))

≥ 1−n∑

i=1

(1− 1− εi) = 1−n∑

i=1

εi

Das zeigt die Behauptung.

In der Anwendung sieht das so aus: Man betrachtet etwa ein System mit n Komponenten, welches nurfunktioniert, wenn alle Komponenten funktionieren. Dann ist

Ai =”Die i-te Komponente ist intakt“

und

n⋂i=1

Ai =”Das System ist intakt“

Man erhalt so eine Abschatzung fur die Sicherheit des Systems, wenn man Abschatzungen fur die Sicher-heit der Komponenten hat.

Beispiel 1.38:

Ist etwa P (Ai) ≥ 0.99 fur alle i = 1, ..., n, also εi = 0.01 fur alle i = 1, ..., n, so ist das System immerhinnoch mit Wahrscheinlichkeit

P

(n⋂

i=1

Ai

)≥ 1− n

100

intakt.

Page 22: Grundlagen der Stochastik

22 2 Kombinatorik

2 Kombinatorik

Hier wollen wir das sogenannte Urnen- und Fachermodell einfuhren. Dazu betrachten wir vier verschie-dene Grundraume ΩI,ΩII,ΩIII,ΩIV die aus Urnen- bzw. Fachermodellen entstehen und bestimmen ihreKardinalitaten. In der Praxis werden ΩI,ΩII und ΩIII oft als Grundraume fur Laplace-Raume benutzt,ΩIV ist spezieller.

Beispiel 2.1:

Wir wollen Wurfeln als Urnenmodell realisieren. Dabei entspricht dann der erste Wurf dem Ziehen einerKugel aus einer Urne mit sechs Kugeln, welche mit den Zahlen 1,2,3,4,5,6 beschriftet sind, und demZurucklegen der Kugel nach dem Ziehen. Der zweite Wurf ist dann wieder das Ziehen einer Kugel ausder selben Urne mit zurucklegen etc..

Das realisiert genau Wurfeln als Laplace-Raum wie bereits bekannt.

Urnenmodell I:

k-faches Ziehen mit Zurucklegen unter Berucksichtigung der Reihenfolge aus einer Urne mit n Kugeln,welche die Nummern 1 bis n tragen.

Der Grundraum ist hierΩI = (a1, ..., ak) | 1 ≤ ai ≤ n, i = 1, ..., n

wobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Es ist

#ΩI = nk

Das zugehorige Fachermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriertwerden und verteilt diese Kugeln in n Facher. Dabei sind mehrere Kugeln pro Fach erlaubt. Notiert wirdals ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift

”i“ gelandet ist. Der Grundraum

der Ergebnisse ist dann genau wie oben schon eingefuhrt

ΩI = (a1, ..., ak) | 1 ≤ ai ≤ n, i = 1, ..., nBeispiel 2.2:

Das Fachermodell findet etwa dann Verwendung, wenn sich k Kunden an n verfugbaren Schaltern an-stellen oder in der Informatik k Jobs auf n Prozessoren verteilt werden.

Urnenmodell II:

k-faches Ziehen ohne Zurucklegen unter Berucksichtigung der Reihenfolge aus einer Urne mit n Kugeln,welche die Nummern 1 bis n tragen. Das ist offenbar nur fur k ≤ n moglich.

Der Grundraum ist hier

ΩII = (a1, ..., ak) | ai 6= aj fur i 6= j und ai ∈ 1, ..., n fur i = 1, ..., kwobei ai der Nummer der im i−ten Experiment gezogenen Kugel entspricht. Die Kardinalitat von ΩII

berechnet sich wie folgt:

Beim Ziehen der ersten Kugel gibt es n Moglichkeiten, beim Ziehen der zweiten Kugel n−1 Moglichkeitenusw, daher ist

#ΩII = n · (n− 1) · ... · (n− k + 1) =n!

(n− k)!=: (n)k

Wir sprechen diese Zahl als”n unten k“.

Das zugehorige Fachermodell sieht so aus: Man betrachtet k Kugeln, welche mit 1, ..., k nummeriertwerden und verteilt diese Kugeln in n Facher. Diesmal ist aber jeweils maximal eine Kugel pro Facherlaubt. Notiert wird als ai die Nummer des Fachs, in welchem die Kugel mit der Aufschrift

”i“ gelandet

ist.

Page 23: Grundlagen der Stochastik

2 Kombinatorik 23

Bemerkung 2.3 (Spezialfall):

Wir betrachten nun den Fall n = k, d.h. alle Kugeln werden gezogen. Dann erhalten wir hier als ΩII

genau die Menge aller Permutationen der Zahlen 1, ..., n, da in den Tupeln (a1, ..., an) jede Zahl aus1, ..., n genau einmal auftaucht. Man sieht mit obiger Formel sofort

#ΩII = (n)n = n!

Beispiel 2.4:

(1) Wir wollen die Wahrscheinlichkeit fur Fixpunkte von Permutationen berechnen.

Dazu sei k = n und ΩII mit der Laplace-Verteilung versehen. Entsprechend gilt dann fur jedePermutation (a1, ..., an) ∈ ΩII der Menge 1, ..., n, dass

P ((a1, ..., an)) =1

#ΩII=

1

n!

Sei nun Ai := (a1, ..., an) ∈ ΩII | ai = i das Ereignis”Die Permutation hat an der Stelle i einen

Fixpunkt“. Dann gilt

P (Ai) =#Ai

#ΩII=

(n− 1)!

n!=

1

n∀ i = 1, ..., n

da Ai genau die Menge aller Permutationen von 1, ..., n ist, welche i festhalt, also nur n−1-Zahlenaus 1, ..., n \ i permutiert. Das entspricht genau einer Permutation der Zahlen

1, ..., n \ i ∼= 1, ..., n− 1

und deren Anzahl ist wie oben gesehen genau (n− 1)!.

(2) Eine Person probiert ihre n Schlussel zufallig an einem Schloss durch. Nur einer der Schlussel passt.Sei Bi das Ereignis

”der i-te Schlussel passt“. Wir bezeichnen die Schlussel mit 1, ..., n und nehmen

durch Umnummerieren stets an, dass 1 der passende Schlussel ist. Als Modell verwenden wir wiederΩII als Laplace-Raum. Dann ist

Bi (a1, ..., an) ∈ ΩII | ai = 1

und entsprechend

P (Bi) =#Bi

#ΩII=

1

n

wie oben.

Urnenmodell III:

k-faches Ziehen ohne Zurucklegen ohne Berucksichtigung der Reihenfolge aus einer Urne mit n Kugeln,welche die Nummern 1 bis n tragen. Das ist offenbar wieder nur fur k ≤ n moglich.

Der Grundraum ist hierΩIII = T ⊂ 1, ..., n | #T = k

Einer Teilmenge T ∈ ΩIII entspricht dann das Experiment, dass genau die Kugeln mit den Zahleni ∈ T gezogen wurden (Reihenfolge egal!). Die Kardinalitat von ΩII berechnet sich mit dem Prinzip desSchafers:1

Will man #ΩIII durch abzahlen berechnen, so erscheint dies sehr schwer. Man definiert also

f : ΩII// ΩIII durch f ((a1, ..., ak)) := a1, ..., ak

1Prinzip des Schafers:

Will man wissen, wie viele Schafe auf der Wiese stehen, so muss man nicht zwingend die Schafe selbst zahlen. Man kann

auch die Anzahl der Beine auf der Wiese zahlen und durch die Anzahl der Beine pro Schaf teilen, das liefert das selbe

Ergebnis:# Beine

4= # Schafe

Dieses Prinzip klingt zunachst sehr abstrus, aber oben wird die enorme Machtigkeit des Prinzips klar.

Page 24: Grundlagen der Stochastik

24 2 Kombinatorik

Diese Abbildung ist wohldefiniert, da wir fur jedes (a1, ..., ak) ∈ ΩII gefordert hatten, dass die ai paarweiseverschieden sind. Man erhalt als Bild unter f also tatsachlich eine k-elementige Teilmenge von 1, ..., n.Ganz offenbar ist f surjektiv und jede Menge a1, ..., ak ∈ ΩIII (∼Schaf) hat genau k! Urbilder (∼Beine)unter f , da es wie oben gesehen k! Permutationen einer k-elementigen Menge gibt. Daher gilt:

#ΩIII = #ΩII ·1

k!=

(n)k

k!=

n!

k! (n− k)!=:

(n

k

)

Die Zahl(nk

)wird auch

”Binomialkoeffizient“ oder

”n uber k“ genannt.

Bemerkung 2.5 (Eigenschaften der Binomialkoeffizenten):

(1) Es gilt (n

k

)=

(n

n− k

)

(2) Der Binomische Lehrsatz besagt

(x + y)n

=

n∑

k=0

(n

k

)xkyn−k

(3) Die Anzahl der moglichen Auswahlen

1 ≤ i1 < ... < ik ≤ n (2.1)

- wie sie etwa in Abschnitt 1.4.1 vorkommen - entspricht genau der Anzahl der k-elementigenTeilmengen von 1, ..., n (einfach die Ordnung vergessen). Daher gibt es genau

(n

k

)

Moglichkeiten, Zahlen i1, ..., ik wie in (2.1) auszuwahlen.

Beispiel 2.6:

Ein klassisches Beispiel fur das Urnenmodell III ist das gewohnliche Lotto. Hier werden 6 Kugeln aus49 moglichen Kugel ohne Zurucklegen und ohne Berucksichtigung der Reihenfolge gezogen, d.h. es istn = 49 und k = 6. Man sieht an diesem Beispiel sehr deutlich, dass auch wirklich nur die Teilmenge Tder gezogenen Kugeln entscheidend ist.

Um die Wahrscheinlichkeit fur 6 Richtige zu berechnen, betrachten wir ΩIII als Laplace-Raum und erhal-ten so fur einen beliebigen festen Tip T = a1, ..., a6 ⊂ 1, ..., 49 die Wahrscheinlichkeit

P (T ) =#T

#ΩIII=

1(496

) =1

13.983.816

6 Richtige im Lotto erscheinen also als sehr unwahrscheinlich!

Jetzt wollen wir noch das zugehorige Fachermodell entwickeln.

Man betrachtet dazu die verschiedenen Moglichkeiten k nicht zu unterscheidende Kugeln auf n Facherzu verteilen. Dabei ist jeweils wieder maximal eine Kugel pro Fach erlaubt. Notiert wird als Ergebnis nurdie Teilmenge der besetzten Facher.

Urnenmodell IV:

k-faches Ziehen mit Zurucklegen ohne Berucksichtigung der Reihenfolge aus einer Urne mit n Kugeln,welche die Nummern 1 bis n tragen.

Als Ergebnis notieren wir nur das Tupel (k1, ..., kn), wobei die Zahl ki angibt, wie oft die Kugel mit derNummer i gezogen wurde. Zwangslaufig gilt dann

n∑

i=1

ki = k

Page 25: Grundlagen der Stochastik

2 Kombinatorik 25

Der Grundraum ist also

ΩIV :=

(k1, ..., kn)

∣∣∣ 0 ≤ ki ≤ k ∀ i = 1, ...n undn∑

i=1

ki = k

Beispiel 2.7:

Wir haben n = 6 Kugeln und ziehen k = 10 mal. Dann ist das Ergebnis ein Vektor

(3, 0, 2, 4, 0, 1)

welcher symbolisiert, dass 3 mal Kugel Nummer 1 gezogen wurde, 0 mal Kugel Nummer 2, 2 mal KugelNummer 3 usw..

Bevor wir die Kardinalitat von ΩIV bestimmen wollen wir kurz das zugehorige Fachermodell vorstellen.Man betrachte k Kugeln, die auf n Facher verteilt werden - mit erlaubter Mehrfachbesetzung der Facher- und zahle als Ergebnis nur, wie viele Kugeln im i-ten Fach sind fur i = 1, ..., n.

Beispiel 2.8:

In der Praxis findet dieses Modell etwa Verwendung, wenn k Kunden sich an n Schaltern anstellen undman nachher die Auslastung der einzelnen Schalter betrachten will.

Jetzt wollen wir #ΩIV bestimmen. Auch dazu konstruieren wir wieder eine geeignete Abbildung in einenRaum, dessen Kardinalitat wir bereits kennen.

Wir betrachten die Menge aller Folgen der Zahlen 0 und 1 der Lange n + k − 1. Wir betrachten jetzt 0als eine Kugel und 1 als die Markierung fur

”nachstes Fach“. Unter dieser Identifikation wird etwa das

Ergebnis (3, 0, 2, 4, 0, 1) aus Beispiel 2.7 zur Folge

000110010000110

Wollen wir eine Bijektion zwischen ΩIV und einer Teilmenge von (ai, ..., an) | ai ∈ 0, 1 fur i = 1, ..., nerhalten, so muss jede der Folgen genau n− 1 1en und k 0en enthalten. Unter dieser Bedingung erhaltenwir offenbar eine Bijektion!

Eine Folge der Lange n+k−1 mit genau n−1 1en und k 0en ist aber bereits eindeutig durch die Auswahlder Positionen der k 0en (also Kugeln) eindeutig bestimmt - die anderen Positionen mussen 1en sein.Daher ist

#ΩIV = # T ⊂ 1, ..., n + k − 1 | #T = k =

(n + k − 1

k

)

wie oben berechnet.

In Beispiel 2.7 ergibt sich also

#ΩIV =

(10 + 6− 1

10

)=

15!

10!(15− 10)!= 3003

Wenn wir die Laplace-Verteilung annehmen, dann hat entsprechend jede Konfiguration die Wahrschein-lichkeit

P (k1, k2, ..., kn) =1

#ΩIV≈ 0, 00033

2.9 Definition:

Wir definieren den Multinomialkoeffizient als

(k

k1, k2, ..., kn

):=

k!

k1!·k2!·...·kn! falls ki ≥ 0 ∀ 1 ≤ i ≤ n,n∑

i=1

ki = k

0 sonst

Bemerkung 2.10:

Fur den Fall k = 2 kennen wir dies bereits als den Binomialkoeffizienten. Sei k = k1 + k2, dann gilt:(

k

k1, k2

)=

k!

k1! · k2!=

k!

k1!(k − k1)!

2.11 Lemma:

Die Anzahl der Moglichkeiten eine Menge A der Kardinalitat k in n Teilmengen A1, ..., An mit #Ai = ki

undn∑

i=1

ki = k zu zerlegen ist gegeben durch

(k

k1, k2, ..., kn

)=

k!

k1! · k2! · ... · kn!

Page 26: Grundlagen der Stochastik

26 2 Kombinatorik

Beweis:

Fur A1 gibt es(

kk1

)Moglichkeiten, Elemente auszuwahlen. Dann ist #(A \ A1) = k − k1 und es gibt fur

A2 nur noch(k−k1

k2

)Moglichkeiten, Elemente auszuwahlen. Fur A3 bleiben

(k−k1−k2

k3

)Moglichkeiten usw..

Die Gesamtzahl der Moglichkeiten A in Teilmengen der Große k1, ..., kn zu zerlegen betragt also(

k

k1

)·(

k − k1

k2

)·(

k − k1 − k2

k3

)· ... ·

(k − k1 − k2 − ...− kn−1

kn

)

=k!

k1!(k − k1)!· (k − k1)!

k2!((k − k1 − k2)!· (k − k1 − k2)!

k3!(k − k1 − k2 − k3)!· ... ·

(kn

kn

)

=k!

k1! · k2! · ... · kn!

Das zeigt die Behauptung.

Beispiel 2.12 (zum Vergleich zu Beispiel 2.7):

Wir wollen nun das obige Beispiel noch einmal bzgl. des Grundraums

ΩI = (a1, ..., ak) | ai ∈ 1, ..., n fur 1 ≤ i ≤ k

und der Laplace-Verteilung betrachten. Es werden 10 von 1 bis 10 nummerierte Kugeln auf 6 Facherverteilt. ai ist das Fach der i-ten Kugel. Sei

Ak1,k2,...,k6= (a1, ..., a6) | genau k1 der ai’s sind 1, k2 der ai’s sind 2, ..., kn der ai’s sind 6

Laut Lemma 2.11 ist

#Ak1,...,k6=

(k

k1, ..., k6

)

und daher gilt

P (Ak1,k2,...,kn) =

1

nk· k!

k1! · ... · kn!(2.2)

Einsetzen in (2.2) liefert nun

P (A3,0,2,4,0,1) =1

610· 10!

4! · 0! · 2! · 3! · 0! · 1!≈ 0, 0002

P (A10,0,0,0,0,0) =1

610· 10!

10!≈ 0, 000000017

P (A2,2,2,2,1,1) =1

610· 10!

2! · 2! · 2! · 2! · 1! · 1!≈ 0, 0037

Trotzdem: Gewisse Elementarteilchen (Bosonen) verteilen sich auf verschiedene Energiezustande gemaßder Laplace-Verteilung auf ΩIV.

2.1 Binomial- und Hypergeometrische Verteilung

Wir betrachten eine Urne mit N Kugeln, wobei R rote Kugeln und N −R weiße Kugeln enthalten sind.Daraus wird eine Stichprobe im Umfang von n Kugeln auf 2 Arten (mit und ohne Zurucklegen) gezogen.Gesucht ist die Wahrscheinlichkeit genau r rote Kugeln zu ziehen.

2.1.1 Ziehen mit Zurucklegen (Binomialverteilung)

Gegeben seiΩI = (a1, a2, ..., an) | 1 ≤ ai ≤ N

mit der Laplace-Verteilung. Es seien die Kugeln 1, 2, ..., R die roten Kugeln. Gesucht ist P (Er), wobei

Er = (a1, a2, ...an) | #i | ai ∈ 1, 2, ..., R = r

Er entspricht den r roten Kugeln, anders gesagt den r”Erfolgen“.

Wir wollen nun #Er bestimmen:Sie I ⊂ 1, 2, ..., n die Indexmenge der Ziehungen, bei denen eine rote Kugel gezogen wurde. Dann istEr die disjunkte Vereinigung aller Ereignisse

EI = (a1, a2, ..., an) | ai ∈ 1, 2, ..., R ⇔ i ∈ I

Page 27: Grundlagen der Stochastik

2 Kombinatorik 27

uber alle r-elementigen Teilmengen I ⊂ 1, 2, ..., n. Fur festes I ist

#EI = Rr · (N −R)n−r

und es gibt(nr

)Teilmengen I ⊂ 1, 2, ..., n mit #I = r. Damit ist

P (Er) =#Er

#ΩI=

1

Nn·(

n

r

)·Rr · (N −R)n−r =

(n

r

)·(

R

N

)·(

1− R

N

)n−r

2.13 Definition (Binomialverteilung):

Fur p ∈ [0, 1] und n ∈ N heißt

binn,p(j) = b(n, p, j) =

(n

j

)pj(1− p)n−j , 0 ≤ j ≤ n

die Binomialverteilung mit Erfolgswahrscheinlichkeit p und Stichprobenumfang n.

Beispiel 2.14 (Munzwurf):

n-maliges Werfen einer Munze ist wie Ziehen mit Zurucklegen aus einer Urne mit 2 Kugeln. Wir model-lieren mit Hilfe der Binomialverteilung:

P (”k mal Kopf“) =

(n

k

)·(

1

2

)k

·(

1

2

)n−k

=

(n

k

)(1

2

)n

2.1.2 Ziehen ohne Zurucklegen (Hypergeometrische Verteilung)

Man zieht eine Teilmenge T von n ≤ N Kugeln. Wir betrachten den Grundraum

ΩIII = T ⊂ 1, 2, ..., N | #T = n

und damit ist #ΩIII =(Nn

). Die Kugeln 1, 2, ..., R seien rot. Hier ist

Er = T ⊂ 1, 2, ..., N | #(T ∩ 1, ..., R) = r, #T = n= T ⊂ 1, 2, ..., N | #(T ∩ 1, 2, ..., R) = r,#(T ∩ R + 1, ..., N) = n− r

Dabei gibt es genau(Rr

)Teilmengen von 1,2,...,R der Kardinalitat r und

(N−Rn−r

)Teilmengen der Kar-

dinalitat n− r von R + 1, ..., N. Damit folgt

#Er =

(R

r

)·(

N −R

n− r

)

2.15 Definition:

Wir nennen

hyp(r, n,R,N) := P (Er) =#Er

#ΩIII

=

(Rr

)·(N−Rn−r

)(Nn

)

die hypergeometrische Verteilung zu den Parametern n, N und R.

Beispiel 2.16 (Skat):

Beim Skatspiel gibt es 32 Karten, darunter 4 Asse. 3 Spieler bekommen je 10 Karten. Es ist die Wahr-scheinlichkeit fur das Ereignis

”Spieler 1 bekommt 3 Asse“ gesucht.

Modell: 32 Kugeln, davon R=4 rote Kugeln und n= 10 Ziehungen.

Gesucht: P (3 Erfolge) = P (E3)

Wir oben gesehen berechnet man mit der hypergeometrischen Verteilung:

P (E3) = hyp(3, 10, 4, 32)

(43

)·(287

)(3210

) =66

899≈ 0, 073

Page 28: Grundlagen der Stochastik

28 2 Kombinatorik

2.2 Das Stimmzettelproblem

Die Auszahlung der Stimmen einer Wahl hat ergeben: Kandidat A gewinnt mit a Stimmen gegenuberKandidat B mit b Stimmen, a > b. Gesucht ist die Wahrscheinlichkeit des Ereignisses

E:=”A liegt wahrend der gesamten Auszahlung in Fuhrung“.

2.17 Satz:

Wenn a > b, so ist

P (E) =1− b

a

1 + ba

und hangt damit nur vom Quotienten ba

ab.

Beweis:

Wir stellen die Auszahlung der Stimmzettel als Pfad da. Der Pfad

“B,B,A,A,A,B,A,A,B“

entsprache dann also der Auszahlung

”erste Stimme fur B, zweite Stimme fur B, dritte Stimme fur A usw. “

Graphisch kann man sich diesen beispielhaften Pfad wie folgt verdeutlichen:

0

1

2

3

4

5

0 1 2 3 4 5 Stimmen fur B

Sti

mm

enfu

rA

Abbildung 1: Der Auszahlungspfad”B,B,A,A,A,B,A,A,B“

Wir betrachten dazu alsoΩ = Pfade von (0, 0) nach (b, a)

als Laplace-Raum. Ein Pfad aus Ω wird offenbar schon durch die Zeitpunkte der A-Stimmen eindeutigfestgelegt und hat logischerweise Lange a + b, daher gilt

#Ω =

(a + b

b

)

Wir wollen Ω jetzt disjunkt zerlegen. Sei dazu

E1 = Pfade oberhalb der DiagonalenE2 = Pfade durch (0, 1) , die nicht oberhalb der Diagonalen liegenE3 = Pfade, die durch (1, 0) verlaufen

Da jeder Pfad, welcher oberhalb der Diagonalen verlauft, automatisch durch (0, 1) verlaufen muss, giltdann

Ω =

3∑

i=1

Ei

Page 29: Grundlagen der Stochastik

2 Kombinatorik 29

0

1

2

0 1 2 B

A

0

1

2

0 1 2 B

A

0

1

2

0 1 2 B

A

Abbildung 2: Von links nach rechts: Beispiel eines Pfades aus E1, aus E2 und aus E3

Gesucht ist in diesem Zusammenhang naturlich

P (E) = P (E1) =#E1

und wir konnen #E1 uber #E1 = #Ω−#E2−#E3 berechnen. Die Kardinalitat #E3 von E3 ist offenbar

#E3 =

(a + b− 1

a

)= Anzahl der Pfade der Lange a + b− 1 von (1, 0) nach (b, a)

da jeder Pfad aus E1 genau eins kurzer ist als ein Pfad aus Ω. Jetzt verwenden wir folgendes

2.18 Lemma (Spiegelungsprinzip):

Falls a > b, so gilt#E2 = #E3

Beweis:

Da a > b ist, muss jeder Pfad aus E3 mindestens einmal die Diagonale schneiden (er beginnt ja schließlichbei (1, 0)!). Sei (c, d) der erste Schnittpunkt des Pfades mit der Diagonalen. Jetzt spiegeln wir den Teilpfadvon (0, 0) nach (c, d) an der Diagonalen und erhalten insgesamt einen Pfad aus E2.

0

1

2

0 1 2 B

A

=⇒

0

1

2

0 1 2 B

A

Abbildung 3: Verdeutlichung des Spiegelungsprinzips

Diese Abbildung ist offenbar bijektiv.

Damit folgt dann sofort

#E1 = #Ω− 2#E3 =

(a + b

b

)− 2

(a + b− 1

a

)

Daraus folgt

P (E) =#E

#Ω= 1− 2

(a+b−1

a

)(a+b

a

)

= 1− 2(a + b− 1)!a!b!

a! (b− 1)! (a + b)!

= 1− 2b

a + b

=a + b− 2b

a + b

=a− b

a + b=

1− ba

1 + ba

und das zeigt die Behauptung.

Page 30: Grundlagen der Stochastik

30 2 Kombinatorik

Beispiel 2.19:

Wir betrachten die Wahlergebnisse

a = 100 und b = 50 (2.3)

a = 200 und b = 100. (2.4)

In beiden Fallen istb

a=

1

2

und damit sagt uns obiger Satz, dass die Wahrscheinlichkeit, dass der siegende Kandidat A wahrend dergesamten Auszahlung in Fuhrung lag, in beiden Fallen (2.3) und (2.4) bei

P (E) =1− 1

2

1 + 12

=1

3

liegt.

Page 31: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 31

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten undmehrstufige Experimente

3.1 Unabhangigkeit

Wir beginnen mit einem motivierenden Beispiel.

Beispiel 3.1:

Man betrachtet das Werfen zweier Wurfel und die Ereignisse

A =”Augensumme ist gerade“

B =”Mindestens eine 6“

Wir fragen uns hier, ob das Eintreten von B die Wahrscheinlichkeit des Eintretens von A beeinflusst. Dazusimulieren wir n = 10.000 Wurfe mit zwei Wurfeln und erhalten in unserer Simulation, dass das EreignisA hA = 5069 mal, das Ereignis B hb = 3061 mal und das Ereignis A ∩ B (also A und B gleichzeitig)genau hA∩B = 1386 mal eintritt.

Wenn B”keinen Einfluss“ auf das Eintreten von A hat, so sollte

hA

n≈ hA∩B

hB

gelten. Wir konnen diese Aussage auf relative Haufigkeiten umformen:

hA∩B

n≈ hA

n· hB

n.

Der Ubergang von relativen Haufigkeiten zu Wahrscheinlichkeiten liefert nun die folgende

3.2 Definition:

Sei (Ω, P ) eine Wahrscheinlichkeitsraum. Zwei Ereignisse A,B ⊂ Ω heißen unabhangig, falls

P (A ∩B) = P (A) · P (B)

gilt.

Beispiel 3.3:

Im Beispiel 3.1 oben vermutet man dann nach der Simulation, dass A und B nicht unabhangig sind, denn

hA∩B

n= 0.1386 6= 0.155 ≈ hA

n· hB

n.

Um diese Aussage anhand der Definition nachzuprufen betrachtet man Ω = 1, 2, 3, 4, 5, 62 als Laplace-Raum und hat damit

A = (1, 1) , (1, 3) , (1, 5) , (2, 2) , ..., (6, 6) ,

B = (1, 6) , ..., (6, 6) , (6, 1) , ..., (6, 5) .

Also gilt #A = 18 und #B = 11. Das liefert

P (A) =1

2und P (B) =

11

36.

Jetzt berechnet man nochA ∩B = (2, 6) , (4, 6) , (6, 6) , (6, 2) , (6, 4)

und hat damit

P (A ∩B) =#A ∩B

#Ω=

5

366= 11

78=

1

2· 11

36= P (A) · P (B) .

Die angegebenen Ereignisse A und B sind also in der Tat abhangig.

Beispiel 3.4:

Betrachte wieder das Setting aus Beispiel 3.1 und das zusatzliche Ereignis

C =”Der erste Wurf ist eine 6“

Wir wollen zeigen, dass A und C unabhangig sind. Dazu berechnen wir

P (A ∩ C) = P ((6, 2), (6, 4), (6, 6)) =3

36=

1

12=

1

2· 16

= P (A) · P (C) ,

was diese Aussage zeigt.

Page 32: Grundlagen der Stochastik

32 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Beispiel 3.5:

Wir betrachten eine Urne mit drei von 1 bis 3 nummerierten Kugeln, davon seien die Kugeln 1 und 2 rotund Kugel 3 weiß. Wir wollen zwei Ziehungen durchfuhren und betrachten die Ereignisse

A =”erster Zug rot“

B =”zweiter Zug weiß“

Ziehen wir mit Zurucklegen, so ist offenbar Ω = (i, j) | 1 ≤ i, j ≤ 3 und daher #Ω = 9. Das liefert

P (A) =2

3, P (B) =

1

3, P (A ∩B) = P ((1, 3) , (2, 3)) =

2

#Ω=

2

9= P (A) · P (B) .

Mit Zurucklegen sind A und B also unabhangig.

Ziehen wir ohne Zurucklegen, so ist offenbar Ω = (i, j) | 1 ≤ i, j ≤ 3, i 6= j und daher #Ω = 6. Dasliefert

P (A) =2

3,

P (B) = P ((1, 3) , (2, 3)) =2

#Ω=

1

3,

P (A ∩B) = P ((1, 3) , (2, 3)) =2

#Ω=

2

66= P (A) · P (B) .

Ohne Zurucklegen sind A und B also abhangig!

Bemerkung 3.6:

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω zwei Ereignisse mit A∩B = ∅. Dann konnenA und B offenbar nur dann unabhangig sein, wenn

0 = P (A ∩B) = P (A) · P (B) ,

d.h. wenn entweder P (A) = 0 oder P (B) = 0 gilt.

Jetzt wollen wir unsere Definition auf n Ereignisse A1, ..., An ⊂ Ω des Wahrscheinlichkeitsraumes (Ω, P )verallgemeinern. Wir definieren dazu wie folgt:

3.7 Definition:

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1, ..., An ⊂ Ω Ereignisse.

Wir nennen A1, ..., An unabhangig, falls fur jede Auswahl von k Indizes i ≤ i1 < ... < ik ≤ n, 1 ≤ k ≤ nbeliebig, die Gleichung

P

k⋂

j=1

Aij

=

k∏

j=1

P(Aij

)

gilt.

Diese Definition mag zunachst etwas unintuitiv erscheinen, sie ermoglicht aber folgendes

3.8 Lemma:

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A1, ..., An ⊂ Ω unabhangige Ereignisse.

(1) Fur jede Auswahl 1 ≤ k ≤ n und 1 ≤ i1 < ... < ik ≤ n beliebig ist dann auch die entstehendeTeilfamilie Ai1 , ..., Aik

unabhangig.

(2) Sei Bi = Ai oder Bi = Aci fur jedes 1 ≤ i ≤ n. Dann sind auch die Ereignisse B1, ..., Bn unabhangig.

Beweis:

(1) Diese Aussage ist mit der Definition sofort klar.

(2) Offenbar genugt es zu zeigen, dass die Ereignisse Ac1, A2, ..., An ebenfalls unabhangig sind. Den

allgemeinen Fall erhalten wir daraus durch iteriertes Anwenden und Umbennenen (das genaueVorgehen dafur kann man etwa bei [Dehling/Haupt] nachlesen.).

Wir wollen die offenbar gultige Gleichung

P (Ac ∩B) = P (B)− P (A ∩B) (3.1)

Page 33: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 33

nutzen. Seien nun 1 ≤ i1 < ... < ik ≤ n vorgegeben. Ist i1 > 1, so ist in unserem Setting nichts zuzeigen. Ist i1 = 1, so gilt

P (Ac1 ∩ ... ∩Aik

)(3.1)= P (Ai2 ∩ ... ∩Aik

)− P (A1 ∩Ai2 ∩ ... ∩Aik)

Unabhangigkeit von A1,Ai2,...,Aik= P (Ai2) · ... · P (Aik

)− P (A1) · ... · P (Aik)

= (1− P (A1))

k∏

j=2

P(Aij

)

= P (Ac1) ·

k∏

j=2

P(Aij

)

was die Behauptung zeigt.

Im Beweis des Lemmas haben wir schon gesehen, wieso wir in unserer Definition nicht nur die Un-abhangigkeit aller Teilfamilien gefordert haben. Folgendes Beispiel zeigt, wie gravierend der Unterschiedist:

Beispiel 3.9 (Paarweise Unabhangigkeit impliziert nicht Unabhangigkeit):

Wir betrachten de dreifachen Munzwurf, also Ω = K,Z3 mit der Laplace-Verteilung. Wir betrachtendie Ereignisse

A1 =”erster Wurf = zweiter Wurf“

A2 =”zweiter Wurf = dritter Wurf“

A3 =”erster Wurf = dritter Wurf“

Scheinbar ist dann

P (A1) =# KKK,KKZ,ZZZ,ZZK

#Ω=

4

8=

1

2

und ganz analog P (A2) = P (A3) = 12 . Jetzt berechnen wir die Wahrscheinlichkeiten der Schnitte:

P (A1 ∩A2) =# KKK,ZZZ

#Ω=

1

4= P (A1 ∩A3) = P (A2 ∩A3) .

Wegen 12 · 1

2 = 14 sind also A1, A2 und A3 paarweise unabhangig. Da aber

P (A1 ∩A2 ∩A3) = P (KKK,ZZZ) = P (A1 ∩A2) = P (A1 ∩A3) = P (A2 ∩A3) =1

46= 1

2· 12· 12

sind die Ereignisse A1, A2 und A3 insgesamt nicht unabhangig.

Das ergibt anschaulich auch Sinn, schließlich erzwingt das Eintreten von A1 und A2 bereits das Eintretenvon A3 und umgekehrt.

3.2 Bedingte Wahrscheinlichkeiten

Bei n Versuchen trete das Ereignis A∩B mit Haufigkeit hA∩B und das Ereignis B mit Haufigkeit hB 6= 0auf. Anschaulich ist dann

die relative Haufigkeit des Auftretens von A, gegeben”B tritt auf“

gegeben alshA∩B

hB

=hA∩B

nhB

n

in relativen Haufigkeiten.

Der Ubergang von relativen Haufigkeiten zu Wahrscheinlichkeiten liefert uns jetzt folgende

3.10 Definition:

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und seien A,B ⊂ Ω Ereignisse. Ist P (B) > 0, so ist

P (A | B) :=P (A ∩B)

P (B)

die bedingte Wahrscheinlichkeit des Auftretens von A gegeben B.

Page 34: Grundlagen der Stochastik

34 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Beispiel 3.11:

Wir Wurfeln einfach mit einem fairen Wurfel. Dazu verwenden wir Ω = 1, 2, 3, 4, 5, 6 mit der Laplace-Verteilung. Sei A = 4, 5, 6 und B = 2, 4, 6. Dann ist

P (A) = P (B) =1

2

und

P (A ∩B) = P (4, 6) =1

3.

Das liefert P (A | B) = 23 mit der Definition.

Anschaulich ergibt diese Aussage auch Sinn: Wenn man schon weiß, dass eine gerade Zahl gewurfeltwurde, so ist die Wahrscheinlichkeit, dass der Wurf ≥ 4 ist, genau 2

3 .

Beispiel 3.12:

Wir betrachten eine Familie mit zwei Kindern. Als Grundraum verwenden wir Ω = JJ, JM,MJ,MMmit der Laplace-Verteilung. Wir wollen nun die Wahrscheinlichkeit dafur ausrechnen, dass die Familiezwei Jungen hat, wenn schon gegeben ist, dass sie mindestens einen Jungen hat. Seien also

A := JJB := JJ, JM,MJ .

Dann ist A ∩B = JJ und daher gilt

P (”2 Jungen“ |

”mindestens 1 Junge“) = P (A | B) =

P (A ∩B)

P (B)=

1

3.

3.13 Satz (Multiplikationsformel):

Sei (Ω, P ) ein Wahrscheinlichkeitsraum.

(1) Sind zwei Ereignisse A,B ⊂ Ω gegeben, so gilt

P (A ∩B) = P (A | B) · P (B) .

(2) Sind n Ereignisse A1, ..., An ⊂ Ω gegeben, so gilt

P (A1 ∩ ... ∩An) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩A2) · ... · P(

An

∣∣∣n−1⋂

i=1

Ai

).

Beweis:

(1) Es gilt per Definition

P (A | B) · P (B) =P (A ∩B)

P (B)· P (B) = P (A ∩B) .

(2) Einsetzen der Definition liefert

P (A1) · P (A2 | A1) · P (A3 | A1 ∩A2) · ... · P(

An

∣∣∣n−1⋂

i=1

Ai

)

= P (A1) ·n∏

k=2

P

Ak

∣∣∣k−1⋂

j=1

Aj

= P (A1) ·n∏

k=2

P

(k⋂

j=1

Aj

)

P

(k−1⋂j=1

Aj

)

= P (A1) ·n∏

k=2

P

k⋂

j=1

Aj

·n∏

k=2

1

P

(k−1⋂j=1

Aj

)

Page 35: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 35

= P (A1) ·n∏

k=2

P

k⋂

j=1

Aj

·n−1∏

k=1

1

P

(k⋂

j=1

Aj

)

= P (A1) · P

n⋂

j=1

Aj

· 1

P (A1)

= P

n⋂

j=1

Aj

.

Das zeigt die Behauptung.

Beispiel 3.14:

Wir wollen die Wahrscheinlichkeit berechnen, dass bei Skat jeder der drei Spieler genau ein Ass erhalt.Sei dazu

Ai :=”der i-te Spieler hat genau ein Ass“ fur i = 1, 2, 3

Mit der hypergeometrischen Verteilung sieht man schnell

P (A1) =

(41

)(289

)(3210

) , P (A2 | A1) =

(31

)(199

)(2210

) , P (A3 | A1 ∩A2) =

(21

)(109

)(1210

) .

Mittels der Multiplikationsformel erhalten wir so die gesuchte Wahrscheinlichkeit:

P (A1 ∩A2 ∩A3) = P (A1) · P (A2 | A1) · P (A3 | A1 ∩A2) =385

899· 37· 10

33=

50

899.

3.15 Satz:

Sei (Ω, P ) ein Wahrscheinlichkeitsraum und P (B) > 0. Dann definieren wir durch

PB (A) := P (A | B) , A ⊂ Ω

eine Wahrscheinlichkeitsverteilung auf Ω.

Beweis:

Wir mussen die Axiome (A1) bis (A3) nachprufen:

(A1) Sei A ⊆ Ω beliebig. Da P eine Wahrscheinlichkeitsverteilung auf Ω ist, gilt

PB (A) = P (A | B) =P (A ∩B)

P (B)≥ 0.

(A2) Offenbar ist

PB (Ω) = P (Ω | B) =P (Ω ∩B)

P (B)=

P (B)

P (B)= 1.

(A3) Seien Ai ⊆ Ω paarweise disjunkt, i ∈ N. Dann gilt

PB

( ∞∑

i=1

Ai

)= P

( ∞∑

i=1

Ai | B)

=

P

(( ∞∑i=1

Ai

)∩B

)

P (B)

=

P

( ∞∑i=1

(Ai ∩B)

)

P (B)

(A3) fur P=

∞∑

i=1

P (Ai ∩B)

P (B)=

∞∑

i=1

PB (Ai) .

Page 36: Grundlagen der Stochastik

36 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Das zeigt die Behauptung.

Bemerkung 3.16:

Damit gelten die Rechenregeln (R1) bis (R9) auch fur PB , d.h. zum Beispiel

P (Ac | B) = PB (Ac) = 1− PB (A) = 1− P (A | B)

fur zwei Ereignisse A,B ⊂ Ω, P (B) > 0 usw..

Bemerkung 3.17:

Die Wahrscheinlichkeitsfunktion pB zu PB ist offenbar gegeben als

pB (ω) = PB (ω) =P (ω ∩B)

P (B)=

P (ω)P (B) falls ω ∈ B

0 falls ω /∈ B, ω ∈ A.

Beispiel 3.18:

Wir wurfeln zweifach mit einem fairen Wurfel. Dazu nutzen wir wieder Ω = 1, 2, 3, 4, 5, 62 als Grund-raum mit der Laplace-Verteilung. Betrachte das Ereignis

B =”Augensumme ist ≥ 10

Dann ist P (B) = 636 = 1

36 und die Wahrscheinlichkeitsfunktion pB auf der Menge der Augensummen istdurch den Vektor

(pB (2) , pB (3) , ..., pB (12)) =

(0, 0, 0, 0, 0, 0, 0, 0,

3

6,2

6,1

6

)

gegeben.

3.19 Satz:

Sei (Ω, P ) ein Wahrscheinlichkeitsraum.

(1) (Formel von der totalen Wahrscheinlichkeit)

Sei Bi, i ∈ I eine abzahlbar unendliche oder endliche disjunkte Zerlegung von Ω. Dann gilt fur alleA ⊂ Ω die Formel

P (A) =∑

i∈I

P (Bi) · P (A | Bi) (3.2)

(2) (Formel von Bayes)

Seien die Voraussetzungen wie in (1). Ist P (A) > 0, so gilt fur jedes k ∈ I:

P (Bk | A) =P (A | Bk) · P (Bk)∑

i∈I

P (A | Bi) · P (Bi)(3.3)

Beweis:

(1) Mit der Mulitplikationsformel gilt

P (A)

∑i∈I

Bi=Ω

= P

(A ∩

(∑

i∈I

Bi

))

= P

(∑

i∈I

(A ∩Bi)

)

Bi∩Bj=∅ fur i6=j=

i∈I

P (A ∩Bi)

Multiplikationsformel=

i∈I

P (A | Bi) · P (Bi)

was die Aussage zeigt.

Page 37: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 37

(2) Hier folgt unter Benutzung von (1):

P (Bk | A) =P (Bk ∩A)

P (A)

=P (A ∩Bk)

P (A)

Multiplikationsformel=

P (A | Bk) · P (Bk)

P (A)

(3.2)=

P (A | Bk) · P (Bk)∑i∈I

P (A | Bi) · P (Bi).

Das zeigt ebenfalls die Behauptung.

Beispiel 3.20:

Eine Krankheit tritt bei 0.5% der Bevolkerung auf. Ein Test ist bei 99% der Kranken positiv, aber auchbei 2% der Gesunden. Gesucht ist die Wahrscheinlichkeit bei positivem Testergebnis die Krankheit zuhaben.

Betrachte nun folgendes Modell: Sei Ω die Bevolkerung und P die Laplace-Verteilung. Sei weiterhin B1

die Menge der gesunden Menschen, B2 die der kranken Menschen und A die Menge der Menschen mitpositivem Testergebnis . Dann ist Ω = B1 ∪B2 mit B1 ∩B2 = ∅.P (B1) = 0.995 P (B2) = 0.005P (A|B1) = 0.02 P (A|B2) = 0.99

Mit der Formel von Bayes berechnet man

P (B2|A) =P (A|B2) · P (B2)2∑

i=1

P (A|Bi) · P (Bi)

=P (A|B2) · P (B2)

P (A|B1) · P (B1) + P (A|B2) · P (B2)

=0.99 · 0.005

0.02 · 0.995 + 0.99 · 0.005

≈ 0.2

Das bedeutet, im Fall eines postitiven Test ist man nur mit einer Wahrscheinlichkeit von 20% wirklicherkrankt.

Beispiel 3.21 (Simpson-Paradoxon):

Im Folgenden werden wir ein Beispiel aus dem Bereich”How to lie with statistics“ geben, d.h. es wird eine

Aussage mit Daten belegt (wir werden hier vereinfachte Werte verwenden) die offensichtlich zu stimmenscheint. Bei genauerer Betrachtung und unter Berucksichtigung aller Werte im Detail ergibt sich jedochgenau die gegenteilige Aussage:

University of Berkeley:In einem Jahr haben sich 1200 Manner und 900 Frauen um einen Studienplatz beworben. Zugelassenwurden 55% der Manner und nur 48, 9% der Frauen. Offensichtlich wurden die Manner bevorzugt, odernicht?

Eine genauere Betrachtung der Daten zeigt, dass es Bewerbungen in zwei Fachern A und B gab.

Manner Frauenbeworben zugelassen beworben zugelassen

Fach A 900 540=60% 100 80=80%Fach B 300 120=40% 800 360=45%Summe 1200 660=55% 900 440=48,8%

Die Frauen wurden also in jedem Fach bevorzugt!Dies konnen wir auch mit bedingten Wahrscheinlichkeiten nachrechnen:

Seien Zm =“zugelassene Manner“, Am =“Bewerber Fach A“ und Bm =“Bewerber Fach B“. Dann gilt

Page 38: Grundlagen der Stochastik

38 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

nach dem Satz der totalen Wahrscheinlichkeit:

P (Zm) = P (Zm|Am) · P (Am) + P (Zm|Bm) · P (Bm)

= 0.6 · 0.75 + 0.4 · 0.25

= 0.55

Seien nun entsprechend Zf =“zugelassene Frauen“, Af =“Bewerberinnen Fach A“ und Bf =“Bewerber-innen Fach B“.

P (Zf ) = P (Zf |Af ) · P (Af ) + P (Zf |Bf ) · P (Bf )

= 0.8 · 19

+ 0.45 · 89

= 0.488

Das Ergebnis kommt zustande, da sich anteilig viel mehr Manner als Frauen in Fach A beworben haben,wobei dort die Zulassung einfacher zu erringen war. Andererseits haben sich wesentlich mehr Frauen furFach B entschieden, wo die Zulassung nur schwer zu erringen ist.

3.3 Mehrstufige Experimente

Wir betrachten aufeinanderfolgende Experimente, bei denen die Ergebnisse der ausgefuhrten Experimentedie Wahrscheinlichkeiten fur den Ausgang des nachsten Experiments bestimmen.Sei p1 der Wahrscheinlichkeitsvektor fur die Ausgange des ersten Experiments. Beim Ausgang a1 ∈ Ω1

ist jeweils p2( · |a1) ein Wahrscheinlichkeitsvektor fur die Ausgange des zweiten Experiments.

Beispiel 3.22 (zweistufiges Zufallsexperiment):

In einer Urne befinden sich 3 Kugeln, davon sind zwei rot und eine ist weiß. Wir ziehen zwei Mal ohneZurucklegen.

In der ersten Ziehung erhalt man mit einer Wahrscheinlichkeit von 23 eine rote Kugel und mit einer

Wahrscheinlichkeit von 13 eine weiße Kugel, d.h.

p1(R) =2

3, p1(W ) =

1

3.

In der zweiten Ziehung kann, wenn zuerst rot gezogen wurde, entweder rot oder weiß jeweils mit derWahrscheinlichkeit 1

2 gezogen werden oder wenn zu Beginn die weiße Kugel gezogen wurde, mit Sicherheitnun eine rote Kugel gezogen werden. Das heißt

p2(R,R) =1

2, p2(R,W ) =

1

2

bzw.p2(R,W ) = 1, p2(W,W ) = 0.

Der Grundraum des 2-stufigen Modells ist

Ω = Ω1 × Ω2 = (a1, a2) | ai ∈ Ωi

mit der Wahrscheinlichkeitsfunktion

p(a1, a2) := p(a1) · p2(a2|a1).

Das heißt p(a1, a2) ist das Produkt der Wahrscheinlichkeiten im Baumdiagramm entlang des Pfades:

START → a1 → a2.

Im Bsp.:

p(R|W ) = p1(R) · p2(W |R) =2

3· 12

=1

3.

Bemerkung 3.23:

Fur Teilmengen A ⊆ Ω, welche einer Menge von Pfaden entspricht, ist

P (A) =∑

(a1,a2)∈A

p1(a1) · p2(a2|a1)

die Summe aller Pfadwahrscheinlichkeiten.

Page 39: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 39

Beispiel 3.24:

Es stehe Xi fur das Ergebnis des i-ten Teilexperiments, i = 1, 2, dann gilt:

P (X2 = R) = P (”zweite Kugel ist rot“) = P (R,R) + P (W,R) =

2

3· 12

+1

3· 1 =

2

3

3.25 Definition (n-stufiges Experiment):

Seien Ω1,Ω2, ...,Ωn diskrete Grundraume. Sei p1 eine Wahrscheinlichkeitsfunktion auf Ω1 (Startwahr-scheinlichkeit). Fur jedes a1 ∈ Ω1 sei eine Wahrscheinlichkeitsfunktion p2(a2|a1) auf den Ausgang deszweiten Teilexperiments gegeben.

Allgemein: Fur jede Folge von Ausgangen a1, a2, ..., aj−1 mit ai ∈ Ωi, 1 ≤ i ≤ j − 1 der ersten j-1Teilexperimente ist eine Wahrscheinlichkeitsfunktion

pj(aj |a1, ...aj−1)

auf den Ausgangen aj ∈ Ωj gegeben. Fur einen Pfad (a1, ..., an) ∈ Ω1 × ...× Ωn setzt man

p(a1, ..., an) = p1(a1) · p2(a2|a1) · . . . · pn(an|a1, ..., an−1).

Dann ist p eine Wahrscheinlichkeitsfunktion auf Ω = Ω1 × ... × Ωn und definiert eine Wahrscheinlich-keitsverteilung P uber

P (A) :=∑

(a1,...,an)∈A

p(a1, ..., an), A ⊆ Ω.

P ist dann die Verteilung des mehrstufigen Experiments.

Beispiel 3.26 (Polya’sches Urnenmodell):

In diesem Modell, das ursprunglich dazu gedacht war, die Ausbreitung von Krankheiten zu simulieren,enthalt eine Urne r rote und s schwarze Kugeln. Eine Kugel wird gezogen, dann wird zuruckgelegt mitc ∈ Z zusatzlichen Kugeln der gleichen Farbe.

Das heißt fur c = −1 entspricht dies dem Ziehen ohne Zurucklegen und fur c = 0 dem Ziehen mitZurucklegen.

Ein graphisches Beispiel:

+

QQ

QQ

QQ

QQs

13

23

AAAAAAU

AAAAAAU

34

14

12

12

Abbildung 4: Polya’sches Urnenmodell mit c = 1, r = 2, s = 1.

Dann ist

P (X2 = R) =2

3· 34

+1

3· 12

=2

3= P (X1 = R)

Wir wollen nun zeigen, dass unabhangig vom gewahlten c immer gilt: Die Wahrscheinlichkeit fur”2.Kugel

ist rot“ ist immer gleich der Wahrscheinlichkeit fur”1.Kugel ist rot“:

Beweis:

Es sind

p1(R) =r

r + s, p1(S) =

s

r + s

p2(R|R) =r + c

r + s + c, p2(S|R) =

s

r + s + c

Page 40: Grundlagen der Stochastik

40 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Damit ist

P (X2 = R) = P (R,R) + P (S,R)

=r

r + s· r + c

r + s + c+

s

r + s· r

r + s + c

=r

r + s·(

r + c

r + s + c+

s

r + s + c

)

=r

r + s

= P (X1 = R).

Man berechnet

p(R,S,R,R) = p1(R) · p2(S|R) · p3(R|RS) · p4(R|RSR)

=r

r + s· s

r + s + c· r + c

r + s + 2c· r + 2c

r + s + 3c

Bemerkung 3.27:

Man beobachtet also:

Ist (a1, ..., an) eine Ergebnis-Folge mit k roten Ziehungen (# i | ai = R = k) so ist

p(a1, ..., an) =

n−1∏

i=0

(1

r + s + ic

k−1∏

i=0

(k + ic) ·n−k−1∏

i=0

(s + ic) .

Das heißt die Wahrscheinlichkeit von (a1, ..., an) hangt nur von der Anzahl gezogener Kugeln ab, nichtvon der Reihenfolge. Daher gilt

p(aτ(1), ..., aτ(n)) = p(a1, ..., an)

fur jede Permutation τ von 1, ..., n. Solche Verteilungen nennt man auch austauschbar.

Aufgabe 3.28:

Zeige damit

P (Xj = R) =r

r + sfur alle j = 1, 2, ...

3.3.1 Bemerkung zu bedingten Wahrscheinlichkeiten in mehrstufigen Modellen

(1) Ist Ω1 × ...× Ωn ein mehrstufiges Modell mit Ubergangswahrscheinlichkeiten

pj (aj | a1, ..., aj−1) , 1 ≤ j ≤ n

so setzen wir(b1, ..., bk) := (a1, ..., an) | ai = bi fur 1 ≤ i ≤ k

als die Menge aller Pfade, die mit b1, ..., bk beginnen fest. Dann gilt:

P (b1, ..., bk) = p1 (b1) · p2 (b2 | b1) · ... · pk (bk | b1, ..., bk)

Beweis:

Wir zeigen nur den Fall n = 2, k = 1, die anderen Falle uberlegt man sich analog (wobei der Beweisdann sehr Index-lastig wird). Es gilt

P (b1) = P (b1 × Ω)

=∑

a2∈Ω2

p (b1, a2)

=∑

a2∈Ω2

p1 (b1) · p2 (a2 | b1)

= p1 (b1) ·∑

a2∈Ω2

p2 (a2 | b1)

︸ ︷︷ ︸=1

da p2 eine Wahrscheinlichkeitsfunktion ist. Das zeigt schon die Behauptung.

Page 41: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 41

(2) Ganz analog gilt

P (bk+1, ..., bn | b1, ..., bk) = pk+1 (bk+1 | b1, ..., bk) · pk+2 (bk+2 | b1, ..., bk+1) · ... · pn (bn | b1, ..., bn−1)

Beweis:

Wir zeigen wieder nur den Fall n = 2, k = 1. Dort gilt

P (b2 | b1) =p (b1, b2)

p (b1)

Teil (1)=

p1 (b1) p2 (b2 | b1)

p1 (b1)

= p2 (b2 | b1) .

Das zeigt die Behauptung.

Beispiel 3.29 (Ziehen aus zufalliger Urne):

Wir betrachten vier Urnen U1,U2,U3,U4. Jede der Urnen enthalte drei Kugeln, wobei Ui genau i− 1 roteund 3− (i− 1) schwarze Kugeln enthalte. Unser mehrstufiges Experiment sieht jetzt wie folgt aus:

Schritt 1 Wahle rein zufallig eine Urne.

Schritt 2 Ziehe eine Kugel und notiere die Farbe.

Dieses Experiment gestaltet sich etwa so:

AA

AA

AA

AA

START

U1 - Urne 1

U2 - Urne 2 U3 - Urne 3

U4 - Urne 4

)

JJ

JJ

JJ

PPPPPPPPPPPPPq

AAAAAAU

AAAAAAU

AAAAAAU

AAAAAAU

14

14

14

14

0 113

23

23

13

1 0

Abbildung 5:”Ziehen aus zufalliger Urne“

Es ist also Ω1 = 1, 2, 3, 4, wobei die Zahl i ∈ Ω1 dann einfach der Nummer der Urne im ersten Schrittentspricht. Wir sehen sofort, dass

p1 (1) = ... = p1 (4) =1

4.

Weiter verwenden wir Ω2 = R,S was der Farbe der im zweiten Schritt gezogenen Kugel entsprechensoll. Da die Urne U1 keine roten Kugeln enthalt, ist also

p2 (R | 1) = 0 und p2 (S | 1) = 1.

Ganz analog enthalt die Urne U2 eine rote und zwei schwarze Kugeln, es ist also

p2 (R | 2) =1

3und p2 (S | 2) =

2

3.

Ganz analog berechnet man die anderen Werte fur p2.

Wir wollen nun folgende Frage beantworten:Was kann man uber die im ersten Schritt gewahlte Urne aussagen, gegeben es wurde im zweiten Schritteine rote Kugel gezogen?

Page 42: Grundlagen der Stochastik

42 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Zur Beantwortung setzen wir

Bi :=”Urne i im ersten Schritt gewahlt“, i = 1, 2, 3, 4,

A :=”rote Kugel im zweiten Schritt gezogen“.

Wie oben sieht man sofort, dass

P (A | B1) = 0, P (A | B2) =1

3, P (A | B2) =

2

3, P (A | B3) = 1.

Mit der Formel von der totalen Wahrscheinlichkeit (3.2) folgt

P (A) =

4∑

i=1

P (A | Bi) · P (Bi) =

4∑

i=1

p2 (R | i) · p1 (i) =1

2.

Mit der Formel von Bayes (3.3) ergibt sich nun fur die gesuchte Wahrscheinlichkeit

P (Bk | A)(3.3)= P (Bk | A)

=P (A | Bk) · P (Bk)4∑

i=1

P (A | Bi) · P (Bi)

︸ ︷︷ ︸=P (A)

= 2P (A | Bk) · P (Bk)︸ ︷︷ ︸= 1

4

=1

2P (A | Bk) , k = 1, 2, 3, 4.

Als Vektor gilt also

(P (Bk | A))k=1,2,3,4 =

(0,

1

6,2

6,3

6

)

Das ist die sogenannte

a-posteriori-Verteilung auf den Urnennummern 1,2,3,4 zur a-priori-Verteilung 14 , 1

4 , 14 , 1

4 .

Der MAP-Schatzer (MAP steht fur”maximum a-posteriori“) der Urnennummer k wahlt das k mit maxi-

malem P (Bk | A) aus - hier also k = 4. Das”beantwortet“ die obige Frage.

Beispiel 3.30:

Wir betrachten eine leicht geanderte Variante von Beispiel 3.29: Die Urne im ersten Schritt wird nichtein zufallig gewahlt, sondern per Munzwurf bestimmt. Wir werfen dazu drei faire Munzen und wahle dieUrne, die so viele rote Kugeln enthalt, wie oft

”Kopf“ geworfen wurde. Wegen

P (ZZZ) =1

8, P (KZZ,ZKZ,ZZK) =

3

8

usw. erhalten wir also die a-priori-Verteilung 18 , 3

8 , 38 , 1

8 . Wir definieren A und Bi, i = 1, 2, 3, 4 wie imBeispiel 3.29 oben und stellen uns die selbe Frage. Offenbar ist hier

P (A) = 0 · 18

+1

3· 38

+2

3· 38

+ 1 · 18

=1

2

und wie oben gilt

(P (Bk | A))k=1,2,3,4 =

(P (A | Bk) · P (Bk)

12

)

k=1,2,3,4

=

(0,

1

4,1

2,1

4

)

Hier wurde der MAP-Schatzer also die Urne mit der Nummer k = 3 auswahlen.

Page 43: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 43

3.4 Produkt-Experimente und spezielle Verteilungen

Fur i = 1, ..., n seien (Ωi, Pi) diskrete Wahrscheinlichkeitsraume. Die stochastisch unabhangige Ausfuh-rung mehrerer Experimente aus (Ωi, Pi), i = 1, ..., n, wird modelliert durch

Ω := Ω1 × ...× Ωn =

n∏

i=1

Ωi, P :=n⊗

i=1

Pi, (3.4)

wobei die Produktverteilung P durch die Wahrscheinlichkeitsfunktion

p (a1, ..., an) =

n∏

i=1

Pi (ai) , (a1, ..., an) ∈ Ω = (b1, ..., bn) | bi ∈ Ωi, i = 1, ..., n (3.5)

gegeben ist.

3.31 Definition:

Der Raum (Ω, P ) wie in (3.4) definiert heißt Produkt der Wahrscheinlichkeitsraume (Ωi, Pi) , i =1, ..., n.

Bemerkung 3.32:

(Ω, P ) ist selbst wieder ein Wahrscheinlichkeitsraum.

Beweis:

Es genugt zu zeigen, dass p wie in (3.5) eine Wahrscheinlichkeitsfunktion ist, denn offenbar ist Ω alsendliches Produkt abzahlbarer Mengen selbst wieder abzahlbar.

Das p positiv und σ-additiv ist, also die Axiome (A1) und (A3) erfullt, ist klar, denn jedes der Pi erfulltdiese Axiome. Außerdem gilt

P (Ω) =∑

(a1,...,an)∈Ω

p (a1, ..., an) =∑

(a1,...,an)∈Ω

P1 (a1) · ... · Pn (an) =

n∏

k=1

(∑

ak∈Ωk

Pk (ak))

︸ ︷︷ ︸(A3) fur Pk= 1

= 1

und das zeigt die Behauptung.

Beispiel 3.33:

Wir wollen das Produkt der Experimente”Wurfeln“ und

”Munzwurf“ bilden. Sei dazu Ω1 := K,Z

ebenso mit der Laplace-Verteilung versehen wie Ω2 := 1, 2, 3, 4, 5, 6. Dann ist

Ω = Ω1 × Ω2 = (a1, a2) | a1 ∈ K,Z , a2 ∈ 1, 2, 3, 4, 5, 6

und es gilt

p (a1, a2) = P1 (a1)︸ ︷︷ ︸= 1

2

·P2 (a2)︸ ︷︷ ︸= 1

6

=1

12

fur alle Tupel (a1, a2) ∈ Ω.

Dieses Ergebnis ist naturlich ziemlich eintonig, wurde man etwa eine gefalschte Munze verwenden, soware das Ergebnis interessanter.

Bemerkung 3.34:

Man kann den Produktraum (Ω, P ) auch als mehrstufiges Modell mit den Ubergangswahrscheinlichkeiten

pi (ai | a1, ..., ai−1) = Pi (ai) , 1 ≤ i ≤ n, ak ∈ Ωk

auffassen. Man beachte, dass diese Ubergangswahrscheinlichkeiten nicht von den vorangehenden Stufenabhangen.

3.35 Definition:

Fur Ereignisse Ai ⊆ Ωi, 1 ≤ i ≤ n definieren wir das Produktereignis in (Ω, P ) als

A := A1 ×A2 × ...×An = (a1, ..., an) | ai ∈ Ai, 1 ≤ i ≤ n

Page 44: Grundlagen der Stochastik

44 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

Bemerkung 3.36:

Dann gilt

P (A) =

n∏

k=1

Pk (Ak)

Beweis:

Es ist

P (A) = P (A1 × ...×An)

Definition=

(a1,...,an)∈A

p (a1, ..., an)

=∑

(a1,...,an)∈A

n∏

k=1

Pk (ak)

=n∏

k=1

(∑

ak∈Ak

Pk (ak))

=

n∏

k=1

Pk (Ak) ,

was die Behauptung zeigt.

3.37 Satz:

Seien Ai ⊆ Ωi Ereignisse. Setze A∗k := (a1, ..., an) ∈ Ω | ak ∈ Ak fur 1 ≤ k ≤ n. Fur das Produktexpe-

riment (Ω, P ) wie in (3.4) gelten:

(1) P (A∗k) = Pk (Ak) fur jedes 1 ≤ k ≤ n.

(2) Die Ereignisse A∗1, ..., A

∗n sind in jedem Fall unabhangig.

Beweis:

(1) Es ist

P (A∗i ) = P (Ω1 × ...× Ωi−1 ×Ai × Ωi+1 × ...× Ωn)

Bemerkung 3.36= P1 (Ω1) · ... · Pi−1 (Ωi−1) · Pi (Ai) · Pi+1 (Ωi+1) · ... · Pn (Ωn)

= Pi (Ai) ,

was die Behauptung zeigt.

(2) Fur jede TeilfamilieA∗

i1, ..., A∗

ikmit 1 ≤ ii < ... < ik ≤ n

gilt

P

k⋂

j=1

A∗ij

= P (Ω1 × ...× Ωi1−1 ×Ai1 × Ωi1+1 × ...)

Bemerkung 3.36= Pi1 (Ai1) · ... · Pik

(Aik) · P1 (Ω1)︸ ︷︷ ︸

=1

·...

(1)= P

(A∗

i1

)· ... · P

(A∗

ik

).

Das zeigt auch hier die Behauptung.

Bemerkung 3.38:

Mit Hilfe dieses Satzes konnen wir sehr leicht einen Wahrscheinlichkeitsraum (Ω, P ) konstruieren, der nunabhangige Ereignisse enthalt, die vorgegebene Wahrscheinlichkeiten p1, ..., pn haben:

Setze Ω1 = ... = Ωn = 0, 1, A1 = ... = An = 1 und definieren fur jedes i = 1, ..., n

Pi (0) := 1− pi, Pi (1)︸ ︷︷ ︸Pi(Ai)

:= pi

Nach dem Satz sind dann A∗1, ..., A

∗n unabhangige Experimente mit den vorgegebenen Wahrscheinlichkei-

ten.

Page 45: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 45

3.4.1 Mit Produktexperimenten zusammenhangende Verteilungen

(1) Binomialverteilung (”Zahlen von Erfolgen“)

Ein Bernoulli-Experiment ist ein Experiment mit Ω = 0, 1 und Erfolgswahrscheinlichkeitp (1) = p ∈ [0, 1], p (0) = 1− p.

Setze p1 := p und p0 := 1 − p. Das Produkt von n Bernoulli-Experimenten mit gleicher Erfolgs-wahrscheinlichkeit ist dann

Ω = 0, 1n , p (a1, ..., an) = pa1· ... · pan

fur (a1, ..., an) ∈ Ω

Sei jetzt

Ak :=

(a1, ..., an)∣∣∣

n∑

j=1

aj = k

das Ereignis”k Erfolge“ fur 0 ≤ k ≤ n. Dann ist #Ak =

(nk

), fur jedes (a1, ..., an) ∈ Ak gilt

P ((a1, ..., an)) = pk (1− p)n−k

und daher folgt

P (Ak) =

(n

k

)pk (1− p)

n−k, 0 ≤ k ≤ n.

Wir erhalten also genau die Binomialverteilung.

(2) Multinomialverteilung (”Zahlen von Ausgangen“)

Man fuhrt n identische, stochastisch unabhangige Experimente durch. Jedes Experiment hat rAusgange 1, ..., r, die mit Wahrscheinlichkeiten p1, ..., pr auftreten.

Modell: Seien Ωi = 1, ..., r und die Wahrscheinlichkeitsverteilungen Pi durch den Wahrscheinlich-keitsvektor (p1, ..., pr) gegeben (1 ≤ i ≤ n).

Im Produktexperiment ist

Ω = Ω1 × ...× Ωn = 1, ..., rn und P =n⊗

i=1

Pi

und somitp(a1, .., an) = pa1

· ... · pan.

Sei Ak1,...,krdas Ereignis in n Versuchen k1 mal den Ausgang

”1“, ..., kr mal den Ausgang

”r“ zu

erhalten (dabei muss naturlichn∑

i=1

ki = n und 0 ≤ ki fur i ≤ i ≤ n gelten). Dann ist

P (Ak1,...,kr) =

(n

k1, ..., kr

)· pk1

1 · ... · pkrr

die auf (k1, ..., kr)

∣∣n∑

i=1

ki = n, 0 ≤ ki

gegebene Multinomialverteilung mit Parametern n und p1, .., pr. Dabei muss naturlich

r∑

i=1

pi = 1

gelten.

Beispiel 3.39:

Auf einem Glucksrad sind 3 Bereiche markiert. Beim zufalligen Drehen stoppt das Rad mit Wahr-scheinlichkeit p1 = 1

2 im Bereich”1“, mit p2 = 3

8 im Bereich”2“ und mit p3 = 1

8 im Bereich”3“.

Dann ist

P (5 mal”1“, 3 mal

”2“, 2 mal

”3“) = P (A5,3,2) =

(10

5, 3, 2

)·(

1

2

)5

·(

3

8

)3

·(

1

8

)2

.

Page 46: Grundlagen der Stochastik

46 3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente

(3) Geometrische Verteilung (”Warten auf den ersten Erfolg“)

Gegeben sei ein n-faches Bernoulli-Experiment Ω = 0, 1n mit Erfolgswahrscheinlichkeit p ∈ [0, 1].

Sei fur 1 ≤ k ≤ n Ak das Ereignis”erster Erfolg im k-ten Versuch

”(1 ≤ k ≤ n). Dann ist

P (Ak) = (1− p)k−1 · p

Beweis:

Im Produktexperiment ist naturlich Pi = P fur jedes 1 ≤ i ≤ n, wobei P (0) = 1−p, P (1) = p.

Offenbar entspricht fur 1 ≤ k ≤ n das Ereignis Ak genau der Menge

0 × ...× 0︸ ︷︷ ︸(k−1)-mal

×1 ,

da ja vor dem Erfolg im k-ten Versuch nur Misserfolge auftreten durfen. Gemaß Bemerkung 3.36gilt dann

P (Ak) = P (0 × ...× 0 × 1) =

k−1∏

i=1

Pi (0) · Pk (1) = (1− p)k−1 · p,

was die Behauptung zeigt.

Intuitiv richtig erscheint die Aussage auch fur n //∞, also

pk := Pk(Ak) = (1− p)k−1 · p, k = 1, 2, ....

Fur den formalen Beweis benotigt man Maßtheorie. Diese Gleichung definiert die geometrische Ver-teilung auf N mit P (1) = p, P (2) = (1− p) · p, ....

Dies ist tatsachlich eine Wahrscheinlichkeitsverteilung auf N, da es sich um eine Wahrscheinlich-keitsfunktion handelt:

∞∑

k=1

pk = p ·∞∑

k=1

(1− p)k−1

= p ·∞∑

k=0

(1− p)k

geometrische Reihe= p ·

(1

1− (1− p)

)

=p

p

= 1.

(4) Negative Binomialverteilung (”k Misserfolge vor dem r-ten Erfolg“)

Wir betrachten ein n-faches Bernoulli-Experiment, n ∈ N, mit Erfolgswahrscheinlichkeit p ∈ [0, 1].Seien r, k ∈ N mit k + r ≤ n. Setze

A :=”genau k Misserfolge vor dem r-ten Erfolg“.

3.40 Lemma:

Es gilt

P (A) =

(k + r − 1

k

)pr (1− p)

k

Beweis:

Sei Ω = 0, 1k+rder Produktraum mit der Verteilung, welche durch pi(1) = p, pi(0) = 1 − p,

1 ≤ i ≤ k + r gegeben ist. Naturlich soll dabei”1“ fur

”Erfolg“ und

”0“ fur

”Misserfolg“ stehen.

Nach der Binomialverteilung ist die Wahrscheinlichkeit, genau r − 1 Erfolge und k Misserfolge vordem r-ten Erfolg zu erhalten genau

(k + r − 1

r − 1

)pr−1 (1− p)

k+r−1−(r−1)

Page 47: Grundlagen der Stochastik

3 Unabhangigkeit, bedingte Wahrscheinlichkeiten und mehrstufige Experimente 47

und daher folgt

P (A) =

(k + r − 1

r − 1

)pr−1 (1− p)

k · p︸︷︷︸r−ter Erfolg

=

(k + r − 1

k + r − 1− (r − 1)

)pr (1− p)

k

=

(k + r − 1

k

)pr(1− p)k,

was die Behauptung zeigt.

Diese Verteilung nennt man auch die negative Binomialverteilung.

Page 48: Grundlagen der Stochastik

48 4 Zufallsvariablen, Verteilungen

4 Zufallsvariablen, Verteilungen

4.1 Zufallsvariablen

Das Ziel der Einfuhrung von Zufallsvariablen ist eine unkomplizierte Beschreibung von Ereignissen. Siebilden ein wichtiges Handwerkszeug zur Formulierung und Losung von stochastischen Problemen.

4.1 Definition:

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Ω′ 6= ∅ eine beliebige Menge. Eine Abbildung

X : Ω // Ω′

heißt Zufallsvariable (abgekurzt auch ZV) mit Werten in Ω′.

Falls Ω′ ⊂ Rd so heißt X ein d-dimensionaler Zufallsvektor, falls d = 1 ist, so nennen wir Xreellwertige Zufallsvariable.

Beispiel 4.2:

Beim zweimaligen Wurfeln ist Ω = 1, ..., 62 und ω = (a1, a2) ∈ Ω mit 1 ≤ ai ≤ 6.

Wir betrachten die Summe der Augenzahlen

X(ω) := a1 + a2,

das Maximum der WurfelergebnisseX(ω) := max a1, a2 ,

oder das Produkt der AugenzahlenX(ω) := a1 · a2.

Dann ist etwa X(ω) = a1 + a2 ist reellwertige Zufallsvariable mit Werten in Ω′ = 2, ..., 12.Bemerkung 4.3:

X muss nicht injektiv und auch nicht surjektiv sein.

X”transportiert“ Wahrscheinlichkeitsmasse, z.B. wenn X(ω) = a1 + a2 ist

P (X = 4) = P ((a1, a2) | a1 + a2 = 4)= P ((1, 3), (2, 2), (3, 1))= P ((1, 3)) + P ((2, 2)) + P ((3, 1))

=1

36+

1

36+

1

36=

1

12

Das heißt, man bestimmt die Verteilung von X auf Ω′ uber Mengen wie X−1 (4).X−1 ist eine Abbildung von Mengen, d.h

X : P(Ω′)→ P(Ω) A′ 7−→ X−1(A′) = ω ∈ Ω | X(ω) ∈ A′.

Die allgemeinen Regeln fur Urbilder gelten naturlich auch fur Zufallsvariablen, wir wollen sie ohne Beweisin folgendem Lemma festhalten:

4.4 Lemma (Eigenschaften):

Es gilt:

(U1) X−1(X(Ω)) = Ω und X−1(∅) = ∅

(U2) X−1

(⋃i∈I

A′i

)=⋃i∈I

X−1(A′i)

(U3) X−1

(⋂i∈I

A′i

)=⋂i∈I

X−1(A′i)

(U4) X−1 (Ω′ \A′) = Ω \X−1(A′)

4.5 Definition:

Sei ohne Einschrankung Ω′ = X(Ω). Fur einen diskreten Wahrscheinlichkeitsraum (Ω, P ) wird durch

PX : P (Ω′) // R, A′ 7→ PX(A′) := P (X−1(A′))

eine Wahrscheinlichkeitsverteilung PX auf der diskreten Menge Ω′ definiert.

PX heißt Verteilung von X auf Ω′ (unter P ).

Page 49: Grundlagen der Stochastik

4 Zufallsvariablen, Verteilungen 49

Beweis:

Wir mussen die Axiome (A1), (A2) und (A3) eines Wahrscheinlichkeitsraumes nachweisen:

(A1) PX(A′) ≥ 0 gilt.

(A2) PX(Ω′)Definition

= P(X−1(Ω′)

)= P (Ω) = 1

(A3) Seien A′1, A

′2, ... disjunkte Teilmengen von Ω′. Dann gilt

PX

( ∞⋃

i=1

A′i

)Definition

= P

(X−1

( ∞⋃

i=1

A′i

))

= P

(X−1

( ∞∑

i=1

A′i

))

(U3)= P

( ∞∑

i=1

(A′i)

)

σ-Additivitat=

∞∑

i=1

P (X−1(A′i))

Definition=

∞∑

i=1

PX(A′i).

Das zeigt, dass PX in der Tat ein Wahrscheinlichkeitsmaß auf Ω′ ist.

Bemerkung 4.6:

Mittels”Transport von P durch X“ entsteht also ein neuer Wahrscheinlichkeitsraum (Ω′, PX).

Notation 1:

Sei (Ω, P ) diskreter Wahrscheinlichkeitsraum, X : Ω→ Ω′ eine Zufallsvariable.

Man schreibt/meint(X = x) := ω ∈ Ω | X(ω) = x , x ∈ Ω′

und(X ∈ A) := X ∈ A = ω ∈ Ω | X(ω) ∈ A , A ⊂ Ω′.

Damit schreibt man PX(A) = P (X ∈ A) sowie PX (x) = P (X = x).

Falls X reellwertig ist (d.h. Ω′ ⊂ R) so benutzt man auch (X ≤ x) = X ≤ x = ω ∈ Ω | X(ω) ≤ x.

Beispiel 4.7:

Sei Ω = 1, ..., 62, P (a1, a2) = 136 ∀ (a1, a2) ∈ Ω.

• X(a1, a2) = a1 + a2 mit Ω′ = 2, 3, ..., 12.Fur x ∈ Ω′ gilt:

PX = P(X−1 (x)

)=

x−136 falls x = 2, ..., 7,

13−x36 falls x = 8, ..., 12

.

• X(a1, a2) = max a1, a2 mit Ω′ = 1, ..., 6Fur x ∈ Ω′ gilt:

PX(x) = P (X = x) = P (a1, a2) | max a1, a2 = x) =2x− 1

36.

Dadurch ist eine Wahrscheinlichkeitsmaß auf Ω′ gegeben.

Man spricht oft einfach von einer Ω′-wertigen Zufallsvariablen X, mit Verteilung PX und erwahnt weder(Ω, P ) noch die spezielle Abbildung X.

Page 50: Grundlagen der Stochastik

50 4 Zufallsvariablen, Verteilungen

4.8 Definition (Indikatorvariable):

Fur A ⊂ Ω definieren wir durch

1A : Ω // 0, 1, 1A(ω) =

1 falls ω ∈ A

0 falls w /∈ A

die Indikatorvariable zu A.

Die Verteilung von X = 1A sieht wie folgt aus:

• PX(1) = P(X−1 (1)

)= P (ω ∈ Ω | X(ω) = 1) = P (A)

• PX(0) = P(X−1 (1)

)= P (ω ∈ Ω | X(ω) = 0) = P (AC)

Beispiel 4.9:

Sei Ω = 1, ..., 6 und A = 2, 4, 6. Dann ordnet 1A wie folgt zu:

2, 4, 6 7→ 1,

1, 3, 5 7→ 0.

Bemerkung 4.10:

Falls Ω′ ⊂ Rd, d ≥ 2 und damit X(ω) = (X1(ω), ...,Xd(ω)) so ist fur A = A1 × ...×Ad:

P (X ∈ A) = P

d⋂

j=1

Xj ∈ Aj

.

Insbesondere gilt also

P (X = x) = P (X1 = x1, ...,Xd = xd) = P

d⋂

j=1

X−1i (xi)

.

4.11 Definition (Gemeinsame Verteilung):

Sei (Ω, P ) gegeben, Xj : Ω // Ω′j , j = 1, ..., n seien Zufallsvariablen. Wir definieren

X : Ω // Ω′1 × ...× Ω′

n durch ω 7→ (X1(ω), ...,Xn(ω)).

Dann heißt PX = P (X1,...Xn) die gemeinsame Verteilung von X1, ...Xn. Die zugehorige Wahrschein-lichkeitsfunktion ist

p(x1, ...xn) = P (X1 = x1, ...Xn = xn) fur alle Tupel (x1, ..., xn) ∈ Ω′.

Beispiel 4.12:

Wir wollen wieder zweifach mit einem fairen Wurfel werfen. Betrachte also Ω = 1, 2, 3, 4, 5, 6 mit derLapace-Verteilung P . Definiere fur (a1, a2) = ω ∈ Ω die Zufallsvariablen X1,X2 : Ω // Ω (also Ω′ = Ω),

X1 (ω) := min a1, a2 ,

X2 (ω) := max a1, a2 .

Die gemeinsame Verteilung von X1 und X2 konnen wir dann als Matrix schreiben. Setze dazu c := 136

und erhalte

x1 / x2 1 2 3 4 5 6 P (X1) (x1)

1 c 2c 2c 2c 2c 2c 11c

2 0 c 2c 2c 2c 2c 9c

3 0 0 c 2c 2c 2c 7c

4 0 0 0 c 2c 2c 5c

5 0 0 0 0 c 2c 3c

6 0 0 0 0 0 c c

P (X2) (x2) c 3c 5c 7c 9c 11c

Page 51: Grundlagen der Stochastik

4 Zufallsvariablen, Verteilungen 51

Dabei steht in der Zelle (i, j) naturlich P (X1,X2) (i × j) = P (X1 = i,X2 = j) und wir haben in derletzten Zeile / Spalte gleich noch die Werte der Einzel-Verteilungen PX1 und PX2 eingetragen, da diesesich einfach als Summe der Zeilen- / Spalteneintrage berechnen.

4.13 Definition:

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xj : Ω //Ω′j fur 1 ≤ j ≤ n Zufallsvariablen.

Fur eine Indexauswahl1 ≤ i1 < ... < ik ≤ n

nennen wir die gemeinsame Verteilung von Xi1 , ...,Xikeine k-dimensionale Randverteilung oder

auch Marginalverteilung.

Beispiel 4.14:

Sei X = (X1,X2). Dann sind PXi fur i = 1, 2 1-dimensionale Randverteilungen und es gilt zum Beispiel

PX1(x1) = P (X1 = x1) =∑

x2∈X2(Ω)

P (X1 = x1,X2 = x2) , x1 ∈ Ω′1.

4.1.1 Unabhangigkeit von Zufallsvariablen

Die Idee ist, dass zwei Zufallsvariablen X1,X2 unabhangig sind, wenn

P (X1 = x1,X2 = x2) = P (X1 = x1) · P (X2 = x2) ∀ (x1, x2) ∈ Ω′1 × Ω′

2

gilt.

Beispiel 4.15:

In obigem Beispiel 4.12 kann man aus der Tabelle leicht ablesen, dass

P (X1 = 1,X2 = 1) =1

36

gilt, aber

P (X1 = 1) · P (X2 = 1) =11

36· 1

366= 1

36

ist. Daher sollten X1 und X2 wie dort definiert nicht unabhangig sein.

4.16 Definition:

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω //Ω′i fur 1 ≤ i ≤ n Zufallsvariablen.

Wir nennen X1, ...,Xn unabhangig, wenn

P (X1,...,Xn) =n⊗

i=1

PXi

gilt. Dabei meintn⊗

i=1PXi einfach das Produkt der Verteilungen, also

n⊗i=1

PXi (A1 × ...×An) =n∏

i=1

PXi (Ai) , Ai ∈ Ω′i fur i = 1, ...n.

Beispiel 4.17:

Sei n = 2 und seien X1,X2 : Ω // 0, 1 durch folgende Tabelle gegeben, in welche wir auch gleich dieEinzelverteilungen PX1 und PX2 wie im obigen Beispiel eintragen:

x1/x2 0 1 PX1 (x1)

0 0.12 0.28 0.4

1 0.18 0.42 0.6

PX2 (x2) 0.3 0.7

Man stellt fest, dass

2⊗i=1

PXi (x1, x2)Definition

= PX1 (x1) · PX2 (x2) = P (X1 = x1) · P (X2 = x2)

Page 52: Grundlagen der Stochastik

52 4 Zufallsvariablen, Verteilungen

gilt. In jeder Zelle giltP (X1 = x1) · P (X2 = x2) = P (X1 = x1,X2 = x2)

und daher sind X1 und X2 hier unabhangig.

4.18 Satz:

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien Xi : Ω //Ω′i fur 1 ≤ i ≤ n Zufallsvariablen.

Dann sind die folgenden Aussagen aquivalent:

(1) X1, ...,Xn sind unabhangig.

(2) Fur alle Ai ⊆ Ω′i, 1 ≤ i ≤ n gilt

P (X1 ∈ A1, ...,Xn ∈ An) =

n∏

i=1

P (Xi ∈ Ai) .

(3) Fur alle xi ∈ Ω′i, 1 ≤ i 6= n gilt

P (X1 = x1, ...,Xn = xn) =

n∏

i=1

P (Xi = xi) .

Beweis:

”(1)⇒(2)“ Fur beliebige Ai ⊆ Ω′

i, 1 ≤ i ≤ n, gilt

P (X1 ∈ A1, ...,Xn ∈ An) = P ((X1, ...,Xn) ∈ A1 × ...×An)

= P (X1,...,Xn) (A1 × ...×An)

X1,...,Xn unabhangig=

(n⊗

i=1

PXi

)(A1 × ...×An)

=

n∏

i=1

PXi (Ai)

=n∏

i=1

P (Xi ∈ Ai)

”(2)⇒(3)“ Fur gegebene xi ∈ Ω′

i, 1 ≤ i ≤ n setze Ai := xi.

”(3)⇒(1)“ Hier gilt fur alle xi ∈ Ω′

i, 1 ≤ i ≤ n:

P (X1,...,Xn) (x1, ..., xn)(3)=

n∏

i=1

P (Xi = xi)

Definition=

(n⊗

i=1

PXi

)(x1, ..., xn)

Daher stimmen die zu den Verteilungen P (X1,...,Xn) undn⊗

i=1PXi gehorigen Wahrscheinlichkeits-

funktionen auf allen Tupeln (x1, ..., xn) ∈ Ω1 × ...× Ωn uberein und aus diesem Grund mussen diebeiden Verteilungen gleich sein.

Unabhangige Zufallsvariablen verwendet man ublicherweise zur Modellierung von Ausgangen von Ex-perimenten, die vollig getrennt ablaufen. Betrachte etwa das folgende Problem, welches allgemein alsZiegenproblem oder auch 3-Turen-Problem bekannt ist:

Beispiel 4.19:

Wir betrachten drei Turen mit den Nummern 1 bis 3, wobei hinter einer rein zufalligen Tur ein Ge-winn (etwa ein Auto) und hinter den anderen beiden Turen je eine Ziege ist. Die Turen sind naturlichverschlossen. Das Spiel lauft nun wie folgt ab:

(1) Der Kandidat wahlt eine Tur.

Page 53: Grundlagen der Stochastik

4 Zufallsvariablen, Verteilungen 53

(2) Der Moderator offnet eine der beiden anderen Turen, aber nicht die, hinter welcher sich der Gewinnbefindet.

(3) Der Kandidat darf wechseln.

Die Frage ist nun, ob es sich fur den Kandidaten lohnt, zu wechseln.

Wir modellieren das Problem durch folgende Zufallsvariablen:

• X1:= Nummer der Tur, hinter welcher sich der Gewinn befindet (∈ 1, 2, 3).

• X2:= Nummer der Tur, die der Kandidat in Schritt (1) auswahlt (∈ 1, 2, 3).

Nach unseren Annahmen ist dann

P (X1 = 1) = P (X1 = 2) = P (X1 = 3) =1

3

(der Gewinn ist rein zufallig verteilt) und die Zufallsvariablen X1 und X2 sind unabhangig (der Kandidathat keine Informationen uber die Gewinntur.

Verfolgt der Kandidat die Strategie”nicht wechseln“, so gewinnt er genau dann, wenn X1 = X2 gilt. Also

P (”Gewinn“) = P (X1 = X2)

=

3∑

i=1

P (X1 = i,X2 = i)

X1,X2 unabhangig=

3∑

i=1

P (X1 = i)︸ ︷︷ ︸= 1

3

·P (X2 = i)

=1

3

3∑

i=1

P (X2 = i)

︸ ︷︷ ︸=1

=1

3.

Man beachte, dass es fur dieses Ergebnis vollig egal ist, wie X2 verteilt ist, d.h. z.B. davon, ob derKandidat mit Vorliebe eine der Turen auswahlt.

Verfolgt der Kandidat dagegen die Strategie”wechseln“, so gewinnt er genau dann, wenn X1 6= X2 gilt

(weil der Moderator dann nur genau eine Tur offnen kann, hinter der naturlich eine Ziege steht, und derKandidat in Schritt (3) dann zwangslaufig auf die Gewinn-Tur wechselt). Es folgt also

P (”Gewinn“) = P (X1 6= X2) = 1− P (X1 = X2) = 1− 1

3=

2

3.

Die Strategie”wechseln“ ist also deutlich besser!

4.20 Definition (Funktionen von Zufallsvariablen):

Sei Ω ein diskreter Grundraum und seien Ω′,Ω′′ beliebige Mengen. Sei X : Ω // Ω′ eine Zufallsvariableund g : Ω′ // Ω′′ eine beliebige Abbildung. Dann wird durch

g(X) := g X : Ω // Ω′′

eine Ω′′-wertige Zufallsvariable g X durch ω 7→ g(X(ω)) auf Ω definiert.

Beispiel 4.21:

Sei g : Rn // R gegeben durch x = (x1, ..., xn) 7→n∑

i=1

xi. Ist

X : Ω // Rn, ω 7→ (X1(ω), ...,Xn(ω))

eine Zufallsvariable, so ist g(X) gegeben durch

ω 7→n∑

i=1

Xi(ω), ω ∈ Ω.

Page 54: Grundlagen der Stochastik

54 4 Zufallsvariablen, Verteilungen

Beispiel 4.22:

Sei X : Ω // R eine Zufallsvariable und g : R // R gegeben durch

x 7→ xk

fur ein k ∈ N. Dann ist (g(X)) (ω) = (X(ω))k, ω ∈ Ω und wir schreiben auch

Xk := g(X)

4.23 Lemma:

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω // Ωi, 1 ≤ i ≤ n unabhangige Zufallsva-riablen. Sei 1 ≤ i1 < ... < ik ≤ n eine Indexauswahl. Dann sind auch die Zufallsvariablen

Xi1 , ...,Xik

unabhangig.

Beweis:

Laut Satz 4.18 genugt es zu zeigen, dass fur alle Aij⊂ Ω′

ij, 1 ≤ j ≤ k, gilt:

P (Xi1,...,Xik) (Ai1 × ...×Aik

) =

k∏

j=1

P(Xij∈ Aij

).

Es gilt

P (Xi1,...,Xik) (Ai1 × ...×Aik

)

= P (Xi1 ∈ Ai1 , ...,Xik∈ Aik

)

= P(X1 ∈ Ω′

1︸ ︷︷ ︸trivial!

, ...,Xi1−1 ∈ Ω′i1−1︸ ︷︷ ︸

trivial!

,Xi1 ∈ Ai1 ,Xi1+1 ∈ Ω′i1+1︸ ︷︷ ︸

trivial!

, ...

...,Xik−1 ∈ Ω′ik−1︸ ︷︷ ︸

trivial!

,Xik∈ Aik

,Xik+1 ∈ Ω′ik+1︸ ︷︷ ︸

trivial!

, ...,Xn ∈ Ω′n︸ ︷︷ ︸

trivial!

)

X1,...,Xn unabh.= P (X1 ∈ Ω′

1) · ... · P(Xi1−1 ∈ Ω′

i1−1

)· P (Xi1 ∈ Ai1) ·

· P(Xi1+1 ∈ Ω′

i1+1

)· ... · P

(Xik−1 ∈ Ω′

ik−1

)· P (Xik

∈ Aik) ·

· P(Xik+1 ∈ Ω′

ik+1

)· ... · P (Xn ∈ Ω′

n)

=

n∏

i=1i6=ij∀j∈1,...,k

P (Xi ∈ Ω′i)︸ ︷︷ ︸

=1

·k∏

j=1

P(Xij∈ Aij

)

=

k∏

j=1

P(Xij∈ Aij

).

Damit ist die Behauptung gezeigt.

4.24 Satz (Blockungslemma):

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und Xi : Ω // Ωi, 1 ≤ i ≤ n unabhangige Zufallsva-riablen. Sei I1, ..., Ik eine disjunkte Zerlegung der Menge 1, ..., n und setze cj := #Ij. Seien zuletzt

gj :×i∈Ij

Ω′i

// Ω′′j , j = 1, ..., k

beliebige Abbildungen. Ist Ij =

ij1, ..., ijcj

, so sind auch die Zufallsvariablen

Yj := gj

(X

ij1, ...,X

ijcj

), j = 1, ..., k

unabhangig.

Page 55: Grundlagen der Stochastik

4 Zufallsvariablen, Verteilungen 55

Beweis:

Es genugt offenbar zu zeigen, dass fur eine Abbildung

g : Ω′1 × ...× Ω′

m// Ω′′, 1 ≤ m < n,

und X := g (X1, ...,Xm) die Zufallsvariablen

X,Xm+1, ...,Xn

ebenfalls unabhangig sind. Laut Satz 4.18 haben wir also ∀ xi ∈ Ω′i, m + 1 ≤ i ≤ n, ∀ y ∈ Ω′′ zu zeigen:

n∏

i=m+1

P (Xi = xi) · P (X = y) = P (X = y,Xm+1 = xm+1, ...,Xn = xn) (4.1)

Fur y ∈ Ω′′ berechnen wir dazu zunachst

P (X = y) = P(X−1 (y)

)

= P(

a ∈ Ω | X1(a) ∈ g−1 (y) , ...,Xm(a) ∈ g−1 (y))

= P (X1,...,Xm)(g−1 (y)

)

=∑

a∈g−1(y)p(X1,...,Xm)(a)

=∑

a∈g−1(y)P (X1 = a, ...,Xm = a)

Damit folgt

P (X = y) · P (Xm+1 = xm+1, ...,Xn = xn)

=∑

a∈g−1(y)P (X1 = a, ...,Xn = a) · P (Xm+1 = xm+1, ...,Xn = xn)

Unabhangigkeit, Lemma 4.23=

a∈g−1(y)P (X1 = a, ...,Xm = a,Xm+1 = xm+1, ...,Xn = xn)

= P(X1 ∈ g−1 (y) , ...,Xm ∈ g−1 (y) ,Xm+1 = xm+1, ...,Xn = xn

)

= P (X = y,Xm+1 = xm+1, ...,Xn = xn)

Damit ist 4.1 und daher die Behauptung gezeigt.

Beispiel 4.25:

Sind X1, ...,Xn unabhangige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit Wer-ten in R, so sind auch die Zufallsvariablen

X21 , ...,X2

n

unabhangig. Um das zu zeigen, wende einfach das Blockungslemma mit Ii = i , 1 ≤ i ≤ n undg1(x) = g2(x) = ... = gn(x) = x2 an.

Genauso folgt dann die Unabhangigkeit von

|X1|, ..., |Xn|

oderX2

1 , |X2|, |X3|5, ...usw..

Beispiel 4.26:

Seien X1, ...,X5 unabhangige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mitWerten in R. Dann sind auch die Zufallsvariablen

X1 sin(X4),X2 · exp(X3 ·X5)

unabhangig. Um das zu sehen wende das Blockungslemma auf I1 = 1, 4 und I2 = 2, 3, 5mit g1 (x, y) =x · sin(y), g2 (x, y, z) = x · exp (y · z) an.

Page 56: Grundlagen der Stochastik

56 4 Zufallsvariablen, Verteilungen

4.2 Verteilungen

Sei stets (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und X : Ω // Ω′ eine Zufallsvariable.

4.27 Definition:

Ist Ω′ = x1, ..., xn, so nennen wir X Laplace-verteilt (oder auch gleichverteilt), falls

P (x = xk) =1

n∀ k = 1, ..., n.

4.28 Definition:

Ist Ω′ = 0, 1, so nennen wir X Bernoulli-verteilt mit Parameter p ∈ [0, 1], falls

P (X = 1) = p, P (x = 0) = 1− p.

Wir schreiben dann auch X ∼ B (1, p).

4.29 Definition:

Ist Ω′ = 1, ..., n, so nennen wir X Binomial-verteilt mit Parametern p ∈ [0, 1] , n ∈ N, falls

P (X = k) =

(n

k

)pk (1− p)

n−k, k = 0, ..., n.

Wir schreiben dann auch X ∼ B (n, p).

Abbildung 6: Binomialverteilungen B(n, p) mit p = 0.1, 0.2, 0.5, 0.8

4.30 Satz:

Seien X1, ...,Xn unabhangige Zufallsvariablen auf (Ω, P ) und es gelte Xi ∼ B(1, p) fur jedes i ∈ 1, ..., nmit festem p ∈ [0, 1]. Dann gilt

X1 + ... + Xn ∼ B(n, p).

Beweis:

Es istP (X1 + ... + Xn = k) =

(a1,...,an)∈0,1n

n∑i=1

ai=k

P (X1 = a1, ...,Xn = an)

Fur jedes (a1, ..., an) ∈ 0, 1n mitn∑

i=1

ai = k gilt

P (X1 = a1, ...,Xn = an)X1,...,Xn unabhangig

= P (X1 = a1) · ... · P (Xn = an) = pk (1− p)n−k

Außerdem ist

#

(a1, ..., an) ∈ 0, 1n |

n∑

i=1

ai = k

= #k − elementige Teilmengen einer n− elementigen Menge

=

(n

k

).

Damit folgt schon die Behauptung.

Page 57: Grundlagen der Stochastik

4 Zufallsvariablen, Verteilungen 57

4.31 Definition:

Ist Ω′ = N, so nennen wir X geometrisch verteilt mit Parameter p ∈ [0, 1], falls

P (X = k) = p · (1− p)k−1

, k ∈ N.

Wir schreiben dann auch X ∼ Geo(p).

Abbildung 7: Geometrische Verteilungen Geo(p) mit p = 0.5, 0.25, 0.1

4.32 Lemma:

Ist X ∼ Geo(p), so gilt

P (X ≥ k) = (1− p)k−1

fur jedes k ∈ N.

Beweis:

Es ist

P (X ≥ k) =

∞∑

j=k

P (X = j)

=∞∑

j=k

(1− p)j−1

p

= p · (1− p)k−1

∞∑

j=0

(1− p)j

︸ ︷︷ ︸= 1

p

= (1− p)k−1

fur jedes k ∈ N. Das zeigt die Behauptung.

Bemerkung 4.33:

In diesem Zusammenhang spricht man bei der geometrisch verteilten Zufallsvariablen auch von der

”Uberlebenswahrscheinlichkeit“.

Will man etwa modellieren, wie groß die Wahrscheinlichkeit ist, dass ein bestimmtes Bauteil mehr als kArbeitsgange halt, so verwendet man X ∼ Geo(p) mit der Wahrscheinlichkeit p, dass das Bauteil einenfesten Arbeitsgang uberlebt.

4.34 Lemma:

Ist X ∼ Geo(p) eine Zufallsvariable, so gilt die Gedachtnislosigkeit, namlich

P (X ≥ k + j | X > j) = P (x ≥ k) ∀ j, k ∈ N.

Page 58: Grundlagen der Stochastik

58 4 Zufallsvariablen, Verteilungen

Beweis:

Seien k, j ∈ N. Da k ≥ 1 ist stets

X ≥ k + j ∩ X > j = ω ∈ Ω | X(ω) ≥ k + j ∩ ω ∈ Ω | X(ω) ≥ j + 1 = X ≥ k + j (4.2)

Damit folgt

P (X ≥ k + j | X > j)(4.2)=

P (X ≥ k + j)

P (X ≥ j + 1)

Lemma 4.32=

(1− p)k+j−1

(1− p)j

= (1− p)k−1

Lemma 4.32= P (X ≥ k) .

Damit ist die Behauptung gezeigt.

Bemerkung 4.35:

Die Umkehrung dieser Aussage gilt ebenfalls. Vergleiche dazu Ubungsblatt 5.

Bemerkung 4.36:

Betrachtet man X ∼ Geo(p) als”Uberlebenswahrscheinlichkeit“, so sagt die Gedachtnislosigkeit genau,

dass gebrauchte Bauteile ebenso gut wie neue Bauteile sind.

4.37 Definition:

Ist Ω′ = N0, so nennen wir X Poisson-verteilt mit Parameter λ ∈ (0,∞), falls

P (X = k) = exp (−λ) · λk

k!︸ ︷︷ ︸=poiλ(k)

, k ∈ N0.

Wir schreiben dann auch X ∼ Poi(λ).

Abbildung 8: Poisson-Verteilungen Poi(λ) mit λ = 2, 4, 10, 16

Bemerkung 4.38:

Poisson-verteilte Zufallsvariablen werden empirisch beobachtet bei z.B.

• Anrufen pro Minute in einem Call-Center,

• der Anzahl radioaktiver Zerfalle pro Zeitintervall und

• der Anzahl von Meteoriteneinschlagen in einem Gebiet pro Zeitintervall.

Allgemein tritt die Poisson-Verteilung dann auf, wenn Realisationen vieler moglicher, aber nur mit kleinerWahrscheinlichkeit eintretender Ereignisse gewahlt werden.

Page 59: Grundlagen der Stochastik

4 Zufallsvariablen, Verteilungen 59

4.2.1 Eigenschaften der Possionverteilung

4.39 Satz (Poisson-Grenzwertsatz):

Ist (Xn)n≥1 eine Folge von B(n, pn) verteilten Zufallsvariablen mit n · pnn // ∞ // λ ∈ (0,∞), so gilt

limn→∞

P (Xn = k) = poiλ(k) fur k = 0, 1, ...

Beweis:

Zunachst gilt

P (Xn = k) =

(n

k

)· pk

n · (1− p)n−k

=n · (n− 1) · ... · (n− k + 1)

k!· 1

nk· (n · pn)k ·

(1− npn

n

)n

· (1− pn)−k

=n

n· n− 1

n· ... · n− k + 1

n· (n · pn)k

k!·(1− n · pn

n

)n

· (1− pn)−k

Berechnen wir nun die Grenzwerte einzeln, so haben wir

n

n· n− 1

n· ... · n− k + 1

n

n // ∞ // 1,

(n · pn)k

k!

n // ∞ // λk

k!,

(1− n · pn

n

)n n // ∞ // exp(−λ),

(1− pn)−k n // ∞ // 1.

Das liefert

P (Xn = k)n // ∞ // exp(−λ) · λ

k

k!

mit der obigen Darstellung und zeigt die Behauptung.

Die folgende Fehlerabschatzung wollen wir nur ohne Beweis angeben:

4.40 Satz (Fehlerabschatzung fur die Poisson-Approximation der Binomialverteilung):

Sei X ∼ B(n, p) und λ := n · p. Dann gilt fur jede Teilmenge A ⊂ 0, 1, 2, ...:∣∣∣∣∣P (x ∈ A)−

k∈A

poiλ(k)

∣∣∣∣∣ ≤ (1− exp(−np)) · p

≤ p.

Insbesondere ist∣∣∣∣P (X = k)− exp(−λ) · λ

k

k!

∣∣∣∣ ≤ (1− exp(−np)) · p ∀k = 0, 1, 2, ...

Beispiel 4.41:

Sei n = 1000 und p = 10−3. Dann ist der Fehler der Approximation:

∣∣∣∣∣P (x ∈ A)−∑

k∈A

poiλ(k)

∣∣∣∣∣ ≤ (1− exp(1)) · 10−3 ≈ 0.64 · 10−3 = 0.00064

Page 60: Grundlagen der Stochastik

60 5 Kenngroßen von Verteilungen

5 Kenngroßen von Verteilungen

5.1 Der Erwartungswert

5.1 Lemma:

Sei X : Ω → Ω′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung aufΩ. Dann gilt ∑

ω∈Ω

|X(ω)| · P (ω) <∞ ⇔∑

x∈Ω′

|x| · PX(x) <∞

und in diesem Falle ∑

ω∈Ω

X(ω) · P (ω) =∑

x∈Ω′

x · P (X = x).

Beweis:

Wir berechnen∑

ω∈Ω

X(ω) · P (ω) =∑

x∈Ω′

ω∈ΩX(ω)=x

X(ω) · P (ω)

=∑

x∈Ω′

ω∈ΩX(ω)=x

x · P (ω)

=∑

x∈Ω′

x ·∑

ω∈ΩX(ω)=x

P (ω)

=∑

x∈Ω′

x · P (X = x).

Die gleiche Rechnung mit |X(ω)| bzw. |x| zeigt, dass die”<∞“-Bedingungen aquivalent sind.

5.2 Definition:

Sei X : Ω → Ω′ eine diskrete reellwertige Zufallsvariable und P eine Wahrscheinlichkeitsverteilung aufΩ. Wir definieren den Erwartungswert E(X) von X durch

E(X) :=∑

ω∈Ω

X(ω) · P (ω), falls∑

ω∈Ω

|X(ω)| · P (ω) <∞ (5.1)

=∑

x∈Ω′

x · P (X = x), falls∑

x∈Ω′

|x| · PX(x) <∞. (5.2)

Bemerkung 5.3:

(5.2) zeigt, dass E(X) nur von der Verteilung PX von X abhangt. E(X) ist in diesem Sinne also eine

”Kenngroße“ der Verteilung von X.

Bemerkung 5.4:

Die geforderte (absolute) Konvergenz stellt sicher, dass E(X) wohldefiniert ist.

Bemerkung 5.5:

Ist X ≥ 0 (d.h. X nimmt nur nicht-negative Werte an), dann kann man in (5.1) und (5.2) auf die

”<∞“-Forderung verzichten und lasst auch E(X) =∞ zu.

5.1.1 Erwartungswerte einiger Verteilungen

Beispiel 5.6:

Sei X Laplace-verteilt auf Ω′ = x1, ..., xN ⊂ R. Dann gilt

E(X) =N∑

i=1

xi · P (X = xi) =1

N∑

i=1

xi, da P (X = xi) =1

N.

Ein Spezialfall ist x1, ..., xN = 1, ..., N. Dann ist

E(X) =1

N

N∑

i=1

i =1

N· N(N + 1)

2=

N + 1

2.

Bei einem herkommlichen Wurfel ist demnach E(X) = 3.5.

Page 61: Grundlagen der Stochastik

5 Kenngroßen von Verteilungen 61

Beispiel 5.7:

Sei X ∼ B(1, p) eine Bernoulli-verteilte Zufallsvariable mit Ω′ = 0, 1 und P (X = 1) = p. Dann ist

E(X) = 0 · (1− p) + p = p.

Insbesondere liefert das fur die Indikatorvariable X = 1A einer Teilmenge A ⊂ Ω und eine Wahrschein-lichkeitsverteilung P auf Ω, dass X ∼ B(1, p) mit p = P (A), also E(X) = P (A).

Damit ist fur das Wurfeln einer geraden Zahl (also A = 2, 4, 6 ⊂ 1, ..., 6) der Erwartungswert

E(1A) = P (A) =1

2,

was der Intuition entspricht.

Beispiel 5.8:

Sei X ∼ B(n, p) eine Binomial-verteilte Zufallsvariable. Dann bereitet uns die Berechnung von

E(X) =

n∑

k=0

(k ·(

n

k

)· pk · (1− p)n−k

)

einige Schwierigkeiten. Wir werden weiter unten im Beispiel 5.15 eine bessere Methode kennenlernen.

Beispiel 5.9:

Sei X ∼ Poi(λ) eine Poisson-verteilte Zufallsvariable. Dann ist

E(X) =

∞∑

k=0

k · exp(−λ) · λk

k!

= exp(−λ) · λ ·∞∑

k=1

λk−1

(k − 1)!

= exp(−λ) · λ ·∞∑

k=0

λk

k!

= exp(−λ) · λ · exp(λ)

= λ.

5.10 Hilfssatz:

Sei X eine diskrete Zufallsvariable auf (Ω, P ) mit Werten in N0. Dann gilt

E (X) =

∞∑

n=1

P (X ≥ n) . (5.3)

Beweis:

Nach 5.1 gilt

E (X) =∞∑

n=0

n · P (X = n) =∞∑

n=1

n · P (X = n) ,

und diese Summe konvergiert absolut. Daher konnen wir Umordnen und erhalten so

E (X) =∞∑

n=1

∞∑

k=n

P (X = k) =∞∑

n=1

P (X ≥ n) ,

was die Behauptung zeigt.

Beispiel 5.11:

Sei X ∼ Geo(p) eine geometrisch verteilte Zufallsvariable. Dann ist E(X) = 1p.

Page 62: Grundlagen der Stochastik

62 5 Kenngroßen von Verteilungen

Beweis:

Anwenden von Hilfssatz 5.10 liefert

E (X)(5.3)=

∞∑

n=1

P (X ≥ n)

Lemma 4.32=

∞∑

n=1

(1− p)n−1

=

∞∑

n=0

(1− p)n

=1

1− (1− p)

=1

p,

womit die Behauptung schon gezeigt ist.

Das heißt beim Wurfeln mit X =“Warten auf die erste 6“:

E(X) =116

= 6.

5.1.2 Eigenschaften des Erwartungswertes

5.12 Satz (Transformationsformel):

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum, X eine diskrete Zufallsvariable mit Werten in Ω′ undg := Ω′ → R eine Abbildung mit ∑

x∈Ω′

|g(x)| · P (X = x) <∞.

Dann istE(g(X)) =

x∈Ω′

g(x) · P (X = x).

Beweis:

Fur die Verteilung von Y = g X gilt:

P (Y = y) = P (g X = y)

= P (ω | g X(ω) = y)

= P

x∈Ωg(x)=y

ω | X(ω) = x

=∑

x∈Ωg(x)=y

P (X = x)

Damit erhalten wir

E(g(X)) = E(Y )

=∑

y∈Y (Ω)

y · P (Y = y)

=∑

y∈Y (Ω)

y ·∑

x∈g−1(y)P (X = x)

=∑

y∈Y (Ω)

x∈g−1(y)y · P (X = x)

=∑

y∈Y (Ω)

x∈g−1(y)g(x) · P (X = x)

=∑

x∈Ω′

g(x) · P (X = x)

Die selbe Rechnung mit Betragen zeigt, dass der Erwartungswert E (g(X)) im definierten Sinne existiert.

Page 63: Grundlagen der Stochastik

5 Kenngroßen von Verteilungen 63

Beispiel 5.13:

Sei g(x) = xk. Dann heißt

E(Xk) =∑

x∈Ω′

xkP (X = x) k = 1, 2, ...

das k-te Moment von X, sofern dieser Ausdruck existiert. Insbesondere ist das”1.Moment von X“

gleich dem Erwartungswert von X.

5.14 Satz (Linearitat und Monotonie des Erwartungswertes):

Seinen X,Y Zufallsvariablen auf (Ω, P ), s.d. E(X) und E(Y ) existieren. Sei außerdem a ∈ R. Danngelten die folgenden Rechenregeln:

(1) E(X + Y ) = E(X) + E(Y )

(2) E(aX) = a · E(X)

(3) X ≥ Y ⇒ E(X) ≥ E(Y ) (d.h.X(ω) ≥ Y (ω)∀ω)

Beweis:

(1) Per Definition gilt

E(X + Y ) =∑

ω∈Ω

(X + Y )(ω) · P (ω)

=∑

ω∈Ω

(X(ω) + Y (ω)) · P (ω)

=∑

ω∈Ω

X(ω) · P (ω) +∑

ω∈Ω

Y (ω) · P (ω)

= E(X) + E(Y ).

Die gleiche Rechnung mit Betragen zeigt, dass E(X + Y ) existiert.

(2) Hier ist

E(aX) =∑

ω∈Ω

a ·X(ω) · P (ω) = a ·∑

ω∈Ω

X(ω) · P (ω) = a · E(X).

(3) Zuletzt berechnet man

E(X) =∑

ω∈Ω

X(ω) · P (ω) ≥∑

ω∈Ω

Y (ω) · P (ω) = E(Y ).

Damit ist der Satz bewiesen.

Beispiel 5.15:

Sei X ∼ B(n, p) eine Binomial-verteilte Zufallsvariable und seien X1,X2, ...,Xn unabhangig nach B(1, p)verteilt. Nach Satz 4.30 ist dann X1 +X2 + ...+Xn ∼ B(n, p), das heißt X und X1 +X2 + ...+Xn habendie gleiche Verteilung. Folglich gilt

E(X) = E(X1 + X2 + ... + Xn)Linearitat

= E(X1) + E(X2) + ... + E(Xn) = n · p,

da E(X1) = ... = E(Xn) = p fur Bernoulli-verteilte X1, ...,Xn.

Beispiel 5.16:

Sei X(a1, a2, ..., an) gleich der Anzahl der Fixpunkte der Permutation a1, a2, ..., an von 1, 2, ..., n.

Fur n = 4 gilt dann z.B. X(1, 4, 3, 2) = 2.

Allgemein schreiben wir:X(a1, a2, ..., an) = #i | ai = i

Sei P die Laplace-Verteilung auf dem Raum aller Permutationen. Fur Ai = (a1, ..., an) | ai = i giltdann

X =

n∑

i=1

1Ai.

Mit Hilfe der Linearitat konnen wir zeigen:

E(X) = E

(n∑

i=1

1Ai

)=

n∑

i=1

E(1Ai) =

n∑

i=1

P (Ai) =

n∑

i=1

1

n= 1.

Page 64: Grundlagen der Stochastik

64 5 Kenngroßen von Verteilungen

Beispiel 5.17 (Sammlerproblem):

Wir ziehen aus einer Urne mit n Kugeln, welche mit 1, ..., n nummeriert sind, mit Zurucklegen bis jedeKugel mindestens einmal gezogen wurde. Wir wollen nun die benotigte Anzahl X von Ziehungen model-lieren und den Erwartungswert E(X) bestimmen.

Sei X = X0 + X1 + X2 + ... + Xn−1 wobei Xi ∼ Geo(n−in

) und E(Xi) = nn−i

nach Beispiel 5.11.(Dabei beschreibt Xi das Warten auf den Erfolg

”eine neue Kugel wird gezogen“ nachdem bereits i ver-

schiedene Kugeln gezogen wurden, insbesondere X0 ≡ 1)

Wird z.B. Die Folge 2,2,3,2,3,4,2,1 aus einer Urne mit 4 Kugeln gezogen, so ist X = 8 und X0 = 1,X1 =2,X2 = 3,X4 = 2.

Man berechnet

E(X) = E(X0) + E(X1) + ... + E(Xn − 1)

=n

n+

n

n− 1+

n

n− 2+ ... +

n

1

= n ·n∑

i=1

1

i

≈ n · ln(n).

Damit konnen wir den Erwartungswert fur n = 3, 10, 100 und 10000 berechnen:

n E(X)

3 5.5

10 29.3

100 518.7

10000 97876.1

5.1.3 Produktformel

Seien X und Y zwei reelle, diskrete Zufallsvariablen. Man kann sich fragen, ob stets

E (X · Y ) = E (X) · E (Y ) (5.4)

gilt.

Beispiel 5.18:

Sei X ∼ B(1, p) und Y = X. Dann haben wir

E (X · Y ) = E(X2)

= E (X) = p,

da X2 = X, denn schließlich nimmt X nur Werte in 0, 1 an. Andererseits ist aber

E (X) · E (Y ) = (E (X))2

= p2.

Fur p ∈ (0, 1) gilt aber p2 6= p, womit (5.4) im Allgemeinen also falsch ist.

5.19 Satz (Produktformel fur unabhangige Zufallsvariablen):

Seien X,Y unabhangige Zufallsvariablen auf (Ω, P ) mit existenten Erwartungswerten E(X), E(Y ). Danngilt

E (X · Y ) = E(X) · E(Y ).

Page 65: Grundlagen der Stochastik

5 Kenngroßen von Verteilungen 65

Beweis:

Mittels der ersten Definition des Erwartungswerts (5.1) berechnet man

E (X · Y ) =∑

ω∈Ω

(X · Y ) (ω)P (ω)

=∑

ω∈Ω

X(ω) · Y (ω) · P (ω)

=∑

x∈X(Ω)

y∈Y (Ω)

ω∈ΩX(ω)=x,Y (ω)=y

X (ω) · Y (ω)︸ ︷︷ ︸=x·y

·P (ω)

=∑

x∈X(Ω)

y∈Y (Ω)

x · y∑

ω∈ΩX(ω)=x,Y (ω)=y

P (ω)

=∑

x∈X(Ω)

y∈Y (Ω)

P (X = x, Y = y)

X,Y unabhangig=

x∈X(Ω)

y∈Y (Ω)

P (X = x) · P (Y = y)

=

x∈X(Ω)

xP (X = x)

·

y∈Y (Ω)

yP (Y = y)

,

was nach der zweiten Definition (5.2) des Erwartungswertes genau E(X) · E(Y ) entspricht.

Um die Existenz des Erwartungswertes E(X · Y ) zu zeigen, fuhrt man zunachst die selbe Rechnung mitBetragen durch.

Beispiel 5.20:

Wir betrachten zwei faire Wurfel und die Zufallsvariablen X1 :=“erster Wurf“, X2 :=“zweiter Wurf“.Mit obigem Satz gilt dann

E (X · Y ) = E (X) · E (Y ) =

(7

2

)2

.

5.2 Varianzen5.21 Definition:

Sei X eine reelle Zufallsvariable mit E(X2)

<∞. Dann wird die Varianz von X definiert durch

V (X) := E((X − E (X))

2)

.

Ebenso definiert man die Standardabweichung σX von X als

σX :=√

V (X).

Bemerkung 5.22:

(1) Da E(X2)

< ∞ ist und fur jede reelle Zahl x ∈ R auch |x| ≤ 1 + x2 gilt, ist auch E (|X|) < ∞und daher existiert E (X) unter der Voraussetzung E

(X2)

< ∞. Insbesondere ist V (X) alsowohldefiniert.

(2) Da (X − E(X))2 ≥ gilt, muss auch V (X) ≥ 0 sein und σX ist wohldefiniert.

(3) X − E(X) geht aus X durch”Zentrieren“ hervor, d.h.

E (X − E(X)) = E(X)− E(E(X)) = E(X)− E(X) = 0,

da der Erwartungswert E(E(X)) der festen Zahl E(X) (d.h. der konstanten Zufallsvariable ω 7→E(X)) naturlich wieder E(X) selbst ist.

Bemerkung 5.23:

Die Varianz ist die mittlere quadratische Abweichung von X zu E(X).

Page 66: Grundlagen der Stochastik

66 5 Kenngroßen von Verteilungen

Bemerkung 5.24:

Nach der Transformationsformel fur den Erwartungswert (Satz 5.12) gilt mit der Funktion g(x) :=

(x− E(X))2, x ∈ R:

V (X) = E(g(X))Transformationsformel

=∑

x∈X(Ω)

(x− E(X))2 · P (X = x) . (5.5)

Beispiel 5.25:

Wir betrachten das einmalige Wurfeln mit einem fairen Wurfen und definieren die Zufallsvariable X alsdie Augenzahl. Dann haben wir schon berechnet, dass E(X) = 7

2 , und daher ist die Varianz von X nachobiger Bemerkung gegeben als

V (X) =6∑

x=1

(x− 7

2

)21

6=

35

12.

5.26 Definition:

Sei k ∈ N und X eine reelle Zufallsvariable auf (Ω, P ). Falls

E((X − E(X))

k)

existiert, so nennen wir diese Zahl das k-te zentrale Moment von X.

Bemerkung 5.27:

Die Darstellung der Varianz mittels der Transformationsformel (5.5) zeigt, dass V (X) allein durch dieVerteilung von X festgelegt ist. Es handelt sich also wie beim Erwartungswert auch um eine

”Kenngroße“

der Verteilung.

5.28 Definition:

Seien X,Y reelle Zufallsvariablen mit E(X2)

<∞, E(Y 2)

<∞. Dann wird die Kovarianz von X undY definiert durch

CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y ))) .

Bemerkung 5.29:

Fur eine reelle Zufallsvariable gilt dann

CoV(X,X) = V (X).

5.30 Satz (Rechenregeln fur die Varianz):

Seien X,Y und Xi fur 1 ≤ i ≤ n reelle Zufallsvariablen mit E(X2)

<∞, E(Y 2)

<∞ und E(X2

i

)<∞,

1 ≤ i ≤ n. Seien außerdem a, b ∈ R. Dann gelten die folgenden Rechenregeln

(V1) V (X) = E(X2)− (E (X))

2, insbesondere ist V (X) <∞.

(V2) V (aX + b) = a2 · V (X).

(V3) CoV (X,Y ) = E (X · Y )− E (X) · E (Y ).

(V4) Fur Summen gilt

V

(n∑

i=1

Xi

)=

n∑

i=1

V (Xi)−n∑

i,j=1i6=j

CoV (Xi,Xj) .

(V5) Sind X1, ...,Xn unabhangig, so gilt sogar

V

(n∑

i=1

Xi

)=

n∑

i=1

V (Xi) .

Beweis:

(V1) Mittels der Linearitat des Erwartungswerts hat man

V (X) = E((X − E (X))

2)

= E(X2 − 2E (X) ·X + (E (X))

2)

= E(X2)− 2E (X) · E (E (X)) + E

((E (X))

2)

= E(X2)− 2 (E (X))

2+ (E (X))

2

= E(X2)− (E (X))

2.

Page 67: Grundlagen der Stochastik

5 Kenngroßen von Verteilungen 67

Dabei haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablen natur-lich der Wert der Zufallsvariablen selbst ist.

(V2) Es ist

V (aX + b) = E(((aX + b)− E (aX + b))

2)

= E((aX + b− aE (X)− E (b))

2)

= E(a2 (X − E(X))

2)

= a2E((X − E(X))

2)

= a2V (X).

(V3) Man berechnet

CoV (X,Y ) = E ((X − E(X)) · (Y − E(Y )))

= E (X · Y −X · E(Y )− Y · E(X) + E (X) · E (Y ))

= E (X · Y )− E (X) · E(E(Y ))− E(Y ) · E(E(X)) + E(E(X)) · E(E(Y ))

= E (X · Y )− E (X) · E (Y )− E (Y ) · E (X) + E (X) · E (Y )

= E (X · Y )− E (X) · E (Y ) .

Auch hier haben wir wieder benutzt, dass der Erwartungswert einer konstanten Zufallsvariablennaturlich der Wert der Zufallsvariablen selbst ist.

(V4) Wir setzen Zi := Xi − E (Xi) fur 1 ≤ i ≤ n. Dann ist

n∑

i=1

Xi − E

(n∑

i=1

Xi

)=

n∑

i=1

(Xi − E (Xi)) =

n∑

i=1

Zi, (5.6)

womit

V

(n∑

i=1

Xi

)= E

(

n∑

i=1

Xi − E

(n∑

i=1

Xi

))2

(5.6)= E

(

n∑

i=1

Zi

)2

= E

(

n∑

i=1

Zi

n∑

j=1

Zj

= E

n∑

i,j=1

Zi · Zj

=

n∑

i,j=1

E (Zi · Zj)

=n∑

i=1

E(Z2

i

)+

n∑

i,j=1i6=j

E (Zi · Zj)

Zi=Xi−E(Xi)=

n∑

i=1

V (Xi) +n∑

i,j=1i6=j

CoV (Xi,Xj)

folgt.

(V5) Nach Satz 5.19 gilt wegen der Unabhangigkeit von X1, ...,Xn fur alle Paare 1 ≤ i, j ≤ n, i 6= j:

E (Xi ·Xj) = E (Xi) · E (Xj) .

Mit Regel (V3) ist also CoV (Xi,Xj) = 0 falls i 6= j. Damit folgt (V5) aus (V4).

Page 68: Grundlagen der Stochastik

68 5 Kenngroßen von Verteilungen

Bemerkung 5.31:

Im Beweis von (V5) haben wir gezeigt, dass fur unabhangige, reelle Zufallsvariablen X,Y stets

CoV (X,Y ) = 0

gilt. Die Umkehrung dagegen ist im allgemeinen falsch, wie das folgende Beispiel zeigt:

Beispiel 5.32:

Betrachte eine Zufallsvariable X mit Werten in −N, ..., N auf einem diskreten Wahrscheinlichkeitsraum(Ω, P ). Wir nehmen an, dass

P (X = n) = P (X = −n) ∀ n ∈ −N, ..., N

und 0 < P (X = 0) < 1 gilt.

Dann gilt CoV(X,X2

)= 0, aber X und X2 sind nicht unabhangig.

Beweis:

Zunachst ist

E (X)(5.1)=

N∑

k=−N

k · P (X = k)

= 0 · P (X = 0) +

N∑

k=1

k · P (X = k)−N∑

k=1

k · P (X = −k)

=

N∑

k=1

k · (P (X = k)− P (X = −k))︸ ︷︷ ︸=0 nach Voraussetzung

= 0. (5.7)

Genauso folgt mit der Transformationsformel (Satz 5.12) fur g(x) = x3, dass

E(X3) (5.1)

=

N∑

k=−N

k3 · P (X = k)

= 03 · P (X = 0) +

N∑

k=1

k3 · P (X = k)−N∑

k=1

k3 · P (X = −k)

=

N∑

k=1

k3 · (P (X = k)− P (X = −k))︸ ︷︷ ︸=0 nach Voraussetzung

= 0. (5.8)

Damit folgt nach Definition der Kovarianz

CoV(X,X2

)= E

((X − E(X)︸ ︷︷ ︸

=0 nach (5.7)

)(X2 − E

(X2) ))

= E(X3 −X · E

(X2))

= E(X3)− E (X) · E

(X2)

(5.7) & (5.8)= 0.

Bleibt zu zeigen, dass X und X2 nicht unabhangig sind. Dazu nehmen wir an, X und X2 waren un-abhangig. Dann gilt insbesondere

P (X,X2) (0, 0) = PX (0) · PX2

(0)

Page 69: Grundlagen der Stochastik

5 Kenngroßen von Verteilungen 69

Beachten wir nun, dass X2 = 0 ⇔ X = 0, so folgt

P (X = 0) = P (X = 0,X = 0)

= P(X = 0,X2 = 0

)

= P (X,X2) (0, 0)

= PX (0) · PX2

(0)

= P (X = 0) · P(X2 = 0

)

= (P (X = 0))2,

was ein Widerspruch zu P (X = 0) ∈ (0, 1) ist. Es folgt die Behauptung.

5.33 Definition:

Seien X,Y reelle Zufallsvariablen. Wir nennen X und Y unkorreliert, falls

CoV (X,Y ) = 0

gilt.

Es gilt also:

unabhangig⇒6⇐ unkorreliert

5.2.1 Varianzen einiger diskreter Verteilungen

Beispiel 5.34:

Sei X ∼ B (1, p) fur p ∈ [0, 1] eine reelle Zufallsvariable. Dann ist E(X) = p wie schon berechnet unddaher gilt wegen X2 = X (X hat wieder nur Werte in 0, 1):

V (X) = E(X2)− (E (X))

2

= E (X)− (E (X))2

= p− p2

= p · (1− p) .

0 1p

V (X)

Abbildung 9: Die Varianz einer Bernoulli-verteilten Zufallsvariablen X ∼ B(1, p) in Abhangigkeit vonp ∈ [0, 1]

Beispiel 5.35:

Sei X ∼ B(n, p) mit n ∈ N und p ∈ [0, 1]. Seien außerdem X1, ...,Xn ∼ B (1, p) unabhangig. Nach Satz4.30 gilt dann

X1 + ... + Xn ∼ B (n, p) ,

weshalb X und X1 + ... + Xn die gleiche Verteilung besitzen. Da die Varianz nur von der Verteilungabhangt, gilt also

V (X) = V

(n∑

i=1

Xi

)

(V5)

n∑

i=1

V (Xi)

Beispiel 5.34= np (1− p)

Page 70: Grundlagen der Stochastik

70 5 Kenngroßen von Verteilungen

Beispiel 5.36:

Sei X ∼ Poi (λ) fur ein 0 < λ <∞. Dann ist

P (X = k) = exp (−λ) · λk

k!fur k ∈ N

und es gilt E (X) = λ wie schon berechnet. Um die Varianz von X zu bestimmen nutzen wir (V1) undhaben so

V (X) = E(X2)− (E(X))

2= E

(X2)− λ2.

Zur Berechnung von E(X2)

nutzen wir den folgenden Trick:

E(X2)

= E(X2 −X

)+ E (X) .

Dann wende die Transformationsformel (Satz 5.12) mit g(k) := k2−k auf E(X2−X) = E(g(X)) an underhalte so

E(X2 −X

)= E (g(X))

Transformationsformel=

∞∑

k=0

(k2 − k

)P (X = k)

=∞∑

k=0

k (k − 1) exp (−λ)λk

k!

=∞∑

k=2

k (k − 1) exp (−λ)λk

k!

= exp (−λ)∞∑

k=2

λk

(k − 2)!

= λ2 exp (−λ)

∞∑

k=0

λk

k!

= λ2 exp (−λ) exp (λ)

= λ2.

Das ergibt zusammen

V (X) = E(X2 −X

)+ E (X)− (E (X))

2= λ2 + λ− λ2 = λ

Beispiel 5.37:

Sei X ∼ Geo(p) fur ein p ∈ [0, 1]. Wir haben schon gesehen, dass dann E(X) = 1p

gilt. Um die Varianzzu berechnen, nutzen wir das folgende

5.38 Lemma:

Ist X eine Zufallsvariable mit Werten in N, so gilt

E(X2)

=

∞∑

n=1

(2n− 1) P (X ≥ n) .

Beweis:

Mit der Transformationsformel (Satz 5.12) fur g(k) := k2 folgt direkt

E (X) =∞∑

n=0

n2P (X = n) =∞∑

n=1

n2P (X = n) .

Page 71: Grundlagen der Stochastik

5 Kenngroßen von Verteilungen 71

Diese Reihe ist absolut konvergent, daher kann sie in der folgenden Form umgeordnet werden:

∞∑

n=1

n2P (X = n) = 1 · P (X = 1) + 4 · P (X = 2) + 9 · P (X = 3) + 16 · P (X = 4) + ...

= (P (X = 1) + P (X = 2) + ...) + 3P (X = 2) + 8P (X = 3) + 15P (X = 4) + ...

= (P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...)

+5P (X = 3) + 12P (X = 4) + ...

= (P (X = 1) + P (X = 2) + ...) + 3 (P (X = 2) + P (X = 3) + P (X = 4) + ...)

+5 (P (X = 3) + P (X = 4) + ...) + 7P (X = 4) + ...

=

∞∑

n=1

(2n− 1) · P (X ≥ n) .

Es folgt die Behauptung.

Außerdem gilt laut Lemma 4.32 P (X ≥ k) = (1− p)k−1

, womit dann

E(X2)

=1

p

∞∑

n=1

p (2n− 1) (1− p)n−1

=1

p

∞∑

n=1

(2n− 1) P (X = n)

gilt. Jetzt wenden wir die Transformationsformel (Satz 5.12) mit g(k) = 2k−1 ruckwarts an und erhaltenso

E(X2)

=1

pE ((2X − 1))

=1

p2E(X)− 1

p

=2

p2− 1

p

=2− p

p2.

Fur die Varianz gilt damit

V (X)(V1)= E

(X2)− (E (X))

2=

2− p

p2− 1

p2=

1− p

p2.

Page 72: Grundlagen der Stochastik

72 6 Wahrscheinlichkeitsungleichungen und das SGGZ

6 Wahrscheinlichkeitsungleichungen und das SGGZ

6.1 Das schwache Gesetz großer Zahlen (SGGZ)

6.1 Satz (Markov-Ungleichung):

Sei X ≥ 0 eine diskrete Zufallsvariable (d.h. X nimmt nur nicht-negative reelle Werte an) auf (Ω, P ).Dann gilt fur jedes reelle a > 0:

P (X ≥ a) ≤ E(X)

a(6.1)

Beweis:

Es gilt

P (X ≥ a) =∑

x∈X(Ω),x≥a

P (X = x)

≤∑

x∈X(Ω),x≥a

x

aP (X = x)

≤∑

x∈X(Ω)

x

aP (X = x)

=1

aE(X),

was die Behauptung zeigt.

6.2 Satz (Tschebyschow-Ungleichung):

Sei X eine reelle, diskrete Zufallsvariable mit E(X2)

<∞. Dann gilt fur jedes reelle a > 0:

P (|X − E(X)| ≥ a) ≤ V (X)

a2(6.2)

Beweis:

Da sowohl |X − E(X)| als auch a positive Zahlen sind, ist

|X − E(X)| ≥ a ⇔ (X − E(X)) ≥ a2. (6.3)

Damit gilt

P (|X − E(X)| ≥ a)(6.3)= P

((X − E(X))

2 ≥ a2)

(6.1)

≤E((X − E(X))

2)

a2

=V (X)

a2,

womit die Behauptung gezeigt ist.

Folgerung 6.3:

Sei X eine reelle, diskrete Zufallsvariable mit E(X2)

<∞. Dann gilt fur jedes reelle c > 0:

P (|X − E(X)| ≥ cσX) ≤ 1

c2(6.4)

Beweis:

Wende (6.2) mit a = cσX an und nutze σX =√

V (X).

Bemerkung 6.4:

Fur jede reelle, diskrete Zufallsvariable X mit E(X2)

<∞ gilt also

P (|X − E(X)| ≥ 2σX) ≤ 1

4

P (|X − E(X)| ≥ 3σX) ≤ 1

9

usw.

Page 73: Grundlagen der Stochastik

6 Wahrscheinlichkeitsungleichungen und das SGGZ 73

Beispiel 6.5:

Wir betrachten 100 faire Munzwurfe und definieren die Zufallsvariable X als die Anzahl der”Kopf“-

Ergebnisse. Dann ist X ∼ B(100, 1

2

), E(X) = 50 und nach Beispiel 5.35 gilt V (X) = 100 · 1

4 = 25. Alsoist σX = 5 und daher haben wir nach (6.4):

P (|X − 50| ≥ 10) ≤ 1

4

P (|X − 50| ≥ 15) ≤ 1

9

Bemerkung 6.6:

Die Abschatzungen, die man mit der Tschebyschow-Ungleichung erreichen kann, konnen oft verbessertwerden. Siehe dazu etwa spater die Exponentialungleichungen oder den zentralen Grenzwertsatz.

6.7 Satz (Schwaches Gesetz großer Zahlen (SGGZ)):

Seien X1, ...,Xn unabhangige diskrete Zufallsvariablen mit gleicher Verteilung auf (Ω, P ) und es gelteE(X2

i

)<∞ fur jedes 1 ≤ i ≤ n. Dann gilt fur jedes ε > 0:

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − E (X1)

∣∣∣∣∣ ≥ ε

)≤ V (X1)

nε2

n // ∞ // 0. (6.5)

Beweis:

Zunachst halten wir fest, dass

E (X1) = E

(1

n

n∑

i=1

E (Xi)

).

Außerdem gilt E (X1) = E (Xi) fur jedes 1 ≤ i ≤ n, da alle Zufallsvariablen nach Voraussetzung diegleiche Verteilung besitzen.

Daher folgt mit der Tschebyschow-Ungleichung:

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − E (Xi)

∣∣∣∣∣ ≥ ε

)(6.2)

≤V

(1n

n∑i=1

Xi

)

ε2

(V2)=

V

(n∑

i=1

Xi

)

n2ε2

X1,...,Xn unabhangig=

n∑i=1

V (Xi)

n2ε2

=V (X1)

nε2.

Das zeigt die Behauptung.

Bemerkung 6.8:

Damit liegt fur große n der empirische Mittelwert

1

n

n∑

i=1

Xi

mit hoher Wahrscheinlichkeit in der ε-Nahe des Erwartungswertes E(X1).

6.1.1 Spezialfall - Das SGGZ von Bernoulli

6.9 Satz:

Seien Xi ∼ B(1, p) fur ein p ∈ [0, 1] und 1 ≤ i ≤ n, außerdem seien X1, ...,Xn unabhangig. Dann gilt

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − p

∣∣∣∣∣ ≥ ε

)≤ 1

4nε2. (6.6)

Page 74: Grundlagen der Stochastik

74 6 Wahrscheinlichkeitsungleichungen und das SGGZ

Beweis:

Wir wissen schon, dass E (X1) = p und V (X1) = p · (1− p) gilt. Nach dem SGGZ gilt also

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − p

∣∣∣∣∣ ≥ ε

)≤ p · (1− p)

nε2.

Offenbar ist aber p · (1− p) ≤ 14 ∀ p ∈ R, womit die Behauptung folgt.

Beispiel 6.10:

Wir betrachten 1000 faire Munzwurfe und setzen

Xi :=

1 Kopf im i-ten Wurf

0 Zahl im i-ten Wurf.

Dann gilt Xi ∼ B(1, 1

2

)fur alle 1 ≤ i ≤ 1000 und die Zufallsvariablen X1, ...,X1000 sind unabhangig.

Nun setzen wir

X :=

1000∑

i=1

Xi,

was der Anzahl an Kopf-Wurfen in 1000 Wurfen entspricht. Es ist

E (X) =

1000∑

i=1

E (Xi) =

1000∑

i=1

1

2= 500

und entsprechend berechnet man mit dem SGGZ von Bernoulli:

P (X ≤ 400 oder X ≥ 600) = P (|X − 500| ≥ 100)

= P

(∣∣∣∣∣1

1000

1000∑

i=1

Xi −1

2

∣∣∣∣∣ ≥1

10

)

(6.6)

≤ 1

4 · 1000 · 1100

=1

40= 0.025.

Damit ist auch

P (400 < X < 600) = 1− P (X ≤ 400 oder X ≥ 600) ≥ 1− 0.025 = 0.975.

6.2 Exponential-Ungleichungen

Notation 2:

Sind X1, ...,Xn unabhangige und gleichverteilte diskrete Zufallsvariablen auf dem diskreten Wahrschein-lichkeitsraum (Ω, P ) gegeben, so schreiben wir auch

Xii.i.d.∼ B (1, p) ,

falls die Verteilung die Bernoulli-Verteilung ist usw..

i.i.d. steht dabei fur”independent identically distributed“.

6.11 Satz (Bernstein-Ungleichung):

Seien Xii.i.d.∼ B (1, p) fur ein p ∈ [0, 1]. Dann gilt fur alle ε > 0:

P

(1

n

n∑

i=1

Xi − p ≥ ε

)≤ exp

(−1

4nε2

),

P

(1

n

n∑

i=1

Xi − p ≤ −ε

)≤ exp

(−1

4nε2

),

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − p

∣∣∣∣∣ ≥ ε

)≤ 2 exp

(−1

4nε2

). (6.7)

Page 75: Grundlagen der Stochastik

6 Wahrscheinlichkeitsungleichungen und das SGGZ 75

Beweis:

Offenbar folgt die dritte Ungleichung mittels der Boole’schen Ungleichung (1.7) bereits aus den erstenbeiden Ungleichungen:

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − p

∣∣∣∣∣ ≥ ε

)(1.7)

≤ P

(1

n

n∑

i=1

Xi − p ≥ ε

)+ P

(1

n

n∑

i=1

Xi − p ≤ −ε

).

Wir zeigen nur die erste Ungleichung, die zweite lasst sich absolut analog beweisen.

P

(1

n

n∑

i=1

Xi − p ≥ ε

)= P

(1

n

n∑

i=1

Xi ≥ p + ε

)

= P

(n∑

i=1

Xi ≥ np + nε

). (6.8)

Nach Satz 4.30 istn∑

i=1

Xi ∼ B (n, p), daher folgt also fur m := ⌈n (p + ε)⌉:

P

(1

n

n∑

i=1

Xi − p ≥ ε

)(6.8)=

n∑

k=m

(n

k

)pk

n−k

(1− p)︸ ︷︷ ︸=:q

λ>0 beliebig

≤n∑

k=m

exp (λ (k − n (p + ε)))

(n

k

)pkqn−k

= exp (−λnε)

n∑

k=m

(n

k

)exp (λk − λnp) pkqn−k

= exp (−λnε)

n∑

k=m

(n

k

)(p exp (λq))

k(q exp (−λp))

n−k

= exp (−λnε) (p exp (λq) + q exp (−λp))n

. (6.9)

Allgemein ist exp (x) ≤ x + exp(x2)

fur x ∈ R2, daher folgt

P

(1

n

n∑

i=1

Xi − p ≥ ε

)(6.9)

≤ exp (−λnε) (p exp (λq) + q exp (−λp))n

= exp (−λnε)(p(λq + exp

(λ2q2

))+ q

(−λp + exp

(λ2p2

)))n

= exp (−λnε)(p exp

(λ2q2

)+ q exp

(λ2p2

))n

≤ exp (−λnε)(p exp

(λ2)

+ q exp(λ2))n

= exp (−λnε) exp(nλ2

)

= exp(n(λ2 − λε

))(6.10)

fur jedes λ > 0. Nun wahlen wir λ = ε2 , was genau dem Minimum von λ 7→ λ2 − λε entspricht. Es folgt

damit

P

(1

n

n∑

i=1

Xi − p ≥ ε

)(6.10)

≤ exp

((ε

2

)2

n− ε

2εn

)= exp

(−1

4ε2n

),

was die Behauptung zeigt.

Beispiel 6.12:

Wir betrachten wieder die Munzwurfe aus Beispiel 6.10. Die Bernstein-Ungleichung liefert

P

(∣∣∣∣∣1

1000

1000∑

i=1

Xi −1

2

∣∣∣∣∣ ≥ 0.1

)(6.7)

≤ 2 exp

(−1

41000 · 1

100

)= 2 exp

(−10

4

)≈ 0.164,

was offenbar deutlich schlechter ist, als das Ergebnis mit dem SGGZ! Der Grund dafur ist, dass n = 1000einfach noch zu klein ist!

Wir werden aber gleich sehen, dass man mit noch besseren Exponential-Ungleichungen noch deutlichbessere Ergebnisse erzielen kann.

2Fur x < 0 ist diese Ungleichung offensichtlich. Fur x = 0 gilt Gleichheit und fur x ≥ 1 ist x2 ≥ x, womit die Ungleichung

aus der strengen Monotonie der exp-Funktion folgt. 0 < x < 1?

Page 76: Grundlagen der Stochastik

76 6 Wahrscheinlichkeitsungleichungen und das SGGZ

Die folgende Exponential-Ungleichung wollen wir nur angeben, nicht beweisen:

6.13 Satz (Chernov-Ungleichung):

Seien Xii.i.d.∼ B (1, p) fur ein p ∈ [0, 1]. Dann gilt fur alle ε > 0:

P

(1

n

n∑

i=1

Xi − p ≥ ε

)≤ exp

(−2nε2

),

P

(1

n

n∑

i=1

Xi − p ≤ −ε

)≤ exp

(−2nε2

),

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − p

∣∣∣∣∣ ≥ ε

)≤ 2 exp

(−2nε2

). (6.11)

Noch allgemeiner sogar ist die folgende Ungleichung, die wir ebenfalls nicht beweisen wollen:

6.14 Satz (Hoeffding-Ungleichung):

Seien X1, ...,Xn i.i.d. Zufallsvariablen. Es gebe reelle Zahlen a < b s.d. a ≤ Xi ≤ b fur alle 1 ≤ i ≤ n.Mit c := b− a gilt dann fur alle ε > 0:

P

(∣∣∣∣∣1

n

n∑

i=1

Xi − E (X1)

∣∣∣∣∣ ≥ ε

)≤ 2 exp

(−2ε2 n

c2

).

Bemerkung 6.15:

Offenbar folgt die Chernov-Ungleichung aus der Hoeffding-Ungleichung mit a = 0 und b = 1.

Beispiel 6.16:

Wir betrachten wieder die Munzwurfe aus Beispiel 6.10. Die Chernov-Ungleichung liefert hier

P

(∣∣∣∣∣1

1000

1000∑

i=1

Xi −1

2

∣∣∣∣∣ ≥ 0.1

)(6.11)

≤ 2 exp

(−2 · 1000 · 1

100

)= 2 exp (−20) ≈ 0.00000000412

- besser gehts nicht!

Page 77: Grundlagen der Stochastik

7 Faltung, bedingte Verteilungen und Korrelation 77

7 Faltung, bedingte Verteilungen und Korrelation

7.1 Die Faltung

Wir betrachten oft Summen unabhangiger Zufallsvariablen. Was kann man uber die Verteilung dieserSumme aussagen?

7.1 Satz:

Es seien X1, ...,Xn unabhangige Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ).

(1) Dann ist die Verteilung PX1+...+Xn der Summe X1 + ... + Xn durch die Verteilungen PX1 , ..., PXn

der Zufallsvariablen X1, ...,Xn festgelegt.

(2) Fur x ∈ (X1 + ... + Xn) (Ω) (also x im Wertebereich der Summe) gilt

P (X1 + ... + Xn = x) =∑

x1∈X1(Ω),...,xn∈Xn(Ω)x1+...+xn=x

P (X1 = x1) · ... · P (Xn = xn) . (7.1)

Beweis:

Offenbar folgt (2) aus (1). Fur (1) sehen wir zunachst, dass

X1 + ... + Xn = x =∑

x1∈X1(Ω),...,xn∈Xn(Ω)x1+...+xn=x

X1 = x1, ...,Xn = xn .

Damit folgt

P (X1 + ... + Xn = x) =∑

x1∈X1(Ω),...,xn∈Xn(Ω)x1+...+xn=x

P (X1 = x1, ...,Xn = xn)

X1,...,Xn unabhangig=

x1∈X1(Ω),...,xn∈Xn(Ω)x1+...+xn=x

P (X1 = x1) · ... · P (Xn = xn)

und die Behauptung ist gezeigt.

7.2 Definition:

Seien X1, ...,Xn unabhangige Zufallsvariablen. Wir definieren die Faltung von PX1 , ..., PXn als

PX1 ⋆ ... ⋆ PXn := PX1+...+Xn .

Obiger Satz, Teil (2), rechtfertigt diese Bezeichnung.

7.3 Definition:

Fur Wahrscheinlichkeitsverteilungen P1, ..., Pn auf Ω definiert man allgemeiner die Faltung P1 ⋆ ... ⋆ Pn

als die Verteilung von X1 + ... + Xn, wobei Xi, 1 ≤ i ≤ n, unabhangige Zufallsvariablen mit PXi = Pi

sind.

Bemerkung 7.4:

Im Allgemeinen (d.h. ohne Unabhangigkeit), ist die Verteilung der Summe X +Y zweier ZufallsvariablenX und Y nicht durch die Verteilungen von X und Y festgelegt.

Beispiel 7.5:

Seien X,Yi.i.d.∼ B (1, p). In Satz 4.30 haben wir gesehen, dass dann X + Y ∼ B(2, p) gilt, d.h. die

Verteilung von X + Y entspricht dem Wahrscheinlichkeitsvektor(

1

4,1

2,1

4

).

In diesem Sinne ist die Bernoulli-Verteilung eine”schone“ Verteilung, ihre Faltung gibt wieder eine uns

bekannte und leicht zu berechnende Verteilung - die Binomialverteilung!

Beispiel 7.6:

Sei X ∼ B(1, 1

2

)und Y = X. Insbesondere sind X und Y dann nicht unabhangig und es gilt auch

Y ∼ B(1, 1

2

). Damit gilt

P (X + Y = x) = P (2X = x) =

12 falls x = 0

0 falls x = 112 falls x = 2

.

Page 78: Grundlagen der Stochastik

78 7 Faltung, bedingte Verteilungen und Korrelation

7.1.1 Spezialfall

Seien X,Y unabhangige, diskrete Zufallsvariablen auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mitX (Ω) ⊂ N0, Y (Ω) ⊂ N0. Dann ist (X + Y ) (Ω) ⊂ N0 und es gilt fur k ∈ N0:

P (X + Y = k)(7.1)=

x,y∈N0x+y=k

P (X = x) · P (Y = y)

=

k∑

x=0

P (X = x) P (Y = k − x)

=

k∑

x=0

pX (x) · pY (k − x) (7.2)

Beispiel 7.7:

Wir betrachten die Augensumme beim zweifachen Wurfeln. Setze dazu X1 := erster Wurf und X2 :=zweiter Wurf. Wir haben in einem fruheren Beispiel schon gesehen, dass die Verteilung der SummeP (X + Y = k) fur k = 2, ..., 12 den Wahrscheinlichkeitsvektor

(1

36,

2

36,

3

36,

4

36,

5

36,

6

36,

5

36,

4

36,

3

36,

2

36,

1

36

)

liefert. Das kann man mit der obigen Darstellung leicht nachrechnen.

7.1.2 Faltungen einiger wichtiger Verteilungen

7.8 Satz:

Seien X,Y zwei unabhangige, diskrete Zufallsvariablen mit X ∼ Poi (λ) , Y ∼ Poi (µ) fur zwei Parameter0 < λ, µ <∞. Dann gilt

X + Y ∼ Poi (λ + µ) .

Beweis:

Da die Poisson-Verteilung fur Zufallsvariablen mit Werten in N0 definiert ist, konnen wir obigen Spezialfallanwenden:

P (X + Y = k)(7.2)=

k∑

x=0

P (X = x) · P (Y = k − x)

=

k∑

x=0

exp (−λ)λx

x!exp (−µ)

µk−x

(k − x)!

=1

k!exp (− (λ + µ))

k∑

x=0

k!

x! (k − x)!λxµk−x

=1

k!exp (− (λ + µ)) (λ + µ)

k

= poiλ+µ (k) .

Das zeigt die Behauptung.

Damit ist also die Faltung zweier Poisson-Verteilungen einfach die Poisson-Verteilung zur Summe derParameter.

Praktisch braucht man dieses Ergebnis etwa bei den Anrufen pro Minute in einem Call-Center, die auszwei Zentralen zusammenlaufen. Die Anzahl der Anrufe pro Minute ist bei der ersten Zentrale dabeiPoi (λ) verteilt, bei der zweiten Zentrale Poi (µ) verteilt.

Der Satz oben sagt uns nun, dass die Gesamtzahl der Anrufe pro Minute im Call-Center dann Poi (λ + µ)verteilt ist.

7.9 Hilfssatz:

Es giltk∑

x=0

(n

x

)(m

k − x

)=

(n + m

k

).

Page 79: Grundlagen der Stochastik

7 Faltung, bedingte Verteilungen und Korrelation 79

Beweis:

Wir wir im Kapitel uber Kombinatorik gesehen haben, ist(ab

)genau die Anzahl der Moglichkeiten, b

Elemente aus einer a-elementigen Menge auszuwahlen. Also ist(n+m

k

)genau die Anzahl der Moglichkeiten,

aus der Menge 1, ..., n + m genau k Elemente auszuwahlen.

Eine solche Auswahl kann zerlegt werden in die Elemente, die aus 1, ..., n ausgewahlt werden, unddie Elemente, die aus n + 1, ..., n + m ausgewahlt werden. Die Summe dieser beiden Auswahlen mussentsprechend k ergeben. Jetzt klassifizieren wir dies nach der Kardinalitat x der ersten Auswahl, diezwischen 0 und k liegen muss. Offenbar ist dann

(n+m

k

)genau die Summe all dieser Klassifikationen, d.h.

(n + m

k

)=

k∑

x=0

(n

x

)(m

k − x

),

was die Behauptung zeigt.

7.10 Satz:

Seien X ∼ B (n, p) und Y ∼ B (m, p) unabhangige Zufallsvariablen mit Parametern p ∈ [0, 1] undn,m ∈ N. Dann gilt

X + Y ∼ B (m + n, p) .

Beweis:

Fur 0 ≤ k ≤ m + n gilt

PX+Y (k) = P (X + Y = k)

(7.2)=

k∑

x=0

P (X = x) P (Y = k − x)

=

k∑

x=0

(n

x

)px (1− p)

n−x

(m

k − x

)pk−x (1− p)

m−(k−x)

=

k∑

x=0

(n

x

)(m

k − x

)pk (1− p)

n−x+m−k+x

= pk (1− p)n+m−k

k∑

x=0

(n

x

)(m

k − x

)

Hilfssatz 7.9=

(n + m

k

)pk (1− p)

n+m−k.

Das das Ende dieser Gleichung der Binomialverteilung mit Parametern n + m und p ist, folgt die Be-hauptung.

Page 80: Grundlagen der Stochastik

80 7 Faltung, bedingte Verteilungen und Korrelation

7.2 Bedingte Verteilungen

7.11 Definition:

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω // Ω′, Y : Ω // Ω′′ diskreteZufallsvariablen auf diesem Raum. Sei weiter x ∈ X (Ω) mit P (X = x) > 0.

Die bedingte Verteilung von Y gegeben X = x ist

P (Y ∈ A | X = x) fur A ⊂ Ω′′.

Die bedingte Wahrscheinlichkeitsfunktion von Y gegeben X = x ist

pY |X (y|x) := P (Y = y | X = x) =P (Y = y,X = x)

P (X = x)=

p(X,Y )(x, y)

pX(x), (x, y) ∈ Ω′,Ω′′.

D.h. fur jedes x wie in der Annahme ist pY |X (·|x) eine Wahrscheinlichkeitsfunktion auf Ω′′ bzw. Y (Ω).

Beispiel 7.12:

Wir wurfeln zweimal mit einem fairen Wurfel und definieren unsere Zufallsvariablen X1,X2 als die Er-gebnisse des i-ten Wurfes, i = 1, 2 entsprechend. Naturlich sind X1 und X2 unabhangig. Setze nun

Y := X1 + X2, X := X1.

Dann ist Y die Augensumme des Experiments.

Zunachst berechnen wir formal

P (Y = y | X = x) = P (X1 + X2 = y | X1 = x)

=P (X1 + X2 = y,X1 = x)

P (X1 = x)

=P (X2 = y − x,X1 = x)

P (X1 = x)

X1,X2 unabhangig= P (X2 = y − x) =

16 falls 1 ≤ y − x ≤ 6

0 sonst.

Zur Verdeutlichung wollen wir noch die Tabelle der bedingten Wahrscheinlichkeitsfunktion pY |X(y|x)angeben. In der x-ten Zeile steht dabei pY |X(·|x):

x/y 2 3 4 5 6 7 8 9 10 11 12

1 16

16

16

16

16

16 0 0 0 0 0

2 0 16

16

16

16

16

16 0 0 0 0

3 0 0 16

16

16

16

16

16 0 0 0

4 0 0 0 16

16

16

16

16

16 0 0

5 0 0 0 0 16

16

16

16

16

16 0

6 0 0 0 0 0 16

16

16

16

16

16

Beispiel 7.13:

Seien X ∼ B (n, p) und Y ∼ B (m, p) unabhangige Zufallsvariablen. Die bedingte Verteilung von Xgegeben X + Y = k entspricht dann (nach Satz 7.10 ist X + Y ∼ B (n + m, r)) der Frage

”Wie viele Erfolge treten in den ersten n Experimenten auf, wenn k Erfolge in n + m Experimenten

auftreten?“

Page 81: Grundlagen der Stochastik

7 Faltung, bedingte Verteilungen und Korrelation 81

Man berechnet

pX|X+Y (j|k) = P (X = j | X + Y = k)

=P (X = j, Y = k − j)

P (X + Y = k)

X,Y unabhangig=

P (X = j) P (Y = k − j)

P (X + Y = k)

=

(nj

)pj (1− p)

n−j ( mk−j

)pk−j (1− p)

m−(k−j)

(n+m

k

)pk (1− p)

m+n−k

=

(nj

)(m

k−j

)(n+m

k

) ,

und sieht so, dass die bedingte Verteilung genau der hypergeometrischen Verteilung fur das Experiment

”n + m Kugeln gegeben, davon n rote.

Ziehe k Kugeln und bestimme die Wahrscheinlichkeit, dass genau j rote Kugeln darunter sind!“

entspricht.

Beispiel 7.14:

Seien X ∼ Poi (λ) , Y ∼ Poi (µ) unabhangige Zufallsvariablen. Wir modellieren damit etwa Anfragen aneinen Server, die uber zwei Zwischenstellen eingehen. Dabei wird die Anzahl der Anfragen pro Minute ander ersten Zwischenstelle mittels X1 und die Anzahl der Anfragen pro Minute an der zweiten Zwischen-stelle mittels X2 simuliert. Die bedingte Verteilung von X gegeben X+Y = k ist dann die Frage, wie vieleder Anfragen am Server von der ersten Zwischenstelle kommen. Nach Satz 7.8 ist X + Y ∼ Poi (λ + µ)und damit berechnet man

pX|X+Y (j|k) = P (X = j | X + Y = k)

=P (X = j, Y = k − j)

P (X + Y = k)

X,Y unabhangig=

P (X = j) P (Y = k − j)

P (X + Y = k)

=exp (−λ) λj

j! exp (−µ) µk−j

(k−j)!

exp (−λ− µ) (λ+µ)k

k!

=

(k

j

)λjµk−j 1

(λ + µ)j(λ + µ)

k−j

=

(k

j

)(λ

λ + µ

)j

·(

µ

λ + µ

)

︸ ︷︷ ︸=1− λ

λ+µ

k−j

.

Damit ist die bedingte Verteilung von X gegeben X + Y = k genau durch B

(k, λ

λ+µ

)gegeben.

Nach obigen Beispielen kann man schon vermuten:

Bemerkung 7.15:

Die Zufallsvariablen X und Y sind genau dann unabhangig, wenn pY |X (y|x) = pY (y) ∀ (x, y) ∈ Ω′×Ω′′

gilt.

Beweis:

Nach Definition der bedingten Wahrscheinlichkeit ist

pY |X(y, x) = pY (y) ⇔ p(X,Y )(x, y)

pX(x)= pY (y)

⇔ P (X,Y )(x, y) = PY (y) · PX(x).

Wir sehen alsopY |X (y|x) = pY (y) ∀ (x, y) ∈ Ω′ × Ω′′ ⇔ P (X,Y ) = PX ⊗ PY .

Nach Satz 4.18 ist die hintere Bedingung aber aquivalent zur Unabhangigkeit von X und Y .

Page 82: Grundlagen der Stochastik

82 7 Faltung, bedingte Verteilungen und Korrelation

7.2.1 Der bedingte Erwartungswert

7.16 Definition:

Sei (Ω, P ) ein diskreter Wahrscheinlichkeitsraum und seien X : Ω // Ω′, Y : Ω // Ω′′ diskreteZufallsvariablen auf diesem Raum. Fur x ∈ Ω′ mit P (X = x) > 0 ist der bedingte Erwartungswertvon Y gegeben X = x definiert durch

E (Y | X = x) =∑

y∈Y (Ω)

y · pY |X (y|x) .

Beispiel 7.17:

Wir betrachten zweifaches Wurfeln wie oben mit den Zufallsvariablen Y =Augensumme und X =ersterWurf. Dann schließen wir aus obiger Tabelle, dass

E (Y | X = x) =

12∑

y=2

y · pY |X(y|x) =

x+6∑

y=x+1

y

6= x + 3.5.

Beispiel 7.18:

Seien X ∼ Poi (λ) und Y ∼ Poi (µ) unabhangig. Dann ist die bedingte Verteilung von X gegeben

X+Y = x genau durch B

(x, λ

λ+µ

)gegeben, womit nach dem Erwartungswert fur Binomial-Experimente

sofort

E(X∣∣ X + Y = x

)= x · λ

λ + µ

folgt.

7.2.2 Die bedingte Erwartung

Der eben definierte bedingte Erwartungswert E (Y | X = x) ist eine Funktion von x. Setze daher

g (x) := E (Y | X = x) , x ∈ X (Ω) .

7.19 Definition:

Die Abbildung g (X) : Ω // R, also

Ω X(Ω)X // X(Ω) R

g //

ist eine Zufallsvariable auf Ω und heißt die bedingte Erwartung von Y gegeben X. Wir schreiben auch

E (Y | X) := g (X) .

Beispiel 7.20:

Wir wurfeln wieder wie in Beispiel 7.17. Dort haben wir schon berechnet, dass E (Y | X = x) = x + 3.5gilt. Daher ist die bedingte Erwartung hier die Zufallsvariable

E (Y | X) = X + 3.5.

Beispiel 7.21:

Wir betrachten wieder Poisson-verteilte Zufallsvariablen X und Y wie in Beispiel 7.18. Mit der Rechnungaus diesem Beispiel folgt

E (X | X + Y ) = (Y + X)λ

λ + µ.

Wir wollen nun zeigen, dass man manchmal den Erwartungswert E (Y ) sehr gut mit Hilfe der bedingtenErwartung berechnen kann. Dazu nutzen wir den folgenden Satz:

7.22 Satz (iterierte Erwartung):

Es gilt

E (Y ) = E (E (Y | X)) . (7.3)

Beweis:

Wende Satz 7.23 mit f ≡ 1 an.

Page 83: Grundlagen der Stochastik

7 Faltung, bedingte Verteilungen und Korrelation 83

Der folgende Satz ist allgemeiner und beinhaltet den Satz uber die iterierte Erwartung bereits:

7.23 Satz:

Fur eine beliebige Abbildung f : X (Ω) // R gilt

E (f(X) · Y ) = E (f(X) · E (Y | X)) .

Beweis:

Betrachte

Ω X(Ω)× Y (Ω)︸ ︷︷ ︸⊂R2

(X,Y ) // X(Ω)× Y (Ω)︸ ︷︷ ︸⊂R2

Rh //

fur h (x, y) := f(x) · y. Dann folgt mit doppelter Anwendung der Transformationsformel (Satz 5.12)

E (f(X) · Y ) = E (h(X,Y ))

=∑

x∈X(Ω)y∈Y (Ω)

h(x, y)P (X = x, Y = y)

=∑

x∈X(Ω)

y∈Y (Ω)

f(x) · ypY |X (y|x) · pX (x)

=∑

x∈X(Ω)

f(x) · pX (x)∑

y∈Y (Ω)

ypY |X (y|x)

︸ ︷︷ ︸=E(Y | X=x)

=∑

x∈X(Ω)

f(x) · pX (x) E (Y | X = x)︸ ︷︷ ︸=g(x)

=∑

x∈X(Ω)

f(x)g(x) · pX (x)

= E (f(X) · g(X))

= E (f(X) · E (Y | X)) ,

was die Behauptung zeigt.

Beispiel 7.24:

Wieder zweifaches Wurfeln wie in Beispiel 7.17 (also Y =Augensumme, X =erster Wurf). Wir habenoben schon gesehen, dass E (Y | X) = X + 3.5 gilt. Damit folgt aus dem Satz oben:

E (Y )(7.3)= E (E (Y | X)) = E (X + 3.5) = E (X) + 3.5 = 7.

7.2.3 Anwendung der iterierten Erwartung

7.25 Definition:

Sei I eine beliebige Indexmenge und seien Xi, i ∈ I Zufallsvariablen. Wir nennen Xi, i ∈ I unabhangig,falls jede endliche Teilfamilie Xij

, j ∈ J , #J <∞, unabhangig ist.

Der folgende Satz behandelt den Erwartungswert zufalliger Summen:

7.26 Satz (Wald’sche Identitat):

Sei N eine Zufallsvariable mit Werten in N0. Seien X1,X2, ... Zufallsvariablen mit gleichem Erwartungs-wert und N,X1,X2, ... im obigen Sinne unabhangig. Setze

SN (ω) :=

N(ω)∑

i=1

Xi (ω) .

Dann giltE (SN ) = E (N) · E (X1) .

Page 84: Grundlagen der Stochastik

84 7 Faltung, bedingte Verteilungen und Korrelation

Beweis:

Es gilt

pSN |N (j|n) =P (SN = j,N = n)

P (N = n)=

P

(n∑

i=1

Xi = j,N = n

)

P (N = n).

Nach Dem Blockungslemma (Satz 4.24) sind auchn∑

i=1

Xi und N unabhangig, das liefert

pSN |N (j|n) = P

(n∑

i=1

Xi = j

).

Damit ist aber per Definition

E (SN | N = n) =

∞∑

j=0

j · P(

n∑

i=1

Xi = j

)

= E

(n∑

i=1

Xi

)

= n · E (X1) ,

da nach Voraussetzung alle Xi’s den gleichen Erwartungswert haben. Das zeigt

E (SN | N) = N · E (X1)

und mit dem Satz uber die iterierte Erwartung folgt

E (SN )(7.3)= E (E (SN | N)) = E (N · E (X1)) = E (N) · E (X1) .

Das zeigt die Behauptung.

Beispiel 7.27:

Wir betrachten N als die Anzahl Schadensfalle in einem Jahr bei einer Versicherung und X1,X2, ...als die entsprechenden Schadenshohen. Dann liefert uns die Wald’sche Identitat eine Formel fur die zuerwartenden Leistungen, die die Versicherung zu zahlen hat.

Beispiel 7.28:

Wir betrachten N als Anzahl von Munzwurfen, bis das Ergebnis”Kopf“ zum ersten Mal auftritt und Xi

als die Augenzahl eines Wurfelwurfs. Dann entspricht die Summe

SN (ω) :=

N(ω)∑

i=1

Xi (ω)

genau der Summe der Augenzahlen der Wurfelwurfe, bis bei parallelen Munzwurfen erstmalig”Kopf“

kommt. Da N ∼ Geo(

12

)gilt, liefert die Wald’sche Identitat

E (SN ) = E (N) · E (X1) = 2 · 3.5 = 7.

7.2.4 Anwendung des allgemeineren Satzes (Satz 7.23)

Wir wollen hier E (Y | X) als”bester Vorhersager von Y gegeben die Information X“ betrachten

(bezuglich des erwarteten quadratischen Fehlers). Wir beobachten zunachst:

Bemerkung 7.29:

Sei Y eine reelle Zufallsvariable. Die reelle Zahl a = a∗ ∈ R, so dass der erwartete quadratische Fehler(E(Y − a)2) minimal wird, ist a∗ = E(Y ).

Beweis:

Per Definition ist fur unser a∗ genau

E((Y − a∗)2

)= V (Y ).

Page 85: Grundlagen der Stochastik

7 Faltung, bedingte Verteilungen und Korrelation 85

Kleiner kann dieser Wert nicht werden, denn V (Y ) ist minimal, denn setzt man

f(a) = E((Y − a)2

)= E(Y 2)− 2aE(Y ) + a2,

so istf ′(a) = −2E(Y ) + 2a = 0 ⇔ a = E(Y ).

Da es sich bei f um eine nach oben geoffnete Parabel handelt, ist a∗ = E (Y ) somit das eindeutige globaleMinimum.

7.30 Satz:

Seien X und Y reelle Zufallsvariablen. Fur jede Funktion ϕ : X(Ω) // R ist

E((Y − ϕ(X))

2)≥ E

((Y − E(Y | X))2

)

und Gleichheit gilt genau fur ϕ(x) = E(Y | X).

Beweis:

Sei ϕ : X(Ω) // R eine beliebige Funktion. Dann gilt

E((Y − E(Y | X))

2)

+ E((ϕ(X)−E( Y | X))

2)

= E(Y 2)− 2E (Y · E (Y | X)) + E

((E (Y | X))

2)

(7.4)

+E((ϕ(X))

2)− 2E (ϕ(X) · E(Y |X)) + E

((E(Y |X))

2)

. (7.5)

Nach Satz 7.23 sind

E (ϕ(X) · E (Y | X)) = E (ϕ(X) · Y ) (7.6)

E(Y · E(Y | X)︸ ︷︷ ︸=:f(X)

) = E (E(Y | X) · E(Y | X)) = E((E(Y |X))2

). (7.7)

Daher folgt

−2E (Y · E(Y | X)) + E((E(Y | X))2

)− 2E (ϕ(X) · E(Y | X)) + E

((E(Y | X))2

)

(7.6) &(7.7)= −2E

((E(Y |X))2

)+ 2E

((E(Y |X))2

)− 2E (ϕ(X) · Y )

= −2E(ϕ(X) · Y )

und damit haben wir

E((Y − E(Y |X))

2)

+ E((ϕ(X)− E(Y |X))

2)

(7.5)= E(Y 2)− 2E(ϕ(X) · Y ) + E

((ϕ(X))2

)

= E((Y − ϕ(X))

2)

Da (ϕ(X)− E(Y |X))2 ≥ 0 ist auch E

((ϕ(X)− E(Y |X))

2)≥ 0 und es folgt die Behauptung.

Bemerkung 7.31:

In diesem Sinn ist E(Y | X) der beste Vorhersager von Y gegeben X, denn er minimiert den erwartetenquadratischen Fehler.

7.3 Korrelation

Wir wollen nun den besten Vorhersager der Form aX + b (a, b ∈ R) finden. Das heißt, wir betrachten imFolgenden nur lineare ϕ.

7.32 Definition:

Seien X,Y reelle Zufallsvariablen mit V (X) > 0, V (Y ) > 0. Ihr Korrelationskoeffizient ist

ρX,Y :=CoV(X,Y )√

V (X) ·√

V (Y )=

CoV(X,Y )

σX · σY

.

Page 86: Grundlagen der Stochastik

86 7 Faltung, bedingte Verteilungen und Korrelation

Bemerkung 7.33:

X und Y sind unkorreliert genau dann, wenn ρX,Y = 0 ist.

7.34 Satz (Bester linearer Vorhersager):

Die Zahl E((Y − aX − b)2

)wird minimal fur a∗ = σY

σX· ρX,Y und b∗ = E(Y ) − σY

σX· ρX,Y · E(X). Fur

den minimalen Wert gilt:

E((Y − a∗X − b∗)2

)=(1− ρ2

X,Y

)· V (Y ),

wobei (1− ρ2X,Y ) die Verbesserung gegenuber dem konstanten Vorhersager V (Y ) ist.

Beweis:

Fur festes a wird laut Bemerkung 7.29 E((Y − aX − b)2

)minimiert (wobei wir Y −aX als Zufallsvariable

Z betrachten und b finden wollen, s.d. der Ausdruck minimiert wird) durch b∗ = E(Y − aX) = E(Y )−aE(X) und es ist

E((Y − aX − b∗)2

)= V (Y − aX).

Nun mussen wir ein a finden, sodass V (Y − aX) minimal wird.

Wenn wir

f(a) := V (Y −aX) = V (Y )+CoV(Y,−aX)+CoV(−aX, Y )+V (−aX) = V (Y )−2aCoV(X,Y )+a2V (X)

setzen, so istf ′(a) = −2CoV(X,Y ) + 2aV (X) = 0

genau dann, wenn

a = a∗ =CoV(X,Y )

V (X)=

σY

σX

· ρX,Y

ist und es folgt durch Einsetzen in die Gleichung oben

V (Y − a∗X) = V (Y )− 2CoV(X,Y )

V (X)· CoV(X,Y ) +

(CoV(X,Y )

V (X)

)2

· V (X)

= V (Y )− 2CoV(X,Y )2

V (X)+

CoV(X,Y )2

V (X)

= V (Y ) ·(

1− CoV(X,Y )2

V (X)

)

= V (Y ) ·(1− ρ2

X,Y

)

Das zeigt die Behauptung.

Bemerkung 7.35:

Mit a = 0 und b = E(Y ) folgt:

0 ≤ E((Y − a∗X − b∗)2

)

︸ ︷︷ ︸=(1−ρ2

X,Y )·V (Y )

≤ E((Y − 0X − E(Y ))

2)

= V (Y )

und damit0 ≤ ρ2

X,Y ≤ 1 bzw. − 1 ≤ ρX,Y ≤ 1.

7.36 Definition:

Ist ρX,Y > 0, so nennen wir X und Y positiv korreliert.

Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei großeren X-Werten auch großere Y -Wertevoraussagen.

7.37 Definition:

Ist ρX,Y < 0, so nennen wir X und Y negativ korreliert.

Mit dem Satz oben bedeutet das, dass wir in diesem Fall bei großeren X-Werten kleinere Y -Wertevoraussagen.

Page 87: Grundlagen der Stochastik

8 Erzeugende Funktion und Verzweigungsprozesse 87

8 Erzeugende Funktion und Verzweigungsprozesse

In diesem Abschnitt werden wir sehen, dass man Wahrscheinlichkeitsverteilungen Funktionen3 zuordnenkann, sodass kompliziertes Rechnen mit Wahrscheinlichkeitsverteilungen (z.B. Faltungen) zum einfachenRechnen mit den zugehorigen Funktionen wird (z.B. Produkt der Funktionen).

In der Wahrscheinlichkeits- und Maßtheorie wird dies bei Momenterzeugenden Funktionen und beiFourier-Transformationen genutzt.

Wir betrachten hier nun als einfacheres Beispiel fur analytische Methoden:

8.1 Definition (Erzeugende Funktion):

Sei X eine diskrete Zufallsvariable auf dem diskreten Wahrscheinlichkeitsraum (Ω, P ) mit Werten in N0.Sei pk = P (X = k) fur k ∈ N0. Die erzeugende Funktion (der Verteilung) von X ist die Funktion

gX(t) :=∞∑

k=0

pk · tk.

Bemerkung 8.2:

Wegen gX(1) =∞∑

k=0

pk = 1 und pk ≥ 0 folgt, dass gX(t) fur alle t ∈ [−1, 1] konvergiert (sogar absolut).

Insbesondere gilt gX(1) = 1.

Folglich konnen wir den Differenzierbarkeitssatz fur Potenzreihen anwenden, das liefert das folgende

8.3 Lemma:

Fur t ∈ (−1, 1) ist die j-te Ableitung gegeben durch

g(j)X (t) =

∞∑

k=j

k · (k − 1) · ... · (k − j + 1) · pk · t(k−j).

8.4 Satz:

Die Verteilung von X ist durch gX festgelegt.

Beweis:

Es gilt P (X = 0) = p0 = gx(0) und mit obigem Lemma g(j)x (0) = j! · pj , das heißt

P (X = j) =1

j!· g(j)

X (0).

Es folgt die Behauptung.

Beispiel 8.5:

Sei X ∼ Poi(λ). Dann gilt

gX(t) =

∞∑

k=0

exp(−λ) · λk

k!︸ ︷︷ ︸pk

·tk = exp(−λ)

∞∑

k=0

(λt)k

k!= exp(−λ) · exp(λ · t)

Diese Funktion sieht fur λ = 2 wie folgt aus:

1

2

0 1−1 t

Abbildung 10: Die erzeugende Funktion gX fur X ∼ Poi (2).

3Das meint entweder R // R oder C // C!

Page 88: Grundlagen der Stochastik

88 8 Erzeugende Funktion und Verzweigungsprozesse

Beispiel 8.6:

Sei X ∼ B(n, p). Dann gilt

gX(t) =

n∑

k=0

(n

k

)pk · (1− p)n−k · tk

= (p · t + (1− p))n

Diese Funktion sieht fur n = 2 und p = 12 wie folgt aus:

1

2

0 1−1 t

Abbildung 11: Die erzeugende Funktion gX fur X ∼ B(2, 1

2

).

8.7 Satz (Eigenschaften):

Sei g = gX eine erzeugende Funktion.

• Fur 0 ≤ t ≤ 1 ist g stetig, monoton wachsend und konvex.

• Es giltlimtր1

g(1)(t) = E(X)

und allgemeinerlimtր1

g(j)(t) = E (X · (X − 1) · (X − 2) · ... · (X − j + 1)) .

Man nennt dies j-tes faktorielles Moment von X.

Beweis:

• Als absolut konvergente Potenzreihe ist g in [−1, 1] stetig. Da mit dem Lemma

g′(t) =

∞∑

k=1

k · pktk−1

gilt und k · pk ≥ 0 ist, ist g′ ≥ 0 in [0, 1] und daher g monoton wachsend in [0, 1].

g ist konvex, da es eine positive (pk ≥ 0!) Linearkombination der konvexen Funktion t 7→ tk mitk ≥ 0 ist.

• Der Abel’sche Grenzwertsatz besagt: Wenn ak ≥ 0 und ak ∈ R so gilt

limtր1

∞∑

k=0

aktk =

∞∑

k=0

ak

wobei beide Seiten ∞ sein konnen. Mit der Transformationsformel fur den Erwartungswert (Satz5.12) gilt fur die Funktion h(k) := k · (k − 1) · ... · (k − j + 1)

limtր1

g(j)(t) =∞∑

k=j

k · (k − 1) · ... · (k − j + 1) · pk

Transformationsformel= E(h(X))

= E(X(X − 1)(X − 2) · ... · (X − j + 1)).

Page 89: Grundlagen der Stochastik

8 Erzeugende Funktion und Verzweigungsprozesse 89

Beispiel 8.8:

Sei X ∼ Poi(λ). Wir wollen nun E(X) und V (X) analytisch bestimmen (obwohl wir das Ergebnis jaschon kennen).

Die erzeugende Funktion ist nach Beispiel 8.5

gX(t) = exp(−λ) · exp(λt).

Man berechnet die Ableitungen

g(1)X (t) = exp(−λ) · λ · exp(λt)

g(2)X (t) = exp(−λ) · λ2 · exp(λt).

Mit dem Satz istE(X) = lim

tր1g(1)X = exp(−λ) · exp(λ) · λ = λ

undE(X(X − 1)) = E

(X2)− E(X) = lim

tր1g(2)X (t) = λ2.

Wir erhalten durch Umstellen

V (X) = E(X2)− (E(X))

2=(λ2 + λ

)− λ2 = λ.

8.9 Satz:

Seien X,Y unabhangige Zufallsvariablen mit Werten in N0. Dann gilt

gX+Y (t) = gX(t) · gY (t), t ∈ [−1, 1] .

Beweis:

Sei t ∈ [−1, 1] fest. Wir sehen mit der Transformationsformel (Satz 5.12) fur die Funktion h(x) := tx,x ≥ 0:

E(tX)

= E (h(X)) =

∞∑

k=0

tk · P (X = k) = gX (t) .

Nach dem Blockungslemma sind auch die Zufallsvariablen tX und tY unabhangig und mit der Produkt-formel fur den Erwartungswert unabhangiger Zufallsvariablen (Satz 5.19) folgt

gX+Y (t) = E(tX+Y

)= E

(tX · tY

)= E(tX) · E(tY ) = gX(t) · gY (t).

Das zeigt schon die Behauptung.

Beispiel 8.10:

Wir wollen nun mit dieser Formel zeigen, dass

Poi(λ) ⋆ Poi(µ) = Poi(λ + µ)

gilt.

Beweis:

Seien X ∼ Poi(λ) und Y ∼ Poi(µ) unabhangig. Dann gilt

gX+Y (t)Satz 8.9

= gX(t) · gY (t)

= exp(λ) exp(λt) exp(−µ) exp(µt)

= exp(−(λ + µ)) exp((λ + µ)t)

und da nach Satz 8.4 die Verteilung von X +Y bereits durch gX+Y festgelegt ist folgt die Behauptung.

Wir wollen an dieser Stelle noch einen zweiten, elementaren Beweis ohne Benutzung des Erwartungswertesbzw. des Blockungslemmas fur die oben schon gezeigte Formel

gX+Y (t) = gX(t) · gY (t), t ∈ [−1, 1] (8.1)

fur unabhangige Zufallsvariablen X,Y mit Werten N0 geben:

Page 90: Grundlagen der Stochastik

90 8 Erzeugende Funktion und Verzweigungsprozesse

Beweis:

Per Definition ist

gX+Y (t) =

∞∑

k=0

P (X + Y = k) tk

(7.2)=

∞∑

k=0

k∑

j=0

P (X = j) · P (Y = k − j)

tk︸︷︷︸=tj ·tk−j

Cauchy-Reihenprodukt=

∞∑

j=0

P (X = j) tj

·( ∞∑

k=0

P (Y = k) tk

)

= gX(t) · gY (t),

was die Behauptung schon zeigt.

Folgerung 8.11:

Fur endlich viele unabhangige, N0-wertige Zufallsvariablen X1, ...,Xn gilt

gX1+...+Xn= gX1

· ... · gXn

als Funktion.

Beweis:

Einfach induktiv (8.1) anwenden.

8.12 Satz (Erzeugende Funktion fur zufallige Summe):

Seien N,X1,X2, ... unabhangige, N0-wertige diskrete Zufallsvariablen auf (Ω, P ), s.d. die ZufallsvariablenX1,X2, ... alle die gleiche Verteilung haben. Setze

SN (ω) :=

N(ω)∑

j=1

Xi (ω) , ω ∈ Ω.

Dann istgSN

(t) = (gN gX1) (t) = gN (gX1

(t)) ∀ t ∈ [−1, 1] .

Beweis:

Da nach dem Blockungslemma auch N undn∑

i=1

Xi fur jedes n ∈ N0 unabhangig sind, stellen wir zunachst

fest, dass

P (Sn = k) =

∞∑

n=0

P (N = n, Sn = k)

=

∞∑

n=0

P (N = n) · (Sn = k) (8.2)

Damit folgt direkt aus der Definition der erzeugenden Funktion fur t ∈ [−1, 1], dass

gSN(t) =

∞∑

k=0

P (SN = k) · tk

(8.2)=

∞∑

k=0

∞∑

n=0

P (N = n) · P (Sn = k) · tk

absolute Konvergenz=

∞∑

n=0

P (N = n)

∞∑

k=0

P (Sn = k) · tk

︸ ︷︷ ︸=gSn (t)

Folgerung 8.11= gX1

(t)·...·gXn (t)

=

∞∑

n=0

P (N = n) gX1(t) · ... · gXn

(t)

X1,X2,... gleich verteilt=

∞∑

n=0

P (N = n) (gX1(t))

n

= gN (gX1(t)) .

Page 91: Grundlagen der Stochastik

8 Erzeugende Funktion und Verzweigungsprozesse 91

Das zeigt die Behauptung.

Als Korollar erhalten wir hier einen Spezialfall (N0-wertige Zufallsvariablen) der Wald’schen Identitat:

Korollar 8.13:

Unter den Voraussetzungen von Satz 8.12 gilt

E (SN ) = E (N) · E (X1) .

Beweis:

Fur jede Zufallsvariable X ist nach Satz 8.7 E (X) = limtր1

g′X(t). Daher folgt:

E (SN ) = limtր1

g′SN(t)

Satz 8.12= lim

tր1(gN gX1

)′(t)

= limtր1

g (X1) (t) · g′N (gX1(t))

= limtր1

g (X1) (t) · limtր1

g′N (gX1(t))

Da nach Bemerkung 8.2 gX1(1) = 1 gilt und gX1

nach Satz 8.7 monoton wachsend ist, gilt

gX1(t)ր 1 fur tր 1.

Da limtր1

g′N (t) = E(N) existiert, folgt

E (SN ) = limtր1

g (X1) (t) · limtր1

g′N (gX1(t))

= limtր1

g (X1) (t) · limtր1

g′N (t)

= E(X1) · E(N),

was die Behauptung zeigt.

Page 92: Grundlagen der Stochastik

92 8 Erzeugende Funktion und Verzweigungsprozesse

8.1 Verzweigungsprozesse

Wir nehmen an, dass es in der 0-ten Generation Z0 = 1 Teilchen gibt. Dieses erzeugt eine zufallige Anzahlk ∈ N0 von Nachkommen gemaß einer Wahrscheinlichkeitsfunktion, die durch p0, p1, p2, ... gegeben ist.Dabei bezeichnet pi die Wahrscheinlichkeit, dass i Nachkommen erzeugt werden etc..

Diese Nachkommen bilden die erste Generation.Die Teilchen der ersten Generation erzeugen dann unabhangig voneinander wieder Nachkommen nachdem gleichen Zufallsgesetz p0, p1, p2, .... Diese Nachkommen bilden dann die zweite Generation usw..

8.1.1 Modellbildung

Diesen Prozess wollen wir nun modellieren:

Sei (pk)k∈N0die vorgegebene Wahrscheinlichkeitsfunktion. Seien außerdem Xn,j fur n, j ∈ N unabhangige

Zufallsvariablen mit Werten in N0 und P (Xn,j = k) = pk fur alle n, j ∈ N und k ∈ N0. Sei zuletzt Z0 = 1.

Die Anzahl der Teilchen in der ersten Generation sei durch Z1 := X1,1 gegeben. Wir definieren nuninduktiv die Anzahl der Teilchen in der n-ten Generation:

Ist Zn−1 (also die Anzahl Teilchen in der n-ten Generation) schon definiert, so setze

Zn :=

Zn−1∑

j=1

Xn,j .

Die Xn,j entspricht also der Anzahl an Nachkommen, die das j-te Element aus der n− 1-ten Generationzur n-ten Generation beisteuert.

Die Folge von Zufallsvariablen (Zn)n∈Nheißt dann Galton-Watson-Prozess.

8.1.2 Motivation

Verzweigungsprozesse werden aus den verschiedensten Motivationen heraus betrachtet: So interessiertensich um 1870 einige Forscher fur die Wahrscheinlichkeit des Aussterbens von Familiennamen, welchemittels eines Verzweigungprozesses wie oben berechnet werden kann.

Heutzutage werden Verzweigungsprozesse vor allem in der Kernphysik und beim Studium von Netzwerkengebraucht.

8.1.3 Aussterbewahrscheinlichkeit

Sei qn := P (Zn = 0) die Wahrscheinlichkeit, dass die n-te Generation leer ist (d.h. zur Generation noder fruher

”ausgestorben“), n ∈ N. Dann ist q1 die Wahrscheinlichkeit, dass der Prozess in der ersten

Generation ausstirbt usw..

Offenbar ist das Ereignis, dass der ganze Prozess irgendwann ausstirbt, gegeben als

J :=

∞⋃

n=1

Zn = 0 .

Auch klar ist, dass Zn = 0 ⊂ Zn+1 = 0 fur alle n ∈ N gilt, da der Prozess naturlich ausgestorbenbleibt, wenn er einmal ausgestorben ist. Mit (R9) aus §1 folgt

q = P (J ) = limn→∞

P (Zn = 0) = limn→∞

qn.

Wir nennen q auch die Aussterbewahrscheinlichkeit des Prozesses.

Zur Bestimmung von q konnen wir also die Zahlen qn berechnen. Dazu wollen wir die erzeugendenFunktionen gZn

(0) = P (Zn = 0) = qn nutzen.

Da nach Konstruktion alle Zufallsvariablen Xn,j die gleiche Verteilung, ergo auch die gleiche erzeugendeFunktion

g (t) := gXn,j(t) =

∞∑

k=0

pktk

mit den am Anfang vorgegebenen Zahlen pk haben, gilt

gZ1

Z1=X1,1= gX1,1

= g.

Page 93: Grundlagen der Stochastik

8 Erzeugende Funktion und Verzweigungsprozesse 93

Genauso folgt

Z2 =

Z1∑

j=1

X2,j(8.12)⇒ gZ2

= gZ1 gX1,1

= g g

Z3 =

Z2∑

j=1

X3,j(8.12)⇒ gZ3

= gZ2 gX2,1

= g g g

und induktivgZn

= g ... g︸ ︷︷ ︸n−mal

.

Daher istq = lim

n→∞qn = lim

n→∞gZn

(0) = limn→∞

g ... g︸ ︷︷ ︸n−mal

(0).

8.14 Lemma:

Die Zahlq = lim

n→∞g ... g︸ ︷︷ ︸

n−mal

(0)

ist die kleinste Losung der Gleichung g(t) = t im Intervall [0, 1].

Beweis:

Da g monoton steigend ist und g(1) = 1 gilt, ist g eine Selbstabbildung auf [0, 1]. Daher ist g(0) ≥ 0 undentsprechend g(g(0)) ≥ g(0) mit der Monotonie. Induktiv folgt, dass die Folge qn = g ... g(0) monotonwachsend und durch 1 beschrankt ist. Daher existiert die Zahl q.

Jetzt zeigen wir zunachst, dass q eine Losung von g(t) = t ist:

g(q) = g(

limn→∞

g ... g︸ ︷︷ ︸n−mal

(0))

g stetig= lim

n→∞g ... g︸ ︷︷ ︸(n+1)−mal

(0) = q.

Bleibt zu zeigen, dass q die kleinste Zahl aus [0, 1] mit dieser Eigenschaft ist.

Sei x ∈ [0, 1] mit g(x) = x. Insbesondere gilt dann auch fur alle n ∈ N

g ... g︸ ︷︷ ︸n−mal

(x) = x.

Aus der Monotonie von g folgt

0 ≤ x ⇒ g(0) ≤ g(x) = x ⇒ g(g(0)) ≤ g(g(x)) = x ⇒ g ... g︸ ︷︷ ︸n−mal

(0) ≤ x ∀ n ∈ N.

Durch Bilden des Grenzwertes n //∞ erhalt man die Behauptung.

8.15 Definition:

Wir nennen g : [0, 1] // [0, 1] ein dynamisches System und die Zahl q heißt Grenzwert des dyna-mischen Systems.

Page 94: Grundlagen der Stochastik

94 8 Erzeugende Funktion und Verzweigungsprozesse

Beispiel 8.16:

Sei pk := exp (−λ) λk

k! mit λ = 12 , so kann man am Graphen der erzeugenden Funktion

g(t) = exp (−λ) exp (λt)

leicht sehen, dass t = 1 die kleinste Losung der Gleichung g(t) = t ist:

t

g(t)

b

Abbildung 12: Die Funktion g(t) = exp(− 1

2

)exp

(12 t).

Daher ist hier q = 1, was bedeutet, dass der Prozess mit Sicherheit ausstirbt!

Verwendet man dagegen λ = 2, so kann man am Graphen von g(t) = exp (−λ) exp (λt) leicht sehen, dasder kleinste Wert t mit g(t) = t kleiner als 1 (namlich t ≈ 0.2032) ist:

t

g(t)

b

b

Abbildung 13: Die Funktion g(t) = exp (−2) exp (2t).

Wir wollen nun noch einige Aussagen uber q allein mittels der Zahlen p0 = P (Xn,j = 0) und E (Xn,j)ohne Beweis angeben. Den Beweis lassen wir allein deshalb weg, weil er elementare Analysis ist und sonstnichts mit Stochastik zu tun hat.

8.17 Satz (ohne Beweis):

(1) Ist p0 = 0, so gilt q = 0.

(2) Ist p0 > 0 und E (Xn,j) > 1, so ist q ∈ ]0, 1[.

(3) Ist p0 > 0 und E (Xn,j) = 1, so gilt trotzdem q = 1.

Auf den Ubungsblattern wird fur die Zahlen pk := p · (1− p)k

explizit gezeigt, dass

q < 1 ⇔ E (Xn,j) > 1.

Page 95: Grundlagen der Stochastik

9 Grenzwertsatz von de Moivre-Laplace 95

9 Grenzwertsatz von de Moivre-Laplace

9.1 Normalapproximation der Binomialverteilung

Diese Approximation liefert ein Ergebnis fur Summen unabhangiger Bernoulli-Variablen. Spater wird sieals Spezialfall eines allgemeinen

”zentralen Grenzwertsatzes“ bewiesen.

Seien X1,X2, ...Xn unabhangig und nach B(1, p) verteilt. Sei Sn = X1 + X2 + ... + Xn. Man stellt sich0 < p < 1 fest vor und n als variabel.

Sei p = 12 . Betrachte zum Beispiel Stabdiagramme fur

• n = 1 und S1 = X1,

• n = 2 und S2 = X1 + X2 ∼ B(2, 1

2

),

• n = 50 und Sn =50∑

i=1

Xi ∼ B(50, 1

2

).

Lasst man nun n gegen unendlich laufen, so ist Sn ∼ B(n, p), d.h. der Erwartungswert E(Sn) = n · psowie die Varianz V (Sn) = n ·p · (1−p) gehen gegen unendlich - die Verteilung streut immer mehr. Genaudas sehen wir auch bei Betrachtung der Stabdiagramme.

Beide Effekte kann man”stabilisieren“ indem man zu standardisierten Zufallsvariablen ubergeht:

Setze

S∗n =

Sn − E(Sn)√V (Sn)

.

Dann gilt fur alle n ∈ N:

E (S∗n) = E

(Sn − E(Sn)√

V (Sn)

)

=1√

V (Sn)· E (Sn − E(Sn))

= 0,

V (S∗n) = V

(Sn − E(Sn)√

V (Sn)

)

=1

V (Sn)· V (Sn − E(Sn))

=V (Sn)

V (Sn)

= 1.

Die Werte, die die Zufallsvariable S∗n annimmt, sind

x0, x1, ...xn ∈ R wobei xk =k − np√

npq, 0 ≤ k ≤ n, q = 1− p.

Beispiel 9.1:

• Fur n = 100, p = 12 ist zum Beispiel xk = k−50

5 = k5 − 10, 0 ≤ k ≤ 100.

Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 5 Werte an.

• Fur n = 10.000, p = 12 ist zum Beispiel xk = k−5000

50 = k50 − 100, 0 ≤ k ≤ 100.

Das heißt also, die Zufallsvariable nimmt im Einheitsintervall 50 Werte an.

Wir mochten nun die Wahrscheinlichkeit bestimmen, dass S∗n in einem Intervall [a, b] liegt. Dazu formu-

lieren wir den folgenden Satz.

Page 96: Grundlagen der Stochastik

96 9 Grenzwertsatz von de Moivre-Laplace

9.2 Satz (Grenzwertsatz von de Moivre-Laplace):

Sei

ϕ(x) :=1√2π

exp

(−x2

2

), x ∈ R.

Sei 0 < p < 1 fest und seien fur jedes n X1, ...Xni.i.d∼ B(1, p).

Dann gilt fur jedes Paar a < b mit a, b ∈ R:

limn→∞

P (a ≤ S∗n ≤ b) =

b∫

a

ϕ(x) dx bzw. einseitig limn→∞

P (S∗n ≤ b) =

b∫

−∞

ϕ(x) dx.

Mit der Stammfunktion

Φ(t) :=

t∫

−∞

ϕ(τ) dτ, t ∈ R

kann man schreiben:lim

n→∞P (a ≤ S∗

n ≤ b) = Φ(b)− Φ(a).

Der Beweis folgt spater aus dem zentralen Grenzwertsatz (Satz 10.100).

Bemerkung 9.3:

Die Aussagen gelten auch fur”<“ statt ≤.

9.4 Definition:

Die Funktion ϕ gegeben durch

ϕ(t) :=1√2π

exp

(− t2

2

)

nennt man auch Gaußsche Glockenkurve oder Dichte der Standard-Normalverteilung.

Bemerkung 9.5 (Eigenschaften):

Es gilt∞∫

−∞

ϕ(t) dt = 1.

Außerdem ist ϕ beliebig oft stetig differenzierbar. Der Graph stellt sich wie folgt dar:

1 2−1−2−3 t

Abbildung 14: Die Dichte der Standardnormalverteilung ϕ(t) := 1√2π

exp(− t2

2

).

9.6 Definition:

Wir nennen Φ die Verteilungsfunktion der Standardnormalverteilung.

Bemerkung 9.7:

Φ berechnet sich entsprechend wie folgt:

1 2−1−2−3 t

Φ(1)

Abbildung 15: Die angegebene Flache entspricht Φ(1) =1∫

−∞1√2π

exp(− t2

2

)dt.

Page 97: Grundlagen der Stochastik

9 Grenzwertsatz von de Moivre-Laplace 97

Oder direkt als Funktion:

b b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b bb b b b bb b b b bb b b b bb b b b bb b b b bb b b b bb b b b b bb b b b bb b b b b b bb b b b b b bb b b b b b bb b b b b b b b

b b b b b b b b bb b b b b b b b b b

b b b b b b b b b b bb b b b b b b b b b b b b b

b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b

b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b

bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb

0.10.20.30.40.50.60.70.80.9

0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0−0.4−0.8−1.2−1.6−2.0−2.4−2.8−3.2−3.6−4.0

Abbildung 16: Die Verteilungsfunktion Φ der Standardnormalverteilung.

Fur Φ(t) gibt es keinen geschlossenen Ausdruck, daher ist es fur Werte t ≥ 0 tabelliert:

Beispiel 9.8:

• Φ(1) ≈ 0.8413,

• Φ(1.645) ≈ 0.95,

• Φ(1.96) ≈ 0.975,d.h. zum Beispiel

limn→∞

P (S∗n ≤ 1)

n // ∞ // Φ(1) = 0.8413.

Fur weitere Werte siehe Anhang A.

Bemerkung 9.9:

Um Φ an negativen Stellen auszuwerten, betrachtet man fur t > 0:

Φ(−t) =

−t∫

−∞

ϕ(τ) dτ

Symmetrie von ϕ=

∞∫

t

ϕ(τ) dτ

=

∞∫

−∞

ϕ(τ) dτ −t∫

−∞

ϕ(τ) dτ

= 1− Φ(t)

Beispiel 9.10:

Seien X1, ...,Xni.i.d∼ B(1, p),

Sn :=

n∑

i=1

Xi und S∗n :=

Sn − np√npq

.

Dann bestimmt man

limn→∞

P (−1 ≤ S∗n ≤ 1) = Φ(1)− Φ(−1)

= Φ(1)− (1− Φ(1))

= 2Φ(1)− 1

Tabelle= 2 · 0.8413− 1 ≈ 0.68

Page 98: Grundlagen der Stochastik

98 9 Grenzwertsatz von de Moivre-Laplace

9.2 Anwendung I: Normalapproximation der Binomialverteilung

Wir erinnern uns: Die Poissonapproximation mit λ = n · p fur B(n, p) ist eine gute Approximation, wennp sehr klein ist.

Die Normalapproximation die wir nun vorstellen wollen ist gut, wenn p nicht zu nahe bei 0 oder 1 ist.Als Faustregel fur

”gut“ gilt hier: npq ≥ 9.

Fur Sn ∼ B(n, p) und ganzzahlige Werte 0 ≤ i ≤ j ≤ n gilt

P (i ≤ Sn ≤ j) = P( i− np√

npq︸ ︷︷ ︸

=:a

≤ Sn − np√npq

︸ ︷︷ ︸=S∗

n

≤ j − np√npq

︸ ︷︷ ︸=:b

)

de Moivre≈ Φ

(j − np√

npq

)− Φ

(i− np√

npq

)

Bemerkung 9.11:

• Dies sieht eigentlich verboten aus, da a und b von n abhangen. Es ist jedoch kein Problem, dennman kann zeigen:

supa<b

| P (a ≤ S∗n ≤ b)− (Φ(b)− Φ(a)) | n // ∞ // 0.

• Fehlerabschatzungen (nach Berry-Esseen):

| P (a ≤ S∗n ≤ b)− (Φ(b)− Φ(a)) | ≤ 1.6 · cp√

n

wobei cp konstant ist und nur von p abhangt.

Fur p = 12 ist zum Beispiel cp = 1 und der Fehler ist ≤ 1.6√

n, d.h. etwa ≤ 0.016 fur n = 10.000.

Bemerkung 9.12:

Man kann die Approximation verbessern, indem man j durch j + 12 und i durch i− 1

2 ersetzt (”Korrek-

turterme ± 12“), dies verliert aber fur n→∞ an Bedeutung.

Beispiel 9.13:

Es wird n = 600-mal gewurfelt. Sei Sn die Anzahl der Sechsen. Dann ist

S600 ∼ B

(600,

1

6

).

Man berechnet mit q = 1− p:

• E (Sn) = np = 600 · 16 = 100,

• V (Sn) = npq = 600 · 16 · 5

6 = 83 13 ,

• σ ≈ 9.13....

Damit berechnet man:

P (90 ≤ Sn ≤ 110) ≈ P

90− 100

9.13≤ Sn − 100

9.13︸ ︷︷ ︸=S∗

n

≤ 110− 100

9.13

de Moivre≈ Φ

(10

9.13

)− Φ

(−10

9.13

)

= 2 · Φ(

10

9.13

)− 1

≈ 2 · Φ(1.095)− 1

Tabelle= 2 · 0.863− 1

= 0.726.

Page 99: Grundlagen der Stochastik

9 Grenzwertsatz von de Moivre-Laplace 99

Bei der Rechnung mit Korrekturtermen ergibt sich:

P (90 ≤ Sn ≤ 110) ≈ Φ

(10 + 1

2

9.13

)− Φ

(−10− 12

9.13

)

= 2 · Φ(

10.5

9.13

)− 1

≈ 2 · Φ(1.15)− 1

≈ 2 · 0.8749− 1

= 0.7498.

Der wahre Wert liegt bei P (90 ≤ Sn ≤ 110) = 0.7501 - fur n = 600 kann man diesen rechnergestutztnoch leicht exakt berechnen.

Mit Tschebyschow erhalt man:

P (90 ≤ Sn ≤ 110) = 1− P (|Sn − 100| ≥ 11)︸ ︷︷ ︸≤V (Sn)

112= 83.3

121 ≈0.69

≥ 0.31

- keine große Erkenntnis!

9.3 Anwendung II: Bestimmung eines Stichprobenumfangs

Konkret wollen wir dies fur Wahlvorhersagen durchfuhren. Die Aufgabe ist, den Anteil an einer Partei Aaus einer Umfrage von n zufallig ausgewahlten Befragten heraus zu schatzen.

Seien X1, ...Xn ∼ B(1, p) unabhangig und p = Wahler von Aalle Wahlberechtigten , womit p unbekannt ist!

Aufgabe: Schatze p durch p = 1nSn. Wie groß ist n zu wahlen, damit fur jedes p ∈ [0, 1] mit Wahrschein-

lichkeit ≥ 0.95 der wahre Wert p im (zufalligen) Intervall [p− ε, p + ε] liegt?

Sei ε = 0.01, das heißt 1% Abweichung ist erlaubt. Dann ist

Pp (p ∈ [p− ε, p + ε]) = Pp(−0.01 ≤ p− p ≤ 0.01)

= Pp

(−0.01 · n√npq

≤ np− np√npq

≤ 0.01 · n√npq

)

de Moivre≈ Φ

(0.01 · n√

npq

)− Φ

(−0.01 · n√npq

)

= 2 · Φ(

0.01 · n√npq

)− 1

︸ ︷︷ ︸!≥0.95

Es folgt

Φ

(0.01 · n√

npq

)!≥ 1.95

2= 0.975.

Aus der Tabelle entnimmt manΦ(t) ≥ 0.975 fur t ≥ 1.96

und somit folgt0.01·n√

npq≥ 1.96

⇔ √n ≥ 196

√pq

⇔ n ≥ (196)2 · pq︸︷︷︸≤ 1

4

⇐ n ≥ 9604.

Ist die Vorinformation p ≤ 0.1 gegeben, dann genugt es

n ≥ (196)2 · maxp∈[0,0.1]

p(1− p) = (196)2 · 0.1 · 0.9 = 3458

Menschen zu befragen.

Page 100: Grundlagen der Stochastik

100 10 Allgemeine Modelle und stetige Verteilungen

10 Allgemeine Modelle und stetige Verteilungen

Von diesem Abschnitt an wollen wir uns nicht mehr langer auf diskrete Wahrscheinlichkeitsraume be-schranken. Motiviert durch den Grenzwertsatz von de Moivre (Satz 9.2) kann man sich vorstellen, eine

”Zufallsgroße X“ zu betrachten, die jede reelle Zahl als Wert annehmen kann, s.d.

P (a ≤ X ≤ b) =

b∫

a

ϕ(t) dt = Φ(b)− Φ(a) (10.1)

fur a < b und die oben schon betrachtete Funktion

ϕ(t) =1√2π

exp

(− t2

2

).

In diesem Fall wurde man sagen, dass X Standard-Normalverteilt ist und X ∼ N (0, 1) schreiben.Außerdem definiert (10.1) eine Funktion, die jedem reellen Intervall [a, b] eine

”Wahrscheinlichkeit“ zu-

ordnet.

Fur Anwendungen, wie wir sie ab Abschnitt 10.3 behandeln wollen, genugt diese Vorstellung voll undganz. Wir wollen hier aber vorher etwas Hintergrund behandeln, der vorwiegend aus Maßtheorie besteht.

10.1 Allgemeine Wahrscheinlichkeitsraume und Zufallsvariablen

10.1 Definition:

Ein Wahrscheinlichkeitsraum ist ein Tripel (Ω,A, P ), s.d. Ω eine beliebige Menge und A eineσ-Algebra auf Ω ist, d.h. ein System von Teilmengen von Ω mit den folgenden Eigenschaften:

(σ1) Ω ∈ A(σ2) A ∈ A ⇒ Ac ∈ A

(σ3) A1, A2, ... ∈ A ⇒∞⋃

i=1

Ai ∈ A

Außerdem ist P eine auf A definierte reelle Funktion mit

(A1) P (A) ≥ 0 ∀ A ∈ A(A2) P (Ω) = 1

(A3) Sind A1, A2, ... ∈ A paarweise disjunkt, so gilt

P

( ∞⋃

i=1

Ai

)=

∞∑

i=1

P (Ai) .

P heißt dann (Wahrscheinlichkeits-)Verteilung auf (Ω,A).

Bemerkung 10.2:

Das Axiom (σ3) sorgt dafur, dass Axiom (A3) Sinn macht.

Beispiel 10.3:

Ist Ω eine diskrete (d.h. abzahlbare) Menge, so kann man A = P (Ω) (d.h. die Potenzmenge von Ω)verwenden und erhalt so genau die diskreten Wahrscheinlichkeitsraume, wie wir sie bisher betrachtethaben.

Beispiel 10.4:

Fur jede Menge Ω kann man A = ∅,Ω betrachten. Dieser Fall ist aber nicht sehr interessant, manspricht dann auch von der trivialen σ-Algebra.

Bemerkung 10.5:

Aus den Axiomen (σ1) bis (σ3) folgt, dass eine σ-Algebra A gegen abzahlbare mengentheoretische Ope-rationen wie Schnitte, Komplementbildung, Differenz, Vereinigung etc. abgeschlossen ist. So gilt zumBeispiel

A1, A2, ... ∈ A ⇒∞⋃

i=1

Ai =

(( ∞⋃

i=1

Ai

)c)c

(1.3)=

( ∞⋃

i=1

Aci

)c

,

und die rechte Menge ist wegen (σ2) und (σ3) wieder in A.

Page 101: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 101

Bemerkung 10.6:

Fur eine Wahrscheinlichkeitsverteilung P wie in der Definition oben gelten ebenfalls alle Rechenregeln,die wir am Anfang fur den diskreten Fall hergeleitet haben (d.h. Siebformel, (R1) bis (R9) usw.), da dieseja nur aus den Axiomen (A1) bis (A3) gefolgert wurden.

10.7 Definition:

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum und(Ω′,A′) eine beliebige Menge Ω′ mit σ-Algebra A′ auf Ω′.

Eine Zufallsvariable X auf (Ω,A, P ) ist eine Abbildung X : Ω // Ω′ s.d.

X−1 (A) = x ∈ Ω | X(x) ∈ A′ ∈ A ∀ A′ ∈ A′ (10.2)

gilt.

Bemerkung 10.8:

Allgemeine Abbildungen X : (Ω,A) //(Ω′,A′) mit der Eigenschaft (10.2) nennt man auch meßbar.

10.9 Definition:

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum und(Ω′,A′) eine beliebige Menge Ω′ mit σ-Algebra A′ auf Ω′.

Eine Zufallsvariable X auf (Ω,A, P ) definiert durch

PX (A′) := P(X−1 (A′)

), A′ ∈ A′

eine Wahrscheinlichkeitsverteilung PX auf(Ω′,A′), d.h. wir erhalten einen weiteren Wahrscheinlich-

keitsraum(Ω′,A′, PX

). Wir nennen PX auch Verteilung von X.

Formal mussten wir hier jetzt die Axiome (A1) bis (A3) fur PX nachrechen. Das gleicht aber wortlichdem diskreten Fall, der nach Definition 4.5 gezeigt wurde.

Bemerkung 10.10:

Wie im diskreten Fall auch schreibt man auch

P (X ∈ A′) := P(X−1 (A′)

), A′ ∈ A′ .

Man kann sich nun fragen, wozu das Mengensystem A eigentlich notwendig ist. Warum kann man nichtimmer einfach mit A = P (Ω) - also der Potenzmenge - wie im diskreten Fall arbeiten? Das folgendeBeispiel liefert eine Begrundung:

Beispiel 10.11:

Es gibt keine Wahrscheinlichkeitsverteilung auf allen Teilmengen von Ω = [0, 1[ mit folgender Eigenschaft:

Ist A ⊂ [0, 1[ und x ∈ [0, 1[ so, dass A + x := a + x | a ∈ A ⊂ [0, 1[ ist,so gilt stets P (A) = P (A + x).

Wir wollen also zeigen, dass es keine verschiebungsinvariante Wahrscheinlichkeitsverteilung auf P ([0, 1[)geben kann, wie es z.B. von einer

”Normalverteilung“ zu erwarten ware.

Dazu betrachten wir eine spezielle Menge A0 ⊂[0, 1

2

[(auch Vitali-Menge genannt), die wir wie folgt

konstruieren: Betrachte die Aquivalenzrelaztion

x ∼ y :⇔ |x− y| ∈ Q

auf [0, 1[. Diese zerlegt [0, 1[ in Aquivalenzklassen

[x] := y | |x− y| ∈ Q , x ∈ [0, 1[ .

Gemaß dem Auswahlaxiom wahle aus jeder Klasse [x] einen Vertreter z[x] ∈[0, 1

2

[und definiere A0 als

die Vereinigung all dieser Punkte. Man kann nun zeigen, dass eine Verteilung P auf P ([0, 1[) sowohl

P (A0) = 0

als auchP (A0) > 0

erfullen musste - ein Widerspruch!

Der einzige Ausweg ist also, P nur fur bestimmte Teilmengen zu definieren, was uns zum obigen Begriffder σ-Algebra fuhrt.

Ohne Beweis wollen wir folgendes Resultat angeben:

Bemerkung 10.12 (Satz von Banach-Kuratowski):

Auf (R,P (R)) gibt es nur diskrete Wahrscheinlichkeitsverteilungen.

Page 102: Grundlagen der Stochastik

102 10 Allgemeine Modelle und stetige Verteilungen

10.2 W-Verteilungen auf R, reelle Zufallsvariablen, Verteilungsfunktionen

Um Wahrscheinlichkeitsverteilungen”auf R“ zu betrachten, benotigen wir zunachst eine σ-Algebra. Wir

betrachten die folgende

10.13 Definition:

Die Borel’sche σ-Algebra B auf R ist die kleinste σ-Algebra, die alle offenen Mengen enthalt.

Man beachte folgenden Satz aus der Maßtheorie:

10.14 Satz (ohne Beweis):

Die folgenden Forderungen an eine σ-Algebra auf R sind aquivalent:

(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthalt.

(2) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a, b] mit a < b enthalt.

(3) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form [a, b[ mit a < b enthalt.

(4) Es handelt sich um die kleinste σ-Algebra, die alle Intervalle der Form (−∞, b] mit b ∈ R enthalt.

Bemerkung 10.15:

Die Borel’sche σ-Algebra B enthalt im Wesentlichen alle Teilmengen von R, die einem in der Praxisbegegnen. Allerdings enthalt sie nicht alle Teilmengen von R, die Vitali-Menge A0 von oben ist nicht inB enthalten.

10.16 Definition:

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Eine reelle Zufallsvariable X auf (Ω,A, P ) ist eine meß-bare Abbildung

(Ω,A, P )X // (R,B) .

Beispiel 10.17:

Ein bekannter Satz aus der Maßtheorie sagt zum Beispiel, dass jede stetige Abbildung X : R // R aucheine reelle Zufallsvariable

X : (R,B, P ) // (R,B)

ist.

Wie oben schon gesehen, liefert X als reelle Zufallsvariable dann eine Wahrscheinlichkeitsverteilung auf R.Das meint hier dann naturlich auf (R,B). Solche Verteilungen kann man mittels Funktionen beschreiben:

10.18 Definition:

Eine Funktion F : R // [0, 1] heißt Verteilungsfunktion, wenn

(1) F monoton wachsend ist (nicht notwendiger Weise streng monoton wachsend),

(2) es giltlim

x→−∞F (x) = 0 und lim

x→∞F (x) = 1 und

(3) F ist rechtsstetig, d.h. fur alle x ∈ R gilt

F (x) = limyցx

F (y).

Beispiel 10.19:

Der folgende Graph definiert eine Verteilungsfunktion:

1

0 1−1 t

Abbildung 17: Beispiel einer Verteilungsfunktion.

Page 103: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 103

10.20 Satz:

Sei P eine Verteilung auf R. Dann ist

F (x) := P ((−∞, x])

eine Verteilungsfunktion.

Beweis:

Nutze aus §1 die Rechenregeln (R8) und (R9):

A1 ⊃ A2 ⊃ ... ⇒ P

( ∞⋂

i=1

Ai

)= lim

i→∞P (Ai) (10.3)

A1 ⊂ A2 ⊂ ... ⇒ P

( ∞⋃

i=1

Ai

)= lim

i→∞P (Ai) (10.4)

Da P als Wahrscheinlichkeitsverteilung monoton ist (A ⊂ B ⇒ P (A) ≤ P (B)), ist auch F monotonwachsend. Außerdem folgt fur An := (−∞, n]

limx→−∞

F (x) = limn→−∞

F (n) = limn→−∞

P (An)(10.3)= P

( −∞⋂

n=−1

An

)= P (∅) = 0

und genauso

limx→∞

F (x)(10.4)= P

( ∞⋃

n=1

(−∞, n]

)= P (R) = 1.

Bleibt die Rechtsstetigkeit von F zu zeigen. Sei dazu (xn)n∈Neine Folge aus R, die gegen x ∈ R konvergiert

und xn ≥ x ∀ n ∈ N erfullt. Ohne Einschrankung konnen wir xn+1 ≤ xn fur alle n ∈ N annehmen, dennandernfalls wahlen wir eine Teilfolge mit dieser Eigenschaft aus. Dann gilt

∞⋂

n=1

(−∞, xn] = (−∞, x]

und daher folgt

limn→∞

F (xn) = limn→∞

P ((−∞, xn])(10.3)= P ((−∞, x]) = F (x).

Das zeigt die Behauptung.

Bemerkung 10.21:

Insbesondere gilt also: Ist X eine reelle Zufallsvariable, so ist

FX(x) := P (X ≤ x) = PX ((−∞, x])

die Verteilungsfunktion der Verteilung von X.

Fur diskrete Zufallsvariablen, die nur die Werte x1, x2, ... annehmen, ist

FX(x) =

∞∑

i=1xi≤x

P (X = xi) = P (X ≤ x) .

Im Folgenden sehen wir etwa den Graphen von FX fur eine Zufallsvariable X ∼ B(2, 1

2

), denn es gilt

P (X = 0) = 14 , P (X = 1) = 1

2 , P (X = 2) = 14 :

1

0 1 2 3

b

b

b

Abbildung 18: Der Graph der Verteilungsfunktion FX fur X ∼ B(2, 1

2

).

Wir zitieren nun folgenden Satz aus der Maßtheorie:

Page 104: Grundlagen der Stochastik

104 10 Allgemeine Modelle und stetige Verteilungen

10.22 Satz (Umkehrung):

Ist F eine Verteilungsfunktion, so gibt es genau eine Verteilung P auf R (d.h. auf (R,B)), s.d.

P ((−∞, x]) = F (x) ∀ x ∈ R

gilt. Damit gilt dann auch

P ((−∞, b])− P ((−∞, a]) = ((a, b]) = F (b)− F (a)

fur alle a < b ∈ R.

Bemerkung 10.23:

Die Satze 10.20 und 10.22 zeigen, dass es eine Bijektion zwischen der Menge aller Verteilungsfunktionenund der Menge aller Verteilungen auf R gibt. Die Abbildung F 7→ P wird dabei durch Satz 10.22 geliefert.Sie ist nach Satz 10.20 surjektiv, und wie wir nun sehen werden auch injektiv:

Sind F1, F2 zwei Verteilungsfunktionen mit F1 6= F2, so gibt es ein x ∈ R mit F1(x) 6= F2(x). Entsprechenderfullen dann die zugehorigen Verteilungen P1 und P2

P1 ((−∞, x]) = F1(x) 6= F2(x) = P2 ((−∞, x]) ,

womit die Verteilungen nicht gleich sein konnen.

10.3 Stetige Verteilungen

10.24 Definition:

Eine Dichte ist eine integrierbare Funktion f : R // R mit f(t) ≥ 0 fur alle t ∈ R und der Eigenschaft,dass

∞∫

−∞

f(t) dt = 1. (10.5)

Beachte, das”integrierbar“ hier

”Riemann-integrierbar“ heißt.

Wir wollen in dieser Vorlesung nur Dichten betrachten, die stetig bis aufhochstens endlich viele Sprungstellen sind!!

10.25 Satz:

Zu jeder Dichte f gibt es genau eine Verteilung P auf R mit

P (]a, b]) =

b∫

a

f(t) dt

fur a < b ∈ R.

Beweis:

Setze

F (x) :=

x∫

−∞

f(t) dt.

Da f nur endlich viele Sprungstellen hat, wissen wir bereits aus der Analysis I, dass F stetig ist. Außerdemfolgt wegen der Positivitat von f , dass F monoton wachsend ist. Wegen (10.5) ist lim

x→∞F (x) = 1. Das

limx→−∞

F (x) = 0 gilt ist klar.

Nach Satz 10.22 gibt es genau eine Verteilung P auf R (das meint naturlich wieder auf (R,B)) mit derEigenschaft wie in der Behauptung.

10.26 Definition:

Wahrscheinlichkeitsverteilungen auf R, fur die es eine Dichte f mit

P (]a, b]) =

b∫

a

f(t) dt

fur alle a < b gibt, nennt man stetige Verteilungen.

Page 105: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 105

10.27 Definition:

Eine reelle Zufallsvariable X heißt stetig verteilt, wenn die Verteilung PX von X eine Dichte hat, d.h.wenn

P (a ≤ X ≤ b) =

b∫

a

f(t) dt

fur eine geeignete Dichte f gilt.

Bemerkung 10.28:

Ist P eine stetige Verteilung, so giltP (x) = 0

fur alle x ∈ R.

Beweis:

Es gilt

P (x) (10.3)= lim

n→∞P

([x− 1

n, x

])= lim

n→∞

x∫

x− 1n

f(t) dt = 0

nach unserer Annahme, dass f stetig bis auf hochstens endlich viele Sprungstellen ist.

Folgerung 10.29:

Insbesondere gilt fur stetige Verteilungen also

P ([a, b]) = P (]a, b])

usw..

Ab jetzt betrachten wir nur noch Zufallsvariablen mit stetigen Verteilungen, d.h. solche, fur die es eineDichte f mit

P (a ≤ X ≤ b) =

b∫

a

f(t) dt

gibt.

10.4 Zufallsvariablen mit stetiger Verteilung

In diesem Abschnitt wollen wir einige stetige Verteilungen vorstellen und einen Uberblick der Eigenschaf-ten geben:

10.4.1 Die Gleichverteilung

Die Dichte der Gleichverteilung auf dem Einheitsintervall [0, 1] ist gegeben durch

f (t) = 1[0,1](t) =

1 falls t ∈ [0, 1]

0 falls t /∈ [0, 1], t ∈ R.

Ist eine Zufallsvariable X gleichverteilt auf [0, 1], so schreiben wir auch

X ∼ U (0, 1) .

Die zugehorige Verteilungsfunktion ist

F (x) = P (X ≤ x) =

0 falls x ≤ 0

x falls 0 ≤ x ≤ 1

1 falls x ≥ 1

.

Den Graph dieser Funktion haben wir schon als Abbildung 17 gesehen.

Allgemeiner:

Die Gleichverteilung auf einem reellen Intervall [r, s] ist gegeben durch die Dichte

f(t) =1

s− r1[r,s](t).

Ist X eine gleichverteilte Zufallsvariable auf [r, s], so schreiben wir auch

X ∼ U (r, s) .

Page 106: Grundlagen der Stochastik

106 10 Allgemeine Modelle und stetige Verteilungen

10.4.2 Die Normalverteilung

Die Dichte der Normalverteilung N(µ, σ2

)mit µ ∈ R, σ2 ∈ (0,∞) ist gegeben als

ϕµ,σ2(t) = f(t) :=1√

2πσ2exp

(− (x− µ)

2

2σ2

).

Wir kennen schon den Spezialfall µ = 0, σ2 = 1 der Standard-Normalverteilung. Wir werden spater nochsehen, dass fur eine Zufallsvariable X ∼ N

(µ, σ2

)die Zahl µ der Erwartungswert und σ2 die Varianz ist.

Solche Zufallsvariablen X ∼ N(µ, σ2

)verwendet man etwa dann, wenn X eine ungenaue Messung mit

Erwartungswert (bekannt z.B. aus der Theorie) µ ist. Insbesondere simuliert man damit eine Verteilungnaturlicher Messgroßen.

Die Verteilungsfunktion

Φ(x) =

x∫

−∞

ϕ0,1(t) dt

der Standard-Normalverteilung ist tabelliert. Mit Hilfe dieser Tabelle kann man aber auch

x∫

−∞

ϕµ,σ2 (t) dt,

also die Verteilungsfunktion einer beliebigen Normalverteilung, berechnen, wie wir in Bemerkung 10.36sehen werden.

Außerdem zeigen wir in Beispiel 10.35, dass

X ∼ N (0, 1) , µ ∈ R, σ ∈ (0,∞) ⇒ Y = σX + µ ∼ N (µ, σ)

gilt.

10.4.3 Die Exponentialverteilung

Setze fur einen reellen Parameter λ > 0 die Dichte der Exponentialverteilung als

f(t) :=

λ exp (−λt) falls t ≥ 0

0 falls t < 0

fest. Diese Funktion sieht fur λ = 2 wie folgt aus:

1

0 1−1 t

Abbildung 19: Die Funktion f(t) fur λ = 2.

Wir nennen f die Dichte der Exponentialverteilung Exp(λ) auf R. Die zugehorige Verteilungsfunktionist

F (x) =

1− exp (−λx) falls x > 0

0 falls x ≤ 0.

Insbesondere gilt fur eine Zufallsvariable X ∼ Exp(λ) und 0 ≤ a < b:

P (a ≤ X ≤ b) = F (b)− F (a) = (1− exp (−λb))− (1− exp (−λa)) = exp (−λb)− exp (−λa) .

Man verwendet Zufallsvariablen X ∼ Exp(λ) z.B.

• zur Simulation der Lebensdauer von Geraten / technischen Bauteilen, falls sie”gebraucht wie neu“

sind (wir sehen gleich, welche Bedeutung das hat).

• zur Simulation von Langen von Zeitintervallen bei Serveranfragen, Anrufen in einem Call-Centeroder radiaoktiven Zerfallsprozessen.

Page 107: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 107

• zur Simulation von Bedienzeiten an Schaltern.

Fur X ∼ Exp (λ) ist ein Leichtes, mit Hilfe der Verteilungsfunktion die”Uberlebensdauer“ zu berechnen:

P (X > x) = 1− P (X ≤ x) = 1− F (x) = exp (−λx) .

Wir sehen sofort, dass die Uberlebensdauer also exponentiell schnell fallt!

Jetzt wollen wir uns dem Ausspruch”gebraucht wie neu“ bzw. der Gedachtnislosigkeit dieser Verteilung

widmen. Fur x, t ≥ 0 gilt

P (X > t + x | X > t) =P (X > t + x und X > t)

P (X > t)

=P (X > t + x)

P (X > t)

=exp (−λ (t + x))

exp (−λt)

= exp (−λx)

= P (X > x) .

Simuliert man also die Lebensdauer eines Gerats mit der Exponentialverteilung, so hat ein gebrauchtgekauftes Gerat die selbe Qualitat wie ein Neues!

10.4.4 Die Pareto-Verteilung

Man betrachtet fur einen Parameter α > 0 die Dichte

f(t) =

α

(t+1)α+1 falls t ≥ 0

0 falls t < 0.

Der Graph von f stellt sich wie folgt dar:

1

2

3

0 1−1 t

Abbildung 20: Die Funktion f(t) fur α = 4.

Zunachst ahnelt diese Funktion der Dichte der Exponentialverteilung, aber wir sehen im Gegensatz, dasshier nur polynomielles Abfallverhalten vorliegt!

Diese Dichte f definiert uns die Pareto-Verteilung. Fur eine paretoverteilte Zufallsvariable X mitParameter α > 0 schreiben wir auch X ∼ Pareto(α).

Man modelliert mit der Pareto-Verteilung etwa Dateigroßen in Byte in Datenbanken oder auf Servern.Allgemeiner modelliert man mit Ihr Verteilungen, bei denen große Werte selten, aber nicht so selten wiebei Exp (λ) sind.

Heutzutage wird die Pareto-Verteilung auch oft verwendet, wo fruher die Exponentialverteilung verwendetwurde.

Page 108: Grundlagen der Stochastik

108 10 Allgemeine Modelle und stetige Verteilungen

10.4.5 Die Cauchy-Verteilung

Betrachte die Dichte

f(t) :=1

π (1 + t2).

Diese hat den Graphen

0 1−1−2 t

Abbildung 21: Die Funktion f(t) fur λ = 2.

und definiert uns die Cauchy-Verteilung. Wir werden in Beispiel 10.41 noch sehen, dass diese Verteilungkeinen Erwartungswert besitzt.

10.4.6 Die Gamma-Verteilung

Zunachst benotigen wir die

10.30 Definition (Gamma-Funktion):

Sei x ∈ (0,∞). Dann definiert man die Gamma-Funktion Γ durch

Γ (x) =

∞∫

0

tx−1 exp (−t) dt.

Wir wissen bereits aus der Analysis I, dass dieses Integal konvergiert und eine beliebig oft differenzierbareFunktion definiert. Außerdem erfullt sie bekanntlich die Funktionalgleichung

Γ (x + 1) = xΓ(x) ∀ x ∈ (0,∞) ,

was auch Γ (n) = (n− 1)! mit n ∈ N zeigt. Zuletzt sollte noch erwahnt werden, dass

Γ

(1

2

)=

1

2

∞∫

0

exp(x2)

dx =√

π.

Nun definieren wir die Gamma-Verteilung Gamma (r, λ) fur reelle Parameter r, λ > 0 durch die Dichte

f(t) =

λr

Γ(r) tr−1 exp (−λt) falls t > 0

0 falls t ≤ 0.

Zunachst betrachten wir einige Spezialfalle:

(1) (a) Sei r = 1. Dann erhalten wir offenbar genau die Exponentialverteilung mit Parameter λ, dadie Dichten ubereinstimmen.

(b) Sei r ∈ N. Man kann zeigen, dass dann Gamma (r, λ) genau die Verteilung von X1 + ... + Xr

fur Zufallsvariablen X1, ...,Xri.i.d.∼ Exp (λ) ist (vergleiche eines der Ubungsblatter).

(2) (a) Gamma(

12 , 1

2

)ist genau die Verteilung von X2 fur X ∼ N (0, 1), wie wir in Beispiel 10.32

sehen werden.

(b) Gamma(

n2 , 1

2

)fur n ∈ N ist genau die Verteilung von X2

1+...+X2n, falls X1, ...,Xn

i.i.d.∼ N (0, 1)gilt.

Diese Verteilung ist in der Statistik wichtig, sie wird auch Chi-Quadrat-Verteilung mit n

Freiheitsgraden genannt und als χ2n bezeichnet.

10.5 Berechnung und Transformation von Dichten

10.31 Satz:

Sei F eine stetige Verteilungsfunktion, die bis auf endlich viele Punkte c1, ..., ck stetig differenzierbar ist.Sei C = c1, ..., ck. Dann definiert

f (t) :=

F ′(t) falls t ∈ C

0 falls t /∈ C

eine Dichte fur die durch F definierte Verteilung auf R.

Page 109: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 109

Beweis:

Mit Satz 10.25 genugt es offenbar zu zeigen, dass f eine Dichte ist (denn das f dann die Verteilungsfunk-tion F erzeugt, ist mit etwas Analysis I und der Stetigkeit von F klar).

Da F eine Verteilungsfunktion ist, ist F monoton wachsend und daher F ′ ≥ 0, wo F ′ existiert. Daher istauch f ≥ 0.

Setze nun c0 := −∞ und ck+1 := +∞. Nach Umnummerierung nehmen wir ohne Einschrankung

c0 < c1 < ... < ck < ck+1

an. Dann gilt (mit F (−∞) = 0 und F (∞) = 1) fur i = 0, ..., k die Relation

ci+1∫

ci

f(t) dt = limaցci,bրci+1

b∫

a

f(t) dt = limaցci,bրci+1

(F (b)− F (a)) = F (ci+1)− F (ci), (10.6)

da F stetig ist. Das zeigt

∞∫

−∞

f(t) dt =k∑

i=0

ci+1∫

ci

f(t) dt(10.6)=

k∑

i=0

(F (ci+1)− F (ci)) = F (∞)− F (−∞) = 1.

Also ist f eine Dichte und es folgt die Behauptung.

Beispiel 10.32 (Anwendung):

Sei X ∼ N (0, 1) und Y := X2. Dann ist Y ∼ χ21 = Gamma

(12 , 1

2

).

Beweis:

Sei FY die Verteilungsfunktion der Verteilung von Y . Da Y ≥ 0 ist, muss auch FY (x) = P (Y ≤ x) = 0fur x < 0 gelten. Falls x ≥ 0, so haben wir

FY (x) = P (Y ≤ x)

= P(0 ≤ X2 ≤ x

)

= P(−√x ≤ X ≤ √x

)

= Φ(√

x)− Φ

(−√x

)

= 2Φ(√

x)− 1,

wobei Φ die Verteilungsfunktion der Standard-Normalverteilung ist.

Wegen (Φ (√

x))′= ϕ(

√x) 1

2√

xist FY an allen Punkten x 6= 0 stetig differenzierbar und mit Satz 10.31

folgt, dass die Dichte von Y gegeben ist durch

fY (x) =

F ′

Y (x) falls x > 0

0 falls x ≤ 0=

2 (Φ (

√x))

′falls x > 0

0 falls x ≤ 0=

1√2πx

exp(−x

2

)falls x 6= 0

0 falls x = 0.

Wegen Γ(

12

)=√

π ist der Faktor

1√2π

=

(12

) 12

Γ(

12

)

und es folgt die Behauptung.

Fur die folgende Transformation brauchen wir erst folgende

10.33 Definition:

Seien I, J ⊂ R zwei Intervalle. Ein Diffeomorphismus u : I // J ist eine bijektive Abbildung, s.d. u

und u−1 stetig differenzierbar sind.

Dann gilt der folgende

10.34 Satz (Transformationsformel fur Dichten):

Sei X eine stetig verteilte Zufallsvariable mit Dichte fX und Werten in einem offenen Intervall I ⊂ R.Sei außerdem u : I // J ein Diffeomorphismus. Dann hat Y := u (X) auf J die Dichte

fY (y) = fX

(u−1(y)

)·∣∣∣(u−1)′

(y)∣∣∣ .

Page 110: Grundlagen der Stochastik

110 10 Allgemeine Modelle und stetige Verteilungen

Beweis:

Zunachst konnen wir ohne Einschrankung annehmen, dass u streng monoton steigend ist (da u ein Dif-feomorphismus ist, muss u streng monoton sein). Dann wollen wir die Substitutionsregel

b∫

a

f(x) dx =

g−1(b)∫

g−1(a)

(f g) (y) · g′ (y) dy

fur den Diffeomorphismus g = u−1 anwenden. Damit folgt

P (a ≤ Y ≤ b) = P(u−1 (a) ≤ X ≤ u

−1(b))

=

u−1(b)∫

u−1(a)

fX (x) dx

=

b∫

a

fX

(u−1(y)

) (u−1)′

(y)︸ ︷︷ ︸=|(u−1)′(y)|

dy

da u nach Annahme streng monoton steigend ist.

Beispiel 10.35 (Anwendung):

Sei X ∼ N (0, 1) und Y := σX + µ mit µ, σ ∈ R und σ > 0. Dann ist Y ∼ N(µ, σ2

).

Beweis:

Wir setzenu (x) := σx + µ.

Bei dieser Abbildung handelt es sich offenbar um einen Diffeomorphismus mit

u−1 (y) =

y − µ

σund

(u−1)′

(y) =1

σ.

Mit Satz 10.34 folgt fur die Dichte fY von Y und fX von X, dass

fY (y) = fX

(y − µ

σ

)· 1

σ=

1√2π

exp

(− (y − µ)

2

2σ2

)· 1

σ=

1√2πσ2

exp

(− (y − µ)

2

2σ2

),

was genau der Dichte zu N(µ, σ2

)entspricht.

Alternativ kann man diese Aussage auch mit Hilfe von Satz 10.31 beweisen:

Beweis (alternativ):

Es ist

FY (y) = P (Y ≤ y) = P (σX + µ ≤ y) = P

(X ≤ y − µ

σ

)= Φ

(y − µ

σ

)

fur die Verteilungsfunktion Φ der Standard-Normalverteilung. Mit Satz 10.31 ist dann

fY (y) =

(y − µ

σ

))′=

1

σΦ′(

y − µ

σ

)=

1

σϕ

(y − µ

σ

)

fur die Dichte ϕ der Standard-Normalverteilung - und das ist genau die Dichte zu N(µ, σ2

).

Bemerkung 10.36:

Ganz analog konnen wir nun zeigen, wie man die Verteilungsfunktion zu N(µ, σ2

)aus den Tabellen fur

Φ (der Verteilungsfunktion von N (0, 1)) berechnet:

Ist Y ∼ N(µ, σ2

)fur µ, σ ∈ R, σ > 0, so folgt wie in Beispiel 10.35, dass

X :=1

σ(Y − µ) ∼ N (0, 1)

gilt. Damit ist dann aber

P (Y ≤ y) = P (σX + µ ≤ y) = P

(X ≤ y − µ

σ

)= Φ

(y − µ

σ

)

- und das ist tabelliert!

Page 111: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 111

10.6 Erwartungswert und Varianz

10.37 Definition:

Sei X eine stetig verteilte Zufallsvariable mit Dichte f . Der Erwartungswert von X existiert, falls

∞∫

−∞

|x|f(x) dx <∞.

In diesem Fall definiert man

E (X) :=

∞∫

−∞

xf(x) dx.

Wir sehen hier schon die Analogie zum diskreten Fall: Die Summe in (5.2) wird durch ein Integral ersetzt,und die Einzelwahrscheinlichkeiten P werden durch die Dichte f ersetzt.

Bemerkung 10.38:

Ist X wie in der Definition und X ≥ 0, so kann man stets

E (X) :=

∞∫

−∞

xf(x) dx

setzen und entsprechend einfach ∞ als Wert zulassen.

Beispiel 10.39:

Sei X ∼ U (r, s). Dann ist

E (X) =

s∫

r

x1

s− rdx =

1

s− r

1

2x2∣∣sr

=1

2

s2 − r2

s− r=

s + r

2.

Beispiel 10.40:

Sei X ∼ N (0, 1). Dann ist

E (X) =

∞∫

−∞

xϕ(x) dx =1√2π

∞∫

−∞

x exp

(−x2

2

)dx =

1√2π

exp

(−x2

2

) ∣∣∞−∞ = 0.

Beispiel 10.41:

Sei X eine Cauchy-verteilte Zufallsvariable. Fur die zugehorige Dichte f ist dann

∞∫

−∞

|x|f(x) dx =

∞∫

−∞

|x|π (1 + x2)

dx =1

π

∞∫

0

2x

1 + x2dx =

1

πlim

R→∞

(ln(1 + x2

) ∣∣R0

)=∞.

Daher hat X keinen Erwartungswert!

Page 112: Grundlagen der Stochastik

112 10 Allgemeine Modelle und stetige Verteilungen

Beispiel 10.42:

Sei X ∼ Exp (λ). Dann ist

E (X) =

∞∫

0

tλ exp (−λt) dt

= λ

∞∫

0

t exp (−λt) dt

partielle Integration= λ

t

−λexp (−λt)

∣∣∞0− 1

−λ

∞∫

0

exp (−λt) dt

=

∞∫

0

exp (−λt) dt

= − 1

λexp (−λt)

∣∣∞0

=1

λ.

Beispiel 10.43:

Sei X ∼ Pareto (α). Zunachst untersuchen wir, fur welche α > 0 der Erwartungswert existiert. Bekanntlichexistiert das Integral

∞∫

c

1

tβdt

mit beliebigem c > 0 genau dann, wenn β > 1. Daher ist der Erwartungswert fur α ≤ 1 zwangslaufignicht existent. Fur α > 1 gilt:

∞∫

0

αt

(t + 1)α+1 dt =

∞∫

0

αt + 1

(t + 1)α+1 dt−

∞∫

0

α

(t + 1)α+1 dt

=

∞∫

0

α

(t + 1)α dt− 1

1− α(t + 1)1−α

∣∣∞0− 1

= − α

1− α− 1

α− 1− α− 1

α− 1

=1

α− 1.

Da X ∼ Pareto(α) nach Definition der Dichte als nicht-negativ angenommen werden kann, haben wiralso

E (X) =

∞ falls α ≤ 1

1α−1 falls α > 1

.

Aus der Maßtheorie zitieren wir ohne Beweis den folgenden

10.44 Satz (Transformationsformel fur den Erwartungswert - ohne Beweis):

Sei X eine reelle Zufallsvariable mit Dichte f und g : R // R eine meßbare Funktion (also z.B. stetig).Dann gilt

E (g(X)) =

∞∫

−∞

g(x) · f(x) dx, (10.7)

Page 113: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 113

falls∞∫

−∞

|g(x)|f(x) dx <∞

ist.

Bemerkung 10.45:

Damit folgt im Falle der Existenz zum Beispiel mit g(x) := ax + b:

E (aX + b)(10.7)=

∞∫

−∞

(ax + b) f(x) dx

= a

∞∫

−∞

xf(x) dx + b

∞∫

−∞

f(x) dx

︸ ︷︷ ︸=1

= aE (X) + b

Beispiel 10.46:

Sei X ∼ N (0, 1). In Beispiel 10.35 haben wir schon gezeigt, dass dann

σX + µ ∼ N(µ, σ2

)

gilt. Ebenso haben wir in Beispiel 10.40 schon gesehen, dass E (X) = 0 gilt. Nach obiger Rechnung folgt

E (σX + µ) = σE(X) + µ = µ.

Daher ist µ wie schon weiter oben bemerkt der Erwartungswert einerN(µ, σ2

)-verteilten Zufallsvariablen.

10.47 Definition:

Sei X eine stetig verteilte reelle Zufallsvariable. Falls E(|X|k

)<∞ gilt (in dem Sinne, dass der Erwar-

tungswert fur nicht-negative Zufallsvariablen in [0,∞] stets existiert), so nennen wir

E(Xk)

das k-te Moment von X.

10.48 Definition:

Sei X eine stetig verteilte reelle Zufallsvariable, s.d. E (X) existiert. Dann definieren wir die Varianzvon X durch

V (X) := E((X − E(X))

2)

= E(X2)− (E (X))

2.

Bemerkung 10.49:

Sei X eine reelle Zufallsvariable mit Dichte f . Mit der Transformationsformel (Satz 10.44) ist

V (X) =

∞∫

−∞

x2f(x) dx−

∞∫

−∞

xf(x) dx

2

falls existent.

Beispiel 10.50:

Sei X ∼ U (0, 1). Wir haben in Beispiel 10.39 schon gesehen, dass dann E (X) = 12 gilt. Nach Bemerkung

10.49 haben wir also

V (X) =

1∫

0

x2 dx− 1

4=

1

3− 1

4=

1

12.

Page 114: Grundlagen der Stochastik

114 10 Allgemeine Modelle und stetige Verteilungen

Allgemein folgt ganz genauso

X ∼ U (r, s) ⇒ V (X) =1

s− r

s∫

r

x2 dx−(

s + r

2

)2

=s3 − r3

3(s− r)− (s + r)

2

4

=4s2 + 4rs + 4r2

12− 3s2 + 6rs + 3r2

12

=s2 − 2rs + r2

12

=(s− r)

2

12.

Bemerkung 10.51:

Man zeigt ganz genau wie im diskreten Fall, dass

V (aX + b) = a2V (X)

gilt.

Beispiel 10.52:

Sei X ∼ N (0, 1). In Beispiel 10.40 haben wir gesehen, dass E(X) = 0 gilt. Bemerkung 10.49 liefert also

V (X) =

∞∫

−∞

x2 1√2π

exp

(−x2

2

)dx

=1√2π

∞∫

−∞

x ·(

x exp

(−x2

2

))

︸ ︷︷ ︸=(exp

(− x2

2

)) ′

dx

partielle Integration=

1√2π

(−x exp

(−x2

2

)) ∣∣∞−∞ +

∞∫

−∞

exp

(−x2

2

)dx

=1√2π

∞∫

−∞

exp

(−x2

2

)dx

= 1

Mit der Regel aus Bemerkung 10.51 zeigt das

Y ∼ N(µ, σ2

)⇒ V (Y ) = σ2,

da fur X ∼ N (0, 1) mit Beispiel 10.35 σX + µ ∼ N(µ, σ2

)gilt.

10.7 Mehrdimensionale stetige Verteilungen

Zunachst mussen wir festlegen, welche Teilmengen des Rn eine Wahrscheinlichkeit erhalten konnen undwelche nicht. Dazu gehen wir genau wie auf R vor und wahlen eine geeignete σ-Algebra.

10.53 Definition:

Die Borel’sche σ-Algebra Bn des Rn ist die kleinste σ-Algebra auf dem Rn, die alle offenen Mengenenthalt.

Auch im Rn behalt Satz 10.14 seine Gultigkeit! Allerdings andert sich hier die Formulierung etwas:

10.54 Satz (ohne Beweis):

Die folgenden Forderungen an eine σ-Algebra auf Rn sind aquivalent:

(1) Es handelt sich um die kleinste σ-Algebra, die alle offenen Mengen enthalt.

Page 115: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 115

(2) Es handelt sich um die kleinste σ-Algebra, die alle Rechtecke

(a, b] := (a1, b1]× ...× (an, bn]

mit a = (a1, ..., an) , b = (b1, ..., bn) ∈ Rn enthalt.

10.55 Definition:

Eine Dichte auf Rn ist eine integrierbare Funktion f : Rn // R mit f ≥ 0 und∫

Rn

f(x) dx = 1.

Ebenso zitieren wir den folgenden Satz aus der Maßtheorie:

10.56 Satz (ohne Beweis):

Ist f : Rn // R eine Dichte auf dem Rn, so gibt es zu f genau eine Wahrscheinlichkeitsverteilung Pauf (Rn,Bn) mit der Eigenschaft, dass

P ((a, b]) =

b1∫

a1

...

bn∫

an

f (x1, ..., xn) dxn...dx1 =:

(a,b]

f(x) dx

fur alle Rechtecke (a, b].

10.57 Definition:

Die reellen Zufallsvariablen X1, ...,Xn haben die gemeinsame Dichte f , wenn f eine Dichte auf demRn ist und fur alle a, b ∈ Rn gilt:

P (a1 ≤ X1 ≤ b1, ..., an ≤ Xn ≤ bn) =

(a,b]

f(x) dx.

Beispiel 10.58:

Fur n = 2 ist f := 1[0,1]2 die Dichte der Gleichverteilung auf [0, 1]2.

Beispiel 10.59:

Durch

f :=1

π1(x,y)∈R2 | x2+y2≤1

definieren wir die Dichte der Gleichverteilung auf dem Einheitskreis im R2.

Bemerkung 10.60:

Diese Beispiele lassen sich durchaus verallgemeinern:

Ist A ⊂ R2 ein glattes Gebiet (d.h., dass der topologische Rand von A in jedem Punkt lokal Graph einerbeliebig oft differenzierbaren Funktion ist), so ist 1A Riemann-Integrierbar und die Funktion

f :=1

Vol(A)1A

ist die Dichte der Gleichverteilung auf A.

10.61 Definition (Produktdichten):

Sind f1, ..., fn Dichten auf R, so ist

f (x1, ..., xn) := f1 (x1) · ... · fn (xn)

eine Dichte auf dem Rn. f heißt Produktdichte der Dichten f1, ..., fn. Die gemaß Satz 10.56 zu fgehorende Wahrscheinlichkeitsverteilung P auf (Rn,Bn) heißt Produktverteilung der zu f1, ..., fn

gehorenden Verteilungen P1, ..., Pn auf R gemaß Satz 10.25. Maßtheoretisch schreibt man auch

P = P1 × ...× Pn.

Beispiel 10.62:

Die Funktion 1[0,1]2 ist die Dichte zu P1 × P2, wenn P1, P2 Gleichverteilungen auf [0, 1] sind.

Page 116: Grundlagen der Stochastik

116 10 Allgemeine Modelle und stetige Verteilungen

Beispiel 10.63:

Sei n ∈ N≥2 und sei fi(xi) := 1√2π

exp(−x2

i

2

)fur i = 1, ..., n. Dann ist die zugehorige Produktdichte

gegeben durch

f(x1, ..., xn) = f1(x1) · ... · fn(xn) =

(1√2π

)n

exp

(−1

2

(x2

1 + ... + x2n

))

beziehungsweise

f(x) = (2π)−n

2 exp

(−‖x‖

22

2

), x ∈ Rn

fur die gewohnliche euklidische Norm auf dem Rn. Fur n = 3 sieht die Produktdichte wie folgt aus:

x

y

z

Abbildung 22: Die Produktdichte der Standard-Normalverteilung im R3.

An dieser Stelle zitieren wir folgende Satze aus der Maßtheorie:

10.64 Satz (ohne Beweis):

Sind X,Y zwei reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem R2, so gilt fur jedes glatteGebiet A ⊂ R2, dass

P ((X,Y ) ∈ A) =

A

f(x, y) d(x, y).

Außerdem benotigen wir die Transformationsformel fur den Erwartungswert von Funktionen von Zufalls-vektoren:

10.65 Satz (ohne Beweis):

Sind X1, ...,Xn reelle Zufallsvariablen mit gemeinsamer Dichte f auf dem Rn und ist g : Rn // Rmeßbar (z.B. stetig), so gilt

E (g (X1, ...,Xn)) =

Rn

g(x)f(x) dx (10.8)

falls ∫

Rn

|g(x)|f(x) dx <∞

ist.

10.66 Hilfssatz:

Sind X1,X2 zwei reelle Zufallsvariablen mit gemeinsamer Dichte f , so ist

f1 (x1) :=

∞∫

−∞

f(x1, x2) dx2

die Dichte zu X1 und

f2 (x2) :=

∞∫

−∞

f(x1, x2) dx1

die Dichte zu X2.

Page 117: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 117

Beweis:

Es gilt

P (a1 ≤ X1 ≤ b1) = P (a1 ≤ X1 ≤ b1,−∞ < X2 <∞)

Satz 10.64=

b1∫

a1

∞∫

−∞

f(x1, x2) dx2

︸ ︷︷ ︸=f1(x1)

dx1.

Ganz analog kann man fur f2 vorgehen. Das zeigt schon die Behauptung.

Bemerkung 10.67:

Jetzt konnen wir endlich zeigen, dass der Erwartungswert linear ist:

E (X1 + X2) = E (X1) + E (X2) .

Beweis:

Wir wenden den Satz 10.65 im Fall n = 2 auf die Funktion g(x1, x2) = x1 + x2 an. Das liefert

E (X1 + X2) =

R2

(x1 + x2) f(x1, x2) d(x1, x2)

=

R2

x1f(x1, x2) d(x1, x2) +

R2

x2f(x1, x2) d(x1, x2)

=

R

x1

R

f(x1, x2) dx2

dx1 +

R

x2

R

f(x1, x2) dx1

dx2

Hilfssatz 10.66= E (X1) + E (X2)

Damit ist die Behauptung gezeigt.

10.8 Unabhangigkeit

10.68 Definition:

Reelle Zufallsvariablen X1, ...,Xn heißen unabhangig, wenn

P (a1 ≤ X1 ≤ b1, ..., an ≤ Xn ≤ bn) =n∏

i=1

P (ai ≤ Xi ≤ bi)

fur alle a = (a1, ..., an) , b = (b1, ..., bn) ∈ Rn gilt.

10.69 Satz (Unabhangigkeit bei stetigen Verteilungen):

(1) Sind X1, ...,Xn unabhangige Zufallsvariablen mit Dichten f1, ..., fn entsprechend, so ist die gemein-same Dichte f durch die Produktdichte

f (x1, ..., xn) := f1 (x1) · ... · fn (xn) (10.9)

gegeben.

(2) Sind X1, ...,Xn reelle Zufallsvariablen und hat die gemeinsame Dichte die Gestalt (10.9), so sindX1, ...,Xn unabhangig und fi ist die Dichte zu Xi, i = 1, ..., n.

Beweis:

(1) Wegen der Unabhangigkeit und der Definition der Dichten fi gilt

P (a1 ≤ X1 ≤ b1, ..., an ≤ Xn ≤ bn) =n∏

i=1

P (ai ≤ Xi ≤ bi)

=n∏

i=1

bi∫

ai

fi(xi) dxi

=

(a,b]

f(x) dx

Page 118: Grundlagen der Stochastik

118 10 Allgemeine Modelle und stetige Verteilungen

fur alle Rechtecke (a, b], weshalb f aus (10.9) die gemeinsame Dichte zu X1, ...,Xn ist.

(2) Da X1, ...,Xn eine gemeinsame Dichte der Form (10.9) haben, ist

P (a1 ≤ X1 ≤ b1, ..., an ≤ Xn ≤ bn) =

b1∫

a1

...

bn∫

an

f1(x1) · ... · fn(xn) dxn...dx1

=

n∏

i=1

bi∫

ai

fi(xi) dxi (10.10)

fur jedes Rechteck (a, b].Fur festes i ∈ 1, ..., n lassen wir jetzt in dieser Gleichung aj

// −∞, bj//∞ fur alle j 6= i

gehen. Dann geht die linke Seite gegen P (ai ≤ Xi ≤ bi) und die rechte Seite gegen

bi∫

ai

fi (xi) dxi,

da jedes fj eine Dichte ist und somit∞∫

−∞fj(xj) dxj = 1 erfullt. Das zeigt, dass fi die Dichte zu Xi

ist, also

P (ai ≤ Xi ≤ bi) =

bi∫

ai

fi(xi) dxi.

Damit ist aber wegen (10.10)

P (a1 ≤ X1 ≤ b1, ..., an ≤ Xn ≤ bn) =

n∏

i=1

P (ai ≤ Xi ≤ bi) ,

womit X1, ...,Xn per Definition unabhangig sind.

Beispiel 10.70:

Wir betrachten einen Schalter mit Bedienzeiten, die nach Exp (λ) verteilt sind. Nehmen wir an, wir stehenan zweiter Stelle, d.h. noch eine Kunde ist vor uns. Wir wollen die Wahrscheinlichkeit bestimmen, dasswir mindestens doppelt so lange zur Abfertigung brauchen, wir die Person vor uns. Dazu modellieren wirden Kunden vor uns als Zufallsvariable X ∼ Exp (λ) sowie uns als Y ∼ Exp (λ) und nehmen an, dass Xund Y unabhangig sind. Gefragt ist dann nach

P (Y ≥ 2X) . (10.11)

Mit obigem Satz 10.69 folgt, dass X und Y eine gemeinsame Dichte f in Produktform haben, d.h.

f (x, y) = (λ exp (−λx)) (λ exp (−λy)) 1[0,∞)2 .

Um (10.11) zu bestimmen betrachten wir

A = (x, y) | x, y ≥ 0, y ≥ 2x .

Page 119: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 119

Mit Satz 10.64 folgt

P (A) =

A

f(x, y) dxdy

= λ2

∞∫

0

∞∫

2x

exp (−λ(x + y)) dy dx

= λ2

∞∫

0

∞∫

2x

exp (−λ(x + y)) dy dx

=

∞∫

0

λ exp (−λx)

∞∫

2x

exp (−λy) dy

dx

=

∞∫

0

λ exp (−λx) exp (−2λx) dx

=1

3

∞∫

0

3λ exp (−3λx) dx

=1

3(− exp (−3λx))

∣∣∞0

=1

3.

Zuletzt sei noch der folgende Satz aus der Maßtheorie erwahnt:

10.71 Satz (ohne Beweis):

Das Blockungslemma gilt in der selben Form wie in Satz 4.24 auch fur Zufallsvariablen mit stetigenVerteilungen.

Wir zeigen nun, dass der Produktsatz fur unabhangige Zufallsvariablen auch im stetigen Fall gilt:

10.72 Satz:

Sind X und Y unabhangige Zufallsvariablen mit Dichten fX und fY , so gilt

E(X · Y ) = E(X) · E(Y ).

Beweis:

Setze g(x, y) = x · y, g : R2 // R. Die Dichte zu (X,Y ) hat gemaß Satz 10.69 Produktform f(x, y) =fX(x) · fY (y), da X und Y unabhangig sind.

Damit gilt

E(X · Y ) = E(g(X,Y ))

Transformationsformel=

∞∫

−∞

∞∫

−∞

g(x, y) · f(x, y) dxdy

=

∞∫

−∞

∞∫

−∞

x · y · fX(x) · fY (y) dxdy

=

∞∫

−∞

x · fX(x) dx ·∞∫

−∞

y · fY (y) dy.

Das zeigt die Behauptung.

Korollar 10.73:

Sind X und Y stetige unabhangige Zufallsvariablen, so gilt

CoV(X,Y ) = E(X · Y )− E(X)E(Y ) = 0,

das heißt, X und Y sind unkorreliert.

Page 120: Grundlagen der Stochastik

120 10 Allgemeine Modelle und stetige Verteilungen

10.74 Definition (Faltung):

Seien f1 und f2 Dichten auf R. Die Dichte

f1 ⋆ f2(z) =

∞∫

−∞

f1(x)f2(z − x) dx

nennen wir Faltung f1 ⋆ f2 von f1 und f2.

10.75 Satz (Dichten fur Summen von unabhangigen Zufallsvariablen mit Dichten):

Seien X und Y unabhangige Zufallsvariablen mit Dichten fX und fY . Dann hat X+Y die Dichte fX ⋆ fY .

Beweis:

X und Y haben die gemeinsame Dichte f(x, y) = fX(x) · fY (y), da X und Y unabhangig sind. Sei A dieMenge

A := (x, y) | x + y ≤ b .

Dann gilt

P (X + Y ≤ b) =

A

f(x, y) dxdy

=

∞∫

−∞

b−x∫

−∞

fX(x)fY (y) dy

dx

=

∞∫

−∞

b∫

−∞

fX(x)fY (z − x) dz dx

=

b∫

−∞

∞∫

−∞

fx(x)fy(z − x) dx

dz

=

b∫

−∞

fX ⋆ fY (z) dz.

Damit ist die Behauptung gezeigt.

Beispiel 10.76 (Gleichverteilung U(0, 1)):

Seien X und Y unabhangig und gleichverteilt auf [0, 1]. Dann ist die Dichte von X + Y gegeben als

fX+Y (t) =

t falls 0 ≤ t ≤ 1

2− t falls 1 ≤ t ≤ 2

0 sonst

.

1

0 1 2 3−1−2

Abbildung 23: Die Dichte von X + Y fur X,Yi.i.d.∼ U (0, 1).

Page 121: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 121

Beweis:

Offenbar ist fX(t) = 1[0,1](t) = fY (t). Mit obigem Satz ist die Dichte fX+Y von X + Y gegeben als

(fX ⋆ fY ) (z) =

∞∫

−∞

fX(x) · fY (z − x) dx

=

1∫

0

1[0,1] (z − x) dx

= −z−1∫

z

1[0,1] (y) dy

=

z∫

z−1

1[0,1] (y) dy.

Nun unterscheiden wir vier Falle:

• Ist z < 0, so ist offenbarz∫

z−1

1[0,1] (y) dy = 0.

• Ist z > 2, so ist offenbarz∫

z−1

1[0,1] (y) dy = 0.

• Ist 0 ≤ z ≤ 1, so berechnet man

z∫

z−1

1[0,1] (y) dy =

z∫

0

1 dy = z.

• Ist 1 ≤ z ≤ 2, so berechnet man

z∫

z−1

1[0,1] (y) dy =

1∫

z−1

1 dy = 2− z.

Das zeigt die Behauptung.

10.77 Satz:

Seien Xi ∼ N (µi, σ2i ), fur i = 1, 2 unabhangig. Dann ist X1 +X2 normalverteilt mit Parametern µ1 +µ2

und σ21 + σ2

2, d.h.X1 + X2 ∼ N

(µ1 + µ2, σ

21 + σ2

2

).

Beweis:

Es genugt zu zeigen, dass(X1 − µ1) + (X2 − µ2) ∼ N

(0, σ2

1 + σ22

)

gilt, wobei (X1 − µ1) ∼ N(0, σ2

1

)und (X2 − µ2) ∼ N

(0, σ2

2

)verteilt sind. Nach Definition der Faltung

zweier Dichten ergibt sich fur festes z ∈ R:

(f0,σ2

1⋆ f0,σ2

2

)(z) =

∞∫

−∞

1√2πσ1

exp

(−1

2

x2

σ21

)· 1√

2πσ2

exp

(− (z − x)2

2σ22

)dx

=1

2πσ1σ2

∞∫

−∞

exp

−1

2

x2

σ21

+(z − x)2

σ22

︸ ︷︷ ︸=:(∗)

dx. (10.12)

Wir setzen nun

σ :=√

σ21 + σ2

2 und w = w(x) =σ

σ1σ2· x− σ1

σσ2z.

Page 122: Grundlagen der Stochastik

122 10 Allgemeine Modelle und stetige Verteilungen

Dann ist

w2 +z2

σ2=

σ21 + σ2

2

σ21σ2

2

x2 − 2xz

σ22

+σ2

1

σ2σ22

z2 +z2

σ2

︸ ︷︷ ︸= z2

σ22

=x2

σ21

+x2

σ22

− 2xz

σ22

+z2

σ22

=x2

σ21

+(z − x)2

σ22

= (∗).Da dw = σ

σ1σ2dx ist, folgt dx = σ1σ2

σdw. Wir substituieren also in (10.12) und erhalten so

(f0,σ2

1⋆ f0,σ2

2

)(z) =

1

2πσ1σ2

∞∫

−∞

exp

(−1

2

(w2 +

z2

σ2

))σ1σ2

σdw

=1

2πσexp

(− z2

2σ2

)−

∞∫

−∞

1√2π

exp

(−1

2w2

)

︸ ︷︷ ︸=1 (Std.normalverteilung)

dw

= f0,σ2(z)

= f0,σ21+σ2

2(z).

Damit ist der Satz bewiesen.

10.9 Die mehrdimensionale Normalverteilung

10.78 Definition:

Wir haben in Beispiel 10.63 schon gesehen, dass fur unabhangige Zufallsvariablen Z1, ..., Zn ∼ N (0, 1)

die Zufallsgroße Z = (Z1, ..., Zn)T

die Dichte

f (z1, ..., zn) =1√2π

n exp

(−1

2

n∑

ν=1

z2i

)

besitzt. Diese Verteilung wollen wir von nun an die n-dimensionale Standard-Normalverteilungnennen. Wir schreiben dann auch

(Z1, ..., Zn)T ∼ N (0, In) ,

wobei wir mit

In =

1 0

. . .

0 1

die n× n-Einheitsmatrix bezeichnen.

10.79 Definition:

Sei Z = (Z1, ..., Zn)T ∼ N (0, In), A eine reelle n×n-Matrix und µ ∈ R. Dann nennen wir die Verteilung

vonA · Z + µ

eine n-dimensionale Normalverteilung zu A und µ.

10.80 Definition:

Sei Z = (Z1, ..., Zn)T

ein Zufallsvektor. Der Erwartungswert von Z ist der Vektor

E (Z) = (E (Z1) , ..., E (Zn))T

.

Beispiel 10.81:

Sei Z ∼ N (0, In). Dann ist offenbar E (Z) = 0 ∈ Rn. Außerdem folgt fur jede n× n-Matrix A und jedesµ ∈ Rn, dass

E (AZ + µ) = AE (Z) + µ = µ.

Page 123: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 123

10.82 Definition:

Sei Z = (Z1, ..., Zn)T

ein allgemeiner Zufallsvektor. Die Kovarianzmatrix von Z ist

ΣZ := (CoV (Zi, Zj))1≤i,j≤n.

Beispiel 10.83:

Sei Z = (Z1, ..., Zn)T ∼ N (0, In). Wegen

CoV (Zi, Zj) =

0 falls i 6= j

1 falls i = j

ist ΣZ = In.

10.84 Lemma:

Sei Z ein beliebiger Zufallsvektor, A = (ai,j)1≤i,j≤neine beliebige reelle n× n-Matrix und µ ∈ Rn. Dann

gilt fur X := A · Z + µ, dassΣX = A · ΣZ ·AT .

Beweis:

Es ist

CoV (Xi,Xj) = E ((Xi − E (Xi)) (Xj − E (Xj)))

= E

(((n∑

k=1

ai,kZk + µi

)− E

(n∑

k=1

ai,kZk + µi

))·

((n∑

k=1

aj,kZk + µj

)E

(n∑

k=1

aj,kZk + µj

)))

= E

((n∑

k=1

ai,k (Zk − E (Zk))

)·(

n∑

l=1

aj,l (Zl − E (Zl))

))

=

n∑

k,l=1

ai,k CoV (Zk, Zl) aj,l

=

n∑

k,l=1

ai,k CoV (Zk, Zl) aTl,j

(A · Σz ·AT

)i,j

Das zeigt die Behauptung.

Beispiel 10.85:

Sei Z ∼ N (0, In) und X = A · Z + µ mit einer beliebigen reellen n × n-Matrix A und µ ∈ Rn. NachLemma 10.84 gilt dann

ΣX = A · ΣZ︸︷︷︸=In

·AT = A ·AT .

Damit sind Erwartungswert und Kovarianzmatrix der n-dimensionalen Normalverteilung zu A und µgegeben durch µ und ΣX = A ·AT .

Bemerkung 10.86:

Sei Z ∼ N (0, In) und X = A · Z + µ mit einer beliebigen reellen n× n-Matrix A und µ ∈ Rn. Dann istdie Matrix ΣX = A ·AT stets symmetrisch und positiv semi-definit, d.h. fur jedes x ∈ Rn gilt

xT ΣXx ≥ 0.

Die Umkehrung ist ebenfalls richtig: Jede Matrix Σ, die symmetrisch und positiv semi-definit ist, istKovarianzmatrix einer n-dimensionalen Normalverteilung. Das folgt einfach aus der Hauptachsentrans-formation, denn demnach ist Σ = V ·D · V T fur eine orthogonale Matrix V und eine Diagonalmatrix

D =

d1 0

. . .

0 dn

.

Page 124: Grundlagen der Stochastik

124 10 Allgemeine Modelle und stetige Verteilungen

Da Σ positiv semi-definit ist, sind alle Zahlen di ≥ 0. Wir setzen

A := V ·

√d1 0

. . .

0√

dn

︸ ︷︷ ︸=:

√D

·V T ,

und haben dannA ·AT = V ·

√D · V T · V︸ ︷︷ ︸

=In

·√

D · V T = V ·D · V T = Σ.

10.87 Definition:

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) = 0, so sprechen wirvon einer ausgearteten Normalverteilung.

10.88 Definition:

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung. Ist det(Σ) 6= 0, so sprechen wirvon einer nicht ausgearteten Normalverteilung.

10.89 Satz:

Sei Σ eine Kovarianzmatrix einer n-dimensionalen Normalverteilung mit Erwartungswert µ ∈ Rn unddet(Σ) 6= 0. Dann ist die zugehorige Dichte gegeben als

f (x) =1

(√2π)n√

det(Σ)exp

(−1

2

((x− µ)

T · Σ−1 · (x− µ)))

, x ∈ Rn. (10.13)

Beweis:

Wir wollen den Transformationssatz fur Dichten im Rn benutzen: Hat Z = (Z1, ..., Zn)T

auf offenemM ⊂ Rn die Dichte fZ und ist u : M // N fur N ⊂ Rn ebenfalls offen ein Diffeomorphismus, so hatX := u (Z) die Dichte

fX (x) = fZ

(u−1 (x)

)·∣∣det

(D(u−1)(x)

)∣∣ . (10.14)

Dabei bezeichnet D(u−1) das totale Differential von u−1.

Dieser Satz folgt direkt aus der Transformationsformel im Rn, der explizite Beweis findet sich bei[Dehling/Haupt], Seite 181.

Hier ist Z ∼ N (0, In), M = N = Rn und u (x) = Ax + µ mit A wie in Bemerkung 10.86 zu Σ definitiert.Da det (Σ) 6= 0 ist, ist auch det (A) 6= 0, d.h.

u−1 (x) = A−1 (y − µ)

existiert. Damit ist dann

∣∣det D(u−1)(x)∣∣ =

∣∣det(A−1)∣∣ = 1

|det (A)| =1√

det(Σ).

Beachte dabei, dass det (Σ) > 0 wegen der positiven Semi-Definitheit von Σ.

Dan∑

i=1

z2i = (z1, ..., zn) · (z1, ..., zn)

Tist, gilt

fZ(z) =1

(√2π)n exp

(−1

2zT · z

).

Mit der angegebenen Transformationsformel fur Dichten (10.14) folgt

fX (x) =1

(√2π)n exp

(−1

2

((A−1 (x− µ)

)T (A−1 (x− µ)

)))· 1√

det(Σ)

=1

(√2π)n ·

√det(Σ)

exp

(−1

2

((x− µ)

TΣ−1 (x− µ)

))

und somit die Behauptung.

Page 125: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 125

Bemerkung 10.90:

Ist det (Σ) = 0, so gibt es keine Dichte auf dem Rn fur die zugehorige Verteilung.

Bemerkung 10.91:

Man beachte, dass die n-dimensionale Normalverteilung bereits durch Σ und µ festgelegt ist!

Bemerkung 10.92:

Der Fall det (Σ) 6= 0 entspricht genau dem Fall, dass Σ symmetrisch und strikt positiv definit ist, d.h.

xT Σx > 0 ∀ x ∈ Rn \ 0 .

Fur jede solche Matrix existiert also eine n-dimensionale Normalverteilung mit Dichte wie im Satz. DieMatrix A dieser Verteilung ist dann wie in Bemerkung 10.86 gegeben.

10.9.1 Folgerungen

10.93 Satz:

Sei X = (X1, ...,Xn)T

nach N (µ,Σ) verteilt, d.h. es ist µ = E (X) und Σ = CoV (X). Sei außerdemdet (Σ) 6= 0. Dann gilt

Xi ∼ N (µi,Σi,i) .

Allgemeiner: Ist c ∈ Rn \ 0, so ist

n∑

i=1

ciXi ∼ N(

n∑

i=1

ciµi,

n∑

i=1

c2i Σi,i

).

Sind die Xi’s paarweise unkorreliert, so sind sie unabhangig.

Beweis:

Da alles nur von der Verteilung abhangt, konnen wir wie folgt vorgehen: Finde eine n× n-Matrix A, s.d.A ·AT = Σ gilt. Dann ist X = A · Z + µ fur Z ∼ N (0, In). Damit folgt aber

Xi =n∑

k=1

Ai,kZk + µi,

womit mehrfaches anwenden des Faltungssatzes fur die Normalverteilung (Satz 10.77) sofort

Xi ∼ N(

µi,

n∑

k=1

A2i,k

)= N

(µi,

n∑

k=1

Ai,kATk,i

)= N (µi,Σi,i)

liefert. Ganz analog geht man fur beliebiges c ∈ Rn \ 0 vor.

Kommen wir zur Unabhangigkeit. Sind die Xi’s unkorreliert, so ist CoV(X) = Σ eine Diagonalmatrix.Die Dichte fX von X ist gemaß 10.13 gegeben, und da Σ−1 ebenso wie Σ Diagonalform hat, ist sie inProduktform. Satz 10.69 liefert, dass die Xi’s unabhangig sind.

10.10 Wahrscheinlichkeitsverteilungen und der zentrale Grenzwertsatz

Bemerkung 10.94:

Wir haben schon gesehen, dass fur stetige Zufallsvariablen X und Y ebenso wie fur diskrete die Linearitatdes Erwartungswertes gilt:

E (aX + Y ) = aE (X) + E (Y ) , a ∈ R. (10.15)

Außerdem ist der Erwartungswert monoton, d.h.

X ≤ Y ⇒ E (X) ≤ E (Y ) .

Man kann ebenso (maßtheoretisch) zeigen, dass alle Rechenregeln, die im diskreten Fall fur die Varianzgelten, sich auf den stetigen Fall ubertragen, also

V (aX + b) = a2V (X) (10.16)

fur a, b ∈ R und X stetig verteilte Zufallsvariable usw..

Ebenso gelten die Markov-, Tschebyschow- und Hoeffding Ungleichung sowie das SGGZ genau wie imstetigen Fall.

Wir werden die Regeln (10.15) und (10.16) nun einfach mitbenutzen.

Page 126: Grundlagen der Stochastik

126 10 Allgemeine Modelle und stetige Verteilungen

10.10.1 Die Jensen’sche Ungleichung

Bevor wir zum zentralen Grenzwertsatz schreiten brauchen wir noch folgendes

10.95 Lemma (Jensen’sche Ungleichung):

Ist X eine reelle Zufallsvariable (diskret oder stetig, das Lemma gilt in beiden Fallen) und g : R // Reine konvexe Funktion, so gilt im Falle der Existenz von E (X) und E (g(X)) die Ungleichung

g (E (X)) ≤ E (g (X)) .

Beweis:

Fur eine konvexe Funktion g konnen wir an den Punkt (E (X) , g (E (X))) eine (ohne weitere Vorausset-zungen nicht zwingend eindeutige) lineare Approximation an g legen. Diese hat die Form

L (x) = c · (x− E (X)) + g (E (X)) ,

wobei c = g′ (E (X)), falls g an E (X) ∈ I differenzierbar ist. Insbesondere gilt dann

E (L (X)) = E (c · (X − E (X)) + g (E (X)))

= c · (E (X)− E (X)) + g (E (X))

= g (E (X))

Da g konvex und L linear ist, gilt L ≤ g und mit der Monotonie des Erwartungswerts folgt so

g (E (X)) = E (L (X)) ≤ E (g (X)) ,

was die Behauptung zeigt.

Beispiel 10.96:

Sei X eine reelle Zufallsvariable. Ist etwa g(x) = x2, so folgt

(E (X))2 ≤ E

(X2).

Dieses Ergebnis folgt auch schon daraus, dass 0 ≤ V (X) = E(X2)− (E (X))

2ist.

Bemerkung 10.97:

Sei X eine reelle Zufallsvariable. Insbesondere kann man das Lemma auch fur Intervalle I ⊂ R, etwaI = [0,∞) anwenden, wenn X Werte in I hat.

Page 127: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 127

10.10.2 Der zentrale Grenzwertsatz (ZGWS)

10.98 Definition (drittes zentrales Moment):

Sei X eine reelle Zufallsvariable. Wir definieren

γ (X) := E(|X − E (X)|3

)

als das dritte zentrale Moment von X.

Bemerkung 10.99:

Sei X eine reelle Zufallsvariable. Offenbar hangt γ (X) nur von der Verteilung von X ab.

10.100 Satz (Zentraler Grenzwertsatz):

Sei PX eine feste Verteilung einer reellen Zufallsvariablen X s.d. E (X), V (X) und γ := γ(X) existierenund V (X) > 0 ist (das ist zum Beispiel fur B (n, p) ,Geo(p),Exp (λ) ,N

(µ, σ2

)usw. der Fall).

Fur jedes n ∈ N seien X1, ...,Xn unabhangige reelle Zufallsvariablen, die alle nach PX verteilt sind. Seinun

Sn :=

n∑

i=1

Xi

und Φ die Verteilungsfunktion von N (0, 1). Dann gilt

supx∈R

∣∣∣∣∣P(

Sn − E (Sn)√V (Sn)

≤ x

)− Φ(x)

∣∣∣∣∣n // ∞ // 0. (10.17)

Wir beweisen diese Version des zentralen Grenzwertsatzes ein wenig weiter unten.

Bemerkung 10.101:

Naturlich gilt unter den gemachten Voraussetzungen die Formel (10.17) genauso mit < anstelle von ≤.

Bemerkung 10.102:

Naturlich folgt mit dem zentralen Grenzwertsatz auch

supa≤b

∣∣∣∣∣P(

a ≤ Sn − E (Sn)√V (Sn)

≤ b

)− (Φ(b)− Φ(a))

∣∣∣∣∣n // ∞ // 0.

10.103 Satz (Zentraler Grenzwertsatz - alternative Formulierung):

Sei X1,X2, ... eine Folge unabhangiger reeller Zufallsvariablen mit gleicher Verteilung, s.d. E (X1), V (X1)und γ (X1) existieren und V (X1) > 0 gilt. Sei außerdem Φ die Verteilungsfunktion zu N (0, 1).

Dann gilt

supx∈R

∣∣∣∣∣∣∣∣∣∣

P

n∑i=1

Xi − E

(n∑

i=1

Xi

)

V

(n∑

i=1

Xi

) ≤ x

− Φ(x)

∣∣∣∣∣∣∣∣∣∣

n // ∞ // 0.

Folgerung 10.104 (Grenzwertsatz von de Moivre-Laplace):

Satz 9.2 folgt sofort durch Anwenden des zentralen Grenzwertsatzes (alternative Formulierung) mit0 < p < 1 fest und X1,X2, ... ∼ B (1, p) unabhangig verteilt.

Nun zeigen wir zunachst folgenden

10.105 Hilfssatz:

Sei Y ∼ N(0, σ2

)verteilt. Dann gilt

E(|Y |3

)=

√8

πσ3.

Beweis:

Gemaß der Transformationsformel fur den Erwartungswert (Satz 10.44) ist

E(|Y |3

)=

∞∫

−∞

|t|3 1√2πσ2

exp

(− 1

2σ2t2)

dt

=2√

2πσ2·

∞∫

0

t3 exp

(− 1

2σ2t2)

dt.

Page 128: Grundlagen der Stochastik

128 10 Allgemeine Modelle und stetige Verteilungen

Nun substituiert man t = σ√

2x, womit dt = σ√2x

dx ist und

E(|Y |3

)=

2√2πσ2

·∞∫

0

σ3√

2x3exp

(− 1

2σ2σ22x

)σ√2x

dx

=2σ4

√2πσ2

·∞∫

0

√2x

2exp (−x) dx

=4σ3

√2π·

∞∫

0

x exp (−x) dx

=4σ3

√2π· Γ (2)

=4σ3

√2π· (2− 1)!

=

√16

2πσ3

=

√8

πσ3.

Das zeigt die Behauptung.

Bevor wir nun zum Beweis des zentralen Grenzwertsatzes schreiten stellen wir noch fest:

Bemerkung 10.106:

Sind die Zufallsvariablen Xi unabhangig, so gilt

V

(n∑

i=1

Xi

)=

n∑

i=1

V (Xi) ,

was wir im diskreten Fall auch bewiesen haben.

Beweis (von Satz 10.100):

Setze

Fn (x) := P

(Sn −E (Sn)√

V (Sn)≤ x

)

fur x ∈ R und σ :=√

V (x1). Wir mussen also zeigen, dass

supx∈R

|Fn(x)− Φ(x)| n // ∞ // . (10.18)

Fur (10.18) genugt es zu zeigen, dass es fur jedes ε > 0 ein δ > 0 gibt, s.d.

γ√nσ3

≤ δ ⇒ supx∈R

|Fn(x)− Φ(x)| ≤ ε,

denn falls dieses gilt, finden wir immer ein hinreichend großes n ∈ N s.d. γ√nσ3 ≤ δ und somit

supx∈R

|Fn(x)− Φ(x)| ≤ ε

ist.

Wir beginnen dazu mit einigen Vorbereitungen. Setze

Zi :=Xi − E (Xi)√

nV (Xi)

fur i = 1, ..., n. Dann ist nach der Bemerkung 10.106

Sn − E (Sn)√V (Sn)

=

n∑

i=1

Zi

Page 129: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 129

und entsprechend auch

Fn (x) = P

(n∑

i=1

Zi ≤ x

), x ∈ R.

Offenbar ist E (Zi) = 0 fur i = 1, ..., n und man berechnet mit den Regeln fur die Varianz

E(Z2

i

)= V (Zi) + (E (Zi))

2

︸ ︷︷ ︸=0

=1

nV (Xi)· V (Xi − E (Xi)) =

1

n

fur jedes i = 1, ..., n. Zuletzt ist

E(|Zi|3

)= E

(|Xi − E (Xi)|3√

nV (Xi)3

)=

γ

(√

n)3σ3

.

Seien ferner Y1, ..., Yn unabhangig (auch von den Zi’s) mit Yi ∼ N(0, 1

n

). Nach dem Faltungssatz fur die

Normalverteilung (Satz 10.77) ist dannn∑

i=1

Yi ∼ N (0, 1)

verteilt. Außerdem ist E (Yi) = 0, E(Y 2

i

)= V (Yi) = 1

nund mit Hilfssatz 10.105 auch

E(|Yi|3

)=

√8

π

1√

n3 .

Wahle zu beliebigem ε > 0 eine mindestens dreifach stetig differenzierbare Funktion f mit 0 ≤ f ≤ 1 und

f(t) =

1 falls t ≤ 0

0 falls t ≥ ε.

Setze dann zu x ∈ R fx(t) := f(t− x), t ∈ R und M := supt∈R

|f ′′′(t)|. Nach dem Satz von Taylor gilt dann

fur alle t, h ∈ R

fx(t + h) = fx(t) + f ′x(t) · h + f ′′

x (t) · h2

2+ v(t, h) mit |v(t, h)| ≤ sup

t∈R

|f ′′′x (t)| · |h|

3

6≤M · |h|

3

6. (10.19)

Jetzt definieren wir

δ := δ(ε) =3.6 · ε

M(1 +

√8π

)

und wahlen n ∈ N so groß, dass γ√nσ3 ≤ δ gilt.

Schritt I

Wir zeigen nun, dass∣∣∣∣∣E(

fx

(n∑

i=1

Zi

))− E

(fx

(n∑

i=1

Yi

))∣∣∣∣∣ ≤M

6

(n∑

i=1

(E(|Zi|3

)+ E

(|Yi|3

)))(10.20)

fur alle x ∈ R gilt.

Setze SZj :=

j∑i=1

Zi fur j = 1, ..., n. Betrachte nun t = SZn−1 und h = Zn in der Taylorentwicklung (10.19):

fx

(SZ

n−1 + Zn︸ ︷︷ ︸=SZ

n

)= fx

(SZ

n−1

)+ f ′

x

(SZ

n−1

)· Zn + f ′′

x

(SZ

n−1

)· Z

2n

2+ v

(SZ

n−1, Zn

).

Nach dem Blockungslemma sind f ′x

(SZ

n−1

)und Zn sowie f ′′

x

(SZ

n−1

)und

Z2n

2 unabhangig, d.h. es folgt mitunseren Voruberlegungen

E(fx

(SZ

n

))= E

(fx

(SZ

n−1

))+ E

(f ′

x

(SZ

n−1

))· E (Zn)︸ ︷︷ ︸

=0

+E(f ′′

x

(SZ

n−1

))· E(

Z2n

2

)

︸ ︷︷ ︸= 1

2n

+E(v(SZ

n−1, Zn

)).

Page 130: Grundlagen der Stochastik

130 10 Allgemeine Modelle und stetige Verteilungen

Genauso folgt mit h = Yn, dass

E(fx

(SZ

n−1 + Yn

))= E

(fx

(SZ

n−1

))+ E

(f ′′

x

(SZ

n−1

))· E(

Y 2n

2

)

︸ ︷︷ ︸= 1

2n

+E(v(SZ

n−1, Yn

)).

Subtrahieren der Gleichungen liefert∣∣E(fx

(SZ

n

))− E

(fx

(SZ

n−1 + Yn

))∣∣ =∣∣E(v(SZ

n−1, Zn

))− E

(v(SZ

n−1, Yn

))∣∣

≤∣∣E(v(SZ

n−1, Zn

))∣∣+∣∣E(v(SZ

n−1, Yn

))∣∣

Jensen’sche Ungleichung

≤ E(∣∣v(SZ

n , Zn

)∣∣)+ E(∣∣v(SZ

n−1, Yn

)∣∣)

(10.19), Monotonie

≤ M

6

(E(|Zn|3

)+ E

(|Yn|3

)).

Da wir ja eigentlich eine Abschatzung fur

∣∣∣∣E(fx

(SZ

n

))− E

(fx

(n∑

i=1

Yi

))∣∣∣∣ haben wollen, betrachten wir

nun die Taylor-Entwicklung (10.19) mit t =(SZ

n−2 + Yn

)und h = Zn−1 bzw. h = Yn−1. Dort erhalten

wir ganz analog zur obigen Rechnung durch Subtrahieren die Abschatzung

∣∣E(fx

(SZ

n−1 + Yn

))− E

(fx

(SZ

n−2 + Yn−1 + Yn

))∣∣ ≤ M

6

(E(|Zn−1|3

)+ E

(|Yn−1|3

)).

Nutze dann die Taylor-Entwicklung (10.19) mit t =(SZ

n−3 + Yn−1Yn

)und h = Zn−2 bzw. h = Yn−2 usw..

Das liefert dann allgemein

∣∣E(fx

(SZ

k + Yk+1 + ... + Yn

))− E

(fx

(SZ

k−1 + Yk + ... + Yn

))∣∣ ≤ M

6

(E(|Zk|3

)+ E

(|Yk|3

))

fur alle k ∈ 1, ..., n. Mit der Dreiecksungleichung folgt so die behauptete Gleichung (10.20).

Schritt IIWir wollen nun zeigen, dass die rechte Seite aus Schritt I (10.20) ≤ 0.6ε ist. Nach unseren Voruberlegungenist die rechte Seite

M

6

(n∑

i=1

(E(|Zi|3

)+ E

(|Yi|3

)))=

M

6

(γ√nσ3

+

√8

π

1√n

). (10.21)

Da g (x) := x32 konvex ist, folgt mit der Jensen’schen Ungleichung 10.95, dass

σ3 =(√

V (X))3

=(E(|X − E (X) |2

)) 32 ≤ E

((|X − E(X)|2

) 32

)= E

(|X − E(X)|3

)= γ

ist. Daher istγ

σ3≥ 1

und es folgt, dass die rechte Seite 10.21

M

6

(γ√nσ3

+

√8

π

1√n

)≤ M

6

(γ√nσ3

σ3

√8

π

1√n

)

=M

6

γ√nσ3

︸ ︷︷ ︸≤δ

(1 +

√8

π

)

≤ M

(1 +

√8

π

)

=M

6

3.6ε

M(1 +

√8π

)

(1 +

√8

π

)

=3.6

= 0.6ε

erfullt - also genau die Behauptung.

Page 131: Grundlagen der Stochastik

10 Allgemeine Modelle und stetige Verteilungen 131

Schritt III

Nach Definition der Zi haben wir nun fur alle x ∈ R

Fn(x) = P

(n∑

i=1

Zi ≤ x

)

= E

(1(−∞,x]

(n∑

i=1

Zi

)),

da 1(−∞,x]

(n∑

i=1

Zi

)∼ B

(1, P

(n∑

i=1

Zi ≤ x

))gilt. Nach Wahl von f ist 1(−∞,x] ≤ fx und daher folgt

mit der Monotonie des Erwartungswerts

Fn (x) ≤ E

(fx

(n∑

i=1

Zi

)),

was mit Schritt I und II wiederum

Fn (x) ≤ E

(fx

(n∑

i=1

Yi

))+ 0.6ε

zeigt. Nun ist 1(−∞,x+ε] ≥ fx nach Wahl von f und daher folgt wieder mit der Monotonie

Fn (x) ≤ E

(1(−∞,x+ε]

(n∑

i=1

Yi

))+ 0.6ε = P

(n∑

i=1

Yi ≤ x + ε

)+ 0.6ε.

Da wie schon bemerkt laut Faltungssatz (Satz 10.77)n∑

i=1

Yi ∼ N (0, 1) gilt, ist

P

(n∑

i=1

Yi ≤ x + ε

)= Φ(x + ε) ,

d.h. wir habenFn (x) ≤ Φ(x + ε) + 0.6ε.

Der Mittelwertsatz der Differentialrechnung liefert Φ(x + ε) ≤ Φ(x) + εΦ′(ξ) fur ein ξ ∈ R. WegenΦ′(ξ) = ϕ(ξ) ≤ 1√

2π≤ 0.4 fur die Dichte ϕ der Standard-Normalverteilung folgt somit

Fn(x) ≤ Φ(x) + 0.4ε + 0.6ε = Φ(x) + ε.

Ganz analog erhalt manΦ(x− ε) ≤ Fn(x) + 0.6ε

und mit dem Mittelwertsatz zusatzlich

Φ(x) ≤ Φ(x− ε) + 0.4ε.

Zusammen zeigt das|Fn(x)− Φ(x)| ≤ ε

fur alle x ∈ R und daher uber (10.18) die Behauptung.

10.107 Satz (Fehlerabschatzung nach Berry-Esseen):

Im obigen zentralen Grenzwertsatz (Satz 10.100) gilt fur jedes n ∈ N

∣∣∣∣∣P(

Sn − E (Sn)√V (Sn)

≤ x

)− Φ(x)

∣∣∣∣∣ ≤0.8γ√nσ3

fur jedes x ∈ R. Diese Relation gilt auch mit einem < anstelle von ≤. Außerdem gilt damit

∣∣∣∣∣P(

a ≤ Sn − E (Sn)√V (Sn)

≤ b

)− (Φ(b)− Φ(a))

∣∣∣∣∣ ≤1.6γ√nσ3

.

Page 132: Grundlagen der Stochastik

132 10 Allgemeine Modelle und stetige Verteilungen

Beweis:

Diese Abschatzungen folgen schon aus unserem Beweis des zentralen Grenzwertsatzes. Es ist nur etwasArbeitsaufwand, sie herauszulesen.

Beispiel 10.108:

Wir wollen Fehlerabschatzungen fur den Grenzwertsatz von de Moivre-Laplace (Satz 9.2) im Fall p = 12

herleiten. Seien also X1,X2, ... ∼ B(1, 1

2

)unabhangige Zufallsvariablen. Dann ist V (Xi) = 1

4 , d.h. mitden Bezeichnungen des zentralen Grenzversatzes ist

σ3 = V (X)32 =

1

8.

Außerdem ist |Xi − E(Xi)| = 12 , da E (Xi) = 1

2 ist, d.h.

γ = E(|X1 − E(X1)|3

)=

1

8.

Daher ist γσ3 = 1 und die Fehlerabschatzungen werden zu

0.8√n

bzw.1.6√

n.

Page 133: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 133

11 Markov-Ketten mit endlichem Zustandsraum

Die Idee

Wir wollen ein stochastisches Modell fur die Bewegung eines Teilchens auf endlich vielen Zustandengeben, wobei die Wahrscheinlichkeit fur den nachsten Zustand nur vom jetzigen Zustand und nicht vonder weiteren Vergangenheit abhangt. Diese Eigenschaft wird auch

”Markov-Eigenschaft“ genannt und ist

oftmals nur eine Approximation der Wirklichkeit. Die Losung fur ein solches Modell sind Markov-Ketten,die wir in Abschnitt 11.2 kennen lernen werden.

Beispiel 11.1:

Wir betrachten einen Springer, der sich allein auf dem Schachbrett bewegt. Er wahlt aus allen ihmerlaubten Zugen jeweils rein zufallig (also gleichverteilt) den nachsten Raus. In diesem Beispiel entsprechendie Zustande den 64 Feldern des Schachbretts und das Teilchen dem Springer.

Man kann sich jetzt etwa Fragen, wie lang die erwartete Zeit ist, bis der Springer wieder in seinerStartposition ankommt.

Beispiel 11.2:

Ein weiteres Beispiel ist ein sogenannter”Netbot“, der zufallig gemaß Ausgangslinks von Seite zu Seite

wandert.

Beispiel 11.3 (Markov):

Markov betrachtete ursprunglich folgendes Problem: Wenn die Folge von Vokalen / Konsonanten inPuschkin’s Roman

”Eugene Onegin“ die Markov-Eigenschaft hatte, dann ware die

”Ubergangsmatrix“

(definieren wir weiter unten) gegeben durch

V K

0.872

**V Kjj

0.663

K

0.337

K[[

V

0.128

V

.

Heutzutage werden Markov-Ketten vor allem als Modell fur DNA-Folgen genutzt, wobei das Alphabetdann A,C,G,T ist.

Eine andere Interpretation von Markov-Ketten ist, dass ein System (= Teilchen) sich in einem von endlichvielen Zustanden befindet. Zu bestimmten Event-Zeitpunkten springt es dann in einen neuen Zustand.

Diese Interpretation wird heutzutage etwas bei der Pufferauslastung von Servern verwendet.

11.1 Steuerung der Sprunge: Ubergangsmatrizen und -graphen

11.4 Definition:

Eine Zustandsmenge S ist eine endliche Menge.

Sei von jetzt an stets S eine Zustandsmenge. Oftmals ist S = 1, ..., N, allerdings verwenden wir oft das

Symbol 1 fur den Zustand”1“, um nicht durcheinander zu kommen.

11.5 Definition:

Sei #S = N ∈ N. Eine N ×N -Matrix P = (pi,j)i,j∈Smit den Eigenschaften

• pi,j ≥ 0 ∀ i, j ∈ S

• ∑j∈S

pi,j = 1 ∀ i ∈ S

heißt stochastische Matrix oder Ubergangsmatrix auf S.

In diesem Fall sind alle Zeilen von P stochastische Vektoren.

Notation 3:

Sei P eine Ubergangsmatrix auf S. Fur den Eintrag von P in der i-ten Zeile und j-ten Spalte schreibenwir

P (i, j) = pi,j

bei i, j ∈ S.

Page 134: Grundlagen der Stochastik

134 11 Markov-Ketten mit endlichem Zustandsraum

Beispiel 11.6:

Wir wollen die tagliche Wetterentwicklung modellieren. Dazu sei

S := Regen, Sonne, bewolkt .

Wir nummerieren die Zustande in dieser Reihe durch (also Regen = 1, Sonne = 2, bewolkt = 3).

Als Ubergangsmatrix definieren wir

P :=

0 1 013 0 2

313

13

13

.

Das soll etwa bedeuten, dass

P (morgen bewolkt | heute Sonne) = p2,3 =2

3.

11.7 Definition:

Zu einer Ubergangsmatrix P auf S gehort stets ein Ubergangsgraph GP, welcher wie folgt zu konstruierenist:

Die Menge E der Ecken von GP ist S. Eine Kante von i ∈ S nach j ∈ S mit Gewicht pi,j wird gehortgenau dann zur Kantenmenge V von GP, wenn pi,j > 0 gilt.

Beispiel 11.8:

In unserem Wettermodell aus Beispiel 11.6 ware der zugehorige Graph

1 3oo13

2

1

66

1

2

3

23

1 3oo

13

2

1

13

vv

2

3

VV

13

3

13

3VV

Beispiel 11.9 (Lieblingsbeispiel des Dozenten):

Betrachte die Ubergangsmatrix

P =

(0 112

12

).

Dann ist der zugehorige Ubergangsgraph GP gegeben als

1 2

1

**1 2jj

12

2

12

2[[

.

11.10 Definition:

Sei G = (V,E) ein Graph und i, j ∈ V . Ein Pfad oder Weg von i nach j in G ist eine Folge von Ecken

vi,i1 , vi1,i2 , ..., vin−1,in, vin,j

zwischen den Punkten i und i1, i1 und i2,... entsprechend mit i1, ..., in ∈ V .

Im allgemeinen existiert kein Pfad zwischen beliebigen i, j ∈ V . Fur einen Pfad w gegeben durch i =i0, i1, ..., in = j von i nach j sei |w| = n seine Lange. Wir schreiben fur w auch

iw // j.

Man kann Wege auch verknupfen: Ist iw1 // j und j

w2 // k, so ist iw1w2 // k ebenfalls ein Weg mit

|w1w2| = |w1|+ |w2|.

Page 135: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 135

11.11 Definition:

Sei P eine Ubergangsmatrix auf S. P beziehungsweise der zugehorige Ubergangsgraph GP heißenirreduzibel, wenn es fur jedes Paar i, j ∈ S ein Pfad von i nach j von GP gibt.

Beispiel 11.12:

Die Ubergangsmatrize bzw.- graphen aus obigen Beispielen 11.6 und 11.9 sind beide irreduzibel. Betrach-tet man dagegen die Ubergangsmatrix

P =

(1 012

12

),

so sieht man am zugehorigen Graphen

1 2jj12

2

12

2[[

1

1

1

leicht, dass dieses Beispiel nicht irreduzibel ist - es gibt keinen Pfad von 1 nach 2 !

Bemerkung 11.13:

Man beobachtet nun Folgendes: Ist P eine Ubergangsmatrix auf S, so beschreibt eine Folge von Zustanden

i = i0, i1, ..., in−1, in = j

aus S genau dann einen Pfad von i nach j, wenn

pi0,i1 > 0 und pi1,i2 > 0 und ... und pin−1,in> 0

ist, d.h. falls die Zahln−1∏

ν=0

piν ,iν+1

strikt positiv ist.

Wir definieren diese Zahl als das Gewicht des Pfades und die Zahl n als seine Lange.

11.1.1 Potenzen der Matrix P

Im Weiteren benotigen wir standig n-te Potenzen der Matrix P. Sei n ∈ N und N = #S. Man beachte:

• Die N ×N -Matrix P2 = P · P ist gegeben durch

P2 (i, j) =∑

k∈S

pi,k · pk,j =∑

k∈S

P (i, k) · P (k, j) , i, j ∈ S.

• Allgemein folgt induktiv fur Pn = P · Pn−1, dass

Pn (i, j) =∑

i1,...,in−1∈S

pi,i1 · ... · pin−1,j , i, j ∈ S, (11.1)

d.h. dass die Zahl Pn(i, j) genau die Summe aller Gewichte von Pfaden der Lange n von i nach jist.

Damit haben wir sofort folgenden

11.14 Satz:

Sei P eine Ubergangsmatrix auf S. Dann gilt:

P ist genau dann irreduzibel, wenn es fur jedes Paar i, j ∈ S ein n = n (i, j) ∈ N mit

Pn (i, j) > 0

gibt.

Page 136: Grundlagen der Stochastik

136 11 Markov-Ketten mit endlichem Zustandsraum

Beweis:

Ist P irreduzibel, so gibt es zu i, j ∈ S ein n = n (i, j) und einen Pfad der Lange n von i nach j mitGewicht λ ∈ (0, 1]. Wie wir oben schon beobachtet haben, ist Pn (i, j) die Summe aller Gewichte vonPfaden der Lange n von i nach j, und da Gwichte von Pfaden stets positiv sind folgt

Pn (i, j) ≥ λ > 0.

Gibt es zu i, j ∈ S ein n = n (i, j) mit Pn (i, j) > 0, so bedeutet das aus dem gleichen Grund, dass einPfad von i nach j in GP der Lange n existiert.

Beispiel 11.15:

Sei

P =

(0 1

1 0

).

Dann ist (1 0

0 1

)= P2 = P4 = ... und

(0 1

1 0

)= P = P3 = P5 = ....

Daher ist laut Satz schon mit n = 2 klar, dass P irreduzibel ist. Das kann man auch am zugehorigenGraphen GP leicht erkennen:

1 2

1

**1 2jj

1

.

Beispiel 11.16:

Wir betrachten wieder die Ubergangsmatrix

P =

(0 112

12

)

aus Beispiel 11.9. Dann ist

P2 =

(12

12

14

34

),

womit offenbar n = 2 fur jedes Paar i, j ∈ S =

1 , 2

ausreicht, um die Irreduzibilitat mit dem Satz

zu zeigen.

Wir werden meist nur irreduzible Ubergangsmatrizen P

betrachten!

11.1.2 Die Periode einer Ubergangsmatrix

11.17 Definition:

Sei P eine irreduzible Ubergangsmatrix auf S. Die Periode eines Zustands i ∈ S ist der großte gemein-same Teiler der Menge

n ∈ N | es gibt einen Pfad der Lange n von i nach i = n ∈ N | Pn (i, i) > 0 .

Beispiel 11.18:

Wir betrachten wieder die Ubergangsmatrix

P =

(0 1

1 0

)

aus Beispiel 11.15. Fur den Zustand i = 1 existieren offenbar Pfade mit Langen 2,4,6,8,... von i nach

i, daher ist d(

1)

= 2. Das kann man mit der zweiten Charakterisierung der Menge aus der Definition

auch direkt aus den berechneten Matrix-Potenzen im Beispiel oben ablesen.

Genauso ist d(

2)

= 2.

Page 137: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 137

Beispiel 11.19:

Wir kommen wieder zum Lieblingsbeispiel des Dozenten (Beispiel 11.9). Dort ist

P =

(0 112

12

).

• Fur i = 1 finden wir offenbar Pfade von i nach i mit den Langen 2,3,4,5,6 usw., schließlich konnen

wir im Zustand”

2 “ immer rotieren. Das großte gemeinsame Teiler dieser Menge ist 1, d.h. wir

haben d(

1)

= 1.

• Fur i = 2 gibt es sogar einen Pfad von i nach i mit Lange 1, weshalb es keinen großeren Teiler als

1 geben kann. Es folgt d(

2)

= 1.

Nach diesen beiden Beispielen kann man schon vermuten: Fur jedes i ∈ S ist d(i) gleich. In der Tat istdiese Aussage stets richtig:

11.20 Satz:

Sei P eine irreduzible Ubergangsmatrix auf S. Dann ist die Periode d(i) fur jedes i ∈ S gleich.

Beweis:

Seien i, j ∈ S. Es genugt zu zeigen, dass d(i) die Zahl d(j) teilt, also d(i)∣∣d(j).

Da P irreduzibel ist finden wir einen Weg iw1 // j mit |w1| = r und j

w2 // i mit |w2| = r. Insbesondereist dann

iw1w2 // i

mit |w1w2| = r + s. Das zeigt zunachst

d(i)∣∣r + s. (11.2)

Ist nun jw // j ein beliebiger Pfad mit |w| = n, so bleibt zu zeigen, dass d(i)

∣∣n. Da dann

iw1ww2 // i

ein Pfad mit |w1ww2| = r + s + n ist, folgt daraus

d(i)∣∣r + s + n. (11.3)

Mit (11.2) und (11.3) folgt aber d(i)∣∣n, was zu zeigen war.

Bemerkung 11.21:

Beachte, dass P zwingend irreduzibel sein muss, damit dieser Satz gilt. Man kann Perioden von Zustandenauch fur nicht irreduzible Ubergangsmatrizen P definieren, allerdings kann dann d(i) 6= d(j) fur i 6= j,i, j ∈ S gelten.

11.22 Definition:

Sei P eine irreduzible Ubergangsmatrix auf S. Wir nennen die Zahl

d := d(i), i ∈ S beliebig

die Periode von P. Nach obigem Satz ist d wohldefiniert.

11.23 Definition:

Sei P eine irreduzible Ubergangsmatrix auf S. Ist d = 1, so nennen wir P aperiodisch.

Bemerkung 11.24:

Zur Bestimmung der Periode d kann man sich also ein i ∈ S aussuchen. Gibt es im UbergangsgraphenGP zum Beispiel eine Schleife der Form

... i

p1

))... ijjp2

i

p3>0

i ZZ,

so wahlt man als Zustand i und hat sofort d = 1.

Page 138: Grundlagen der Stochastik

138 11 Markov-Ketten mit endlichem Zustandsraum

Beispiel 11.25:

Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen

1 2

12

**1 2jj

12

2 3

12

**2 3jj

12

3 4

12

**3 4jj

12

gegeben ist. Da es offenbar nur Wege gerader Langen von i nach i fur jedes i ∈ S =

1 , 2 , 3 , 4

geben kann, ist d = 2.

Beispiel 11.26:

Betrachte die Ubergangsmatrix P, welche durch den Ubergangsgraphen

2 3ss

12

1

2

66

12

1

3

12

2 3

12

33

1

2

12

vv

1

3

VV

12

gegeben ist. Dann finden wir fur jedes i ∈ S =

1 , 2 , 3

Wege der Lange 2 und 3, weshalb d = 1

folgt.

11.27 Satz:

Seine Ubergangsmatrix P ist genau dann irreduzibel und aperiodisch, wenn es ein n ∈ N mit

Pn (i, j) > 0 ∀ i, j ∈ S

gibt.

Beweis:

Wir wollen die folgende zahlentheoretische Tatsache verwenden:

Ist der großte gemeinsame Teiler ggT (n1, n2, ...) unendlich vieler naturlicher Zahlen = 1, so gibt es eink ∈ N mit ggT (n1, ..., nk) = 1. Dann existiert ein M ∈ N s.d. jedes m ≥M geschrieben werden kann als

m = a1 · n1 + ... + aknk

mit Koeffizienten ai ∈ N, i = 1, .., k. Dies sieht man leicht uber die Theorie der Hauptideale ein.

”⇒“ Sei 1 ∈ S. Da P aperiodisch ist, ist d

(1)

= 1 und es gibt nach unserer zahlentheoretischen

Tatsache ein M ∈ N, s.d. fur alle m ≥M ein Weg

1w // 1 , |w| = m

existiert.

Fur #S = N setze nun n := M + 2N . Da P irreduzibel ist, finden wir zu i, j ∈ S beliebig einenWeg

iw1 // j

mit |w1| ≤ N , indem wir keine Zustande unnotigerweise doppelt besuchen. Genauso existiert auchein Weg

1w2 // j

mit |w2| ≤ N . Gemaß der Wahl von M finden wir einen Pfad

1w // 1

Page 139: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 139

mit |w| = 2N − |w1| − |w2|+ M ≥M . Damit ist

iw1ww2 // j

mit |w1ww2| = 2N + M , also Pn (i, j) > 0.

”⇐“ Ist Pn (i, j) > 0 fur alle i, j ∈ S, so folgt aus der Darstellungsformel

Pn+1 (i, j) =∑

k∈S

P (i, k) · Pn (k, j)

und der Tatsache, dass jede Zeile von P ein stochastischer Vektor der Lange N ist , auch sofortPn+1 (i, j) > 0 ∀ i, j ∈ S. Daher gibt es Wege der Lange n und n + 1 von 1 nach 1 . Es folgtd(1)

∣∣(n + 1)− n = 1 und somit d(1) = 1. Daher ist P aperiodisch.

Die Irreduzibilitat von P folgt bereits aus Satz 11.14.

11.2 Markov-Ketten

Von jetzt an werden wir stets ohne Einschrankung S = 1, ..., N annehmen. Bisher haben wir in diesem

Zusammenhang unsere Zustande stets mit 1 ,..., N notiert, was wir jetzt nicht weiter machen wollen.Es ist aus dem Kontext klar, ob ein Zustand oder eine Zahl gemeint ist.

11.28 Definition:

Eine Startverteilung auf S = 1, ..., N ist eine Wahrscheinlichkeitsverteilung

π0 := (π0 (1) , ..., π0 (N)) .

11.29 Definition:

Sei P eine Ubergangsmatrix und π0 eine Startverteilung auf S.

Eine Markov-Kette zu P mit Startverteilung π0 ist eine Folge

X0,X1,X2,X3, ...

von (diskreten) Zufallsvariablen mit Werten in S, s.d.

(1) P (X0 = i) = π0 (i) (Startverteilung)

(2) (Markov-Eigenschaft)

Fur alle Wahlen n ≥ 0, 0 ≤ k ≤ n, in+1, ..., in−k ∈ S mit P (Xn = in, ...,Xn−k = in−k) 6= 0 gilt

P (Xn+1 = in+1 | Xn = in, ...,Xn−k = in−k) = P (Xn+1 = in+1 | Xn = in) = P (in, in+1) .

Bemerkung 11.30:

(1) Xn gibt in diesem Modell den zufalligen Zustand zur Zeit n ∈ N an.

(2) Die Markov-Eigenschaft (oder auch kurz ME) modelliert die Eigenschaft des stochastischenProzesses X0,X1,X2, ..., dass

”die Wahrscheinlichkeit fur den nachsten Zustand nur vom jetzigen

Zustand und nicht von der weiteren Vergangenheit abhangt“, wie wir es in der Idee zu Beginngefordert haben.

Die Forderung P (Xn = in, ...,Xn−k = in−k) 6= 0 ist mathematisch unerlasslich, wir werden sie aberstets stillschweigend annehmen.

Man kann sich nun Fragen, ob es uberhaupt Markov-Ketten gibt (d.h. ob fur jede Ubergangsmatrix undjede Startbedingung Zufallsvariablen X0,X1, ... mit obigen Eigenschaften existieren). Die Maßtheoriebeantwortet diese Frage mit ja.

Man kann nun einige Eigenschaften von X0,X1,X2 berechnen und zeigen, dass es sich um das”richtige“

Modell fur das zufallige, durch P gesteuerte Wandern auf GP bei zufalligem, durch π0 gesteuertem Starthandelt.

Page 140: Grundlagen der Stochastik

140 11 Markov-Ketten mit endlichem Zustandsraum

11.2.1 Drei elementare Wahrscheinlichkeiten von Markov-Ketten

Wir betrachten hier stets einen Markov-Prozess aus Definition 11.29.

Bemerkung 11.31 (Pfadwahrscheinlichkeiten):

Fur m ∈ N und i0, i1, ..., im ∈ S haben wir

P(Xn+m = im,Xn+m−1 = im−1, ...,Xn = i0︸ ︷︷ ︸

=:B

)= P (Xn+m = im | B)

Markov-Eigenschaft= P (im−1, im) · P (B) .

Daher folgt induktiv

P (Xn+m = im,Xn+m−1 = im−1, ...,Xn = i0) =

m∏

ν=1

P (iν−1, iν) · P (Xn = i0) .

Die Wahrscheinlichkeit P (Xn = i0) werden wir in Bemerkung 11.34 bestimmen. Fall n = 0 ist, so ist

P (X0 = ii) = π0 (i0)

durch die Startverteilung gegeben. In diesem Fall entspricht die sich ergebende Wahrscheinlichkeit alsogenau unseren Wunschen!

Bemerkung 11.32 (m-Schritt Ubergangswahrscheinlichkeiten):

Sind i, j ∈ S, so erhalt man durch disjunkte Zerlegung von S in seine Elemente sofort

P (Xn+m = j,Xn = i)

=∑

im−1,...,i1∈S

P (Xn+m = j,Xn+m−1 = im−1, ...,Xn+1 = i1,Xn = i)

Bemerkung 11.31= P (Xn = i) ·

im−1,...,i1∈S

P (i, i1) · P (i1, i2) · ... · P (im−1, j)

(11.1)= P (Xn = i) · P (i, j) .

Insbesondere folgt durch Division des Terms P (Xn = i), dass

P (Xn+m = j | Xn = i) = Pm (i, j) .

Beispiel 11.33:

Ist

P =

(0 112

12

)

die Ubergangsmatrix aus Beispiel 11.9, so berechnet man

P2 =

(12

12

14

34

), P4 =

(38

58

516

1116

), P10 ≈

(0.33398 0.66602

0.33301 0.66699

).

Daher ist zum Beispiel P (Xn+4 = 1 | Xn = 2) = P4 (2, 1) = 516 = 0.3125.

Bemerkung 11.34 (Verteilung zur Zeit n):

Seiπn (j) := P (Xn = j) , j ∈ S

die Verteilung von Xn. Dann ist πn ein Wahrscheinlichkeitsvektor (als Zeile!). Man berechnet mit derFormel von der totalen Wahrscheinlichkeit fur jedes j ∈ S

πn (j) = P (Xn = j)

(3.2)=

i∈S

P (Xn = j | X0 = i) · P (X0 = i)

Bemerkung 11.32=

i∈S

Pn (i, j) · π0 (i)

= (π0Pn) (j) ,

Page 141: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 141

wobei π0Pn das Matrix-Produkt aus dem Zeilenvektor (also der 1×N -Matrix) π0 und der N ×N -Matrix

Pn bezeichnet. Das liefert die Formel

πn = π0Pn. (11.4)

Beispiel 11.35:

Wir betrachten wieder das Setting aus Beispiel 11.33. Ist etwa π0 = (0, 1), d.h. starten wir mit Sicherheitim Zustand 2, so ist

π4 = π0P4 = zweite Zeile von P4 =

(5

16,11

16

).

Wir haben so die Zustandsverteilung im Schritt n = 4 berechnet.

Ist dagegen π0 =(

12 , 1

2

), was etwa einem Munzwurf fur den Startzustand entspricht, so ist

π4 = π0P4 =1

2· erste Zeile von P4 +

1

2· zweite Zeile von P4 =

(11

32,21

32

).

Wir werden im nachsten Abschnitt allgemein sehen, dass

πnn // ∞ //

(1

3,2

3

)

fur jede beliebige Startverteilung π0 gilt!

11.3 Invariante Maße und Konvergenzsatze

11.36 Definition:

Ist P eine Ubergangsmatrix und π eine Wahrscheinlichkeitsverteilung auf S mit der Eigenschaft, dass

πP = π

ist, so nennt man π eine invariante Verteilung.

Bemerkung 11.37:

Der Begriff”invariant“ macht in diesem Zusammenhang um so mehr Sinn, denn in diesem Fall gilt

πPn = πP(Pn−1

)= πPn−1 = ... = π.

D.h. wenn X0,X1,X2, ... eine Markov-Kette zu P mit der speziellen Startverteilung π0 = π ist, so gilt

πn = π ∀ n ∈ N

nach (11.4).

11.38 Satz (Konvergenzsatz):

Sei P eine irreduzible und aperiodische Ubergangsmatrix.

(1) Dann gibt es genau eine invariante Verteilung π zu P. Außerdem konvergieren alle Zeilen von Pn

(exponentiell schnell) gegen π, d.h.

Pn (i, j)n // ∞ // π (j) ∀ i ∈ S.

(2) Ist X0,X1,X2, ... eine Markov-Kette zu P und einer beliebigen Startverteilung π0, so gilt

πnn // ∞ // π,

d.h. P (Xn = j)n // ∞ // π (j) fur alle j ∈ S.

Page 142: Grundlagen der Stochastik

142 11 Markov-Ketten mit endlichem Zustandsraum

Beweis:

(1) Wir unterteilen den Beweis in zwei Schritte:

Schritt I

Sei j ∈ S beliebig aber fest. Wir setzen

m(n)j := min

i∈SPn (i, j) = Minimum der Werte der j − en Spalte von Pn,

M(n)j := max

i∈SPn (i, j) = Maximum der Werte der j − en Spalte von Pn.

Wegen

m(n+1)j = min

i∈SPn+1 (i, j)

= mini∈S

k∈S

P (i, k) Pn (k, j)

≥ mini∈S

k∈S

P (i, k) m(n)j

= m(n)j

und

M(n+1)j = max

i∈SPn+1 (i, j)

= maxi∈S

k∈S

P (i, k) Pn (k, j)

≤ mini∈S

k∈S

P (i, k) M(n)j

= M(n)j

ist die Folge m(n)j monoton wachsend in n (nicht zwingend streng) und die Folge M

(n)j monoton

fallend in n.

Unser Ziel ist es nun zu zeigen, dass

M(n)j −m

(n)j

n // ∞ // 0 (11.5)

gilt.

Da P irreduzibel und aperiodisch ist folgt nach Satz 11.27, dass es ein L ∈ N und ein δ > 0 gibt,s.d.

PL (i, j) ≥ δ ∀ i, j ∈ S

ist. Sei n ∈ N zunachst fest. Wahle

• ein i0 ∈ S mitPn+L (i0, j) = m

(n+L)j

und

• ein i1 ∈ S mitPn+L (i1, j) = M

(n+L)j .

Sei nunI+ :=

k ∈ S | PL (i1, k) ≥ PL (i0, k)

und I− := S \ I+. Mit dieser Einteilung folgt

k∈I+

(PL (i1, k)− PL (i0, k)

)+∑

k∈I−

(PL (i1, k)− PL (i0, k)

)=

k∈S

PL (i1, k)−∑

k∈S

PL (i0, k)

= 1− 1 = 0. (11.6)

Page 143: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 143

Damit gilt dann

M(n+L)j −m

(n+L)j = Pn+L (i1, j)− Pn+L (i0, j)

=∑

k∈S

Pn (i1, k) PL (k, j)−∑

k∈S

Pn (i0, k) PL (k, j)

=∑

k∈S

(PL (i1, k)− PL (i0, k)

)︸ ︷︷ ︸

=:dk

Pn (k, j)

=∑

k∈I+

dkPn (k, j) +∑

k∈I−

dkPn (k, j) ,

und da fur k ∈ I+ offenbar dk ≥ 0 und fur k ∈ I− offenbar dk < 0 gilt folgt so

M(n+L)j −m

(n+L)j ≤

k∈I+

dkM(n)j +

k∈I−

dkm(n)j

(11.6)=

k∈I+

dk

(M

(n)j −m

(n)j

)

≤(M

(n)j −m

(n)j

)·∑

k∈I+

(PL (i1, k)− δ

)

≤ (1− δ) ·(M

(n)j −m

(n)j

).

Induktiv folgt also fur jedes m ∈ N, dass

(M

(m·L)j −m

(m·L)j

)≤ (1− δ)

m(M

(0)j −m

(0)j

)

︸ ︷︷ ︸≤1

m // ∞ // 0.

Da wir schon wissen, dass m(n)j monoton wachst und M

(n)j monoton fallt folgt so die behauptete

Aussage (11.5).

Schritt II

Setze nunπ (j) := lim

n→∞m

(n)j = lim

n→∞M

(n)j .

Da die Folgen m(n)j und M

(n)j beschrankt (durch [0, 1]) und monoton sind, existieren diese Grenz-

werte. Wegen

m(n)j ≤ Pn (i, j) ≤M

(n)j ∀ i ∈ S

folgt sofort

Pn (i, j)n // ∞ // π (j)

fur alle j ∈ S. Nun weisen wir die noch fehlenden Eigenschaften nach:

• Wir mussen zeigen, dass π ein Wahrscheinlichkeitsvektor ist. Da aber

(Pn (1, j))j∈S

fur jedes n ∈ N ein Wahrscheinlichkeitsvektor ist und diese Folge fur n //∞ gegen π kon-vergiert, ist diese Aussage klar.

• Wir mussen zeigen, dass π eine invariante Verteilung fur P ist. Das folgt aus

πP(j) =∑

k∈S

π(k)P (k, j)←−n // ∞ ∑

k∈S

Pn (i, k) π(k)P (k, j) = Pn+1 (i, j)n // ∞ // π(j)

fur jedes j ∈ S.

Page 144: Grundlagen der Stochastik

144 11 Markov-Ketten mit endlichem Zustandsraum

• Wir mussen zeigen, dass π eindeutig bestimmt ist. Sei dazu π′ eine Wahrscheinlichkeitsver-teilung mit π′ = π′P. Insbesondere ist dann π′ = π′Pn fur alle n ∈ N und daher gilt fur allej ∈ S

π′ (j) =∑

k∈S

π′(k)Pn (k, j) .

Im Grenzubergang n //∞ ist Pn (k, j) // π (j), d.h. es folgt

π′ (j) =∑

k∈S

π′(k)

︸ ︷︷ ︸=1

π(j) = π(j)

fur alle j ∈ S, was gleichbedeutend mit π = π′ ist.

(2) Mit Teil (1) folgt leicht fur jede beliebige Startverteilung π0 und jedes j ∈ S

P (Xn = j) = πn (j)

Bemerkung 11.34= (π0Pn) (j)

=∑

k∈S

π0(k) Pn (k, j)︸ ︷︷ ︸n // ∞ // π(j)

n // ∞ // π (j)∑

k∈S

π0(k)

︸ ︷︷ ︸=1

= π(j).

Das zeigt πnn // ∞ // π.

Beispiel 11.39:

Wir haben schon gesehen, dass die Ubergangsmatrix

P =

(0 112

12

)

aus Beispiel 11.9 irreduzibel und aperiodisch ist. Wir suchen nun zunachst eine invariante Verteilung π,d.h. ein π = (π(1), π(2)) mit πP = π. Das liefert das Gleichungssystem

1

2π(2) = π(1)

π(1) +1

2π(2) = π(2),

woraus nur π = (a, 2a) mit einem beliebigen a ∈ R folgt. Da allerdings π ein Wahrscheinlichkeitsvektorsein soll, muss a + 2a = 1 gelten, d.h. a = 1

3 . Es folgt, dass

π =

(1

3,2

3

)

die einzige invariante Verteilung zu P ist, was eine Probe leicht bestatigt:

πP =

(1

3,2

3

)(0 112

12

)=

(1

3,2

3

)= π.

Mit Satz 11.38 folgt also

Pn n // ∞ //

(13

23

13

23

)

und P (Xn = 1)n // ∞ // 1

3 , P (Xn = 2)n // ∞ // 2

3 fur jede beliebige Startverteilung π0.

Page 145: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 145

11.40 Hilfssatz:

Sei P eine irreduzible Ubergangsmatrix auf S = 1, ..., N. Dann ist die Matrix

Pk :=

(1− 1

k

)P +

1

kIN

fur die N ×N -Einheitsmatrix IN fur jedes k ∈ N≥2 aperiodisch und irreduzibel.

Beweis:

Laut Satz 11.27 mussen wir zeigen, dass es ein M ∈ N gibt, s.d. PMk (i, j) > 0 ∀ i, j ∈ S.

Da P irreduzibel ist, gibt es gemaß Satz 11.14 zu jedem Paar i, j ∈ S ein n (i, j) mit Pn(i,j) (i, j) > 0.Setze nun

M := maxi,j∈S

n (i, j) .

Sei nun i, j ∈ S beliebig. Mit dem binomischen Lehrsatz gilt offenbar

PMk =

M∑

ν=0

(M

ν

)(1− 1

k

)ν1

kM−νPν ,

da IjN = IN und P · IN = IN · P = P. Also ist

PMk (i, j) =

M∑

ν=0

(M

ν

)(1− 1

k

)ν1

kM−ν

︸ ︷︷ ︸>0

Pν (i, j)︸ ︷︷ ︸≥0

≥(

M

n (i, j)

)(1− 1

k

)n(i,j)1

kM−n(i,j)Pn(i,j) (i, j) > 0.

Das zeigt die Behauptung.

11.41 Satz (Invariante Verteilung):

Ist P eine irreduzible Ubergangsmatrix, so gibt es genau eine invariante Verteilung π zu P.

Beweis:

Sei wieder ohne Einschrankung S = 1, ..., N.

• Existenz:

Sei IN die N ×N -Einheitsmatrix. Fur k ∈ N≥2 setze

Pk :=

(1− 1

k

)P +

1

kIN . (11.7)

Diese Matrix ist gemaß Hilfssatz 11.40 aperiodisch und irreduzibel, d.h. mit Satz 11.38 gibt es zujedem k ∈ N≥2 genau eine invariante Verteilung π(k) zu Pk.

Da π(k) Koordinatenweise durch [0, 1] beschrankt ist, existiert eine Teilfolge ki s.d.

πkii // ∞ // π

fur eine Wahrscheinlichkeitsverteilung π gilt. Diese erfullt dann

πki = πki · Pki.

Mit i //∞ in dieser Gleichung folgtπ = π · P.

• Eindeutigkeit:

Ist π = πP und π′ = π′P fur zwei Wahrscheinlichkeitsverteilungen π, π′, so folgt insbesondere nach(11.7), dass

π = πP2

π′ = π′P2,

was nach Satz 11.38 π = π′ zur Folge hat.

Der Konvergenzsatz lasst sich auch auf nicht-aperiodische Matrizen verallgemeinern. Wir wollen diesesErgebnis allerdings nur ohne Beweis angeben:

Page 146: Grundlagen der Stochastik

146 11 Markov-Ketten mit endlichem Zustandsraum

Bemerkung 11.42 (Konvergenzsatz fur periodische Matrizen):

Sei d > 1 die Periode der irreduziblen Ubergangsmatrix P. Setze

Si(n) := j ∈ S | es gibt einen Pfad der Lange n von i nach j in S .

Fur j /∈ Si(n) ist dann P (Xn = j) = 0 und es gilt

maxj∈Si(n)

|P (Xn = j)− d · π(j)| n // ∞ // 0

exponentiell schnell.

11.4 Ruckkehrzeiten und starkes Gesetz11.43 Definition:

Sei P eine irreduzible Ubergangsmatrix auf S = 1, ..., N und i ∈ S. Sei Ti die zufallige Zeit (∈ N), dievergeht, bis die

”in i gestartete“ Markov-Kette X0,X1,X2, ... zu P wieder in i ankommt. Dabei bedeutet

in i gestartet, dass π0 = ei fur den i-ten karthesischen Einheitsvektor ei gilt. Dann ist

Ti = inf n ≥ 1 | Xn = i

und wir nennen Ti die Ruckkehrzeit von i.

Bemerkung 11.44:

Beachte, dassTi = n = Xn = i, .Xn−1 6= i, ...,X1 6= i,X0 = i .

Beispiel 11.45:

Betrachte wieder die Ubergangsmatrix P zum Ubergangsgraphen GP aus Beispiel 11.9:

1 2

1

**1 2jj

12

2

12

2[[

.

Identifiziere 1 mit 1 und 2 mit 2 . Wir wollen den Erwartungswert der zufalligen Große T1 bestimmen.

Offenbar ist P (T1 = 1) = 0 und P (T1 = n + 1) =(

12

)nfur n ≥ 1. Damit folgt

E (T1) =∞∑

n=0

n · P (T1 = n)

=∞∑

n=2

n

(1

2

)n−1

=

∞∑

n=1

(n + 1)

(1

2

)n

=

∞∑

n=1

n

(1

2

)n

+

∞∑

n=1

(1

2

)n

︸ ︷︷ ︸=1

.

Da die erste Summe dem Erwartungswert einer Zufallsvariablen X ∼ Geo(

12

)entspricht ist ihr Wert = 2,

d.h. wir habenE (T1) = 3.

Fur Zustand 2 gestaltet sich die Rechnung etwas einfacher: Wegen P (T2 = 1) = P (T2 = 2) = 12 ist

E (T2) = 1 · 12

+ 2 · 12

=3

2.

Insbesondere sehen wir in diesem Beispiel schon, dass

E (Ti) =1

π(i)

fur die zu P invariante Verteilung π =(

13 , 2

3

)gilt.

Page 147: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 147

11.46 Satz (Positive Rekurrenz - ohne Beweis):

Sei P eine irreduzible Ubergangsmatrix und X0,X1, ... die zugehorige in i ∈ S gestartete Markov-Kette.Dann gilt:

(1) Man kehrt sicher zu i zuruck, d.h.∞∑

n=1

P (Ti = n) = 1.

(2) Es ist

E (Ti) =

∞∑

n=1

P (Ti = n) <∞.

Ein Teil des Beweises ist Aufgabe 5 des Ubungsblatts 12.

Bemerkung 11.47:

Ist #S =∞, so ist der Satz von der positiven Rekurrenz im allgemeinen falsch.

11.4.1 Der Ruckkehrzeitensatz

11.48 Lemma:

Sei X0,X1,X2, ... eine Markov-Kette und E ⊂ Sn. Dann gilt fur jedes in+1, in ∈ S

P(Xn+1 = in+1︸ ︷︷ ︸

=:A

| Xn = in︸ ︷︷ ︸=:B

, (X0, ...,Xn−1) ∈ E︸ ︷︷ ︸=:C

)= P (Xn+1 = in+1 | Xn = in) . (11.8)

Beweis:

Wir zerlegen das Ereignis C disjunkt als

C =∑

k∈I

Ck

mit Ck’s von der Form X0 = i0, ...,Xn−1 = in−1 fur ein Tupel (i0, ..., in−1) ∈ E. Nach der Markov-Eigenschaft gilt

P (A | B ∩ Ck) = P (A | B) ∀ k ∈ I,

d.h. es folgtP (A ∩B ∩ Ck) = P (A | B) · P (B ∩ Ck) ∀ k ∈ I

nach Definition der bedingten Wahrscheinlichkeit. Bilden der Summe uber k ∈ I liefert

P (A ∩B ∩ C) = P (A | B) · P (B ∩ C) ,

was per Definition gleichbedeutend mit

P (A | B ∩ C) = P (A | B)

ist - das ist genau die Behauptung.

11.49 Satz (Ruckkehrzeitensatz):

Sei P eine irreduzible Ubergangsmatrix und π die zugehorige invariante Verteilung. Dann gilt

E (Ti) =1

π(i)

fur jedes i ∈ S.

Beweis:

Wir betrachten bei Start im Zustand i ∈ S die Hilfsfunktion

µ (k) :=

∞∑

n=0

P (Xn = k, Ti > n) , k ∈ S.

Dabei ist X0,X1,X2, ... die in i gestartete Markov-Kette mit Ubergangsmatrix P und die ZahlenP (Xn = k, Ti > n) entsprechen der Wahrscheinlichkeit, dass man zur Zeit n im Zustand k ist, aberbis zur Zeit n noch nicht wieder in i war.

Page 148: Grundlagen der Stochastik

148 11 Markov-Ketten mit endlichem Zustandsraum

Ohne Einschrankung nehmen wir wieder S = 1, ..., N an. Setze dann

µ := (µ (1) , ..., µ (N)) .

Dann gilt

N∑

k=1

µ (k) =

∞∑

n=0

N∑

k=1

P (Xn = k, Ti > n)

=

∞∑

n=0

P (Ti > n)

=

∞∑

n=1

P (Ti ≥ n)

(5.3)= E (Ti)

und diese Zahl ist nach dem Satz uber die positive Rekurrenz oben <∞. Daher ist

1

E (Ti)· µ =

(µ(1)

E (Ti), ...,

µ(N)

E (Ti)

)

ein Wahrscheinlichkeitsvektor. Wir werden nun zeigen, dass es sich dabei sogar um eine invariante Ver-teilung von P handelt.

Zur Vorbereitung berechnen wir fur k ∈ S, k 6= i und j ∈ S, dass

P (Xn+1 = j,Xn = k, Ti > n) = P (Xn+1 = j | Xn = k, Ti > n) · P (Xn = k, Ti > n) .

Verwenden wir nun das Lemma oben fur E = (i, j1, ..., jn−1) ∈ Sn | j1, ..., jn−1 6= i, so folgt wegen

Ti > n = Xn−1 6= i, ...,X1 6= i,X0 = i = (X0, ...,Xn−1) ∈ E,

dass

P (Xn+1 = j,Xn = k, Ti > n)(11.8)= P (Xn+1 = j | Xn = k) · P (Xn = k, Ti > n)

= P (k, j) · P (Xn = k, Ti > n) .

Man beobachtet schnell, dass diese Gleichung auch fur k = i richtig bleibt:Ist n > 0, so sind zwingendbeide Seiten = 0, ist n = 0, so ergibt sich auf beiden Seiten P (i, j).

Es genugt nun zu zeigen, dass µP = µ ist, der Faktor 1E(Ti)

braucht nicht beachtet zu werden (da er auf

beiden Seiten auftaucht). Mit obiger Rechnung gilt fur j ∈ S:

(µP) (j) =∑

k∈S

µ(k) · P (k, j)

=

∞∑

n=0

k∈S

P (Xn = k, Ti > n) P (k, j)

=∞∑

n=0

k∈S

P (Xn+1 = j,Xn = k, Ti > n)

=

∞∑

n=0

P (Xn+1 = j, Ti > n) .

Jetzt unterscheiden wir: Fur j 6= i erhalt man damit

(µP) (j) =∞∑

n=0

P (Xn+1 = j, Ti > n)

=

∞∑

n=0

P (Xn+1 = j, Ti > n + 1)

= µ(j)− P (X0 = j, Ti > 0)

= µ(j),

Page 149: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 149

und fur i = j erhalt man

(µP) (j) =∞∑

n=0

P (Xn+1 = j, Ti > n)

=

∞∑

n=0

P (Ti = n + 1)

Satz 11.46= 1.

Beachte nun noch, dass

µ(i) =

∞∑

n=0

P (Xn = i, Ti > n) =

∞∑

n=1

P (Xn = i, Ti > n)︸ ︷︷ ︸=0

+P (X0 = i, Ti > 0)︸ ︷︷ ︸=1

= 1.

Das zeigt, dass 1E(Ti)

·µ eine invariante Verteilung fur P ist. Gemaß Satz 11.41 ist die invariante Verteilung

eindeutig, d.h. wir haben1

E (Ti)· µ(i) = π(i).

Wegen µ(i) = 1 wie oben berechnet folgt daraus die Behauptung.

11.50 Satz (Starkes Gesetz - ohne Beweis):

Sei P irreduzible Ubergangsmatrix und sei f : S // R eine Funktion. Fur jede Startverteilung π0 giltdann mit Wahrscheinlichkeit 1:4

Ist x0, x1, x2, ... ein zufalliger Pfad der Markov-Kette X0,X1, ... zu P und π0 (d.h. eine”Realisierung“

dieser Markov-Kette), so konvergiert das Zeitmittel von f gegen das Raummittel Eπ(f):

1

n

n−1∑

k=0

f(xk)n // ∞ //

j∈S

f(j)π(j).

Dabei bezeichnet π die invariante Verteilung zu P.

Insbesondere gilt fur A ⊆ S und f := 1A, dass

1

n# 0 ≤ k ≤ n− 1 | xk ∈ A n // ∞ //

j∈A

π(j) = π(A).

D.h. die Anzahl der”Besuche“ in A konvergiert mit Wahrscheinlichkeit 1 fur n //∞ gegen die Wahr-

scheinlichkeit von A unter der invarianten Verteilung π.

Speziell fur A = i gilt also

1

n# 0 ≤ k ≤ n− 1 | xk = i n // ∞ // π(i).

4Eine Konvergenz dieser Art nennt man fast sichere Konvergenz.

Page 150: Grundlagen der Stochastik

150 11 Markov-Ketten mit endlichem Zustandsraum

11.5 Beispiele

11.5.1 Irrfahrt auf ungerichtetem Graphen

In diesem Abschnitt bezeichnen wir Elemente aus S wieder mit i usw. um Zahlen von Ecken zu unter-scheiden.

Sei G ein ungerichteter Graph mit Eckenmenge S ohne Mehrfachkanten und N = #S.

11.51 Definition:

Fur jede Ecke i ∈ S sei

d(i) := # j ∈ S | es gibt eine Kante zwischen i und j .

Beispiel 11.52:

Sei G gegeben als

3 4

1

3

1 22

4

22

3

2

Dann ist d(

2)) = #

1 , 2 , 3

= 3, d

(1)

= 2, d(

3)

= 3, d(

4)

= 1.

Wir wandern nun rein zufallig auf diesem Graphen, in dem wir jeweils gleichverteilt die nachste Eckeunter den mit i verbunden Ecken wahlen. D.h.

11.53 Definition:

Sei P die N ×N -Matrix mit

P (i, j) =

0 falls keine Kante zwischen i und j existiert,

1d(i) falls eine Kante zwischen i und j existiert.

Offenbar ist P tatsachlich eine stochastische Matrix:

j∈S

P (i, j) =∑

j∈k | es gibt eine Kante zwischen i und k

1

d(i)=

d(i)

d(i)= 1 ∀ i ∈ S.

11.54 Definition:

Wir setzenD :=

i∈S

d(i).

11.55 Satz:

Damit ist

π(i) :=d(i)

D, i ∈ S

eine invariante Verteilung von P.

Page 151: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 151

Beweis:

Man berechnet

(πP) (j) =∑

i∈S

π(i)P (i, j)

=∑

i∈k | es gibt eine Kante zwischen i und j

d(i)

D· 1

d(i)

=1

D·# k | es gibt eine Kante zwischen i und j

=d(j)

D

= π(j)

fur j ∈ S.

Bemerkung 11.56:

Beachte, dass ohne weitere Voraussetzungen P nicht irreduzibel ist und daher π nicht zwingend eindeutigbestimmt ist.

Beispiel 11.57:

Wir wollen einen Springer auf einem 4 × 4-Schachbrett betrachten. Sei dazu S = (i, j) | 1 ≤ i, j ≤ 4.Der zugehorige Graph stellt sich wie folgt dar:

(1,1)

(3,2)oooooooooooooooooooooooooooooooooooo

(1,1)

(2,3)

(2,1)

(1,3)///////////////////////////////////////

(2,1)

(3,3)

(2,1)

(4,2)oooooooooooooooooooooooooooooooooooo

(3,1)

(2,3)///////////////////////////////////////

(3,1)

(4,3)

(3,1)

(1,2)OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

(4,1)

(3,3)///////////////////////////////////////

(4,1)

(2,2)OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

(1,2)

(3,3)oooooooooooooooooooooooooooooooooooo

(1,2)

(2,4)

(2,2)

(1,4)///////////////////////////////////////

(2,2)

(3,4)

(2,2)

(4,3)oooooooooooooooooooooooooooooooooooo

(3,2)

(2,4)///////////////////////////////////////

(3,2)

(4,4)

(3,2)

(1,3)OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

(4,2)

(2,3)OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

(4,2)

(3,4)///////////////////////////////////////

(1,3)

(3,4)oooooooooooooooooooooooooooooooooooo

(2,3)

(4,4)oooooooooooooooooooooooooooooooooooo

(3,3)

(1,4)OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

(4,3)

(2,4)OOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOOO

Aus diesem Graphen lesen wir nun die Gradzahlen d(

(i,j))

ab. Der Eintrag in der Zelle (i, j) der

folgenden Tabelle bezeichnet d(

(i,j)):

2 3 3 2

3 4 4 3

3 4 4 3

2 3 3 2

Page 152: Grundlagen der Stochastik

152 11 Markov-Ketten mit endlichem Zustandsraum

Damit berechnet man leicht D = 4 · (2 + 3 + 3 + 4) = 48 und hat so gemaß dem Satz die invarianteVerteilung π:5

124

116

116

124

116

112

112

116

116

112

112

116

124

116

116

124

Daraus erhalten wir nun:

(1) Nach dem Ruckkehrzeitensatz ist dann zum Beispiel

E(T(1,1)

)=

1

π((1, 1))= 24.

(2) Das starke Gesetz sagt etwa, dass fur einen Springerpfad die relative Haufigkeit der Besuche in denmittleren Feldern fast sicher (d.h. mit Wahrscheinlichkeit 1) gegen

π ((i, j) | 2 ≤ i, j ≤ 3) = 4 · 1

12=

1

3

konvergiert.

(3) Sei P die zugehorige Ubergangsmatrix. Wir haben oben schon festgestellt, dass P irreduzibel ist.Allerdings kann P nicht aperiodisch sein, da der Springer bei jedem Zug ein Feld anderer Farbe(Schwarz / Weiß) erreicht. P hat daher mindestens Periode 2, und da hin- und wieder zuruckziehenmoglich ist, genau Periode d = 2.

(4) Mit Bemerkung 11.42 ist fur großes, gerades n die Aufenthaltswahrscheinlichkeit also etwa gegebenals

112 0 1

8 0

0 16 0 1

818 0 1

6 0

0 18 0 1

12

Dabei gibt der Eintrag in Position (i, j) die approximative Wahrscheinlichkeit an, dass der Springersich zur Zeit n in der Position (i, j) aufhalt.

11.5.2 Ehrenfeld-Diffusion

Wir nehmen an, in einem Horsaal befinden sich N Gasmolekule. Wir zerteilen den Horsaal in die rechteHalfte H1 und die linke Halfte H2. Als Modell nehmen wir an, dass jeweils ein Molekul zufallig ausgewahltwird und dieses dann in die andere Horsaalhalfte wechselt.

Sei dazuS = 0, ..., N ,

was der Anzahl der Gasmolekule in H1 entsprechen soll. Offenbar muss dann fur die Ubergangsmatrix P

P (i, i + 1) =N − i

N, i < N

P (i, i− 1) =i

N, i > 1

gelten. Alle ubrigen Eintrage der Matrix sind 0.

Man kann nun zeigen, dass P irreduzibel ist und dass die invariante Verteilung π zu P gegeben ist durch

π(i) =

(N

i

)2−N , i ∈ S.

D.h. wir haben π ∼ B(N, 1

2

).

Nach dem Ruckkehrzeitensatz ist dann zum Beispiel

E (T0) =1

π(0)= 2N .

5Hier ist klar, dass die invariante Verteilung eindeutig bestimmt ist, da der Springer jedes Feld erreichen kann - die

Matrix ist also irreduzibel!

Page 153: Grundlagen der Stochastik

11 Markov-Ketten mit endlichem Zustandsraum 153

D.h. wenn wir annehmen, dass zur Zeit n = 0 in H1 keine Gasmolekule sind, so ist zu erwarten, dassdieser Zustand erst zur Zeit 2N wieder eintritt. Das ist fur eine Anzahl N von Molekulen reichlich groß!

Außerdem bemerkt man, dass der aktuelle Zustand oft nahe am Gleichgewicht ist:

Sei N = 10.000. Wegen π ∼ B(10.000, 1

2

)liefert die Chernov-Ungleichung

π (4801, ..., 5199) ≥ 0.9993.

Das starke Gesetz sagt uns also, dass in 99.93% der Zeit in H1 zwischen 4801 und 5199 Gasmolekule sind.

Page 154: Grundlagen der Stochastik

154 12 Schatzer und statistische Tests

12 Schatzer und statistische Tests

Wir beginnen mit einen motivierenden Beispiel.

Beispiel 12.1:

Wir wollen eine Lebensmittelkontrolle durchfuhren. Dazu messen wir die Fullungen von 1-Liter-Flaschennach. In Millilitern erhalten wir bei sechs Messungen die Messwerte

999, 990, 995, 1003, 1001, 991.

Diese Messwerte wollen wir im folgenden mit x1, ..., x6 bezeichnen. Wir konnen uns nun die folgendenFragen stellen:

(1) Wenn man annimmt, dass die Fullmenge eine N(µ, σ2

)-verteilte Zufallsvariable ist, wie schatzt

man dann mittels dieser Messungen den Erwartungswert? Wie schatzt man die Varianz?

Um solche Fragen zu beantworten wollen wir hier kurz ML-Schatzer und erwartungstreue Schatzerbehandeln.

(2) Soll die Kontrolle wegen zu geringer Befullung nach dieser Messung einschreiten?

Um diese Frage zu beantworten werden wir kurz statistische Tests betrachten.

12.1 Punktschatzer

Sei X eine Zufallsvariable (oder ein Zufallsvektor)

X : Ω // X .

Im Zusammenhang dieses Kapitels nennen wir X auch den Stichprobenraum.

Wir nehmen naturlicher Weise an, dass wir die Verteilung P von X auf X nicht kennen. Beachte, dasswir hier P anstelle von PX schreiben.

Stattdessen nehmen wir an, dass P in einer Familie

P = Pθ | θ ∈ Θ

von Verteilungen Pθ auf X liegt. Diese Familie bezeichnen wir auch als statistisches Modell fur diemoglichen Verteilungen von X.

Beispiel 12.2:

Sei X die Anzahl der Erfolge in einem n-fach wiederholten Bernoulli-Experiment mit unbekannter Er-folgswahrscheinlichkeit. Dann ist X = 0, ..., n und das statistische Modell ist gegeben als

P =

B (n, θ)︸ ︷︷ ︸=Pθ

| θ ∈ [0, 1]︸︷︷︸=Θ

.

Zu jeder der Verteilungen Pθ gehort in diesem Fall eine Wahrscheinlichkeitsfunktion

pθ (x) =

(n

x

)θx (1− θ)

n−x, x = 0, ..., n.

Wir wollen nun aufgrund einer Stichprobe x ∈ X (d.h. einer Realisation von X) den Parameter θ oderallgemeiner eine Funktion g in Abhangigkeit von θ geschatzt werden.

12.3 Definition:

Ein Schatzer fur θ ∈ Θ ist eine Abbildung

t : X // Θ.

Fur ein konkretes x ∈ X heißt t(x) dann eine Schatzung fur θ.

Die Zufallsvariable T := t (X) wird ebenfalls Schatzer fur θ genannt.

Beispiel 12.4:

Betrachte wieder das Setting aus Beispiel 12.2. Ist x ∈ 0, ..., n die Stichprobe, so ist

t(x) :=x

n

Page 155: Grundlagen der Stochastik

12 Schatzer und statistische Tests 155

ein Schatzer fur die Erfolgswahrscheinlichkeit θ des Bernoulli-Experiments. Nun sollte man sich fragen,ob dieser Schatzer sinnvoll ist. Auf diese Frage werden wir weiter unten eingehen.

Ebenso ist dann

T =1

nX

ein Schatzer fur θ und konkret fur n = 20 und x = 14 ist

t(14) =7

10= 0.7

eine Schatzung von θ.

12.5 Definition:

Sei g eine beliebige Funktion auf Θ. Jede Abbildung

t : X // g (Θ)

heißt Schatzer fur g(θ).

Beispiel 12.6:

Wieder im Setting von Beispiel 12.2 konnen wir versuchen, die Varianz von B (nθ) zu schatzen, d.h.

g(θ) = n · θ · (1− θ) .

Ein moglicher Schatzer ware

t(x) := n · xn

(1− x

n

)= x ·

(1− x

n

).

Weiter unten werden wir uns mit der Frage beschaftigen, ob dieser Schatzer sinnvoll bzw. gut ist.

Man sollte beachten, dass es im Allgemeinen nicht”den Besten“ Schatzer gibt. Es gibt verschiedene

Verfahren zur Herleitung und verschiedene Gute-Kriterien fur Schatzer. Wir besprechen hier die ML-Schatzer und die erwartungstreuen Schatzer, es gibt außerdem noch Risiko-Schatzer, Konsistenz-Schatzerund viele mehr.

12.1.1 ML-Schatzer

12.7 Definition:

Wir sagen, ein Schatzer t hat die Maximum-Likelihood-Eigenschaft, wenn folgendes gilt:

Fur jedes x ∈ X ist t(x) = θML ∈ Θ mit

pθML(x) ≥ pθ(x) ∀ θ ∈ Θ.

Falls wir mit einer diskreten Verteilung Pθ arbeiten, so ist das zugehorige pθ die entsprechende Wahr-scheinlichkeitsfunktion, ist Pθ eine stetige Verteilung, so ist pθ die entsprechende Dichte.

D.h. fur festes x ∈ X maximiert t(x) = θML die sogenannte Likelihood-Funktion

Lx (θ) = pθ(x)

uber θ ∈ Θ.

Beispiel 12.8:

Betrachte wieder das Setting aus Beispiel 12.2. Dann ist die Likelihood-Funktion gegeben als

Lx (θ) =

(n

x

)θx (1− θ)

n−x.

Um einen ML-Schatzer fur θ zu bestimmen ist diese Funktion jetzt fur gegebenes x ∈ 0, ..., n uberθ ∈ [0, 1] zu minimieren.

Wie man im Beispiel schon sieht, kann die zu minimierende Funktion sehr unangenehm sein. Zur Vereinfa-chung kann man die log-Likelihood-Funktion log Lx betrachten. Da der Logarithmus log streng monotonsteigend ist6, nehmen Lx und log Lx im selben θ ihr Maximum.

6Wir betrachten hier stets nur den naturlichen Logarithmus ln = log.

Page 156: Grundlagen der Stochastik

156 12 Schatzer und statistische Tests

Beispiel 12.9:

Im obigen Beispiel 12.2 ist dann

log Lx (θ) = log

(n

x

)+ x log θ + (n− x) log (1− θ) .

Um das Maximum dieser Funktion zu bestimmen, differenzieren wir nach θ und erhalten so

0!= 0 +

x

θ− n− x

1− θ,

womit θ = xn

folgt.

Also ist unser Schatzert(x) =

n

x

von oben sogar ein ML-Schatzer fur die Erfolgswahrscheinlichkeit θ.

12.1.2 Erwartungstreue Schatzer

12.10 Definition:

Ein Schatzer t fur θ ist erwartungstreu, wenn

Eθ (t(X)) = θ

fur alle θ ∈ Θ gilt, d.h.: Ist θ der wahre Parameter, so ist die (zufallige) Schatzung t(x) zumindest imErwartungswert gleich θ.

Ganz analog definiert man fur Schatzer von Funktionen:

12.11 Definition:

Ein Schatzer t fur eine Funktion g in Abhangigkeit von θ ist erwartungstreu, wenn

Eθ (t(X)) = g (θ)

fur alle θ ∈ Θ gilt.

Beispiel 12.12:

Betrachte wieder Beispiel 12.2. Wir behaupten, dass unser Schatzer

t(x) =x

n

von dort erwartungstreu ist.

Beweis:

Mit der Linearitat des Erwartungswertes gilt

E (t (X)) = E

(X

n

)=

1

nE (X) =

1

nθn = θ.

Es folgt die Behauptung.

Beispiel 12.13:

Im selben Beispiel 12.2 sei nun n ≥ 2. Dann ist

t(x) = x(1− x

n

)

ein ML-Schatzer fur die Varianz, denn schließlich haben wir dort einfach den ML-Schatzer fur θ in die

Page 157: Grundlagen der Stochastik

12 Schatzer und statistische Tests 157

Varianz-Formel θ 7→ nθ (1− θ) eingesetzt. Allerdings ist er nicht erwartungstreu:

Eθ (t(X)) = Eθ

(X

(1− X

n

))

= Eθ (X)− 1

nEθ

(X2)

= nθ − 1

n

(Vθ(X) + (Eθ(X))

2)

= nθ − 1

n

(nθ (1− θ) + n2θ2

)

= (n− 1) θ (1− θ)

=n− 1

n︸ ︷︷ ︸6=1

nθ (1− θ)︸ ︷︷ ︸=g(θ)=Vθ(X)

.

Allerdings sehen wir an dieser Berechnung schon, dass

n

n− 1t(x) =

n

n− 1x(1− x

n

)

ein erwartungstreuer Schatzer fur die Varianz ist.

Z.B. fur n = 2 ist die Abweichung zwischen diesen beiden Schatzern deutlich: Ist der wahre Parameterθ = 1

2 , so ist

Eθ (t(X)) =n− 1

θ(1− θ) =

1

4,

obwohl die tatsachliche Varianz 12 betragt.

Wir wollen nun eine allgemeinere Situation betrachten:

Seien X1, ...,Xn unabhangige, identisch verteilte Zufallsvariablen. Sei X1 der Wertebereich dieser Varia-blen. Definiere als Stichprobenraum

X =n×

ν=1

X1 = X1×...× X1︸ ︷︷ ︸n−mal

.

Betrachte dazu das statistische Modell

P =

Pθ × ...× Pθ︸ ︷︷ ︸=:Pθ

| θ ∈ Θ,

wobei jedes Pθ eine Wahrscheinlichkeitsverteilung auf X1 aus einer vorgegebenen Familie ist.

Beispiel 12.14:

Sei etwaPθ ∈ B (1, θ) | 0 ≤ θ ≤ 1

oderPθ ∈

N(µ, σ2

)| µ ∈ R, σ2 > 0

.

Wir wollen im zweiten Fall θ :=(µ, σ2

)setzen.

(1) Wir wollen zuerst einen Schatzer fur den Erwartungswert Eθ (X1) von Pθ herleiten.

12.15 Lemma:

Der Schatzer

t (x1, ..., xn) :=1

n

n∑

i=1

xi = x

ist erwartungstreu fur Eθ (X1).

Page 158: Grundlagen der Stochastik

158 12 Schatzer und statistische Tests

Beweis:

Man berechnet

Eθ (t (X1, ...,Xn)) = Eθ

(1

n

n∑

i=1

Xi

)

=1

n

n∑

i=1

Eθ (Xi)

= Eθ (X1) .

Das zeigt die Behauptung.

Beispiel 12.16:

In Beispiel 12.1 ware also

1

6

6∑

i=1

xi = 996.5

eine erwartungstreue Schatzung fur µ.

(2) Jetzt wollen wir einen Schatzer fur die Varianz Vθ (X1) von Pθ herleiten. Sei dazu wieder

x :=1

n

n∑

i=1

xi.

Berechne nun

n∑

i=1

(xi − x)2

=

n∑

i=1

x2i − 2

n∑

i=1

xix +

n∑

i=1

x2

=n∑

i=1

x2i − 2nx2 + nx2

=

n∑

i=1

x2i − n (x)

2(12.1)

und

(x2)

=1

n2Eθ

n∑

i,j=1

Xi ·Xj

=1

n2

n∑

i=1

Eθ (Xi ·Xi) +1

n2

n∑

i,j=1i6=j

Eθ (Xi ·Xj)

Unabhangigkeit=

1

n2nEθ

(X2

1

)+

1

n2

n∑

i,j=1i6=j

Eθ (Xi) · Eθ (Xj)

=1

nEθ

(X2

1

)+

n− 1

n(Eθ (X1))

2. (12.2)

Jetzt konnen wir zeigen:

12.17 Lemma:

Der Schatzer

S2 (x1, ..., xn) =1

n− 1

n∑

i=1

(xi − x)2

ist ein erwartungstreuer Schatzer fur die Varianz. Er wird auch Stichprobenvarianz genannt.

Page 159: Grundlagen der Stochastik

12 Schatzer und statistische Tests 159

Beweis:

Es gilt

(n∑

i=1

(Xi − x)2

)(12.1)= Eθ

(n∑

i=1

X2i − nx2

)

(12.2)= nEθ

(X2

1

)−(Eθ

(X2

1

)+ (n− 1) (Eθ (X1))

2)

= (n− 1)(Eθ

(X2

1

)− (Eθ (X1))

2)

= (n− 1) Vθ (X1) .

Das zeigt die Behauptung.

Beachte den Unterschied zur empirischen Varianz

σ2 (x1, ..., xn) =1

n

n∑

i=1

(xi − x)2.

Sie ist nicht erwartungstreu, aber der Unterschied verschwindet mit n //∞.

In der Praxis wird S2 als Schatzer fur die Varianz und√

S2 als Schatzer fur die Standardabweichungverwendet.

Beispiel 12.18:

In Beispiel 12.1 ware also

S2 (x1, ..., x6) =1

5

6∑

i=1

(xi − x)2

=1

5

6∑

i=1

(xi − 996.5)2

= 28.7

eine erwartungstreue Schatzung fur σ2. Entsprechend schatzen wir σ als√

28.7 ≈ 5.357.

Die Schatzung der Parameter(µ, σ2

)von N

(µ, σ2

)wurde in unserem Fall also

µ = 996.5 und σ2 = 28.7

liefern.

12.2 Statistische Tests

Wir wollen uns nun mit der Frage aus Beispiel 12.1 beschaftigen, ob aufgrund dieser Stichproben dieKontrolle eingeschaltet werden sollte. Dazu beschaftigen wir uns allgemein mit statistischen Tests:

Sei X ein Stichprobenraum undP = Pθ | θ ∈ Θ

ein statistisches Modell fur die moglichen Verteilungen einer Zufallsvariablen bzw. eines Zufallsvektors Xmit Werten in X. Seien nun

Θ0 ⊂ Θ und Θ1 ⊂ Θ

zwei disjunkte Teilmengen.

12.19 Definition:

Die AussageH0 : θ ∈ Θ0

nennen wir Hypothese und die AussageH1 : θ ∈ Θ1

nennen wir Alternative.

Beispiel 12.20:

In Beispiel 12.1 wareP =

N(µ, σ2

)︸ ︷︷ ︸

| µ ≥ 0, σ2 > 0

Page 160: Grundlagen der Stochastik

160 12 Schatzer und statistische Tests

das statistische Modell fur die moglichen Verteilungen der Befullung. Die Aussage”kein Betrug“ ent-

sprache dann der Hypothese

H0 : θ ∈ Θ0 :=(

µ, σ2)| µ = 1000, σ2 > 0

und die Aussage”Betrug“ entsprache der Alternative

H1 : θ ∈ Θ1 :=(

µ, σ2)| µ < 1000, σ2 > 0

.

12.21 Definition:

Das EntscheidungsproblemH0 : θ ∈ Θ0 gegen H1 : θ ∈ Θ1

heißt Testproblem.

12.22 Definition:

Ein Test ist eine Abbildungϕ : X // 0, 1 ,

wobei ϕ(x) = 1 bedeutet, dass die Hypothese verworfen wird und ϕ(x) = 0 bedeutet, dass die Hypothesenicht verworfen wird.

Die Mengex ∈ X | ϕ(x) = 1

heißt Verwerfungsbereich.

Bemerkung 12.23:

Als Hypothese sollte man stets die Annahme wahlen, deren Verwerfung die großeren Konsequenzen hat- wie vor Gericht die Unschuldsvermutung. Der Grund dafur ist, dass durch (statistische) Tests stets nurder Fehler erster Art (verwerfe die Hypothese, obwohl sie gilt) garantiert klein gehalten wird.

Beim Test eines neuen Prototypen wurde man als Hypothese also”das bisherige Produkt ist besser“

verwenden, da man im Fall des Verwerfens als Konsequenz die ganze Produktion umstellen muss.

12.24 Definition:

Sei ϕ ein Test. Wir definieren die Gutefunktion βϕ : Θ // [0, 1] von ϕ durch

βϕ (θ) := Pθ (ϕ(x) = 1) ,

d.h. als die Wahrscheinlichkeit, die Hypothese zu verwerfen.

Fur θ ∈ Θ0 ist βϕ(θ) dann die Wahrscheinlichkeit eines Fehlers erster Art (vergleiche Bemerkung12.23).

Das primare Ziel bei statistischen Tests ist es nun, den Fehler erster Art fur alle θ ∈ Θ0 zu kontrollieren!

12.25 Definition:

Sei ϕ ein Test. Wir nennen ϕ einen Test zum Niveau α ∈ [0, 1], wenn

supθ∈Θ0

βϕ(θ) ≤ α

ist, d.h. wenn fur alle θ ∈ Θ0 die Wahrscheinlichkeit eines Fehlers erster Art durch α beschrankt ist.

12.26 Definition:

Ist ϕ ein Test zum Niveau α = 120 = 0.05 und x ∈ X eine Stichprobe mit ϕ(x) = 1 (d.h. wenn wir aufgrund

dieser Stichprobe unsere Hypothese verwerfen), so sprechen wir von einem signifikanten Ergebnis.

Bei α = 1100 = 0.01 sprechen wir von einem hoch-signifikanten Ergebnis.

Wir wollen im folgenden zwei Arten von Tests fur Normalverteilungen besprechen.

Page 161: Grundlagen der Stochastik

12 Schatzer und statistische Tests 161

12.2.1 Der einseitige Gaußtest

Dieser Test wird durchgefuhrt, wenn die Varianz bekannt ist.

Beispiel 12.27:

Wissen wir also etwa in Beispiel 12.1, dass die Fullmaschine eine Standard-Abweichung von σ0 = 5 hat,so konnen wir den nun folgenden Gaußtest verwenden. Beachte, dass dann Θ = (µ, 25) | µ ≥ 0 ist undunsere Hypothese (

”kein Betrug“) genau µ = µ0 = 1000 entspricht. Die Alternative (

”Betrug“) ist dann

µ < µ0 = 1000.

Wir wollen nun in Abhangigkeit von

x =1

n

n∑

i=1

xi

entscheiden. Als Verwerfungsbereich wollen wir beim Gaußtest ein Intervall

(−∞, z)

mit einem noch zu bestimmenden z wahlen, d.h. es soll ϕ(x) = 1 sein genau dann, wenn x < z gilt.

Wir werden hier jetzt beispielhaft an unserem Fullmengenbeispiel z so bestimmen, dass der zugehorigeTest das Niveau 0.05 hat.

Seien X1, ...,Xn die zufalligen Meßwerte und sei wie immer

X =1

n

n∑

i=1

Xi.

Es ist z so zu bestimmen, dass unter der Hypothese µ = µ0 gilt:

Pµ0

(X < z

)≤ 0.05.

Unter der Hypothese µ = µ0 gilt Xi ∼ N(µ0, σ

20

), d.h. mit Satz 10.77 und Beispiel 10.35 folgt, dass

X − µ0σ0√

n

∼ N (0, 1) .

Damit haben wir

Pµ0

(X < z

)= Pµ0

(X − µ0

σ0√n︸ ︷︷ ︸

∼N (0,1)

<z − µ0

σ0√n︸ ︷︷ ︸

=:y

)!≤ 0.05.

Wir mussen also ein y finden, s.d.Φ(y) = 0.05

fur die Verteilungsfunktion Φ der Standardnormalverteilung N (0, 1) ist. Das ist genau dann der Fall,wenn Φ(−y) = 0.95 gilt. Unter Verwendung der Tabelle (Anhang A) interpolieren wir so

−y = 1.645,

womitz = µ0 +

σ0√n· (−1.645)

ist.

Beispiel 12.28:

In Beispiel 12.1 ware dementsprechend

z = µ0 +σ0√n· (−1.645) = 1000− 1.645

5√6≈ 996.64.

Wegen x = 996.5 wurden wir also verwerfen und dabei mit weniger als 5% einen Fehler erster Ordnungmachen!

Page 162: Grundlagen der Stochastik

162 12 Schatzer und statistische Tests

12.2.2 Der t-Test

Oft ist die Varianz allerdings nicht bekannt. In diesem Fall kann man diesen Test nutzen.

In unserem Beispiel 12.1 wollen wir hier also

H0 : θ ∈ Θ0 =(

µ, σ2)| µ = µ0 = 1000, σ2 > 0

gegenH1 : θ ∈ Θ1 =

(µ, σ2

)| µ < µ0 = 1000, σ2 > 0

testen.

Als”Testgroße“ kann man jetzt nicht

X − µ0σ0√

n

nutzen, da man σ0 nicht kennt. Die Losung fur dieses Problem ist denkbar einfach: Man schatzt σ0 uber

S =√

S2 =

√√√√ 1

n− 1

n∑

i=1

(Xi − X

)2,

wobei S die Stichprobenvarianz aus Lemma 12.17 ist. Beachte, dass S2 wie dort gezeigt ein erwartungs-treuer Schatzer fur σ0 ist!

Nach dieser Schatzung nutzt man dann

P(X < z

)= P

(X − µ0

S√n︸ ︷︷ ︸

=Y

<z − µ0

S√n

),

und man kann zeigen, dass Y ∼ tn−1 gilt. Die Verteilung tn−1 ist dabei unabhangig von σ2, d.h. von derwahren Varianz. Die Dichte zu tn−1 sieht der Dichte von N (0, 1) sehr ahnlich und in gewissem Sinne gilt

tn−1n // ∞ // N (0, 1). Die Verteilungsfunktion Ftn−1

der Verteilung tn−1 ist ebenso wie Φ tabelliert.

Jetzt kann man genauso wie beim Gaußtest vorgehen und entsprechend ein y mit Ftn−1(−y) = 0.95

suchen.

Beispiel 12.29:

In Beispiel 12.1 betrachten wir n = 6, also t5. Es folgt aus der Tabelle y = −2.015 und damit

z = µ0 +S√n· (−2.015) = 1000− 2.015 · 5.3572√

6≈ 995.593.

In diesem Fall wurden wir die Hypothese also nicht verwerfen, um ein Niveau von 0.05 zu halten!

Page 163: Grundlagen der Stochastik

A Tabelle der Standardnormalverteilung 163

A Tabelle der Standardnormalverteilung

Wir wollen hier eine Tabelle zum Nachschlagen der Verteilungsfunktion

Φ(x) =

x∫

−∞

1√2π

exp

(− t2

2

)dt

der Standard-Normalverteilung geben. Da

Φ (−x) = 1− Φ(x) , x ≥ 0,

sind nur positive Werte angegeben:

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.00 0.500000 0.503989 0.507978 0.511967 0.515953 0.519939 0.523922 0.527903 0.531881 0.535856

0.10 0.539828 0.543795 0.547758 0.551717 0.555670 0.559618 0.563559 0.567495 0.571424 0.575345

0.20 0.579260 0.583166 0.587064 0.590954 0.594835 0.598706 0.602568 0.606420 0.610261 0.614092

0.30 0.617911 0.621719 0.625516 0.629300 0.633072 0.636831 0.640576 0.644309 0.648027 0.651732

0.40 0.655422 0.659097 0.662757 0.666402 0.670031 0.673645 0.677242 0.680822 0.684386 0.687933

0.50 0.691462 0.694974 0.698468 0.701944 0.705402 0.708840 0.712260 0.715661 0.719043 0.722405

0.60 0.725747 0.729069 0.732371 0.735653 0.738914 0.742154 0.745373 0.748571 0.751748 0.754903

0.70 0.758036 0.761148 0.764238 0.767305 0.770350 0.773373 0.776373 0.779350 0.782305 0.785236

0.80 0.788145 0.791030 0.793892 0.796731 0.799546 0.802338 0.805106 0.807850 0.810570 0.813267

0.90 0.815940 0.818589 0.821214 0.823814 0.826391 0.828944 0.831472 0.833977 0.836457 0.838913

1.00 0.841345 0.844752 0.846136 0.848495 0.850830 0.853141 0.855428 0.857690 0.859929 0.862143

1.10 0.864334 0.866500 0.868643 0.870762 0.872857 0.874928 0.876976 0.878999 0.881000 0.882977

1.20 0.884930 0.886860 0.888767 0.890651 0.892512 0.894350 0.896165 0.897958 0.899727 0.901475

1.30 0.903199 0.904902 0.906582 0.908241 0.909877 0.911492 0.913085 0.914656 0.916207 0.917736

1.40 0.919243 0.920730 0.922196 0.923641 0.925066 0.926471 0.927855 0.929219 0.930563 0.931888

1.50 0.933193 0.934478 0.935744 0.936992 0.938220 0.939429 0.940620 0.941792 0.942947 0.944083

1.60 0.945201 0.946301 0.947384 0.948449 0.949497 0.950529 0.951543 0.952540 0.953521 0.954486

1.70 0.955435 0.956367 0.957284 0.958185 0.959071 0.959941 0.960796 0.961636 0.962463 0.963273

1.80 0.964070 0.964852 0.965621 0.966375 0.967116 0.967843 0.968557 0.969258 0.969946 0.970621

1.90 0.971284 0.971933 0.972571 0.973197 0.973810 0.974412 0.975002 0.975581 0.976148 0.976705

2.00 0.977250 0.977784 0.978308 0.978822 0.979325 0.979818 0.980301 0.980774 0.981237 0.981691

2.10 0.982136 0.982571 0.982997 0.983414 0.983823 0.984222 0.984614 0.984997 0.985371 0.985738

2.20 0.986097 0.986447 0.986791 0.987126 0.987455 0.987776 0.988089 0.988396 0.988696 0.988989

2.30 0.989276 0.989556 0.989830 0.990097 0.990358 0.990613 0.990863 0.991106 0.991344 0.991567

2.40 0.991802 0.992024 0.992240 0.992451 0.992656 0.992857 0.993053 0.993244 0.993431 0.993613

2.50 0.993790 0.993963 0.994132 0.994297 0.994457 0.994614 0.994766 0.994915 0.995060 0.995201

2.60 0.995339 0.995473 0.995603 0.995731 0.995855 0.995975 0.996093 0.996207 0.996319 0.996427

2.70 0.996533 0.996636 0.996736 0.996833 0.996928 0.997020 0.997110 0.997197 0.997282 0.997365

2.80 0.997445 0.997523 0.997599 0.997673 0.997744 0.997814 0.997882 0.997948 0.998012 0.998074

2.90 0.998134 0.998193 0.998250 0.998305 0.998359 0.998411 0.998462 0.998511 0.998559 0.998605

3.00 0.998650 0.998694 0.998736 0.998777 0.998817 0.998856 0.998893 0.998930 0.998965 0.998999

3.10 0.999032 0.999064 0.999096 0.999126 0.999155 0.999184 0.999211 0.999238 0.999264 0.999289

3.20 0.999313 0.999336 0.999359 0.999381 0.999402 0.999423 0.999443 0.999462 0.999481 0.999499

3.30 0.999517 0.999533 0.999550 0.999566 0.999581 0.999596 0.999610 0.999624 0.999638 0.999650

3.40 0.999663 0.999675 0.999687 0.999698 0.999709 0.999720 0.999730 0.999740 0.999749 0.999758

3.50 0.999767 0.999776 0.999784 0.999792 0.999800 0.999807 0.999815 0.999821 0.999828 0.999835

3.60 0.999841 0.999847 0.999853 0.999858 0.999864 0.999869 0.999874 0.999879 0.999883 0.999888

3.70 0.999802 0.999896 0.999900 0.999904 0.999908 0.999912 0.999915 0.999918 0.999922 0.999925

3.80 0.999928 0.999930 0.999933 0.999936 0.999938 0.999941 0.999943 0.999946 0.999948 0.999950

3.90 0.999952 0.999954 0.999956 0.999958 0.999959 0.999961 0.999963 0.999964 0.999966 0.999967

Dabei ist der Eintrag in der Zelle (i, j) genau Φ (i + j). Hier nochmal der Graph:

b b b b b b bb b b b b b bb b b b b b bb b b b b b bb b b b b b bb b b b b b b b

b b b b b b b bb b b b b b b b

b b b b b b b b bb b b b b b b b b

b b b b b b b b b bb b b b b b b b b b b

b b b b b b b b b b b bb b b b b b b b b b b b b b

b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b

b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b

b b b b b b b b b b b bb b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b b

bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb bbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbbb

0.20.40.60.8

0 0.4 0.8 1.2 1.6 2.0 2.4 2.8 3.2 3.6 4.0−0.4−0.8−1.2−1.6−2.0−2.4−2.8−3.2−3.6−4.0

Abbildung 24: Die Verteilungsfunktion Φ der Standardnormalverteilung.

Page 164: Grundlagen der Stochastik

164B

Ken

ngroßen

der

wich

tigstenV

erteilungen

B Kenngroßen der wichtigsten Verteilungen

B.1 Diskrete Verteilungen

Verteilung Parameter Bezeichnung X (Ω) P (X = k) fur k ∈ X (Ω) Erwartungswert Varianz

Laplace N ∈ N 1, ..., N 1N

N+12

N2−112

Benoulli p ∈ [0, 1] B (1, p) 0, 1 pk (1− p)1−k

p p (1− p)

Binomial p ∈ [0, 1], n ∈ N B (n, p) 1, ..., n(nk

)pk (1− p)

n−kn · p n · p · (1− p)

Hypergeometrisch N,R ∈ N, N ≥ R, n ∈ N 0, ..., n (Rk)(

N−Rn−k )

(Nn)

n RN

n RN

(N−R)N

N−nN−1

Poisson λ > 0 Poi (λ) N0 exp (−λ) λk

k! λ λ

Geometrisch p ∈ [0, 1] Geo (p) N p · (1− p)k−1 1

p1−pp2

Negativ-Binomial p ∈ [0, 1], r ∈ N N0

(r+k−1

k

)pr (1− p)

kr · 1−p

pr 1−p

p2

Page 165: Grundlagen der Stochastik

BK

enngroßen

der

wich

tigstenV

erteilungen

165

B.2 Stetige Verteilungen

Verteilung Parameter Bezeichnung Wahrscheinlichkeitsdichte Erwartungswert Varianz

Gleichverteilung a < b U (a, b) f(t) = 1b−a

1[a,b](t)b+a2

(b−a)2

12

Normalverteilung µ ∈ R, σ > 0 N(µ, σ2

)f(t) = 1√

2πσ2exp

(− (t−µ)2

2σ2

)µ σ

Exponentialverteilung λ > 0 Exp (λ) f(t) = λ exp (−λt) 1(0,∞)(t)1λ

1λ2

Gammaverteilung r, λ ∈ (0,∞) Gamma (r, λ) f(t) = λr

Γ(r) tr−1 exp (−λt) 1(0,∞)(t)

rλ2

Chi-Quadrat-Verteilung n ∈ N χ2n = Gamma

(n2 , 1

2

)f(t) = 2− n

2

Γ(n2 )

tn2 −1 exp

(− t

2

)1(0,∞)(t) n 2n

Paretoverteilung α ∈ (0,∞) Pareto(α) f(t) = α

(t+1)α+1 1(0,∞)(t)

∞ falls α ≤ 1

1α−1 falls α > 1

α

α−2 − α2

(α−1)2falls α > 2

∞ falls α ≤ 2

Cauchyverteilung f(t) := 1π(1+t2) existiert nicht existiert nicht

Page 166: Grundlagen der Stochastik

166 Stichwortverzeichnis

Stichwortverzeichnis

σ-Algebra, 100, 102, 114Borel’sche, 102, 114triviale, 100

3-Turen-Problem, 52

Abbildungmeßbare, 101

BayesFormel von, 36

bedingte Erwartung, 82Bernoulli

-Experiment, 45Bernstein

Ungleichung, 74Binomialkoeffizient, 24Binomialverteilung, siehe VerteilungBlockungslemma, 54, 119Borel’sche σ-Algebra, 102, 114

Cauchyverteilung, siehe VerteilungChernov

Ungleichung, 76Chi-Quadrat-Verteilung, siehe Verteilung

de Moivre-LaplaceGrenzwertsatz von, 96

de Morgan’sche Regeln, 9Dichte, 104, 115

der Standardnormalverteilung, 96gemeinsame, 115Produktdichte, 115Transformationsformel, 109

Ereignis, 7bedingte Wahrscheinlichkeit, 33sicheres, 7Unabhangigkeit, 31, 32unmogliches, 7Verknupfungen, 7

Ergebnis, 7Erwartungswert, 60

bedingter, 82eines Zufallsvektors, 122Jensen’sche Ungleichung, 126Linearitat, 63, 117Produktformel, 64Trafoformel, siehe Transformationsformel

Experimentn-stufiges, 39

Exponentialverteilung, siehe Verteilung

Fachermodell, 22Faltung, 120Formel

Mulitplikationsformel, 34von Bayes, 36von der totalen Wahrscheinlichkeit, 36

Funktionerzeugende, 87

Gamma-, 108rechtstetig, 102

Galton-Watson-Prozess, 92Gammaverteilung, siehe VerteilungGaußsche Glockenkurve, 96geometrische Verteilung, siehe VerteilungGleichverteilung, siehe Verteilung

diskrete, 11Graph

Pfad, 134Gewicht, 135Lange, 135

Weg, 134Grundraum

diskreter, 7

HoeffdingUngleichung, 76

Indikatorvariable, 50

Korellationskoeffizient, 85Korrelation

negative, 86positive, 86

Kovarianzeines Zufallsvektors, 123

Laplace-Raum, 11Laplace-Verteilung, 11

Markov-Kette, 139Ubergangsgraph, 134

irreduzibel, 135Ubergangsmatrix, 133

aperiodisch, 137irreduzibel, 135Periode, 137

in i gestartete, 146Konvergenzssatz, 141Markov-Eigenschaft, 139Ruckkehrzeit, 146Ruckkehrzeitensatz, 147Satz von der invarianten Verteilung, 145Satz von der positiven Rekurrenz, 147starkes Gesetz, 149Startverteilung, 139stochastische Matrix, 133Verteilung

invariante, 141Zustand

Periode, 136Zustandsmenge, 133

Markov-Ungleichung, 72Menge

Komplement, 9Multinomialkoeffizient, 25Multinomialverteilung, siehe Verteilung

negative Binomialverteilung, siehe Verteilung

Page 167: Grundlagen der Stochastik

Stichwortverzeichnis 167

Normalapproximation, 98Normalverteilung, siehe Verteilung

Paretoverteilung, siehe VerteilungPolya’sches Urnenmodell, 39

relative Haufigkeit, 8

SatzAbel’scher Grenzwertsatz, 88Binomischer Lehrsatz, 24Grenzwertsatz von de Moivre-Laplace, 96Konvergenzsatz fur Markov-Ketten, 141Poisson-Grenzwert, 59Ruckkehrzeitensatz, 147von der invarianten Verteilung, 145von der iterierten Erwartung, 82von der positiven Rekurrenz, 147Zentraler Grenzwertsatz, 127

Fehlerabschatzung nach Berry-Esseen, 131Schatzer, 154

erwartungstreuer, 156ML-, 155

Schatzung, 154Schwaches Gesetz großer Zahlen, 73Siebformel, 15

Bonferroni-Ungleichungen, 19von Poincare-Sylvester, 15

Simpson-Paradoxon, 37Spiegelungsprinzip, 29Stichprobe

Stichprobenvarianz, 158Stichprobenraum, 154Stimmzettelproblem, 28System

dynamisches, 93Grenzwert, 93

Test, 160t-, 162Alternative, 159Fehler erster Art, 160Gutefunktion, 160Gauß-, 161hoch-signifikantes Ergebnis, 160Hypothese, 159signifikantes Ergebnis, 160Testproblem, 160Verwerfungsbereich, 160zum Niveau α, 160

Transformationsformel, 62, 112, 116Tschebyschow-Ungleichung, 72

UngleichungBernstein-, 74Bonferroni, 19Boole’sche, 10, 20Chernov-, 76Hoeffding-, 76Markov, 72SGGZ, siehe Schwaches Gesetz großer ZahlenTschebyschow, 72

Urnenmodell, 22

Varianz, 65, 113empirische, 159Rechenregeln, 66Stichprobenvarianz, 158

Verteilung, 100k-dimensionale Randverteilung, 51n-dimensionale Normalverteilung, 122n-dimensionale Std.-Normalverteilung, 122a-posteriori, 42a-priori, 42austauschbare, 40bedingte, 80Binomialverteilung, 27Cauchy-, 108Chi-Quadrat, 108einer Zufallsvariable, 48Exponential-, 106

Gedachtnislosigkeit, 107Faltung, 77Gamma-, 108gemeinsame, 50geometrische, 46Gleichverteilung, 105hypergeometrische, 27Marginalverteilung, 51Multinomialverteilung, 45negative Binomialverteilung, 47Normalverteilung, 106

ausgeartete, 124nicht ausgeartete, 124

Pareto-, 107Produktverteilung, 115Standard-Normalverteilung, 96, 106stetige, 104

Verteilungsfunktion, 102Standardnormalverteilung, 96

Verzweigungsprozess, 92Aussterbewahrscheinlichkeit, 92

Vitali-Menge, 101Vorhersager

linearer, 86

Wahrscheinlichkeitbedingte, 33

Multiplikationsformel, 34Wahrscheinlichkeitsfunktion, 13

bedingte, 80Wahrscheinlichkeitsraum, 100

diskreter, 8Laplace-Raum, 11Produkt, 43

Wahrscheinlichkeitsverteilung, 100Wald’sche Identitat, 83, 91

Ziegenproblem, 52zufallige Summe

erzeugende Funktion, 90Zufallsexperiment, 6Zufallsvariabel

standardisierte, 95Zufallsvariable, 48, 101

j-tes faktorielles Moment, 88

Page 168: Grundlagen der Stochastik

168 Stichwortverzeichnis

k-tes Moment, 113k-tes zentrales Moment, 66bedingte Erwartung, siehe bedingte ErwartungBernoulli-verteilte, 56Binomial-verteilte, 56

Poisson-Approximation, 59drittes zentrales Moment, 127Erwartungswert, siehe ErwartungswertFunktion von Zufallsvariablen, 53gemeinsame Dichte, 115geometrisch verteilte, 57

Gedachtnislosigkeit, 57gleichverteilte, 56Kovarianz, 66Laplace-verteilte, 56Poisson-verteilte, 58reelle, 102Standardabweichung, 65stetig verteilte, 105

Erwartungswert, 111Unabhangigkeit, 51, 83, 117unkorreliert, 69, 119Varianz, siehe VarianzVerteilung, 48, 101

bedingte, 80Faltung, 77

Wahrscheinlichkeitsfunktionbedingte, 80