Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung...

160
Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig SS 2007 Dr. Lothar Schüler Institut für Mathematische Stochastik Technische Universität Braunschweig Pockelsstr. 14 * 38106 Braunschweig Tel. 0531-391-7569 (7567) * Telefax 391-7564 EMAIL: [email protected] Homepages: http://www.math.tu-bs.de/stochastik/schueler.htm http://www.math.tu-bs.de/stochastik/vorl/EinSt.htm

Transcript of Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung...

Page 1: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Einführung in die Stochastik

für Studierende der Informatik im Bachelorstudiengang

TU Braunschweig

SS 2007

Dr. Lothar Schüler

Institut für Mathematische StochastikTechnische Universität BraunschweigPockelsstr. 14 * 38106 BraunschweigTel. 0531-391-7569 (7567) * Telefax 391-7564

EMAIL: [email protected]

Homepages:

http://www.math.tu-bs.de/stochastik/schueler.htmhttp://www.math.tu-bs.de/stochastik/vorl/EinSt.htm

Page 2: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

II

Page 3: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Inhaltsverzeichnis

1 Einführung 1

1.1 Modellbildung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.2 Historische Entwicklung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

1.3 Der Begriff der Wahrscheinlichkeit . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.4 Literatur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2 Kombinatorische Grundaufgaben 11

3 Diskrete Wahrscheinlichkeitsräume 15

3.1 Der Laplace – Raum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.2 Urnenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.3 Besetzungsmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

4 Bedingte Wahrscheinlichkeiten 31

5 Zufallsvariable 45

5.1 Definition und Beispiele . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

5.2 Erwartungswerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.3 Höhere Momente und erzeugende Funktionen . . . . . . . . . . . . . . . . . . . . 60

5.4 Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . 66

III

Page 4: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

IV INHALTSVERZEICHNIS

5.5 Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

6 Approximationen der Binomialverteilung 75

6.1 Die Poisson – Verteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

6.2 Die Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

7 Stetige Zufallsvariable 87

7.1 Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . . . 88

7.2 Verteilungsfunktionen und Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . 93

7.3 Momente . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

7.4 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

8 Multivariate Zufallsvariable 113

8.1 Multivariate Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

8.2 Bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120

8.3 Funktionen und Momente von Zufallsvektoren . . . . . . . . . . . . . . . . . . . . 124

A Übungsaufgaben 135

A.1 Kombinatorik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

A.2 Diskrete Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . . . . 136

A.3 Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . . . . . . . . . . . . . . . . . 147

A.4 Multivariate Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

Page 5: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Abbildungsverzeichnis

1.1 Messung der Breite eines Flusses . . . . . . . . . . . . . . . . . . . . . . . . . . . 2

3.1 Zustand in der Bose–Einstein–Statistik . . . . . . . . . . . . . . . . . . . . . . . . 29

4.1 übergangsdiagramm für ein Münzwurfspiel . . . . . . . . . . . . . . . . . . . . . . 43

6.1 Wahrscheinlichkeitsverteilung einer Binomialverteilung . . . . . . . . . . . . . . . 82

6.2 Wahrscheinlichkeitsverteilung einer standardisierten Binomialverteilung . . . . . . 84

6.3 Gaußsche Glockenkurve . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

7.1 Verteilungsfunktion einer diskreten Zufallsvariablen . . . . . . . . . . . . . . . . . 94

7.2 Verteilungsfunktion einer stetigen Zufallsvariablen . . . . . . . . . . . . . . . . . . 95

7.3 Wahrscheinlichkeit für ein Intervall . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.4 Dichte der Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96

7.5 Dichte und Verteilungsfunktion der Gleichverteilung . . . . . . . . . . . . . . . . 100

7.6 Verteilungsfunktion von Lebensdauern . . . . . . . . . . . . . . . . . . . . . . . . 101

7.7 Verteilungsfunktion und Dichte der Exponentialverteilung . . . . . . . . . . . . . 105

7.8 Ausfallzeitpunkte eines technischen Systems . . . . . . . . . . . . . . . . . . . . . 105

8.1 Dichte der bivariaten Normalverteilung . . . . . . . . . . . . . . . . . . . . . . . . 117

Page 6: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

VI ABBILDUNGSVERZEICHNIS

Page 7: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Tabellenverzeichnis

3.1 Augensummen beim Würfeln mit zwei Würfeln . . . . . . . . . . . . . . . . . . . 22

3.2 Wahrscheinlichkeiten für k Richtige beim Lotto . . . . . . . . . . . . . . . . . . . 26

5.1 Mittlere Anzahl der Vergleiche in QUICKSORT . . . . . . . . . . . . . . . . . . . 59

7.1 Verteilungsfunktion Φ(x) der Standardnormalverteilung . . . . . . . . . . . . . . 97

8.1 Kontingenztafel eines bivariaten Zufallsvektors . . . . . . . . . . . . . . . . . . . 118

Page 8: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

VIII TABELLENVERZEICHNIS

Page 9: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 1

Einführung

In der Stochastik beschäftigt man sich mit der Mathematik des Zufalls, d.h. man versucht einmathematisches Kalkül zu entwickeln, das es gestattet, ”zufällige Phänomene” zumindestens alsMassenerscheinungen zahlenmäßig zu beschreiben. Dabei wird die Stochastik üblicherweise grobin die beiden Teilgebiete

• Wahrscheinlichkeitstheorie:Mathematische Modelle und deren Beziehungen zueinander, und

• Statistik:Anpassung der Modelle an die Realität,

aufgegliedert.

Hier werden wir uns nur mit den Methoden der Wahrscheinlichkeitstheorie beschäftigen. Dabeiwerden so weit möglich Begriffsbildungen vermieden, die maßtheoretische Überlegungen erfor-dern.

1.1 Modellbildung

Methoden der Stochastik finden heute in vielen Bereichen Anwendung, wie etwa in der Informatik(Analyse von Algorithmen, Informationstheorie, Warteschlangen, stochastische Betriebssysteme,. . . ), in den Ingenieurwissenschaften und der Betriebswirtschaft (Statistik, Entscheidungstheorie,Qualitätskontrolle, . . . ) oder in der Medizin (Statistik, Signal– und Bildverarbeitung).

Zugrunde liegt diesen Modellen immer die Wahrscheinlichkeitstheorie. Sie ist ein formales Mo-dell eines bestimmten Ausschnitts der Wirklichkeit. Derartige Modelle werden durch Abstraktionbestimmter Aspekte eines meist fachwissenschaftlich aufbereiteten Sachverhalts der Realität ge-wonnen. Im mathematischen Modell müssen logische Schlüsse gezogen werden, die ggfls. unter

1

Page 10: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

2 KAPITEL 1. EINFÜHRUNG

Ausnutzung zusätzlich aus der Realität gewonnener Daten Aussagen in diesem Modell ermögli-chen. Diese Aussagen müssen dann wieder in der Realität interpretiert werden.

Manche klassische mathematischen Modelle (z. B. natürliche Zahlen) sind uns so vertraut, dassman den Unterschied zwischen Modell und Wirklichkeit kaum noch erfährt.

Natürliche Zahlen bilden das ”natürliche” Modell, wenn es um Anzahlen geht. Interessieren da-gegen Fragen wie ”Länge”, ”Abstand”, etc., wird man meist die euklidische Geometrie benutzen,die wohl historisch aus der Landvermessung (Nilüberflutungen in Ägypten) entstanden ist. DieRolle des mathematischen Modells kann man z.B. bei der Messung der Breite eines Flusses infolgende 4 Schritte unterteilt denken:

Abbildung 1.1: Messung der Breite eines Flusses

6

?

b

α

-a

1. Abgrenzung und Präzisierung der Fragestellung durch Begriffe und Methoden der jeweili-gen ”Fachwissenschaft”.Hier: Mit Methoden der Landvermessung wird festgelegt, was ”Breite des Flusses” bedeu-tet, welche Genauigkeit benötigt wird und vieles andere mehr.Mit geeigneten fachwissenschaftlichen Methoden werden Daten ermittelt.Hier: Messen des Winkels α und der Entfernung a.

2. Als Mathematisches Modell kommt die analytische Geometrie der Ebene in Frage. Mit denBegriffen ”Strecke”, ”Winkel” usw. kann eine rein mathematische Beschreibung der obigenSituation gebildet werden. In dieser Beschreibung kommen die fachspezifischen Ausdrückewie ”Fluss” oder ”Ufer” nicht mehr vor.

3. Die analytische Geometrie liefert nun den mathematischen Schluss b = a · tan α. DieserAussage kommt im Rahmen des gewählten mathematischen Modells (Axiome der analyti-schen Geometrie der Ebene) absolute mathematische Gültigkeit zu.

4. Zur Anwendung der mathematischen Theorie ist eine ”Rückinterpretation” der mathema-tischen Aussagen in die Realität notwendig.Hier: Die Breite des Flusses beträgt tan(Messwert α) × Messwert a.

Bei der Rückinterpretation muss man beachten, dass nur diejenigen Tatsachen berücksichtigt wer-den können, die zuvor in das gewählte mathematische Modell einbezogen worden sind. So bleiben

Page 11: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

1.1. MODELLBILDUNG 3

hier Änderungen des Wasserstandes oder bei großen Flüssen die Kugelgestalt der Erde unberück-sichtigt. Deshalb kann die Gültigkeit eines mathematischen Schlusses stark eingeschränkt sein.

Bei der Wahl des mathematischen Modelles kommt es daher darauf an, die für den Sachverhalt”wichtigen” Aspekte herauszufiltern und auf mathematische Objekte abzubilden.

Generell ist ein Modell zur Erklärung eines empirischen Sachverhalts soweit geeignet, wie dieModellaussagen bei ihrer Rückinterpretation ein sinnvolles Handeln in der Realität ermöglichen.Daher ist es eine wichtige Aufgabe eines verantwortungsbewussten Informatikers, sich mit derEignung bzw. den Grenzen der Anwendbarkeit formaler Modelle kritisch auseinanderzusetzen.

Welche ”Ausschnitte” aus der Realität können mit Hilfe der Wahrscheinlichkeitstheorie (WT)modelliert werden?

Es sind Situationen, in denen Aussagen über Ereignisse verlangt werden, über deren Eintrittkeine Gewissheit besteht. Dabei kann die ”Ungewissheit” auf Faktoren beruhen, die die Situationbeeinflussen, über die aber keine (vollständige) Information vorliegt. Dafür sind verschiedeneUrsachen denkbar:

• nicht alle Faktoren sind bekannt, u.U. gibt es keine vollständige fachwissenschaftliche Er-klärung des beobachteten Phänomens wie bei vielen biologischen und medizinischen Vor-gängen;

• Messungen stoßen an prinzipielle Grenzen (physikalische, ethische, gesetzliche, . . . );

• Aufwand und Kosten sind zu hoch.

Derartige Situationen wollen wir als ”zufallsabhängig” oder kurz als Zufallsexperiment be-zeichnen.

Dabei kann die Wahrscheinlichkeitstheorie keine neuen Informationen über ungewisse Sachver-halte ”erfinden”. Sie kann nur bereits vorliegende Informationen verdichten und umformen. DieUngewissheit kann dadurch gemildert aber nicht beseitigt werden. Auch wenn wir wissen, dassdie Chance beim Würfeln keine Sechs zu würfeln fünfmal so hoch ist, wie die Chance eine Sechszu würfeln, bleibt die Ungewissheit, welche Augenzahl sich beim nächsten Würfeln ergibt.

Sinnvolle Aussagen dieser Art sind meist dann erzielbar, wenn es sich nicht um einmalige Er-eignisse, sondern um ”Massenphänomene” handelt, wenn wir also eine Reihe von vergleichbarenSituationen betrachten können.Als Ausgangspunkt für mathematische Schlüsse wird das beobachtete Auftreten der Ereignis-se in der Vergangenheit benutzt. Daraus wird typischerweise auf das Auftreten in der Zukunftgeschlossen, zumindest auf das Auftreten in einer langen Reihe von gleichartigen zukünftigenSituationen.

Page 12: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

4 KAPITEL 1. EINFÜHRUNG

So meint die obige Aussage zur Chance, eine Sechs zu würfeln, dass in einer sehr langen Reihe vonWürfen das Ereignis ”Augenzahl ≤ 5” etwa fünfmal häufiger eintritt wie das Ereignis ”Augenzahl= 6”. Gewonnen wird diese Aussage aus einer in diesem Fall offensichtlichen Übertragung derBeobachtung, dass alle Augenzahlen etwa gleichhäufig auftreten, auf zukünftige Würfelergebnis-se.

Man kann also gewisse ”stabile” Beobachtungen (hier: relative Häufigkeiten) machen und darausGesetzmäßigkeiten ableiten, die sich in einer großer Zahl von einzelnen, nicht vorhersehbarenZufallsexperimenten ”im Mittel durchsetzen”.

Im allgemeinen werden nicht alle Umstände bei der Wiederholung eines Zufallsexperiments gleichsein. Mehrfaches Werfen eines Würfels wird man beispielsweise gut als Wiederholung einesExperiments ansehen können; verschiedene Spielergebnisse einer Fußballmannschaft jedoch nurnäherungsweise. Trotzdem gewinnt man auch bei Betrachtung solcher nicht–identischer Wieder-holung eine gewisse Information, die zur Grundlage von Handeln unter Unsicherheit gemachtwerden kann; z.B. bei Fußballwetten.

Beobachtete relative Häufigkeiten von Ereignissen werden wir zur empirischen Grundlage dersog. mathematischen Wahrscheinlichkeit machen (Häufigkeitsinterpretation).

Ein große Schwierigkeit bei der Aufstellung eines stochastischen Modells (etwa im Unterschied zueinem geometrischen Modell) besteht darin, dass die zu modellierenden Sachverhalte nicht immer”mit bloßem Auge” erkennbar sind, sondern eine genaue (fachwissenschaftliche) Analyse (z.B. derAbhängigkeit verschiedenen Ereignisse voneinander) erfordert. So kann es für eine empirischeSituation verschiedene Modelle geben, bei denen jeweils unterschiedliche Aspekte der realenSituation berücksichtigt sind. Größen wie die relative Häufigkeit werden in der Praxis seltenbewusst (wie bei Gewinnchancen in einen Spiel) eingesetzt, obwohl ihre unbewusste Anwendung(z. B. beim Autofahren) eine große Rolle spielt. Für das richtige Verständnis der mathematischenTheorie ist daher die Unterscheidung zwischen Realität und Modell besonders wichtig.

Im folgenden werden wir als mathematisches Modell für die Ergebnisse eines Zufallsexperimentsund seine relativen Häufigkeiten den sog. Wahrscheinlichkeitsraum entwickeln. Sind dabeiüberabzählbar viele Ergebnisse möglich (z.B. bei der Beobachtung zufallsbedingter Zeitdauern,modelliert als reelle Zahlen), so ist ein größerer mathematischer Aufwand erforderlich (z.B. Inte-grale statt Summen). Daher beschränken wir uns zunächst auf Modelle für Zufallsexperimente,die nur abzählbar oder sogar endlich viele Ausgänge haben können. Die darin abgeleiteten Begriffeund Aussagen werden wir dann mit meist nur geringen Modifikationen auf den überabzählbarenFall übertragen.

1.2 Historische Entwicklung

In ihrer Entwicklungsgeschichte hat die Wahrscheinlichkeitstheorie immer weitere Anwendungs-gebiete gefunden, deren spezifische Fragestellungen zu einem weiteren Ausbau dieser Theoriegeführt haben. Auch durch die Informatik entstehen immer wieder neue Anwendungsgebiete für

Page 13: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

1.2. HISTORISCHE ENTWICKLUNG 5

diese Theorie.

Zum Verständnis der Grundbegriffe der Wahrscheinlichkeitstheorie ist es nützlich, zunächst zumhistorisch ältesten Anwendungsbereich, der lange auch der einzige war, zurückzukehren, nämlichdem Glücksspiel.

Schon im 16. Jahrhundert begann man sich für die ”Gesetzmäßigkeiten von zufälligen Ereignis-sen” zu interessieren, wie das ”Liber de ludo alae” des italienischen Mathematikers GeronimoCardano (1501–1576) zeigt, wo Probleme beim Werfen mit 3 Würfeln behandelt werden. AmTyp der Fragestellung erkennt man, dass die Wahrscheinlichkeitstheorie zu dieser Zeit noch imwesentlichen mit der Kombinatorik zusammenfällt. Zu erwähnen ist in diesem Zusammenhangnoch Jakob I. Bernoulli (1654–1704), auf den das Gesetz der großen Zahlen zurückgeht (vergl.Kapitel 5). Grundlegend sind auch die Arbeiten des französischen Mathematikers Abraham deMoivre (1667–1754), der als erster einen Spezialfall des sog. zentralen Grenzwertsatzes (vergl.Kapitel 7) bewies und dessen Buch ”the doctrine of chances” (1718) großen Einfluss auf dieEntwicklung der Wahrscheinlichkeitstheorie hatte.

Mit den Fortschritten in der Grundlegung der Analysis sowie mit erweiterten Anwendungsmög-lichkeiten, besonders in der Wirtschaft und der Physik, damals auch im juristischen Bereich,entwickelte sich die Wahrscheinlichkeitstheorie mehr und mehr zu einer ernst zunehmenden ma-thematischen Theorie. Besonders beeinflusst wurde diese Theorie im 18. und beginnenden 19.Jahrhundert von Piere Simone Laplace (1749–1829), der als erster eine analytische Darstel-lung der Wahrscheinlichkeitstheorie vorstellte, in der u.a. die folgende Definition des BegriffesWahrscheinlichkeit benutzt wurde:

Die gesuchte Wahrscheinlichkeit eines Ereignisses finden wir durch Zurückführen allerEreignisse derselben Art auf eine gewisse Anzahl gleichmöglicher Fälle, d.h. solcher,über deren Existenz wir in gleicher Weise unschlüssig sind, und durch Bestimmungder dem Ereignis günstigen Fälle.

Im Vergleich zu unserem heutigen Verständnis von Wahrscheinlichkeit ist diese Definition sehreingeschränkt und basiert noch stark auf der kombinatorischen Methode zur Bestimmung derWahrscheinlichkeit für ein Ereignis A durch den Quotienten

P (A) =Anzahl der für A günstigen Fälle

Anzahl der möglichen Fälle.

Von dieser Formel machen wir auch heute noch Gebrauch.

Laplace benutzte seine Ergebnisse für astronomische Studien. Sicher auch von der Astronomieangeleitet, gab der Mathematiker und Astronom Carl Friedrich Gauß (1777–1855) eine wahr-scheinlichkeitstheoretische Begründung für die in der Fehlerrechnung viel benutzte Methode derkleinsten Fehlerquadrate an.

Starken Einfluss auf die Entwicklung der Wahrscheinlichkeitstheorie im 19. und 20. Jahrhunderthatte die berühmte russische Schule, mit der sich Namen wie Pafnuti–Lwowitch Chebychev

Page 14: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

6 KAPITEL 1. EINFÜHRUNG

(1821–1894), Andrej Andrejewitch Markov (1856–1922) und besonders Andrej Nikolaje-witch Kolmogorov (1903–1987) verbinden. Zu einer geschlossenen mathematischen Theorie(im Gegensatz zu einer Summe von Einzelergebnissen) hat sich die Wahrscheinlichkeitstheo-rie(WT) erst mit Kolmogorov entwickelt. Seitdem ist die WT unübersehbar gewachsen und invielen Zweigen weiterentwickelt worden.

Anwendungen hat die WT zunächst beim Glücksspiel und wahrscheinlich schon sehr früh bei demmit dem Glücksspiel verwandten Versicherungswesen (Berechnung der erforderlichen Prämienin Lebensversicherungen, Beantwortung von Fragen nach der Wahrscheinlichkeit für den Ruineiner Versicherungsgesellschaft) gefunden. Weitere Bereiche eröffneten sich durch die Bevölke-rungsstatistik und wirtschaftliche Problemstellungen. Bei den wissenschaftlichen Anwendungenwaren es vor allem die Astronomie und die Physik, die zur Weiterentwicklung dieser Theorie ge-führt haben. Heute gibt es kaum noch eine Wissenschaft, die sich nicht stochastischer Methodenbedient.

Trotz dieser Konsolidierung der Wahrscheinlichkeitstheorie in Theorie und Praxis ist die mehrphilosophische Diskussion um eine Begründung der Wahrscheinlichkeitstheorie noch nicht abge-brochen: zum Überblick werden deshalb im folgenden Abschnitt verschiedene Begründungen desBegriffs Wahrscheinlichkeit diskutiert.

1.3 Der Begriff der Wahrscheinlichkeit

Im normalen wie im wissenschaftlichen Alltag wird häufig das Wort ”wahrscheinlich” verwendet.Die Aufgabe der Wahrscheinlichkeitstheorie ist es, diesen Gebrauch so zu präzisieren, dass erfür korrektes Argumentieren sowie zur Lösung von Problemen nützlich ist. ”Präzisieren” heißtdabei, eine Theorie anzugeben, die mathematisch korrekt ist und gleichzeitig die Bedeutung desWortes ”wahrscheinlich” in solchen Sätzen möglichst genau trifft. Man hat also zu überlegen,wasdie Bedeutung in den jeweiligen Sätzen ist. Dabei stellt sich heraus, dass in ”wahrscheinlich”eine ganze Reihe verschiedener Bedeutungen stecken, die mehr oder weniger gut mathematischerBehandlung zugänglich sind, die teilweise miteinander mathematisch übereinstimmen, wenn auchnicht inhaltlich, die sich aber teilweise völlig widersprechen.

Im folgenden wird eine Liste von Theorien der Wahrscheinlichkeit angegeben, aus der ersichtlichwerden soll, dass die Debatte um die Bedeutung dieses Begriffs keineswegs abgeschlossen ist. EineBeschäftigung mit solchen Auseinandersetzungen ist sicherlich nützlich. Die Relevanz solcherGrundsatzdebatten sollte jedoch nicht überschätzt werden.

Verschiedene Begründungen der Wahrscheinlichkeitstheorie

Statistische Begründung:Macht man eine große Anzahl gleichartiger Experimente, so stellt sich oft heraus, dass die relativeHäufigkeit des Eintretens eines bestimmten Ergebnisses mit wachsender Anzahl von Beobach-tungen gegen einen bestimmten Wert zu konvergieren scheinen. Man könnte also diese relative

Page 15: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

1.3. DER BEGRIFF DER WAHRSCHEINLICHKEIT 7

Häufigkeit als W. auffassen. Dann wäre aber die W. abhängig vom Ausgang einer Versuchsreihe,also die W. für ”Kopf” beim Münzwurf einmal 42/100, ein anderes mal 53/100. Man sollte alsobesser den Grenzwert der Folge der relativen Häufigkeiten bei fortgesetztem Münzwurf als Defi-nition nehmen. Neben der Frage nach der Existenz bleibt das Problem, wie man ihn feststellenwill, da man stets nur endlich viele Versuche durchführen kann und jede endlich Zahlenfolge stetszu einer unendlichen Zahlenfolge mit einem beliebig vorgebbaren Grenzwert fortgesetzt werdenkann. Mises hat versucht, dieses Problem zu lösen, indem er forderte, dass die endliche Folge”zufällig” sein müsse. Das Problem, was nun ”zufällig” heißt, konnte auch er nicht in den Griffbekommen. Der erste brauchbare (?) Ansatz dazu stammt von Schnorr durch den Begriff derBerechenbarkeit. Danach ist zufällig, was nicht berechenbar ist.

Festzuhalten ist, dass die statistische Begründung auf beliebig oft wiederholbare Ereignisse zu-geschnitten ist.

Kombinatorische Wahrscheinlichkeit:Statistische Ergebnisse und kombinatorische überlegungen stützen sich oft gegenseitig. Man

kann Ereignisse in vielen Fällen elementar zerlegen und durch Auszählen aller möglicher elemen-tarer Ereignisse die Wahrscheinlichkeit als Quotient der ”günstigen” durch die ”möglichen” Fälledefinieren. Dabei bleibt offen, was i.a. ein ”mögliches” Ereignis ist. Warum verwendet man beimMünzwurf (”Kopf” oder ”Zahl”) nicht die 4 Ereignisse ”Kopf”, ”Zahl”, ”Münze bleibt auf demRand stehen” und ”Münze bleibt in der Luft”? Es ist offensichtlich notwendig, Relevanzkriterienaufgrund naturwissenschaftlicher überlegungen oder auch subjektiver Überzeugungen zu finden.

Logische Wahrscheinlichkeit (nach Carnap):Die logische Wahrscheinlichkeit nimmt das Problem ernst, dass die Auswahl der zu beachtendenEreignisse sowie die Zuordnung von W. zu Ereignissen oft aufgrund apriorischer überlegungendurchgeführt werden müssen. Diese überlegungen beruhen oft auf Informationen über frühereEreignisse oder Naturgesetze o.ä.. Man kann nun diese Informationen I als Bedingungen für dasEintreten eines Ereignisses E auffassen und die W. von E als Maß dafür, in welchem Grad E vondiesen Bedingungen logisch impliziert wird, d.h. W(E|I) = 1 , falls E logisch aus I folgt, bzw.= 0 , falls die Negation von E logisch aus I folgt. Für die Definition der übrigen Werte sind danngeeignete(?) Festlegungen zu treffen.

Eine wesentliche Beschränkung der logischen W. ist, dass nur Ereignisse behandelt werden kön-nen, die sich in einer sehr einfachen formalen Sprache ausdrücken lassen, und dass sie die ebenfallsnicht unproblematische Begründung der Logik voraussetzt.

Die obigen Theorien machen den Begriff der W. an objektiven Naturvorgängen fest. Demgegen-über folgen nun einige ”subjektive” Theorien.

Subjektive Theorie nach de Finetti:Der Grundgedanke ist, dass wir nie wissen, ob eine Information wahr ist, sondern höchstens vonihrer Wahrheit überzeugt sein können. Radikaler formuliert: Wir können Wahrscheinlichkeitennicht behaupten, sondern nur ausdrücken, in welchem Grad wir vom Eintreffen eines Ereignissesüberzeugt sind. Falls wir bereit sind, unsere Überzeugung aufgrund von Erfahrung jeweils in”rationaler” Weise zu ändern, kann bei bestimmten Aussagen dieser Grad gegen einen bestimmten

Page 16: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8 KAPITEL 1. EINFÜHRUNG

Wert konvergieren, der dann die W. des Ereignisses ist, das durch die Aussage beschrieben wird.

Problematisch ist hier vor allem, wie hier das ”rationale Verhalten” festgelegt werden soll. Dem-gegenüber steht der Vorzug, dass die Theorie selbst erklärt, wie man zu Wahrscheinlichkeits-aussagen kommt, anstatt das irgendwelchen Vorüberlegungen zu überlassen. Das erfordert einengrundsätzlich anderen mathematischen Apparat, man benutzt u.a. Methoden der Spieltheorie.Die Ergebnisse stimmen aber in vielen Punkten mit den vorher beschriebenen Theorien überein.

Entscheidungstheoretische Wahrscheinlichkeit:Die WT wird hier als Theorie mit der Hauptaufgabe, Entscheidungen zu fällen, aufgefasst: Fälltbeim Würfeln hintereinander 100-mal die 6, ist dann ein unwahrscheinliches Ereignis eingetreten,oder ist der Würfel falsch? Der gemeinsame Ansatz verschiedener Varianten dieser Methode istetwa folgender:Eine Person möge eine Funktion angeben, die den Schaden oder Nutzen angibt, den das Eintreteneines bestimmten Ereignisses für sie bedeutet. Sie kann nun eine Entscheidungsstrategie suchen,die in einem bestimmten Sinn optimal ist, nämlich den möglichen Verlust minimiert. Existiert einesolche Strategie, so ist dadurch eine subjektive Wahrscheinlichkeit dieses Ereignisses bestimmt.

Fuzzy – Wahrscheinlichkeitstheorie:Sie benutzt als Grundlage die sog. Fuzzylogik, die keine absoluten Mengenzugehörigkeiten kennt(Grundlage der Cantorschen Mengendefinition), sondern auch zulässt, dass Elemente mit be-stimmten ”Zugehörigkeitsgraden” zu mehreren Mengen gehören. Sie soll hier nicht behandeltwerden.

Dies war nur eine Auswahl der wichtigsten Theorien. Ihre Vielzahl und die Energie mit der sichteilweise die Anhänger der Theorien untereinander bekämpfen, könnte den Versuch nahe legen,auf die WT vollständig zu verzichten. Gewisse philosophische und weltanschauliche Positionen(radikaler Determinismus z. B.) legen das auch nahe.

Betrachtet man jedoch die Ergebnisse neuerer physikalischer Grundlagenforschung (Quanten-mechanik, chaotische dynamische Systeme usw.), so erscheint diese Position reichlich obsolet.Vereinfachend und überspitzt formuliert legt die moderne Physik nahe, dass bei allen Vorgängenin der Natur der Zufall allgegenwärtig ist. Dass gewisse Vorgänge deterministisch abzulaufenscheinen, liegt an einer makrokosmischen Betrachtungsweise und ist im wesentlichen eine Folgedes Gesetzes der großen Zahlen (vergl. Kapitel 5).

1.4 Literatur

Die nachfolgend aufgeführten Bücher stellen einen kleinen Ausschnitt aus einem überreichlichenVorrat an guten Büchern zu diesem Themenkreis dar. Dass ein Buch hier nicht aufgeführt istheißt nicht, dass es sich nicht lohnt es zu benutzen. Die Auswahl ist subjektiv auf die Bedürfnisseder Vorlesung hin zugeschnitten.

Page 17: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

1.4. LITERATUR 9

Literatur zur Wahrscheinlichkeitstheorie für Studierende der Informatik

Bauer, H.: Wahrscheinlichkeitstheorie, W. de Gruyter, Berlin, 5. Auflage , 2002.

Behnen, K.: Grundkurs Stochastik, Teubner, Stuttgart, 1995.

Bosch, K.: Elementare Einführung in die Wahrscheinlichkeitsrechnung, Vieweg, studium Ba-siswissen, 8. Aufl., 2003.

Bosch, K.: Lotto und andere Zufälle, Vieweg-Verlag, 1999.

Greiner, M. & Tinhofer, G.: Stochastik für Studienanfänger der Informatik, Hanser-Verlag,1996.

Greiner, M.: Stochastik für Studierende der Informatik - Ausgewählte Aufgaben zur Vertie-fung und Prüfungsvorbereitung , CS-Press Dr. Christian Sutter, 1997.

Henze, N.: Stochastik für Einsteiger, Vieweg, 5. Aufl., 2004.

Hübner, G.: Stochastik. Eine anwendungsorientierte Einführung für Informatiker, Ingenieureund Mathematiker. Mathematische Grundlagen der Informatik, Vieweg-Verlag, 4. Aufl., 2003.

Jondral, F. und Wiesler, A.: Wahrscheinlichkeitsrechnung und stochastischer Prozesse,Grundlagen für Ingenieure und Naturwissenschaftler, Teubnerverlag, 2. Auflage 2002.

Krengel, U.: Einführung in die Wahrscheinlichkeitstheorie und Statistik, Vieweg Studium,Aufbaukurs Mathematik, 7. Aufl., 2003.

Page 18: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

10 KAPITEL 1. EINFÜHRUNG

Page 19: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 2

Kombinatorische Grundaufgaben

Einen breiten Raum nehmen in der Informatik Wahrscheinlichkeiten ein, die mit kombinato-rischen Überlegungen berechnet werden können. Dazu müssen immer wieder Elementeanzahlenvon geeignet gewählten Mengen und Listen ermittelt werden. Daher sind nachfolgend die wich-tigsten kombinatorischen Grundaufgaben und deren Lösungen zusammengestellt.

Bei Mengen spielt die Reihenfolge der Elemente keine Rolle, jedes Element kommt genau einmalvor; so ist 1, 4 = 4, 1 = 1, 4, 1 . Bei Listen ist die Reihenfolge der Elemente signifikant.In mehrfachen Listen können im Gegensatz zu einfachen Listen Elemente auch mehrfacherscheinen, also (1, 4) 6= (4, 1) 6= (1, 4, 1) .

Definition 2.1 Eine Grundmenge Ω von der Mächtigkeit n (Anzahl der Elemente von Ω ist|Ω| = n) sei vorgegeben. Eine Auswahl von r Elementen aus Ω heißt Kombination oder Probeaus Ω vom Umfang r. Kann jedes Element von Ω maximal einmal in die Probe gewählt werden,spricht man von einer Probe ohne Wiederholung, sonst von einer Probe mit Wiederholung.Ist die Reihenfolge der Elemente von Bedeutung, spricht man von einer geordneten, sonst voneiner ungeordneten Probe. In einer ungeordneten Stichprobe können ohne Informationsverlustdie Elemente umgeordnet also sortiert werden.

In Kurzform sagt man, eine Probe heißt

Bezeichnung falls sie ... istMenge ungeordnet ohne Wiederholungenmehrfache Menge ungeordnet mit Wiederholungen(mehrfache) Liste geordnet mit Wiederholungeneinfache Liste geordnet ohne Wiederholungen

Eine Liste der Länge 2 , 3 , k heißt auch Paar , Tripel , k-Tupel.

Für die Ermittlung von Wahrscheinlichkeiten ist es erforderlich festzustellen, wie viele verschie-dene Proben der obigen Art aus einer Grundmenge gezogen werden können.

11

Page 20: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

12 KAPITEL 2. KOMBINATORISCHE GRUNDAUFGABEN

Satz 2.1 Aus einer Grundmenge Ω vom Umfang n können die folgenden Anzahlen unterschied-licher Proben des Umfangs r gezogen werden:

Typ Anzahlmehrfache Liste A(n, r) = nr (r ∈ IN)

einfache Liste B(n, r) = n!(n−r)! (r ≤ n)

Menge C(n, r) =(nr

)= n!

r! (n−r)! (r ≤ n)

mehrfache Menge D(n, r) =(n+r−1

r

)(r ∈ IN)

Satz 2.2 Seien A1, . . . , Ak beliebige Mengen. Dann gilt

a) |A1 × A2 × · · · × Ak| = |A1| · |A2| · · · |Ak| und

b)

∣∣∣∣

k⋃

i=1Ai

∣∣∣∣

=k∑

i=1|Ai| , falls die Ai disjunkt sind.

Allgemein gilt:

∣∣∣∣

k⋃

i=1Ai

∣∣∣∣≤

k∑

i=1|Ai|

Bemerkung: Der Beweis kann durch Induktion über k geführt werden.

Beispiel 2.1 Wie viele Möglichkeiten gibt es, einen Lottoschein korrekt auszufüllen?

Auf einem korrekt ausgefüllten Lottoschein sind 6 verschiedene Zahlen angekreuzt. für das ersteKreuz hat man 49, dass das zweite 48, ... und dass das sechste Kreuz 49−5 Möglichkeiten. Es gibt

also 49 · 48 · · · 44 =49!

(49 − 6)!= B(49, 6) = 10.068.347.520 verschiedene Arten, einen

Lottoschein auszufüllen.

Vorsicht: Die Anzahl der unterschiedlichen korrekt ausgefüllten Lottoscheine ist kleiner, da obendas Ankreuzen der gleichen 6 Zahlen in unterschiedlicher Reihenfolge jeweils mehrfach gezähltwird. für die Anzahl unterschiedlicher (korrekter) Lottoscheine gilt also

10.068.347.520

6!=

(49

6

)

= 13.983.816 .

Beispiel 2.2 Wie viele n–äre Zahlen der Länge r gibt es? Eine n–äre Zahl ist eine Zahl zurBasis n.

n Bezeichnung2 Binärzahlen, Dualzahlen8 Oktalzahlen

10 Dezimalzahlen16 Hexadezimalzahlen

Allgemein sind dies nr, es gibt also (für r = 3) 8 verschiedene Binär–, 512 Oktal–, 1000 Dezimal–und 4096 Hexadezimalzahlen mit drei Ziffern.

Page 21: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

13

Beispiel 2.3 Wie viele Elemente besitzt die Potenzmenge P(An) einer Menge An der Mächtig-keit n?

Die Anzahl der r-elementigen Teilmengen beträgt offenbar

C(n, r) =

(n

r

)

=⇒ |P(An)| =

n∑

r=0

(n

r

)

Unter Benutzung des binomischen Lehrsatzes

(a + b)n =

n∑

i=0

(n

i

)

ai bn−i(2.1)

erhalten wir für die obige Anzahl

|P(An)| =

n∑

i=0

(n

i

)

1i1n−i = (1 + 1)n = 2n .

Für das Rechnen mit Binomialkoeffizienten(n

r

)gelten folgende leicht zu beweisende Rechenregeln:

(n

r

)

=

(n

n − r

)

=n(n − 1) · · · (n − r + 1)

r!(2.2)

(n

r

)

=

(n − 1

r

)

+

(n − 1

r − 1

)

(2.3)(

n

r

)

=n

r

(n − 1

r − 1

)

(2.4)(

n

r

)

= 0 für r > n(2.5)

Beispiel 2.4 In einer ”kleinen Übungsgruppe” mit 15 Teilnehmern sollen Untergruppen mit zweioder drei Teilnehmern gebildet werden. Wie viele verschiedene Aufteilungen sind möglich? Da-bei soll auch unterschieden werden, in welche Übungsgruppe gleicher Größe ein Student kommt(unterschiedliche Übungsleiter).

Die Teilnehmer bilden entweder 5 Untergruppen mit je 3 Teilnehmern oder 6 Untergruppen mit3 × 2 und 3 × 3 oder 7 Untergruppen mit 6 × 2 und 1 × 3 Teilnehmern. Damit erhalten wir alsodass die Gesamtanzahl

E(15; 3, 3, 3, 3, 3) + E(15; 2, 2, 2, 3, 3, 3) + E(15; 2, 2, 2, 2, 2, 2, 3)

=15!

3!5+

15!

2!3 · 3!3 +15!

2!6 · 3! = 4.330.326.000 .

Dabei nennt man

E n;m1, . . . ,mk =n!

m1! · · ·mk!=

(n

m1 · · · mr

)

mit n,m1, . . . ,mk ∈ IN und m1 + · · · + mk = n

den Multinomialkoeffizienten n über m1 bis mk.

Page 22: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

14 KAPITEL 2. KOMBINATORISCHE GRUNDAUFGABEN

Page 23: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 3

Diskrete Wahrscheinlichkeitsräume

In der Wahrscheinlichkeitstheorie sollen Modelle für Erscheinungen der Wirklichkeit entwickelt,beschrieben und ausgewertet werden, in denen der Zufall eine Rolle spielt. Dabei wollen wir unsnicht auf die Diskussion über Existenz eines ”mystischen” Zufalls einlassen. Immer dann, wenndas Ergebnis eines Experiments (Versuchsausgang) nicht eindeutig (deterministisch) aus seinenreproduzierbaren Grundvoraussetzungen feststeht, wollen wir von einem Zufallsexperimentsprechen. Ein Zufallsexperiment muss wie jedes andere physikalische Experiment unter ”gleichenBedingungen” wiederholbar sein (und trotzdem unterschiedliche Ausgänge haben können).

Es soll also ”zufällig” sein, welcher der möglichen Ausgänge des Experimentes eintritt.

Dazu verwenden wir die folgenden Bezeichnungen:

Ω Menge der Versuchsausgänge, Stichprobenraum, Raum der Elementarereignisse,Merkmalraum, (Ereignisraum)

ω ∈ Ω (möglicher) Versuchsausgang, (Elementarereignis?), Realisierung, (Stichprobe)

Wir sprechen von einem diskreten Zufallsexperiment, wenn die Anzahl der Versuchsausgängeendlich oder höchstens abzählbar unendlich ist.

In diesem Abschnitt setzen wir also

Ω = ω1, ω2, . . . , ωn oder

Ω = ω1, ω2, ω3, . . . mit |Ω| = |IN |

voraus.

Beispiel 3.1 (Münzwurf) Ω = K,Z (n = 2)K = ”Kopf liegt oben” , Z = ”Zahl liegt oben”

15

Page 24: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

16 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

Beispiel 3.2 (Würfeln mit einem Würfel) Ω = 1, 2, . . . , 6 (n = 6)

ωi = i = ”Augenzahl i liegt oben” (i = 1, . . . , 6)

Führt man nun diese Zufallsexperimente mehrfach durch, so wird man bei korrekter Durchfüh-rung (bzw. ”korrektem” Würfel) erwarten, dass alle Versuchsausgänge bei ”hinreichend großer”Anzahl von Versuchen ”etwa” gleich oft vorkommen. Sei also

rN (ωi) :=Anzahl der Ausgänge ωi unter N Versuchen

N

die relative Häufigkeit des Versuchsausgangs ωi, dann erwartet man hier für große N

rN (ωi) ≈ 1

n.

Allgemein wird man nicht bei jedem Zufallsexperiment erwarten, dass alle Versuchsausgänge inetwa gleich oft realisiert werden.

Beispiel 3.3 (Würfeln mit zwei Würfeln) Es werden jeweils die Augensummen als Ver-suchsausgang notiert, also

Ω = 2, 3, . . . , 12 .

Führt man dieses Experiment hinreichend oft durch, pendeln sich die relativen Häufigkeiten zwarauch in der Nähe fester Wert ein. Jedoch sind diese teilweise deutlich unterschiedlich.

Die Folge dieser relativen Häufigkeiten scheinen mit wachsendem N eine immer bessere Näherungfür das zu werden, was wir umgangssprachlich die Wahrscheinlichkeit des entsprechendenVersuchsausgangs nennen. Leider ist es nicht möglich, hier einen Grenzübergang wie in derAnalysis durchzuführen und den daraus resultierenden Grenzwert als mathematische Definitionzu verwenden. Denn

• es ist nicht möglich den Grenzübergang experimentell durchzuführen,

• auch ein Gedankenexperiment könnte zu beliebigen Grenzwerten führen, da zum Beispielnicht auszuschließen ist, wenn auch sehr unwahrscheinlich, dass bei beliebig vielen Experi-menten auch mit korrekten Würfeln nie die Sechs gewürfelt wird, ...

So geht man für die mathematische Definition der Wahrscheinlichkeit so vor, dass man aus ”lo-gischen” Überlegungen heraus bei einfachen Grundexperimenten den Versuchsausgängen Wahr-scheinlichkeiten zuordnet und sich dabei stark an dem anschaulichen ”Vorbild” der relativenHäufigkeit orientiert.

Bevor wir zu einer Definition kommen, müssen wir bedenken, dass wir solche Wahrscheinlichkei-ten nicht nur für einzelne Versuchsausgänge, sondern auch für weiter gefasste Ereignisse, zumBeispiel für Fragestellungen definieren müssen wie

Page 25: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

17

• Mit welcher Wahrscheinlichkeit ist die Augensumme zweier Würfel gerade?

• Mit welcher Wahrscheinlichkeit ist die Augensumme kleiner als 5?

• Mit welcher Wahrscheinlichkeit liegen zwei ”Buben” im ”Skat”?

Alle diese Fragen suchen nach Wahrscheinlichkeiten für das Auftreten von Versuchsausgängen,die zu einer Teilmenge der Menge aller Versuchsausgänge gehören.

Wir definieren deshalb

Definition 3.1 Sei Ω die Menge aller Versuchsausgänge eines diskreten Zufallsexperiments.Dann heißt jede Teilmenge A von Ω ein Ereignis

A heißt Ereignis ⇐⇒ A ⊆ Ω

Speziell heißen∅ unmögliches EreignisΩ sicheres Ereignis

Die Menge aller Ereignisse eines diskreten Zufallsexperiments ist die Potenzmenge

P(Ω) = A | A ⊆ Ω .

Beispiel 3.4 (Würfeln mit einem Würfel) Die Versuchsausgänge ωi sind die jeweils gewür-felten Augenzahlen (i = 1, . . . , 6). Dann kann man u.a. die folgenden Ereignisse formulieren:

Ai = i : ”Augenzahl i liegt oben” (i = 1, . . . , 6) (Elementarereignis)A = A1 ∪ A2 = 1, 2 : ”Augenzahl ≤ 2”

B = A1 ∪ A3 ∪ A5 : ”Augenzahl ungerade”

C =6⋃

i=1Ai = Ω : ”Wurf mit beliebiger Augenzahl” (sicheres Ereignis)

D = B ∩ A = A1 : ”Augenzahl ungerade und ≤ 2”

Für das Operieren mit Ereignissen steht nun der gesamte Mengenkalkül zur Verfügung, wobeiwir die folgenden Verabredungen treffen:

... tritt ein wenn ... eintrittA ein Versuchsausgang ωi ∈ AA ∪ B A oder BA ∩ B sowohl A als auch B

A := Ac A nichtA\B ein Versuchsausgang aus A, der nicht zu B gehört

Auch den übrigen Mengenoperationen kann der folgende Sinn unterlegt werden:A ⊂ B : Wenn A eintritt, ist B automatisch eingetreten (A impliziert B)A ∩ B = ∅ : A und B können nicht gleichzeitig eintreten (disjunkt)A\B : = ω : ω ∈ A ∧ ω /∈ B = A ∩ B

Page 26: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

18 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

Zur Vereinfachung führen wir noch folgende Schreibweisen ein:

A ∩ B = ∅ =⇒ A ∪ B := A + B bzw.

A1, A2, A3, . . . paarweise disjunkt =⇒⋃

i

Ai :=∑

i

Ai

A ∩ B := A · B := AB

Die einelementigen Teilmengen von Ω bezeichnet man als Elementarereignisse, so dass wirjedes Ereignis auch als Summe von Elementarereignissen schreiben können.

A = ω1, . . . , ωr =

r∑

i=1

ωi ∀A ⊆ Ω

Satz 3.1 Es sei 2 ≤ n ≤ ∞ und Ai ⊂ Ω (1 ≤ i ≤ n) seien Ereignisse, dann gilt

(a)n⋃

i=1

Ai = A1 +n∑

i=2

Ai \i−1⋃

j=1

Aj

(Zerlegung in disjunkte Ereignisse)

(b) Sind Bi (1 ≤ i ≤ n) paarweise disjunkt und A ⊂n∑

i=1Bi, so gilt

A =

n∑

i=1

(A ∩ Bi)

(Zerlegung des Ereignisses A mit Hilfe der ”Fallunterscheidung” Bi, insbesondere für den

Fall Ω =n∑

i=1Bi.)

Wenn wir nun für beliebige Ereignisse A ∈ P(Ω) eine Wahrscheinlichkeit einführen, soll dieserWahrscheinlichkeitsbegriff möglichst stark am Vorbild der relativen Häufigkeit orientiert sein.Dazu stellen wir einige Eigenschaften der relativen Häufigkeiten rN zusammen:

rN (A) :=Anzahl der Ausgänge ωi ∈ A unter N Versuchen

N(3.1)

rN (A) ≥ 0 ∀A ⊆ Ω (Positivität)(3.2)

rN (Ω) = 1 (Beschränktheit, Normierung)(3.3)

Ai paarw. disjunkt =⇒ rN

(∑

i

Ai

)

=∑

i

rN (Ai) (σ − Additivität)(3.4)

Unter einer ”Wahrscheinlichkeit” (besser: Wahrscheinlichkeitsfunktion) wollen wir nun eine Funk-tion verstehen, die jedem Ereignis A eine Zahl zuordnet, die Wahrscheinlichkeit des Ereignisses.Dabei wollen wir nur solche Funktionen zulassen, die die obigen Eigenschaften der relativenHäufigkeiten besitzen, also

Page 27: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

19

Definition 3.2 (Kolmogorov – Axiome)Die Funktion P : P(Ω) −→ IR1 heißt Wahrscheinlichkeit oder Wahrscheinlichkeits-maß auf Ω (genauer auf P(Ω)) genau dann, wenn

P (A) ≥ 0 ∀ A ⊆ Ω(3.5)

P (Ω) = 1(3.6)

Ai ⊆ Ω paarw. disjunkt =⇒ P(∑

i

Ai

)

=∑

i

P (Ai) .(3.7)

Das Tripel (Ω,P(Ω), P ) heißt dann diskreter Wahrscheinlichkeitsraum (WR).

Bemerkung:

Bei diskreten Wahrscheinlichkeitsräumen ist die Angabe der Menge aller Ereignisse P(Ω) re-dundant. Häufig wird deshalb auch das Paar (Ω, P ) als diskreter Wahrscheinlichkeitsraumbezeichnet.

Sind nun die Wahrscheinlichkeiten pi := P (ωi) für alle Elementarereignisse (i = 1, . . . , n)bekannt, so kann wegen der obigen Additivität die Wahrscheinlichkeit für jedesA = ω1, . . . , ωr ∈ P(Ω) ermittelt werden.

P (A) = P (ω1, . . . , ωr) = P

(r∑

i=1

ωi)

=

r∑

i=1

P (wi) =

r∑

i=1

pi ∀A ⊆ Ω

Damit gilt wegen P (Ω) = 1 auch die sinnvolle Normierung:∑

ipi = 1 .

Aus der obigen Definition lassen sich nun mehr oder weniger leicht die folgenden Eigenschaftender Wahrscheinlichkeiten nach Kolmogorov ableiten.

Page 28: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

20 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

Satz 3.2 (Rechenregeln für Wahrscheinlichkeiten)Sei (Ω,P(Ω), P ) ein diskreter Wahrscheinlichkeitsraum mit A;B; . . . ⊆ Ω, dann gilt

P (∅) = 0(3.8)

P (A) = 1 − P (A)(3.9)

A ⊆ B =⇒ P (A) ≤ P (B)(3.10)

P (A\B) = P (A) − P (A ∩ B)(3.11)

B ⊆ A =⇒ P (A\B) := P (A − B) = P (A) − P (B) (Subtraktivität)(3.12)

P (A ∪ B) = P (A) + P (B) − P (A ∩ B) bzw. allgemeiner(3.13)

P( n⋃

i=1

Ai

)

=

n∑

i=1

P (Ai) −∑

i2

i1<i2

P (Ai1Ai2)(3.14)

+∑

i3

i2<i3

i1<i2

P (Ai1Ai2Ai3) ∓ · · · + (−1)n+1P( n⋂

i=1

Ai

)

n∑

i=1

P (Ai) −n−1∑

i=1

n∑

j=i+1

P (AiAj) ≤ P

(n⋃

i=1

Ai

)

≤n∑

i=1

P (Ai)(3.15)

Ungleichung von Bonferroni

Beweise:

(3.8) P (A) = P (A + ∅) = P (A) + P (∅) =⇒ Beh.

(3.9) 1 = P (Ω) = P (A + A) = P (A) + P (A) =⇒ Beh.

(3.10) B = A + BA =⇒ P (B) = P (A) + P (AB) ≥ P (A)

(3.11) A = AΩ = A(B + B) = AB + AB = AB + A\B=⇒ P (A) = P (AB) + P (A\B) =⇒ P (A\B) = P (A) − P (AB)

(3.12) B ⊆ A =⇒ AB = B =⇒ P (A\B) = P (A) − P (B)

(3.13) A∪B = (A\B) + B =⇒ P (A∪B) = P (A\B) + P (B) = P (A)−P (AB)+ P (B)

Die übrigen Formeln werden durch vollständige Induktion über n bewiesen.

Im Nachfolgenden werden wir für verschiedene wichtige Zufallsexperimente die Wahrscheinlich-keitsräume angeben.

Page 29: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

3.1. DER LAPLACE – RAUM 21

3.1 Der Laplace – Raum

Beschreibung des Experiments:

Ein Zufallsexperiment habe N (N < ∞) verschiedene Ausgänge, von denen keiner bevorzugtwerde (”Alle Versuchsausgänge sind gleichwahrscheinlich”).

Wahrscheinlichkeiten der Elementarereignisse:

Sei pi die Wahrscheinlichkeit für das Elementarereignis

”Der i–te Versuchsausgang ist eingetreten” := ωi ,

dann gilt wegenN∑

i=1pi = 1 natürlich

P(ωi

):= pi =

1

N∀ i = 1, . . . , N

Definition 3.3 Der Wahrscheinlichkeitsraum (Ω,P(Ω), P ) heißt Laplace – Raum

⇐⇒ (L1) |Ω| = N < ∞ und

(L2) P(ω

)=

1

N∀ ω ∈ Ω gilt.

Wahrscheinlichkeiten für beliebige Ereignisse

Sei A := ωi1 , . . . , ωik , dann ergibt sich

P (A) =

k∑

j=1

pij =k

N=

|A||Ω| =

Anzahl der günstigen Ausgänge

Anzahl der möglichen Ausgänge

Die Wahrscheinlichkeit eines beliebigen Ereignisses A in einem Laplace–Raum ergibt sich alsQuotient der Anzahl der ”für A günstigen Ausgänge” durch die Anzahl N der möglichen Aus-gänge.

Beispiel 3.5 (Würfeln mit einem Würfel)

ωi = ”Augenzahl i wird gewürfelt” (i = 1, . . . , 6)

p1 = p2 = · · · = p6 =1

6

P (”gerade Augenzahl”) = P (2, 4, 6) =3

6=

1

2

Page 30: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

22 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

Beispiel 3.6 (Würfeln mit 2 Würfeln)Zur Beschreibung des Modells als Laplace–Raum muss man als Elementarereignisse solche Ver-suchsausgänge betrachten, die untereinander sicher ”gleichwahrscheinlich” sind.

1. Versuch: ωi = ”Augensumme = i” , i = 2, . . . , 12Es ist sehr zweifelhaft, oft die Augensumme 2 genauso oft wie die Augensumme 7 vorkommt. ZurÜberprüfung kann man eine größere Anzahl von Würfelversuchen durchführen.

2. Versuch:Ω =

(i, j) : i, j ∈ 1, 2, 3, 4, 5, 6

also: i = Augenzahl des 1. Würfels und j = Augenzahl des 2. Würfels.

Jetzt gibt es keinen Grund daran zu zweifeln, dass alle Elementarereignisse ω = (i, j) die gleicheWahrscheinlichkeit besitzen.

|Ω| = (Anzahl der Augenzahlen des 1. W.) × (Anzahl der Augenzahlen des 2. W.) = 36

Für alle ω ∈ Ω gilt also P (ω) = 1/36 .

Ebenso gilt

P (”Augensumme = m”) =Anzahl der Paare aus Ω mit Augensumme m

36

Damit ergibt sich die Tabelle 3.1 für die Wahrscheinlichkeiten für das Auftreten der Augensummem beim Würfeln mit 2 Würfeln:

Tabelle 3.1: Augensummen beim Würfeln mit zwei Würfeln

m Am pm = P (Am)

2 (1,1) 1/36 = 0.028 = 2, 8%3 (1,2) , (2,1) 2/36 = 0.056 = 5, 6%4 (1,3) , (2,2) , (3,1) 3/36 = 0.083 = 8, 3%5 (1,4) , (2,3) , (3,2) , (4,1) 4/36 = 0.111 = 11, 1%6 (1,5) , (2,4) , (3,3) , (4,2) , (5,1) 5/36 = 0.139 = 13, 9%7 (1,6) , (2,5) , (3,4) , (4,3) , (5,2) , (6,1) 6/36 = 0.167 = 16, 7%8 (2,6) , (3,5) , (4,4) , (5,3) , (6,2) 5/36 = 0.139 = 13, 9%9 (3,6) , (4,5) , (5,4) , (6,3) 4/36 = 0.111 = 11, 1%

10 (4,6) , (5,5) , (6,4) 3/36 = 0.083 = 8, 3%11 (5,6) , (6,5) 2/36 = 0.056 = 5, 6%12 (6,6) 1/36 = 0.028 = 2, 8%

Page 31: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

3.2. URNENMODELLE 23

3.2 Urnenmodelle

Beispiel 3.7 In einer Urne befinden sich N Kugeln, von denen R rot und S schwarz (N = R+S)sind. Nun wird daraus eine Kugel ”zufällig” gezogen. Wie groß ist die Wahrscheinlichkeit, dassdie Kugel rot ist?

”Zufällig” soll hier heißen, dass unabhängig von ihrer Farbe jede Kugel die gleiche Wahrschein-lichkeit besitzt, gezogen zu werden. Man sieht sofort, dass es keinen Sinn hat, die Ereignisse”rote/schwarze Kugel wird gezogen” zu Elementarereignissen zu wählen, da dann kein Laplace–Raum vorliegt.

Stattdessen denken wir uns die Kugeln durchnumeriert (von 1 bis N), wobei die ersten R Kugelnrot und die restlichen S Kugeln schwarz sind, und betrachten

i = ”Kugel i wird gezogen” (i = 1, . . . , N)

als i-tes Elementarereignis mit Ω = 1, 2 . . . , N.

Nach Voraussetzung gilt hier die Gleichwahrscheinlichkeit, so dass wir leicht

P (”rote Kugel”) =R

N

erhalten. Analog ergibt sich

P (”schwarze Kugel”) =S

N=

N − R

N= 1 − R

N.

Nun betrachten wir die Ereignisse

SK = ”schwarze Kugel” und RK = ”rote Kugel”

als Elementarereignisse eines anderen Wahrscheinlichkeitsraumes mit Ω = SK,RK mitP (RK) = R

N 6= SN = P (SK) falls R 6= S gilt. Selbstverständlich gilt auch hier

P (SK) + P (RK) =S

N+

R

N=

S + R

N= 1

Dieses einfache Beispiel wollen wir dadurch erweitern, dass wir nun nicht nur einmal, sondernn-mal hintereinander in die Urne greifen, um eine Kugel zu ziehen. Nun lautet die Frage:

Wie groß ist die Wahrscheinlichkeit P (Ar) , bei n-maligem Ziehen aus einer Urnemit R roten und S schwarzen Kugeln genau r rote Kugeln zu ziehen?

Page 32: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

24 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

Dabei muss man offensichtlich zwei unterschiedliche Situationen unterscheiden:

I. Ziehen ohne Zurücklegen:Nach jedem Zug wird die Farbe der Kugel notiert und die Kugel beiseite gelegt. Die Zahlder Kugeln in der Urne hat sich also um eine verringert. Das ist offensichtlich gleichwertigdamit, dass man alle n Kugeln gleichzeitig zieht. Dabei muss offensichtlich n ≤ N gelten

II. Ziehen mit Zurücklegen:Jede gezogene Kugel wird nach Notieren der Farbe vor dem nächsten Zug wieder in die

Urne zurückgelegt. Der nachfolgende Zug findet also wieder unter den gleichen Bedingungenwie der vorhergehende statt. Hier gilt n ∈ IN (Probe = mehrfache Menge).

(a) Urnenmodell ohne Zurücklegen (Urnenmodell I)

ΩI =ω : ω = (i1, . . . , in), ij ∈ 1, . . . , N, i1 < i2 < · · · < in

(Probe vom Umfang n aus N ohne Wdhlg. ohne Beachtung der Reihenfolge = einfache Menge)

Wieder seien dabei die ersten R Kugeln rot und die übrigen schwarz. Dabei bedeutet die letzteUngleichungskette, dass wir die Reihenfolge, in der die Kugeln gezogen wurden, nicht beachtenwollen (die Nummern also grundsätzlich der Größe nach geordnet aufgeschrieben werden).Offensichtlich liegt hier ein Laplace–Modell vor mit

|ΩI| =

(N

n

)

.

Wir müssen nun nur noch feststellen, wie viele Kombinationen der obigen Art existieren, diegenau r rote Kugeln enthalten.

P (Ar) =Anzahl der obigen Kombinationen mit genau r Komponenten ij ≤ R

(Nn

)

Eine solche Kombination ist offensichtlich dadurch gekennzeichnet, dass genau r Kugeln rot unds = n − r Kugeln schwarz sind. Davon gibt es aber offensichtlich

(R

r

)

·(

S

s

)

=

(R

r

)

·(

N − R

n − r

)

Stück.

Damit erhalten wir also

Page 33: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

3.2. URNENMODELLE 25

P (Ar) =

(Rr

)·(N−Rn−r

)

(Nn

) ,

falls n− r ≤ N −R , also r ≥ n−N + R = n−S und damit max0, n−S ≤ r ≤ minR,ngilt. Anderenfalls ist diese Wahrscheinlichkeit 0.

Befinden sich in einer Urne R rote, W weiße und S schwarze Kugeln mit R + S + W = N soermittelt man analog für das Ereignis

Ar,s = ”unter n gezogenen Kugeln befinden sich genau r rote und s schwarze Kugeln”

P (Ar,s) =

(Rr

)(Ss

)(N−R−Sn−r−s

)

(Nn

)

Beispiel 3.8 (Lotto: 6 aus 49)Wie groß ist die Wahrscheinlichkeit, beim Zahlenlotto genau k Richtige zu haben, also von den

aus 49 Zahlen zufällig ausgewählten 6 Zahlen genau k richtig vorhergesagt zu haben? Dabei solldie ebenfalls gezogene Zusatzzahl nicht berücksichtigt werden.

Es werden 6 Zahlen ohne Zurücklegen gezogen (Urnenmodell I). Fasst man in Gedanken diegetippten 6 Zahlen als die roten Kugeln auf und werden aus allen N = 49 Kugeln genau n = 6gezogen, so erhält man

P (Ak) =

(6k

)·( 436−k

)

(496

) (k = 3, 4, 5, 6) .

Berücksichtigt man, dass noch eine siebte Zahl (Zusatzzahl) gezogen wird, so gilt für die Wahr-scheinlichkeit, dass man neben der Zusatzzahl weitere k = 3, 4, 5 Zahlen ”richtig” angekreuzt hat,offensichtlich

P (Ak+1) =

(6k

)·( 426−k−1

)

(496

) (k = 3, 4, 5) .

Für den Fall, dass man neben ”Sechs Richtigen” auch noch die ”richtige” Superzahl hat, giltebenso

P (A6+S) =1

10 ·(49

6

) =1

10· P (A6) .

(b) Urnenmodell mit Zurücklegen (Urnenmodell II)

Die Urne enthält wie im Modell I R rote und S schwarze Kugeln. Jetzt wird lediglich vor demnächsten Zug die zuvor gezogene Kugel wieder in die Urne zurückgelegt, so dass bei jedem Ziehendie gleiche Situation wie am Anfang vorliegt. So kann also die gleiche Kugel auch mehrfachgezogen werden.

Page 34: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

26 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

Tabelle 3.2: Wahrscheinlichkeiten für k Richtige beim Lotto

P (A3) =

(63

)·(43

3

)

(496

) =20 · 1234113983816

= 1.76504038% ≈ 1/57

P (A3+1) =

(63

)·(42

2

)

(496

) =20 · 2874661272

= 0.12314% ≈ 1/812

P (A4) =

(64

)·(432

)

(496

) =15 · 903

13983816= 0.09686197% ≈ 1/1032

P (A5) =

(65

)·(43

1

)

(496

) =6 · 43

13983816= 0.00184499% ≈ 1/54201

P (A5+1) =

(65

)·(42

0

)

(496

) =6

13983816= 0.00004% ≈ 1/2327749

P (A6) =

(66

)·(430

)

(496

) =1 · 1

13983816= 0.00000715% = 1/13983816

P (A6+S) =1

10·(66

)·(43

0

)

(496

) =1 · 1

139838160= 0.000000715% = 1/139838160

Damit liegt eine andere Situation vor, die andere gleichwahrscheinliche Elementarereignisse zuihrer Beschreibung erfordert (Probe mit Wiederholung unter Beachtung der Reihenfolge = mehr-fache Liste):

ΩII =ω : ω = (i1, . . . , in) , ij ∈ 1, . . . , N

Die so beschriebenen Elementarereignisse scheinen unter den gegebenen Bedingungen gleichwahr-scheinlich zu sein. Mit

|ΩII| = Nn

können wir nun die Wahrscheinlichkeit, genau r rote Kugeln unter den n gezogenen zu finden,ermitteln, wenn wir wissen, wie viele der obigen n–lässt genau r rote Kugeln enthalten (|Ar|).

1. Zunächst befinden sich die r roten Kugeln auf r Plätzen unter den n gezogenen Kugeln.Dafür gibt es insgesamt

(nr

)verschiedene Möglichkeiten solche Plätze auszusuchen.

2. Für jede dieser Möglichkeiten gibt es Rr · (N − R)n−r verschiedene Arten r rote unds = n − r schwarze Kugeln aus der Urne auf die entsprechenden Plätze zu verteilen.

Damit erhalten wir also

|Ar| =

(n

r

)

· Rr · (N − R)n−r

und für die gesuchte Wahrscheinlichkeit

P (Ar) =

(n

r

)

· Rr · (N − R)n−r

N r+(n−r)=

(n

r

)(R

N

)r (

1 − R

N

)n−r

.

Page 35: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

3.2. URNENMODELLE 27

Bemerkung

Das Urnenmodell II wird häufig als Approximation für das schwieriger zu berech-nende Urnenmodell I benutzt. Ist die Anzahl der Züge n klein gegen die Anzahl derroten (R) und der schwarzen (N −R) Kugeln, so dass unabhängig, ob bei einem Zugeine rote oder schwarze Kugel gefunden wurde, die Gesamtsituation (das Verhält-nis zwischen roten und schwarzen Kugeln) nahezu unverändert bleibt, müssen beideModelle nahezu gleiche Ergebnisse (Wahrscheinlichkeiten) liefern.

Es gilt also im Modell I:

n ≪ R,N − R =⇒ P (Ar) ≈(

n

r

)(R

N

)r (

1 − R

N

)n−r

.

Beispiel 3.9 (Volksbefragung) 75% der 40 Millionen wahlberechtigten Bürger eines Staatesseien mit ihrer Regierung unzufrieden . Von einem Meinungsforschungsinstitut wird eine Befra-gung von 20 ”zufällig ausgewählten” Bürgern durchgeführt, ob sie tatsächlich unzufrieden sind.Unter der Annahme, dass jeder eine ”ehrliche” Antwort gibt, soll die Wahrscheinlichkeit ermit-telt werden, dass mehr als die Hälfte der Befragten positiv zur Regierung eingestellt sind, alsohöchstens 10 Befragte sich negativ äußern. R ist hier die Anzahl der negativ eingestellten Bürger.

N = 4 · 107 , R = 3 · 107 , n = 20 ,R

N=

3

4= 0, 75 = 75% .

Gesucht ist also die Wahrscheinlichkeit, dass die Anzahl r der negativen Antworten höchstens 10ist.

Ar := ”genau r Befragte sind unzufrieden”

B :=

10∑

r=0

Ar =⇒ P (B) =

10∑

r=0

P (Ar)

P (B) =

10∑

r=0

(Rr

)·(N−Rn−r

)

(Nn

)

≈10∑

r=0

(n

r

)(R

N

)r (

1 − R

N

)n−r

=

10∑

r=0

(20

r

)(3

4

)r (1

4

)n−r

=1

420

10∑

r=0

(20

r

)

· 3r

=1

420(1 · 1 + 20 · 3 + 190 · 9 + · · · + 167960 · 19683 + 184756 · 59049)

≈ 1, 39%

Page 36: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

28 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

3.3 Besetzungsmodelle

Insbesondere in der statistischen Physik interessiert man sich für die Verteilung von Zustän-den verschiedener Elementarteilchen. Dabei können Zustände wie Ort, Geschwindigkeit, Energiequantifiziert betrachtet werden, so dass auch hier diskrete Wahrscheinlichkeitsräume mit höch-stens abzählbar vielen Elementarereignissen (Zuständen) vorliegen.

Hier verwendet man ebenfalls Urnenmodelle, wobei es darum geht, n Kugeln (Teilchen) auf NUrnen (Zustände, Zellen eines Phasenraums) zu verteilen.

(a) Maxwell – Boltzmann – Statistik

Voraussetzung: Jede der n Kugeln fällt zufällig unabhängig von allen anderen in eine der NUrnen. Dabei ist es gleichgültig, wie viele Kungeln sonst noch in dieser urneliegen. Dazu fassen wir die Urnen und Kugeln als unterscheidbar auf und lassenpro Urne sind beliebig viele Kugeln zu. Wir notieren also, welche der n Kugelnin welcher der N Urnen liegt, und benutzen das Urnenmodell II. Ein zufälligesVerteilen der Kugeln auf die Urnen bedeutet hier also, dass jede Urne diegleiche Wahrscheinlichkeit von 1/N besitzt, von einer speziellen Kugel belegtzu sein. Versteht man unter dem Ereignis ”ik = j”, dass die k-te Kugel in Urnej liegt, gilt:

Ω = (i1, . . . , in) : i1, . . . , in ∈ 1, . . . , N ,

|Ω| = Nn .

A(m)k = ”In Urne m befinden sich genau k Kugeln”

|A(m)k | = (Anz. d. Mögl., k Kugeln aus n auszuwählen) ×

(Anz. d. Mögl., n − k Kugeln auf N − 1 Zellen zu verteilen)

=

(n

k

)

(N − 1)n−k

=⇒ P(

A(m)k

)

=

(n

k

)(1

N

)k (

1 − 1

N

)n−k

(b) Bose – Einstein – Statistik

Voraussetzung: Die Kugeln sind nicht unterscheidbar und pro Urne sind beliebig viele Kugelnzugelassen. Hier ist nur wichtig, wie viele (und nicht welche) Kugeln in einerUrne liegen. Eine zufällige Verteilung der Kugeln soll hier bedeuten, dass allemöglichen Verteilungen der Kugeln auf die Urnen die gleiche Wahrscheinlich-keit besitzen.

Eine mögliche Verteilung ω der Kugeln auf die Urnen wird dadurch dargestellt, dass n Kugelnund N − 1 senkrechte Trennwände(Striche) linear nebeneinander in einer beliebigen Reihenfolgeaufgezeichnet werden.

Page 37: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

3.3. BESETZUNGSMODELLE 29

Abbildung 3.1: Zustand in der Bose–Einstein–Statistik

ω =

n = 8 Kugeln sind auf N = 8 Urnen verteilt. Dabei sind jeweils zwischen zwei aufeinander-folgenden Strichen die Inhalte einer Urne angegeben. So enthält die erste Urne 1 Kugel (Anzahlder Kugeln vor dem ersten Strich), die zweite ist leer, die dritte enthält 2 und die vierte 1 Kugel.Die 5. und 6. Zelle sind leer, die 7. enthält 4 Kugeln und die 8. ist wiederum leer (Kugeln nachdem 7. Strich).

Auf diese Weise ergibt sich die Elementeanzahl von Ω als die Anzahl der Möglichkeiten, n Kugelnauf insgesamt N + n − 1 Plätze für Kugeln und Trennwände zu legen. Also gilt

|Ω| =

(N − 1 + n

n

)

= D(N,n) .

A(m)k = ”In Urne m befinden sich genau k Kugeln”

|A(m)k | = (Anz. d. Mögl., n − k Kugeln auf N − 1 Urnen zu verteilen)

=

((N − 1) − 1 + (n − k)

n − k

)

=

(N + n − k − 2

n − k

)

=⇒ P(

A(m)k

)

=

(N+n−k−2n−k

)

(N+n−1n

)

(c) Fermi – Dirac – Statistik

Voraussetzung: Wie bei der Bose–Einstein–Statistik, aber es ist nur eine Kugel pro Zelle er-laubt.

Ein mögliche Verteilung besteht aus einer Auswahl von n Urnen aus den insgesamt N für die nKugeln. Es gilt also

|Ω| =

(N

n

)

.

A(m)1 ist also das Ereignis, dass die m-te Urne eine Kugel enthält.

|A(m)1 | = (Anz. d. Mögl., n − 1 Kugeln auf N − 1 Urnen zu verteilen)

=

(N − 1

n − 1

)

=⇒ P(

A(m)1

)

=

(N−1n−1

)

(Nn

) =(N − 1)! n! (N − n)!

(n − 1)! (N − n)! N !=

n

N

Page 38: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

30 KAPITEL 3. DISKRETE WAHRSCHEINLICHKEITSRÄUME

Page 39: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 4

Bedingte Wahrscheinlichkeiten undUnabhängigkeit

Eine wichtige Aufgabe der Wahrscheinlichkeitstheorie besteht darin, Verfahren zu entwickeln,die es gestatten, Wahrscheinlichkeiten komplizierter Ereignisse auf Wahrscheinlichkeiten ein-facher Ereignisse zurückzuführen. Häufig betrachtet man dabei mehrere Ereignisse in einemWahrscheinlichkeitsraum und möchte wissen, ob die Kenntnis des Eintreten eines Ereignisses,Informationen über die Wahrscheinlichkeit des Auftretens eines anderen Ereignisses zur Folgehat.

Beispiel 4.1 Die N = 1050 Wähler in einem Dorf bei Braunschweig werden befragt, welchePartei sie bei der letzten Bundestagswahl gewählt haben. Die Ergebnisse sind nach männlichenund weiblichen Personen aufgeschlüsselt.

Anzahl CDU SPD FDP Grüne Sonstige Gesamt

männlich 205 204 24 47 20 500weiblich 273 169 28 55 25 550

Gesamt 478 373 52 102 45 1050

Wenn wir nun ”zufällig” einen der Wähler auswählen (jeder hat unabhängig von Geschlecht undgewählter Partei die gleiche Chance ausgewählt zu werden), betrachten wir die folgenden Ereig-nisse:

Ω = ”Wähler im Dorf” (|Ω| = N = 1050)M = ”männlich” (|M | = m = 500)W = ”weiblich” (|W | = N − m) = 550)C = ”CDU – Wähler” S = ”SPD – Wähler”F = ”FDP – Wähler” G = ”Grün – Wähler”R = ”Wähler einer sonstigen Partei”

31

Page 40: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

32 KAPITEL 4. BEDINGTE WAHRSCHEINLICHKEITEN

Unschwer erkennt man, dass die Zahl der männlichen CDU-Wähler

|C ∩ M | = 205 ,

beträgt und die der weiblichen FDP-Wähler

|F ∩ W | = 28 .

Zunächst ermitteln wir die Wahrscheinlichkeiten, dass ein zufällig ausgewählter Wähler männlichbzw. weiblich ist:

P (M) =|M ||Ω| =

m

N=

500

1050= 0, 48 = 48% ,

P (W ) =|W ||Ω| =

N − m

N=

550

1050= 0, 52 = 52% .

Ebenso durch Division durch die Gesamtanzahl N aller Wähler erhalten wir die Wahrscheinlich-keit einen weiblichen FDP-Wähler aus allen Wahlberechtigten auszuwählen zu

P (F ∩ W ) =|F ∩ W |

|N | =28

1050= 0, 03

Insgesamt ergeben sich in obiger Tabelle die entsprechenden Wahrscheinlichkeiten für dieDurchschnittsereignisse (Wahlverhalten differenziert nach Geschlecht) ebenso zu

Wahrscheinl. CDU SPD FDP Grüne Sonstige Gesamt

männlich 0,20 0,19 0,02 0,04 0,02 0,48weiblich 0,26 0,16 0,03 0,05 0,02 0,52

Gesamt 0,46 0,36 0,05 0,09 0,04 1,00

also beispielsweise:

P (S ∩ M) =|S ∩ M ||N | =

204

1050= 0, 19

Zur Ermittlung der Wahrscheinlichkeit auf einen Mann, bzw. eine Frau zu stoßen bei Auswahlnur unter den Anhängern der FDP, müssen wir die Grundmenge Ω anpassen

Ω′ = F und M ′ = M ∩ F

und erhalten die bedingte Wahrscheinlichkeit von M unter der Bedingung F bzw. (beigegebenem F ) durch

P (M ′) =|M ′||Ω′| =

|M ∩ F ||F | =

|M∩F ||N ||F ||N |

=P (M ∩ F )

P (F )=: P (M | F ) ,

Page 41: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

33

Analog erhalten wir die bedingten Wahrscheinlichkeiten für die Auswahl eines Mannes bzw.einer Frau bei gegebenem Wahlverhalten durch Division jeweils durch die Gesamtanzahl derentsprechenden Wähler:

bed. Wahrscheinl. CDU SPD FDP Grüne Sonstige

männlich 0,43 0,55 0,46 0,46 0,44weiblich 0,57 0,45 0,54 0,54 0,56

Gesamt 1,00 1,00 1,00 1,00 1,00

Wissen wir umgekehrt, dass der Betroffene männlich ist, ergibt sich die Wahrscheinlichkeit, dasser ein SPD-Wähler ist durch Ω′ = M und S′ = S ∩ M und wir erhalten bedingteWahrscheinlichkeit von S unter der Bedingung M bzw. (bei gegebenem M) durch

P (S′) =|S′||Ω′| =

|S ∩ M ||M | = P (S | M) ( bedingte W. von S unter der Bedingung M) .

Analog erhalten wir die bedingte Wahrscheinlichkeit, einen Wähler einer bestimmten Partei zufinden, wenn wir nur unter den Männern bzw. Frauen auswählen (bedingte Wahrscheinlich-keit für das Wahlverhalten bei gegebenem Geschlecht):

Wahrscheinl. CDU SPD FDP Grüne Sonstige Gesamt

männlich 0,41 0,41 0,05 0,09 0,04 1,00weiblich 0,50 0,31 0,05 0,10 0,04 1,00

Das Wissen, ob der/die Befragte ein Mann oder eine Frau ist, stellt eine Vorabinformationdar, die zu veränderten Wahrscheinlichkeiten für die Ereignisse unterschiedlicher ”Wahlverhalten”führt.

Definition 4.1 (Bedingte Wahrscheinlichkeit)Sei (Ω,P(Ω), P ) ein diskreter Wahrscheinlichkeitsraum mit den Ereignissen A,B ⊆ Ω und

P (B) > 0, dann ist

P (A|B) =P (A ∩ B)

P (B)

die bedingte Wahrscheinlichkeit von A unter der Bedingung B bzw. die bed. W. von Abei gegebenem B.

Page 42: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

34 KAPITEL 4. BEDINGTE WAHRSCHEINLICHKEITEN

Satz 4.1 (Rechenregeln für bedingte Wahrscheinlichkeiten)

B ⊆ A =⇒ P (A|B) = 1(4.1)

A ∩ B = ∅ =⇒ P (A|B) = 0(4.2)

A1, A2, . . . paarw. disjunkt =⇒ P(∑

i

Ai

∣∣∣ B)

=∑

i

P (Ai|B)(4.3)

P (A|B) = 1 − P (A|B)(4.4)

P( n⋂

i=1

Ai

)

6= 0 =⇒(4.5)

P( n⋂

i=1

Ai

)

= P (An|An−1 · · ·A1) · P (An−1|An−2 · · ·A1) · · ·P (A2|A1) · P (A1)

Beweis:

(4.1) P (A|B) =P (AB)

P (B)=

P (B)

P (B)= 1

(4.2) P (A|B) =P (AB)

P (B)=

P (∅)P (B)

= 0

(4.3)

P

(∑

i

Ai

∣∣∣B

)

=

P

((∑

iAi

)∩ B

)

P (B)=

P

(∑

iAiB

)

P (B)=

iP (AiB)

P (B)

=∑

i

P (AiB)

P (B)=∑

i

P (Ai|B)

(4.4) 1 =P (ΩB)

P (B)= P (Ω|B) = P (A + A | B) = P (A|B) + P (A|B)

(4.5)

P( n⋂

i=1

Ai

)

= P (An|(An−1 ∩ · · · ∩ A1)) · P (An−1 ∩ · · · ∩ A1)

= P (An|An−1 · · ·A1) · P (An−1|An−2 · · ·A1) · P (An−2 ∩ (An−3 ∩ · · · ∩ A1))

= P (An|An−1 · · ·A1) · P (An−1|An−2 · · ·A1) · · ·P (A3|A2A1) · P (A2|A1) · P (A1)

Beispiel 4.2 (Signalübertragung) Über einen ”Kanal” werden die ”Signale” 0 bzw. 1 über-tragen. Aufgrund von Störungen können sich das gesendete und das empfangene Signal unter-scheiden. Als Versuchsausgänge betrachten wir die Paare

(i, j) mit i, j ∈ 0, 1 und i = gesendetes (j = empfangenes) Signal .

Page 43: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

35

Dann gilt also Ω = (0, 0) , (0, 1) , (1, 0) , (1, 1) (i.a. kein Laplaceraum) .

Nun betrachten wir die folgenden Ereignisse:

Si := ”i wird gesendet” = (i, 0), (i, 1) für i = 0, 1 ,

Ei := ”i wird empfangen” = (0, i), (1, i) für i = 0, 1 und

F := ”Fehler tritt auf” = (1, 0), (0, 1) .

In der Praxis kennt man sowohl die Wahrscheinlichkeiten P (S0) und P (S1) mit denen dieSignale gesendet werden, als auch die Fehlerwahrscheinlichkeiten für beide Signale

fi := P (F | Si) i = 0, 1 ,

mit

f0 = P((0, 1) |S0

)6= P ((0, 1)) bzw. f1 = P

((1, 0) |S1

)6= P ((1, 0) .

Die Angabe dieser beiden Fehlerwahrscheinlichkeiten f0 und f1 ist in der Regel sinnvoll, da Über-tragungsfehler häufig frequenzabhängig, also von der Art der übertragenen ”Nachricht” abhängigsind.

Natürlich interessiert man sich auch für den ”totalen Fehler” des Übertragungskanals

P (F ) = P (F ∩ Ω) = P (F ∩ (S0 + S1))

= P (F ∩ S0) + P (F ∩ S1)

= P (F |S0) · P (S0) + P (F |S1) · P (S1)

= f0 · P (S0) + f1 · P (S1)

Diese Berechnung der ”totalen Wahrscheinlichkeit” eines Ereignisses Tupel sich auch verallgemei-nern:

Satz 4.2 (Formel von der totalen Wahrscheinlichkeit)Sei (Ω,P(Ω), P ) ein diskreter WR mit

B,A1, A2, . . . ⊆ Ω und A1, A2, . . . paarweise disjunkt ,

dann gilt

B ⊆∑

i

Ai =⇒ P (B) =∑

i

P (B|Ai) · P (Ai)

Falls einzelne Ai die Wahrscheinlichkeit 0 besitzen, also die bedingten Wahrscheinlichkeiten P (B|Ai)nicht definiert sind, bleibt die Formel gültig, wenn die entsprechenden Summanden weggelassenwerden.

Page 44: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

36 KAPITEL 4. BEDINGTE WAHRSCHEINLICHKEITEN

Beweis:

P (B) = P(

B ∩∑

i

Ai

)

= P(∑

i

B ∩ Ai

)

=∑

i

P (B ∩ Ai) =∑

i

P (B|Ai) · P (Ai)

Beispiel 4.3 Ein Informatikstudent ist begeisterter Angler. Dazu sucht er abwechselnd dreiverschiedene Seen auf (Ereignisse S1, S2 und S3). Seine Freundin weiß aus langjähriger Beob-achtung, dass er diese Seen mit den folgenden Wahrscheinlichkeiten aufsucht:

P (S1) =1

2(Mitanglerin ?) , P (S2) = P (S3) =

1

4.

Die Wahrscheinlichkeit, innerhalb einer Stunde einen Fisch zu angeln (Ereignis F ), ist an denSeen unterschiedlich, nämlich

P (F |S1) =2

3, P (F |S2) =

3

4und P (F |S3) =

4

5.

An einem Sonntag geht er angeln, ohne sein Ziel mitzuteilen. Mit welcher Wahrscheinlichkeitangelt er innerhalb einer Stunde einen Fisch?

P (F ) = P (F |S1) · P (S1) + P (F |S2) · P (S2) + P (F |S3) · P (S3)

=2

3· 1

2+

3

4· 1

4+

4

5· 1

4=

1

3+

3

16+

1

5

=173

240= 72, 1%

Nach einer Stunde ruft der Student bei seiner Freundin an, dass er noch keinen Fisch geangelthat, ohne mitzuteilen an welchem See er sich befindet. Wie groß ist die Wahrscheinlichkeit, dasser am See 1 angelt ( P (S1|F ) ) ?

Satz 4.3 (Formel von Bayes)Unter den Voraussetzungen des Satzes 4.2 mit P (B) > 0 gilt

P (Ak) > 0 =⇒ P (Ak|B) =P (B|Ak) · P (Ak)∑

i P (B|Ai) · P (Ai)∀k

Beweis:

P (Ak|B) =P (BAk)

P (B)=

P (B|Ak) · P (Ak)∑

i P (B|Ai) · P (Ai)

Page 45: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

37

Beispiel 4.4 (Angler) Für die gesuchte Wahrscheinlichkeit aus Beispiel 4.3 dafür, dass derStudent nach seinem Anruf sich am See 1 (Mitanglerin) aufhält, gilt demnach:

P (S1|F ) =P (F |S1) · P (S1)

P (F )=

13 · 1

2

1 − 173240

=40

67= 59, 7% > P (S1) = 50%

Häufig kommt es vor, dass die Wahrscheinlichkeit für das Eintreten eines Ereignisses A nichtdavon abhängt, ob eine Hypothese (Ereignis: H) zutrifft oder nicht gilt. In der Sprache derbedingten Wahrscheinlichkeiten hieße das

P (A|H) = P (A) .

Umgangssprachlich sagt man, dass das Ereignis A von der Hypothese H unabhängig ist.

Sei F das Ereignis, dass ein zufällig ausgewählter Student einen Fisch innerhalb einer Stundefängt, und B das Ereignis, dass ein zufällig ausgewählter Student die CDU wählt, so scheint esklar zu sein, dass F von B unabhängig ist. Bestehen Zweifel an dieser Aussage, müsste mandurch wiederholtes Beobachten versuchen, die Abhängigkeit bzw. Unabhängigkeit zu belegen.

Besonders interessant ist dies bei Ereignissen wie z.B.A = ”zufällig ausgewählter Mensch stirbt an Lungenkrebs” undB = ”zufällig ausgewählter Mensch ist Raucher” .

Mathematisch wählt man für die Definition der Unabhängigkeit nicht den obigen intuitivenZugang mit Hilfe der bedingten Wahrscheinlichkeiten, sondern fordert:

Definition 4.2 Seien (Ω,P(Ω), P ) ein diskreter WR und A,B ⊆ Ω beliebige Ereignisse,dann heißen A und B (stochastisch) unabhängig genau dann, wenn gilt:

P (A ∩ B) = P (A) · P (B) .

Der folgende Satz zeigt, dass diese Definition i.a. dem intuitiven Zugang entspricht.

Satz 4.4 Unter den Voraussetzungen der Definition 4.2 gilt für alle Ereignisse B mit P (B) > 0

A,B unabhängig ⇐⇒ P (A|B) = P (A)

Beweis:

=⇒: P (A|B) =P (A ∩ B)

P (B)=

P (A) · P (B)

P (B)= P (A)

bzw.=⇒: P (A ∩ B) = P (A|B) · P (B) = P (A) · P (B)

Page 46: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

38 KAPITEL 4. BEDINGTE WAHRSCHEINLICHKEITEN

Im allgemeinen wird man ohne weitere Prüfung feststellen, dass Ereignisse, die in keinem kausa-len Zusammenhang stehen, auch stochastisch unabhängig sind. So sind zwei aufeinanderfolgendeWürfe beim Würfeln oder Ziehungen beim Zahlenlotto sicher auch stochastisch unabhängig. Esist also nicht zu erwarten, dass eine Strategie beim Ausfüllen des Lottoscheins, die von den vorher-gehenden Lottozahlen Gebrauch macht (”keine Zahl erneut tippen”, ”gesamte Folge wiederholen”)irgendeinen geführt auf die Gewinnchancen hat (auch keinen negativen!).

Ebenso oft wird man auch zwischen stochastisch abhängigen Ereignissen einen kausalen Zusam-menhang vermuten, der aber i.a. nicht unmittelbar vorhanden sein muss. Auch stochastischeUnabhängigkeit ist keine Garantie für das Fehlen eines kausalen Zusammenhangs. Man sollte al-so vorsichtig mit der Interpretation solcher Ergebnisse sein, sondern nachgewiesene stochastischeAbhängigkeiten nur dazu benutzen, gezielt nach kausalen Zusammenhängen zu suchen.

Beispiel 4.5 So haben beispielsweise statistische Untersuchungen ergeben, dass parallel zurAbnahme der Geburten in Niedersachsen auch die Zahl der Weissstörche abgenommen hat. Ausder stochastischen Abhängigkeit auf einen kausalen Zusammenhang zu schließen, erscheint jedochetwas abenteuerlich.

Satz 4.5

(1) A,B unabhängig =⇒ A,B , A,B und A,B unabhängig

(2) AB = ∅ und P (A), P (B) > 0 =⇒ A,B nicht unabhängig (= abhängig)

Beweis:

(1) : A,B unabhängig =⇒

P (AB) = P (A\AB) = P (A) − P (AB) = P (A) − P (A) · P (B)

= P (A) · (1 − P (B)) = P (A) · P (B)

P (AB) = P (BA) = P (B) · P (A) = P (A) · P (B)

P (AB) = P (A\(AB)) = P (A) − P (AB)

= P (A) − P (A) · P (B) = (1 − P (A)) · (1 − P (B)) = P (A) · P (B)

(2) : Der Beweis wird indirekt geführt.

A,B unabhängig =⇒

0 < P (A) · P (B) = P (AB) = P (∅) = 0 Widerspruch!

Page 47: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

39

Beispiel 4.6 (Geschlechtsverteilung in einer Familie) Wir betrachten nur Familien mitdrei Kindern. Es werde das Geschlecht jedes Kindes (m = ”männlich” und w = ”weiblich”) demAlter nach geordnet notiert.

Ω =mmm,mmw,mwm, . . .

mit |Ω| = 23 = 8

Wir betrachten die folgenden Ereignisse :

H : ”Eine zuf. ausgewählte Familie hat mindest. einen Jungen und mindest. ein Mädchen”

A : ”Eine zuf. ausgewählte Familie hat höchstens ein Mädchen”

Hier kann man einen kausalen Zusammenhang weder unmittelbar feststellen noch verneinen.

Nun gilt aber:

H = Ω\mmm,www mit |H| = 8 − 2 = 6

A = mmm,mmw,mwm,wmm mit |A| = 4

P (H) =2 · 38

=3

4, P (A) =

4

8=

1

2A ∩ H = mmw,mwm,wmm mit |A ∩ H| = 3

P (A ∩ H) =3

8=

3

4· 1

2= P (H) · P (A)

Die Ereignisse H und A sind also unabhängig.

Aber: Man rechnet leicht nach, dass die entsprechenden Ereignisse in Familien mit 2 oder 4Kindern nicht unabhängig sind.

Beispiel 4.7 (Ziegenproblem) In einer amerikanischen Fernsehshow kann der Kandidatein Auto gewinnen, wenn er errät hinter welcher von drei Türen das Auto steht. Hinter denanderen Türen steht je eine Ziege. Das Raten läuft in zwei Stufen ab. Zunächst tippt der Kandidatauf eine Tür. Dann öffnet der Moderator, der weiß, wo das Auto steht, eine nichtgetippte Tür,hinter der eine Ziege steht. Jetzt bekommt der Kandidat noch einmal die Möglichkeit seine ersteEntscheidung für eine Tür zu revidieren. Lohnt sich für ihn eine Änderung, sollte er besser beiseiner ersten Entscheidung bleiben oder ist es gleichgültig was er tut?

Der Begriff der Unabhängigkeit von 2 Ereignissen Tupel sich auf verschiedene Arten auf dieUnabhängigkeit von n Ereignissen übertragen.

Definition 4.3 (paarweise Unabhängigkeit)Die Ereignisse A1, A2, . . . , An heißen paarweise unabhängig, wenn für alle Paare mit Ai, Aj (i 6=j)

P (Ai ∩ Aj) = P (Ai) · P (Aj)

gilt.

Page 48: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

40 KAPITEL 4. BEDINGTE WAHRSCHEINLICHKEITEN

Definition 4.4 (vollständige Unabhängigkeit)Die Ereignisse A1, A2, . . . , An heißen vollständig unabhängig, wenn für jedes k ≥ 2 undfür jede Teilauswahl Ai1 , Ai2 , . . . , Aik (i1, . . . , ik paarweise verschieden) der Länge k aus diesenEreignissen

P (Ai1 ∩ Ai2 ∩ . . . ∩ Aik) = P (Ai1) · P (Ai2) · · ·P (Aik)

gilt.

Bemerkung:

Für die Definition 4.3 müssen(n2

)Gleichungen und für Definition 4.4 insgesamt

(n

2

)

+

(n

3

)

+ · · · : +

(n

n

)

= 2n − n − 1

Gleichungen überprüft werden (einschließlich der Gleichungen für Definition 4.3). Damit gilt auch

A1, . . . , An vollst. unabh. =⇒ A1, . . . , An paarw. unabh.

Die Umkehrung gilt i.a. nicht.

Satz 4.6 Sind die Ereignisse A1, A2, . . . An ⊆ Ω vollst. unabhängig und gilt P (Ai) > 0∀ i = 1, . . . , n , dann gilt für beliebige Auswahlen Ai1 , . . . , Aik der Länge k = 1, . . . , n − 1

P (Aj | Ai1 · · ·Aik) = P (Aj) ∀ j 6= il (l = 1, . . . , k) .

Beweis:

Wegen der vollständigen Unabhängigkeit der Ai gilt wegen P (Ai) > 0 (i = 1, . . . , n) auch füralle Teilauswahlen der Ai

P (Ai1 · · ·Aik) = P (Ai1) · · ·P (Aik) > 0 .

So existiert auch die folgende bedingte Wahrscheinlichkeit und es gilt

P (Aj | Ai1 · · ·Aik) =P (Ai1 · · ·Aik · Aj)

P (Ai1 · · ·Aik)=

P (Ai1) · · ·P (Aik) · P (Aj)

P (Ai1) · · ·P (Aik)

= P (Aj) .

Beispiel 4.8 Ein stochastisches Experiment bestehe aus einem regulären Münzwurf (die Er-eignisse ”Kopf” = K und ”Zahl” = Z treten jeweils mit der W. 1/2 ein) und dem Wurf miteinem Würfel (”1” = 1 , . . . , ”6” = 6 jeweils mit W. 1/6). Zwischen beiden Wurfergebnis-sen besteht offensichtlich kein kausaler Zusammenhang, so dass für die Kombinationsergebnisse(Unabhängigkeit) gilt:

Page 49: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

41

1. Zufallsexperiment Münzwurf:

WR : (ΩM ,P(ΩM ), PM ) , ΩM = K,Z , PM (K) = PM (Z) =1

2

2. Zufallsexperiment Würfeln:

WR : (ΩW ,P(ΩW ), PW ) , ΩW = 1, . . . , 6 , PW (i) =1

6∀i

Für den Gesamt – Wahrscheinlichkeitsraum (Ω,P(Ω), P ) gilt dann

Ω = ΩW × ΩM = 1, . . . , 6 × K,Z =

(i,m) : i ∈ 1, . . . , 6 , m ∈ K,Z

mit

P (i ∩ m) = PW (i) · PM (m) =1

6· 1

2=

1

12(i = 1, . . . , 6 , m = K,Z)

Damit ist die Wahrscheinlichkeit P auf dem obigen Produktraum wegen der Unabhängigkeitdie obige Produktwahrscheinlichkeit P = PW ⊗ PM .

Nun wollen wir diese Bezeichnungen auf Kombinationen von n unabhängigen Zufallsexperimentenausdehnen.

Definition 4.5 (Produktraum)(Ω1,P(Ω1), P1) , . . . , (Ωn,P(Ωn), Pn) seien n diskrete Wahrscheinlichkeitsräume.

(Ω,P(Ω), P ) heißt der zugehörige Produktraum, wenn gilt

Ω = Ω1 × · · · × Ωn(4.6)

P ((ω1, . . . , ωn)) = P1(ω1) · · ·Pn(ωn)) ∀ω = (ω1, . . . , ωn) ∈ Ω(4.7)

P = P1 ⊗ · · · ⊗ Pn heißt die Produktwahrscheinlichkeit von P1, . . . , Pn

Bemerkung (Rechnen in Produkträumen):

Sei (Ω,P(Ω), P ) der obige diskrete Produktraum, dann gilt für beliebige Ai ∈ Ωi :

P (A1 × · · · × An) = P1(A1) · · ·Pn(An)

Beispiel 4.9 (Bernoulli–Experiment, Binomialverteilung)Im Urnenmodell II des Abschnitts 3.2 haben wir durch Zurücklegen der jeweils gezogenen Kugelerreicht, dass bei jedem erneuten Ziehen die gleiche Situation herrscht, aufeinanderfolgende Zie-hungen sich also nicht gegenseitig beeinflussen können. Die Ergebnisse aller Ziehungen sind alsovollständig unabhängig.

Page 50: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

42 KAPITEL 4. BEDINGTE WAHRSCHEINLICHKEITEN

In einer Verallgemeinerung dazu betrachten wir zunächst die i-te Ziehung mit den möglichenAusgängen ”Erfolg”(E) oder ”Misserfolg”(E).

Ωi = E,E (i = 1, . . . , n)

und erhalten für den gesamten Raum

Ω = Ω1 × · · · × Ωn = E,En .

Ebenso erhalten wir für die Wahrscheinlichkeiten

Pi(E) = p bzw. Pi(E) = q = 1 − p (i = 1, . . . , n)

Wegen der Unabhängigkeit der Ziehungen gilt also

P = P1 ⊗ · · · ⊗ Pn .

Nun interessieren wir uns für das Ereignis

Ak = ”in n Ziehungen genau k-mal Erfolg” .

Ein ω = (ω1, . . . , ωn) mit genau k-mal ”Erfolg” besitzt die Produktwahrscheinlichkeit

P (ω) = pk(1 − p)n−k .

Insgesamt gibt es aber(nk

)verschiedene solcher Ereignisse mit dieser W. (Anzahl der Möglich-

keiten, k Erfolgsereignisse auf die n Ziehungen zu verteilen), so dass insgesamt

P (Ak) =

(n

k

)

pk(1 − p)n−k (k = 0, 1, . . . , n)

gilt.

Definition 4.6 (Bernoulli–Experiment) Ein Zufallsexperiment mit zwei möglichen Aus-gängen E (Erfolg) oder E (Ingenieure) mit den Wahrscheinlichkeiten

P (E) = p und P (E) = 1 − p

heißt Bernoulli-Experiment. Eine n-malige unabhängige Ausführung eines Bernoulli–Experi-mentes heißt n-faches Bernoulli–Experiment.

Satz 4.7 Für die Wahrscheinlichkeit, bei einem n-fachen Bernoulli–Experiment genau k–malErfolg zu haben, gilt

P (Ak) =

(n

k

)

pk(1 − p)n−k (k = 0, 1, . . . , n) .

Page 51: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

43

Zum Abschluss wollen wir noch das folgende Spiel betrachten:

A und B werfen eine symmetrische Münze (Wahrscheinlichkeit für Wappen (W ) und Zahl (Z)jeweils 1/2), bis eine der folgenden Dreiersequenzen auftritt. A gewinnt, falls zuerst ZWZ undB, falls zuerst WWW auftaucht. Da B diese Vorlesung bereits zum zweiten Mal hört und weiß,dass beide Sequenzen gleich wahrscheinlich sind, hält er dieses Spiel für fair. Wie groß ist abernun die Erfolgswahrscheinlichkeit für beide Spieler tatsächlich?

Wollen wir den Wahrscheinlichkeitsraum nach dem bisherigen Muster aufschreiben, so werden wirfeststellen, dass das zwar möglich, aber außerordentlich schwierig ist. So wollen wir die möglichenAusgänge und ihre Wahrscheinlichkeiten anders notieren. So ist es z.B. nicht erforderlich, diegesamte geworfenen Sequenz zu notieren, sondern nur die für den Fortgang erforderlichen letztenSequenzen. So reicht bei der Sequenz WWZZWWZW das Festhalten der beiden letztenErgebnisse ZW , da nur sie für die Entscheidung über den Gewinn bedeutsam sind.

Das Diagramm enthält die relevanten Wurfergebnisse (Zustände) und die bedingten Wahrschein-lichkeiten (jeweils 1/2), mit denen der jeweilige Folgezustand erreicht wird.

Abbildung 4.1: übergangsdiagramm für ein Münzwurfspiel

&%'$

&%'$Start

W

Z

>

ZZZ~

?

1/2

&%'$

&%'$

WW

ZW

-

-

6

WWW

ZWZ

-

-

1/2

1/2

1/2

1/2

1/2

1/2

1/2

1/2

1/2

B gewinnt

A gewinnt

Nun wollen wir die Wahrscheinlichkeit q für den Sieg des Spielers A ermitteln. Dabei verwendenwir die folgenden Bezeichnungen:

q(S) := P (A gewinnt | Spiel im Zustand S) ∀ S = ”relevanter Zustand”

mit

S ∈W,Z,WW,ZW,WWW,ZWZ

Page 52: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

44 KAPITEL 4. BEDINGTE WAHRSCHEINLICHKEITEN

Aus der Formel für die totale Wahrscheinlichkeit gewinnen wir durch

q = P (A gewinnt)

= P (A gewinnt | Spiel im Zustand Z) × P (Spiel im Zustand Z)

+ P (A gewinnt | Spiel im Zustand W ) × P (Spiel im Zustand W )

=1

2· q(Z) +

1

2· q(W )

die folgenden Gleichungen:

q =1

2· q(W ) +

1

2· q(Z) ,(4.8)

q(W ) =1

2· q(WW ) +

1

2· q(Z) ,(4.9)

q(Z) =1

2· q(Z) +

1

2· q(ZW ) ,(4.10)

q(WW ) =1

2· q(Z) und(4.11)

q(ZW ) =1

2+

1

2· q(WW ) .(4.12)

Die Gleichungen 4.9 – 4.12 stellen ein eindeutig lösbares lineares Gleichungssystem für die obigenbedingten Wahrscheinlichkeiten dar. Nach kurzer Rechnung ergibt sich:

q(Z) = q(ZW ) =2

3, q(WW ) =

1

3und q(W ) =

1

2.

Setzt man diese Lösungen in die Gleichung 4.8 ein, so erhält man

q =7

12>

1

2.

Spieler A hat größere Chancen, das Spiel zu gewinnen. Es ist also nicht fair.

Page 53: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 5

Zufallsvariable

5.1 Definition und Beispiele

Einem diskreten Wahrscheinlichkeitsraum(Ω,P(Ω), P ) liegt stets ein konkretes Zufallsexperi-

ment mit den möglichen Ausgängen ω ∈ Ω zugrunde, die zunächst verbal beschrieben werden.In der Regel werden wir Versuchsausgänge bzw. daraus zusammengesetzte Ereignisse numerischbewerten, d.h. i.a. durch Angabe einer reellen Zahl festlegen.

Beispiel 5.1 (n–faches Bernoulli–Experiment) Ω = E,En mit P (E) = p und deninteressierenden Ereignissen

Ak = ”Genau k–mal Erfolg” mit P (Ak) =

(n

k

)

pk(1 − p)n−k .

Hier interessiert man sich nicht mehr für die Ausgangsereignisse, sondern nur noch für die Größek. Wir ordnen jedem Versuchsausgang ω die Anzahl der ”Erfolge” X zu. Die tatsächliche Größevon X hängt also von ω ab:

X(ω) = Anzahl der Erfolge in ω

Damit stellt X eine FunktionX : Ω −→ IR

dar.

Diese Funktion X (numerische Bewertung der Versuchsausgänge ω, bzw. der interessierendenEreignisse Ak) benutzen wir nun dazu, die Ereignisse Ak kürzer auszudrücken:

Ak = ω : X(ω) = k bzw.

P (Ak) = P(

ω : X(ω) = k)

=: P (X = k) =

(n

k

)

pk(1 − p)n−k .

45

Page 54: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

46 KAPITEL 5. ZUFALLSVARIABLE

Man sagt dann auch, ”Die Zufallsgröße X ist binomialverteilt”, und schreibt

X ∼ Bi(n, p) .

Beispiel 5.2 (Hypergeometrische Verteilung) Der zugrunde liegende Wahrscheinlich-keitsraum wird durch das Urnenmodell I (Ziehen ohne Zurücklegen) beschrieben. Auch hier in-teressieren wir uns i.a. nur für die Anzahl r der gezogenen ”roten Kugeln” und bezeichnen siemit X .

Ar = ”Anzahl der roten Kugeln beim n–fachen Ziehen ohne Zurücklegen = r”

= ω : X(ω) = r und damit

P (Ar) = P(

ω : X(ω) = r)

= P (X = r) =

(Rr

)·(N−R

n−r

)

(Nn

)

Man sagt: Die Zufallsgröße X ist hypergeometrisch verteilt

und schreibt X ∼ Hyp(n;N,R) .

Definition 5.1 (Diskrete Zufallsvariable) Sei(Ω,P(Ω), P

)ein diskreter Wahrschein-

lichkeitsraum, dann heißt eine Abbildung

X : Ω −→ IR

eine diskrete (reellwertige) Zufallsvariable (ZV) auf dem obigen WR. In der Literatur wer-den auch die Bezeichnungen Zufallsgröße oder seltener (weil irreführend) zufällige Funktionbenutzt.

Mit Hilfe des Begriffs der Zufallsvariablen sind wir in der Lage, eine Reihe von häufig interessie-renden Ereignissen eleganter mathematisch auszudrücken.[X = x] := ω ∈ Ω : X(ω) = x ”X nimmt den Wert x an”[X ∈ A] := ω ∈ Ω : X(ω) ∈ A ”X nimmt einen Wert aus A an”[X ≤ x] := ω ∈ Ω : X(ω) ≤ x ”X nimmt einen Wert kleiner oder gleich x an”

Definition 5.2 Sei X eine diskrete ZV auf dem WR (Ω,P(Ω), P ) , dann heißenΩX = x ∈ IR : X(ω) = x für mindestens ein ω ∈ Ω der Bildraum von Ω unter X undfX : ΩX IR1 mit fX(x) := P (X = x) die (diskrete) Verteilungsdichte

bzw. die Zähldichte von X.Umgekehrt wird durch fX auf ΩX eine Wahrscheinlichkeit

PX(B) :=∑

x∈B

fX(x) ∀ B ⊆ ΩX

festgelegt.(

x, fX(x))

: x ∈ ΩX

heißt auch die (Wahrscheinlichkeits–)Verteilung von X.

Page 55: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.1. DEFINITION UND BEISPIELE 47

Bemerkungen:

1. Man sagt auch, dass die Zufallsvariable X : Ω −→ ΩX den Wahrscheinlichkeitsraum(Ω,P(Ω), P

)auf den Wahrscheinlichkeitsraum

(ΩX ,P(ΩX), PX

)abbildet und schreibt:

X :(Ω,P(Ω), P

)−→

(ΩX ,P(ΩX ), PX

)(von X induzierter WR) .

2. Für die Wahrscheinlichkeiten PX gilt für alle B ⊆ ΩX :

PX(B) =∑

x:x∈B

fX(x)

=∑

x:x∈B

P (X = x) =∑

x:x∈B

P (ω : X(ω) = x)

= P (ω : X(ω) ∈ B) = P(X−1(B)

)

X−1(B) ist das Urbild von B bzgl. der Zufallsvariablen (Abbildung) X, also die Mengeder Versuchsausgänge aus Ω, die zum Eintreten des Ereignisses B ⊆ ΩX führen.

3. Statt ”X ist ZV auf dem diskreten WR (Ω,P(Ω), P )” schreiben wir i.a. kürzer ”X istdiskrete ZV auf Ω”.

4. Seien X, Y , Z diskrete reellwertige ZV auf Ω und A, B, C Teilmengen von IR, so schreibenwir:

P(

ω : X(ω) ∈ A ∩ ω : Y (ω) ∈ B ∩ ω : Z(ω) ∈ C)

=: P(X ∈ A,Y ∈ B,Z ∈ C

)

5. Wie üblich ist X + Y definiert als die Abbildung

X + Y : ω 7−→ X(ω) + Y (ω) .

Analog sindX

Y, falls Y (ω) 6= 0 für alle ω ∈ Ω und

X · Y , Xk , g(X) , h(X,Y ) , . . .

mit h : ω 7−→ h(X(ω), Y (ω)

)∈ IR definiert und ebenfalls diskrete Zufallsvariable.

Beispiel 5.3 (Geometrische Verteilung) Ein Bernoulli–Experiment mit der Erfolgswahr-scheinlichkeit p für das Ereignis E wird so oft wiederholt, bis zum ersten Mal der Erfolg Eeintritt. Wir interessieren uns also für die Versuchsausgänge aus

Ω =

E,E E,E E E,E E E E, . . .

Da wir uns hier nur für die Anzahl der Misserfolg vor dem ersten Erfolg interessieren, betrachtenwir die Zufallsvariable

X(ω) = ”Anzahl der Misserfolg in ω” .

Page 56: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

48 KAPITEL 5. ZUFALLSVARIABLE

X kann also die Werte k = 0, 1, 2, . . . annehmen.

Legt man fest, dass die Durchführung eines Bernoulli–Experiments eine Zeiteinheit beträgt, kannman die obige ZV auch als Wartezeit bis zum ersten Eintreten eines Erfolges bezeichnen.

Man sieht leicht

fX(k) = P (X = k) = P(

E · · ·E︸ ︷︷ ︸

k – mal

E)

= (1 − p)kp ∀ k = 0, 1, 2, . . .

Bemerkung

• Eine diskrete Zufallsvariable X mit der Dichte

fX(k) = (1 − p)kp ∀k = 0, 1, 2, . . . (0 < p < 1)

heißt geometrisch verteilt mit dem Parameter p und schreibt

X ∼ Geo(p) .

• Die bezeichnung ist in der literatur nicht einheitlich. Oft wird unter einer geometrischverteilten Zufallsvariablen X∗ die Zufallsvariable verstanden, die die Anzahl aller Versuche(also nicht nur der fehlversuche) bis zum ersten Erfolg zählt. Wegen

X∗ = X + 1

lassen sich die nachfolgenden Ergebnisse auch leicht auf die Verteilung von X∗ übertragen.

fX∗(k) = P (X∗ = k) = (1 − p)k−1p ∀ k = 1, 2, . . .

Geometrisch verteilte Zufallsvariable besitzen dabei die folgende interessante Eigenschaft:

Satz 5.1 Sei X eine geometrisch verteilte Zufallsvariable mit dem Parameter p. Für jedesl ∈ IN ist dann die bedingte Wahrscheinlichkeit

P (X = k + l | X ≥ k) = P (X = l) ,

also unabhängig von k. Man sagt auch, dass die ZV X kein Gedächtnis besitzt.

Beweis:P (X = k + l | X ≥ k) =

P(X = k + l , X ≥ k

)

P (X ≥ k)=

P (X = k + l)

P (X ≥ k)

=(1 − p)k+l · p

p ·(

(1 − p)k + (1 − p)k+1 + · · ·)

=(1 − p)k+l

(1 − p)k (1 + (1 − p) + (1 − p)2 + · · · )

=(1 − p)l

11−(1−p)

= (1 − p)l · p = P (X = l)

Page 57: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.2. ERWARTUNGSWERTE 49

Hinweis:

Für die geometrische Reihe gilt:∞∑

i=0

qi =1

1 − q(|q| < 1)

Dieser Satz besitzt die folgende Interpretation:

Die Tatsache, dass in einer Folge von Bernoulliexperimenten bis zu einem bestimmten Zeitpunkt(k) kein Erfolg eingetreten ist (X ≥ k), verändert die Wartezeit zum nächsten Erfolg nicht.

Die meisten Menschen erwarten dagegen, dass nach einer Reihe von Misserfolgen die Wahrschein-lichkeit für einen Erfolg beim nächsten Mal größer ist als nach einer Folge von Erfolgen. Das istbei Bernoulli–Experimenten offensichtlich falsch!

5.2 Erwartungswerte

Bemerkungen:

1. Bernoulli–Experiment mit dem Parameter p:Wieviele Erfolge erwartet man, wenn das Experiment n–mal unabhängig durchgeführtwird?

p =1

2=⇒ · · · =⇒ n

2– mal ! (Münzwurf)

p =1

6=⇒ · · · =⇒ n

6– mal ! (Würfeln)

Also bei n Versuchen erwarten wir allgemein, dass etwa n · p Erfolge eintreten.

2. Geometrische Verteilung:Ein Spiel bestehe aus einer Folge von unabhängigen Bernoulli–Experimenten mit dem Pa-rameter p. Sobald das erste Mal ein Erfolg eintritt, werden G DM ausgezahlt. Für jedenFehlwurf muss 1 DM bezahlt werden. Wie groß muss G sein, damit das Spiel ”fair” ist bzw.sich für den Anbieter ”lohnt”?oderWie viele Fehlversuche erwarte ich bis zum Eintreten des ersten Erfolges?In Gedanken führen wir das Spiel N–mal durch und ermitteln die relative HäufigkeitrN (i) (i = 0, 1, . . .) der Spiele mit i Fehlversuchen vor dem ersten Erfolg. Da die An-zahl der Spiele mit genau i Fehlversuchen N · rN (i) beträgt, müssen also insgesamt

∞∑

i=0

N · rN (i) · i DM

Page 58: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

50 KAPITEL 5. ZUFALLSVARIABLE

bezahlt werden. Im Mittel müssen also pro Spiel DM∞∑

i=0

rN (i) · i

bezahlt werden. Nun ersetzen wir idealisiert die relativen Häufigkeiten durch die entspre-chenden Wahrscheinlichkeiten für die Wartezeit i. So erhalten wir für die erwarteten Zah-lungen für ein Spiel:

∞∑

i=0

i · P (X = i) .

Dabei ist die Zufallsvariable X (Anzahl der Misserfolg) geometrisch verteilt, so dass wirfür diese ”erwartete Anzahl” weiter

∞∑

i=0

i · (1 − p)i · p = · · · = p · 1 − p

p2(vergl. Beispiel 5.4)

=1 − p

p=

1

p− 1

erhalten. G muss also gleich diesem Betrag gewählt werden, damit das Spiel ”fair” ist. Fürein faires Spiel gilt also

p = 1 =⇒ G = 0

p =1

2=⇒ G = 1 und

p =1

6=⇒ G = 5 .

Definition 5.3 (Erwartungswert) Ist X diskrete Zufallsvariable auf dem Wahrscheinlich-keitsraum

(Ω,P(Ω), P

)und gilt

x∈ΩX

|x| · P (X = x) < ∞ ,

so heißtE X :=

x∈ΩX

x · P (X = x)

der Erwartungswert der Zufallsvariablen X.

Bemerkung:

Die obige Forderung nach der absoluten Konvergenz der Reihe∑

x∈ΩX

x · P (X = x)

ist notwendig, um zu sichern, dass für unendliche Stichprobenräume ΩX ein Umordnen der Sum-manden (andere Nummerierung der Versuchsausgänge) nicht zu einem anderen Erwartungswertführt.

Page 59: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.2. ERWARTUNGSWERTE 51

Beispiel 5.4 (Ermittlung verschiedener Erwartungswerte)

1. X ∼ Bi(n, p)

E X =n∑

i=0

i ·(

n

i

)

pi(1 − p)n−i = · · · = np (vergl. Beispiel 5.13)

2. X ∼ Geo(p) (0 < p < 1)

E X =

∞∑

i=1

i · p(1 − p)i = p(1 − p)

∞∑

i=1

i(1 − p)i−1 = p(1 − p)

∞∑

i=1

d

dxxi

∣∣∣∣x=1−p

= p(1 − p)d

dx

∞∑

i=0

xi

∣∣∣∣∣x=1−p

= 1 p(1 − p)d

dx

1

1 − x

∣∣∣∣x=1−p

= p(1 − p)1

(1 − x)2

∣∣∣∣x=1−p

=p(1 − p)

p2=

1 − p

p=

1

p− 1

Satz 5.2 (Existenz des Erwartungswertes) Falls E X existiert, gilt

E X =∑

ω∈Ω

P (ω) · X(ω) ,

und gilt umgekehrt∑

ω∈Ω

P (ω) ·∣∣X(ω)

∣∣ < ∞ ,

so existiert E X, und es gilt die obige Formel.

Bemerkung:

Wegenx · P (X = x) = x ·

ω : X(ω)=x

X(ω)

tauchen in der obigen Formel dieselben Summanden wie in der Definition auf. Lediglich dieReihenfolge ist verändert, was im Falle der Existenz (absolute Konvergenz) keine Rolle spielt.

1Potenzreihe mit einem Konvergenzradius r = 1 > 1 − p

Page 60: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

52 KAPITEL 5. ZUFALLSVARIABLE

Satz 5.3 (Linearität des Erwartungswertes)

(a) Ist c ∈ IR und X die konstante Abbildung nach c, d.h. es gilt X(ω) = c ∀ ω ∈ Ω ,also P (X = c) = 1 und P (X 6= c) = 0 , dann existiert der Erwartungswert von X undes gilt

E X = c .

(b) Seien X und Y zwei diskrete Zufallsvariable auf dem gleichen Wahrscheinlichkeitsraum,deren Erwartungswerte existieren, und a und b beliebige reelle Zahlen, dann existiert derfolgende Erwartungswert, und es gilt

E a · X + b · Y = a · E X + b · E Y .

Beweis:

(a)∑

x∈ΩX

|x| · P (X = x) =∑

x 6=c

|x| · P (X = x)︸ ︷︷ ︸

= 0

+ |c| · P (X = c)︸ ︷︷ ︸

= 1

= |c| < ∞

E X := E c =∑

x 6=c

x · P (X = x) + c · P (X = c) = 0 + c · 1 = c

(b) Die Existenz des Erwartungswertes ist nach Satz 5.2 wegen der Existenz der Einzelerwar-tungswerte und∑

ω∈Ω

|aX(ω) + bY (ω)|︸ ︷︷ ︸

≤ |a||X|+|b||Y |

·P (ω) ≤ |a|∑

ω∈Ω

|X(ω)| · P (ω)︸ ︷︷ ︸

< ∞

+ |b|∑

ω∈Ω

|Y (ω)| · P (ω)︸ ︷︷ ︸

< ∞

gesichert.

So erhalten wir also

E aX + bY =∑

ω∈Ω

(a X(ω) + b Y (ω)

)· P (ω)

= a∑

ω∈ΩX

X(ω) · P (ω) + b∑

ω∈ΩY

Y (ω) · P (ω)

= a · E X + b · E Y

Bemerkung:

Durch Induktion zeigt man sofort, dass für beliebige Zufallsvariable X1, . . . ,Xn und beliebigea1, . . . , an ∈ IR

E

n∑

i=1

aiXi

=

n∑

i=1

ai E Xi und ebenso E aX + b = a · E X + b

gilt, falls alle Einzelerwartungswerte E Xi existieren.

Page 61: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.2. ERWARTUNGSWERTE 53

Beispiel 5.5 (Sortieren von Listen) Wir betrachten zufällig angeordnete Listen aus n Ele-menten, für die eine eindeutige ”richtige” Anordnung existiert. Als Maß für die Ordnung einerListe zählen wir die Elemente der Liste, die bereits auf ihrem ”richtigen” Platz stehen.

Ω := ω : ω Permutation der Zahlen 1, . . . , n = Pn mit |Ω| = n!

Unter einer ”zufällig” angeordneten Liste wollen wir ein Laplace–Modell verstehen, d.h. alle mög-lichen Listen sind gleichwahrscheinlich, also

P (ω) =1

n!∀ ω ∈ Ω .

X sei die Zufallsvariable, die zählt, wie viele Elemente der Liste auf ihrem richtigen Platz stehen.

Es ist nun sehr schwierig, die Dichte von X, d.h. die Wahrscheinlichkeiten P (X = j) für j =0, . . . , n explizit auszurechnen. Dagegen können wir relativ einfach den Erwartungswert von Xmit der obigen Formel ermitteln. Es gilt nämlich

X = X1 + · · · + Xn

mit Xi(ω) :=

1 falls i-tes Element von ω auf richtigen Platz0 sonst

und E Xi = 1 · P (Xi = 1) =(n − 1)!

n!=

1

n∀ i = 1, . . . , n

E X = E X1 + · · · + E Xn = n · 1

n= 1

Beispiel 5.6 (Hypergeometrische Verteilung) X sei hypergeometrisch verteilt (verglei-che Beispiel 5.2):

X ∼ Hyp(n;N,R) ⇐⇒ P (X = r) =

(Rr

)·(N−Rn−r

)

(Nn

) .

Auch hier ist es nicht einfach, den Erwartungswert (erwartete Anzahl der roten Kugeln bei n-maligem Ziehen ohne Zurücklegen) auf direkte Weise zu ermitteln.

Xi :=

1 falls beim i-ten Zug eine rote Kugel gezogen wird0 sonst

Damit erhalten wir X = X1 + · · · + Xn und

E X = E X1 + · · · + E Xn

mit E Xi = P (Xi = 1) = P (X1 = 1) =R

N∀ i = 1, . . . , n ,

(Wenn nur ein einzelner Zug unabhängig von den anderenbetrachtet wird, ist es gleichgültig, welcher Zug es ist, da dieReihenfolge der gefundenen roten und schwarzen K. gleich-gültig ist.

E X =nR

N

Page 62: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

54 KAPITEL 5. ZUFALLSVARIABLE

Wer misstrauisch ist, führe die folgende Rechnung aus:

E X =n∑

r=1

r ·(R

r

)(N−Rn−r

)

(Nn

) = · · · =nR

N.

Definition 5.4 (Indikatorvariable) Sei(Ω,P(Ω), P ) ein diskreter WR und A ⊆ Ω ein

beliebiges Ereignis, dann heißt die Zufallsvariable IA mit

IA(ω) :=

1 falls ω ∈ A0 falls ω /∈ A

Indikatorvariable über A .

Bemerkung:

E IA = 1 · P (IA = 1) + 0 · P (IA = 0) = P (ω ∈ A) = P (A)

Beispiel 5.7

Xi =

1 falls ein Erfolg im i-ten Versuch eintritt,0 falls kein Erfolg im i-ten Versuch eintritt,

i = 1, . . . , n

X ∼ Bi(n, p) , X =n∑

i=1

Xi =⇒ E X =n∑

i=1

E Xi = np

Definition 5.5 (Bedingter Erwartungswert) Sei X eine Zufallsvariable mit existieren-dem Erwartungswert auf dem diskreten WR

(Ω,P(Ω), P ) und A ⊆ Ω ein beliebiges Ereignis

mit P (A) > 0 , dann heißt

E X | A :=∑

ω∈Ω

X(ω) · P(ω | A

)=

x∈ΩX

x · P (X = x|A)

der bedingte Erwartungswert von X bei gegebenem A (bzw. unter der Bedingung A). FallsP (A) = 0 gilt, kann man E X|A beliebig wählen.

Bemerkung:P (A) > 0 und ω /∈ A =⇒ P (ω|A) = 0

Damit erhalten wir

E X|A =∑

ω∈Ω

X(ω) · P (ω|A) =∑

ω∈A

X(ω) · P (ω|A)

=∑

ω∈A

X(ω) · P (ω ∩ A)

P (A)=∑

ω∈A

X(ω) · P (ω)P (A)

Page 63: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.2. ERWARTUNGSWERTE 55

Satz 5.4 (Unbedingter Erwartungswert) Sei X eine Zufallsvariable mit existierendemErwartungswert auf dem diskreten WR

(Ω,P(Ω), P ) und sei A1, A2, . . . ⊆ Ω eine Folge

paarweise disjunkter Ereignisse mit∑

iAi = Ω , dann gilt analog der Formel für die totale

Wahrscheinlichkeit:E X =

i

E X | Ai · P (Ai) .

Beweis: E X =∑

ω∈Ω

X(ω) · P (ω) =∑

i

ω∈Ai

X(ω) · P (ω)

=∑

i

ω∈Ai

X(ω) · P (ω)P (Ai)

· P (Ai)

=∑

i

E X | Ai · P (Ai)

Beispiel 5.8 (Quicksort) Ein schneller Algorithmus zum Sortieren einer Liste von n Zahlen.

Gegeben: Liste aus n unterschiedlichen natürlichen Zahlen

Vorgehen:Im ersten Schritt wird das erste Objekt der Liste mit allen anderen verglichen (n−1 Vergleiche).Alle kleineren Objekte werden davor, die übrigen dahinter einsortiert, wobei die interne Rangfolgedieser Objekte untereinander teilweise umgekehrt wird.

3 4 1 2 6 7 8

6 7 2 1 8 4 3

Teilliste Teilliste

? ? ? ? ? ? ?

Jetzt werden Teillisten der Elemente gebildet, die nun vor bzw. hinter dem ersten Element ste-hen, und der obige Algorithmus auf beide Teillisten angewendet. Das Verfahren wird rekursivfortgesetzt, bis jede Teilliste eine Länge von einem Element erreicht hat.

Die benötigte Rechenzeit für diesen Sortieralgorithmus hängt im wesentlichen von der Anzahl dernotwendigen Vergleiche ab. Wir wollen daher wissen, wie viele Vergleiche ”im Mittel” benötigtwerden, um eine zufällig angeordnete Liste der Länge n zu ordnen.

Page 64: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

56 KAPITEL 5. ZUFALLSVARIABLE

Dazu konstruieren wir zunächst einen geeigneten WR (vergl. Beispiel 5.5).

Ω := ω : ω ∈ Pn mit |Ω| = n!

Betrachten wir nun alle möglichen Listen als gleichwahrscheinlich (Laplaceraum), erhalten wir

P (ω) =1

n!∀ ω ∈ Ω .

Die Zufallsvariable Xn zähle nun die Anzahl der Vergleiche, die dieser Algorithmus durchführenmuss, um eine Liste ω der Länge n zu sortieren.

Wir interessieren uns also für

E Xn =1

n!

ω∈Ω

Xn(ω) = ?

Dazu betrachten wir die folgenden Ereignisse

Ax := ω : Beim Anfangsschritt rückt das 1. Element auf Platz x ∀ 1 ≤ x ≤ n .

Dabei gilt natürlich

P (Ax) =(n − 1)!

n!=

1

n.

Anschließend sind dann zwei Listen der Länge (x − 1) bzw. (n − x) zu sortieren.

Wir lösen das Problem nun rekursiv. Zunächst gilt für die erwartete (mittlere) Anzahl M(n) dernotwendigen Vergleiche für eine Liste der Länge n:

M(n) := E Xn =

n∑

x=1

E Xn | Ax · P (Ax)

=1

n

n∑

x=1

E Xn | Ax =1

n

n∑

x=1

[(n − 1) + M(x − 1) + M(n − x)

]

= (n − 1) +1

n

[ n−1∑

x=0

M(x) +

n∑

x=1

M(n − x)]

= (n − 1) +2

n

n−1∑

x=0

M(x)(5.1)

Dabei gilt M(0) = M(1) = 0 und weiter

M(2) = 1 +2

2

[

M(0) + M(1)]

= 1 und

M(3) = 2 +2

3

[

M(0) + M(1) + M(2)]

=8

3, u.s.w.

Allgemein erhalten wir aus Gleichung 5.1

nM(n) = n(n − 1) + 2

n−1∑

x=0

M(x) .

Page 65: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.2. ERWARTUNGSWERTE 57

Ersetzt man hier n durch n − 1, erhält man

(n − 1)M(n − 1) = (n − 1)(n − 2) + 2

n−2∑

x=0

M(x)

Subtrahiert man die zweite von der ersten Gleichung, so ergibt sich

nM(n) − (n − 1)M(n − 1) = 2(n − 1) + 2M(n − 1) ,

=⇒ nM(n) = 2(n − 1) + (n + 1)M(n − 1) .

Division dieser Gleichung durch n(n + 1) ergibt

M(n)

n + 1=

2(n − 1)

n(n + 1)+

M(n − 1)

n

bzw.M(n)

n + 1− M(n − 1)

n= 2

[2

n + 1− 1

n

]

.

Ebenso gilt aber

M(n)

n + 1=

(M(n)

n + 1− M(n − 1)

n

)

+

(M(n − 1)

n− M(n − 2)

n − 1

)

+ · · · +

(M(1)

2− M(0)

1

)

︸ ︷︷ ︸

=0

+M(0)

1︸ ︷︷ ︸

= 0

=

n∑

i=2

(M(i)

i + 1− M(i − 1)

i

)

= 2

n∑

i=2

(2

i + 1− 1

i

)

=

n∑

i=2

4

i + 1−

n−1∑

i=1

2

i + 1=

4

n + 1+ 2

n−1∑

i=1

1

i + 1− 2 .(5.2)

Die folgenden Bilder machen die Gültigkeit zweier benötigter Ungleichungen deutlich:

Page 66: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

58 KAPITEL 5. ZUFALLSVARIABLE

-x

6 1x

1

1/2

1/31/4

· · ·1 2 3 4 5 6 7 8 n − 1 n

n−1∑

i=1

1

i + 1=

1

2+

1

3+ · · · +

1

n≤

n∫

1

1

xdx = log n

-x

6 1x

1

1/2

1/31/4

· · ·1 2 3 4 5 6 7 8 n n + 1

log(n + 1) − log 2 =

n+1∫

2

1

xdx ≤

n−1∑

i=1

1

i + 1

Page 67: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.2. ERWARTUNGSWERTE 59

Aus Gleichung 5.2 erhalten wir schließlich

4

n + 1− 2 + 2 log(n + 1) − 2 log 2 ≤ M(n)

n + 1≤ 4

n + 1− 2 + 2 log n

und damit wegen limn→∞

logn + 1log n

= 1 asymptotisch

limn→∞

M(n)

n log n= 2 , also M(n) = O

(n log n

).

Tabelle 5.1: Mittlere Anzahl der Vergleiche in QUICKSORT

n M(n) Anz. paarw. Vergleiche

2 1.00 13 2.67 34 4.83 65 7.40 10

10 24.44 45100 656.24 4.950

10000 155789.27 499.950.000

In Tabelle 5.1 werden die obigen mittleren Anzahlen der notwendigen Vergleiche, mit der An-zahl

(n2

)der notwendigen paarweisen Vergleiche beim klassischen Vorgehen für ausgewählte n

verglichen.

Häufig will man nicht den Erwartungswert einer Zufallsvariablen selbst, sondern den Erwartungs-wert einer Funktion

f : ΩX −→ IR

dieser Zufallsvariablen ermitteln.

Satz 5.5 Ist X eine diskrete Zufallsvariable auf (Ω,P(Ω), P ) und f : ΩX −→ IR, dann gilt

E f(X) =∑

x∈ΩX

f(x)P (X = x) ,

falls die obige Reihe absolut konvergent ist.

Page 68: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

60 KAPITEL 5. ZUFALLSVARIABLE

Beweis:

Y := f(X) ist ebenfalls eine Zufallsvariable auf dem obigen WR. daher gilt

E Y =∑

y∈ΩY

y · P (Y = y) =∑

y∈ΩY

y · P (f(X) = y)

=∑

y∈ΩY

y∑

x∈ΩX : f(x)=y

P (X = x) =∑

y∈ΩY

x∈ΩX : f(x)=y

f(x) · P (X = x)

=∑

x∈ΩX

f(x) · P (X = x)

Beispiel 5.9E |X| =

x∈ΩX

|x| · P (X = x)

5.3 Höhere Momente und erzeugende Funktionen

Definition 5.6 Sei X eine diskrete Zufallsvariable auf (Ω,P(Ω), P ), dann heißen im Falleder Existenz

Mk := EXk

(k ∈ IN) k-tes Moment von X,µk := E

(X − E X)k

(k ∈ IN) k-tes zentriertes Moment von X und

M(k) := E X(X − 1) · · · (X − k + 1) faktorielles Moment der Ordnung k.

Speziell heißen: M1 = E X = M(1) Erwartungswert von X,

µ2 := Var X Varianz von X,

SX :=√

Var X Streuung von X,

VX :=SXE X Variationskoeffizient,

γ1 :=µ3

(Var X)3/2Charliersche Schiefe,

g2 :=µ4

(Var X)2Kurtosis und

γ2 :=µ4

(Var X)2− 3 Exzeß.

Page 69: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.3. HÖHERE MOMENTE UND ERZEUGENDE FUNKTIONEN 61

Bemerkungen:

1.M(k) =

x∈ΩX

x(x − 1) · · · (x − k + 1) · P (X = x)

2. Der Erwartungswert einer Zufallsvariablen beschreibt ihre Lage (Lageparameter). Die Va-rianz beschreibt, wie weit ihre Realisierungen ”im quadratischen Mittel” von diesem Lage-parameter abweichen. Es wäre hier auch sinnvoll

E |X − E X |

zu betrachten. Diese Größe wäre aber für praktische Berechnungen schwieriger zu handha-ben. Dagegen hätte die Größe

µ1 = E X − E X

keinen Sinn, da sie für alle Zufallsvariablen mit existierendem Erwartungswert stets denWert 0 hat.

3. Der Variationskoeffizient berücksichtigt, dass die absoluten Werte der Streuung einer Zu-fallsvariablen in Abhängigkeit von der Größe des Erwartungswertes zu bewerten sind.

4. Die Charliersche Schiefe ist 0, falls die Zufallsvariable symmetrisch zum Erwartungswertverteilt ist. Sie stellt also ein Maß für die Asymmetrie (Schiefe) der Verteilung dar.

5. Die Bedeutung der Kurtosis wird erst für stetige Zufallsvariable klar.

Satz 5.6 (Rechenregeln für Momente) Im Falle der Existenz gilt:

M0 = E 1 = 1(5.3)

E a · g(X) + b · h(X) = a · E g(X) + b · E h(X) Linearität(5.4)

Var X = EX2

− (E X)2︸ ︷︷ ︸

=: E 2 X

(5.5)

Var a · X + b = a2 · Var X(5.6)

Beweis:

5.3 X ≡ 1 , d.h. P (X = 1) = 1 und P (X 6= 1) = 0 =⇒ E X = 1 ·P (X = 1) + 0 = 1

5.4

E a · g(X) + b · h(X) =∑

x∈ΩX

(a · g(x) + b · h(x)) · P (X = x)

= a ·∑

x∈ΩX

g(x) · P (X = x) + b ·∑

x∈ΩX

h(x) · P (X = x)

= a · E g(X) + b · E h(X)

Page 70: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

62 KAPITEL 5. ZUFALLSVARIABLE

5.5

Var X = E

(X − E X)2

= EX2 − 2X · E X + E 2 X

= EX2

− 2E X · E X + E 2 X = EX2

− E 2 X

5.6

Var aX + b = E(aX + b)2

− E 2 aX + b

= Ea2 X2 + 2abX + b2

− (a E X + b)2

= a2 EX2

+ 2ab E X + b2 − a2 E 2 X − 2ab E X − b2

= a2 ·(EX2

− E 2 X)

= a2 · Var X

Beispiel 5.10 (Binomialverteilung) X ∼ Bi(n, p)

Var X = EX2

− E 2 X = EX2

− (np)2

EX2

=

n∑

k=0

k2

(n

k

)

pk(1 − p)n−k

k2

(n

k

)

=k2 · n!

k! (n − k)!= k · n · (n − 1)!

(k − 1)! (n − 1 − (k − 1))!= k · n ·

(n − 1

k − 1

)

EX2

= np

n∑

k=1

k

(n − 1

k − 1

)

pk−1(1 − p)n−1−(k−1)

= np

n−1∑

k=0

(k + 1)

(n − 1

k

)

pk(1 − p)n−1−k

mit Y ∼ Bi(n − 1, p)

= np

n−1∑

k=0

k ·(

n − 1

k

)

pk(1 − p)n−1−k

︸ ︷︷ ︸

= E Y = (n − 1) · p

+ np

n−1∑

k=0

(n − 1

k

)

pk (1 − p)n−1−k

︸ ︷︷ ︸

=

n−1∑

i=0

P (Y = k) = 1

= n(n − 1)p2 + np = n2p2 − np2 + np

Var X = np − np2 = np(1 − p)

Satz 5.7 Im Falle der Existenz der entsprechenden Momente der ZV X gilt

µk =

k∑

i=0

(−1)k−i

(k

i

)

Mi Mk−i1 .

Page 71: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.3. HÖHERE MOMENTE UND ERZEUGENDE FUNKTIONEN 63

Beweis:

µk = E

(X − E X)k

= E

k∑

i=0

(k

i

)

(−1)k−iXi[E X

]k−i

=

k∑

i=0

(−1)k−i

(k

i

)

MiMk−i1

Ein wichtiges Hilfsmittel zur Berechnung von Wahrscheinlichkeiten und Momenten ist die sog.erzeugende Funktion.

Definition 5.7 X sei diskrete ZV mit dem Wertebereich ΩX ⊆ 0, 1, 2, . . . undP (X = i) = pi (i ∈ IN0). Dann heißt die reelle Funktion gX mit

gX(t) :=∑

i∈ΩX

ti · P (X = i) =∑

i∈ΩX

pi · ti = EtX

die erzeugende Funktion der Zufallsvariablen X. Ihr Definitionsbereich ist der Definitionsbe-reich der obigen Potenzreihe.

Bemerkung:

Wegen ∣∣∣∣∣

i

pi · ti∣∣∣∣∣≤∑

i

pi · |t|i|t|≤1

≤∑

i

pi = 1 < ∞ ,

ist die Potenzreihe glm. konvergent für |t| ≤ 1. Ihr Konvergenzradius ist also ≥ 1.

Aus der Analysis wissen wir, dass gX damit für |t| < 1 stetig und beliebig oft differenzierbar, undan der Stelle t = +1 von links und an der Stelle t = −1 von rechts differenzierbar ist. Dabei darfgliedweise differenziert werden, da eine Potenzreihe im Inneren ihres Konvergenzgebietes glm.stetig ist, bzw. am Rande des Gebietes jeweils glm. halbseitig stetig ist.

Betrachten wir die folgenden Ableitungen

dk

dtkgX(t) =

dk

dtk

∞∑

i=0

ti P (X = i) mitdk

dtkti =

0 falls i < k ,

i(i − 1) · · · (i − k + 1)ti−k falls i ≥ k

=

∞∑

i=k

i(i − 1) · · · (i − k + 1) · ti−kP (X = i) = k! · P (X = k) + t · (· · · ) ,

dann gilt für t = 0dk

dtkgX(0) = k! · P (X = k) ∀ k = 0, 1, 2, . . .

Aus der erzeugenden Funktion gX lassen sich also die Einzelwahrscheinlichkeiten durch Differen-tiation ermitteln.

P (X = k) =1

k!g(k)X (0) ∀ k = 0, 1, 2, . . .

Page 72: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

64 KAPITEL 5. ZUFALLSVARIABLE

Damit ist der Name erzeugende (bzw. auch wahrscheinlichkeitserzeugende) Funktion gerecht-fertigt. Aus der erzeugenden Funktion kann die Verteilung der Zufallsvariablen X gewonnenwerden.

Beispiel 5.11 (geometrische Verteilung) X ∼ Geo(p) mit 0 < p < 1.

gX(t) =

∞∑

k=0

tk(1 − p)kp = p · 1

1 − t(1 − p)

für alle

|t(1 − p)| < 1 , d.h. |t| <1

1 − p︸ ︷︷ ︸

≥1

.

Beispiel 5.12 (Binomialverteilung) X ∼ Bi(n, p).

Aus dem binomischen Lehrsatz erhalten wir

gX(t) =n∑

i=0

ti(

n

i

)

pi(1 − p)n−i =n∑

i=0

(n

i

)

(tp)i(1 − p)n−i = (tp + (1 − p))n .

Satz 5.8

P (X = k) =1

k!g(k)X (0) ∀ k = 0, 1, 2, . . .(5.7)

limt↑1

g(k)X (t) = g

(k)X (1−) = M(k)(5.8)

Dabei sind beide Seiten der zweiten Gleichung genau dann endlich, falls Mk endlich ist.

Beweis:

g(k)X (t) =

∞∑

i=k

i(i − 1) · · · (i − k + 1)ti−kP (X = i)

Wegen|t| ≤ 1 =⇒ |i(i − 1) · · · (i − k + 1)ti−k| ≤ ik

und

=⇒ g(k)X (t) ≤

∞∑

i=0

ikP (X = i) ≤ E

Xk

< ∞ ,

ist die obige Reihe glm. abs. konvergent in t ∈ [−1, 1].

Damit dürfen beide Grenzübergänge vertauscht werden.

g(k)X (1−) =

∞∑

i=k

i(i − 1) · · · (i − k + 1)

(

limt↑1

ti−k

)

P (X = i)

=∞∑

i=k

i(i − 1) · · · (i − k + 1)P (X = i) = M(k)

Page 73: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.3. HÖHERE MOMENTE UND ERZEUGENDE FUNKTIONEN 65

Bemerkung:

Aus den faktoriellen Momenten der Ordnungen 1 bis k lassen sich auch die zentrierten und nichtzentrierten Momenten dieser Ordnungen ermitteln.

Var X = EX2

− E 2 X = EX2

− E X + E X − E 2 X= E X(X − 1) + E X (1 − E X) = M(2) + M(1)(1 − M(1))

Beispiel 5.13 (Binomialverteilung) X ∼ Bi(n, p)

X :=

n∑

i=1

Xi mit X1, . . . ,Xn ∼ Bi(1, p) (vergl. Beispiel 5.16)

Var X = Var

n∑

i=1

Xi

= ?

gX(t) =(tp + (1 − p)

)n

g′X(t) = np(tp + (1 − p)

)n−1

E X = M(1) = g′X(1−) = np

g′′X(t) = n(n − 1)p2(tp + (1 − p)

)n−2

M(2) = g′′X(1−) = n(n − 1)p2

E X = np

Var X = M(2) + M(1)

(1 − M(1)

)= n(n − 1)p2 + np(1 − np)

= n2p2 − np2 + np − n2p2 = np − np2 = np(1 − p)

Beispiel 5.14 (Geometrische Verteilung) gX(t) = p1−t(1−p) ∀ |t| < 1

1−p

g′X(t) =p(1 − p)

(1 − t(1 − p)

)2

g′X(1−) =1 − p

p=

1

p− 1 = E X

g′′X(t) =2p(1 − p)2

(1 − t(1 − p)

)3

g′′X(1−) = 2

(1 − p

p

)2

Var X = 2

(1 − p

p

)2

+1 − p

p

(

1 − 1 − p

p

)

=1 − p

p

(

21 − p

p+ 1 − 1 − p

p

)

=1 − p

p2(2 − 2p + p − 1 + p) =

1 − p

p2

Page 74: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

66 KAPITEL 5. ZUFALLSVARIABLE

5.4 Unabhängigkeit von Zufallsvariablen

Wir wollen nun den Begriff der Unabhängigkeit von Ereignissen auf Zufallsvariable X1, . . . ,Xn

übertragen. Dazu ist es notwendig, dass diese Zufallsvariablen auf dem gleichen (gemeinsamen)WR (Ω,P(Ω), P ) definiert sind. Sind die Xi Zufallsvariable auf verschiedenen Ωi (i = 1, . . . , n)definiert, entstammen also unterschiedlichen Zufallsexperimenten, wählt man

Ω := Ω1 × · · · × Ωn .

Sind darüberhinaus die Zufallsexperimente unabhängig, kann man für P die Produktwahrschein-lichkeit, also insgesamt den Produktwahrscheinlichkeitsraum gem. Definition 4.5 wählen. Injedem Fall identifiziert man für alle ω = (ω1, . . . ωn) ∈ Ω mit ωi ∈ Ωi (i = 1, . . . , n)

Xi(ω) := Xi(ωi) ∀ i = 1, . . . , n .

Dann gilt

P (X1 = x1︸ ︷︷ ︸

:=B1⊆Ω1

, . . . ,Xn = xn︸ ︷︷ ︸

:=Bn⊆Ωn

) = P(B1 × · · · × Bn

)

= P1(B1) · P2(B2) · · ·Pn(Bn) = P (X1 = x1) · P (X2 = x2) · · ·P (Xn = xn)

besitzt.

Definition 5.8 (Vollständige Unabhängigkeit von Zufallsvariablen) Die Zufallsvariab-len X1, . . . ,Xn auf (Ω,P(Ω), P ) heißen genau dann (vollständig) unabhängig, wenn

P (Xi1 ∈ C1, . . . ,Xik ∈ Ck) = P (Xi1 ∈ C1) · · ·P (Xik ∈ Ck)

für alle Cj ⊆ ΩXij(j = 1, . . . , n) und beliebige Teilauswahlen i1, . . . , ik aus 1, . . . , n und

alle 2 ≤ k ≤ n gilt.

Bemerkungen:

1. Wie bei der Unabhängigkeit von Ereignissen gibt es auch den Begriff der paarweisen Unab-hängigkeit von Zufallsvariablen, der geringere Anforderungen stellt. Wir werden ihn aberim Verlauf dieser Vorlesung nicht benötigen.

2. Man zeigt leicht, dass es bei diskreten Wahrscheinlichkeitsräumen zur Überprüfung derUnabhängigkeit gem. Definition 5.8 genügt,

P (X1 = x1 , . . . , Xn = xn) = P (X1 = x1) · · ·P (Xn = xn)

für alle xi ∈ Ωi (i = 1, . . . , n) zu zeigen.

3. Die obigen ZV X1, . . . ,Xn , deren gemeinsamer WR der Produktraum ist, sind demnachunabhängig.

Page 75: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.4. UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN 67

Beispiel 5.15 (Bernoulli–Experiment) Die Ausgänge eines Bernoulli–Experimentes mitΩ = E,E , P (E) = p und P (E) = 1 − p werden durch die Zufallsvariable

X(ω) =

1 falls ω = E0 falls ω 6= E

beschrieben. Für das n–fache Bernoulli–Experiment (n–fache unabhängige Ausführung) sind dieZufallsvariablen X1, . . . Xn für die Einzelexperimente gem. dieser Verteilung unabhängige Zu-fallsvariable auf dem Produktwahrscheinlichkeitsraum

(Ωn,P (Ωn) , Pn) mit Ωn =n

Xi=1

Ω , Pn =n⊗

i=1

P .

Satz 5.9 (Rechenregeln für unabhängige Zufallsvariable) Seien X1, . . . ,Xn n unab-hängige Zufallsvariable mit endlichen Erwartungswerten, dann gilt

1. Die ZV X1 · X2 · · ·Xn besitzt einen endlichen Erwartungswert, nämlich

E X1 · X2 · · ·Xn = E X1 · E X2 · · ·E Xn

2. Existieren zusätzlich die Varianzen der Xi (i = 1, . . . , n) , gilt

Var

n∑

i=1

ai · Xi

=n∑

i=1

a2i · Var Xi

3. Existieren die erzeugenden Funktionen gX1 , . . . , gXn ∀ |t| ≤ t0 dann gilt:

gPni=1 Xi

(t) =

n∏

i=1

gXi(t) ∀ |t| ≤ t0

Beweis:

Es genügt den Beweis jeweils für n = 2 zu führen.

1. Nach Voraussetzung gilt E |X1| ,E |X2| < ∞ und mit Z := X1 · X2

E |Z| =∑

z∈ΩZ

|z| · P (Z = z)

=∑

z∈ΩZ

|z|∑

x1∈ΩX1

x2∈ΩX2: x1·x2=z

P (X1 = x1 , X2 = x2)

=∑

x1∈ΩX1

x2∈ΩX2

|x1 · x2|︸ ︷︷ ︸

|x1|·|x2|

·P (X1 = x1) · P (X2 = x2)

= E |X1| · E |X2| < ∞

Damit ist die Existenz nachgewiesen. Führt man die gleiche Rechnung ohne Betragsstricheaus, erhält man die obige Formel.

Page 76: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

68 KAPITEL 5. ZUFALLSVARIABLE

2. Auf den Nachweis der Existenz soll hier verzichtet werden.

Var a1X1 + a2X2 = E(a1X1 + a2X2)

2

− E 2 a1X1 + a2X2= E

a2

1X21 + 2a1a2X1X2 + a2

2X22

−(a1E X1 + a2E X2

)2

= a21EX2

1

+ 2a1a2E X1 · X2 + a2

2EX2

2

− a21E

2 X1 − 2a1a2E X1E X2 − a22E

2 X2= a2

1Var X1 + a22Var X2 + 2a1a2 (E X1X2 − E X1E X2)

= a21Var X1 + a2

2Var X2

3. Mit X1. . . . ,Xn sind auch tX1, . . . , tXn vollständig unabhängig. Damit erhalten wir für alle|t| ≤ t0:

gP

Xi(t) = E

tP

Xi

= E

n∏

i=1

tXi

=

n∏

i=1

EtXi

=

n∏

i=1

gXi(t) .

Beispiel 5.16 (Binomialverteilung) Ist die ZV X ∼ Bi(n, p), so lässt sie sich als Summevon n unabhängigen Bernoullivariablen Xi mit

P (Xi = 1) = p bzw. P (Xi = 0) = 1 − p (i = 1, . . . , n)

darstellen. Es gilt also

X =n∑

i=1

Xi .

Damit erhalten wir

E X = E

n∑

i=1

Xi

=

n∑

i=1

E Xi = n ·(1 · p + 0 · (1 − p)

)= np

Var X = Var

n∑

i=1

Xi

=n∑

i=1

Var Xi = n ·(EX2

1

− E 2 X1

)

= n(12 · p − p2

)= np(1 − p)

Definition 5.9 Sind X1 und X2 Zufallsvariable deren Erwartungswerten existieren, so heißen

X1,X2 unkorreliert ⇐⇒ E X1 · X2 = E X1 · E X2 .

Allgemein heißt

cov X1,X2 := E (X1 − E X1) · (X2 − E X2) = E X1 · X2 − E X1 · E X2

die Kovarianz von X1 und X2.

Page 77: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.4. UNABHÄNGIGKEIT VON ZUFALLSVARIABLEN 69

Bemerkung:

1. Aus der Unabhängigkeit zweier Zufallsvariabler folgt stets deren Unkorreliertheit. dass dieUmkehrung i.a. nicht gilt, wird in den Übungen gezeigt.

2. Man sieht leicht, dass für den Beweis des Satzes 5.9 auch die paarweise Unkorreliertheitder Zufallsvariablen genügt.

3. Aus der vorletzten Zeile des Beweises von Satz 5.9 (2) erhalten wir

Var a1X1 + a2X2 = a21Var X1 + a2

2Var X2 + 2a1a2cov X1,X2

und damit allgemein

Var

n∑

i=1

αiXi

=

n∑

i=1

α2i Var Xi +

i6=j

αiαjcov Xi,Xj

=n∑

i=1

α2i Var Xi + 2

i<j

αiαjcov Xi,Xj

Page 78: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

70 KAPITEL 5. ZUFALLSVARIABLE

5.5 Gesetz der großen Zahlen

Der folgende Satz belegt den Zusammenhang zwischen der Varianz einer Zufallsvariablen undder Wahrscheinlichkeit für ihr Abweichen von ihrem Erwartungswert.

Satz 5.10 (Chebychev – Ungleichung) Ist X eine ZV auf dem diskreten WR(Ω,P(Ω), P

)mit endlichem Erwartungswert E X und endlicher Varianz Var X, so gilt

P(|X − E X | ≥ t

)≤ Var X

t2∀ t > 0 .

Beweis:P(|X − E X | ≥ t

)

=∑

x∈ΩX : |x−EX|≥t

P (X = x) ≤∑

x∈ΩX : |x−EX|≥t

|x − E X |2t2

︸ ︷︷ ︸

≥ 1

·P (X = x)

≤ 1

t2

x∈ΩX

(x − E X

)2 · P (X = x) =Var X

t2

Das folgende Beispiel belegt, dass diese Ungleichung scharf ist, es also eine Zufallsvariable gibt,für die in der Chebychev–Ungleichung sogar das Gleichheitszeichen gilt. Die Ungleichung kanndeshalb nicht mehr allgemein verbessert werden.

Beispiel 5.17 Die Zufallsvariable X nehme die Werte 0 , +k und −k mit den folgendenWahrscheinlichkeiten an:

P (X = −k) = P (X = +k) =1

2k2und P (X = 0) = 1 − 1

k2.

Man rechnet leicht nach, dass

E X = −k · 1

2k2+ k · 1

2k2+ 0 ·

(

1 − 1

k2

)

= 0

und

Var X = E

(X − E X)2

= EX2

=k2

2k2+

k2

2k2+ 0 = 1

gilt. Somit erhalten wir

P(|X − E X |) ≥ k

)= P (X = +k) + P (X = −k) =

1

k2=

Var Xk2

.

Page 79: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.5. GESETZ DER GROßEN ZAHLEN 71

Trotzdem ist diese Ungleichung in vielen praktischen Fällen (insbes. für t < Var X) wenignützlich, da sie häufig nur die triviale Abschätzung

P(|X − E X | ≥ t

)≤ 1

liefert.

Bemerkung:

Oft findet man die Chebychev – Ungleichung auch in der folgenden Form, in der t als Vielfachesder Streuung S(X) =

Var X ausgedrückt wird.

t := k · S(X) =⇒ P(|X − E X | ≥ k · S(X)

)≤ Var X

k2 · Var X =1

k2

Wir werden nun diese Ungleichung benutzen, um den folgenden Satz zu beweisen.

Satz 5.11 ((Schwaches) Gesetz der großen Zahlen) Für jedes n ∈ IN seienX1, . . . ,Xn paarweise unkorrellierte Zufallsvariablen auf Ω, die alle den gleichen endlichen

Erwartungswert besitzen und deren Varianzen gleichmäßig beschränkt sind. Es gelte also

E X1 = · · · = E Xn = µ < ∞ und Var Xi ≤ σ2 < ∞ (i = 1, . . . , n)

Bezeichnet man mit Sn := X1 + · · · + Xn die Folge der n-ten Partialsummen, so gilt für dieFolge der Mittelwerte Xn := 1

nSn

limn→∞

P( ∣∣Xn − µ)

∣∣ ≥ ε

)= 0 ∀ ε > 0 .

Beweis:

Wegen

E Sn = E

n∑

i=1

Xi

=

n∑

i=1

E Xi︸ ︷︷ ︸

µ

= n · µ

gilt

P( ∣∣Xn − µ)

∣∣ ≥ ε

)= P

(|Sn − n · µ)| ≥ n · ε

)

= P(|Sn − E Sn)| ≥ n · ε

)

≤ Var Snn2ε2

=Var X1 + · · · + Var Xn

n2ε2

≤ nσ2

n2ε2=

σ2

n · ε2−→ 0

Page 80: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

72 KAPITEL 5. ZUFALLSVARIABLE

Bemerkungen:

1. Die Voraussetzung der paarweisen Unkorreliertheit ist erfüllt, falls die Xi unabhängig sind.

2. Die glm. Beschränktheit der Varianzen liegt vor, wenn alle Varianzen darüberhinaus endlichund untereinander gleich sind.

Interpretation:

Führen wir beliebig viele Zufallsexperimente (unabhängig) durch und ermitteln jedes Mal denWert einer Zufallsvariablen X, so gilt für den Mittelwert dieser Variablen, dass die Wahrschein-lichkeiten für beliebig kleine Abweichungen vom Erwartungswert bei wachsender Anzahl derExperimente gegen 0 strebt. Man sagt auch, dass der Mittelwert Xn stochastisch gegen denErwartungswert konvergiert und schreiben

XnP−→ E X .

Beispiel 5.18 (Binomialverteilung) Ist die ZV X binomialverteilt, so gilt

X ∼ Bi(n, p) =⇒ X =n∑

i=1

Xi

mitXi unabhängig , E Xi = p , Var Xi = p(1 − p) ∀ i = 1, . . . , n .

Damit gilt gem. des schwachen Gesetzes der großen Zahlen

P( ∣∣Xn − p)

∣∣ ≥ ε

)−→ 0 , also Xn

P−→ p .

Xn ist aber gerade die relative Häufigkeit der Erfolge der Bernoulli–Experimente. So zeigtder Satz, dass diese relative Häufigkeit mit wachsendem n mit immer kleinerer Wahrscheinlichkeitvon der Wahrscheinlichkeit p für einen solchen Erfolg abweicht.

Auch für den Sortieralgorithmus Quicksort lässt sich ein solches Gesetz der großen Zahlenbeweisen.

Beispiel 5.19 (Quicksort) Wir wissen, dass für die erwartete Anzahl E Xn := M(n)von erforderlichen Vergleichen zum Ordnen einer Liste der Länge n

limn→∞

M(n)

n log n= 2

gilt. Durch eine ähnliche Rechnung zeigt man Var Xn ≤ c · n2 mit einer von n unabhän-gigen Konstanten c > 0.

Page 81: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

5.5. GESETZ DER GROßEN ZAHLEN 73

Betrachten wir nun die Zufallsvariablen Zn(ω) := Xn(ω)n log n , erhalten wir

P( ∣∣Zn − E Zn)

∣∣ ≥ ε

)≤ Var Zn

ε2=

Var Xnn2(log n)2ε2

≤ c

ε2(log n)2.

Wegen

E Zn =E Xnn log n

=Mn

n log n−→ 2 ,

betrachten wir direktP(|Zn(ω) − 2| ≥ ε︸ ︷︷ ︸

:= Aε

).

Für alle ω ∈ Aε gilt nun

|Zn(ω) − E Zn| ≥ ε

2oder |E Zn − 2| ≥ ε

2.

Anderenfalls könnte man wegen

|Zn(ω) − 2| = |Zn(ω) − E Zn + E Zn − 2| ≤ |Zn(ω) − E Zn | + |E Zn − 2|<

ε

2+

ε

2= ε

zeigen.

Wird n0 nun so groß gewählt, dass für alle n ≥ n0 |E Zn − 2| < ε2 gilt, gilt für

n ≥ n0 und ω ∈ Aε natürlich

|Zn(ω) − E Zn| ≥ ε

2

und damit für alle n ≥ n0

P(|Zn(ω) − 2| ≥ ε

)≤ P

(

|Zn − E Zn| ≥ ε

2

)

≤ c

(ε · log n)2/4−→ 0 .

Damit gilt für die Anzahl Xn der notwendigen Vergleiche von QUICKSORT für das Sortiereneiner Liste der Länge n

limn→∞

P

(∣∣∣∣

Xn

n log n− 2

∣∣∣∣≥ ε

)

= 0 bzw.Xn

n log n

P−→ 2 .

Page 82: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

74 KAPITEL 5. ZUFALLSVARIABLE

Page 83: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 6

Approximationen derBinomialverteilung

Im vorhergehenden Kapitel haben wir die binomialverteilte Zufallsvariable

X ∼ Bi(n, p) mit P (X = k) =

(n

k

)

pk(1 − p)n−k ∀ k = 0, 1, . . . , n

eingeführt.

6.1 Die Poisson – Verteilung

Jetzt wollen wir mit der Poisson – Verteilung eine weitere wichtige Verteilung auf der Mengeder nichtnegativen ganzen Zahlen

IN0 = 0, 1, 2 . . .kennen lernen.

Dazu betrachten wir für eine feste reelle Zahl λ > 0 die Wahrscheinlichkeitsverteilung

(k, pk) : k ∈ IN0 mit pk = pk(λ) :=λk

k!e−λ ∀ k ∈ IN0 .

Zunächst überzeugen wir uns mit Hilfe der Taylorreihe für ex

ex =

∞∑

k=0

xk

k!∀ x ∈ IR ,

dass hierdurch tatsächlich eine Wahrscheinlichkeitsverteilung gegeben ist.

Tatsächlich gilt∞∑

k=0

pk(λ) = e−λ∞∑

k=0

λk

k!= e−λ · eλ = 1 .

75

Page 84: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

76 KAPITEL 6. APPROXIMATIONEN DER BINOMIALVERTEILUNG

Definition 6.1 Eine Zufallsvariable X mit dem Wertebereich ΩX = IN0 und der Verteilung

P (X = k) = pk(λ) =λk

k!e−λ ∀ k ∈ IN0

heißt poissonverteilt mit dem Parameter λ. Wir schreiben dann

X ∼ Po(λ) .

Satz 6.1 (Poisson–Verteilung) Für X ∼ Po(λ) gilt

E X = λ und(6.1)

Var X = λ(6.2)

Beweis:

E X =∞∑

k=0

k · λk

k!· e−λ = λ · e−λ

∞∑

k=1

λk−1

(k − 1)!

= λ · e−λ∞∑

k=0

λk

k!= λ · e−λ · eλ = λ

EX2

=∞∑

k=0

k2 · λk

k!· e−λ = e−λ

∞∑

k=1

(k(k − 1) + k

)· λk

k!

= e−λ∞∑

k=2

k(k − 1) · λk

k!+ λ = λ2e−λ

∞∑

k=0

λk

k!+ λ

= λ2 + λ

Var X = λ2 + λ − λ2 = λ

Diese Poissonverteilung ergibt sich nun auch aus einem Grenzübergang aus der Binomialvertei-lung.

Dazu gehen wir von einer Folge von Zufallsvariablen

Xn ∼ Bi(n, p) (n ∈ IN)

aus und lassen zu, dass p von der Anzahl der Bernoulli–Experimente abhängt, also p = pn gilt.

Xn ∼ Bi(n, pn)

Satz 6.2 (Poisson’scher Grenzübergang)Gilt Xn ∼ Bi(n, pn) mit E Xn = npn −→ λ > 0 für n −→ ∞ und damit auchpn −→ 0, so gilt weiter

limn→∞

P (Xn = k) =λk

k!e−λ = pk(λ)

Page 85: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

6.1. DIE POISSON – VERTEILUNG 77

Bemerkungen:

1. Setzt man den Erwartungswert der binomialverteilten Zufallsvariablen Xn

E Xn = npn := λn ,

so lautet die Aussage des Satzes

λn −→ λ =⇒ P (Xn = k) −→ pk(λ) =(λ)k

k!e−λ .

Man sagt auch, dass die Folge der Zufallsvariablen Xn verteilungskonvergent ist, bzw.”in Verteilung” gegen eine poissonverteilte Zufallsvariable X konvergent ist, und schreibtdafür

XnDy X ∼ Po(λ) oder Xn

Dy Po(λ) .

2. Der Satz besagt: Für große n (n ≫ k , np) gilt

X ∼ Bi(n, p) =⇒ P (X = k) =

(n

k

)

pk(1 − p)n−k ≈ pk(np) =(np)k

k!e−np .

3. Ist Xn ∼ Bi(n, pn) so gilt in der Situation der Bemerkung 1 für große n

E Xn = npn := λn ≈ λ und

Var Xn = npn(1 − pn) = λn

(

1 − λn

n

)

≈ λ

(

1 − λ

n

)

≈ λ

Beweis (Satz 6.2):

Mit λn = npn und λn → λ erhalten wir für jedes feste k

P (Xn = k) =

(n

k

)

pkn(1 − pn)n−k =

(n

k

)(λn

n

)k (

1 − λn

n

)n−k

=n(n − 1) · · · (n − k + 1)

k!· λk

n

nk·(1 − λn

n

)n

(1 − λn

n

)k

=λk

n

k!︸︷︷︸

−→ λk

k!

· 1(1 − λn

n

)k

︸ ︷︷ ︸

−→ 1

·(

1 − 1

n

)

︸ ︷︷ ︸

−→ 1

·(

1 − 2

n

)

︸ ︷︷ ︸

−→ 1

· · ·(

1 − k − 1

n

)

︸ ︷︷ ︸

−→ 1

·(

1 − λn

n

)n

−→ λk

k!· lim

n→∞

(

1 − λn

n

)n

, falls dieser Grenzwert existiert.

Um den Grenzwert zu ermitteln, betrachten wir weiter

log

(

1 − λn

n

)n

= n · log(

1 − λn

n

)

= −λn · log(1 − λn

n

)

− λn

n

−→ − λ ,

Page 86: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

78 KAPITEL 6. APPROXIMATIONEN DER BINOMIALVERTEILUNG

denn es gilt für xn → 0 nach der Regel von l’Hospital

log(1 − xn)

−xn= − d

dxlog(1 − x)

∣∣∣∣x=0

=1

1 − x

∣∣∣∣x=0

= 1 .

Also gilt

log

(

1 − λn

n

)n

−→ − λ =⇒(

1 − λn

n

)n

−→ e−λ

und damit die Behauptung.

Satz 6.3 Für die erzeugende Funktion einer poissonverteilten Zufallsvariablen

X ∼ Po(λ)

gilt:gX(t) = e−λ(1−t) .

Beweis:

gX(t) =

∞∑

k=0

tk · P (X = k)︸ ︷︷ ︸

pk

= e−λ ·∞∑

k=0

(λt)k

k!︸ ︷︷ ︸

eλt

= e−λ + λt = e−λ(1−t)

Nun führen wir den Poissonschen Grenzübergang für die erzeugende Funktion durch. Dazu be-trachten wir die Folge der Zufallsvariablen

Xn ∼ Bi(n, pn)

für n → ∞ , pn → 0 mit npn → λ . Dann erhalten wir für die zugehörige Folge der erzeugendenFunktionen nach Beispiel 5.12

gXn(t) =(tpn + 1 − pn

)n=(pn(t − 1) + 1

)n

=

(

1 +npn(t − 1)

n

)n

mit npn(t − 1) → λ(t − 1)

−→ eλ(t−1) = e−λ(1−t)

= gX(t) und X ∼ Po(λ)

Allgemein kann man in der Analysis den folgenden Satz beweisen.

Page 87: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

6.1. DIE POISSON – VERTEILUNG 79

Satz 6.4 Seien X1,X2, . . . diskrete Zufallsvariable mit den Wahrscheinlichkeitsverteilungen

P (Xn = k) = pn,k ∀ n ∈ IN

und den erzeugenden Funktionen g1, g2, . . . Konvergiert nun die Folge der erzeugenden Funk-tionen gegen eine Funktion g(t), gilt also

limn→∞

gn(t) = g(t) ∀ t ,

und ist die Grenzfunktion g erzeugende Funktion einer Zufallsvariablen X mit der Wahrschein-lichkeitsverteilung

P (X = k) = πk ∀ k ∈ IN ,

dann gilt auchlim

n→∞pn,k = πk ∀ k ∈ IN .

Wir wollen nun untersuchen, in welchen Situationen die so eingeführte Poisson–Verteilung alsModell sinnvoll eingesetzt werden kann.

Zunächst einmal betrachten wir ein n-faches Bernoulli–Experiment. Ist n groß und p entspre-chend klein, können wir also np = λ setzen, sprechen wir auch von der n-fachen unabhängigenWiederholung eines Zufallsexperients mit ”seltenem” Erfolg. Man sagt deshalb auch, dass diePoissonverteilung die Verteilung der seltenen Ereignisse ist.

Wenn zufallsabhängige Vorkommnisse sich so über einen Zeitraum verteilen, dass ihre Anzahlpro Zeiteinheit im Durchschnitt über längere Zeit hinweg als relativ konstant angesehen werdenkann und diese Anzahlen in beliebigen Zeitabschnitten unabhängig voneinander sind, benutztman das Poisson–Modell als Träger eines zeitlich homogenen Chaos.

Beispiel 6.1 (Zeitlich homogenes Chaos) An einer Zentraleinheit eines Rechners werdendie eingehenden Jobs registriert, wobei sich eine durchschnittliche Häufigkeit von λ Jobs proZeiteinheit ergibt. Dann ist die Wahrscheinlichkeit, in einem kleinen Zeitintervall der Länge δeinen Job zu registrieren, durch λδ + o(δ) gegeben. Dabei ist o(δ) das Landausche ”klein o” 1.o(δ) strebt also schneller gegen 0 als δ.

Nun teile man ein Zeitintervall [0, t] der Länge t in N gleiche Teile, so dass die Wahrschein-lichkeit für einen Job in einem beliebigen Teilintervall gleich

λt

N+ o

(t

N

)

ist, wobei wir das obige δ gleich t/N gesetzt haben. Natürlich wird λt/N beliebig klein, wennwir t festhalten und N hinreichend groß wählen.

Zunächst sei vorausgesetzt, dass die Wahrscheinlichkeit für mehr als einen Job in einer Zeitein-heit für jedes kleine Teilintervall vernachlässigt werden kann, so dass in jedem Teilintervall 0

1f(δ) = o`

g(δ)´

⇐⇒ limδ→0

f(δ)g(δ)

= 0

Page 88: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

80 KAPITEL 6. APPROXIMATIONEN DER BINOMIALVERTEILUNG

oder 1 Job eintreffen. Schließlich nehmen wir noch an, dass diese Anzahlen stochastisch unab-hängig sind, was durch die Erfahrung gerechtfertigt wird. Wir können diese Anzahlen also alsunabhängige Bernoulli–Variable behandeln, die die Werte 0 bzw. 1 mit den Wahrscheinlichkeiten1 − λt

N bzw. λtN annehmen.

Ist X also die Zufallsvariable, die zählt, wie viele Jobs im Intervall [0, t] eintreffen, gilt

X ∼ Bi

(

N,λt

N

)

.

Da N frei wählbar ist und beliebig groß gewählt werden kann, ist es auch hier möglich, diePoisson–Verteilung als Modell zu verwenden:

X ∼ Po(λt) .

Dieses Modell wird benutzt, um Ankunftsströme (Poissonstrom) bei Warteschlangen (z.B. inComputernetzen) zu modellieren.

6.2 Die Normalverteilung

Die Approximation der Binomialverteilung durch die Poisson–Verteilung ist noch recht neu. Erstdie Betrachtung der Huftritttoten in den preußischen Armeen hat die Poisson–Verteilung in dieWahrscheinlichkeitstheorie eingeführt. Andererseits experimentierte man schon sehr frühzeitigmit Münzwurf–Experimenten, zählte Würfelergebnisse aus und maß unzählige physikalische undbiologische Größen, die man durch binomialverteilte Zufallsgrößen modellieren konnte.

Da man früher noch keine Rechner zur Verfügung hate, war es kaum möglich, die Wahrschein-lichkeiten für eine Zufallsvariable X ∼ Bi(n, p)

P (X = k) =

(n

k

)

pk(1 − p)n−k

für große n, festes p und beliebiges k exakt zu ermitteln. Man benötigt normalerweise einemöglichst gute , leicht zu berechnende Approximation.

Beispiel 6.2 Man nehme an, dass eine vollkommene Münze 100–mal geworfen wird. Mit welcherWahrscheinlichkeit zeigt sie mindestens 45–, aber höchstens 55–mal Kopf. Die Lösung

55∑

k=45

(100

k

)1

2100=

1

2100·

55∑

k=45

(100

k

)

ist nicht zufrieden stellend, solange wir keine Vorstellung von der Größenordnung dieser Wahr-scheinlichkeit haben. Liegt sie nun in der Nähe von 3

4 , 12 oder 1

10 ?

Page 89: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

6.2. DIE NORMALVERTEILUNG 81

Mit Hilfe des Satzes 5.9(3) lassen sich leicht die folgenden Aussagen verifizieren:

Satz 6.5 (Addition unabhängiger Binomial– und Poissonverteilungen)

1. Sind X1 ∼ Po(λ1) , X2 ∼ Po(λ2) und beide unabhängig, so gilt:

X1 + X2 ∼ Po(λ1 + λ2) .

2. Sind X1 ∼ Bi(n1, p) , X2 ∼ Bi(n2, p) und beide unabhängig, so gilt:

X1 + X2 ∼ Bi(n1 + n2, p) .

Beweis:

1.gX1+X2(t) = e−λ1(1−t) · e−λ2(1−t) = e−(λ1+λ2)(1−t)

2.gX1+X2(t) = (tp + 1 − p)n1 · (tp + 1 − p)n2 = (tp + 1 − p)n1+n2

Definition 6.2 Eine Zufallsvariable X heißt Standardzufallsvariable, falls ihre beiden erstenMomente existieren und

E X = 0 und Var X = 1

gilt. Besitzt eine beliebige Zufallsvariable X endliches erstes und zweites Moment mit Var X >0 , so heißt

X0 :=X − E X√

Var Xdie zugehörige standardisierte Zufallsvariable.

Bemerkung:

Die standardisierte Zufallsvariable X0 ist eine Standardzufallsvariable, denn es gilt

E X0 =1

Var X· E X − E X︸ ︷︷ ︸

0

= 0

Var X0 =1

Var X · Var X − E X︸ ︷︷ ︸

VarX

= 1

Nun wenden wir uns wieder dem Problem der Approximation der Wahrscheinlichkeiten einerbinomialverteilten Zufallsvariablen zu. Dabei erinnern wir uns daran, dass wir sie stets als Summevon unabhängigen Bernoullivariablen darstellen können.

Page 90: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

82 KAPITEL 6. APPROXIMATIONEN DER BINOMIALVERTEILUNG

Sei nun X1,X2, . . . eine Folge unabhängiger Bernoullivariabler mit der Erfolgswahrscheinlichkeitp, so stellt die Folge der Partialsummen

Sn :=n∑

i=1

Xi ∀ n ∈ IN

eine Folge von binomialverteilten Zufallsvariablen

Sn ∼ Bi(n, p) ∀ n ∈ IN

dar. Ihre Wahrscheinlichkeitsverteilungen wollen wir uns in dem folgenden Diagramm (Bild 6.2)anschaulich machen.

Abbildung 6.1: Wahrscheinlichkeitsverteilung einer Binomialverteilung

-

6

0 1 2 3 4 5 6 k

pn,k

Dabei stellen die

Pn(Sn = k) := P (Sn = k) := pn,k =

(n

k

)

pk(1 − p)n−k ∀ k, n

für festes n die abgebildeten Wahrscheinlichkeitsverteilungen dar.

In Anlehnung an eine in der Statistik übliche Bezeichnungsweise nennen wir eine solche grafischeDarstellung Histogramm. Die Flächen der obigen Rechtecke stellen wegen ihrer Breite 1 dieWahrscheinlichkeiten für die Werte dar, über denen sie errichtet sind. Die Gesamtfläche allerRechtecke ist dabei gleich 1. Auch rechnet man leicht nach, dass der ”Gipfel” des Histogrammsin unmittelbarer Nähe des Erwartungswertes E Sn = np liegt.

Lassen wir nun n wachsen, während p fest bleibt, erkennt man unschwer, dass

P (Sn = k) =

(n

k

)

pk(1 − p)n−k −→ 0 ∀ k

gilt. Da aber mit n → ∞ auch np → ∞ folgt, wandert der ”Gipfel” mit wachsendem n immerweiter nach rechts, während das gesamte ”Gebirge” immer flacher wird (”zerfließt”).

Page 91: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

6.2. DIE NORMALVERTEILUNG 83

Um das Abwandern zu verhindern, betrachten wir nun eine neue Zufallsvariable, nämlich

Sn − E Sn = Sn − np .

Hier wandert der Gipfel zwar nicht mehr nach rechts, an dem ”Zerfließen” ändert sich jedochnichts. Deshalb wollen wir die Zufallsvariable jetzt vollständig standardisieren.

Die entsprechende Standardvariable von Sn lautet

Zn :=Sn − E Sn√

Var Sn=

Sn − np√

np(1 − p).

Wegen Var Zn = 1 erhält man aus der Ungleichung von Chebychev

P (|Zn| ≥ x) ≤ 1

x2∀ x > 0 , n ∈ IN .

Für x = 3 gilt damit

P (|Zn| ≥ 3) ≤ 1

32=

1

9und die Zufallsvariable Zn nimmt für jedes n mit einer Wahrscheinlichkeit von mindestens 8/9Werte im Intervall [−3,+3] an. Ein Zerfließen mit wachsendem n ist also ausgeschlossen.

Jetzt wollen wir analog zur Abbildung 6.2 ein Histogramm der Wahrscheinlichkeiten

pn,k = P (Sn = k) = P

(

Zn =k − np

np(1 − p)︸ ︷︷ ︸

:= xn,k

)

= P(Zn = xn,k

)∀ k, n

erstellen. Da die ”Trägerpunkte” xn,k = k−np√np(1−p)

den Abstand b(n) = 1√np(1−p)

voneinander

haben, ist es erforderlich, alle Wahrscheinlichkeiten mit√

np(1 − p) zu multiplizieren, damitfür die Gesamtfläche F aller Rechtecke

F =∑

k

np(1 − p) · pn,k︸ ︷︷ ︸

:= hn(xn,k)

· b(n) =∑

k

pn,k = 1

gilt. Wir betrachten also die Funktion

hn(x) =√

np(1 − p) · pn,k ∀ xn,k −b(n)

2< x ≤ xn,k +

b(n)

2.

Für p = 34 und n = 16 ergibt sich das Bild 6.3 auf der folgenden Seite.

Lässt man nun n wachsen, stellt man eine zunehmende Stabilisierung bei gleichzeitiger Glättungvon hn(x) fest.

P

(

a ≤ Sn − np√

np(1 − p)≤ b

)

=∑

a≤k≤b

P

(

Sn − np√

np(1 − p)= xn,k

)

=∑

a≤k≤b

hn(xn,k) · b(n) ≈b∫

a

ϕ(x) dx

Page 92: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

84 KAPITEL 6. APPROXIMATIONEN DER BINOMIALVERTEILUNG

Abbildung 6.2: Wahrscheinlichkeitsverteilung einer standardisierten Binomialverteilung

-

6hn(x)

x0

n = 16

p = 3/4

k=0 k=2 k=5 k=8 k=11 k=13 k=15

xn,14xn,10xn,0 xn,4a b

Tatsächlich lässt sich zeigen, dass die Folge der hn gegen die Grenzfunktion ϕ (GaußscheGlockenkurve)

limn→∞

hn(x) := ϕ(x) =1√2π

· e− 12x2 ∀ x ∈ IR

Abbildung 6.3: Gaußsche Glockenkurve

-

6

−1 1 x

1√2π

ϕ(x)

a b

konvergiert und der folgende Satz gilt:

Satz 6.6 (De Moivre – Laplace) Ist (Sn)n∈IN eine Folge von binomialverteilten Zufalls-variablen

Sn ∼ Bi(n, p) ∀ n ∈ IN ,

dann gilt

limn→∞

Pn

(

a ≤ Sn − E Sn√

Var Sn≤ b

)

=

∫ b

a

1√2π

· e− 12x2

dx ∀ −∞ ≤ a ≤ b ≤ +∞ .

Diese Konvergenz ist sogar gleichmäßig für alle [a, b] ⊂ IR.

Page 93: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

6.2. DIE NORMALVERTEILUNG 85

Der Beweis kann mit der Stirlingschen Formel

n! =(n

e

)n √2πn eω(n) mit

1

12(n + 1

2

) < ω(n) <1

12n

(vergl. Krickeberg / Ziezold 2) geführt werden. Wir werden im folgenden Kapitel noch in allge-meinerer Form darauf zurückkommen.

Bemerkung:

(Für große n gilt damit für Sn ∼ Bi(n, p) : ’

P (xu ≤ Sn ≤ xo) = P

(

xu − np√

np(1 − p)≤ Sn − np√

np(1 − p)≤ xo − np√

np(1 − p)

)

≈ 1√2π

xo−np√np(1−p)∫

xu−np√np(1−p)

e−12x2

dx

Beispiel 6.3 Mit welcher Wahrscheinlichkeit fällt bei 100-maligem Münzwurf mindestens 45–aber höchstens 55–mal Kopf.

P (44.5 ≤ Sn ≤ 55.5) ≈ 1√2π

1.1∫

−1.1

e−12x2

dx

Dabei ist die Festsetzung der Grenzen 44.5 und 55.5 relativ willkürlich. Darüberhinaus bleibtdas Problem der Berechnung des Integrals. Auf beide Probleme werden wir im folgenden Kapiteleingehen.

2K. Krickeberg, H. Ziezold: ”Stochastische Methoden”, Springer–Verlag, Berlin, 1977 .

Page 94: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

86 KAPITEL 6. APPROXIMATIONEN DER BINOMIALVERTEILUNG

Page 95: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 7

Stetige Zufallsvariable

Im letzten Kapitel sind wir auf Wahrscheinlichkeiten gestoßen, die sich durch Integrale approxi-mativ berechnen lassen. Für Sn ∼ Bi(n, p) gilt

limn→∞

Pn

(

a ≤ Sn − E Sn√

Var Sn≤ b

)

=

∫ b

a

1√2π

· e− 12x2

︸ ︷︷ ︸

ϕ(x)

dx ∀ −∞ ≤ a ≤ b ≤ +∞ .

Kann man sich nun vorstellen, dass es eine Zufallsvariable X gibt, für die unmittelbar

P(a ≤ X ≤ b

)=

∫ b

aϕ(x)dx ∀ −∞ ≤ a ≤ b ≤ +∞

gilt?

Zunächst müsste eine solche Zufallsvariable reelle Zahlen als Werte annehmen, wobei jedoch füralle a ∈ IR

P (X = a) = P (a ≤ X ≤ a) =

a∫

a

ϕ(x) dx = 0 ∀ a ∈ IR

gelten sollte.

Eine diskrete Zufallsvariable kann diese Eigenschaft nicht haben. Wir müssen also den Begriffdes Wahrscheinlichkeitsraumes erweitern.

Beispiel 7.1 Es soll die Höhe ”Normalnull” (NN) festgelegt werden. Dazu wird an einemfesten Pegel am Meeresufer zu festen Zeitpunkten die Höhe des Wasserstandes X abgelesen. Der”mittlere” Wasserstand soll als NN bezeichnet werden. Klar ist, dass der Wasserstand ständig innicht vollständig vorhersehbarer Weise schwankt (Wellenbewegungen, Tidenhub). Daher könnenwir diese Ablesungen als Versuchsausgänge eines zufälligen Experimentes auffassen. Wegen der

87

Page 96: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

88 KAPITEL 7. STETIGE ZUFALLSVARIABLE

möglichst genauen Ablesung und der Vielzahl solcher Versuchsausgänge wählen wir als Mengeder Versuchsausgänge

Ω = IR .

Auf diesem Ω müssen wir nun adäquat eine Zufallsvariable X zu definieren, die es uns u.a.gestattet, ihren Erwartungswert als NN zu bezeichnen.

7.1 Allgemeine Wahrscheinlichkeitsräume

Leider stoßen wir dabei auf das folgende Problem.

In der Maßtheorie wird gezeigt, dass es für die meisten folgenden Modelle nicht möglich ist,auf der Potenzmenge einer überabzählbaren Menge (hier : IR) Wahrscheinlichkeiten gem. denAxiomen von Kolmogorov festzulegen. Das geht nur, wenn wir uns auf eine echte Teilmenge Sdieser Potenzmenge beschränken 1.

Damit wir mit diesen Ereignissen A ∈ S weiterhin rechnen können wie wir das mit Ereignissenaus der Potenzmenge gewöhnt sind, müssen wir fordern, dass diese Ereignismenge S zumindestgegenüber den Operationen ∩ , ∪ , und der Negation abgeschlossen ist.

Definition 7.1 Ein nichtleeres Mengensystem S ⊆ P(Ω) heißt genau dann σ – Algebra(über Ω), wenn

A ∈ S =⇒ A ∈ S(7.1)

A1, A2, A3, . . . ∈ S =⇒⋃

i

Ai ∈ S(7.2)

Bemerkung:

1. Man zeigt leicht, dass in einer σ – Algebra S auch

A1, A2, A3, . . . ∈ S =⇒⋂

i

Ai ∈ S

gilt.

2. Da eine σ – Algebra S 6= ∅ ist, existiert eine Teilmenge

A ⊂ Ω mit A ∈ S

und damit auch

A ∈ S =⇒ A ∩ A = ∅ ∈ S und A ∪ A = Ω ∈ S .

Damit gilt für jede σ – Algebra S über Ω: ∅,Ω ∈ S .1H. Bauer: ”Wahrscheinlichkeitstheorie”, W.de Gruyter, 4. Auflage, Berlin, 1991

Page 97: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.1. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 89

3. Die kleinste σ – Algebra über Ω enthält lediglich Ω und ∅ (S = ∅,Ω). Diese σ–Algebraist i.a. nicht reichhaltig genug für das Modell.

Da wir uns hier meist mit Versuchsausgängen ω ∈ IR beschäftigen, interessiert besonders derfolgende Satz, der in der Maßtheorie bewiesen wird:

Satz 7.1 Es existiert eindeutig die kleinste σ–Algebra B1 über IR1, die alle Intervalle (a, b] ⊂ IRenthält. Sie heißt die Borelsche σ–Algebra.

Bemerkungen:

Auf der Borelschen σ–Algebra ist es möglich, für alle später folgenden Modelle eine Wahrschein-lichkeit P festzulegen, die den Axiomen von Kolmogorov genügt.Die Borelsche σ–Algebra enthält alle einelementigen Teilmengen x für x ∈ IR und allehalboffenen, offenen und abgeschlossenen Intervalle aus IR.

Definition 7.2(Ω,S, P

)heißt Wahrscheinlichkeitsraum, falls S eine σ–Algebra über Ω

ist und P : S → IR den Axiomen von Kolmogorov (3.5 – 3.7) genügt. Die Elemente von S heißenEreignisse.

P (A) ≥ 0 ∀ A ∈ S(7.3)

P (Ω) = 1(7.4)

Ai ∈ S paarw. disjunkt für abzählbar viele i =⇒ P(∑

i

Ai

)

=∑

i

P (Ai) .(7.5)

Aus der Gültigkeit dieser Gleichungen folgert man leicht, analog zu den Formeln (3.8) bis (3.15),die folgenden Rechenregeln für den Wahrscheinlichkeitsraum (Ω,S, P ) mit den EreignissenA,B, . . . ∈ S :

P (∅) = 0(7.6)

P (A) = 1 − P (A)(7.7)

A ⊆ B =⇒ P (A) ≤ P (B)(7.8)

P (A\B) = P (A) − P (A ∩ B)(7.9)

B ⊆ A =⇒ P (A\B) = P (A) − P (B)(7.10)

P( n⋃

i=1

Ai

)

=

n∑

i=1

P (Ai) −∑

i2

i1<i2

P (Ai1Ai2)(7.11)

+∑

i3

i2<i3

i1<i2

P (Ai1Ai2Ai3) ∓ · · · + (−1)n+1P( n⋂

i=1

Ai

)

n∑

i=1

P (Ai) −n−1∑

i=1

n∑

j=i+1

P (AiAj) ≤ P

(n⋃

i=1

Ai

)

≤n∑

i=1

P (Ai)(7.12)

Page 98: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

90 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Außerdem lassen sich aus den Axiomen die folgenden später benötigten Aussagen für monotonabsteigende bzw. aufsteigende Mengenfolgen ableiten:

Ai ↓⋂

i

Ai : A1 ⊇ A2 ⊇ A3 ⊇ · · · =⇒ limi→∞

P (Ai) = P

(

limi→∞

Ai

)

= P

( ∞⋂

i=1

Ai

)

(7.13)

Ai ↑⋃

i

Ai : A1 ⊆ A2 ⊆ A3 ⊆ · · · =⇒ limi→∞

P (Ai) = P

(

limi→∞

Ai

)

= P

( ∞⋃

i=1

Ai

)

(7.14)

Ebenso überträgt man die Begriffe Unabhängigkeit, bedingte Wahrscheinlichkeit und diedafür ermittelten Rechenregeln auch auf allgemeine Wahrscheinlichkeitsräume.

Wir betrachten jetzt eine Zufallsvariable X

X : (Ω,S, P ) −→ (IR,B, PX) ,

deren Wahrscheinlichkeitsverteilung mit Hilfe der Gaußschen Glockenkurve als

PX

((a, b]

)=

b∫

a

ϕ(x) dx ∀ −∞ ≤ a ≤ b < ∞

festgelegt ist.

Da für alle A ∈ B

(a) PX(A) =

A

ϕ(x) dx ≥ 0,

(b) PX(IR) =

∞∫

−∞

ϕ(x) dx = 1 und

(c) PX

(∑

i

Ai

)

=

P

Ai

ϕ(x) dx =∑

i

Ai

ϕ(x) dx

gilt, stellt PX eine Wahrscheinlichkeit auf der σ–Algebra B dar.

Page 99: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.1. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 91

Zur Festlegung der Wahrscheinlichkeit P auf der gesamten σ–Algebra genügt es bei diskretenZufallsvariablen P auf Ω festzulegen, d.h.

P (ω) ∀ω ∈ Ω

vorzugeben.

Da im oben Beispiel wegen P (X = a) = PX(a) =∫ aa ϕ(x) dx = 0 ∀ a ∈ IR jedes

Elementarereignis a des Bildraums IR die Wahrscheinlichkeit 0 besitzt, ist klar, dass in einemsolchen Wahrscheinlichkeitsraum ein geeignetes P nicht durch Angabe der PX(a) ∀ a ∈ IRfestgelegt werden kann.

Wir betrachten daher

Satz 7.2 Ist (IR1,B1, P ) ein Wahrscheinlichkeitsraum, dann besitzt die Funktion

F : IR1 −→ IR1 mit F (x) = P((−∞, x]

)∀ x ∈ IR1

die folgenden Eigenschaften:

F (·) monoton nichtfallend ,(7.15)

limx→∞

F (x) = 1 und limx→−∞

F (x) = 0 und(7.16)

F (·) rechtsseitig stetig .(7.17)

F heißt die Verteilungsfunktion des Wahrscheinlichkeitsmaßes P .

Für das Beispiel der Wahrscheinlichkeit auf der Basis der Gaußschen Glockenkurve gilt

F (x) = P((−∞, x]

)=

x∫

−∞

ϕ(x) dx := Φ(x) .

Beweis(Satz 7.2):

(a) Monotonie:

x1 ≤ x2 =⇒ (−∞, x1] ⊆ (−∞, x2]

=⇒ F (x1) = P((−∞, x1]

)≤ P

((−∞, x2]

)= F (x2)

(b) Grenzwerte:

limx→∞

F (x) = limx→∞

P((−∞, x]

)= P (IR1) = 1

limx→−∞

F (x) = limx→−∞

P((−∞, x]

)= P (∅) = 0

(c) Stetigkeit von rechts:

limx↓x0

F (x) = limx↓x0

P((−∞, x]

) (7.13)= P

(⋂

x>x0

(−∞, x]

)

= P((−∞, x0]

)= F (x0) ∀ x0 ∈ IR1

Page 100: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

92 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Bemerkung:

I. a. ist die Verteilungsfunktion F nicht linksseitig stetig.

limx↑x0

F (x) = limx↑x0

P((−∞, x]

) 7.14= P

(⋃

x<x0

(−∞, x]

)

= P((−∞, x0)

)

= P((−∞, x0] \ x0

)= P

((−∞, x0]

)− P (x0) 6= F (x0)

falls P (x0) > 0

Ist P mit Hilfe der Gaußschen Glockenkurve definiert, ist F auch linksseitig stetig, da dannP (x) = 0 für alle x ∈ IR gilt (s. vorige Seite).

Satz 7.3 Ist F : IR1 −→ IR1 eine Funktion mit den Eigenschaften 7.15 – 7.17, so ist(IR1,B1, P

)mit P

((a, b]

)= F (b) − F (a) ∀ −∞ < a < b < +∞

ein Wahrscheinlichkeitsraum. P = PF heißt dann das von F erzeugte Wahrscheinlichkeitsmaß.

Auf den Beweis soll hier verzichtet werden.

Ebenso wie bei diskreten Wahrscheinlichkeitsräumen können wir auch Zufallsvariable

X : Ω −→ IR1

auf einem allgemeinen Wahrscheinlichkeitsraum(Ω,S, P

)benutzen. Wollen wir dabei jedoch

für beliebige A ∈ B1 Ereignisse durch

X−1(A) = ω ∈ Ω : X(ω) ∈ Afestlegen, müssen wir hier zusätzlich beachten, dass zwar stets

X−1(A) ⊆ Ω und damit X−1(A) ∈ P(Ω)

gilt. Da i.a. S ⊂ P(Ω) (echte Teilmenge) gilt, ist aber nicht gesichert, dass auch X−1(A) ∈ Sgilt und damit ein Ereignis ist, dessen Wahrscheinlichkeit P wir ermitteln können.

Falls X : Ω −→ IR1 jedoch die Eigenschaft besitzt, dass für jede Teilmenge

A ⊆ IR1 mit A ∈ B1

auchX−1(A) ∈ S

gilt, nennt man X S – B1 – messbar und bezeichnet sie als Zufallsvariable.

Betrachten wir speziell einen Wahrscheinlichkeitsraum(IR1,B1, P

), so heißt X : IR → IR B1

– B1 – messbar oder kurz messbar sein.

Für einen diskreten Wahrscheinlichkeitsraum ist diese Messbarbarkeit trivialerweise wegen S =P(Ω) gegeben. Hinzugefügt sei, dass alle stetigen Funktionen f : IR → IR messbar sind.Im folgenden werden wir stets ohne weitere Überprüfung die Messbarkeit der angesprochenenZufallsvariablen als gegeben hinnehmen.

Page 101: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.2. VERTEILUNGSFUNKTIONEN UND DICHTEN 93

7.2 Verteilungsfunktionen und Dichten

Definition 7.3 Sei X eine reellwertige Zufallsvariable auf dem Wahrscheinlichkeitsraum(Ω,S, P

). Dann heißt die Funktion

FX : IR −→ IR mit FX(x) := P (X ≤ x) ∀ x ∈ IR

die Verteilungsfunktion der Zufallsvariablen X.

Mit Hilfe der Verteilungsfunktion einer Zufallsvariablen X können wir sofort die Wahrscheinlich-keit angeben, mit der die Zufallsvariable Werte im halboffenen Intervall (a, b] annimmt:

P (X ∈ (a, b]) = P (X ≤ b) − P (X ≤ a) = FX(b) − FX(a) .

Beispiel 7.2 (Binomialverteilung) X ∼ Bi(n, p)

FX(x) = P (X ≤ x) =∑

k≤x

(n

k

)

pk(1 − p)n−k

=

0 −∞ < x < 0(1 − p)n 0 ≤ x < 1

(1 − p)n + np(1 − p)n−1 1 ≤ x < 2... für

...i∑

k=1

(nk

)pk(1 − p)n−k i ≤ x < i + 1

......

1 x ≥ n

Bemerkung:

Die Verteilungsfunktion einer diskreten Zufallsvariablen X, also einer Zufallsvariablen mitdiskretem Wertebereich und mit P (X = xk) = pk , ist eine reine Treppenfunktion mit denSprungstellen xk und den Sprunghöhen pk (vergl. Abb. 7.1).

Page 102: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

94 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Abbildung 7.1: Verteilungsfunktion einer diskreten Zufallsvariablen

-

6FX(x)

1

p1

p2

p3

p4 = 1 − p1 − p2 − p3

-

-r-r -r -r

xx1 x2 x3 x4

FX springt bei xj

um pj = P (X = xj)

(j = 1, . . . , n)

Definition 7.4 Besitzt die Verteilungsfunktion FX einer Zufallsvariablen X die Darstellung

FX(x) =

x∫

−∞

fX(t) dt ∀ x ∈ IR1

mit einer stückweise stetigen Funktion fX : IR1 −→ [0,∞) mit

∞∫

−∞

fX(t) dt = 1 ,

so heißt die Zufallsvariable X stetig mit der (Wahrscheinlichkeits)-Dichte fX .

Bemerkung

Die Verteilungsfunktion einer stetigen Zufallsvariablen besitzt keine Sprungstellen und ist stetig.

Satz 7.4 Gilt für die stückweise stetige Funktion f : IR1 −→ IR1

f(x) ≥ 0 ∀ x ∈ IR1 mit

∞∫

−∞

f(x) dx = 1 ,

so ist f Wahrscheinlichkeitsdichte einer stetigen Zufallsvariablen X.

Page 103: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.2. VERTEILUNGSFUNKTIONEN UND DICHTEN 95

Abbildung 7.2: Verteilungsfunktion einer stetigen Zufallsvariablen

-

6

1

x

FX ist stetig,

FX(x) =x∫

−∞fX(t) dt

fX

FX

Beweis:

Zu zeigen ist lediglich, dass die Funktion

F (x) =

x∫

f(t) dt

die leicht nachprüfbaren Eigenschaften 7.15 – 7.17 besitzt.

Bemerkung:

Ist X eine reellwertige Zufallsvariable auf(Ω,S, P

)und B ∈ B ein beliebiges Ereignis, so gilt

P (X ∈ B) :=

B

dFX(x) =

B fX(x) dx X stetigfalls

xi∈B P (X = xi) X diskret

Dabei nennt man∫

B dFX(x) Lebesgue–Stieltjes Integral.

Beispiel 7.3 fX(x) = ϕ(x) = 1√2π

e−12x2

Auf den Beweis, dass∫∞−∞ ϕ(t) dt = 1 ist, soll hier verzichtet werden. Dafür wollen wir die

Wahrscheinlichkeit, dass die Zufallsvariable X Werte in dem Intervall [a, b] bzw. (a, b) annimmt,ermitteln.

P (a ≤ X ≤ b) = P (a < X < b) = P (a < X ≤ b) = FX(b) − FX(a) =

b∫

a

ϕ(t) dt

Leider können wir dieses Integral nicht explizit auswerten, so dass wir noch immer keinen Zahl-wert für die Wahrscheinlichkeit im Beispiel 6.3 angeben können.

Page 104: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

96 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Abbildung 7.3: Wahrscheinlichkeit für ein Intervall

-

6

a bx

ϕ(x)

P (a ≤ X ≤ b)

Definition 7.5 Die stetige Zufallsvariable X besitzt eine Normalverteilung mit den Para-metern µ (−∞ < µ < ∞) und σ2 (0 < σ2 < ∞) , falls X die Wahrscheinlichkeitsdichte

fX(x) =1

σ√

2πexp

− (x − µ)2

2σ2

(x ∈ IR)

besitzt. Man schreibt dann kurz X ∼ N (µ, σ2) . Für µ = 0 und σ2 = 1 heißt dieZufallsvariable X standardnormalverteilt.

X ∼ N (0, 12) Standardnormalverteilung

Abbildung 7.4: Dichte der Normalverteilung

-

6

µ − σ µ + σµ x

1σ√

fX

s ssWendepunkte

Bezeichnungen:

ϕ(x) :=1√2π

exp

−1

2x2

heißt Dichte der Standardnormalverteilung(Gaußsche Glockenkurve)

Φ(x) :=

x∫

−∞

ϕ(t) dt heißt Verteilungsfunktion der Standardnormalverteilung

Page 105: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.2. VERTEILUNGSFUNKTIONEN UND DICHTEN 97

Tabelle 7.1: Verteilungsfunktion Φ(x) der Standardnormalverteilung

x 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8349 0.8365 0.83891.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.99903.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.99933.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.99953.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.99973.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998 0.99983.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.99983.6 0.9998 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.7 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.99993.8 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999 0.9999

Ablesebeispiele: Φ(1.97) = 0.9756Φ(−0.27) = 1 − 0.6064 = 0.3936

Page 106: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

98 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Auf der vorhergehenden Seite ist Φ(x) für x ≥ 0 tabelliert. Die übrigen Werte ergeben sichwegen der Symmetrie der Dichtefunktion ϕ aus

Φ(−x) =

−x∫

−∞

ϕ(x) dx = 1 −∞∫

−x

ϕ(x) dx

y := −x , dy = −dx , ϕ(x) = ϕ(−y) = ϕ(y)

= 1 −x∫

−∞

ϕ(x) dx = 1 − Φ(x) (x ≥ 0) .

Y ∼ N (µ, σ2) =⇒

FY (x) =

x∫

−∞

1√2πσ2

· exp

−1

2

(t − µ

σ

)2

dt

(

y :=t − µ

σ, dy =

1

σdt

)

=

x−µσ∫

−∞

1√2π

e−12y2

dy =

x−µσ∫

−∞

ϕ(y) dy = Φ

(x − µ

σ

)

Es gilt also weiter

F(Y −µ)/σ(x) = P

(Y − µ

σ≤ x

)

= P (Y ≤ σx + µ) = FY (σx + µ)

= Φ

(σx + µ − µ

σ

)

= Φ(x) .

Bemerkungen: X ∼ N (µ, σ2) =⇒ Y := X−µσ ∼ N (0, 1)

Y ∼ N (0, 12) =⇒ X := σY + µ ∼ N (µ, σ2)

Für eine ZV X ∼ N (µ, σ2) erhalten wir allgemein

P(a ≤ X ≤ b

)= P

(a < X < b

)

=

b∫

a

fX(t) dt = FX(b) − FX(a) = Φ

(b − µ

σ

)

− Φ

(a − µ

σ

)

und für k > 0:

P(µ − k · σ ≤ X ≤ µ + k · σ

)

︸ ︷︷ ︸

k · σ–Bereich

= Φ

(µ + kσ − µ

σ

)

− Φ

(µ − kσ − µ

σ

)

= Φ(k) − Φ(−k)︸ ︷︷ ︸

1−Φ(k)

= 2 · Φ(k) − 1

Page 107: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.2. VERTEILUNGSFUNKTIONEN UND DICHTEN 99

k = 1 : P(µ − σ ≤ X ≤ µ + σ

)= 2 · 0.8413 − 1 = 68.26%

k = 2 : P(µ − 2 · σ ≤ X ≤ µ + 2 · σ

)= 2 · 0.9772 − 1 = 95.44%

k = 3 : P(µ − 3 · σ ≤ X ≤ µ + 3 · σ

)= 2 · 0.9987 − 1 = 99.74%

-

6

µ − σ µ + σµ x

Fläche = 0.682

fX

Definition 7.6 Die stetige Zufallsvariable X besitzt eine Gleichverteilung auf dem Intervall[0,1] , falls X die Wahrscheinlichkeitsdichte

fX(x) =

1 , falls 0 ≤ x ≤ 10 , sonst

besitzt. Man schreibt dann kurz

X ∼ U[0, 1] oder X ∼ G[0, 1]

Bemerkungen:

1. Die Verteilungsfunktion der Gleichverteilung auf [0,1] lautet:

FX(x) =

x∫

0

fX(x) dx =

0 , falls x ≤ 0x , falls 0 < x ≤ 11 , falls x > 1

2. Für alle 0 ≤ a < b ≤ 1 gilt :

P (X ∈ (a, b]) = PX

((a, b]

)= FX(b) − FX(a) = b − a = Länge

((a, b]

).

Die Wahrscheinlichkeit, dass die gleichverteilte Zufallsvariable X Werte im Intervall (a, b]annimmt, ist also nur von der Länge, nicht aber der expliziten Lage des Intervalls abhängig.

3. Die obige Aussage bleibt gültig auch wenn das Intervall offen oder abgeschlossen ist.

PX

([a, b]

)= PX

((a, b]

)+ PX(a)︸ ︷︷ ︸

0

= PX

((a, b]

)

PX

((a, b)

)= PX

((a, b]

)− PX(b)︸ ︷︷ ︸

0

= PX

((a, b]

)

Diese Rechnung kann man für alle stetigen Zufallsvariablen X durchführen.

Page 108: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

100 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Abbildung 7.5: Dichte und Verteilungsfunktion der Gleichverteilung

1 1

1 1x x

fX(x) FX(x)

- -

6 6

4. Gilt X ∼ U(0, 1) , dann nimmt die Zufallsvariable

Y := (b − a)X + a

für alle a, b ∈ IR mit a < b nur Werte auf dem Intervall [a, b] an. Für die Verteilungsfunktionder Zufallsvariablen Y erhalten wir:

FY (x) = P (Y ≤ x) = P ((b − a)X + a ≤ x) = P

(

X ≤ x − a

b − a

)

= FX

(x − a

b − a

)

=

x−ab−a∫

0

dt

mit der Substitution y := (b − a)t + a erhalten wir

=

x∫

a

dt

b − a

Für die Dichte von Y erhalten wir nun durch Differenzieren

fY (x) =

1

b−a , falls a ≤ x ≤ b ,

0 sonst

und sagen Y heißt gleichverteilt auf dem Intervall (a, b] und wir schreiben

Y ∼ U(a, b] .

5. Gilt umgekehrt Y ∼ U(a, b] , erhalten wir durch die Transformation X := Y −ab−a eine

Zufallsvariable X, die Werte im Intervall (0, 1] annimmt. Sie besitzt die Verteilungsfunktion

FX(x) = F(Y −a)/(b−a)(x) = P

(Y − a

b − a≤ x

)

= P (Y ≤ (b − a)x + a)

= FY

((b − a)x + a

)=

(b−a)x+a∫

a

1

b − adt =

1

b − a

[(b − a)x + a − a

]= x .

Es gilt also X = Y −ab−a ∼ U(0, 1] .

Page 109: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.2. VERTEILUNGSFUNKTIONEN UND DICHTEN 101

Beispiel 7.4 (Gemischte Zufallsvariable) Die folgende Grafik zeigt die Verteilungsfunkti-on der Lebensdauer X eines elektronischen Bauteils als Funktion seiner Einsatzdauer. Zu denZeiten xk mit k = 0, 1, . . . wird das Teil jeweils eingeschaltet, was mit einer gewissen Wahr-scheinlichkeit qk zum sofortigen Ausfall führt.

Abbildung 7.6: Verteilungsfunktion von Lebensdauern

-

6FX

x

q0

q1

q2

q3

1

x0 x1 x2 x3 x4 x5 x6

Diese Verteilungsfunktion gehört weder zu einer stetigen noch zu einer diskreten ZufallsvariablenX. Zunächst besitzt die Verteilungsfunktion FX Sprungstellen x0, x1, . . . mit den Sprunghöhen qk

mitqk = P (X = xk) = FX(xk) − lim

ε↓0FX(xk − ε)

︸ ︷︷ ︸

:= FX(xk−0)

für k = 0, 1, 2, . . . .

Für die Summe dieser Sprunghöhen gilt natürlich

p :=∑

k

qk < 1 .

Verändert man diese Verteilungsfunktion, in dem an allen Sprungstellen die Sprunghöhe zu 0gesetzt wird, so erhält man eine stetige, monoton nicht fallende Funktion mit der Eigenschaft,dass ihr Limes für x gegen ∞ gleich 1 − p ist. Dividieren wir diese Funktion durch 1 − p er-halten wir also die Verteilungsfunktion einer stetigen Zufallsvariablen Xs, den stetigen Anteilder Zufallsvariablen X. Analog erhalten wir die Verteilungsfunktion einer diskreten Zufallsvaria-blen Xd, den diskreten Anteil von X, wenn wir jede Sprunghöhe qk durch p dividieren undentsprechend

P (Xd = xk) := pk =1

p· qk ∀ k

Page 110: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

102 KAPITEL 7. STETIGE ZUFALLSVARIABLE

setzen.

Insgesamt haben wir damit die obige Verteilungsfunktion als gewichtete Summe der Verteilungs-funktionen der diskreten Zufallsvariablen Xd und der stetigen Zufallsvariablen Xs folgendermaßendargestellt:

FX(x) = p · FXd(x) + (1 − p) · FXs(x) .

Die Zufallsvariable X besitzt also Sprungstellen xk mit den Sprunghöhen qk = p · pk. Die Sum-me dieser Sprunghöhen ergibt dabei den Mischungsparameter p für den diskreten Anteil an derGesamtverteilung.

Für eine solche gemischte Zufallsvariable X auf einem Wahrscheinlichkeitsraum(Ω,S, P

),

erhalten wir für beliebige Ereignisse B ∈ S

P (X ∈ B) =

B

dFX(x) = p

B

dFXd(x) + (1 − p)

B

dFXs(x)

= p∑

xk∈B

P (Xd = xk)︸ ︷︷ ︸

pk

+ (1 − p)

B

fXs(x) dx(7.18)

=∑

xk∈B

P (X = xk)︸ ︷︷ ︸

qk

+

B

f(x) dx(7.19)

mit f(x) = ddxFX(x) = (1 − p) d

dxFXs(x) an allen Stetigkeitsstellen x von FX . Dabeibeachte man, dass f keine Wahrscheinlichkeitsdichte ist, da

∞∫

−∞

f(x) dx = 1 − p < 1

ist.

7.3 Momente

Auch bei stetigen Zufallsvariablen interessieren wir uns für ihren ”mittleren Wert”, den Erwar-tungswert. Analog zu den diskreten Zufallsvariablen erhält man allgemein:

Definition 7.7 Ist X eine Zufallsvariable auf dem Wahrscheinlichkeitsraum(Ω,S, P

), so heißt

E g(X) =

∞∫

−∞

g(x) dFX(x) :=

k

g(xk) · P (X = xk) , X diskret mit Werten xk,

∞∫

−∞g(x) · fX(x) dx , X stetig mit Dichte fX ,

der Erwartungswert von g(X) , falls die Reihe bzw. das Integral absolut konvergent sind.

Page 111: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.3. MOMENTE 103

Bemerkung:

1. Damit können alle Momente wie Varianz, . . . auch von stetigen Zufallsvariablen gebildetwerden.

2. Alle abgeleiteten Rechenregeln für Momente gelten auch für stetige Zufallsvariable.

3. Für gemischte Zufallsvariable wie in Beispiel 7.4 mit der Verteilungsfunktion

FX(x) = p · FXd(x) + (1 − p) · FXs(x)

gilt dann

E g(X) =

∞∫

−∞

g(x) dFX(x)

= p ·∞∫

−∞

g(x) dFXd(x) + (1 − p) ·

∞∫

−∞

g(x) dFXs(x)

= p∑

k

g(xk) · P (Xd = xk) + (1 − p)

∞∫

−∞

g(x) · fXs(x) dx(7.20)

= p E g(Xd) + (1 − p) E g(Xs)

= p∑

k

g(xk) · P (Xd = xk)︸ ︷︷ ︸

qk / p

+ (1 − p)

∞∫

−∞

g(x) · fXs(x)︸ ︷︷ ︸

f(x)/(1−p)

dx(7.21)

=∑

k

g(xk) · qk +

∞∫

−∞

g(x) · f(x) dx

mit f(x) = ddxFX(x) = (1 − p) d

dxFXs(x) an allen Stetigkeitsstellen x von FX .

Beispiel 7.5 (Normalverteilung) X0 ∼ N (0, 12)

E X0 =1√2π

∞∫

−∞

x · e− 12x2

︸ ︷︷ ︸

ungerade Funktion

dx = 0 , falls

∞∫

0

x · e− 12x2

dx < ∞

Wegend

dx

(

−e−12x2)

= x · e− 12x2

gilt aber∞∫

0

x · e− 12x2

dx = −e−12x2∣∣∣

0= 1 < ∞ .

Page 112: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

104 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Etwas mühsamer rechnet man Var X0 = 1 aus, so dass X0 eine Standardzufallsvariable ist.

Allgemein erhält man für X ∼ N (µ, σ2)

E X = µ und

Var X = σ2

Für die zugehörige Standardzufallsvariable X0 = X−µσ erhält man

FX0(y) = P (X0 ≤ y) = P

(X − µ

σ≤ y

)

= P (X ≤ σy + µ)

= FX(σy + µ) = Φ

(σy + µ − µ

σ

)

= Φ(y) ,

alsoX0 ∼ N (0, 12) .

Beispiel 7.6 (Gleichverteilung) X ∼ U [a, b] ⇐⇒ fX(x) =

1b−a falls a ≤ x ≤ b

0 sonst

E X =

b∫

a

1

b − ax dx =

1

b − a

x2

2

∣∣∣∣

b

a

=1

b − a· b2 − a2

2=

a + b

2Speziell :

X ∼ U [0, 1] =⇒ E X =1

2

Var X = EX2

− E 2 X mit

EX2

=1

b − a

b∫

a

x2 dx =1

b − a

b3 − a3

3=

b2 + ab + a2

3, also

Var X =b2 + ab + a2

3− a2 + 2ab + b2

4=

1

12

(a2 − 2ab + b2

)=

(b − a)2

12Speziell :

X ∼ U [0, 1] =⇒ Var X =1

12

Für die Standardzufallsvariable X0 :=X − a+b

2b−a√

12

ergibt sich nach kurzer Rechnung

X0 ∼ U [−√

3 , +√

3] mit Var X0 =(2√

3)2

12= 1 .

Page 113: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.3. MOMENTE 105

Beispiel 7.7 (Exponentialverteilung) Die Zufallsvariable T gebe den zeitlichen Abstandder Ausfälle eines technischen Systems an. Dann gilt häufig mit einem geeigneten λ > 0 für dieVerteilungsfunktion

FT (x) = P (T ≤ x) =

1 − e−λx falls x ≥ 0 ,

0 sonst .

Für ihre Dichte gilt dann entsprechend

fT (x) =

λ e−λx falls x ≥ 0 ,

0 sonst .

Abbildung 7.7: Verteilungsfunktion und Dichte der Exponentialverteilung

1 λ

0 0x x

FT (x) fT (x)

- -

6 6

Man nennt dann die Zufallsvariable T exponentialverteilt mit dem Parameter λ und schreibt

T ∼ Exp(λ) .

Zählt man nun mit der Zufallsvariablen N die Anzahl der Ausfälle dieses Systems in einemIntervall der Länge t, so kann man zeigen, dass

N ∼ Po(λt)

gilt. Die Ausfallzeitpunkte des Systems stellen also ein homogenes Chaos mit der Dichte λ(Häufigkeit der Ausfälle pro Zeiteinheit) dar.

Abbildung 7.8: Ausfallzeitpunkte eines technischen Systems

- t0

c c c c c -t1 -t2 -t3 -t4 -t5 · · ·

Page 114: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

106 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Die Zufallsvariablen Tj geben dabei den Abstand der Ausfallzeitpunkte an (j ∈ IN).

Der Erwartungswert der Zufallsvariablen T (mittlere Dauer zwischen zwei Ausfällen) müsstedann der Kehrwert von λ, der mittleren Anzahl der Ausfälle pro Zeiteinheit sein.

Tatsächlich rechnet man mit partieller Integration nach der Formel∫

u dv = uv −∫

v du

E T =

∞∫

0

x fT (x) dx = λ

∞∫

0

x︸︷︷︸

u

· e−λx dx︸ ︷︷ ︸

dv

= λ

+x

λe−λx

∣∣∣

0+

1

λ

∞∫

0

e−λx dx

= − x e−λx∣∣∣

0︸ ︷︷ ︸

0

− 1

λe−λx

∣∣∣∣

0

=1

λ

Ebenso ermittelt man die Varianz zu

Var T =1

λ2.

Bei den diskreten Zufallsvariablen haben wir gesehen, dass die erzeugenden Funktionen ein gutesInstrument darstellen, um Momente zu berechnen, aber auch um Konvergenzaussagen machenzu können. Ein vergleichbares Instrument stellen für allgemeine Zufallsvariable die sog. charak-teristischen Funktionen dar.

Definition 7.8 Ist X eine Zufallsvariable, dann heißt die Funktion ϕX : IR −→ C mit

ϕX(t) = EeitX

=

∞∫

−∞

eitx dFX(x) =

∞∫

−∞eitx fX(x) dx falls X stetig

k

eitxk P (X = xk) falls X diskret

charakteristische Funktion der Zufallsvariablen X.

Bemerkungen:

1. Dabei verstehen wir unter dem Integral über eine komplexwertige Funktion

g : IR −→ C mit g(x) = Re g(x) + i · Im g(x)

die natürliche Aufspaltung in die entsprechenden Integrale über reellwertige Funktionen

∞∫

−∞

g(x) dx =

∞∫

−∞

Re g(x) dx + i ·∞∫

−∞

Im g(x) dx .

Page 115: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.3. MOMENTE 107

2. Man kann zeigen, dass die charakteristische Funktion ϕX eindeutig die VerteilungsfunktionFX festlegt. Es gibt eine explizite Umkehrformel, auf die hier nicht eingegangen werdensoll.

3. Wegen

eitx = cos tx + i sin tx =⇒∣∣eitx

∣∣ =

cos2 tx + sin2 tx = 1

gilt

|ϕX(t)| =

∣∣∣∣∣∣

∞∫

−∞

eitx dFX(x)

∣∣∣∣∣∣

≤∞∫

−∞

∣∣eitx

∣∣ dFX(x) =

∞∫

−∞

dFX(x) = 1 (glm. beschr. in t) .

Damit existiert ϕX(t) für alle t ∈ IR.

Eigenschaften und Rechenregeln:

|ϕX(t)| ≤ 1 ∀ t ∈ IR (nur Werte im Einheitskreis)(7.22)

ϕX(0) = Ee0

= 1(7.23)

ϕX(−t) = Ee−itX

=

∞∫

−∞

(cos tx − i sin tx) dFX(x)(7.24)

=

∞∫

−∞

cos tx dFX (x) − i

∞∫

−∞

sin tx dFX(x)

= ϕX(t) (konjugiert komplex)

ϕ(k)X (t) =

dk

dtk

∞∫

−∞

eitx dFX(x) =

∞∫

−∞

dk

dtkeitx dFX(x)

=

∞∫

−∞

(ix)k eitx dFX(x)

=⇒ ϕ(k)X (0) = ik

∞∫

−∞

xk dFX(x) = ik · Mk (falls Mk ex.)

=⇒ Mk = i−kϕ(k)X (0)(7.25)

ϕaX+b(t) = E

eit(aX+b)

= eitbEeiatX

= eitbϕX(at)(7.26)

Page 116: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

108 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Beispiel 7.8 X ∼ Po(λ)

ϕX(t) =

∞∑

k=0

eitk λk

k!e−λ = e−λ

∞∑

k=0

(λeit

)k

k!︸ ︷︷ ︸

eλeit

= eλ(eit−1)

Beispiel 7.9 X ∼ N (µ, σ2)

ϕX(t) =

∞∫

−∞

eitx

√2πσ2

exp

−1

2

(x − µ

σ

)2

dx

z :=x − µ

σ, x = σz + µ , dx = σdz

=

∞∫

−∞

eit(µ+σz) e−z2/2 dz√2π

=eitµ

√2π

∞∫

−∞

e−z2

2+itσz dz

=eitµ − 1

2t2σ2

√2π

∞∫

−∞

exp

−1

2

[z2 − 2itσz − t2σ2

]

dz

= exp

itµ − 1

2t2σ2

∞∫

−∞

1√2π

e−12(z−itσ)2 dz = exp

itµ − 1

2t2σ2

,

weil das obige Integral∞∫

−∞1√2π

e−12(z−itσ)2 dz = 1 ist, wie man mit Methoden der Funk-

tionentheorie leicht nachweisen kann.

Für die Standardnormalverteilung (µ = 0 und σ2 = 1) gilt speziell:

ϕX0(t) = e−t2/2

Satz 7.5 Seien X und Y unabhängige Zufallsvariable, dann gilt

ϕX+Y (t) = ϕX(t) · ϕY (t) ∀ t ∈ IR

Beweis:

ϕX+Y (t) = E

eit(X+Y )

= EeitX · eitY

= E

eitX

· EeitY

= ϕX(t) · ϕY (t)

Bemerkung: X1, . . . ,Xn unabh. =⇒ ϕP

Xi(t) =

n∏

i=1

ϕXi(t)

Page 117: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.4. DER ZENTRALE GRENZWERTSATZ 109

7.4 Der Zentrale Grenzwertsatz

Wir betrachten nun eine Verallgemeinerung des Satzes von De Moivre – Laplace für allgemeineZufallsvariable den wir ohne Beweis angeben werden.

Definition 7.9 (Verteilungskonvergenz) Die Folge der Zufallsvariablen Xnn∈IN heißtgenau dann verteilungskonvergent gegen die Zufallsvariable X, wenn

limn→∞

FXn(x) = FX(x)

an allen Stetigkeitsstellen x von FX gilt. Wir schreiben dann

XnD−→ X .

In Verallgemeinerung des Satzes von Moivre–Laplace (Satz 6.6) betrachten wir nun eine Folgebeliebiger Zufallsvariabler Xnn∈IN auf dem Wahrscheinlichkeitsraum

(Ω,S, P

), deren Er-

wartungswerte E Xn und Varianzen Var Xn für alle n ∈ IN existieren. Auch hier schreibenwir

Sn =

n∑

i=1

Xi , Zn =Sn − E Sn√

Var Sn.

Wir sagen nun, dass für die Folge Xn ein zentraler Grenzwertsatz gilt, wenn die Folge derWahrscheinlichkeit Zn verteilungskonvergent gegen eine standardnormalverteilte ZufallsvariableX ist, also

ZnD−→ X mit X ∼ N (0, 12) .

gilt. Man sagt auch, dass die Folge Sn asymptotisch normalverteilt ist.

Damit gilt näherungsweise

n∑

i=1

Xi ∼ N(

n∑

i=1

E Xi , Var

n∑

i=1

Xi

)

.

Diesen Sachverhalt, wollen wir mit

n∑

i=1

Xi ≈ N(

n∑

i=1

E Xi , Var

n∑

i=1

Xi

)

bzw.

Sn =

n∑

i=1

Xi ≈ N(µ , σ2

)

mit µ =∑n

i=1 Xi und σ2 =∑n

i=1 Var Xi kennzeichnen.

Page 118: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

110 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Satz 7.6 Xnn∈IN sei eine Folge identisch nach FX verteilter, vollständig unabhängigerZufallsvariabler mit existierendem Erwartungswert E X und existierender Varianz Var X >0, dann ist die Folge der Zn asymptotisch normalverteilt, und es gilt

Zn :=Sn − nE X√

nVar XD−→ X0 mit X0 ∼ N (0, 12) .

Der Beweis erfolgt mit Hilfe der charakteristischer Funktionen und soll hier nicht geführt werden.

Bemerkung:

X =1

n

n∑

i=1

Xi ≈ N(

µ,σ2

n

)

falls X1, . . . ,Xn iid nach FX mit E X = µ und Var X = σ2.

Beispiel 7.10 X1,X2, . . . seien unabhängige Zufallsvariable, die die gleiche Verteilung wieX ∼ U [a, b] besitzen.

Wegen E X = a+b2 und Var X = 1

12(b − a)2 gilt

ZN :=

∑ni=1 Xi − n

2 (a + b)

(b − a)√

n/12

D−→ X0 .

Damit ist für große nFZn(x) ≈ Φ(x) bzw.

n∑

i=1Xi näherungsweise wie X verteilt mit X ∼ N

(n2 (a + b) , n

12 (b − a)2)

, also

FP

Xi(x) ≈ Φ

(

x − n2 (a + b)

(b − a)√

n/12

)

.

Bemerkung:

Speziell für n = 12 gilt: X1, . . . ,X12 ∼ U(0, 1] (vollst. unabh.) =⇒12∑

i=1Xi − 6 ≈

N (0, 12) .

Beispiel 7.11 (Satz von De Moivre–Laplace(1733)) Die Zufallsvariablen X1,X2, . . .seien unabhängige Bernoullivariable mit P (Xi = 1) = p und P (Xi = 0) = 1 − p.

Damit gilt wegen E Xi = p und Var Xi = p(1 − p)∑

i Xi − np√

np(1 − p)

D−→ X0 ,

wobei X0 ∼ N (0, 12) ist.

Page 119: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

7.4. DER ZENTRALE GRENZWERTSATZ 111

Dan∑

i=1Xi ∼ Bi(n, p) gilt, können wir wegen dieser Verteilungskonvergenz die Verteilungs-

funktion einer binomialverteilten Zufallsvariablen

Y ∼ Bi(n, p)

für große n folgendermaßen approximieren:

FY (k) = P (Y ≤ k) = P (Y < k + 1) ≈ Φ

(

k + 0.5 − np√

np(1 − p)

)

.

Berücksichtigt man die sog. Faustformel von Pfanzagl, nach der der Stichprobenumfang hin-reichend groß für diese Approximation ist, falls

np > 5 und n(1 − p) > 5

sind, dann gilt folgende Näherung:

P (k ≤ Y ≤ l) ≈ Φ

(

l − np + 0.5√

np(1 − p

)

− Φ

(

k − np − 0.5√

np(1 − p

)

.

Allgemeiner gilt der folgende Satz, dessen Beweis man z.B. bei Feller 2 oder Renyi3 nachlesenkann.

Satz 7.7 Seien die Zufallsvariablen X1,X2, · · · vollständig unabhängig mit existierendenErwartungswerten E Xi und Varianzen Var Xi > 0 für alle i ∈ IN , dann gilt für dieFolge der Zufallsvariablen

Zn :=

n∑

i=1

(Xi − E Xi

)

cnmit cn :=

√√√√

n∑

i=1

Var Xi

unter der Lindeberg – Bedingung

limn→∞

1

c2n

n∑

i=1

x: |x−EXi|>ε·cn

(x − E Xi)2 dFXi(x) = 0 ∀ ε > 0 ,

dassZn

D−→ X0 mit X0 ∼ N (0, 12)

gilt.

Bemerkung:

Die Lindebergbedingung ist erfüllt, falls die Varianzen der Zufallsvariablen Xi gleichgradigbeschränkt sind, d.h.

Var Xi ≤ c2 < ∞ ∀ i ∈ IN

gilt.2W. Feller: ”An Introduction to Probability Theory and its Applications”, Vol.I, Wiley & Sons, New York,

1968.3A. Renyi: ”Wahrscheinlichkeitstheorie”, VEB Wissenschaften, Berlin, 1966.

Page 120: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

112 KAPITEL 7. STETIGE ZUFALLSVARIABLE

Page 121: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Kapitel 8

Multivariate Zufallsvariable

Beispiel 8.1 Um für Simulationen die erforderlichen Informationen über Engpässe innerhalbeines Computers zu ermitteln, werden eine Reihe von Daten erhoben. Zu verschiedenen zufäl-ligen Zeitpunkten, werden Anforderungen an bestimmte Betriebsmittel, wie Arbeitsspeicher (S),Platten (P1, . . . , Pr), Drucker (D1, . . . ,Dm), . . . ermittelt. Alles sind Realisierungen von Zufalls-variablen, die jedoch nicht unabhängig sind. Es hat also wenig Sinn, sie einzeln zu betrachten.Gerade die Abhängigkeiten zwischen Ihnen muss der Gegenstand der Untersuchung sein. Deshalbfasst man alle Variablen zu einem Zufallsvektor (= Vektor von Zufallsvariablen) zusammen:

X =

X1...

Xn

=

(X1, . . . ,Xn)T =

(S,P1, . . . , Pr,D1, . . . ,Dm, . . .

)T

Bezeichnet ω einen der zufällig ausgewählten Zeitpunkte, so beschreibt X(ω) den Zustand desComputers zu diesem Zeitpunkt. ω ∈ Ω ist also wie bisher ein Versuchsausgang, dem aber mitX ein Vektor reeller Zahlen zugeordnet wird. Dabei stellt

X : −→ IRn

eine Funktion von n Veränderlichen dar.

Beispiel 8.2 Es werden Fahrzeuge beobachtet, die eine Kreuzung passieren. Die Auswahl derbeobachteten Fahrzeuge stellt eine zufällige Stichprobe aus der Grundmenge aller Fahrzeuge dar,die in der betreffenden Stadt fahren. Bezeichnet ω ein spezielles Fahrzeug, so wird das Zufallsex-periment durch einen Wahrscheinlichkeitsraum (Ω,S, P ) beschrieben. Nun interessiert uns vonjedem Fahrzeug eine Reihe unterschiedlicher Daten, wie Anzahl der Insassen (X1), Geschwindig-keit (X2), Hubraumgröße (X3) und der Typ des Fahrzeugs (X4). Es ist also nicht möglich, einenVersuchsausgang durch die Angabe des Wertes einer Zufallsvariabler X zu beschreiben. Dazusind hier 4 Zufallsvariable X1, . . . ,X4 bzw. ein Vektor von Zufallsvariablen Z = (X1, . . . ,X4)

T

erforderlich.

113

Page 122: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

114 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

Definition 8.1 (Zufallsvektor) Auf einem Wahrscheinlichkeitsraum (Ω,S, P ) seien diereellwertigen Zufallsvariablen

X1, . . . ,Xn : Ω −→ IR1

definiert. Die (vektorwertige) Funktion

Z : Ω −→ IRn mit Z(ω) =(X1(ω), . . . ,Xn(ω)

)T ∀ ω ∈ Ω

heißt (reeller) Zufallsvektor bzw. n – dimensionale Zufallsvariable.

Dabei interessieren wir uns für die Ereignisse ω : Z(ω) ∈ C für alle C ∈ Bn. Dabei ist Bn dien – dimensionale Borelsche σ-Algebra über dem IRn. Darunter versteht man die eindeutigbestimmte kleinste σ-Algebra über dem IRn, die alle n-dimensionalen Intervalle (Quader) enthält.

Setzen wir nunPZ (C) := P

(ω : Z(ω) ∈ C

)∀ C ∈ Bn ,

so stellt (IRn,Bn, PZ ) den von Z induzierten Wahrscheinlichkeitsraum dar. Für n = 1 ent-spricht dies völlig der Definition des vorangegangenen Kapitels.

PZ heißt die Verteilung des Zufallsvektors Z bzw. die gemeinsame Verteilung der Zufalls-variablen X1, . . . ,Xn.

Bemerkung:

In der Definition wurde der Hinweis unterlassen, dass Z nur dann Zufallsvariable sein kann, wenndie Funktion

Z :(Ω,S, P

)−→

(IRn,Bn, PZ

)

S – Bn – messbar ist, d.h. für alle Urbilder

Z−1(C) ∈ S ∀ C ∈ Bn

gilt. Auch hier wollen wir auf diese Eigenschaft, die u.a. alle stetigen Funktionen besitzen, nichtweiter eingehen.

8.1 Multivariate Verteilungen

Definition 8.2 Ist Z ein n-dimensionaler Zufallsvektor auf dem Wahrscheinlichkeitsraum(Ω,S, P

), so heißt die Funktion

FZ : IRn −→ IR

mit

FZ (x1, . . . , xn) = FX1,...,Xn(x1, . . . , xn) = P(X1 ≤ x1 ∧ X2 ≤ x2 ∧ . . . ∧ Xn ≤ xn

)

Page 123: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.1. MULTIVARIATE VERTEILUNGEN 115

die Verteilungsfunktion des Zufallsvektors Z, bzw. die gemeinsame Verteilungsfunktionder Zufallsvariablen X1, . . . ,Xn.

Die Wahrscheinlichkeit, dass der zweidimensionale Zufallsvektor Z := (X1,X2)T einen Wert

im QuaderQ :=

(x1, x2)

T : a1 < x1 ≤ b1 und a2 < x2 ≤ b2

∈ B2

annimmt, lässt sich leicht zu

P (Z ∈ Q) = FZ (b1, b2) − FZ (a1, b2) − FZ (b1, a2) + FZ (a1, a2)

ermitteln.

6

-

Q

b2

a2

a1 b1x1

x2

Existiert eine nichtnegative, integrable Funktion

fZ : IRn −→ IR mit

∞∫

−∞

· · ·∞∫

−∞

fZ(t1, . . . , tn) dtn · · · dt1 = 1

und

FZ (x1, . . . , xn) =

x1∫

−∞

· · ·xn∫

−∞

fZ(t1, . . . , tn) dtn · · · dt1 ∀ x1, . . . , xn ∈ IR ,

so heißt fZ die (Wahrscheinlichkeits -)Dichte des Zufallsvektors Z (gem. Dichte der Zufalls-variablen X1, . . . ,Xn). Der Zufallsvektor Z heißt dann stetig, und es gilt für alle C ∈ Bn

P (Z ∈ C) =

· · ·∫

C

fZ(t1, . . . , tn) dtn · · · dt1

=

∞∫

−∞

· · ·∞∫

−∞

IC(t1, . . . , tn) · fZ(t1, . . . , tn) dtn · · · dt1

mit der Indikatorvariablen IC(t1, . . . , tn) :=

1 falls (t1, . . . , tn)T ∈ C0 sonst

.

Page 124: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

116 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

Bemerkung:

1. Durch Vorgabe einer nichtnegativen integrablen Funktion f : IRn −→ IR mit

∞∫

−∞

· · ·∞∫

−∞

f(t1, . . . , tn) dtn · · · dt1 = 1

ist die Verteilung eines stetigen Zufallsvektors Z durch fZ :≡ f eindeutig festgelegt.

2. Besitzt die Verteilungsfunktion FX eines Zufallsvektors X stetige partielle Ableitungen

∂xiFX (x1, . . . , xn) ∀ i = 1, . . . , n ,

so ist die Reihenfolge der Ableitungen und Integrationen gleichgültig und X ist ein stetigerZufallsvektor mit der Dichte

fX(x1, . . . , xn) =∂n

∂x1 · · · ∂xnFX (x1, . . . , xn) ∀ x = (x1, . . . , xn)T ∈ IRn .

Beispiel 8.3 (Multivariate Normalverteilung) Der n–dimensionale Zufallsvektor X heißtmultivariat normalverteilt mit dem Erwartungsvektor µ = (µ1, . . . , µn)T und der symme-trischen, streng positiv definiten1 Kovarianzmatrix Σ =

((σij

))

i,j=1,...,n, falls für ihre Dichte

gilt:

fX(x) =1

(2π)k|Σ|exp

−1

2(x − µ)T Σ−1(x − µ)

∀ x ∈ IRn .

Wir schreiben dannX ∼ N (µ,Σ) .

Speziell für k = 1 gilt

Σ =((

σ2))

, µ = (µ) , Σ−1 =1

σ2, |Σ| = σ2 ,

und damitX ∼ N (µ, σ2) .

Für k = 2 mit X = (X,Y )T und µ = (µx, µy)T ,

Σ =

(σ2

x σxy

σxy σ2y

)

mit |σxy| < σ2x, σ2

y , also σ2xy < σ2

x · σ2y

1Eine Matrix Σ heißt streng positiv definit, falls für alle x ∈ IRn mit x 6= 0 xT Σx > 0 gilt. Das hat

u.a. σii := σ2i > 0 , σ2

i > |σij | ∀ j 6= i und detΣ := |Σ| > 0 zur Folge.

Page 125: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.1. MULTIVARIATE VERTEILUNGEN 117

erhält man nach kurzer Rechnung mit dem Korrelationskoeffizienten ρ :=σxy√σ2

xσ2y(

|ρ| < 1)

die Dichte der bivariaten Normalverteilung

fX,Y (x, y) =1

2πσxσy

1 − ρ2· exp

− 1

2(1 − ρ2)

[(x − µx

σx

)2

− 2ρ · x − µx

σx· y − µy

σy

+

(y − µy

σy

)2]

Abbildung 8.1: Dichte der bivariaten Normalverteilung

PPPPPPPPPPPPPPPPPPPPPPPPPPPPPPPq

6fX,Y (x, y)

x

y

(µx, µy)r

Bemerkung:

Die Verteilung des Zufallsvektors X = (X1, . . . ,Xn)T wird durch die gemeinsame Verteilungs-funktion FX1,...,Xn vollständig festgelegt. In welchem Zusammenhang stehen nun die einzelnenVerteilungsfunktionen FXi

(i = 1, . . . , n) mit der gemeinsamen Verteilungsfunktion FX?

Es gilt:

FXi(xi) = P

(

Xi ≤ xi) = P (Xi ≤ xi , Xj ∈ (−∞,+∞) ∀ j 6= i)

=

∞∫

−∞

· · ·xi∫

−∞

· · ·∞∫

−∞

fX1,...,Xn(t1, . . . , ti, . . . , tn) dtn · · · dti · · · dt1

=

xi∫

−∞

(∞∫

−∞

· · ·∞∫

−∞

fX1,...,Xn(t1, . . . , ti, . . . , tn) dtn · · · dti+1dti−1 · · · dt1

)

︸ ︷︷ ︸

:= fXi(ti)

dti

Page 126: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

118 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

Ist FX die Verteilungsfunktion des stetigen Zufallsvektors X = (X1, . . . ,Xn)T , so ergebensich die Marginaldichten der ebenfalls stetigen Einzelvariablen Xi zu

fXi(ti) =

∞∫

−∞

· · ·∞∫

−∞

fX1,...,Xn(t1, . . . , ti, . . . , tn) dtn · · · dti+1dti−1 · · · dt1 (i = 1, . . . , n) .

Für die obige Multinormalverteilung zeigt man mit einiger Rechnung auf diese Weise, dass

(X1, . . . ,Xn) ∼ N(µ,Σ

)=⇒ Xi ∼ N

(µi, σii

)(i = 1, . . . , n)

gilt.

Beachte:

Die gemeinsame Verteilung der Zufallsvariablen X1, . . . .Xn legt alle Marginalverteilungen fest.Umgekehrt legen die Marginalverteilungen noch nicht die gemeinsame Verteilung vollständig fest.Bei der Normalverteilung legen die Marginalverteilungen beispielsweise nur die Hauptdiagonalevon Σ, nicht aber die übrigen Matrixelemente fest. Wenn die Einzelvariablen Xi normalverteiltsind, muss die gemeinsame Verteilung aller Xi nicht einmal eine multivariate Normalverteilungdarstellen.

Beispiel 8.4 (Bivariate diskrete Zufallsvektoren) Das nachfolgende Beispiel behandeltzwar nur bivariate Variable, doch können sämtliche Bezeichnungen ohne Schwierigkeiten, wennauch mit erheblichem Schreibaufwand, auf n–dimensionale diskrete Variablen übertragen werden.

X =

(XY

)

mit P (X = xi, Y = yj) = pij (i = 1, . . . ,m , j = 1, . . . , l)

Tabelle 8.1: Kontingenztafel eines bivariaten Zufallsvektors

Y y1 y2 · · · yl

X P (X = xi)

x1 p11 p12 · · · p1l p1·x2 p21 p22 · · · p2l p2·...

......

......

xm pm1 pm2 · · · pml pm·P (Y = yj) p·1 p·2 · · · p·l 1

Page 127: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.1. MULTIVARIATE VERTEILUNGEN 119

Dabei sieht man leicht:

pi := P (X = xi) = P(

X = xi ∩l∑

j=1

Y = yj)

=

l∑

j=1

P (X = xi, Y = yj) =

l∑

j=1

pij =: pi·

qj := P (Y = yj) = · · · =

m∑

i=1

pij =: p·j

1 =

m∑

i=1

l∑

j=1

pij =

m∑

i=1

pi· =

l∑

j=1

p·j

Auch hier bestimmen die Randverteilungen (xi, pi) bzw. (yj, qj) die gemeinsame Verteilung((xi, yj) , pij

)nicht vollständig.

In Definition 5.8 haben wir die vollständige Unabhängigkeit von Zufallsvariablen definiertund in der anschließenden Bemerkung gezeigt, dass für diskrete Zufallsvariable die Unabhängig-keit gegeben ist, wenn die gemeinsame Verteilung der Zufallsvariablen als Produktverteilung derEinzelvariablen festgelegt ist, also

P (X1 = x1 , . . . , Xn = xn) = P (X1 = x1) · · ·P (Xn = xn)

für alle xi ∈ Ωi (i = 1, . . . , n) gilt. Entsprechend zeigen wir nun für stetige Zufallsvariable:

Bemerkung:

Die stetigen Zufallsvariablen X1, · · · ,Xn sind vollständig unabhängig, wenn für ihre gemeinsameDichte

fX1,...,Xn(x1, . . . , xn) = fX1(x1) · · · fXn(xn) ∀ x1, . . . , xn ∈ IR

gilt.

Allgemein kann man für beliebige Zufallsvariable zeigen:

Satz 8.1 Seien X1, . . . ,Xn Zufallsvariable auf dem Wahrscheinlichkeitsraum(Ω,S, P

). Dann

sind diese Zufallsvariablen genau dann vollständig unabhängig, wenn

FX1,...,Xn(x1, . . . , xn) =n∏

i=1

FXi(xi) ∀ x1, . . . , xn ∈ IR

gilt.

Page 128: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

120 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

Zusammenfassung:

1. X = (X1, . . . ,Xk)T : Ω −→ IRk k-dim. Zufallsvektor

FX1,...,Xk(x1, . . . , xk) = FX (x) = P (X ≤ x) = P (X1 ≤ x1, . . . ,Xk ≤ xk)

2. Speziell für k = 2 erhält man(

X = (X,Y )T , x = (x, y)T)

6

-

Q

b2

a2

a1 b1x

y

P (Q) = P (X ∈ Q) = FX (b1, b2) − FX (a1, b2) − FX (b1, a2) + FX (a1, a2)

3.X stetig ⇐⇒ FX (x) =

x∫

−∞

y∫

−∞

fX(u, v) dv du = FXY (x, y)

=⇒ P (X ∈ Q) =

b1∫

a1

b2∫

a2

fX (x, y) dy dx

X diskret =⇒ P (X ∈ Q) =∑

a1<xi≤b1

a2<yj≤b2

P (X = xi, Y = yj)︸ ︷︷ ︸

pij

4. X1, . . . ,Xk unabhängig

⇐⇒ FX (x) = FX1(x1) · · ·FXk(xk)∀ x ∈ IRk

⇐⇒ fX (x) =

n∏

i=1

fXi(xi) ∀ x ∈ IRk X stetig

⇐⇒ P (X = xi, Y = yj) = P (X = xi) · P (Y = yj) ∀ i, j X, Y diskret

8.2 Bedingte Verteilungen

Im Kapitel 4 haben wir den Begriff der bedingten Wahrscheinlichkeit für Ereignisse eines Wahr-scheinlichkeitsraumes

(Ω,S, P

)eingeführt.

P (B > 0) =⇒ P (A|B) =P (AB)

P (B)∀ A,B ∈ S

Page 129: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.2. BEDINGTE VERTEILUNGEN 121

Wir wollen diesen Begriff nun auf Zufallsvariable übertragen.

Sei (X,Y ) ein bivariater diskreter Zufallsvektor mit P (X = xi, Y = yj) = pij .

P (X = xi) | Y = yj) =P (X = xi ∧ Y = yj)

P (Y = yj)=

pij

p·j=: pi|j

falls p·j = P (Y = yj) > 0 ist.

Wegen∑

i pi|j = 1p·j

i pij = 1 stellen die Werte pi|j für festes j die Wahrscheinlichkeits-

verteilung einer bedingten Zufallsvariablen X|Y = yj dar.

Definition 8.3 Sei (X,Y ) ein bivariater diskreter Zufallsvektor auf dem Wahrscheinlich-keitsraum

(Ω,S, P

)und yj ∈ Y (Ω) ein Wert von Y mit P (Y = yj) > 0, dann ist(xi , pi|j

)

xi∈X(Ω)mit pi|j = P (X = xi | Y = yj)

die bedingte Wahrscheinlichkeitsverteilung der Zufallsvariablen X unter der BedingungY = yj.

Bemerkung:

E X | Y = yj =∑

i

xi · P (X = xi | Y = yj) =∑

i

xi · pi|j

E X =∑

i

xi · P (X = xi) =∑

i

xi · pi·

P (X = xi) =∑

j

P (X = xi|Y = yj) · P (Y = yj)

E X =∑

i

xi

j

P (X = xi|Y = yj) · P (Y = yj)

=∑

j

(∑

i

xiP (X = xi|Y = yj)

)

P (Y = yj)

=∑

j

E X|Y = yjP (Y = yj) =: EY E X|Y

Die letzte Gleichung bezeichnet man auch als Satz vom totalen Erwartungswert.

Für stetige Zufallsvektoren (X,Y ) hat die gleiche Begriffsbildung wegen P (Y = y) = 0 füralle y ∈ IR keinen Sinn.

Sind jedoch die gemeinsame Dichte fX,Y (x, y) für alle x ∈ IR und ihre Marginaldichte fY (y)in y stetig mit fY (y) > 0 , so ist

P(Y ∈ (y − ε, y + ε)

)> 0 ∀ ε > 0 ,

und die folgende Definition sinnvoll.

Page 130: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

122 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

Definition 8.4 Sei (X,Y ) ein stetiger bivariater Zufallsvektor auf dem Wahrscheinlichkeits-raum

(Ω,S, P

), so heißt im Falle der Existenz

limε↓0

P(X ≤ x | Y ∈ (y − ε , y + ε)

)= lim

ε↓0

P(X ≤ x , y − ε < Y < y + ε

)

P(y − ε < Y < y + ε

) =: FX|Y =y(x)

die bedingte Verteilungsfunktion von X unter der Bedingung Y = y. Man schreibt auch

FX|Y =y(x) = FX|Y (x|y) .

Gilt darüberhinaus

FX|Y =y(x) =

x∫

−∞

f(t) dt ∀ x ∈ IR ,

mit einer nichtnegativen integrablen Funktion

f : IR −→ IR mit f(t) := fX|Y =y(t) ,

dann heißt fX|Y =y die bedingte Dichte der Zufallsvariablen X unter der Bedingung Y = y.

Satz 8.2 Sei (X,Y ) ein stetiger bivariater Zufallsvektor auf dem Wahrscheinlichkeitsraum(Ω,S, P

)und sei die Marginaldichte fY stetig in y mit fY (y) > 0, dann existiert die bedingte

Dichte fX|Y =y , und es gilt

fX|Y =y(x) =fX,Y (x, y)

fY (y)∀ x ∈ IR .

Beweis:

FX|Y =y(x) = limε↓0

P(X ≤ x , y − ε < Y < y + ε

)

P(y − ε < Y < y + ε

)

= limε↓0

12ε [FX,Y (x , y + ε) − FX,Y (x , y − ε)]

12ε [FY (y + ε) − FY (y − ε)]

=

∂∂y FX,Y (x, y)

fY (y)=

1

fY (y)· ∂

∂y

y∫

−∞

x∫

−∞

fX,Y (u, v) du dv

=1

fY (y)

x∫

−∞

fX,Y (u, y) du∗=

x∫

−∞

fX,Y (u, y)

fY (y)︸ ︷︷ ︸

:= fX|Y =y(u)

du

Bemerkung:

Damit lässt sich der bedingte Erwartungswert von X unter der Bedingung Y = y folgendermaßenberechnen:

E X | Y = y =

∞∫

−∞

x · fX|Y =y(x) dx .

Page 131: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.2. BEDINGTE VERTEILUNGEN 123

Bemerkung:

Analog der Formel für die totale Wahrscheinlichkeit erhalten wir aus (∗)

FX(x) = P (X ≤ x) = P (X ≤ x , Y ∈ IR) =

∞∫

−∞

x∫

−∞

fX,Y (u, y) du

︸ ︷︷ ︸∗= fY (y)·FX|Y =y(x)

dy

=

∞∫

−∞

FX|Y =y(x) · fY (y) dy := EY

FX|Y (x)

Analog gilt

FY (y) =

∞∫

−∞

FY |X=x(y) · fX(x) dx := EX

FY |X(y)

Beispiel 8.5

-

6

x1

y1

@@

@@@

@@

@@@

@@

@@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@@@

@@@

@@@@@@@@@@

@@

@@@

@@

@@@

@@

@@

@@

@@

@@

@@

@@

@@

@@

@

@@@

@@@

@@@

@@@@@@@@

x

x

fX,Y (x, y) =

2 für 0 ≤ x ≤ y < 1 ,0 sonst .

Dichte der Gleichverteiling auf dem linken oberen Ein-heitsdreieck

fX(x) =

∞∫

−∞

fX,Y (x, y) dy =

1∫

x

2 dy = 2(1 − x) ( 0 ≤ x < 1 ) X 6∼ U[0, 1)

fY (y) =

∞∫

−∞

fX,Y (x, y) dx =

y∫

0

2 dx = 2y ( 0 ≤ y < 1 ) Y 6∼ U[0, 1)

fX|Y =y(x) =fX,Y (x, y)

fY (y)=

1

y6= fX(x) ( 0 ≤ x ≤ y < 1 ) =⇒ X|Y = y ∼ U [0, y]

fY |X=x(y) =fX,Y (x, y)

fX(x)=

1

1 − x6= fY (y) ( 0 < x < y < 1 ) =⇒ Y |X= x ∼ U [x, 1)

fX,Y (x, y) 6= fX(x) · fY (y) =1

y(1 − x)(0 ≤ x, y < 1) =⇒ X,Y nicht unabhängig.

Page 132: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

124 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

Bemerkung:

Ist C ∈ Bk mit∫· · ·∫

C

dxk · · · dx1 := F (C) < ∞ , so heißt der Zufallsvektor X auf C

gleichverteilt, falls

fX (x) =

1F (C) für x ∈ C ,

0 sonst

gilt.

Beispiel: C = Kreis um (mx,my) mit dem Radius r.

8.3 Funktionen und Momente von Zufallsvektoren

Wir wollen nun Funktionen gj : IRn −→ IR (j = 1, . . . , k) mehrerer ZufallsvariablerX1, . . . ,Xn bzw. eines Zufallsvektors X = (X1, . . . ,Xn)T auf

(Ω,S, P

)betrachten. Im Falle

der Messbarkeit der Funktionen gj ist der Vektor(g1(X), . . . , gk(X)

)T:= g(X) ebenfalls ein

Zufallsvektor auf dem obigen Wahrscheinlichkeitsraum.

In einer Reihe von Spezialfällen haben wir bereits Momente dieses Zufallsvektors berechnet. Sogilt für k = 1 und g1(X1, . . . ,Xn) := X1 + · · · + Xn

E g1(X) =n∑

i=1

E Xi .

Nun wollen wir aber darüberhinaus die gesamte Verteilung des neuen Zufallsvektors bestimmen.

Beispiel 8.6 (X1, . . . ,Xn)T sei ein Zufallsvektor auf(Ω,S, P

). Dann betrachten wir die

Zufallsvariablen Mn und Nn mit

Mn(ω) := maxX1(ω), . . . ,Xn(ω) ∀ ω ∈ Ω und

Nn(ω) := minX1(ω), . . . ,Xn(ω) ∀ ω ∈ Ω .

Besitzen nun X1, . . . ,Xn die gleiche Verteilungsfunktion FX und sind vollständig unabhängig,

Page 133: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.3. FUNKTIONEN UND MOMENTE VON ZUFALLSVEKTOREN 125

so gilt

FMn(z) = P (Mn ≤ z) = P( n⋂

i=1

Xi ≤ z)

=

n∏

i=1

P (Xi ≤ z)

=

n∏

i=1

FXi(z) = Fn

X(z) ∀ z ∈ IR und

FNn(z) = P (Nn ≤ z) = 1 − P (Nn > z) = 1 − P( n⋂

i=1

Xi > z)

= 1 −n∏

i=1

P (Xi > z) = 1 −n∏

i=1

(1 − FXi

(z))

= 1 −(1 − FX(z)

)n ∀ z ∈ IR .

Ist X darüberhinaus stetig (X1, . . . ,Xn stetige Zufallsvariable), gilt weiter

fMn(z) = n · Fn−1X (z) · fX(z) ∀ z ∈ IR und

fNn(z) = n(1 − FX(z)

)n−1fX(z) ∀ z ∈ IR .

Allgemein gilt für stetige Zufallsvektoren der folgende Transformationssatz für Dichten:

Satz 8.3 Sei X = (X1, . . . ,Xn)T ein stetiger Zufallsvektor auf dem Wahrscheinlichkeitsraum(Ω,S, P

)mit der Dichte fX = fX1,...,Xn und X : Ω −→ R ⊆ IRn , dann gilt für jede stetige,

umkehrbare Transformation

g = (g1, . . . , gn)T : R −→ S ⊆ IRn

mit

Y :=

Y1...

Yn

:= g(X) =

g1(X1, . . . ,Xn)...

gn(X1, . . . ,Xn)

und der Umkehrtransformation

X =

X1...

Xn

= g−1(Y ) =: h(Y ) =

h1(Y1, . . . , Yn)...

hn(Y1, . . . , Yn)

mit der Funktionaldeterminante

J = det

∂∂y1

h1(y1, . . . , yn) · · · ∂∂yn

h1(y1, . . . , yn)...

...∂

∂y1hn(y1, . . . , yn) · · · ∂

∂ynhn(y1, . . . , yn)

6= 0 ∀ y ∈ S

fY (y) = |J | · fX(g−1(y)

)

bzw.fY1,...,Yn(y1, . . . , yn) = |J | · fX1,...,Xn

(h1(y1, . . . , yn), . . . , hn(y1, . . . , yn)

).

Page 134: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

126 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

Der Beweis benutzt unmittelbar den entsprechenden Transformationssatz für Integrale aus derAnalysis.

Beispiel 8.7 (k-fache Faltung) X = (X1, . . . ,Xn)T sei ein stetiger Zufallsvektor. Wir in-teressieren uns für die Verteilung der Summe seiner Komponenten

Z := X1 + · · · + Xn .

Zunächst ergänzen wir diese Funktion zu einer Transformation im Sinne des Satzes 8.3.

Y1 := X1 + X2 + · · · + Xn

Y2 := X2...

Yn := Xn

=⇒

X1 := Y1 − Y2 − · · · − Yn

X2 := Y2...

Xn := Yn

.

Damit gilt für die Funktionaldeterminante

J =

∣∣∣∣∣∣∣∣∣∣∣

1 −1 −1 · · · −10 1 0 · · · 00 0 1 · · · 0...

......

. . ....

0 0 0 · · · 1

∣∣∣∣∣∣∣∣∣∣∣

= 1 6= 0 ∀ y ∈ IRn .

Mit Satz 8.3 erhalten wir weiter

fY1,...,Yn(y1, . . . , yn) = fX1,...,Xn

(

y1 −n∑

i=2

yi , y2, . . . , yn

)

· 1 und

fZ(z) = fY1(z) =

∞∫

−∞

· · ·∞∫

−∞

fX1,...,Xn

(

z −n∑

i=2

yi , y2, . . . , yn

)

dy2 · · · dyn .

Speziell für unabhängige Zufallsvariable X1, . . . ,Xn mit der gleichen WahrscheinlichkeitsdichtefX gilt

fP

Xi(z) =

∞∫

−∞

· · ·∞∫

−∞

fX

(

z −n∑

i=2

yi

) n∏

i=2

fX(yi) dy2 · · · dyn

=

∞∫

−∞

fX(yn)

∞∫

−∞

fX(yn−1)

∞∫

−∞

· · ·∞∫

−∞

fX

(

z −n∑

i=2

yi

)

· fX(y2) dy2 · · · dyn

Die letzte Integration bezeichnet man als Faltungsintegral oder auch als k–fache Faltung vonfX.

Für k = 2 ergibt sich

fX+Y (z) =

∞∫

−∞

fX(y)fX(z − y) dy .

Page 135: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.3. FUNKTIONEN UND MOMENTE VON ZUFALLSVEKTOREN 127

Sind X1, . . . ,Xn ∼ N (0, 12) und vollständig unabhängig, dann gilt

=⇒ fX1,...,Xn(x1, . . . , xn) =

n∏

i=1

exp−1

2x2i

√2π

= (2π)−n/2 exp

−1

2

n∑

i=1

x2i

=⇒ fP

Xi(z) = (2π)−n/2

∞∫

−∞

· · ·∞∫

−∞

exp

−1

2

[(

z −n∑

i=2

yi

)2+

n∑

i=2

y2i

]

dyn · · · dy2

= · · · =1√2πn

exp

−1

2

(z√n

)2

=⇒n∑

i=1

Xi ∼ N (0, n)

Allgemein gilt:

Xi ∼ N (µi, σ2i ) ∀ i = 1, . . . , n (iid2) =⇒

n∑

i=1

Xi ∼ N( n∑

i=1

µi ,

n∑

i=1

σ2i

)

Beispiel 8.8 Seien Z := X · Y und X,Y stetige Zufallsvariable mit der gemeinsamenDichte fX,Y .

U = X · Y

V = Y=⇒

X = UV

Y = V=⇒ J =

∣∣∣∣∣∣

∂X∂U

∂X∂V

∂Y∂U

∂Y∂V

∣∣∣∣∣∣

=

∣∣∣∣∣∣

1v − u

v2

0 1

∣∣∣∣∣∣

=1

v6= 0

=⇒ fU,V (u, v) = fX,Y

(u

v, v)

· 1

|v|

=⇒ fU(u) = fX·Y (u) =

∞∫

−∞

fX,Y

(u

v, v) 1

|v| dv

Beispiel 8.9 Z := aXY mit Y (ω) 6= 0 ∀ ω ∈ Ω , a 6= 0

U = aXY

V = Y

=⇒X = 1

a · UV

Y = V=⇒ J =

∣∣∣∣∣∣

va

ua

0 1

∣∣∣∣∣∣

=v

a6= 0

2identically independend distributed: alle Xi besitzen die gleiche Verteilung und sind vollständig unabhängig

Page 136: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

128 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

=⇒ fU,V (u, v) = fX,Y

(uv

a, v)

· |v||a|

=⇒ fU(u) = f aXY

(u) =

∞∫

−∞

fX,Y

(uv

a, v) |v|

|a| dv

Definition 8.5 Ist X ein Zufallsvektor auf dem Wahrscheinlichkeitsraum(Ω,S, P

)und

g : IRn −→ IR eine Bn – B – messbare Funktion, dann heißt

E g(X) =

IRn

g(x) dFX (x) =

∞∫

−∞

· · ·∞∫

−∞

g(x1, . . . , xn) dFX1,...,Xn(x1, . . . , xn)

der Erwartungswert von g(X).

Im Falle der Existenz heißen:

E X =

E X1...

E Xn

der Erwartungsvektor von X,

E

Xk11 · · ·Xkn

n

gemeinsames Moment der Ordnung k =n∑

i=1ki,

E(X1 − E X1)k1 · · · (Xn − E Xn)kn

gemeinsames zentriertes Moment.

Die gemeinsamen 2. zentrierten Momente heißen:

E (Xi − E Xi) · (Xj − E Xj) =

Var Xi für i = j Varianz von Xi

cov Xi,Xj für i 6= j Kovarianz von Xi und Xj

Die Matrix der 2. zentrierten Momente

CovX =((

E(

Xi − E Xi)·(Xj − E Xj

) ))

i,j=1,...,nheißt Kovarianzmatrix von X .

Bemerkungen:(

XY

)

diskret =⇒ E g(X,Y ) =∑

i

j

g(xi, yj) · P (X = xi, Y = yj)

(XY

)

stetig =⇒ E g(X,Y ) =

∞∫

−∞

∞∫

−∞

g(x, y) · fX,Y (x, y) dx dy

cov X,X = Var X

X ∼ N(µ,Σ

)=⇒ E X = · · · = µ und CovX = · · · = Σ

Page 137: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

8.3. FUNKTIONEN UND MOMENTE VON ZUFALLSVEKTOREN 129

Satz 8.4 (Ungleichung von Cauchy–Schwarz) Sind X und Y Zufallsvariable mit existie-renden Varianzen und Var X ,Var Y < ∞, dann existiert cov X,Y , und es gilt

(a) E 2 X · Y ≤ EX2· EY 2

(b) Ist EX2

> 0 , dann gilt in (a) das Gleichheitszeichen genau dann, wenn ein α ∈ IRexistiert mit P (αX + Y = 0) = 1 . Man sagt dann auch: Mit Wahrscheinlichkeit 1besteht ein linearer Zusammenhang zwischen X und Y .

Beweis:

(a) EX2

= 0

=⇒ P (X = 0) = 1

(

sonst: ∃ ε > 0 mit P (X > ε) = p > 0 =⇒ EX2≥ p · ε2 > 0

)

=⇒ E XY = 0 =⇒ E 2 XY = 0 ≤ EX2· EY 2

= 0

Allgem. gilt 0 ≤ E(αX + Y )2

= α2E

X2

+ 2αE XY + EY 2

∀α ∈ IR

EX2

> 0 : wähle α := −E XY E X2

=⇒ 0 ≤ E 2 XY E X2 − 2

E 2 XY E X2 + E

Y 2

=⇒ E 2 XY E X2 ≤ E

Y 2

(b) ”=” in (a) ⇐⇒ E(αX + Y )2

= 0 ⇐⇒ P (αX + Y = 0) = 1

Definition 8.6 Sind X,Y Zufallsvariable auf(Ω,S, P

)mit 0 < Var X ,Var Y < ∞ ,

so heißt

ρ(X,Y ) :=cov X,Y

Var XVar Y Korrelationskoeffizient von X und Y .

X und Y heißen unkorreliert ⇐⇒ ρ(X,Y ) = 0 (⇐⇒ cov X,Y = 0)

Satz 8.5 Sind X und Y Zufallsvariable auf(Ω,S, P

)mit 0 < Var X ,Var Y < ∞, dann

gilt

1. X und Y unabhängig =⇒ X und Y sind unkorreliert .

2. |ρ(X,Y )| ≤ 1

Page 138: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

130 KAPITEL 8. MULTIVARIATE ZUFALLSVARIABLE

3. |ρ(X,Y )| = 1 =⇒ ∃ α ∈ IR mit P (αX + Y = 0) = 1

4. (X,Y )T bivariat normalverteilt =⇒(

X,Y unabhängig ⇐⇒ X,Y unkorreliert)

Bemerkungen:

1. Zum Beweis der ersten Aussage des Satzes benötigt man die folgenden Rechenregeln:

cov X,Y = E (X − E X) · (Y − E Y )= E X · Y − Y · E X − X · E Y + E X · E Y = E X · Y − E X · E Y (8.1)

Sind X und Y unabhängig, gilt (Beweis hier nur zur stetige Zufallsvariable, für diskreteVariable verläuft er analog)

E X · Y =

∞∫

−∞

∞∫

−∞

x · y · fX,Y (x, y)︸ ︷︷ ︸

=fX(x)·fY (y)

dx dy

=

∞∫

−∞

xfX(x) dx ·∞∫

−∞

yfY (y) dy = E X · E Y (8.2)

Damit gilt Aussage (1).Die Umkehrung dieser Aussage gilt i.a. nicht.

2. cov X + Z, Y = E (X + Z)Y − E X + Z E Y = E XY + ZY − (EX + E Z) · E Y = E XY − E X E Y + E ZY − E Z E Y = cov X,Y + cov Z, Y

Damit gilt allgemein

cov

i

Xi,∑

j

Yj

=

i

j

cov Xi, Yj(8.3)

Definition 8.7 Ein n–dimensionaler Zufallsvektor X auf einem Wahrscheinlichkeitsraum(Ω,S, P

)heißt

genau dann unkorreliert, wenn seine Kovarianzmatrix eine Diagonalmatrix ist, also

Cov X = diag(Var X1 , . . . ,Var Xn)

gilt.

Page 139: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Index

Additivität, 18Asymmetrie, 61

BayesFormel von, 36

bedingte Wahrscheinlichkeit, 33Bernoulli, 5Bernoulli – Experiment, 42, 45, 49, 67

n – faches, 42Bernoulli–Experiment, 49Bildraum, 46Binomialkoeffizient, 13Bonferroni – Ungleichung, 20Borelsche Sigma - Algebra, 89Bose – Einstein – Statistik, 28

Cardano, 5Carnap, 7Cauchy – Schwarz

Ungleichung von, 129Chaos

zeitlich homogenes, 79, 105charakteristische Funktion, 106, 107Chebychev, 6

Ungleichung von, 70

Dichte, 94gemeinsame, 115multivariate, 115

Elementarereignis, 15, 18Ereignis, 16, 17

seltenes, 79sicheres, 17unabhängiges, 37unmögliches, 17

Ereignisraum, 15Erwartungsvektor, 128Erwartungswert, 50, 60, 102

allgemeiner, 128bedingter, 54unbedingter, 55

Exzeß, 60

Faltung, 126Faltungsintegral, 126Fermi – Dirac – Statistik, 29Finetti, de, 7Funktion

charakteristische, 106, 107erzeugende, 63wahrscheinlichkeitserzeugende, 64

Funktionaldeterminante, 125Fuzzy, 8

Gauß, 5Gaußsche Glockenkurve, 84, 96geometrische Reihe, 49Gesetz der großen Zahlen

schwaches, 71Grenzwertsatz

zentraler, 110, 111Grundmenge, 11

Häufigkeitrelative, 16

Histogramm, 82

Indikatorvariable, 54

Kolmogorov, 6Kolmogorov – Axiome, 19, 90Kombination, 11Kontingenztafel, 118Konvergenz in Verteilung, 77Korrelationskoeffizient, 129

Normalverteilung, 117Kovarianz, 68, 128

131

Page 140: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

132 INDEX

Kovarianzmatrix, 128Normalverteilung, 116

Kurtosis, 60

Laplace, 5Laplace – Raum, 21Laplace-Raum, 21Lebesgue – Stieltjes Integral, 95Liste, 11

einfache, 11, 12mehrfache, 11, 12

Lotto, 12, 25, 26, 38

Münzwurf, 15, 40, 43, 80Normalapproximation, 85

Marginaldichte, 118Marginalverteilung, 118Markov, 6Maxwell – Boltzmann – Statistik, 28Menge, 11

mehrfache, 11, 12Mengenfolgen, 90Merkmalraum, 15messbar, 92, 114Mises, von, 7Moivre – Laplace

Satz von, 84, 110Moivre, de, 5Moment

k–tes, 60faktorielles, 60, 65gemeinsames, 128gemeinsames zentriertes, 128nichtzentriertes, 62, 65zentriertes, 60, 62, 65

Multinomialkoeffizient, 13

NormalapproximationBinomialverteilung, 80

paarweise disjunkt, 18Poissonscher Grenzübergang, 76, 78Poissonstrom, 80positiv definit, 116Positivität, 18Potenzmenge, 17Probe, 11

geordnete, 11ungeordnete, 11

Produktraum, 41Produktwahrscheinlichkeit, 41, 66Produktwahrscheinlichkeitsraum, 66

quadratisches Mittel, 61Quicksort, 55, 72

Randverteilung, 119Realisierung, 15Reihe

geometrische, 49

SchiefeCharliersche, 60

Schnorr, 7Sigma – Additivität, 18Sigma – Algebra, 88

Borelsche, 89n – dimensionale, 114

Signalübertragung, 34Sortieren, 53, 55, 72Standardnormalverteilung, 96Standardzufallsvariable, 81Stichprobe, 15Stichprobenraum, 15Stirlingsche Formel, 85streng positiv definit, 116Streuung, 60Subtraktivität, 20

totaler Erwartungswert, 121Transformationssatz, 125Treppenfunktion, 93

Unabhängigkeit, 37paarweise, 39stochastische, 37vollständige, 40, 66, 119Zufallsvariable, 66

unkorreliert, 129Urbild, 47Urnenmodell, 23

mit Zurücklegen, 24, 25ohne Zurücklegen, 24, 25

Varianz, 60, 128

Page 141: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

INDEX 133

Variationskoeffizient, 60Versuchsausgang, 15, 16Verteilung

bedingte, 121Binomial –, 41, 46, 51, 62, 64, 65, 68, 72,

77, 81, 93diskrete, 46Exponential –, 105

Dichte, 105Verteilungsfunktion, 105

geometrische, 47–49, 51, 64, 65Gleich –, 99, 104

Dichte, 100multivariate, 124Verteilungsfunktion, 100

hypergeometrische, 46, 53Multinormal –, 116, 118Normal –, 96, 103, 108

Dichte, 96multivatiate, 116Tabelle, 96

Poisson –, 75–79, 81Zufallsvektor, 114

Verteilungsdichtediskrete, 46

Verteilungsfunktion, 91, 93gemeinsame, 115, 117multivariate, 115

Verteilungskonvergenz, 77, 109

Würfelnein Würfel, 16, 17, 21zwei Würfel, 16, 22

Wahrscheinlichkeit, 16, 18, 19Additivität, 18bedingte, 33diskrete Zufallsvariable, 95entscheidungstheoretische, 8Fuzzy -, 8kombinatorische, 7Laplace, 21logische, 7Positivität, 18Produkt –, 41Sigma – Additivität, 18statistische, 6

stetige Zufallsvariable, 95subjektive, 7Subtraktivität, 20totale, 35

Wahrscheinlichkeitsdichte, 94bedingte, 122gemeinsame, 115multivariate, 115

Wahrscheinlichkeitsmaß, 19erzeugtes, 92

Wahrscheinlichkeitsraum, 4, 114allgemeiner, 89diskreter, 19, 47, 92

Wahrscheinlichkeitsverteilungbedingte, 121

Wartezeit, 48

Zähldichte, 46Ziegenproblem, 39zufällige Funktion, 46Zufall, 15Zufallsexperiment, 3, 15

diskretes, 15Zufallsgröße, 46Zufallsvariable

n – dimensionale, 114allgemeine, 92bedingte, 121diskrete, 46, 47

bivariate, 118Verteilungsfunktion, 93

gemischte, 101Standard –, 81standardisierte, 81stetige, 94unkorrelierte, 68

Zufallsvektor, 114diskreter

bivariater, 121stetiger, 116Verteilung, 124

Page 142: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

134 INDEX

Page 143: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

Anhang A

Übungsaufgaben

A.1 Kombinatorik

1. Wie viele verschiedene ungeordnete Proben vom Umfang r kann man mit Wiederholungenaus einer Grundmenge Ω (|Ω| = n) ziehen?

2. Wie viele verschiedene Sitzordnungen gibt es für 5 Männer und 5 Frauen an einem rundenTisch, wenn nur zwischen den Geschlechtern und nicht zwischen individuellen Personenunterschieden werden soll? Dabei sollen Ordnungen, die durch Drehen des Tisches ineinan-der übergehen nicht unterschieden werden. Was ändert sich, wenn Männer und Frauen in”gemischter Reihe” sitzen sollen? Was ergibt sich, wenn die Personen nicht als Individuengesehen werden sondern nur das Geschlecht interessiert?

3. Auf wie viele Arten kann man 6 Bücher nebeneinander in ein Regal stellen, wenn 3 vonihnen gleich (nicht unterscheidbar) sind?

4. Wie groß ist die Anzahl der verschiedenen Würfe mit 5 nicht unterscheidbaren Würfeln?Was ändert sich, wenn die Würfel unterschiedliche Farben haben, also unterscheidbar sind?

5. Im unten stehenden Raster darf man nur nach rechts, oben oder rechts oben laufen. Wieviele verschiedene Wege gibt es, von A nach B?

135

Page 144: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

136 ANHANG A. ÜBUNGSAUFGABEN

u u u u u uu u u u u uu u u u u uu u u u u uu u u u u u

A

B

6. Wie viele Tischordnungen gibt es an einem runden Tisch mit 12 Personen, wenn 2 be-stimmte Personen mindestens 3 Plätze auseinander sitzen sollen. (Wie in Aufgabe 2 , ohneBerücksichtigung der Geschlechter).

A.2 Diskrete Wahrscheinlichkeitsräume

1. In einer Kirschtorte befinden sich drei Kerne. Die Torte werde in 4 gleiche Teile zerschnitten.Man berechne die Wahrscheinlichkeiten der folgenden Ereignisse:

(a) alle Kerne befinden sich in einem bestimmten Stück,

(b) alle Kerne konzentrieren sich in einem Stück,

(c) die Kerne verteilen sich in verschiedenen Stücken.

2. Zwei Freunde vereinbaren das folgende Knobelspiel: Wer beim Münzwurf zuerst fünfmalgewonnen hat, erhält 100 DM. Beim Spielstand von 4 : 3 fällt die Münze in einen Gully.Man einigt sich darauf, das Spiel nicht fortzusetzen, sondern das Geld entsprechend denGewinnchancen zu verteilen. Der Zurückliegende will die 100 DM daraufhin im Verhältnis 4: 3 aufteilen. Der andere ist damit nicht einverstanden. Wie sollte die Aufteilung tatsächlicherfolgen?

3. Eine Urne enthalte n Lose mit genau einem Gewinnlos. Zwei Personen ziehen nacheinanderjeweils ein Los. Die zweite Person behauptet, dass für sie die Chance, den Gewinn zuerzielen, geringer sei. Stimmt das?

4. Bei einer Tombola gibt es 100 Lose, von denen 95 Nieten sind. Sie kaufen 10 Lose. Wiegroß ist die Wahrscheinlichkeit, mindestens einmal etwas zu gewinnen, d.h. mindestens einGewinnlos zu ziehen? Mit welcher Wahrscheinlichkeit ziehen Sie genau 7 Nieten?

5. Es werde mit 3 Würfeln gewürfelt. Wie groß ist die Wahrscheinlichkeit, dass genau (min-destens) 2 Würfel eine gerade Zahl zeigen? Wie groß ist die Wahrscheinlichkeit, dass dieAugensumme 12 beträgt?

6. Wie oft muss man mit zwei Würfeln mindestens würfeln, damit die Wahrscheinlichkeit,mindestens einmal eine höhere Augensumme als 10 zu würfeln, mindestens 80% beträgt?

Page 145: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.2. DISKRETE WAHRSCHEINLICHKEITSRÄUME 137

7. Wie groß ist die Wahrscheinlichkeit p dafür, dass von n Schülern einer Klasse mindestenszwei am selben Tag Geburtstag haben? Wie groß muss n mindestens sein, damit p größerals 0.5 wird?

8. Über die Informatik-StudentInnen im 5. Fachsemester liegen folgende Informationen vor:

• 85% aller StudentInnen haben den Stochastikschein.

• Von allen StudentInnen mit bestandenem Vordiplom haben 35% nur den Stochastik-schein aber nicht den Numerikschein und 45% sowohl den Stochastik- als auch denNumerikschein.

• Erfahrungsgemäß bestehen 30% der StudentInnen mit dem Stochastikschein nicht dasVordiplom.

Sind die Ereignisse

V = ”StudentIn hat Vordiplom” und S = ”StudentIn hat Stochastikschein”

unabhängig?

9. Gegeben sei ein Parallelrechner mit n > 1 unterscheidbaren Prozessoren und k ∈ INvoneinander unterscheidbaren Jobs.

(a) Wie viele Möglichkeiten gibt es, diese Jobs auf die einzelnen Prozessoren zu verteilen,wenn jedem Prozessor

i. höchstens ein Job zugeteilt werden darf (für k ≤ n)?

ii. auch mehrere Jobs zugeteilt werden dürfen?

(b) Man bestimme für den Fall 9(a)ii die Wahrscheinlichkeit, dass mindestens ein Prozes-sor keinen Job zugeteilt bekommt.

(c) Nun seien n = 4 und k = 10. Man bestimme die Wahrscheinlichkeit, dass der ersteProzessor 3, der zweite 4, der dritte 2 und der vierte 1 Job(s) zugeteilt bekommt.

10. Zu einer Feier bringen n Personen jeweils ein Geschenk mit. Die Geschenke werden zufälligunter den n Personen verteilt.

(a) Man berechne die Wahrscheinlichkeit pn dafür, dass keine Person das eigene Geschenkerhält.

(b) Man berechne limn→∞ pn!

(Hinweis: Man verwende die Formel (3.14) der Vorlesung mit Ai=i-te Person erhält ihreigenes Geschenk.)

11. Drei ideale Münzen werden unabhängig voneinander geworfen. Dabei werden folgende Er-eignisse betrachtet:

A: ”Es tritt höchstens einmal Wappen auf”,B: ”Es tritt mindestens jede Seite einmal auf”.

Sind die Ereignisse A und B unabhängig?

Page 146: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

138 ANHANG A. ÜBUNGSAUFGABEN

12. Drei Gücksspielautomaten gleichen Typs sind mit unterschiedlichen Zufallsmechanismenausgestattet worden, was aber von außen nicht erkennbar ist. Ein professioneller Spielererzielt bei Automat A mit der Wahrscheinlichkeit 1/6, bei Automat B mit der Wahrschein-lichkeit 1/3 und bei Automat C immer einen Gewinn pro Spiel. Er wählt nun einen derAutomaten zufällig aus, und spielt daran 1 (2, 5, n)–mal. Bei jedem Spiel gewinnt er.Wie groß ist die Wahrscheinlichkeit, dass er am Automaten A (B, C) spielt?

13. In einer Kist mit 120 Eiern sind davon 25% faul. 6 Eier werden zufällig herausgegriffen(ohne Zurücklegen). Wie groß ist die Wahrscheinlichkeit, dabei höchstens ein faules Ei zuhaben? Berechnen Sie diese Wahrscheinlichkeit

(a) exakt unter Benutzung des entsprechenden Urnenmodells, bzw.

(b) approximativ und erklären die geringen Unterschiede.

14. In fünf Parallelklassen gibt es folgende Schülerverteilungen:

Klasse 1 2 3 4 5

Mädchen 15 10 15 14 12Jungen 15 16 13 11 16

Eine Klasse wird zufällig ausgelost und daraus wieder eine Person.

(a) Mit welcher Wahrscheinlichkeit wird ein Mädchen ausgelost.

(b) Man weiß, dass ein Junge ausgelost wurde. Bestimmen Sie die Wahrscheinlichkeit pi

dafür, dass er aus der i-ten Klasse stammt für i = 1, 2, 3, 4, 5.

15. Drei ideale Münzen werden unabhängig voneinander geworfen. Dabei werden folgende Er-eignisse betrachtet:

A: ”Es tritt höchstens einmal Wappen auf”,B: ”Es tritt mindestens jede Seite einmal auf”.

Sind die Ereignisse A und B unabhängig?

16. Auf dem Jahrmarkt wird ein Spiel angeboten, das aus n Bernoulliexperimenten mit derErfolgswahrscheinlichkeit P (E) = p besteht. Die Mitspieler dürfen wetten, wie oft derErfolg E dabei eintritt. Auf welche Anzahl k = 0, 1, . . . , n sollte man setzen, um mitmöglichst hoher Wahrscheinlichkeit zu gewinnen?

17. Ein Spieler bietet Ihnen das folgende Spiel an. Er hat drei Würfel, auf denen jede derangegebenen Augenzahlen zweimal aufgemalt sind:

Würfel 1 : 1, 5, 9Würfel 2 : 3, 4, 8Würfel 3 : 2, 6, 7

Sie dürfen sich einen Würfel aussuchen. Der Spieler nimmt einen der anderen Würfel.Jeder würfelt nun einmal. Wer die höchste Augenzahl hat, gewinnt den Einsatz von DM1. Wer besitzt die größere Gewinnwahrscheinlichkeit, wenn ihr Gegenspieler sich für seineGewinnmaximierung optimal verhält?

Page 147: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.2. DISKRETE WAHRSCHEINLICHKEITSRÄUME 139

18. Aus einem Teich werden k Fische gefangen, markiert und wieder ausgesetzt, um die AnzahlN aller Fische im Teich zu schätzen. Nach einer Woche werden wieder k Fische auf einmalgefangen. Unter diesen befinden sich r markierte.

(a) Mit welcher Wahrscheinlichkeit P (N, k, r) tritt dieses Ereignis ein, wenn jeder Fisch,gleichgültig, ob er markiert ist oder nicht, die gleiche Chance hat gefangen zu werden?

(b) Für welches N ist P (N, 50, 4) maximal?

19. Die Urne U1 enthalte 5 weiße und 3 schwarze Kugeln, die Urne U2 4 weiße und 5 schwarzeund die Urne U3 3 weiße und 7 schwarze Kugeln.

(a) Aus jeder Urne werde zufällig eine Kugel entnommen. Wie groß ist die Wahrschein-lichkeit, dass genau zwei dieser Kugeln schwarz sind?

(b) Eine Urne wird zufällig ausgewählt. Aus dieser Urne werden 4 Kugeln ohne Zurück-legen gezogen. Bestimmen Sie die Wahrscheinlichkeit, dass sich darunter mindestenseine Kugel jeder Farbe befindet!

(c) Eine Kugel wird zufällig aus Urne U1 gezogen und in Urne U2 gelegt. Anschließendwird ebenso eine Kugel aus U2 in U3 gelegt. Jetzt wird eine Kugel zufällig aus U3

gezogen. Wie groß ist die Wahrscheinlichkeit, dass diese Kugel weiß ist?

20. Es wird mit einem roten und einem schwarzen Würfel je einmal gewürfelt. A sei das Ereignis”Der rote Würfel zeigt eine gerade Augenzahl”, B das Ereignis ”Der schwarze Würfel zeigteine ungerade Augenzahl” und C das Ereignis ”Die Augensumme ist ungerade”.Zeigen Sie, dass A, B und C zwar paarweise, nicht aber vollständig unabhängig sind!

21. Eine bestimmte Krankheit werde von den Erregertypen E1, E2 und E3 mit den Wahr-scheinlichkeiten p1 = 0.6, p2 = 0.3 und p3 = 0.1 verursacht. Ein gleichzeitiges Auftretenverschiedener Erregertypen kann praktisch ausgeschlossen werden. Das Einnahme des Me-dikaments M führt mit den Wahrscheinlichkeiten 0.8 (bei E1), 0.6 (bei E2) bzw. 0.3 (bei E3)zu einem Heilerfolg. Mit Wahrscheinlichkeit 0.2 tritt als Folge der Behandlung unabhängigvom Erregertyp und Heilerfolg eine Nebenwirkung auf.

Berechnen Sie die Wahrscheinlichkeiten dafür, dass

(a) bei der Behandlung mit M kein Heilerfolg erreicht wird,

(b) der Erregertyp E3 vorliegt, wenn ein Heilungserfolg durch M erreicht wird,

(c) der Erregertyp E1 vorliegt, wenn eine Nebenwirkung auftritt und der Erregertyp E2

aufgrund der Krankheitsgeschichte ausgeschlossen werden kann.

22. Alle Deutschen sollen in einer Reihenuntersuchung auf eine Krankheit untersucht werden,die bei 2000 Personen etwa einmal vorkommt. Der dabei verwendete Test diagnostiziertdiese Krankheit bei einem tatsächlich Erkrankten mit einer Wahrscheinlichkeit von 95%.Bei einem Gesunden liefert der Test in etwa 10 von 100 Fällen eine Fehldiagnose.Mit welcher Wahrscheinlichkeit liegt bei einer Person, für die der Test angezeigt hat, dieseKrankheit tatsächlich vor?Wie groß ist die Wahrscheinlichkeit, dass bei der Reihenuntersuchung eine Erkrankung”übersehen” wird?Interpretieren Sie die Ergebnisse!

Page 148: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

140 ANHANG A. ÜBUNGSAUFGABEN

23. Ein Automobilhersteller verwendet Zündkerzen dreier verschiedener Hersteller. Dabei lie-fert Hersteller A 25%, Hersteller B 35% und Hersteller C 40% der verwendeten Kerzen.Erfahrungsgemäß sind von Hersteller A 5% der gelieferten Kerzen defekt, von Hersteller B4% und von C 2%.

(a) Beim Einbau einer Zündkerze wird festgestellt, dass sie defekt ist. Wie groß ist dieWahrscheinlichkeit, dass sie von Hersteller A, B bzw. C stammt?

(b) Alle gelieferten Zündkerzen werden einer automatischen Qualitätskontrolle unterwor-fen, die 2% der einwandfreien und 98% der defekten Kerzen als schadhaft aussortiert.Wie groß ist die Wahrscheinlichkeit, dass eine von dieser Kontrolle freigegebene Kerzetatsächlich einwandfrei ist?

24. (a) In der linken Zeichnung ist eine Schaltung mit 5 Elementen dargestellt; die Prozent-zahlen geben an, mit welcher Wahrscheinlichkeit das Element in einem gegebenen Zeit-raum versagt und den Stromkreis an dieser Stelle unterbricht. Dabei sei das Versagenjedes Elementes unabhängig vom Versagen die übrigen Elemente. Mit welcher Wahr-scheinlichkeit wird im betrachteten Zeitraum der Hauptstromkreis unterbrochen?

(b) Wichtige elektrische Systeme werden dupliziert, um die Ausfallwahrscheinlichkeit nied-rig zu halten. Ermitteln Sie die Ausfallwahrscheinlichkeiten der beiden Systeme in derrechten Figur, wenn jedes der 2n Elemente die gleiche Versagenswahrscheinlichkeit punabhängig von den übrigen Elementen besitzt. Welches System ist sicherer?

t t10% 15%

20% 15%

30%

t t

t t

25. Eine elektrische Leitung sei durch das abgebildete Schaltwerk unterbrochen.

b b

Z

ZZ

ZZZ

ZZZ

ZZZ

S1

S2 S3

S4 S5

Im diesem Schaltwerk sei jeder der Schal-ter S1, . . . , S5 mit einer Wahrscheinlich-keit von p ∈ (0, 1) geöffnet und die Stel-lungen der Schalter seien voneinander un-abhängig. Unter der Bedingung, dass dasSchaltwerk den Strom durchlässt, berech-ne man die Wahrscheinlichkeit, dass derSchalter S1 geöffnet ist.

Ermitteln Sie zum Schluss diese Wahrscheinlichkeit explizit für p = 1/2.

26. Zwischen den Modulen A, B, C und D bestehen die Kabelverbindungen a,. . . ,e:

Page 149: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.2. DISKRETE WAHRSCHEINLICHKEITSRÄUME 141

B

A C

D

a

b c d

e

Jede dieser Verbindungen sei unabhängig von den übrigen mit einer Wahrscheinlichkeit von0 < q < 1 gestört. Mit welcher Wahrscheinlichkeit lässt sich eine Nachricht von C nach Dstörungsfrei übermitteln, falls q = 0.2 ist?

27. Ein Student muss einen bestimmten Schein erwerben. Die erforderliche Prüfung kann erohne jede Vorbereitung mit der Wahrscheinlichkeit p bestehen. Wie viele Prüfungsteilnah-men muss er einplanen, damit er mit einer Wahrscheinlichkeit von mindestens 0, 8 diesePrüfung mindestens einmal besteht? (Geben Sie auch den Zahlwert für p = 0, 2 an!). Dabeiwird angenommen, dass die Ergebnisse aller Prüfungsteilnahmen unabhängig sind und pimmer gleich bleibt.

28. Ein Mann spielt Roulette und hat für höchstens vier Spiele Zeit. Er beginnt mit einemChip und hört mit Spielen auf, falls er keinen Chip mehr hat. In jedem Einzelspiel ge-winnt er mit Wahrscheinlichkeit 1/3 zwei Chips oder verliert mit Wahrscheinlichkeit 2/3einen Chip (Setzen von einem Chip auf ”oberes”, ”mittleres” oder ”unteres Drittel” ohneBerücksichtigung der ”Null”). Die Zufallsvariable X sei die Anzahl der Chips nach Endeder Spielserie (4 oder weniger Spiele). Bestimmen Sie alle möglichen Spielverläufe (Dia-gramm wie in Abb. 4.1 der Vorlesung) und die Wahrscheinlichkeitsverteilung von X. Mitwelcher Wahrscheinlichkeit verliert der Spieler alles? Welche Gewinnerwartung besitzt er?Was ändert sich, wenn er statt dessen in allen Runden auf die ”einfachen Chancen” setzt,also pro Runde jeweils mit Wahrscheinlichkeit 1/2 einen Chip gewinnt oder verliert?

29. Ein Punkt befindet sich zum Zeitpunkt 0 im Ursprung der Zahlengeraden. Innerhalb einesfesten Zeitintervalls bewegt er sich unabhängig von seiner derzeitigen Position mit Wahr-scheinlichkeit von je 1/2 um eine Einheit nach rechts oder links. Die Zufallsvariable Xn

bezeichne die Position des Punktes nach n Zeitintervallen. Bestimmen Sie die Wahrschein-lichkeitsverteilung von X5 und |X6|. Bestimmen Sie den erwarteten Abstand des Punktesvom Nullpunkt nach 6 Schritten (E |X6|).

30. Einem Gefäß, das n Kugeln unbekannter Farbe enthält, werde auf gut Glück eine Kugelentnommen. Sie sei weiß und werde in das Gefäß zurückgelegt. Wie groß ist die Wahrschein-lichkeit dafür, dass das Gefäß lauter weiße Kugeln enthält, wenn vor Ziehen der ersten Kugelalle Annahmen über die Anzahl der weißen Kugeln gleichwahrscheinlich waren? BetrachtenSie zur Kontrolle den Sonderfall n = 1.

31. Die 32 Karten eines Kartenspiels werden folgendermaßen bewertet:4 Asse mit je 11 Punkten,je 4 Könige, Damen, Buben und Zehnen mit je 10 Punkten undje 4 Neunen, Achten und Siebenen mit 0 Punkten.

Zwei Karten werden zufällig ausgewählt und verdeckt in den ”Skat” gelegt (Ziehen ohne

Page 150: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

142 ANHANG A. ÜBUNGSAUFGABEN

Zurücklegen!). Die Zufallsvariable X sei die Summe der Bewertungszahlen beider Kartenim ”Skat”.

(a) Geben Sie den Wertevorrat von X an!

(b) Bestimmen Sie die Wahrscheinlichkeitsverteilung von X !

(c) Alle Mitspieler können den ”Skat ersteigern”. Der Höchstbietende zahlt sein ”Gebot”als Einsatz und erhält nach Aufdecken des Skats die Summe der Bewertungspunktein DM ausgezahlt.

i. Bis zu welchem Betrag sollten Sie mitbieten, wenn die erwartete Auszahlung höherals der Einsatz sein soll ?

ii. Bis zu welchem Betrag sollten Sie mitbieten, wenn die Wahrscheinlichkeit, dassder Gewinn höher als der Einsatz ist, größer als 1/2 sein soll?

32. Ihnen wird das folgende Spiel angeboten. Sie müssen aus einem verdeckt liegenden Skatspiel(32 Karten, darunter 12 ”Bilder” und 4 ”Asse”) eine Karte ziehen. Ziehen Sie ein ”As”, erhal-ten Sie 10 DM. Ziehen Sie ein ”Bild”, müssen Sie mit einem ”fairen” Würfel (Augenzahlen:1 – 6) würfeln und erhalten die gewürfelte Augenzahl als Gewinn in DM. In allen anderenFällen erhalten Sie nichts. Welchen Gewinn haben Sie im Mittel zu erwarten? Lohnt sichdas Spiel für Sie, wenn der Einsatz 3 DM beträgt?

33. Die Zufallsvariable X sei binomialverteilt mit E X = 6 und Var X = 4. Man bestimmedie Parameter dieser Binomialverteilung.

34. Man betrachte eine Folge unabhängiger Bernoulli-Experimente mit der Erfolgswahrschein-lichkeit p. Die Zufallsvariable Xr gebe die Anzahl der Misserfolg bis zum r-ten Erfolg an.Hierbei ist r = 1, 2 . . . ein fester Parameter.

(a) Man zeige, dass für die erzeugende Funktion gXr(t) gilt:

gXr(t) =

(p

1 − t(1 − p)

)r

|t| <1

1 − p.

(Hinweis: Xr ist die Summe der Wartezeiten zwischen den einzelnen Erfolgen.)

(b) Man berechne den Erwartungswert und die Varianz von Xr.

(c) Geben Sie die Wahrscheinlichkeitsverteilung von Xr an.

35. Sie würfeln mit einem Tetraeder, dessen 4 Seiten mit 1, 2, 3 bzw. 4 beschriftet sind. AlleSeiten besitzen die gleiche Wahrscheinlichkeit, unten zu liegen (Augenzahl = 1, 2, 3, 4).Ihr Konkurrent würfelt mit einem üblichen korrekten Würfel (Augenzahlen 1, . . . , 6). Hater eine höhere Augenzahl als Sie, zahlen Sie Ihm die Differenz der Augenzahlen in DMaus. Anderenfalls dürfen Sie erneut mit dem Tetraeder würfeln und bekommen von ihmdie Differenz zwischen der Summe Ihrer beiden Augenzahlen und seiner zuvor gewürfeltenAugenzahl in DM ausgezahlt.Geben Sie den Wertevorrat und den Erwartungswert der Zufallsvariablen X (= Ihr Gewinnin DM) an. Mit welcher Wahrscheinlichkeit ist Ihr Gewinn positiv? Begründen Sie, ob sichdas Spiel für Sie ”lohnt” (Ist es ”fair”?).

Page 151: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.2. DISKRETE WAHRSCHEINLICHKEITSRÄUME 143

36. X sei eine nichtnegative, ganzzahlige Zufallsvariable. Zeigen Sie

E X =∞∑

k=1

P (X ≥ k) .

Verwenden Sie die Formel, um den Erwartungswert einer geometrischen Verteilung zu er-mitteln.

37. Die Zufallsvariable X sei gleichverteilt auf 1, . . . n, d.h. es gilt P (X = k) = 1/n fürk = 1, . . . , n.

(a) Berechnen Sie die erzeugende Funktion gX(t).

(b) Ermitteln Sie den Erwartungswert und die Varianz von X mit Hilfe der erzeugendenFunktion.

38. In einer Zentraleinheit eines Rechners werden zu einem bestimmten Zeitpunkt 7 Jobs miteiner Bearbeitungsdauer von je 160 Sekunden, 5 mit je 220 und 8 mit je 280 Sekundenerwartet. Die Reihenfolge des Eintreffen der Jobs ist zufällig. Die Bearbeitungsdauer fürden ersten Job kann also als eine Zufallsvariable X aufgefasst werden.

(a) Geben Sie die Wahrscheinlichkeitsverteilung der Zufallsvariablen X an.

(b) Bestimmen Sie den Erwartungswert der Zufallsvariablen X.

(c) Wie groß ist die Varianz der Zufallsvariablen Y := 2 · X − 400.

39. Eine diskrete Zufallsvariable X heißt logarithmisch verteilt mit dem Parameter ϑ ∈ (0, 1),falls gilt:

X ∼ LOG(ϑ) ⇐⇒ P (X = k) =

α ϑk

k für k = 1, 2, . . .0 sonst

Bestimmen Sie α und E X.

40. Es seien X und Y zwei unabhängige logarithmisch verteilte Zufallsvariable (vergl. Aufgabe39).

(a) Man berechne P (X = Y ) und P (X > Y ).

(b) Man bestimme den Erwartungswert von Z := minX,Y . (Hinweis: Es ist günstig,von den Wahrscheinlichkeiten P (Z ≥ k) auszugehen.)

41. Zwei Kinder K1 und K2 werfen abwechselnd Ringe auf ein Ziel. Das Kind, das zuerst trifft,gewinnt. Die Trefferwahrscheinlichkeiten der Kinder seien unabhängig voneinander p1 bzw.p2 für jeden Wurf (0 < p1, p2 < 1). Mit welcher Wahrscheinlichkeit gewinnt K1,

(a) falls es als erstes wirft,

(b) falls mit dem Wurf einer idealen Münze entschieden wird, wer als erstes wirft.

42. Man betrachte ein n-faches Bernoulli–Experiment mit Erfolgswahrscheinlichkeit p = 2/3.Wie groß muss n mindestens sein, damit die relative Häufigkeit der Erfolge mit einer Wahr-scheinlichkeit von mindestens 0.95 betragsmäßig um nicht mehr als 0.01 von p abweicht?(Hinweis: Man verwende die Chebychev–Ungleichung.)

Page 152: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

144 ANHANG A. ÜBUNGSAUFGABEN

43. An einer Straße werden Kraftfahrzeuge gezählt. Dabei wird festgestellt, dass für beideRichtungen die Anzahl der pro Minute passierende Fahrzeuge poissonverteilt mit den Pa-rametern λ = 1 (nach links) und λ = 2 (nach rechts) ist. Beide Richtungen können alsstochastisch unabhängig angesehen werden.

(a) Wie groß ist die Wahrscheinlichkeit, dass in einer Minute in jeder Richtung höchstensein Fahrzeug vorbeifährt?

(b) Mit welcher Wahrscheinlichkeit werden insgesamt, d.h. in beiden Richtungen zusam-men, mindestens 2 Fahrzeuge in einer Minute beobachtet?

44. Die Zufallsvariable X sei poissonverteilt mit dem Parameter λ = 4. Bestimmen Sie

(a) P (X < 4) und

(b) P (X = 1 | X > 0).

(c) Ermitteln Sie P (|X − E X | > 4) auf 4 Dezimalen genau und

(d) vergleichen Sie das Ergebnis mit der zugehörigen Chebychev-Abschätzung.

45. Die Zufallsvariable N habe eine Poissonverteilung mit Parameter λ > 0. Für jedes n =0, 1, . . . seien X1,X2, . . . ,Xn Bi(1,p)-verteilte Bernoullivariable, so dass N,X1, . . . ,Xn voll-ständig unabhängig sind. Durch den Ansatz

Y :=

0 falls N = 0 ,n∑

i=1Xi falls N = n

wird eine Zufallsvariable Y definiert. Man berechne die erzeugende Funktion von Y undidentifiziere die zugehörige Verteilung.

46. Die Anzahl der an einem Tag in einer Telefonzentrale vermittelten Telefongespräche seieine mit dem Parameter λ > 0 poissonverteilte Zufallsvariable. Man nehme an, dass jedesGespräch unabhängig von den anderen mit Wahrscheinlichkeit p eine Auslandsverbindungerfordert. Bestimmen Sie die erwartete Anzahl dieser Auslandgespräche.(Hinweis: Man benutze Aufgabe 45.)

47. Bei einer Lieferung von Kondensatoren sei deren Kapazität (in pF) N (100, 0.252) – verteilt.Wie viel Prozent Ausschuss sind zu erwarten, wenn die Kapazität der Kondensatoren min-destens 99.7pF betragen soll?Wie hoch ist der Ausschussanteil, wenn die Kapazität höchstens 100.7pF betragen darf?Wie muss man Toleranzgrenzen 100 + c und 100 − c wählen, damit 95% dieser Kondensa-toren eine Kapazität zwischen diesen Grenzen besitzen?

48. Von N = 1050 Schülern eines Gymnasiums stammen R = 370 aus einer geschiedenen Ehe.Für die statistische Auswertung der Leistungen des aktuellen Abiturjahrgangs mit n = 130Schülern kann aus Datenschutzgründen die Anzahl der darunter befindlichen Schüler ausgeschiedenen Ehen nicht explizit nachgeprüft werden. Sie stellt also eine Zufallsvariable Xdar.Berechnen Sie mit Hilfe einer Normalapproximation der hypergeometrischen Verteilung die

Page 153: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.2. DISKRETE WAHRSCHEINLICHKEITSRÄUME 145

Wahrscheinlichkeit, dass im Abiturjahrgang mindestens 40 Schüler aus geschiedenen Ehen

stammen. Hinweis: Var X = n · N − n

N − 1· R

N

(

1 − R

N

)

.

49. Eine Maschine produziere Teile, die mit Wahrscheinlichkeit p = 0.015 defekt sind. In einerKiste befinden sich 100 solcher Teile.

(a) Berechnen Sie die Wahrscheinlichkeit dafür, dass höchstens zwei Teile defekt sind.

(b) Vergleichen Sie das Ergebnis unter (a) mit einer geeigneten Approximation durch diePoissonverteilung.

(c) Wie viele derartige Teile müssten in der Kiste sein, damit die Wahrscheinlichkeit dafür,dass mindestens 100 intakte Teile in der Kiste sind, größer als 95% wird? (Hinweis:Benutzen Sie den Poissonschen Grenzwertsatz.)

50. Durch Berechnung der jeweiligen Wahrscheinlichkeiten nehmen Sie zu der folgenden Be-hauptung Stellung:Beim dreimaligen Würfeln sind die Ereignisse ”Augensumme = 11” und ”Augensumme =12” gleichwahrscheinlich, da beide Summen auf 6 verschiedene Arten dargestellt werdenkönnen.11 = 6 + 4 + 1 = 6 + 3 + 2 = 5 + 5 + 1 = 5 + 4 + 2 = 5 + 3 + 3 = 4 + 4 + 312 = 6 + 5 + 1 = 6 + 4 + 2 = 6 + 3 + 3 = 5 + 5 + 2 = 5 + 4 + 3 = 4 + 4 + 4

51. Aus einer Urne mit 3 roten und 4 schwarzen Kugeln und aus einer Urne mit 2 roten,2 weißen und 3 schwarzen Kugeln wird zufällig je eine Kugel gezogen. Wie groß ist dieWahrscheinlichkeit, dass beide gezogenen Kugeln die gleiche Farbe haben?

52. Es sei das folgende aus drei Bauteilen bestehende System s gegeben, das genau dannausfällt, wenn keine intakte Verbindung zwischen α und ω besteht:

α

s

ω

Auf die drei angegebenen Positionen müssen in beliebiger Folge drei Bauteile b1, b2, b3

eingesetzt werden, die mit den Wahrscheinlichkeiten α1, α2, α3 unabhängig voneinanderausfallen können.

(a) Verteilen Sie die Bauteile so, dass das unter geeigneten Unabhängigkeitsannahmenmit möglichst hoher Wahrscheinlichkeit nicht ausfällt.

(b) Aufgrund eines Produktionsfehlers seien nur noch minderwertige Bauteile verfügbarmit einer Ausfallwahrscheinlichkeit von jeweils 90%, allerdings zu günstigeren Preisenund in einer großen Stückzahl. Vergleichen Sie die beiden folgenden Varianten zur

Page 154: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

146 ANHANG A. ÜBUNGSAUFGABEN

Erhöhung der Systemzuverlässigkeit (Erhöhung der Wahrscheinlichkeit, nicht auszu-fallen).

i. Variante A: Redundanz auf der Systemebene

α ωppp n komplette Systeme werdenparallel geschaltet.

ii. Variante B: Redundanz auf der Komponentenebene

ppp

ppp pppα ω

Jede Komponente wird n-fachparallel geschaltet.

53. An einer Straßenecke wird Ihnen folgendes Würfelspiel mit zwei symmetrischen Tetraeder-würfeln (4 Seiten, die mit gleicher Wahrscheinlichkeit jeweils die Augenzahlen 1, 2, 3 oder 4zeigen) vorgeschlagen. Zeigen beide Würfel die gleiche Augenzahl, erhalten Sie das 5-facheIhres Einsatzes zurück. Unterscheiden sich die Augenzahlen um i Punkte, verlieren Sie dasi-fache Ihres Einsatzes. Der Einsatz geht in jedem Fall an den Anbieter des Spiels.

(a) Geben sie einen geeigneten Laplaceraum an.

(b) Berechnen Sie den Erwartungswert des Gewinns (negativer Gewinn = Verlust). Werprofitiert im Mittel von diesem Spiel?

(c) Wie hoch muss die Auszahlung in diesem Spiel bei gleicher Augenzahl sein,damit dasSpiel bei sonst unveränderten Konditionen ”fair” ist, also der ”mittlere” Gewinn gleichNull ist.

Page 155: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.3. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 147

A.3 Allgemeine Wahrscheinlichkeitsräume

1. Bestimmen Sie die Wahrscheinlichkeit P (−0.5 ≤ X ≤ 1.5) falls

(a) X ∼ N (0, 12) –verteilt,

(b) X ∼ N (0.5, 22) – verteilt ist.

Für welche x – Werte gilt

(c) P (X < x) ≥ 0.99, falls X ∼ N (1, 22) – verteilt ist,

(d) P (−x < X < x) ≥ 0.95, falls X ∼ N (0, 12) ist?

2. Eine Abfüllmaschine füllt X Gramm eines Produktes in Y Gramm schwere Dosen. Dannwerden jeweils 20 Dosen in eine Z Gramm schwere Kiste verpackt. X,Y,Z seien unabhän-gige normalverteilte Zufallsvariable mit

X ∼ N (155, 42) , Y ∼ N (45, 32) und Z ∼ N (500, 102) .

(a) Bestimmen Sie den Erwartungswert und die Streuung des Inhalts einer zufällig ausder Produktion herausgegriffenen Dose.

(b) Bestimmen Sie den Erwartungswert und die Streuung des Gesamtgewichts einer zu-fällig aus der Produktion herausgegriffenen Dose.

(c) Bestimmen Sie die Wahrscheinlichkeit, dass eine zufällig aus der Produktion heraus-gegriffene gefüllte Kiste schwerer als 4550 Gramm ist.

3. Für das Funktionieren einer bestimmten Maschine ist es erforderlich, dass ein bestimmtesauswechselbares Teil intakt ist. Über seine Lebensdauer in Betriebsstunden ist bekannt,dass sie N (µ, σ2)–verteilt ist mit µ = 108 und σ = 10. An jedem Arbeitstag laufen gleich-zeitig 10 dieser Maschinen während 16 Stunden. Die Zeit für das Auswechseln defekter Teilesoll nicht berücksichtigt werden und der Ausfall defekter Teile erfolge bei allen Maschinenunabhängig von den übrigen.

(a) X sei die Lebensdauer eines Vorrats von n = 150 Stück dieser Teile in Arbeitstagen.Berechnen Sie den Erwartungswert und die Streuung der Lebensdauer dieses Vorrats.

(b) Ermitteln Sie die Wahrscheinlichkeit, dass der obige Vorrat mindestens 100 Arbeits-tage ausreicht.

(c) Es wird erwogen, jedes Teil nach maximal 100 Betriebsstunden auszuwechseln, auchwenn es noch intakt ist. Wie groß ist die Wahrscheinlichkeit, dass von 10 Teilen keinesvorzeitig, d. h. vor Ablauf von 100 Betriebsstunden ausgewechselt werden muss?Nach wie viel Betriebsstunden müsste man die Teile auswechseln, damit die Wahr-scheinlichkeit für ein vorzeitiges Auswechseln eines einzelnen Teils höchstens 5% be-trüge?

4. Ein bestimmtes technisches Gerät wird aus drei Einzelteilen A, B und C zusammengesetzt,wobei das Gerät genau dann funktioniert, wenn alle drei Teile intakt sind und kein Fehlerbeim Zusammensetzen passiert.Die Wahrscheinlichkeit, dass die Einzelteile defekt sind, betragen jeweils 1%, 1% und 5%,während die Wahrscheinlichkeit für einen Fehler beim Zusammenbau 2% betrage. Fernerist bekannt, dass alle Fehlertypen unabhängig voneinander auftreten.

Page 156: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

148 ANHANG A. ÜBUNGSAUFGABEN

(a) Berechnen Sie den Erwartungswert und die Streuung der Anzahl defekter Exemplaredes Geräts, die sich in einer Lieferung von 1000 Exemplaren befinden.

(b) Die Firma will für eine zufällig zusammengestellte Lieferung von 1000 Exemplaren eineGarantie geben, dass sich höchstens 110 defekte Geräte in der Lieferung befinden. Mitwelcher Wahrscheinlichkeit trifft die Garantieaussage zu?

(c) Es sei bekannt, dass jedes defekte Exemplar des Gerätes der Herstellerfirma insgesamtDM 100 an Kosten verursacht. Aufgrund dieser Tatsache soll die Frage entschiedenwerden, ob von der Möglichkeit Gebrauch gemacht werden soll, die Einzelteile desTyps C zu einem höheren Preis zu beziehen, so dass auch sie nur noch mit einerWahrscheinlichkeit von 1% defekt sind. Wie hoch darf der Aufpreis pro Stück desTeils C sein, damit es sich im Erwartungswert gerade noch lohnt, das Teil C derhöheren Preisklasse zu beziehen?

Hinweis: Benutzen Sie in (b) eine geeignete Näherung.

5. Ein Flugzeug habe 300 Sitzplätze. Wie viele Reservierungen darf eine Fluggesellschaft füreinen Flug damit vornehmen, wenn erfahrungsgemäß eine Reservierung mit einer Wahr-scheinlichkeit von 10% nicht genutzt wird und die Wahrscheinlichkeit für eine Überbuchunghöchstens 2,5% betragen soll. (Benutzen Sie die Normalapproximation.)

6. Ein Softwarehaus beschäftigt 200 Mitarbeiter, von denen jeder einen Teil seiner Arbeitszeitvor einem Bildschirmgerät verbringt. Es ist aber nicht erforderlich, dass jeder Mitarbeiterein eigenes Terminal zur Verfügung hat. Über einen langen Zeitraum wurde ermittelt, dassder Spitzenbedarf täglich um 8 Uhr erreicht wird und dass jeder Mitarbeiter unabhängigvon den übrigen Mitarbeitern an 30% der Arbeitstagen um diese Zeit an einem Bildschirmarbeiten muss.

Wie groß muss die Zahl der aufgestellten Bildschirmgeräte mindestens sein, damit an ei-nem festen Tag jeder Mitarbeiter, der um 8 Uhr ein Bildschirmgerät benötigt, mit einerWahrscheinlichkeit von mindestens 95% ein freies Gerät vorfindet?

7. Die stetige Zufallsvariable Xn besitzt für jedes feste n = 1, 2, 3, . . . die Wahrscheinlichkeits-dichte fXn mit

fXn(x) =

cn · 1

x falls 1n ≤ x ≤ n ,

0 sonst .

Bestimmen Sie cn und die Wahrscheinlichkeit P (X < 1)!Welche Bedeutung hat der Wert x=1 für die Lage der Realisierungen der ZufallsvariablenXn?

8. Eine Pumpe sei ununterbrochen in Betrieb, bis sie ausfällt. Die Zufallsvariable X, die diezufällige Dauer der Funktionstüchtigkeit der Pumpe beschreibt, habe die Wahrscheinlich-keitsdichte

fX(x) =

λ2xe−λx , x > 0 ,

0 , x ≤ 0 .

Weiter sei bekannt, dass Pumpen dieser Art im Mittel 100 Stunden laufen, bis sie ausfallen.

Page 157: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.4. MULTIVARIATE VERTEILUNGEN 149

(a) Zeigen Sie, dass die Ausfallrate g(t) :=fX(t)

1 − FX(t)für t > 0 streng monoton

wachsend ist.

(b) Wie ist der Parameter λ zu wählen, damit der Erwartungswert von X gleich derobigen mittleren Laufzeit dieser Pumpen ist? Bestimmen Sie für diesen Parameter diefolgenden Wahrscheinlichkeiten:

P (X ≤ 100) , P (X ≤ 200 | X ≥ 100) .

Hinweis: Die unbestimmten Integrale können einer Formelsammlung entnommen oderdurch partielle Integration ermittelt werden.

9. Die Zufallsvariable X beschreibe den Durchmesser (in mm) maschinell gefertigter Unter-legscheiben. Der Erwartungswert µ der Zufallsvariablen X hänge von der Maschinenein-stellung ab und kann sich im Laufe der Zeit ändern. Die Varianz Var X = 0.04 sei alsfeste Maschinengröße bekannt und von der Maschineneinstellung unabhängig. Zur Schät-zung des unbekannten Erwartungswertes µ werden n Scheiben zufällig aus der Produktionausgewählt. Dabei beschreibe

Xn1

n

n∑

i=1

Xi

den mittleren Durchmesser. Wie groß muss n mindestens sein, damit P(|Xn − µ| < 0.1

)≥

0.999 erfüllt ist,

(a) falls über die Verteilung von X nichts bekannt ist,

(b) falls X näherungsweise normalverteilt ist.

10. Die Zufallsvariable X habe die Verteilungsfunktion

FX(x) =

0 falls x < 1,16 + 2

3(x − 1) falls 1 ≤ x < 2,1 falls 2 ≤ x

Berechnen Sie P (X ≤ 5/3), P (X > 3/2) und P (4/3 < X ≤ 5/3).(Hinweis: Es handelt sich um eine gemischte Zufallsvariable.)

A.4 Multivariate Verteilungen

1. Ein Kind nimmt eine Handvoll Steine, d.h. mit Wahrscheinlichkeit 1/3 ergreift es dreiSteine, mit W. 1/2 zwei Steine und mit W. 1/6 einen Stein. Diese Steine wirft das Kindnun nacheinander gegen eine Dose. Die Dose wird bei jedem Wurf unabhängig von derAnzahl der ergriffenen Steine und den übrigen Würfen mit einer W. von 2/3 getroffen. DieZufallsvariable Y gibt die Anzahl der Treffer an.

(a) Berechnen Sie die Wahrscheinlichkeitsverteilung, den Erwartungswert und die Varianzder Zufallsvariablen Y .

Page 158: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

150 ANHANG A. ÜBUNGSAUFGABEN

(b) Das Kind hat die Dose nicht getroffen. Wie groß ist die Wahrscheinlichkeit, dass dasKind höchstens 2 Steine ergriffen hatte?

2. Das Intervall [0, 1] werde durch eine auf (0, 1) gleichverteilte Zufallsvariable U in zwei Teilegeteilt. Berechnen Sie

(a) die mittlere Länge des linken Teilstücks,

(b) die mittlere Länge des kürzeren Teilstücks und

(c) die mittlere Fläche des Rechtecks, dessen Kanten von beiden Teilstücken gebildetwerden.

3. Auf einer Baustelle vollenden die Maurer ihre Tätigkeit am Rohbau zu einem ZeitpunktX. Die Zimmerleute beginnen anschließend ihre Tätigkeit zum Zeitpunkt Y . Beide Zeit-punkte sind für den Bauherrn nicht explizit vorhersehbar und werden daher von ihm alsZufallsvariable aufgefasst. Dabei nimmt er folgendes an:

X ist gleichverteilt auf dem Intervall [0, 1).

Beenden die Maurer ihre Arbeit zu einem Zeitpunkt 0 ≤ x < 1, so ist der Arbeitsbeginnder Zimmerleute auf dem Restintervall [x, 1] gleichverteilt.

(a) Bestimmen Sie die gemeinsame Dichte von X und Y !

(b) Bestimmen Sie die Dichte von Y !

(c) Wie groß ist der Erwartungswert von Y ?

(d) Sind X und Y stochastisch unabhängig ?

4. Der Zufallsvektor (X,Y ) besitzt die Wahrscheinlichkeitsdichte

fX,Y (x, y) =

c · x · |y| falls 0 ≤ |y| ≤ x2 < 1 , x ≥ 0 ,

0 sonst .

(a) Bestimmen Sie die Konstante c.

(b) Ermitteln Sie die Marginaldichten fX und fY .

(c) Sind X und Y unabhängig? Begründen Sie Ihre Aussage.

(d) Berechnen Sie E X und Var X.(e) Bestimmen Sie die bedingte Dichte fX|Y =y(x).

Geben Sie bei (c) und (e) auch die zulässigen Werte von x und y an.

5. Ein Zufallsvektor

(T1

T2

)

heißt genau dann zweidimensional exponentialverteilt mit den

Parametern λ1, λ2, λ3, wenn seine Verteilungsfunktion F die Gestalt

F (t1, t2) =

1 − e−(λ1+λ3)t1 − e−(λ2+λ3)t2 + e−λ1t1−λ2t2−λ3 maxt1,t2 , für t1, t2 > 0

0 , sonst

besitzt mit λ1, λ2 > 0 und λ3 ≥ 0.

Page 159: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

A.4. MULTIVARIATE VERTEILUNGEN 151

(a) Bestimmen Sie die Randverteilungen von F .

(b) Zeigen Sie, dass T1 und T2 genau dann unabhängig exponentialverteilt sind, wennλ3 = 0 gilt.

(c) Berechnen SieP(T1 > t1 , T2 > t2

)∀ t1, t2 > 0

undP(minT1, T2 > t

)∀ t > 0 .

6. Eine Urne enthält 3 Kugeln, die mit den Ziffern 1, 4 bzw. 7 beschriftet sind. Nacheinanderwird dreimal eine Kugel gezogen, ihre Aufschrift notiert und die Kugel wieder in die Urnezurückgelegt (Ziehen mit Zurücklegen). Mit den Zufallsvariablen X wird das Minimum undY das Maximum der aufgeschriebenen Ziffern bezeichnet.

(a) Bestimmen Sie die gemeinsame Verteilung von X und Y .

(b) Ermitteln Sie die Marginalverteilung der Zufallsvariablen X.

(c) Wie groß sind der Erwartungswert und die Varianz von X.

7. Es seien X und Y zwei nichtnegative Zufallsvariable mit

P (X > x, Y > y) = e−λx−µy−axy, x ≥ 0, y ≥ 0,

wobei λ > 0, µ > 0 und a ≥ 0 fest vorgegebene Parameter sind.

(a) Man bestimme die Verteilungsfunktionen FX und FY von X bzw. Y . Was ergibt sichfür die Erwartungswerte von X und Y ?

(b) Man berechne die Dichte fX,Y des Zufallsvektors (X,Y ).

(c) Für welches a sind X und Y unabhängig? (Hinweis: Man benutze Satz 8.1.)

8. Die Dichte eines zweidimensionalen stetigen Zufallsvektors (X,Y ) sei

fX,Y (x, y) =

c (| x | + | y |) für 0 ≤| x | + | y |< 1

0 sonst.

(a) Bestimmen Sie die Konstante c ∈ IR.

(b) Ermitteln Sie die bedingte Dichte fY |X=x(y). Für welche x, y ∈ IR ist sie definiert?

(c) Berechnen Sie P (0 < Y < 12).

9. Wie im Beispiel 8.5 der Vorlesung betrachte man einen Zufallsvektor (X,Y ) mit der Dichte

fX,Y (x, y) =

2 falls 0 < x < y < 1,0 sonst.

Man berechne die Kovarianz von X und Y .

10. Die stetige Zufallsvariable X besitze die Wahrscheinlichkeitsdichte

fX(x) =

cx2 falls x ≥ 2 ,

0 sonst .

Unter der Bedingung X = x sei die Zufallsvariable Y gleichverteilt im Intervall (x, x + 1].

Page 160: Einführung in die Stochastik - uni.paniladen.deuni.paniladen.de/stochastik/INF.pdf · Einführung in die Stochastik für Studierende der Informatik im Bachelorstudiengang TU Braunschweig

152 ANHANG A. ÜBUNGSAUFGABEN

(a) Bestimmen Sie die Konstante c ∈ IR!

(b) Sind X und Y stochastisch unabhängig (Begründung!)?

(c) Bestimmen Sie die gemeinsame Wahrscheinlichkeitsdichte von X und Y und skizzierenSie den Wertebereich des Zufallsvektors (X,Y )T !

(d) Bestimmen Sie die Wahrscheinlichkeitsdichte von Y und den Erwartungswert von Xunter der Bedingung Y = 3!

11. (a) Bestimmen Sie c ≥ 0, so dass die Funktion

f(x, y, z) =

c · x2 · y · z falls |x| ≤ 2 , 0 ≤ y < 1 , 0 < z < 1 ,

0 sonst ,

die Wahrscheinlichkeitsdichte eines Zufallsvektors (X,Y,Z)T ist.

(b) Ermitteln Sie die Marginaldichten fX und fY .

(c) Wie groß ist der Erwartungsvektor von (X,Y,Z)T.

(d) Sind X, Y und Z vollständig unabhängig?

(e) Geben Sie die bedingte Dichte von Y unter der Bedingung X = 0, 5 an.