Stochastik I · 1.1 Mengenoperationen und Notation Es ist bekannt, dass jede Zahl a 2(0;1] eine...

155
S I Andrej Depperschmidt Vorlesungsskript Universität Mainz Sommersemester 2014 Version: 12. Mai 2016

Transcript of Stochastik I · 1.1 Mengenoperationen und Notation Es ist bekannt, dass jede Zahl a 2(0;1] eine...

Stochastik I

Andrej Depperschmidt

VorlesungsskriptUniversität MainzSommersemester 2014

Version: 12. Mai 2016

Vorwort

Bei diesem Skript handelt es sich um Vorlesungsnotizen, die parallel zurVorlesung “Stochastik I” im Sommersemester 2014 an der Universität Mainzgeschrieben werden.

Die Liste an empfehlenswerten Büchern in denen Wahrscheinlichkeits- undMaßtheorie (sowohl auf deutsch als auch auf englisch) behandelt wird ist sehrumfangreich. Die Literaturliste enthält eine Auswahl an Büchern, die direktfür die Herstellung dieses Skriptes verwendet wurden. Bei speziellen Fragenzur Literatur bitte nachfragen!

Kommentare und Hinweise auf (Tipp-)Fehler oder Unklarheiten sind sehrwillkommen. Schicken Sie diese bitte [email protected].

2

Inhaltsverzeichnis

1 Maße und Maßräume 51.1 Mengenoperationen und Notation . . . . . . . . . . . . . . . . 61.2 Algebren und σ -Algebren . . . . . . . . . . . . . . . . . . . . . 91.3 Erzeuger von σ -Algebren, Borel-σ -Algebren . . . . . . . . . . 111.4 Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151.5 Dynkin-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . 201.6 Äußere Maße . . . . . . . . . . . . . . . . . . . . . . . . . . . . 251.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen . . . . . . 321.8 Messbare Funktionen und Abbildungen . . . . . . . . . . . . . 361.9 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

2 Integration 472.1 Denition des Lebesgue- oder Maßintegrals . . . . . . . . . . 472.2 Satz von Radon-Nikodým . . . . . . . . . . . . . . . . . . . . . 582.3 Produktmaße und Satz von Fubini . . . . . . . . . . . . . . . . 692.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

3 Zufallsvariablen, Verteilungen und Erwartungswerte 783.1 Zufallsvariablen und ihre Verteilungen . . . . . . . . . . . . . 783.2 Grundlegende Ungleichungen . . . . . . . . . . . . . . . . . . 873.3 Unabhängige Ereignisse und Mengensysteme . . . . . . . . . 913.4 Unabhängige Zufallsvariablen . . . . . . . . . . . . . . . . . . 953.5 Faltung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1003.6 Konvergenz von Zufallsvariablen . . . . . . . . . . . . . . . . 1043.7 Null-Eins Gesetz von Kolmogorov . . . . . . . . . . . . . . . . 1083.8 Starkes Gesetz der großen Zahlen . . . . . . . . . . . . . . . . 1103.9 Maximalungleichungen . . . . . . . . . . . . . . . . . . . . . . 1143.10 Reihen unabhängiger Zufallsvariablen . . . . . . . . . . . . . . 1163.11 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118

3

4 Schwache Konvergenz und zentraler Grenzwertsatz 1224.1 Schwache Konvergenz . . . . . . . . . . . . . . . . . . . . . . 1224.2 Straheit und relative Kompaktheit . . . . . . . . . . . . . . . 1284.3 Vertauschung von Integration und Grenzwertbildung . . . . . 1304.4 Charakteristische Funktionen . . . . . . . . . . . . . . . . . . 1334.5 Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . 1414.6 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143

5 Bedingte Wahrscheinlichkeiten und Erwartungen 1455.1 Motivation und erste Beispiele . . . . . . . . . . . . . . . . . . 1455.2 Bedingte Erwartungen . . . . . . . . . . . . . . . . . . . . . . 1475.3 Eigenschaften bedingter Erwartungen . . . . . . . . . . . . . . 1505.4 Übungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

Literaturverzeichnis 155

4

1 Maße und Maßräume

Bereits mit Mitteln der diskreten Wahrscheinlichkeitstheorie – typischerweiseist sie Gegenstand der einführenden Stochastikvorlesungen – können vieleinteressante Themen behandelt werden. Dennoch reicht die diskrete Theoriefür viele Fragestellungen nicht aus. Insbesondere stößt sie an ihre Grenzen,wenn es um unendliche Wiederholungen eines Zufallsexperimentes, z.B. eineunendliche Folge von Münzwürfen, oder um innitesimal genaue Operationen,z.B. ziehen eines zufälligen Punktes eines Intervalls geht. Wir demonstrierenes an einem Beispiel.

Wir betrachten n Würfe einer Münze mit Wahrscheinlichkeit p ∈ [0, 1] fürKopf und q = 1 − p für Zahl. Der zugehörige Wahrscheinlichkeitsraum ist(Ω,A, P), wobei

Ω =ω = (ω1, . . . ,ωn ) : ωi ∈ 0, 1

,

A = A : A ⊂ Ω,

P(ω) = p∑ni=1 ωiqn−

∑ni=1 ωi .

Wir interpretieren ωi = 1 als Kopf und ωi = 0 als Zahl beim i-ten Wurf derMünze. Das MengensystemA ist die Potenzmenge von Ω. Die Wahrscheinlich-keit eines Ereignisses A ∈ A ist die Summe der Einzelwahrscheinlichkeitender Elemente von A, also

P(A) =∑ω∈A

P(ω). (1.1)

Die Mächtigkeit, d.h. die Anzahl der Elemente, der Menge Ω ist 2n. Im Fall einerfairen Münze ist p = q = 1/2 und jedes Elementarereignis ω ∈ Ω hat dieselbeWahrscheinlichkeit P(ω) = 1/2n. Ferner ist P(A) = |A|/2n für A ∈ A, wobei|A| die Anzahl der Elemente von A bezeichnet.

Wie sieht nun das entsprechende Modell im Fall einer unendlichen Münzwurf-folge aus? Als naheliegende Ereignismenge nehmen wir

Ω =ω = (ω1,ω2, . . .) : ωi ∈ 0, 1

.

5

1.1 Mengenoperationen und Notation

Es ist bekannt, dass jede Zahl a ∈ (0, 1] eine eindeutige (nicht-abbrechende,d.h. mit unendlich vielen Einsen) dyadische Darstellung

a =a12 +

a222 + . . . , ai ∈ 0, 1

hat. Insbesondere können wir (und tun es auch) Ω = (0, 1] als Ereignismengenehmen, was überabzählbar ist.

Intuitiv sollte jedem Elementarereignis ω ∈ Ω dieselbe Wahrscheinlichkeitzugeordnet werden. Da Ω aber überabzählbar ist, muss P(ω) = 0 für alleω ∈ Ω gelten. Aus Symmetriegründen sollte mit Wahrscheinlichkeit 1/2 einzufällig gezogener Punkt aus (0, 1] zu (0, 1/2] gehören. Wie passt das aberzu P(ω) = 0 für alle ω ∈ Ω? Oenbar kann man in diesem Fall nicht dieWahrscheinlichkeiten der Elementarereignisse angeben und dann wie in (4.6)vorgehen. Bei überabzählbaren Ereignismengen sollten die Wahrscheinlich-keiten also für bestimmte Familien von Teilmengen von Ω angegeben werden.Ferner kann man sich überlegen, dass diese Familien abgeschlossen bezüglichverschiedenen Mengenoperationen sein sollten damit die Wahrscheinlichkeits-maße darauf konsistent deniert werden.

Mathematisch rigorose Behandlung der Wahrscheinlichkeitstheorie bautauf Maßtheorie auf wird ermöglicht durch die Axiome von Kolmogorov; sieheKolmogoro (1933). In diesem Kapitel behandeln wir die für diese Vorlesungbenötigten Begrie und Resultate aus der Maß- und Integrationstheorie.

1.1 Mengenoperationen und Notation

In diesem Abschnitt wiederholen wir einige Begrie und Notation aus derMengenlehre. Im Folgenden ist Ω stets eine nichtleere Menge.

Die Potenzmenge von Ω ist als die Menge aller Teilmengen von Ω deniertund wird mit P (Ω) bezeichnet. Also ist

P (Ω) B A : A ⊂ Ω. (1.2)

Mit A ∩ B, A ∪ B bezeichnen wir wie üblich den Durchschnitt bzw. dieVereinigung der Mengen A und B. Für A ⊂ Ω bezeichnen wir mit Ac BΩ \ A = x ∈ Ω : x < A das Komplement von A in Ω. Die symmetrischeDierenz der Mengen A und B ist deniert durch

A4B B (A \ B) ∪ (B \A). (1.3)

6

1.1 Mengenoperationen und Notation

Oft wird es nützlich sein Vereinigungen von Mengen als Vereinigungen vondisjunkten Mengen darzustellen. Wie das geht, zeigt das folgende Resultat.

Proposition 1.1 (Disjunkte Vereinigungen). Es sei A1,A2, . . . eine Folge vonTeilmengen von Ω und A =

⋃n An. Dann sind die Mengen

B1 = A1,B2 = A2 \ B1, . . . ,Bn = An \

n−1⋃k=1

Bk , . . .

paarweise disjunkt und es gilt A =⋃

n Bn.

Beweis. Übung!

Auch sehr nützlich (insbesondere beim Rechnen mit Wahrscheinlichkeiten)sind die De Morganschen Regeln: Für (Ai )i∈I , Ai ⊂ Ω mit einer beliebigenIndexmenge I (abzählbar1 oder überabzählbar) gilt(⋃

i∈I

Ai

)c=

⋂i∈I

Aci und

(⋂i∈I

Ai

)c=

⋃i∈I

Aci . (1.4)

Ist (xn )n∈N eine reellwertige Folge, dann sind die Operatoren lim sup undlim inf bekanntermaßen deniert durch

lim supn→∞

xn = infn∈N

supk≥n

xk bzw. lim infn→∞

xn = supn∈N

infk≥n

xk . (1.5)

Die entsprechenden Operatoren gibt es auch für Folgen von Mengen. Für einenZusammenhang zwischen diesen Begrien verweisen wir auf Übung 1.3.

Denition 1.2 (lim inf und lim sup von Mengenfolgen). Für A1,A2, . . . ∈P (Ω) sind Limes superior und Limes inferior deniert durch

lim supn→∞

An B∞⋂n=1

∞⋃k=n

Ak bzw. lim infn→∞

An B∞⋃n=1

∞⋂k=n

Ak . (1.6)

Falls lim supn→∞An = lim infn→∞An gilt, so nennen wir die Mengenfolge(An ) konvergent und schreiben

limn→∞

An = lim supn→∞

An = lim infn→∞

An . (1.7)1Ohne eine besondere Hervorhebung meinen wir mit “abzählbar” immer “endlich” oder

“abzählbar unendlich”

7

1.1 Mengenoperationen und Notation

Bemerkung 1.3. Für ω ∈ Ω giltω ∈ lim sup

n→∞An ⇔ ∀n ∈ N, ∃k ≥ n : ω ∈ Ak

⇔ ω ∈ An für unendlich viele n.und

ω ∈ lim infn→∞

An ⇔ ∃n ∈ N, ∀k ≥ n : ω ∈ Ak

⇔ ω ∈ An für alle bis auf endlich viele n.Ferner gilt

lim infn→∞

An ⊂ lim supn→∞

An, (1.8)

denn aus ω ∈ An für alle bis auf endlich viele n folgt natürlich ω ∈ An fürunendlich viele n.

Schließlich kann man mit Hilfe der De Morganschen Regeln leicht folgendeAussagen zeigen:(

lim supn→∞

An

)c= lim inf

n→∞Acn und

(lim infn→∞

An

)c= lim sup

n→∞Acn . (1.9)

Beispiel 1.4. Es sei An das innere der Kreisscheibe (in R2) mit Radius 1 undMittelpunkt

((−1)n/n, 0

). Dann ist lim inf An die oene Kreisscheibe um (0, 0).

Die Menge lim supAn enthält noch den Rand bis auf die Pole (0, 1) und (0,−1).Beispiele von konvergenten Mengenfolgen sind monotone Mengenfolgen.

Proposition 1.5 (Monotone Mengenfolgen). Es sei A1,A2, . . . eine Folge vonTeilmengen von Ω. Dann gelten folgende Aussagen.

(i) Ist A1 ⊂ A2 ⊂ A3 ⊂ · · · , dann gilt

A B limn→∞

An =

∞⋃n=1

An, (1.10)

und wir schreiben An ↑ A.

(ii) Ist A1 ⊃ A2 ⊃ A3 ⊃ · · · , dann gilt

A B limn→∞

An =

∞⋂n=1

An, (1.11)

und wir schreiben An ↓ A.

Beweis. Übung!

8

1.2 Algebren und σ -Algebren

1.2 Algebren und σ -Algebren

Denition 1.6 (Algebra). Eine MengeA von Teilmengen von Ω heißt Algebra(über Ω), wenn folgende Bedingungen erfüllt sind

(i) Ω ∈ A,

(ii) A ∈ A ⇒ Ac ∈ A,

(iii) A1, . . . ,An ∈ A ⇒⋃n

k=1Ak ∈ A,

(iv) A1, . . . ,An ∈ A ⇒⋂n

k=1Ak ∈ A.

Bemerkung 1.7. Eine Algebra A enthält also die Grundmenge, ist abgeschlos-sen bezüglich Komplementbildung, bezüglich Bildung endlicher Vereinigungenund bezüglich Bildung endlicher Durchschnitte.

In der Denition der Algebra kann eine der Bedingungen (iii) oder (iv)weggelassen werden, weil (ii) & (iii) äquivalent zu (ii) & (iv) ist. Um (iii)aus (ii) & (iv) herzuleiten verwenden wir die De Morganschen Regeln. FürA1, . . . ,An ∈ A gilt Ac

1, . . . ,Acn ∈ A nach (ii) und mit (iv) folgt ⋂n

k=1Ack∈ A.

Weitere Anwendung von (ii) liefert nunn⋃

k=1Ak =

( n⋂k=1

Ack

)c∈ A.

Analog kann man (iv) aus (ii)& (iii) herleiten. Natürlich hätte es auch in (iii)und (iv) ausgereicht, die Implikation jeweils für n = 2 zu fordern.

Ferner kann man sich überlegen, dass eine Algebra bezüglich allen endlichenMengenoperationen abgeschlossen ist. Zum Beispiel gilt

A,B ∈ A ⇒ A4B = (A ∩ Bc ) ∪ (B ∩Ac ) ∈ A,

denn

A,B ∈ A(ii)⇒ A,B,Ac ,Bc ∈ A

(iv)⇒ A ∩ Bc ,B ∩Ac ∈ A

(iii)⇒ A4B ∈ A.

Denition 1.8 (σ -Algebra). Eine Menge A von Teilmengen von Ω heißtσ -Algebra (über Ω), wenn folgende Bedingungen erfüllt sind

(i) Ω ∈ A,

9

1.2 Algebren und σ -Algebren

(ii) A ∈ A ⇒ Ac ∈ A,

(iii) A1,A2, . . . ∈ A ⇒⋃∞

k=1Ak ∈ A,

(iv) A1,A2, . . . , ∈ A ⇒⋂∞

k=1Ak ∈ A.

Bemerkung 1.9. Eine σ -Algebra A enthält also die Grundmenge, ist abge-schlossen bezüglich Komplementbildung, bezüglich Bildung abzählbarer Ver-einigungen und bezüglich Bildung abzählbarer Durchschnitte. Genauso wiebei der Denition einer Algebra kann wahlweise eine der Bedingungen (iii)oder (iv) weggelassen werden.

Weitere Varianten der Denitionen von Algebren und σ -Algebren sindmöglich. So könnte man in beiden Denitionen statt (i) auch ∅ ∈ A fordern.Außerdem würde es beispielsweise auch ausreichen, zu fordern, dassA nicht-leer ist und (ii)&(iii) gilt. Gilt nämlich A ∈ A für eine beliebige Menge A ⊂ Ω,dann folgt Ac ∈ A mit (ii). Nach (iii) ist dann Ω = A ∪Ac ∈ A.

Denition 1.10 (Messbarer Raum). Ist Ω eine nichtleere Menge und A eineσ -Algebra über Ω, dann heißt das Paar (Ω,A) ein messbarer Raum. MengenA ∈ A werden als (A-)messbare Teilmengen von Ω bezeichnet.

Eine σ -Algebra ist immer auch eine Algebra, weil die Vereinigung end-lich vieler Mengen A1, . . . ,An mit der Vereinigung abzählbar vieler MengenA1, . . . ,An,An,An, . . . übereinstimmt. Die Umkehrung ist im Allgemeinenfalsch (vgl. Beispiel 1.12(d)). Die folgende Proposition liefert hinreichendeBedingungen.

Proposition 1.11. Ein Algebra A ist eine σ -Algebra, wenn eine der folgendenBedingungen erfüllt ist:

(a) A ist abgeschlossen unter aufsteigenden Limiten, d.h. fürA1 ⊂ A2 ⊂ . . . mitAn ∈ A, n ∈ N gilt A = ∪nAn ∈ A.

(b) A ist abgeschlossen unter absteigenden Limiten, d.h. für A1 ⊃ A2 ⊃ . . . mitAn ∈ A, n ∈ N gilt A = ∩nAn ∈ A.

Beweis. (a) Für B1,B2, . . . ∈ A gilt ⋃nk=1 Bk ↑

⋃∞k=1 Bk für n → ∞, und die

rechte Seite ist ein Element von A nach Voraussetzung.

10

1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren

(b) Für B1,B2, . . . ∈ A gilt ⋂nk=1 Bk ↓

⋂∞k=1 Bk für n → ∞, und die rechte Seite

ist ein Element von A nach Voraussetzung.

Beispiel 1.12. Wenn nichts anderes gesagt wird, ist Ω in den folgendenBeispielen eine beliebige nichtleere Menge.

(a) Die Potenzmenge P (Ω) ist die größte σ -Algebra über Ω. In diesem Fall istjede Teilmenge von Ω messbar.

(b) Die kleinste (auch triviale genannt) σ -Algebra über Ω ist ∅,Ω. In diesemFall ist keine nichtleere echte Teilmenge von Ω messbar

(c) Sei Ω unendlich und sei A B A ⊂ Ω : A endlich. Dann ist A keineAlgebra, denn es ist Ω < A und mit A ∈ A ist notwendigerweise Ac

unendlich und somit ist Ac < A.

(d) Sei Ω abzählbar unendlich und sei A B A ⊂ Ω : A oder Ac endlich.Dann ist A eine Algebra, aber keine σ -Algebra. (Übung!)

(e) Sei Ω überabzählbar und sei A B A ⊂ Ω : A abzählbar. Dann ist Akeine Algebra, weil Ω < A und mit A ∈ A ist Ac < A.

(f) Sei A B A ⊂ Ω : A oder Ac abzählbar. Dann ist A eine σ -Algebra(Übung!).

1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren

Satz 1.13 (Durchschnitte von σ -Algebren sind σ -Algebren). Ist (Ai )i∈I einebeliebige nichtleere Familie von σ -Algebren über Ω, dann ist A =

⋂i∈I Ai eine

σ -Algebra über Ω.

Beweis. Da Ω ∈ Ai für alle i ∈ I ist, ist Ω ∈ A. Ist A1,A2, . . . eine Folge vonMengen aus A, dann gehören diese Mengen auch zu Ai für alle i ∈ I . Dajedes Ai eine σ -Algebra ist, folgt ∩nAn ∈ Ai für alle i ∈ I und damit ∩nAn ∈

A. Analog sieht man, dass A abgeschlossen bezüglich Komplementbildungist.

Bemerkung 1.14. Die Vereinigung von zwei σ -Algebren ist im Allgemeinenkeine σ -Algebra (Übung!).

11

1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren

Korollar 1.15. Es sei E eine beliebige Menge von Teilmengen von Ω. Dann gibtes eine eindeutige kleinste σ -Algebra, die E enthält.

Denition 1.16 (Erzeuger und erzeugte σ -Algebra). Die kleinste σ -Algebra,die E enthält wird mit σ (E) bezeichnet und heißt von E erzeugte σ -Algebra.Die Familie E wird Erzeuger von σ (E) genannt.

Beweis von Korollar 1.15. Wir setzen

E∗ =A : A σ -Algebra über Ω, E ⊂ A

,

E∗ ist also die Familie aller σ -Algebren über Ω die E enthalten. Diese Familieist nichtleer, weil die Potenzmenge P (Ω) jede Menge von Teilmengen von Ωenthält. Dann ist

σ (E) B⋂A∈E∗

A

die kleinsteσ -Algebra über Ω, die E enthält. Dass es eineσ -Algebra ist, ist nachSatz 1.13 klar. Die kleinste ist es, weil der Durchschnitt über alle E enthaltendenσ -Algebren gebildet wird. Zwei kleinste σ -Algebren, die E enthalten, müssensich gegenseitig enthalten und somit gleich sein.

Nun geben wir einige Beispiele von σ -Algebren und ihren Erzeugern an.Ein weiteres Beispiel nden Sie in Übung 1.9.

Beispiel 1.17. (a) Ist Ω eine nichtleere Menge und ist A eine echte nichtleereTeilmenge von Ω, dann ist die kleinste σ -Algebra, die A enthält gegebendurch

σ (A) = ∅,A,Ac ,Ω.

(b) Die σ -Algebra auf N, die von den Einpunktmengen erzeugt wird, ist diePotezmenge, d.h.

σ(k : k ∈ N

)= P (N).

(c) Die σ -Algebra auf R, die von den Einpunktmengen erzeugt wird, ist dieσ -Algebra aus Beispiel 1.12(f), mit Ω = R dort. Überlegen Sie sich warumdas stimmt!

12

1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren

Nun können wir eine wichtige Klasse von σ -Algebren auf topologischen(und metrischen) Räumen einführen. Wir erinnern zunächst an die Denitioneines topologischen Raumes.

Denition 1.18 (Topologischer Raum). Es sei Ω eine nichtleere Menge. EineMenge τ von Teilmengen von Ω ist eine Topologie auf Ω wenn die folgendenBedingungen erfüllt sind.

(i) ∅,Ω ∈ τ ,

(ii) sind A,B ∈ τ , dann gilt A ∩ B ∈ τ ,

(iii) ist (Ai )i∈I ⊂ τ eine beliebige Familie, dann ist ⋃i∈I Ai ∈ τ .

Die Elemente von τ heißen oene Mengen und das Paar (Ω,τ ) heißt topologi-scher Raum.

Denition 1.19 (Borel-σ -Algebra). Es sei (Ω,τ ) ein nichtleerer topologischerRaum. Die Borel-σ -Algebra B (Ω) über Ω ist die von der Topologie τ erzeugteσ -Algebra, d.h.

B (Ω) B σ (τ ).

Ist (Ω, r ) ein metrischer Raum, dann ist

B (Ω) B σ (τr ).

Hier ist τr die von der Metrik r erzeugte Topologie auf Ω, d.h.

τr =⋃

(ω,s )∈FBs (ω) : F ⊂ Ω × (0,∞)

,

wobei Bs (ω) = ω ∈ Ω : r (ω, ω) < s der oene s-Ball um ω ist.

Das für uns wichtigste Beispiel ist die Borel-σ -Algebra über Rd (und überTeilmengen von Rd ).

Denition 1.20 (Borel-σ -Algebra über Rd ). Die Borel-σ -Algebra über Rd , istdie σ -Algebra, die von der Menge aller oenen Teilmengen von Rd (also vonder euklidischen Topologie) erzeugt wird. Sie wird mit B (Rd ) bezeichnet. ImFall d = 1 schreiben wir B (R).

13

1.3 Erzeuger von σ -Algebren, Borel-σ -Algebren

Die Borel-σ -AlgebraB (Rd ) wird auch von vielen anderen Mengensystemenerzeugt, die etwas besser handhabbar (was das bedeutet werden wir spätersehen) sind als die Menge aller oenen Teilmengen. Einige davon listen wirin den folgenden Propositionen auf. Für mehr Beispiele von Erzeugern vonB (Rd ) verweisen wir auf Literatur; siehe z.B. Satz 1.23 in Klenke (2013). Esgibt Mengen die nicht Borel messbar sind, d.h. sie sind in der PotenzmengevonR aber nicht in der Borel-σ -Algebra enthalten (siehe z.B. Theorem 1.4.9 inCohn (2013) in welchem das Auswahlaxiom benutzt wird). Alle Mengen, mitdenen wir in der Vorlesung jemals zu tun haben werden, sind Borel messbar.

Proposition 1.21 (Alternative Erzeuger von B (Rd )). Die folgenden Mengen-systeme erzeugen alle die Borel-σ -Algebra auf Rd :

(a) die Menge aller abgeschlossenen Teilmengen von Rd ;

(b) die Menge aller abgeschlossenen Halbräume von Rd der Form

(x1, . . . ,xd ) : xi ≤ b, für ein Index i und b ∈ R; (1.12)

(c) die Menge aller halboenen Rechtecke der Form

(x1, . . . ,xd ) : ai < xi ≤ bi für i = 1, . . . ,d (1.13)

wobei ai < bi , i = 1, . . . ,d aus R sind.

Beweis. Seien E1, E2, E3 die Mengensysteme in (a), (b) und (c) und seienB1,B2,B3 die zugehörigen erzeugten σ -Algebren, d.h. Bi = σ (Ei ).

Wir zeigen B (Rd ) ⊃ B1 ⊃ B2 ⊃ B3 ⊃ B (Rd ). Da die σ -Algebra B (Rd )

die Menge aller oenen Teilmengen von Rd enthält und abgeschlossen unterKomplementbildung ist, enthält sie auch die Menge aller abgeschlossenenTeilmengen von Rd , also E1. Weil B1 = σ (E1) die kleinste σ -Algebra ist, dieE1 enthält, folgt B1 ⊂ B (R

d ).Oenbar gilt E1 ⊃ E2, woraus sofort B1 ⊃ B2 folgt.Seien nun ai ,bi ∈ R mit ai < bi . Wir müssen zeigen, dass die Rechtecke aus

(1.15) in B2 enthalten sind. Für jedes i = 1, . . . ,d gilt

(x1, . . . ,xd ) : ai < xi ≤ bi = (x1, . . . ,xd ) : xi ≤ bi \ (x1, . . . ,xd ) : xi ≤ ai .

14

1.4 Maße

Die rechte Seite (und damit auch die linke) ist in B2 enthalten. Mit

(x1, . . . ,xd ) : ai < xi ≤ bi für i = 1, . . . ,d =d⋂i=1(x1, . . . ,xd ) : ai < xi ≤ bi

folgt nun B2 ⊃ B3.Bleibt noch B3 ⊃ B (R

d ) zu zeigen. Dazu bemerken wir, dass jede oeneMenge inRd als abzählbare Vereinigung geeigneter ε-Bälle dargestellt werdenkann. Jeder oene ε-Ball kann wiederum als abzählbare Vereinigung geeigneterhalboener Rechtecke dargestellt werden.

Proposition 1.22 (Weitere Erzeuger von B (Rd )). Die folgenden Mengensys-teme erzeugen alle die Borel-σ -Algebra auf Rd :

(a) die Menge aller kompakten Teilmengen von Rd ;

(b) die Menge aller abgeschlossenen Halbräume von Rd der Form

(x1, . . . ,xd ) : xi ≤ b, für ein Index i und b ∈ Q; (1.14)

(c) die Menge aller halboenen Rechtecke der Form

(x1, . . . ,xd ) : ai < xi ≤ bi für i = 1, . . . ,d (1.15)

wobei ai < bi , i = 1, . . . ,d ausQ sind.

Beweis. Übung!

1.4 Maße

Denition 1.23 (Maße und Maßräume). Es sei (Ω,A) ein messbarer Raum.Eine Mengenfunktion

µ : A → [0,+∞] (1.16)

heißt Maß auf (Ω,A) wenn die folgenden zwei Bedingungen gelten

(i) µ (∅) = 0;

15

1.4 Maße

(ii) µ istσ -additiv, d.h. für jede FolgeA1,A2, . . . paarweise disjunkter Mengenaus A gilt

µ( ∞⋃n=1

An

)=

∞∑n=1

µ (An ). (1.17)

Das Maß µ heißt Wahrscheinlichkeitsmaß, wenn µ (Ω) = 1 ist. Es heißt endlich,wenn µ (Ω) < ∞ ist und σ -endlich, wenn es eine Folge Ω1,Ω2, . . . in A gibtmit ∪nΩn = Ω und µ (Ωn ) < ∞ für alle n.

Das Tripple (Ω,A, µ ) heißt dann Maßraum und falls µ ein Wahrscheinlich-keitsmaß ist, wird es Wahrscheinlichkeitsraum genannt.

Man sagt, dass eine Mengenfunktion µ endlich additiv ist, wenn für jeendlich viele paarweise disjunkte Mengen A1, . . . ,An aus A gilt

µ( n⋃i=1

Ai

)=

n∑i=1

µ (Ai ). (1.18)

Gilt zusätzlich noch µ (∅) = 0, dann spricht man von einem endlich-additivenMaß. Ein endlich-additives Maß werden wir auch stets so benennen. Ein Maßist für uns immer σ -additiv.

Natürlich folgt aus der σ -Additivität die endliche Additivität. Die Umkeh-rung ist im Allgemeinen falsch (vgl. (f) im folgenden Beispiel).

Beispiel 1.24. (a) Es sei Ω eine beliebige nichtleere Menge und A eine σ -Algebra auf Ω. Wir denieren die Mengenfunktion µ : A → [0,+∞]durch

µ (A) =

n : falls A endlich und |A| = n ist,+∞ : falls A unendlich ist.

Dann ist µ ein Maß und wird Zählmaß genannt. Ist Ω endlich und µ durch

µ (A) =µ (A)

µ (Ω)=|A|

|Ω |

deniert. Dann ist µ ein Wahrscheinlichkeitsmaß, nämlich die uniformeVerteilung (auch Gleichverteilung) auf Ω.

16

1.4 Maße

(b) Es sei Ω eine beliebige nichtleere Menge undA eine σ -Algebra auf Ω. Fürein ω ∈ Ω denieren wir die Mengenfunktion δω : A → [0,+∞] durch

δω (A) =

1 : falls ω ∈ A,0 : falls ω < A.

Dann ist µ ein (Wahrscheinlichkeits)Maß und wird Dirac-Maß oder Ein-heitsmasse im Punkt ω genannt.

(c) Für Ω = N sei

A = A ⊂ Ω : A endlich oder Ac endlich .

Nach Beispiel 1.12(d) ist A eine Algebra, aber keine σ -Algebra. Wir de-nieren µ : A → [0,+∞] durch

µ (A) =

1 : wenn A unendlich,0 : wenn A endlich.

Die Mengenfunktion µ ist endlich additiv (auf A), aber nicht σ -additiv.Außerdem kann µ auch nicht auf die von A erzeugte σ -Algebra σ (A)fortgesetzt werden. (Damit meinen wir, dass man kein Maß µ auf σ (A)denieren kann, für das µ |A = µ gilt.) Später werden wir uns mit Bedin-gungen beschäftigen, unter welchen das geht.

(d) Es sei Ω eine beliebige nichtleere Menge und A eine beliebige σ -Algebraauf Ω. Sei µ : A → [0,+∞] deniert durch

µ (A) =

+∞ : wenn A , ∅,

0 : wenn A = ∅.

Dann ist µ ein Maß.

In den folgenden Propositionen diskutieren wir einige einfache aber wichti-ge Eigenschaften von Maßen.

Proposition 1.25 (Monotonie von Maßen). Es sei (Ω,A, µ ) ein Maßraumund seien A,B ∈ A mit B ⊂ A. Dann gilt µ (B) ≤ µ (A). Wenn außerdem nochµ (B) < ∞ gilt, dann gilt µ (A \ B) = µ (A) − µ (B).

17

1.4 Maße

Beweis. Die Mengen B und A \ B sind disjunkt und es ist A = B ∪ (A \ B). MitAdditivität von µ erhalten wir

µ (A) = µ (B) + µ (A \ B).

Da beide Summanden auf der rechten Seite nicht-negativ sind folgt hieraus diebehauptete Monotonie µ (B) ≤ µ (A). Im Fall µ (B) < ∞ folgt auch die zweiteBehauptung sofort.

Proposition 1.26 (Abzählbare Subadditivität von Maßen). Es sei (Ω,A, µ )ein Maßraum und sei A1,A2, . . . eine beliebige Folge (endlich oder unendlich)von Mengen aus A. Dann gilt

µ(∪nAn

)≤

∑n

µ (An ).

Beweis. Nach Proposition 1.1 können wir ∪nA als disjunkte Vereinigung vonMengen B1,B2, . . . mit Bi ⊂ Ai schreiben. Damit gilt

µ(∪nAn

)= µ

(∪nBn

)=

∑n

µ (Bn ) ≤∑n

µ (An ).

Dabei haben wir bei dem zweiten Gleichheitszeichen die σ -Additivität vonµ verwendet und für die Ungleichung die Monotonie von µ (siehe Propositi-on 1.25).

Proposition 1.27 (Auf- und absteigende Stetigkeit von Maßen). Es sei (Ω,A, µ )ein Maßraum. Das Maß µ ist aufsteigend und absteigend stetig, d.h. es geltendie folgenden zwei Aussagen.

(a) Für jede wachsende Folge A1,A2, . . . in A gilt µ (Ak )k→∞−−−−→ µ (∪nAn ).

(b) Für jede fallende Folge A1,A2, . . . in A mit µ (An0 ) < +∞ für ein n0 ∈ N

gilt µ (Ak )k→∞−−−−→ µ (∩nAn ).

Beweis. Sei A1,A2, . . . eine wachsende Folge von Mengen aus A. Wir setzenB1 = A1 und Bi = Ai \ Ai−1. Die Mengen B1,B2, . . . sind disjunkt und in Aenthalten. Außerdem gilt Ak = ∪

ki=1Bi und insbesondere ∪∞i=1Ai = ∪

∞i=1Bi . Es

folgt

µ(∪∞i=1Ai

)=

∞∑i=1

µ (Bi ) = limk→∞

k∑i=1

µ (Bi ) = limk→∞

µ(∪ki=1Bi

)= lim

k→∞µ(Ak

).

18

1.4 Maße

Damit ist die Aussage (a) gezeigt.Sei nun A1,A2, . . . eine fallende Folge von Mengen aus A mit µ (An0 ) < ∞

für ein n0 ∈ N. Wir können ohne Einschränkung n0 = 1 annehmen. Wirsetzen Ck = A1 \Ak . Dann ist C1,C2, . . . eine wachsende Folge von Mengenaus A und es gilt

∪∞k=1Ck = A1 \ (∩∞k=1Ak ).

Mit Teil (a) folgt

µ(A1 \ (∩

∞k=1Ak )

)= µ (∪∞k=1Ck ) = lim

k→∞µ (Ck ) = lim

k→∞µ (A1 \Ak ).

Mit der Voraussetzung µ (A1) < +∞ folgt nun nach Proposition 1.25 dieAussage (b). Die linke Seite im letzten Display ist nämlich gleich

µ (A1) − µ (∩∞k=1Ak )

und die rechte ist gleich

µ (A1) − limk→∞

µ (Ak ).

Es folgt limk→∞ µ (Ak ) = µ (∩∞k=1Ak ).

Die folgende Proposition ist teilweise eine Umkehrung der vorherigen. Esliefert hinreichende Bedingungen unter welchen ein endlich additives Maßein Maß ist (beachten Sie eine gewisse Ähnlichkeit zu Proposition 1.11).

Proposition 1.28 (Hinreichende Bedingungen fürσ -Additivität). Es sei (Ω,A)ein messbarer Raum und sei µ ein endlich additives Maß darauf. Dann ist µ einMaß, wenn eine der folgenden Bedingungen gilt.

(a) Für jede wachsende Folge A1,A2, . . . in A gilt µ (Ak )k→∞−−−−→ µ (∪nAn ).

(b) Für jede fallende Folge A1,A2, . . . in A mit ∩nAn = ∅ gilt µ (Ak )k→∞−−−−→ 0.

Beweis. Sei B1,B2, . . . eine Folge von paarweise disjunkten Mengen aus A.Zu zeigen ist, dass beide Bedingungen die σ -Additivität implizieren, alsoµ (∪∞

k=1Bk ) =∑∞

k=1 µ (Bk ).

19

1.5 Dynkin-Systeme

Nehmen wir zunächst an, dass (a) gilt. Für jedes n setzen wir An = ∪nk=1Bk .

Wegen endlicher Additivität haben wir µ (An ) =∑n

k=1 µ (Bk ). Da ∪∞n=1An =

∪∞k=1Bk ist, folgt mit (a) bei dem zweiten Gleichheitszeichen

µ (∪∞k=1Bk ) = µ (∪∞n=1An ) = lim

n→∞µ (An ) = lim

n→∞

n∑k=1

µ (Bk ) =∞∑k=1

µ (Bk ).

Nehmen wir nun an, dass (b) gilt. Für jedes n setzen wir An = ∪∞k=n

Bk . Danngilt An ↓ ∅, denn jedes ω ∈ Ω ist entweder in keinem der Bk enthalten oder ineinem einzigen. Im letzteren Fall gibt es ein N mit ω < ∪∞

k=nBk für n ≥ N .

Endliche Additivität impliziert

µ (∪∞k=1Bk ) = µ((∪nk=1Bk ) ∪An+1

)= µ (∪nk=1Bk ) + µ (An+1) =

n∑k=1

µ (Bk ) + µ (An+1).

Nach Voraussetzung gilt µ (An ) → 0 für n → ∞ und damit folgt µ (∪∞k=1Bk ) =∑∞

k=1 µ (Bk ).

1.5 Dynkin-Systeme

In den vorherigen Abschnitten haben wir uns mit σ -Algebren und Maßenauf σ -Algebren beschäftigt. Unser Ziel in den nächsten Abschnitten ist dieKonstruktion und (eindeutige) Fortsetzung von Maßen. Unter Anderem wer-den wir den Satz von Carathéodory beweisen. Dieser besagt, dass σ -endlicheMaße auf Algebren eindeutig auf die zugehörige σ -Algebra fortgesetzt werdenkönnen. Zuerst beschäftigen wir uns in diesem und im nächsten Abschnitt miteinigen technischen Hilfsmitteln (weitere Mengensysteme und äußere Maße).

Denition 1.29 (Dynkin-System, λ-System). Es sei Ω eine nichtleere Menge.Eine Menge D von Teilmengen von Ω heißt Dynkin-System (oder λ-System),wenn folgende Bedingungen erfüllt sind

(i) Ω ∈ D,

(ii) A ∈ D ⇒ Ac ∈ D,

(iii) sind A1,A2, . . . ∈ D paarweise disjunkt, dann ist ⋃∞k=1Ak ∈ D.

20

1.5 Dynkin-Systeme

Denition 1.30 (∩-stabile Mengensysteme, π -Systeme). Ein MengensystemE auf einer nichtleeren Menge Ω heißt schnittstabil (oder π -System, wir schrei-ben oft ∩-stabil) , wenn es abgeschlossen bezüglich endlichen Durchschnittenist, d.h.

A,B ∈ E ⇒ A ∩ B ∈ E . (1.19)

Bemerkung 1.31 (Beziehung zwischen Dynkin-Systemen und σ -Algebren).Eine σ -Algebra ist natürlich stets ein Dynkin-System. Die Umkehrung istfalsch. Auf Ω = 1, 2, 3, 4 ist z.B.

D =∅,Ω, 1, 2, 1, 3, 1, 4, 2, 3, 2, 4, 3, 4

ein Dynkin-System, aber keine σ -Algebra. Wie die nächste Proposition zeigt,“fehlt” einem Dynkin-System nicht viel zu einer σ -Algebra.

Proposition 1.32. Ein Dynkin-System ist genau dann eine σ -Algebra, wenn esschnittstabil ist.

Beweis. Eine Richtung ist natürlich klar. Für die andere ist nur Abgeschlossen-heit bezüglich abzählbaren Vereinigungen zu zeigen. Sei alsoD ein schnittsta-biles Dynkin-System. Enthält D die Mengen A1,A2, . . . ∈ D, dann enthält esauch die disjunkten Mengen B1,B2, . . ., deniert durch (vgl. Proposition 1.1)

Bn = An ∩Ac1 ∩ . . . ∩A

cn−1.

Nach Denition 1.29(iii) folgt

∪∞n=1An = ∪∞n=1Bn ∈ D .

Lemma 1.33 (Äquivalente Denition eines Dynkin-Systems). Es sei D einSystem von Teilmengen einer nichtleeren Menge Ω. Zeigen Sie:D ist genau dannein Dynkin-System, wenn gilt

(i) Ω ∈ D;

(ii) A,B ∈ D, B ⊂ A⇒ A \ B ∈ D;

(iii) Für jede aufsteigende Folge (An ) von Elementen aus D gilt⋃

n An ∈ D.

21

1.5 Dynkin-Systeme

Beweis. Übung!

Beispiel 1.34. 1. Es seien (Ω,A) ein messbarer Raum und µ und ν endli-che Maße auf A mit µ (Ω) = ν (Ω). Dann ist

D = A ∈ A : µ (A) = ν (A)

ein Dynkin-System. Dabei gilt Ω ∈ D nach Voraussetzung. Ist A ∈ Dso gilt µ (A) = ν (A) und somit (vgl. Proposition 1.25)

µ (Ac ) = µ (Ω \A) = µ (Ω) − µ (A) = ν (Ω) − ν (A) = ν (Ω \A) = ν (Ac ).

Also ist Ac ∈ D. Sei nun A1,A2, . . . eine Folge von paarweise disjunktenMengen aus D. Dann folgt mit σ -Additivität von µ und ν

µ (∪nAn ) =∑n

µ (An ) =∑n

ν (An ) = ν (∪nAn ).

Dies zeigt ∪nAn ∈ D.

2. Es sei (Ω,A, P) ein Wahrscheinlichkeitsraum und sei A ∈ A beliebig.Dann ist (Übung!)

D = B ∈ A : P(A ∩ B) = P(A)P(B)

ein Dynkin-System. (D ist die Menge aller “von A unabhängigen Ereig-nisse”.)

Bemerkung 1.35 (Schnitte und Erzeuger von Dynkin-Systemen). Ähnlich zuBeweis von Satz 1.13 lässt sich zeigen, dass Durchschnitte von beliebigenFamilien von Dynkin-Systemen (über derselben Menge Ω) wieder Dynkin-Systeme sind. Für ein beliebiges Mengensystem E von Teilmengen von Ωkann man wie in Korollar 1.15 zeigen, dass

δ (E) B⋂D⊃E

D Dynkin-System

D (1.20)

das kleinste E enthaltende Dynkin-System ist. In Analogie mit Denition 1.16sagen wir, dass δ (E) das von E erzeugte Dynkin-System ist und nennen EErzeuger von δ (E).

22

1.5 Dynkin-Systeme

Die große Bedeutung von Dynkin-Systemen ist vor allem durch das folgendeResultat begründet. Ein Anwendungsbeispiel dieses Resultats sehen wir gleichim Anschluss an den Beweis.

Satz 1.36. Ist E ein ∩-stabiles System auf einer nichtleeren Menge Ω, so gilt

σ (E) = δ (E). (1.21)

Beweis. Da σ (E) ein E enthaltendes Dynkin-System ist und δ (E) das kleinstesolche System ist, folgt δ (E) ⊂ σ (E). Zu zeigen ist also δ (E) ⊃ σ (E). Dafürgenügt es zu zeigen, dass δ (E) eine σ -Algebra ist. Dafür wiederum reicht esnach Proposition 1.32 zu zeigen, dass δ (E) ein ∩-stabiles System ist.

Wir denieren

D1 = A ∈ δ (E) : A ∩ E ∈ δ (E) für alle E ∈ E

und zeigen, dass D1 ein Dynkin-System ist. Dafür verwenden wir die äquiva-lente Charakterisierung aus Lemma 1.33.

Aus E ⊂ δ (E) folgt Ω ∈ D1. Sind A,B ∈ D1 mit B ⊂ A und E ∈ E, so gilt

(A \ B) ∩ E = (A ∩ E) \ (B ∩ E) ∈ δ (E).

Damit ist A \ B ∈ D1. Sei A1,A2, . . . eine aufsteigende Folge von Elementenaus D1. Für E ∈ E ist dann A1 ∩ E,A2 ∩ E, . . . eine aufsteigende Folge vonElementen aus δ (E). Es folgt

(∪nAn ) ∩ E = ∪n (An ∩ E) ∈ δ (E),

was ∪nAn ∈ D1 zeigt. Also ist D1 ein Dynkin-System.Da E ein ∩-stabiles System ist, gilt E ⊂ D1 und weil δ (E) das kleinste

Dynkin-System mit dieser Eigenschaft ist gilt auch δ (E) ⊂ D1. Insbesonderesind Schnitte von Mengen aus E und δ (E) in δ (E) enthalten.

Wir denieren

D2 = B ∈ δ (E) : B ∩A ∈ δ (E) für alle A ∈ δ (E).

Nach dem ersten Teil des Beweises gilt E ⊂ D2. Nun kann man ähnlich wieim Fall vonD1 zeigen, dassD2 ein Dynkin-System ist. Damit folgt δ (E) ⊂ D2.Insbesondere sind Schnitte von je zwei (und damit endlich vielen) Mengen ausδ (E) in δ (E) enthalten. Das zeigt, dass δ (E) ein ∩-stabiles Dynkin-System ist.Nach Proposition 1.32 ist δ (E) eine σ -Algebra. Also gilt (1.21).

23

1.5 Dynkin-Systeme

Im folgenden Satz wenden wir Satz 1.36 an, um zu zeigen, dass σ -endlicheMaße auf σ -Algebren eindeutig durch ihre Werte auf ∩-stabilen Erzeugern derbetreenden σ -Algebren bestimmt sind. Beachten Sie, dass die Voraussetzungder σ -Endlichkeit der Maße auf den Erzeugern auch eine Voraussetzung andie Erzeuger ist.

Satz 1.37 (Eindeutigkeit von Maßen). Es sei Ω nichtleer und sei E eine ∩-stabileFamilie von Teilmengen von Ω. Ferner seien µ1 und µ2 zwei Maße auf σ (E) dieσ -endlich auf E sind. Stimmen µ1 und µ2 auf E überein, so stimmen sie auchauf σ (E) überein.

Beweis. Für B ∈ E mit µ1(B) = µ2(B) < ∞ sei

DB = A ∈ σ (E) : µ1(A ∩ B) = µ2(A ∩ B).

Dann istDB ein Dynkin-System (Beweis ähnlich zum Beweis in Beispiel 1.34.1.),das E enthält. Nach Satz 1.36 folgt auch σ (E) = δ (E) ⊂ DB , d.h. es giltµ1(A ∩ B) = µ2(A ∩ B) für alle A ∈ σ (E).

Wegen σ -Endlichkeit auf E gibt es Mengen Ω1,Ω2, . . . in E mit Ω = ∪nΩn

und µ1(Ωn ) = µ2(Ωn ) < ∞ für alle n. Mit Einschluss-Ausschluss-Formel (sieheÜbung 1.15) gilt

µa(∪ni=1(Ωi ∩A)

)=

∑1≤i≤n

µa (Ωi ∩A) −∑

1≤i<j≤nµa (Ωi ∩ Ωj ∩A) + · · · (1.22)

für a = 1, 2,A ∈ σ (E) und alle n. Da E ein ∩-stabiles System ist, das Ωi enthält,enthält es die Schnitte Ωi ∩ Ωj und alle möglichen endlichen Schnitte der Ωi

und die µa Maße dieser Schnitte sind endlich. Also stimmen die Terme aufder rechten Seite von (1.22) für a = 1 und a = 2 überein. Damit stimmenfür jedes n auch die linken Seiten für a = 1 und a = 2 überein. Mit n → ∞und aufsteigender Stetigkeit von Maßen folgt µ1(A) = µ2(A), denn es ist∪ni=1(Ωi ∩A) ↑ A für n → ∞.

Korollar 1.38. Es sei Ω nichtleer und sei E eine ∩-stabile Familie von Teilmen-gen von Ω, sodass Ω eine höchstens abzählbare Vereinigung von Mengen aus Eist. Ferner seien µ1 und µ2 zwei endliche Maße auf σ (E). Stimmen µ1 und µ2 aufE überein, so stimmen sie auch auf σ (E) überein.

Beweis. Nach Voraussetzung ist Ω = ∪nΩn für Mengen Ωn ∈ E. Aus µa (Ωn ) ≤µa (Ω) für a = 1, 2 und alle n folgt die σ -Endlichkeit der beiden Maße auf E.Also kann Satz 1.37 angewendet werden.

24

1.6 Äußere Maße

Beispiel 1.39. Es sei Ω , ∅ beliebig. Das System E = ∅ ist ∩-stabil und esgilt σ (E) = ∅,Ω. Alle endlichen Maße stimmen auf E überein, müssen abernicht auf σ (E) übereinstimmen. Weil Ω keine (abzählbare) Vereinigung vonMengen aus E ist, ist Korollar 1.38 nicht anwendbar. Aus demselben Grundkann kein Maß auf σ (E) auf E σ -endlich sein. Beachten Sie, dass σ -Endlichkeiteine gemeinsame Eigenschaft des Maßes und des Mengensystems ist.

1.6 Äußere Maße

In diesem Abschnitt konstruieren wir Fortsetzungen von Maßen auf Algebrenbzw. Semiringen zu Maßen auf den von ihnen erzeugten σ -Algebren.Denition 1.40. Es sei Ω , ∅. Ein äußeres Maß µ∗ ist eine nichtnegativeMengenfunktion auf P (Ω) mit den folgenden Eigenschaften:

(i) µ∗(∅) = 0;

(ii) µ∗ ist monoton: A ⊂ B ⇒ µ∗(A) ≤ µ∗(B);

(iii) µ∗ ist σ -subadditiv: µ∗(∪nAn ) ≤∑

n µ∗(An ).

Beispiel 1.41. Es sei E eine Familie von Teilmengen von Ω mit ∅ ∈ E. Fernersei ρ : E → [0,+∞] eine Mengenfunktion mit ρ (∅) = 0. Für A ⊂ Ω denierenwir

ρ∗(A) B inf∑

n

ρ (An ) : A ⊂ ∪nAn,An ∈ E. (1.23)

Das Inmum wird also über alle abzählbaren Überdeckungen von A mit Men-gen aus E genommen. Entsprechend der üblichen Konvention, dass Inmumvon leeren Mengen unendlich ist, ist ρ∗(A) = +∞ wenn es keine solche Über-deckung gibt.

Es ist klar, dass ρ∗ nichtnegativ und monoton ist, und dass ρ∗(∅) = 0 gilt. SeiA1,A2, . . . eine beliebige Folge von Teilmengen von Ω. Wenn ρ∗(An ) = +∞für ein n gilt, dann ist ρ∗(∪nAn ) ≤

∑n ρ∗(An ). Ist ρ∗(An ) endlich für alle

n, dann kann jedes An mit Mengen Bnk aus E überdeckt werden, so dass∑k ρ (Bnk ) < ρ

∗(An ) + ε/2n. Dann ist ∪nAn ⊂ ∪n ∪k Bnk und es gilt

ρ∗(∪nAn ) ≤∑n

∑k

ρ (Bnk ) <∑n

ρ∗(An ) + ε .

Also ist ρ∗ ein äußeres Maß.

25

1.6 Äußere Maße

Denition 1.42. Es sei µ∗ ein äußeres Maß auf Ω. Eine Menge E ⊂ Ω heißtµ∗-meßbar, wenn für alle F ⊂ Ω

µ∗(F ) = µ∗(F ∩ E) + µ∗(F ∩ Ec ). (1.24)

MitM (µ∗) bezeichnen wir die Menge aller µ∗ messbaren Teilmengen von Ω.

Bemerkung 1.43. Wegen der Subadditivität von µ∗ ist (1.24) äquivalent zu

µ∗(F ) ≥ µ∗(F ∩ E) + µ∗(F ∩ Ec ). (1.25)

Proposition 1.44 (µ∗-Nullmengen sind µ∗-messbar). Es sei µ∗ ein äußeresMaß auf einer Menge Ω. Jede Menge B ⊂ Ω mit µ∗(B) = 0 oder µ∗(Bc ) = 0 istµ∗-messbar.

Beweis. Übung!

Lemma 1.45. Das MengensystemM (µ∗) ist eine Algebra auf Ω.

Beweis. Dass Ω ∈ M (µ∗) ist, ist klar, denn für F ⊂ Ω ist

µ∗(F ) = µ∗(F ) + µ∗(∅) = µ∗(F ∩ Ω) + µ∗(F ∩ Ωc ).

Abgeschlossenheit bezüglich Komplementbildung ist auch klar, weil die Mess-barkeitsbedingung (1.24) symmetrisch in E und Ec ist. SeienA,B ∈ M (µ∗) undF ⊂ Ω. Dann gilt (mit Subadditivität von µ∗ bei dem Übergang von zweiter zudritter Zeile)

µ∗(F ) = µ∗(F ∩A) + µ∗(F ∩Ac )

= µ∗(F ∩A ∩ B) + µ∗(F ∩A ∩ Bc ) + µ∗(F ∩Ac ∩ B) + µ∗(F ∩Ac ∩ Bc )

≥ µ∗(F ∩A ∩ B) + µ∗((F ∩A ∩ Bc ) ∪ (F ∩Ac ∩ B) ∪ (F ∩Ac ∩ Bc )

)= µ∗(F ∩A ∩ B) + µ∗(F ∩ (A ∩ B)c ).

Das zeigt A ∩ B ∈ M (µ∗). Damit istM (µ∗) eine Algebra.

Lemma 1.46. Ist A1,A2, . . . eine endliche oder abzählbar unendliche Folge vonpaarweise disjunkten Mengen ausM (µ∗), dann gilt für jedes F ⊂ Ω

µ∗(F ∩ (∪kAk )

)=

∑k

µ∗(F ∩Ak ). (1.26)

Insbesondere ist µ∗ σ -additiv aufM (µ∗).

26

1.6 Äußere Maße

Beweis. Wir betrachten zunächst den endlichen Fall von n paarweise disjunk-ten Mengen. Für n = 1 ist nichts zu zeigen. Für n = 2 müssen wir zwei Fälleunterscheiden. Ist A1 ∪A2 = Ω, dann ist (1.26) gleichbedeutend mit der Aussa-ge (1.24), wobei A1 = E und A2 = Ec (oder umgekehrt). Ist A1 ∪A2 eine echteTeilmenge von Ω, dann ist

µ∗(F ∩ (A1 ∪A2)) = µ∗(F ∩ (A1 ∪A2) ∩A1) + µ

∗(F ∩ (A1 ∪A2) ∩Ac1)

= µ∗(F ∩A1) + µ∗(F ∩A2),

wobei wir für die zweite Gleichung die Disjunktheit vonA1 undA2 ausgenutzthaben.

Nehmen wir nun an, dass (1.26) für n − 1 gilt. Wie im Fall n = 2 erhaltenwir mit der Induktionsvoraussetzung

µ∗(F ∩ (∪nk=1Ak )

)= µ∗

(F ∩ (∪n−1k=1Ak )

)+ µ∗(F ∩An ) =

n∑k=1

µ∗(F ∩Ak ).

Damit ist (1.26) für endliche Folgen gezeigt. Der unendliche Fall folgt mitMonotonie. Es gilt nämlich

µ∗(F ∩ (∪∞k=1Ak )

)≥ µ∗

(F ∩ (∪nk=1Ak )

)=

n∑k=1

µ∗(F ∩Ak ).

Mit n → ∞ folgt, dass die linke Seite von (1.26) größer oder gleich der rechtenist. Die umgekehrte Ungleichung folgt mit σ -Subadditivität von µ∗.

Die σ -Additivität von µ∗ folgt direkt aus (1.26) mit F = Ω.

Satz 1.47. Ist µ∗ ein äußeres Maß, dann ist M (µ∗) eine σ -Algebra und dieEinschränkung von µ∗ aufM (µ∗) ist ein Maß.

Beweis. Zu zeigen ist nur, dassM (µ∗) eine σ -Algebra ist. Dass, µ∗ ein Maßdarauf ist, haben wir bereits in Lemma 1.46 gesehen.

Seien A1,A2, . . . disjunkte Mengen ausM (µ∗) mit A = ∪kAk . Nach Lem-ma 1.45 gilt Bn = ∪nk=1Ak ∈ M (µ∗) und somit gilt für F ⊂ Ω

µ∗(F ) = µ∗(F ∩ Bn ) + µ∗(F ∩ Bcn )

n∑k=1

µ∗(F ∩Ak ) + µ∗(F ∩Ac ).

27

1.6 Äußere Maße

Hier haben wir (1.26) bei dem ersten Term und Monotonie von µ∗ bei demzweiten ausgenutzt, denn es ist Bcn ⊃ Ac . Mit n → ∞ und (1.26) folgt

µ∗(F ) ≥∞∑k=1

µ∗(F ∩Ak ) + µ∗(F ∩Ac ) = µ∗(F ∩A) + µ∗(F ∩Ac ).

Damit ist A ∈ M (µ∗). Also istM (µ∗) abgeschlossen bezüglich Bildung ab-zählbarer disjunkter Vereinigungen, d.h. es ist ein Dynkin-System und eineAlgebra. Nach Proposition 1.32 istM (µ∗) eine σ -Algebra.

Denition 1.48 (Semiring). Ein Mengensystem A von Teilmengen von Ωheißt Semiring (oder Halbring), falls die folgenden Eigenschaften erfüllt sind.

(i) ∅ ∈ A;

(ii) A,B ∈ A ⇒ A ∩ B ∈ A;

(iii) sind A,B ∈ A und A ⊂ B, dann gibt es paarweise disjunkte MengenC1, . . . ,Cn aus A, sodass B \A = ∪n

k=1Ck .

Satz 1.49. Es sei A ein Semiring auf einer nichtleeren Menge Ω und sei µ einenichtnegative Mengenfunktion auf A mit µ (∅) = 0. Ferner sei µ endlich additivund σ -subadditiv. Dann gibt es eine Fortsetzung von µ zu einem Maß auf dieσ -Algebra σ (A).

Die Beweisidee dieses Satzes ist zu zeigen, dass für das zu µ gehörige (vgl.Beispiel 1.41) äußere Maß µ∗ die folgende Aussage gilt

A ⊂ M (µ∗).

Dann ist notwendigerweise auch σ (A) ⊂ M (µ∗), weilM (µ∗) eine σ -Algebraist. Im nächsten Schritt zeigen wir noch µ (A) = µ∗(A) für A ∈ A. Dann ist µ∗eine Fortsetzung von µ aufM (µ∗) und die Einschränkung von µ∗ auf σ (A)liefert eine Fortsetzung von µ auf σ (A).

Beweis. Es seien A,B ∈ A mit A ⊂ B und seien C1, . . . ,Cn disjunkte Mengenaus A mit B \A = ∪n

k=1Ck . Mit endlicher Additivität folgt

µ (B) = µ (A) +n∑

k=1µ (Ck ).

28

1.6 Äußere Maße

Also ist µ monoton.Wie in (1.23) denieren wir das zu µ gehörige äußere Maß µ∗ durch

µ∗(A) B inf∑

n

µ (An ) : A ⊂ ∪nAn,An ∈ A. (1.27)

Nun zeigen wirA ⊂ M (µ∗). Sei alsoA ∈ A. Ist F ⊂ Ω mit µ∗(F ) = ∞, danngilt (1.25) und damit (1.24) trivialerweise (mit E = A dort). Wenn µ∗(F ) < ∞ist, dann kann man zu jedem ε > 0 Mengen An aus A nden mit F ⊂ ∪nAn

und ∑n µ (An ) < µ

∗(F )+ε . DaA ein Semiring ist, sind die Mengen Bn = A∩An

in A enthalten und es gilt

Ac ∩An = An \ Bn = ∪mnk=1Cnk

für geeignete disjunkte Mengen Cnk ∈ A. Es folgt

An = Bn ∪ (∪mnk=1Cnk ),

wobei die Vereinigung disjunkt ist. Ferner gilt

A ∩ F ⊂ A ∩ (∪nAn ) = ∪nBn und Ac ∩ F ⊂ Ac ∩ (∪nAn ) = ∪n ∪mnk=1 Cnk .

Mit Denition von µ∗ und endlicher Additivität von µ erhalten wir

µ∗(A ∩ F ) + µ∗(Ac ∩ F ) ≤∑n

µ (Bn ) +∑n

µ (∪mnk=1Cnk )

=∑n

µ (Bn ) +∑n

mn∑k=1

µ (Cnk )

=∑n

µ (An ) < µ∗(F ) + ε .

Mit ε → 0 folgt (1.25), was A ∈ M (µ∗) und A ⊂ M (µ∗) zeigt.Im nächsten Schritt zeigen wir, dass µ∗ eine Fortsetzung von µ ist, d.h. für

alle A ∈ A gilt µ∗(A) = µ (A). Wenn A ⊂ ∪nAn für Mengen A und An aus A,dann gilt erhalten wir mit σ -Subadditivität und Monotonie von µ

µ (A) ≤∑n

µ (A ∪An ) ≤∑n

µ (An ).

29

1.6 Äußere Maße

Damit ist µ (A) ≤ µ∗(A) für alle A ∈ A. Die Umgekehrte Ungleichung µ (A) ≥µ∗(A) folgt sofort aus (1.27), weil A ∈ A seine eigene Überdeckung ist. Alsogilt µ = µ∗ auf A.

Da A ⊂ M (µ∗) undM (µ∗) eine σ -Algebra ist (siehe Satz 1.47), folgt

A ⊂ σ (A) ⊂ M (µ∗) ⊂ P (Ω).

Die Einschränkung von µ∗ aufM (µ∗) ist ein Maß (wieder Satz 1.47). Also istauch die Einschränkung von µ∗ auf σ (A) ein Maß, welcher insbesondere eineFortsetzung von µ ist.

Als Korollar aus den Sätzen 1.49 und 1.37 erhalten wir das folgende wichtigeResultat.

Satz 1.50 (Satz von Carathéodory). Ein σ -endliches Maß auf einer AlgebraA0besitzt eine eindeutige Fortsetzung zu einem Maß auf A = σ (A0).

Beispiel 1.51 (Lebesgue-Maß aufR). Zusammen mit der leeren Menge bildetdie Menge der Intervalle der Form (a,b], a,b ∈ R, a < b ein Semiring A aufR. Wir denieren eine Mengenfunktion λ : A → [0,∞] durch

λ(∅) = 0 und λ((a,b]) = b − a, a < b . (1.28)

λ((a,b]) gibt also die Länge des Intervalls (a,b] ∈ A an. Man kann sich nunüberlegen, dass λ endlich additiv, σ -subadditiv und σ -endlich ist (Übung!).Nach Satz 1.49 existiert eine Fortsetzung des Maßes λ auf die von A erzeugteσ -Algebra. Nach Proposition 1.21 ist σ (A) = B (R). Nach Satz 1.37 ist dieserFortsetzungsmaß auf die Borel-σ -Algebra eindeutig. Es heißt Lebsesgue Maßauf R und wird üblicherweise auch mit λ bezeichnet.

Beispiel 1.52 (Lebesgue-Maß auf Rd ). Wir haben gesehen, dass die Borel-σ -Algebra B (Rd ) von beschränkten Rechtecken

A = x : ai < xi ≤ bi , i = 1, . . . ,d (1.29)

erzeugt wird. Man kann zeigen, dass zusammen mit der leeren Menge dieMenge dieser Rechtecke einen Semiring A bildet. Auf A denieren wir eineMengenfunktion λd durch λd (∅) = 0 und

λd (x : ai < xi ≤ bi , i = 1, . . . ,d ) =d∏i=1

(bi − ai ).

30

1.6 Äußere Maße

Mit Hilfe der Sätze 1.37 und 1.49 kann man zeigen, dass eine eindeutigeFortsetzung von λd aufσ (A) = B (Rd ) existiert. Die Fortsetzung wird auch mitλd bezeichnet und heißt das Lebessgue-Maß auf Rd . Mit dem Produktmaßsatzwerden wir später eine weitere Methode kennenlernen, mit der man dasLebessgue-Maß auf (Rd ,B (Rd )) konstruieren kann.

Wenn A ein Semiring ist, dann ist nach Satz 1.37 ein σ -endliches Maß aufσ (A) eindeutig durch seine Werte auf A bestimmt. Aus dem Beweis vonSatz 1.49 können wir ablesen wie die Maße von Mengen aus σ (A) durch dieMaße von Mengen aus A approximiert werden.

Lemma 1.53. Sind MengenA,A1, . . . ,An in einem SemiringA enthalten, danngibt es in A disjunkte Mengen C1, . . . ,Cm mit

A ∩Ac1 ∩ · · · ∩A

cn = C1 ∪ · · · ∪Cm .

Beweis. Für n = 1 schreiben wir A ∩ Ac1 = A \ (A ∩ A1). Da (A ∩ A1) ⊂ A ist

folgt die Aussage aus der Denition 1.48 des Semirings. Angenommen, dieAussage gilt für ein n. Für n + 1 schreiben wir

A ∩Ac1 ∩ . . . ∩A

cn+1 = ∪

mj=1(Cj ∩A

cn+1).

Auf jedes Element in dieser disjunkten Vereinigung können wir nun dasArgument aus dem Falln = 1 anwenden und erhalten die Aussage fürn+1.

Satz 1.54 (Approximationssatz). Es sei A ein Semiring, µ ein Maß auf σ (A),das σ -endlich auf A ist. Dann gelten die folgenden Aussagen:

(i) Ist A ∈ σ (A) und ε > 0, dann gibt eine höchstens abzählbar unendlicheFolge A1,A2, . . . paarweise disjunkter Mengen aus A mit A ⊂ ∪kAk undµ ((∪kAk ) \A) < ε .

(ii) FürA ∈ σ (A) mit µ (A) < ∞ und ε > 0 gibt eine endliche FolgeA1, . . . ,An

paarweise disjunkter Mengen aus A mit µ ((∪nk=1Ak ) 4 A) < ε .

Beweis. Sei µ∗ das zu µ gehörige äußere Maß deniert in (1.27). Im Beweis vonSatz 1.49 haben wir gesehen, dass σ (A) ⊂ M (µ∗) ist und dass µ und µ∗ aufA übereinstimmen. Nach Satz 1.37 stimmen µ und µ∗ auch auf σ (A) überein.

Wenn A ∈ σ (A) mit µ (A) = µ∗(A) < ∞ gegeben ist, dann gibt es MengenA1,A2, . . . in A mit A ⊂ ∪kAk und µ (∪kAk ) ≤

∑k µ (Ak ) < µ (A) + ε , woraus

31

1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen

µ ((∪kAk ) \A) < ε folgt. Um zu erreichen, dass die Folge A1,A2, . . . disjunkt istersetzen wirAk durchAk ∩A

c1∩ · · ·∩A

ck−1. Nach Lemma 1.53 kann jede solche

Menge als endliche Vereinigung von disjunkten Mengen aus A dargestelltwerden. Weiteres Umbenennen (und Umnummerieren) der Ak ’s liefert dieBehauptung (i) im Fall µ (A) = µ∗(A) < ∞.

Sei nun A ∈ σ (A) mit µ (A) = µ∗(A) = ∞ gegeben. Wegen σ -EndlichkeitaufA gibt es Mengen Ω1,Ω2, . . . inA mit Ω = ∪nΩn und µ (Ωn ) < ∞. In demendlichen Fall haben wir gesehen, dass für jedes n es Mengen An1,An2, . . .in A gibt mit A ∩ Ωn ⊂ ∪kAnk und µ ((∪kAnk ) \ (A ∪ Ωn )) < ε/2n. Wirkönnen A1,A2, . . . (wieder durch Umnummerieren) aus A so wählen, dass∪kAk = ∪n ∪k Ank ist. Dann ist A ⊂ ∪kAk und es gilt

µ ((∪kAk ) \A) ≤∑n

µ ((∪kAk ) \ (A ∩ Ωn )) < ε .

Wie zuvor kann man erreichen, dass die Ak disjunkt sind.Nun kommen wir zu (ii). Sei A ∈ σ (A) mit µ (A) < ∞ gegeben und seien

die zugehörigen Ak aus A wie in (i) gewählt. Dann gilt auch µ (∪∞k=1Ak ) < ∞.

Mit absteigender Stetigkeit von µ folgt µ ((∪∞k=1Ak ) \ (∪

nk=1Ak )) < ε für ein

(genügend großes) n. Dann folgt

µ((∪nk=1Ak ) 4 A

)= µ

((∪nk=1Ak ) \A

)+ µ

(A \ (∪nk=1Ak )

)≤ µ

((∪kAk ) \A

)+ µ

((∪kAk ) \ (∪

nk=1Ak )

)< 2ε .

1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen

Denition 1.55. Ein Lebesgue-Stieltjes Maß auf R ist ein Maß µ auf B (R)mit µ (I ) < ∞ für jedes beschränkte Intervall I .

In diesem Abschnitt werden wir zeigen, dass durch die Gleichung µ ((a,b]) =F (b) − F (a) eine eineindeutige Beziehung zwischen Lebesgue-Stieltjes Maßenµ und nichtfallenden rechtsstetigen Funktionen F : R → R besteht, wennman die Funktionen miteinander identiziert, die sich nur durch eine additiveKonstante unterscheiden.

32

1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen

Satz 1.56. Es sei µ ein Lebesgue-Stieltjes Maß auf R und sei F : R → R einebis auf eine additive Konstante eindeutig denierte Funktion

F (b) − F (a) = µ ((a,b]). (1.30)

Dann gilt

(i) F ist nichtfallend: a ≤ b ⇒ F (a) ≤ F (b);

(ii) F ist rechtsstetig: limx→a+ F (x ) = F (a) für alle a ∈ R.

Beweis. Die Funktion F ist nichtfallend, denn für a ≤ b ist F (b) − F (a) =µ ((a,b]) ≥ 0. Ist a ∈ R und x1 > x2 > . . . eine Folge mit xn ↓ a dann gilt(a,xn] ↓ ∅ und F (xn ) − F (a) = µ ((a,xn]) → 0 nach Proposition 1.27. Also istF rechtsstetig.

Wie wir schon oben bemerkt haben ist die Funktion F im obigen Satzbis auf eine additive Konstante eindeutig bestimmt. Eindeutigkeit erreichtman durch eine Extrabedingung indem man den Funktionswert an einerbestimmten Stelle festlegt. Man kann beispielsweise F (0) xieren und dannF (x ) − F (0) = µ ((0,x]) für x > 0 und F (0) − F (x ) = µ ((x , 0]) für x < 0 setzen.Mit F (0) = 0 ergibt sich

F (x ) =

µ ((0,x]) : x > 0,−µ ((x , 0]) : x < 0.

(1.31)

Das Lebesgue-Maß aus Beispiel 1.51 ist natürlich ein Lebesgue-Stieltjes Maßauf R. Die zugehörige Funktion, wie in (1.31) deniert, ist F (x ) = x .

Im Fall von endlichen Maßen µ deniert man F üblicherweise nicht durch(1.31), sondern durch

F (x ) = µ ((−∞,x]). (1.32)

Dann ist limx→−∞ F (x ) = 0 und limx→∞ F (x ) = µ (R).

Denition 1.57 (Verteilungsfunktion). Wenn µ ein Wahrscheinlichkeitsmaßauf R ist, dann heißt die in (1.32) denierte Funktion Verteilungsfunktion.

Maße auf R werden sehr oft durch die zu ihnen mittels (1.30) gehören-de Funktion angegeben, was durch die folgende Umkehrung von Satz 1.56gerechtfertigt wird. Aus diesem Grund werden nichtfallende rechtsstetigeFunktionen manchmal als maßdenierende Funktionen bezeichnet.

33

1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen

Satz 1.58. Es sei F : R → R eine nichtfallende rechtsstetige Funktion. Danngibt es ein eindeutiges Maß µ auf B (R), das (1.30) erfüllt.

Beweis. Die Menge A der halboenen Intervalle (a,b] mit der leeren Mengeist ein Semiring. Durch

µ ((a,b]) = F (b) − F (a)

wird ein σ -endliches Maß auf A deniert. Nach Satz 1.37 ist eine Fortsetzungvon µ auf σ (A) = B (R) (sofern sie existiert) eindeutig. Für die Existenzmüssen wir die Voraussetzungen von Satz 1.49 prüfen. Die Eigenschaftenµ ≥ 0 und µ (∅) = 0 sind klar. Es bleibt also noch die endliche Additivität undσ -Subadditivität von µ auf A zu zeigen.

Sind die Intervalle (a1,b1], . . . , (an,bn] disjunkt und gilt ∪nk=1(ak ,bk] ⊂

(a,b], dann istn∑

k=1(F (bk ) − F (ak )) ≤ (F (a1) − F (a)) + (F (b1) − F (a1)) + (F (a2) − F (b1)) + · · ·

· · · + (F (an ) − F (bn−1)) + F (bn ) − F (an ) + (F (b) − F (bn ))

= F (b) − F (a).

Sind die Intervalle (a1,b1], . . . , (an,bn] beliebig und gilt∪nk=1(ak ,bk] ⊃ (a,b],

dann istn∑

k=1(F (bk ) − F (ak )) ≥ F (b) − F (a).

Diese beiden Ungleichungen implizieren die endliche Additivität.Seien (a1,b1], (a2,b2], . . . beliebig und (a,b] ⊂ ∪∞

k=1(ak ,bk]. Sei ε ∈ (0,b−a).Für k ∈ N wähle b′

k> bk mit F (b′

k) − F (bk ) < ε/2n (dies ist möglich wegen

der Rechtsstetigkeit von F ). Dann gilt [a + ε,b] ⊂ ∪∞k=1(ak ,b

′k). Nach dem Satz

von Heine-Borel gibt es eine endliche Überdeckung des kompakten Intervalls[a + ε,b] durch oene Intervalle (ak1,b

′k1), . . . , (akn ,b

′kn). Es folgt

F (b) − F (a + ε ) = µ ((a + ε,b]) ≤n∑`=1

µ ((ak` ,b′k`])

n∑`=1

(µ ((ak` ,bk` ]) + ε/2−k`

)≤

∞∑k=1

µ ((ak ,bk]) + ε .

34

1.7 Lebesgue-Stieltjes Maße und Verteilungsfunktionen

Mit ε → 0 und Rechtsstetigkeit von F erhalten wir

F (b) − F (a) = µ ((a,b]) ≤∞∑k=1

µ ((ak ,bk]).

Nun folgt mit Satz 1.49 die Existenz der Fortsetzung, was den Beweis abschließt.

Lebesgue-Stieltjes Maße auf Rd sind Maße, die beschränkten Borel-Mengenendliches Maß zuweisen. Man kann auch Verteilungsfunktionen (oder allge-meiner maßdenierende Funktionen) auf Rd für d ≥ 2 denieren. Insbeson-dere benötigt man eine geeignete Denition von Stetigkeit von oben (die fürd = 1 mit Rechtsstetigkeit übereinstimmt) und Monotonie. Verteilungsfunk-tionen auf Rd für d ≥ 2 sind jedoch relativ unhandliche Objekte und werdendeswegen nicht sehr oft gebraucht. Wir bemerken an dieser Stelle nur, dass eseine Version von Satz 1.58 in Rd gibt (siehe z.B. Theorem 12.5 in Billingsley(1995)).

Wir schließen diesen Abschnitt mit einem Resultat über Regularität vonLebesgue-Stieltjes Maßen.

Satz 1.59. Es sei µ ein Lebesgue-Stieltjes Maß aufRd . Dann gelten die folgendenAussagen:

(i) Für jedes A ∈ B (Rd ) und ε > 0 gibt es eine abgeschlossene Menge C undoene Menge G mit C ⊂ A ⊂ G und µ (G \C ) < ε .

(ii) Ist µ (A) < ∞, dann ist µ (A) = supµ (K ) : K ⊂ A,K kompakt.

Beweis. Sei A = x : ai < xi ≤ bi , 1 ≤ i ≤ d ein beschränktes Rechteck. DieMengen Gn = x : ai < xi < bi + n

−1, 1 ≤ i ≤ d sind oen und es gilt Gn ↓ A.Da µ (G1) < ∞ ist, folgt mit absteigender Stetigkeit von µ, dass µ (Gn \A) < εfür genügend große n ist, d.h. beschränkte Rechtecke können von außen durchoene Mengen approximiert werden.

Sei nun A ∈ B (Rd ) beliebig. Die Menge der beschränkte Rechtecke ist einSemiring. Nach Satz 1.54(i) gibt es beschränkte Rechtecke Ak mit A ⊂ ∪kAk

und µ ((∪kAk ) \A) < ε . Für jedes k wähle nun oene Menge Gk mit Ak ⊂ Gk

und µ (Gk \ Ak ) < ε/2k . Dann ist G = ∪kGk oen und es gilt µ (G \ A) < 2ε .Also können alle Borel-messbaren Mengen von außen durch oene Mengenapproximiert werden.

35

1.8 Messbare Funktionen und Abbildungen

Um zu sehen, dass Borel-messbare Mengen von innen durch abgeschlosseneMengen approximiert werden können, geht man zu Komplementen über.Ist A Borel-messbar, dann gibt es eine oene Menge G mit Ac ⊂ G undµ (G\Ac ) = µ (G∩A) = µ (A\Gc ) < ϵ . Die MengeC = Gc ist eine abgeschlosseneTeilmenge von A. Das schließt den Beweis von (i) ab.

Die Aussage (ii) folgt aus (i). Aus µ (A) < ∞ folgt zunächst, dass es einebeschränkte Teilmenge A0 von A gibt mit µ (A \ A0) < ε . Mit (i) folgt dannµ (A0 \ K ) < ε für eine abgeschlossene und somit kompakte Teilmenge vonA0.

1.8 Messbare Funktionen und Abbildungen

In diesem Abschnitt beschäftigen wir uns mit Abbildungen zwischen Maßräu-men. Für f : Ω1 → Ω2 und A ⊂ Ω2 ist das Urbild von A unter der Abbildungf deniert durch

f −1(A) Bω ∈ Ω : f (ω) ∈ A

. (1.33)

Folgende Eigenschaften von Urbildern sind leicht nachzurechnen:

f −1(Ac ) = ( f −1(A))c , f −1(∪nAn ) = ∪n f−1(A), f −1(∩nAn ) = ∩n f

−1(An ).(1.34)

Denition 1.60 (Messbare Abbildungen). Es seien (Ω1,A1) und (Ω2,A2)messbare Räume.

(i) Eine Abbildung f : Ω1 → Ω2 heißt A1-A2 messbar (oder kurz messbar),wenn f −1(A2) ⊂ A1 ist, d.h. wenn f −1(A) ∈ A1 für alle A ∈ A2. Wirschreiben dann auch f : (Ω1,A1) → (Ω2,A2).

(ii) Im Fall (Ω2,A2) = (Rd ,B (Rd )), d ≥ 1 nennen wir eine A1-B (Rd )messbare Abbildung f Borel-messbar.

(iii) In wahrscheinlichkeitstheoretischem Kontext nennen wir eine Borel-messbare Abbildung Zufallsvariable, wenn d = 1 ist, und Zufallsvektor,wenn d ≥ 2 ist.

Bemerkung 1.61. Nach Übung 1.7 ist f −1(A2) eine σ -Algebra über Ω1. Dies istdie kleinste σ -Algebra, bezüglich der die Abbildung f f −1(A2)-A2 messbarist. Ist also f eine A1-A2 messbare Abbildung, dann folgt f −1(A2) ⊂ A1.

36

1.8 Messbare Funktionen und Abbildungen

Beispiel 1.62. (i) Ist A1 = P (Ω1) oder A2 = ∅,Ω2 dann ist jede Abbil-dung von Ω1 nach Ω2 messbar.

(ii) Eine Indikatorfunktion 1A für ein A ⊂ Ω1 ist genau dann eine messbareAbbildung von (Ω1,A1) nach (0, 1,P (0, 1)), wenn A ∈ A1 ist.

(iii) Eine Abbildung f mit einer endlichen Bildmenge ω1, . . . ,ωm ist genaudann messbar, wenn f −1(ωi ) ∈ A1 für alle i = 1, . . . ,m ist.

Satz 1.63. Es seien (Ω1,A1), (Ω2,A2) und (Ω3,A3)messbare Räume, f : Ω1 →Ω2 und д : Ω2 → Ω3. Dann gilt

(i) Ist f −1(A) ∈ A1 für alle A ∈ E und gilt σ (E) = A2, dann ist f A1-A2messbar.

(ii) Ist f A1-A2 messbar und ist д A2-A3 messbar, dann ist д f A1-A3messbar.

Beweis. Übung!

Beispiel 1.64. Sind (Ω1,τ1) und (Ω2,τ2) topologische Räume und B (τi ) diezugehörigen Borel-σ -Algebren, dann gilt: Ist f : Ω1 → Ω2 stetig, so auchB (τ1)-B (τ2) messbar. (Beweis mit (i) und E = τ2.)

Für Abbildungen f : Ω → Rd gehen wir, wenn nichts anderes gesagt wird,stets davon aus, dass B (Rd ) die σ -Algebra ist, mit der Rd ausgestattet ist. ImFolgenden nennen wir reellwertigeA-B (R) messbare FunktionenA-messbar,oder einfach messbar, wenn klar ist was A ist.Bemerkung 1.65. Sei (Ω,A) ein messbarer Raum und f : Ω → R. Dann istf genau dann A messbar, wenn f −1((−∞,x]) ∈ A für alle x ∈ R (oder allex ∈ Q). (Beweis mit (i) und E = die Menge der halboenen Intervalle.)

Ist f = ( f1, . . . , fd ) : Ω → Rd , dann gilt mit derselben Begründung: f istgenau dann A messbar, wenn für jedes x = (x1, . . . ,xd ) die Menge

ω : f1(ω) ≤ x1, . . . , fd (ω) ≤ xd

=

d⋂k=1

ω : fk (ω) ≤ xk

(1.35)

in A liegt. Diese Bedingung gilt wiederum, wenn jede Funktion fk messbarbezüglich A ist. Andererseits, wenn wir xk = x festhalten und alle anderen

37

1.8 Messbare Funktionen und Abbildungen

Koordinaten gegen unendlich schicken, dann steigt die rechte Seite von (1.35)gegen ω : fk (ω) ≤ x auf. Also ist f genau dann messbar, wenn alle fkmessbar sind.

Mit der obigen Bemerkung und Satz 1.63 folgt leicht das folgende Resultat.

Satz 1.66. Sind die Funktionen fk : Ω → R, k = 1, . . . ,d messbar bezüglich Aund д : Rd → R messbar, dann ist ω 7→ д( f1(ω), . . . , fd (ω)) messbar.

Mit diesem Satz erhalten wir eine Reihe von Beispielen messbarer Funk-tionen. Nimmt man z.B. д(x1, . . . ,xd ) als ∑d

k=1 xk , ∏dk=1 xk , maxx1, . . . ,xd

oder maxx1, . . . ,xd so folgt, dass Summen, Produkte, Maxima und Minimamessbarer Funktionen messbar sind. Ist f messbar, dann auch sin f und e f .Ist außerdem f (ω) , 0 für alle ω ∈ Ω, so ist 1/f messbar.

Satz 1.67. Es sei (Ω,A) ein messbarer Raum und seien f und д Borel-messbareFunktionen. Dann gilt

ω : f (ω) < д(ω), ω : f (ω) ≤ д(ω), ω : f (ω) = д(ω) ∈ A.

Beweis. Die Ungleichung f (ω) < д(ω) gilt genau dann, wenn es ein r ∈ Qgibt mit f (ω) < r < д(ω). Es folgt

ω : f (ω) < д(ω) =⋃r∈Q

(ω : f (ω) < r ∩ ω : r < д(ω)

).

Damit ist ω : f (ω) < д(ω) ∈ A als eine abzählbare Vereinigung von Mengenaus A. Genauso gilt ω : f (ω) > д(ω) ∈ A und daher auch

ω : f (ω) ≤ д(ω) = ω : f (ω) > д(ω)c ∈ A.

Schließlich ist auch

ω : f (ω) = д(ω)ω : f (ω) ≤ д(ω) \ ω : f (ω) < д(ω) ∈ A.

Im Zusammenhang mit Grenzwerten von Folgen reellwertiger Funktionenist es oft vorteilhaft mitR = R∪ −∞,+∞ zu arbeiten. Mit B (R) bezeichnenwir die σ -Algebra der Borelmengen von R:

B (R) B B ⊂ R : B ∩R ∈ B (R). (1.36)

38

1.8 Messbare Funktionen und Abbildungen

Man kann auf R direkt auch eine Metrik denieren und dann zeigen, dassB (R) von der induzierten Topologie erzeugt wird. Wir verweisen an dieserStelle auf Korollar 1.87 und die Diskussion davor in Klenke (2013).

Ist (Ω,A) ein messbarer Raum, dann nennen wir eine Funktion f : Ω → R

A-messbar (oder Borel-messbar), wenn sie A-B (R) messbar ist. Das ist dannder Fall, wenn f −1(−∞), f −1(+∞) ∈ A und f −1(B) ∈ A für alle B ∈ B (R)gilt.

Satz 1.68. Es sei (Ω,A) ein messbarer Raum und sei f1, f2, . . . eine Folge A-B (R) messbarer Funktionen.

(i) Die Funktionen supn fn, infn fn, lim supn fn und lim infn fn sindA messbar.

(ii) Wenn limn fn (ω) für alle ω ∈ Ω existiert, dann ist es messbar.

(iii) Es gilt ω ∈ Ω : fn (ω) ist konvergent ∈ A.

(iv) Ist f eine A messbare Funktion, so gilt ω ∈ Ω : limn fn (ω) = f (ω) ∈ A.

Beweis. Für alle x ∈ R gilt supn fn ≤ x = ∩n fn ≤ x ∈ A und infn fn ≤x = ∪n fn ≤ x ∈ A. Das zeigt die Messbarkeit von supn fn und infn fn.Daraus erhalten wir auch die Messbarkeit von lim supn fn = infn supk≥n fk undlim infn fn = supn infk≥n fk . Wenn limn fn existiert stimmt es mit lim supn fnund lim infn fn überein und ist deswegen messbar. Die Aussagen (iii) und (iv)sind beides Anwendungen von Satz 1.67. Die Menge in (iii) ist die Menge derω mit lim supn fn (ω) = lim infn fn (ω). Die Menge in (iv) ist die Menge der ωmit lim supn fn (ω) = lim infn fn (ω) = f (ω).

Denition 1.69 (Einfache Funktionen, Elementarfunktionen). Eine Funktionf : Ω → R heißt einfache Funktion (oder auch Elementarfunktion)), wenn esendlich viele disjunkte Teilmengen A1, . . . ,An von Ω und zahlen α1, . . . ,αn ∈R gibt, mit

f (ω) =n∑i=1

αi1Ai (ω), ω ∈ Ω. (1.37)

Natürlich ist eine Elementarfunktion genau dann messbar, wenn jedes Ai

in der obigen Denition in A (der σ -Algebra über Ω) liegt. Es ist klar, dasseine Elementarfunktion nur endlich viele Werte annimmt. Umgekehrt ist jedeFunktion, die nur endlich viele Werte annimmt eine Elementarfunktion.

39

1.8 Messbare Funktionen und Abbildungen

Beweise vieler Resultate über messbare Funktionen fangen erst mit demBeweis des Resultates für Elementarfunktionen an, der dann mit einem Appro-ximationsargument auf alle nichtnegative messbare Funktionen übertragenwird. Mit der Zerlegung f = f + − f − (siehe den Beweis unten) kann dasResultat dann oft auch auf beliebige messbare Funktionen übertragen werden.Hinter diesen Argumenten steckt der folgende Satz.Satz 1.70 (Approximation messbarer Funktionen durch einfache Funktionen).Es sei f eine Borel-messbare Funktion auf (Ω,A). Dann gelten folgende Aussa-gen:

(i) Ist f ≥ 0, dann gibt eine Folge f1, f2, . . . von nichtnegativen messbarenElementarfunktionen mit fn ↑ f .

(ii) Ist f beliebig, dann gibt eine Folge f1, f2, . . . von messbaren Elementar-funktionen mit fn (ω) ↑ f (ω), wenn f (ω) ≥ 0 und fn (ω) ↓ f (ω), wennf (ω) ≤ 0.

Beweis. Um (i) zu beweisen denieren wir die Folge fn durch

fn (ω) =

(k − 1)2−n : wenn (k − 1)2−n ≤ f (ω) < k2−n, 1 ≤ k < n2n,n : wenn n ≤ f (ω) ≤ ∞.

Der Beweis, dass für jedes ω die Folge fn (ω) punktweise nichtfallend ist undgegen f (ω) aufsteigt bleibt als Übung.

Für (ii), zerlegen wir die Funktion f in ihren Positiv- und Negativteil: f =f + − f − mit f +(x ) = f (x ) ∨ 0 = max f (x ), 0 und f −(x ) = (−f (x )) ∨ 0 =max−f (x ), 0. Sowohl f + als auch f − sind nichtnegativ und messbar. Sinddie zugehörigen Approximationen f +n und f −n wie (i) gewählt, so ist f +n − f −ndie gesuchte Approximation von f durch Elementarfunktionen.

In der Wahrscheinlichkeitstheorie spricht man oft von Verteilungen (ange-geben z.B. durch Verteilungsfunktionen oder Dichten) von Zufallsvariablen Xauf R ohne unbedingt den zugehörigen Wahrscheinlichkeitsraum anzugeben.Diese Verteilungen sind Bildmaße unter der Abbildung X .Satz 1.71 (Bildmaß). Es seien (Ω1,A1) und (Ω2,A2) messbare Räume, sei µein Maß auf A1 und f : (Ω1,A1) → (Ω2,A2). Dann ist die Mengenfunktionµ f −1 deniert auf A2 durch

µ f −1(A) = µ(f −1(A)

), A ∈ A2, (1.38)

ein Maß auf A2.

40

1.9 Übungen

Beweis. Wegen der Messbarkeit von f ist µ f −1 wohldeniert. Die Aussagenµ f −1(∅) = 0 und µ f −1(A) ≥ 0 für alle A ∈ A2 sind klar. Sind A1,A2, . . . paar-weise disjunkte Mengen aus A2, dann sind f −1(A1), f

−1(A2), . . . paarweisedisjunkte Mengen aus A1. Außerdem gilt f −1(∪nAn ) = ∪n f

−1(An ). Damitfolgt

µ f −1(∪nAn ) = µ(f −1(∪nAn )

)= µ

(∪n f

−1(An ))

=∑n

µ(f −1(An )

)=

∑n

µ f −1(An ).

Denition 1.72 (Bildmaß). Das in (1.38) denierte Maß µ f −1 auf A2 heißtBildmaß von µ unter der Abbildung f .

Es ist klar, dass Bildmaße endlicher Maße endlich sind und, dass Bildmaßevon Wahrscheinlichkeitsmaßen wieder Wahrscheinlichkeitsmaße sind. ImAllgemeinen sind Bildmaße σ -endlicher Maße nicht σ -endlich. Man betrachtez.B. das Bildmaß des Lebesgue-Maßes unter der Funktion f : R→ R, f (x ) = 0für alle x ∈ R.

1.9 Übungen

Übung 1.1. Beweisen Sie Proposition 1.1.

Übung 1.2. Beweisen Sie Proposition 1.5.

Übung 1.3. Es sei Ω eine nichtleere Menge und seienA1,A2, . . . Teilmengen vonΩ. Bestimmen Sie lim infn→∞ 1An und lim supn→∞ 1An (beides sind natürlichFunktionen, die Ω auf 0, 1 abbilden).

Übung 1.4. Für n ∈ N sei An = (−1/n, 1] für ungerade n und An = (−1, 1/n]für gerade n. Berechnen Sie lim infn→∞An und lim supn→∞An.

Übung 1.5. Zeigen Sie die Behauptungen in (d) und (f) aus Beispiel 1.12.

Übung 1.6 (Spur-σ -Algebra). Es sei Ω eine beliebige nichtleere Menge, A eineσ -Algebra über Ω und Ω0 ⊂ Ω (nicht notwendigerweise Ω0 ∈ A). Ferner sei

A0 B A ∩ Ω0 : A ∈ A.

Zeigen Sie:

41

1.9 Übungen

a) A0 ist eine σ -Algebra über Ω0.

b) Ist Ω0 ∈ A, dann gilt A0 = A : A ⊂ Ω0, A ∈ A.

Übung 1.7. Seien Ω1 und Ω2 zwei nichtleere Mengen, A2 eine σ -Algebra überΩ2 und sei f : Ω1 → Ω2 eine (beliebige) Abbildung. Dann ist

A1 B f−1(A) : A ∈ A2

eine σ -Algebra über Ω1. (Diese wird oft mit σ ( f ) bezeichnet und heißt, dann dievon f erzeugte σ -Algebra.) Dabei ist f −1(A) = ω ∈ Ω1 : f (ω) ∈ A.

Übung 1.8. Geben Sie ein (einfaches) Beispiel dafür an, dass Vereinigungen vonσ -Algebren über derselben Menge Ω im Allgemeinen keine σ -Algebren sind.

Übung 1.9. Es sei Ω eine beliebige nichtleere Menge und A eine σ -Algebraauf Ω. Ferner sei H eine Teilmenge von Omeдa mit H < A (H ist also nichtA-messbar). Zeigen Sie

σ(A ∪ H

)= (H ∩A) ∪ (Hc ∩ B) : A,B ∈ A.

Bemerkung: Beachten Sie, dass A ∪ H etwas anderes bedeutet als A ∪H =A ∪ H : A ∈ A. Man kann zeigen, dass

σ(A ∪ H

)⊂ (H ∩A) ∪ (Hc ∩ B) : A,B ∈ A

gilt, und sich an einem einfachen Beispiel überlegen, dass die umgekehrte Inklu-sion im Allgemeinen falsch ist.

Übung 1.10. Beweisen Sie Proposition 1.22.

Übung 1.11. Es sei µ das Zählmaß auf einer unendlichen Menge Ω. Zeigen Sie,dass es eine Folge (An )n=1,2,... gibt mit An ↓ ∅ und limn→∞ µ (An ) , 0. ÜberlegenSie sich, wie das mit Proposition 1.27 zusammen passt.

Übung 1.12. Es sei (Ω,A) ein messbarer Raum und sei µ : A → [0,+∞] eineσ -additive Mengenfunktion. Zeigen Sie, dass µ (∅) = 0 ist (also ist µ ein Maß),wenn es ein A ∈ A mit der Eigenschaft µ (A) < ∞ gibt.

Übung 1.13 (Stetigkeit endlicher Maße). Es sei (Ω,A, µ ) ein Maßraum mitendlichem Maß µ. Ist A1,A2, . . . eine Folge aus A mit limn→∞An = A, so istlimn→∞ µ (An ) = µ (A).

42

1.9 Übungen

Übung 1.14. Es sei (Ω,A, µ ) ein Maßraum. Sind A,B ∈ A beliebig und giltµ (A) < ∞ oder µ (B) < ∞, dann gilt |µ (A) − µ (B) | ≤ µ (A 4 B).

Übung 1.15 (Einschluss-Ausschluss-Formel). Sei µ ein endliches Maß auf demmessbaren Raum (Ω,A). Zeigen Sie die folgenden Aussagen

(a) Für A,B ∈ A gilt

µ (A ∪ B) = µ (A) + µ (B) − µ (A ∩ B).

(b) Für A,B,C ∈ A gilt

µ (A ∪ B ∪C ) = µ (A) + µ (B) + µ (C )

− µ (A ∩ B) − µ (A ∩C ) − µ (B ∩C ) + µ (A ∩ B ∩C ).

(c) Für A1, . . . ,An ∈ A gilt (mit [n] = 1, . . . ,n)

µ (∪ni=1Ai ) =n∑

k=1(−1)k+1

∑i1,...,ik ⊂[n]

µ (Ai1 ∩ . . . ∩Aik ).

Übung 1.16. Beweisen Sie Lemma 1.33.

Übung 1.17. Beweisen Sie die Behauptung aus Beispiel 1.34.2.

Übung 1.18. Unten sind für verschiedene nichtleere Grundmengen Ω Mengen-funktionen µ∗ : P (Ω) → [0,∞] deniert. Entscheiden Sie (mit Beweis oderGegenbeispiel), welche davon äußere Maße sind.

1. Ω beliebig, für ein festes x0 ∈ Ω sei µ∗(E) = 1E (x0) für alle E ∈ P (Ω);

2. Ω beliebig, µ∗(E) = 1 für alle E ∈ P (Ω);

3. Ω = x ,y, µ∗ sei deniert durch µ∗(∅) = 0, µ∗(x ) = µ∗(y) = 10,µ∗(Ω) = 1;

4. Ω sei eine Menge bestehend aus 100 Punkten, die in eine 10×10Matrix an-geordnet sind, µ∗(E) sei deniert als die Anzahl der Spalten, die mindestenseinen Punkt aus E enthalten.

43

1.9 Übungen

5. Ω = N, µ∗(E) = lim supn 1n |E ∩ 1, . . . ,n|, wobei |A| die Anzahl der

Elemente der Menge A bezeichnet.

Übung 1.19. 1. Es seien ν∗ und λ∗ äußere Maße. Zeigen Sie, dass durch

µ∗(E) = ν∗(E) ∨ λ∗(E) = maxν∗(E), λ∗(E)

ein äußeres Maß µ∗ deniert ist.

2. Es sei µ∗n eine Folge von äußeren Maßen und sei an eine Folge positiverreeller Zahlen. Zeigen Sie, dass durch

µ∗(E) =∑n

anµ∗n (E)

ein äußeres Maß µ∗ deniert ist.

Übung 1.20. Es sei F0 die Algebra inQ, die alle Mengen der Form (a,b] ∩Q,(a,∞) ∩Q (a,b ∈ Q) und Q selbst enthält. Ferner sei F = σ (F0) die von F0erzeugte σ -Algebra. Zeigen Sie

1. F ist die Potenzmenge vonQ.

2. Das Zählmaß µ (d.h. µ (A) ist die Anzahl der Punkte in der Menge A) istσ -endlich auf F , aber nicht auf F0.

3. Es gibt MengenA ∈ F , deren Maß endlich ist, die aber nicht durch Mengenaus F0 approximiert werden können, d.h. es gibt keine Folge An ∈ F0 mitµ (A 4 An ) → 0.

4. Ist λ ein Maß mit λ = 2µ, dann gilt zwar λ = µ auf F0, aber nicht auf F .

Übung 1.21. Beweisen Sie Proposition 1.44.

Übung 1.22. Es sei ein Maßraum (Ω,F , µ ) gegeben. Seien µ∗ und µ∗ das äußerebzw. das innere Maß, d.h. für D ∈ P (Ω)

µ∗(D) = inf µ (F ) : F ∈ F , F ⊃ D,

µ∗(D) = supµ (F ) : F ∈ F , F ⊂ D.

Zeigen Sie, dass die σ -Algebren

M (µ∗) = A ⊂ Ω : µ∗(A) = µ∗(A ∩ B) + µ∗(A ∩ Bc ), für alle B ⊂ Ω

M (µ ) = A ⊂ Ω : µ∗(A) = µ∗(A)

übereinstimmen.

44

1.9 Übungen

Übung 1.23. Beweisen Sie folgende Aussagen:

(i) Ist B eine Borel-messbare Teilmenge von Rd und x ∈ Rd , dann sind dieMengen x + B = x + b : b ∈ B und B = −b : b ∈ B Borel-messbar.

(ii) Es sei λd das Lebesgue-Maß auf (Rd ,B (Rd )). Dann gilt λd (B) = λd (x +B)für alle B ∈ B (Rd ) und x ∈ Rd .

(iii) Es sei µ ein Lebesgue-Stieltjes Maß mit µ (B) = µ (x +B) für alle B ∈ B (Rd )und x ∈ Rd . Dann gibt es α ≥ 0 mit µ (A) = αλd (A), A ∈ B (Rd ).

Bemerkung: Die Eigenschaft (ii) bedeutet, dass das Lebesgue-Maß translationsin-variant ist. Nach (iii) ist das Lebesgue-Maß bis auf eine multiplikative Konstantedas einzige translationsinvariante Maß auf (Rd ,B (Rd )).

Übung 1.24. Es sei λd das Lebesgue-Maß auf (Rd ,B (Rd )) und seien B ein d −1dimensionaler Unterraum und x < B. Dann gilt λd (xt + B) = 0 für alle t ∈ R.Hinweis: Zeigen Sie zunächst: Ist µ ein σ -endliches Maß auf einer σ -Algebra(oder Algebra) A, dann enthält A keine überabzählbare Familie von disjunktenMengen deren µ-Maß positiv ist. Wenden Sie dann Übung 1.23 (ii) an.

Übung 1.25. Es sei F eine Funktion auf R deniert durch

F (x ) =

0 : x < −1,1 + x : −1 ≤ x < 0,2 + x2 : 0 ≤ x < 2,9 : x ≥ 2.

Berechnen Sie für das zu F gehörige Lebesgue-Stieltjes Maß die Maße der folgen-den Mengen:

(a) 2,

(b) [−1/2, 3),

(c) (−1, 0] ∪ (1, 2),

(d) [0, 1/2) ∪ (1, 2],

(e) x : |x | + 2x2 > 1.

45

1.9 Übungen

Übung 1.26. Beweisen Sie folgende Aussagen.

(i) Jede nichtfallende Funktion F : R→ R besitzt höchstens abzählbar vieleUnstetigkeitstellen.

(ii) Jede nichtfallende Funktion F : R→ R besitzt eine rechtsstetige Modi-kation, d.h. es existiert eine nichtfallende rechtsstetige Funktion F , die sichan höchstens abzählbar vielen Stellen von F unterscheidet.

(iii) Es sei D eine dichte Teilmenge vonR und sei F : D → R eine nichtfallendeFunktion mit

F (x ) = F (x+) = limy∈D,y↓x

F (y).

Dann gibt es genau eine nichtfallende rechtsstetige Fortsetzung von F aufR gibt. Dabei wird eine Funktion F : R→ R Fortsetzung von F genannt,falls F (x ) = F (x ) für alle x ∈ D gilt.

Hinweis zu (a): Beweisen Sie zuerst, dass F (x−) = limy↑x F (y) und F (x+) =limy↓x F (y) für jedes x ∈ R existieren und betrachten Sie dann Intervalle I (x ) =(F (x−), F (x+)

).

Übung 1.27. 1. Es seien µ ein Wahrscheinlichkeitsmaß auf (R,B (R)) undF die zugehörige Verteilungsfunktion. Zeigen Sie: F ist genau dann ineinem Punkt x ∈ R stetig, wenn µ (x ) = 0 gilt.

2. Welchem Wahrscheinlichkeitsmaß µ auf (R,B (R)) entspricht die Vertei-lungsfunktion F : R → [0, 1], F (x ) := 0 ∨ (x ∧ 1)? Berechnen Sie dazuµ ((a,b]) für beliebige a ≤ b aus R.

Übung 1.28. Beweisen Sie Satz 1.63.

46

2 Integration

In diesem Kapitel denieren wir Integrale messbarer Funktionen und studierenihre Eigenschaften.

2.1 Definition des Lebesgue- oder Maßintegrals

Im folgenden sei (Ω,A, µ ) ein Maßraum und f ,д, fn etc. Borel-messbare Funk-tionen mit Werten inR oderR. Das Ziel ist es Integrale messbarer Funktionenzu denieren. Je nach Situation werden wir dafür folgende Schreibweisenbenutzen.

µ[f ] =∫

f dµ =

∫Ωf (ω) dµ (ω) =

∫Ωf (ω) µ (dω).

Bemerkung 2.1 (Rechnen mit∞ auf R). Fürs Rechnen mit∞ gelten folgendeRegeln (wobei Produkt und Summe kommutativ sind):

(i) für a ∈ R ist a +∞ = ∞, a −∞ = −∞, a−∞= a∞= 0;

(ii) für a > 0 ist a · ∞ = ∞, für a < 0 ist a · ∞ = −∞;

(iii) 0 · ∞ = 0 · (−∞) = 0,∞ +∞ = ∞, −∞ −∞ = −∞.

Denition 2.2 (Integral). Wir denieren nacheinander das Integral für Indika-torfunktionen, einfache Funktionen, nichtnegative Funktionen und schließlichfür beliebige messbare Funktionen:

(i) Für f = 1A, A ∈ A ist

µ[f ] B∫

f dµ B µ (A).

(ii) Ist f eine einfache Funktion mit f = ∑ni=1 αi1Ai für disjunkteA1, . . . ,An ∈

A, so denieren wir

µ[f ] B∫

f dµ Bn∑i=1

αiµ (Ai ).

47

2.1 Denition des Lebesgue- oder Maßintegrals

(iii) Für f ≥ 0 denieren wir

µ[f ] B∫

f dµ B sup∫

s dµ : s einfach , 0 ≤ s ≤ f.

(iv) Ist f eine beliebige Borel-messbare Funktion, so ist f = f + − f − fürf + = f ∨ 0 und f − = (−f ) ∨ 0 und wir denieren

µ[f ] B∫

f dµ B

∫f + dµ −

∫f − dµ,

vorausgesetzt es gilt nicht µ[f +] = µ[f −] = ∞, in diesem Fall sagen wirdas Integral existiert nicht.

Nach Denition existiert das Integral einer nichtnegativen Funktion immer,es kann aber den Wert +∞ annehmen. Ist µ[f ] endlich, was äquivalent zurEndlichkeit von µ[| f |] = µ[f +] + µ[f −] ist (Übung!), so heißt f integrierbar(oder µ-integrierbar). Falls µ[f +] = ∞ und µ[f −] < ∞ ist, so ist µ[f ] = ∞.Falls µ[f +] < ∞ und µ[f −] = ∞ ist, so ist µ[f ] = −∞. In beiden Fällen sagenwir, dass das Integral µ[f ] existiert, f ist aber nicht integrierbar.Bemerkung 2.3 (Wohldeniertheit des Integrals von Elementarfunktionen).Das Integral einer Elementarfunktion hängt nicht von der Darstellung ab.Ist f =

∑ni=1 αi1Ai =

∑mj=1 βj1Bj für disjunkte Mengen A1, . . . ,An ∈ A und

α1, . . . ,αn ∈ R, und disjunkte Mengen B1, . . . ,Bm ∈ A und β1, . . . , βm, dannmuss gelten ∪iAi = ∪jBj und αi = βj wenn Ai ∩ Bj , ∅. Es folgt

f =n∑i=1

m∑j=1

αi1Ai∩Bj ,

und

µ[f ] =n∑i=1

αi

m∑j=1

µ (Ai ∩ Bj ) =n∑i=1

αiµ(∪mj=1 (Bj ∩Ai )

)=

n∑i=1

αiµ (Ai ).

Mit einem symmetrischen Argument zeigt man µ[f ] = ∑mj=1 βjµ (Bj ).

Satz 2.4 (Einfache Eigenschaften des Integrals). Es seien f und д messbareFunktionen. Dann gelten folgende Aussagen.

48

2.1 Denition des Lebesgue- oder Maßintegrals

1. Ist f ≤ д, d.h. f (ω) ≤ д(ω) für alle ω ∈ Ω, dann gilt

µ[f ] ≤ µ[д] (2.1)

im folgenden Sinne:

(i) existiert µ[f ] > −∞, dann existiert µ[д] und (2.1) gilt;(ii) existiert µ[д] < ∞, dann existiert µ[f ] und (2.1) gilt.Insbesondere gilt (2.1) wenn beide beide Integrale existieren.

2. Falls µ[f ] existiert und c ∈ R ist, so existiert auch µ[c f ] und es gilt

µ[c f ] = cµ[f ]. (2.2)

3. Existiert µ[f ], so gilt

µ[f ] ≤ µ[| f |]. (2.3)

Beweis. 1.: Seien f ,д ≥ 0. Für einfache Funktion s mit 0 ≤ s ≤ f folgt0 ≤ s ≤ д und damit ist µ[f ] ≤ µ[д].

Sind f ,д beliebige messbare Funktionen mit f ≤ д, so folgt f + ≤ д+ undf − ≥ д−. Betrachten wir zunächst den Fall 1.(i), d.h.

µ[f ] = µ[f +] − µ[f −] > −∞.

Dann ist µ[д−] ≤ µ[f −] < ∞, d.h. µ[д] existiert und es gilt

µ[д] = µ[д+] − µ[д−] ≤ µ[f +] − µ[f −] = µ[f ].

Den Fall 1.(ii) zeigt man analog.2.: Für einfache Funktionen sowie für c = 0 ist die Aussage klar nach

Denition des Integrals. Sei f ≥ 0, c > 0. Dann ist

µ[c f ] = supµ[s] : s einfach , 0 ≤ s ≤ c f

= supcµ[s/c] : s einfach , 0 ≤ s

c≤ f

= c supµ[s] : s einfach , 0 ≤ s ≤ f

= cµ[f ].

49

2.1 Denition des Lebesgue- oder Maßintegrals

Sei f = f + − f − beliebig und c > 0. Dann gilt

µ[c f ] = µ[c f +] − µ[c f −] = cµ[f +] − cµ[f −] = cµ[f ].

Sei f = f +− f − beliebig und c < 0. Dann gilt (c f )+ = −c f − und (c f )− = −c f +.Es folgt

µ[c f ] = µ[(c f )+] − µ[(c f )−] = µ[−c f −] − µ[−c f +]= −cµ[f −] + cµ[f +] = cµ[f ].

3.: Es gilt −| f | ≤ f ≤ | f |. Mit 1. und 2. erhalten wir

µ[−| f |] ≤ µ[f ] ≤ µ[| f |]

und

−µ[| f |] ≤ µ[f ] ≤ µ[| f |]

und es folgt µ[f ] ≤ µ[| f |].

Ist f eine messbare Funktion und A ∈ A, so ist f 1A messbar und wirdenieren wie folgt Integrale über (messbare) Teilmengen von Ω:∫

Af dµ B

∫Ωf 1A dµ = µ[f 1A].

Satz 2.5. Ist f eine messbare Funktion, deren Integral µ[f ] existiert, dann wirddurch

ν (B) B ν f (B) B

∫Bf dµ, B ∈ A

eine σ -additive Funktion auf A deniert. Insbesondere ist ν ein Maß auf A,wenn f nichtnegativ ist.

Beweis. Sei f = ∑ni=1 αi1Ai eine nichtnegative einfache Funktion. Dann ist

ν (B) = µ[ n∑i=1

αi1Ai1B

]= µ

[ n∑i=1

αi1Ai∩B

]=

n∑i=1

αiµ (Ai ∩ B)

und die σ -Additivität von ν folgt aus der σ -Additivität von µ.

50

2.1 Denition des Lebesgue- oder Maßintegrals

Ist f ≥ 0 und B1,B2, . . . paarweise disjunkte Mengen aus A mit B = ∪nBn.Für einfache Funktion s mit 0 ≤ s ≤ f gilt

µ[s1B] =∑n

µ[s1Bn ] ≤∑n

µ[f 1Bn ] =∑n

ν (Bn )

und es folgt

ν (B) = µ[f 1B = supµ[s1B : 0 ≤ s ≤ f , s einfach

∑n

ν (Bn ).

Es bleibt ν (B) ≥ ∑n ν (Bn ) zu zeigen. Wegen ν (Bn ) = µ[f 1Bn ] ≤ µ[f 1B] =

ν (B) können wir ohne Einschränkung ν (Bn ) < ∞ für alle n annehmen. An-sonsten ist die zu beweisende Ungleichung trivialerweise erfüllt. Zu ε > 0 undn ∈ N wähle eine einfache Funktion s mit 0 ≤ s ≤ f und

µ[f 1Bi ] ≤ µ[s1Bi ] +ε

n, i = 1, . . . ,n.

Dann gilt

ν (B) = ν(∪∞i=1Bi

)≥ ν

(∪ni=1Bi

)= µ

[f 1∪ni=1Bi

]

≥ µ[s1∪ni=1Bi

]=

n∑i=1

µ[s1Bi ]

n∑i=1

µ[f 1Bi ] −n∑i=1

ε

n

=

n∑i=1

ν (Bi ) − ε .

Die Ungleichung ν (B) ≥ ∑∞i=1 ν (Bi ) folgt nun mit n → ∞ und ε → 0.

Ist f = f + − f − beliebig, dann gilt

ν (B) = µ[f 1B] = µ[f +1B] − µ[f −1B]C ν f + (B) − ν f − (B)

und die σ -Additivität von ν folgt aus der σ -Additivität von ν f + und ν f − .

51

2.1 Denition des Lebesgue- oder Maßintegrals

Bemerkung 2.6 (Fast überall bestehende Eigenschaften, Nullmengen). MengenN mit µ (N ) = 0 heißen µ-Nullmengen. Man sagt, dass eine Eigenschaft fürPunkte aus Ω µ-fast überall oder für µ fast alle ω (kurz µ-f.ü.) gilt, wenn sieaußerhalb einer µ-Nullmenge gilt. Ist µ ein Wahrscheinlichkeitsmaß so sagenwir µ-fast sicher (kurz µ-f.s.) statt µ-fast überall.

Für messbare R-wertige Funktionen f und д gilt

f = д µ-f.ü. ⇐⇒ µ ( f , д) = µ (ω ∈ Ω : f (ω) , д(ω)) = 0.

Für messbare R-wertige Funktionen f , f1, f2, . . . gilt

fn ↑ f µ-f.ü. ⇐⇒ µ (Ωc0) = 0

für Ω0 B ω : f1(ω) ≤ f2(ω) ≤ . . . und limn fn (ω) = f (ω).Ferner gilt

limn

fn = f µ-f.ü. ⇐⇒ µ (Ωc0) = 0

für Ω0 B ω : limn fn (ω) = f (ω). In diesem Fall sagt man, dass die Funktio-nenfolge ( fn ) µ-f.ü. gegen f konvergiert.

Die meisten Integrationssätze und Konvergenzsaätze für Integrale geltenauch dann wenn man die Integranden auf einer Nullmenge ändert oder stattpunktweiser Konvergenz nur Konvergenz fast überall voraussetzt.

Lemma 2.7. Es sei (Ω,A, µ ) ein Maßraum. Dann gelten folgende Aussagen:

(a) Ist f eine µ-integrierbareR-wertige Funktion auf (Ω,A), dann gilt | f | < ∞µ-f.ü., und es existiert eine R-wertige µ-integrierbare Funktion д mit f = дµ-f.ü. Insbesondere gilt

∫f dµ =

∫дdµ.

(b) Ist f nichtnegativ, so gilt∫f dµ = 0 ⇐⇒ f = 0 µ-f.ü.

Beweis. Übung!

52

2.1 Denition des Lebesgue- oder Maßintegrals

Satz 2.8 (Monotone Konvergenz, Satz von Beppo Levi). Es seien f , f1, f2, . . .nichtnegative messbare R-wertige Funktionen und es gelte fn ↑ f µ-f.ü., d.h.

0 ≤ f1 ≤ f2 ≤ . . . µ-f.ü. und f = limn

fn µ-f.ü. (2.4)

Dann gilt

limnµ[fn] = µ[f ]. (2.5)

Beweis. Nehmen wir zunächst an, dass (2.4) nicht µ-f.ü., sondern punktweisegilt. Mit Monotonie des Integrals, siehe (2.1), folgt

0 ≤ µ[fn] ≤ µ[fn+1] ≤ µ[f ] für alle n

und somit existiert limn µ[fn] und es gilt limn µ[fn] ≤ µ[f ]. Also ist die umge-kehrte Ungleichung limn µ[fn] ≥ µ[f ] zu zeigen.

Sei 0 ≤ s ≤ f einfach mit s < ∞ und sei b ∈ (0, 1). Wegen s (ω) < ∞ undfn (ω) ↑ f (ω) für alle ω gilt

Bn B ω : fn (ω) ≥ bs (ω) ↑ Ω für n → ∞.

Es folgt

limnµ[fn] ≥ µ[fm] ≥ µ[fm1Bm ] ≥ µ[bs1Bm ] = bµ[s1Bm ]

m→∞−−−−→ bµ[s].

Dabei erhalten wir im letzten Schritt die Konvergenz für m → ∞ mit derDenition des Integrals einfacher Funktionen (s1Bm ist eine einfache Funktion)und aufsteigender Stetigkeit von µ.

Supremumsbildung über s liefert

limnµ[fn] ≥ bµ[f ], b ∈ (0, 1)

und mit b → 1 folgt die Behauptung für den Fall, dass (2.4) punktweise gilt.In dem allgemeinen Fall sei N die Menge aller Punkte aus Ω, für die min-

destens eine der Beziehungen in (2.4) nicht erfüllt ist. Dann ist N als eineabzählbare Vereinigung von Nullmengen eine Nullmenge und es gilt (punkt-weise)

0 ≤ f11N c ≤ f21N c ≤ . . . und f 1N c = limn

fn1N c . (2.6)

53

2.1 Denition des Lebesgue- oder Maßintegrals

Mit dem obigen Argument und Lemma 2.7 erhalten wir

limnµ[fn] = lim

nµ[fn1N c ] = µ[f 1N c ] = µ[f ].

Zusammen mit Satz 2.4(ii) zeigt das folgende Resultat die Linearität derIntegrals.Satz 2.9 (Additivitätssatz). Es seien f und д Borel-messbare (R-wertige) Funk-tionen, so dass f + д wohldeniert ist (für kein ω ist f (ω) + д(ω) von der Form∞−∞ oder −∞+∞). Existieren die Integrale µ[f ] und µ[д] und ist µ[f ]+ µ[д]wohldeniert, dann gilt

µ[f + д] = µ[f ] + µ[д]. (2.7)

Sind insbesondere f und д integrierbar, so ist f + д integrierbar und es gilt (2.7).Beweis. Sind f und д einfach, so ist die Aussage klar nach Denition.

Seien f , д nichtnegativ und seien sn und tn einfache Funktionen mit sn ↑ f ,tn ↑ д und somit (sn + tn ) ↑ ( f + д). Da sn und tn einfach sind, gilt µ[sn + tn] =µ[sn] + µ[tn]. Mit dem Satz von der monotonen Konvergenz folgt

µ[f + д] = limnµ[sn + tn] = lim

n(µ[sn] + µ[tn]) = µ[f ] + µ[д].

Als nächstes betrachten wir Funktionen mit unterschiedlichen Vorzeichen.Sei f ≥ 0, д ≤ 0 und h = f + д ≥ 0 (д muss also endlich sein). Dann istf = h + (−д) eine Summe nichtnegativer messbarer Funktionen und dahergilt µ[f ] = µ[h] − µ[д]. Wenn µ[д] endlich ist, dann ist µ[h] = µ[f ] + µ[д].Wenn µ[д] = −∞, dann folgt (wegen h ≥ 0) µ[f ] ≥ −µ[д] = ∞, was aber derVoraussetzung widerspricht. Analog zeigt man die Additivität, wenn f ≥ 0,д ≤ 0 und h ≤ 0 gilt.

Für beliebige f und д setzen wir h = f + д, h ist nach Voraussetzungwohldeniert, und zerlegen Ω in folgende disjunkte Mengen

E1 = ω : f (ω) ≥ 0, д(ω) ≥ 0,E2 = ω : f (ω) ≥ 0, д(ω) < 0, h(ω) ≥ 0,E3 = ω : f (ω) ≥ 0, д(ω) < 0, h(ω) < 0,E4 = ω : f (ω) < 0, д(ω) ≥ 0, h(ω) ≥ 0,E5 = ω : f (ω) < 0, д(ω) ≥ 0, h(ω) < 0,E6 = ω : f (ω) < 0, д(ω) < 0.

54

2.1 Denition des Lebesgue- oder Maßintegrals

Mit den obigen Argumenten folgt∫Eih dµ =

∫Eif dµ +

∫Eiдdµ, i = 1, . . . , 6.

Nach Satz 2.5 gilt

µ[f ] =6∑

i=1

∫Ei

f dµ und µ[д] =6∑

i=1

∫Ei

дdµ .

Es folgt µ[f ] + µ[д] = ∑6i=1

∫Eih dµ. Die rechte Seite ist nach Satz 2.5 gleich

µ[h], wenn µ[h] existiert.Angenommen es gilt µ[h+] = µ[h−] = ∞. Dann gibt es i, j mit

∫Eih dµ = ∞

und∫Ejh dµ = −∞. Dann muss aber einerseits

∫Eif dµ = ∞ oder

∫Eiдdµ = ∞

und damit µ[f ] = ∞ oder µ[д] = ∞ gelten. Analog muss µ[f ] = −∞ oderµ[д] = −∞ gelten. Damit haben wir ein Widerspruch zur Voraussetzung, dassµ[f ] + µ[h] wohldeniert ist.

Satz 2.10 (Erweiterter Satz von monotoner Konvergenz). Seien д1,д2, . . . ,дund h Borel-messbare Funktionen. Dann gelten folgende Aussagen:

(a) Wenn µ[h] > −∞, дn ≥ h für alle n µ-f.ü. und дn ↑ д µ-f.ü. gilt, dann folgt

µ[дn] ↑ µ[д].

(b) Wenn µ[h] < ∞, дn ≤ h für alle n µ-f.ü. und дn ↓ д µ-f.ü. gilt, dann folgt

µ[дn] ↓ µ[д].

Beweis. Übung!

Satz 2.11 (Lemma von Fatou). Es seien f1, f2, . . . Borel-messbare Funktionen.Dann gelten folgende Aussagen

(a) Ist fn ≥ f µ-f.ü. für alle n, wobei µ[f ] > −∞ ist, so ist

lim infn→∞

µ[fn] ≥ µ[lim infn→∞

fn]. (2.8)

(b) Ist fn ≤ f µ-f.ü. für alle n, wobei µ[f ] < ∞ ist, so ist

lim supn→∞

µ[fn] ≤ µ[lim supn→∞

fn]. (2.9)

55

2.1 Denition des Lebesgue- oder Maßintegrals

Beweis. (a) Wir setzen дn = infk≥n fk , д = lim inf fn. Dann gilt дn ≥ f füralle n und дn ↑ д µ-f.ü. Wegen µ[f ] > −∞ ist nach dem Satz von monotonerKonvergenz (Satz 2.10)

µ[дn] ↑ µ[lim infn→∞

fn]

und mit дn ≤ fn µ-f.ü. folgt

µ[lim infn→∞

fn]= lim

n→∞µ[дn] = lim inf

n→∞µ[дn] ≤ lim inf

n→∞µ[fn].

(b) Mit (a) gilt

µ[lim supn→∞

fn]= −µ

[lim infn→∞

(−fn )]≥ − lim inf

n→∞µ[(−fn )] = lim sup

n→∞µ[fn].

Mit dem Lemma von Fatou können wir nun einen sehr wichtigen Satz zeigenmit dem man das Vertauschen von Grenzwerten und Integration begründenkann.

Satz 2.12 (Satz von der majorisierten Konvergenz von Lebesgue). Es seif1, f2, . . . eine Folge messbarer Funktionen mit | fn | ≤ д µ-f.ü., wobei д inte-grierbar ist. Gilt fn → f µ-f.ü., dann sind f , f1, f2, . . . integrierbar und es giltlimn→∞ µ[fn]→ µ[f ].

Beweis. Nach Voraussetzung sind die Funktionen | fn | integrierbar. Weil jedesfn messbar ist, ist es damit auch integrierbar. Daher ist auch f = lim supn fn =lim infn fn integrierbar.

Mit dem Lemma von Fatou folgt

µ[lim infn→∞

fn]≤ lim inf

n→∞µ

[fn

]≤ lim sup

n→∞µ

[fn

]≤ µ

[lim supn→∞

fn].

Nach Voraussetzung ist lim infn→∞ fn = lim supn→∞ fn = f µ-f.ü. Also sindalle Terme in dem obigen Display gleich µ[f ].

Beispiel 2.13. Auf (R,B (R), λ) gilt für die Funktionen fn = n21(0,n−1) undf ≡ 0

fn (x ) → f (x ) für alle x ∈ R.

56

2.1 Denition des Lebesgue- oder Maßintegrals

Es gilt aber∫f dλ = 0 und

∫fn dλ = n. Zum einen zeigt dieses Beispiel,

dass die Ungleichung (2.8) strikt sein kann und die Ungleichung (2.9) ohnedie Voraussetzung, dass die fn durch eine integrierbare Majorante beschränktsind, nicht zu gelten braucht. Zum anderen (all das hängt miteinander zusam-men) zeigt dieses Beispiel auch, dass man im Satz von Lebesgue nicht auf dieVoraussetzung | fn | ≤ д für eine integrierbare Funktion д verzichten kann.

Bemerkung 2.14 (Lebesgue-Integral versus Riemann-Integral). Wenn eineFunktion f auf einem Intervall I = [a,b] Riemann-integrierbar ist, dann kannman zeigen (vgl. Abschnitt 4.3 in Klenke (2013)), dass sie auch Lebesgue-integrierbar ist und dass dann beide Integrale übereinstimmen:∫

If dλ =

∫ b

af (x ) dx .

Berechnungen von Lebesgue-Integralen von Funktionen versucht man dahertypischerweise auf die entsprechenden Riemann-Integrale zurückzuführen.Das funktioniert oft auch für nicht Riemann-integrierbare Funktionen indemman die zu integrierende Funktion auf einer Lebesgue Nullmenge verändertund dann Lemma 2.7 benutzt.

Diese Überlegung zeigt aber auch, dass es Lebesgue-integrierbare Funktio-nen gibt, die nicht Riemann-integrierbar sind. So kann man z.B. leicht zeigen,dass die Ober- und Untersummen der Dirichletschen Sprungfunktion (sie-he Übung 2.2) nicht gegen denselben Wert konvergieren. Sie ist also nichtRiemann-integrierbar. Man kann jedoch zeigen, dass sie Lebesgue-integrierbarist.

Aus der Analysis ist bekannt, dass

limt→∞

∫ t

0

sinxx

dx =π

2

gilt. Die Existenz des Grenzwertes folgt mit dem Leibniz-Kriterium, denn∫ nπ

(n−1)π x−1 sinx dx haben alternierende Vorzeichen und konvergieren gegen

Null. Also ist die Funktion x 7→ x−1 sinx uneigentlich Riemann-integrierbar.Sie ist jedoch nicht Lebesgue-integrierbar, weil sowohl Integrale über Positivund Negativteil unendlich sind.

Beispiel 2.15. Es ist bekannt, dass Γ(t ) B∫(0,∞)

xt−1e−x λ(dx ) existiert undaußerdem endlich und dierenzierbar auf (0,∞) ist. Mit Hilfe des Satzes von

57

2.2 Satz von Radon-Nikodým

majorisierter Konvergenz können wird

dt

∫(1,∞)

xt−1e−x λ(dx ) =

∫(1,∞)

d

dtxt−1e−x λ(dx ) (2.10)

zeigen. Für t > 0 gilt

d

dt(xt−1e−x ) = lim

n→∞

xt−1+1/ne−x − xt−1e−x

1/n = limn→∞

nxt−1e−x (x1/n − 1). (2.11)

Wir setzen f (x , t ) = ddt (x

t−1e−x ) und fn (x , t ) = nxt−1e−x (x1/n − 1), x > 1.

Es gilt fn ≥ 0 (da x > 1 ist). Um den Satz von Lebesgue verwenden zukönnen, brauchen wir eine integrierbare Majorante д mit fn ≤ д für alle n. Seiyn (x ) = n(x

1/n−1), sodass fn (x , t ) = xt−1e−xyn (x ) gilt. Die Funktionenyn sindkonkav, denn es gilty′′n (x ) = (1/n−1)x1/n−2 ≤ 0. Damit folgtyn (x ) ≤ x−1 < xfür x ∈ (0,∞), denn x 7→ x − 1 ist die Steigungstangente durch den Punkt(1,yn (1)) für jedes yn.

Es gilt fn (t ,x ) ≤ д(t ,x ) für д(t ,x ) = xte−x . Außerdem ist д bezüglich xintegrierbar, denn es gilt∫(1,∞)

д(t ,x ) λ(dx ) =

∫(1,∞)

xte−x λ(dx ) ≤

∫(0,∞)

xte−x λ(dx ) = Γ(t + 1) < ∞.

Mit dem Satz von Lebesgue folgt nun (2.10).

2.2 Satz von Radon-Nikodým

Es sei (Ω,A, µ ) ein Maßraum und f eine Borel-messbare Funktion auf Ωderen Integral µ[f ] existiert. In Satz 2.5 haben wir gesehen, dass durch ν (B) =∫Bf dµ eine σ -additive Mengenfunktion aufA deniert wird (siehe Übung 2.6

zu Integration bezüglich ν ). Die Funktion f heißt dann Dichte von ν bezüglichµ oder µ-Dichte von ν . Für jedes A ∈ A mit µ (A) = 0 gilt ν (A) = 0. Ziel diesesAbschnittes ist der Beweis einer Umkehrung dieser Aussage.

Deniert man ν wie oben, so gibt es nach Voraussetzung keine MengenA,B ∈ A mit ν (A) = −∞ und ν (B) = +∞. Ansonsten würde das Integral µ[f ]nicht existieren. Im Allgemeinen kann ν auch negative Werte annehmen.

Denition 2.16 (Signierte Maße). Eine σ -additive Mengenfunktion ν : A →R heißt signiertes Maß aufA, wenn ν (A) < ∞ für alleA ∈ A, oder ν (A) > −∞für alle A ∈ A gilt.

58

2.2 Satz von Radon-Nikodým

Wenn es ein A mit ν (A) < ∞ gibt, so folgt mit σ -Additivität ν (∅) = 0 (vgl.Übung 1.12). Analoges folgt, wenn es ein A mit ν (A) > −∞ gibt. Insbesonderegilt stets ν (∅) = 0, wenn ν ein signiertes Maß ist. Der folgende Satz zeigt, dasssignierte Maße ihr Minimum und Maximum auf A annehmen.

Satz 2.17. Es sei ν ein signiertes Maß. Dann existieren C,D ∈ A mit

ν (C ) = supA∈A

ν (A) und ν (D) = infA∈A

ν (A). (2.12)

Bemerkung 2.18. Wenn ν ein Maß ist dann, ist die Aussage des Satzes 2.17 mitC = Ω und D = ∅ trivial.

Wenn ν (B) =∫Bf dµ, B ∈ A wie in Satz 2.5 ist, so gilt

ν (B) = ν (B ∩ f ≥ 0) + ν (B ∩ f < 0).

Mit D = f < 0 und C = f ≥ 0 gilt die Aussage des Satzes 2.17, denn es istD,C ∈ A und

ν (D) ≤ ν (B) ≤ ν (C ), B ∈ A.

Beweis von Satz 2.17. Wir zeigen erst die Existenz von C ∈ A mit

ν (C ) = supA∈A

ν (A) C supν .

Ohne Einschränkung können wir annehmen, dass ν (A) < ∞ für alle A ∈ Aist. Ansonsten ist nichts zu zeigen.

Erst wählen wir A1,A2, . . . mit ν (An ) → supν für n → ∞ und setzenA = ∪nAn. Für jedes n kann man A als Vereinigung von 2n disjunkten Mengender Form

Aδ(n)

n = Aδ(n)11 ∩ . . . ∩A

δ(n)nn , δ

(n) = (δ (n)1 , . . . ,δ(n)n ) ∈ 0, 1n

schreiben, wobei

Aδ(n)ii =

Ai : wenn δ (n)i = 1,A \Ai : wenn δ (n)i = 0.

59

2.2 Satz von Radon-Nikodým

Für n = 1 ist A = A01 ∪A

11 = A1 ∪ (A \A1). Für n = 2 ist

A = A(0,0)2 ∪A(1,0)

2 ∪A(0,1)2 ∪A(1,1)

2= ((A \A1) ∩ (A \A2)) ∪ (A1 ∩ (A \A2)) ∪ ((A \A1) ∩A2) ∪ (A1 ∩A2).

Sei Bn =⋃δ (n) A

δ (n)n : ν (Aδ (n)n ) ≥ 0 und Bn = ∅ falls ν (Aδ (n)n ) < 0 für alle δ (n) .

Nach Konstruktion ist An eine disjunkte Vereinigung von Aδ(n)

n ’s. Also gilt

ν (An ) ≤ ν (Bn )

und es folgt mit aufsteigender Stetigkeit von ν , Proposition 1.27,

ν (An ) ≤ ν (Bn ) ≤ ν (∪rk=nBk )

r→∞−−−−→ ν (∪∞k=nBk ).

FürC = lim supBn = ∩∞n=1∪∞k=nBk gilt∪∞k=n

Bk ↓ C und 0 ≤ ν (∪∞k=n

Bk ) < ∞ füralle n. Mit absteigender Stetigkeit von ν folgt ν (∪∞

k=nBk ) → ν (C ). Insgesamt

gilt

supν = limn→∞

ν (An ) ≤ limn→∞

ν (∪∞k=nBk ) = ν (C ) ≤ supν .

Also ist ν (C ) = supν .Um zu zeigen, dass ein D ∈ A mit ν (D) = infA∈A ν (A) C inf ν gibt

wenden wir das obige Argument auf −ν an. Danach existiert ein D ∈ A mit−ν (D) = sup(−ν ), d.h. ν (D) = inf ν .

Satz 2.19 (Hahn-Jordan-Zerlegung). Es sei ν ein signiertes Maß auf A, undseien Mengenfunktionen ν+ und ν− auf A deniert durch

ν+(A) B supν (B) : B ∈ A,B ⊂ A,

ν−(A) B − inf ν (B) : B ∈ A,B ⊂ A.

Dann sind ν+ und ν− Maße auf A und es gilt ν = ν+ − ν−.

Denition 2.20. Die Maße ν+ und ν− in der Hahn-Jordan-Zerlegung heißenPositivteil bzw. Negativteil von ν und |ν | B ν+ + ν− heißt Totalvariation von ν .Ein signiertes Maß heißt σ -endlich, wenn das Maß |ν | σ -endlich ist.

60

2.2 Satz von Radon-Nikodým

Beweis von Satz 2.19. Wir können annehmen, dass ν (A) > −∞ für alle A ∈ A.Falls ν (A) = −∞ für ein A ist, dann ist ν (A) < ∞ für alle A und wir könnenden Beweis für −ν statt ν führen.

Wähle D ∈ A wie in Satz 2.17, d.h. ν (D) = infA∈A ν (A). Wegen ν (∅) = 0gilt −∞ < ν (D) ≤ 0.

Als erstes zeigen wir

ν (A ∩ D) ≤ 0 und ν (A ∩ Dc ) ≥ 0 für alle A ∈ A. (2.13)

Wenn ν (A ∩ D) > 0 wäre, dann würde ν (D) = ν (A ∩ D) + ν (Ac ∩ D)gelten woraus man ν (Ac ∩ D) = ν (D) − ν (A ∩ D) < ν (D) erhält. Dies istein Widerspruch zu ν (D) = inf ν . Wenn ν (A ∩ D) < 0 wäre, dann würdeν (D∪(A∩Dc )) = ν (D)+ν (A∩Dc ) < ν (D) gelten, was wieder zum Widerspruchführt.

Nun zeigen wir

ν+(A) = ν (A ∩ Dc ), ν−(A) = −ν (A ∩ D). (2.14)

Das wird den Satz beweisen, denn dann ist

ν (A) = ν (A ∩ Dc ) − (−ν (A ∩ D)) = ν+(A) − ν−(A).

Für B ∈ A, B ⊂ A gilt mit (2.13)

ν (B) = ν (B ∩ D) + ν (B ∩ Dc )

≤ ν (B ∩ Dc )

≤ ν (B ∩ Dc ) + ν ((A \ B) ∩ Dc )

= ν (A ∩ Dc ).

Damit ist ν+(A) ≤ ν (A∩Dc ). Die umgekehrte Ungleichung ν+(A) ≥ ν (A∩Dc )gilt nach Denition von ν+. Insgesamt haben wir also die erste Gleichung in(2.14) gezeigt. Der Beweis der zweiten Gleichung ist ähnlich. Es gilt

ν (B) = ν (B ∩ D) + ν (B ∩ Dc )

≥ ν (B ∩ D)

≥ ν (B ∩ D) + ν ((A \ B) ∩ D)

= ν (A ∩ D).

Also folgt −ν−(A) ≥ ν (A ∩ D). Da die umgekehrte Ungleichung −ν−(A) ≤ν (A∩D) nach Denition von ν− gilt folgt auch die zweite Gleichung in (2.14),was den Beweis des Satzes abschließt.

61

2.2 Satz von Radon-Nikodým

Denition 2.21 (Absolutstetigkeit von Maßen). Ist µ ein Maß und ν einsigniertes Maß auf A und gilt ν (A) = 0 für alle A ∈ A mit µ (A) = 0, dannheißt ν absolut-stetig bezüglich µ (man sagt auch ν wird von µ dominiert). Indiesem Fall schreiben wir ν µ.

Satz 2.22 (Radon-Nikodým). Es sei µ ein σ -endliches Maß und ν ein σ -endlichessigniertes Maß auf A mit ν µ. Dann existiert eine Borel-messbare Funktionf : Ω → R mit

ν (A) =

∫Af dµ für alle A ∈ A. (2.15)

Ist д eine andere Funktion mit dieser Eigenschaft, dann gilt f = д µ-f.ü.

Bemerkung 2.23. Eine Funktion f , die (2.15) erfüllt, heißt µ-Dichte von ν . An-dere gebräuchliche Namen sind Radon-Nikodým Dichte oder Radon-NikodýmAbleitung. Man schreibt dann oft f = dν/dµ. Die Aussage des Satzes vonRadon-Nikodým gilt (allgemeiner als wir es formuliert haben) für beliebige(nicht notwendigerweise σ -endliche) signierte Maße ν , die absolut-stetig be-züglich einem σ -endlichen Maß µ sind. Für einen Beweis dieser allgemeinenVersion verweisen wir auf Theorem 2.2.1 in Ash (2000).

Der Beweis des Satzes von Radon-Nikodým besteht aus einem Existenzund einem Eindeutigkeitsbeweis. Wir starten mit dem Letzteren. Die µ-f.ü.Eindeutigkeit der Dichte im Satz von Radon-Nikodým folgt aus dem folgendenResultat, das eine Umkehrung der Aussage

f = д µ-f.ü. ⇒ ∀A ∈ A :∫Af dµ =

∫Aдdµ

ist.

Lemma 2.24. Es sei (Ω,A, µ ) ein Maßraum und seien f und д Borel-messbareFunktionen. Dann gelten folgende Aussagen

(i) Sind f und д nichtnegativ, µ σ -endlich, und gilt∫Af dµ =

∫Aдdµ für alle

A ∈ A, so gilt f = д µ-f.ü.

(ii) Sind f und д integrierbar und gilt∫Af dµ =

∫Aдdµ für alle A ∈ A, so gilt

f = д µ-f.ü.

62

2.2 Satz von Radon-Nikodým

(iii) Sind f und д integrierbar mit∫Af dµ =

∫Aдdµ für alle A ∈ E, wobei E

ein schnittstabiler Erzeuger von A ist und Ω eine höchstens abzählbareVereinigung von Mengen aus E ist, so gilt f = д µ-f.ü.

Beweis. (i) Seien f und д nichtnegativ mit∫Af dµ ≤

∫Aдdµ für alle A ∈ A.

Wenn µ σ -endlich ist, dann gibt es Mengen Ωn ∈ A mit Ωn ↑ Ω und µ (Ωn ) <∞. Für Bn = 0 ≤ д < f ,д ≤ n folgt dann∫

Ωn∩Bn

f dµ ≤

∫Ωn∩Bn

дdµ < ∞,

und damit∫1Ωn∩Bn ( f −д) dµ = 0. Nach Lemma 2.7(b) folgt 1Ωn∩Bn ( f −д) = 0

µ-f.ü. Es folgt µ (Ωn ∩ Bn ) = 0 und somit µ (0 ≤ д < f ,д < ∞) = 0. Das zeigtf ≤ д µ-f.ü. und nach Vertauschen der Rollen von f und д erhalten wir f = дµ-f.ü., was (i) beweist.

(ii) Sind f und д integrierbar und gilt∫Af dµ ≤

∫Aдdµ für alle A ∈ A,

so folgt∫1д< f ( f − д) = 0 und damit µ (д < f ) = 0 nach Lemma 2.7(b).

Vertauschen der Rollen von f und д zeigt wieder f = д µ-f.ü., was (ii) beweist.(iii) Sind f und д nichtnegativ und gilt gilt

∫Af dµ =

∫Aдdµ für alle A ∈ E

so folgt mit Satz 1.38∫Af dµ =

∫Aдdµ für alle A ∈ A und wir erhalten (iii)

in diesem Fall aus (ii). Für beliebige integrierbare f und д folgt nach denVoraussetzungen von (iii)∫

Af + dµ −

∫Af − dµ =

∫Aд+ dµ −

∫Aд− dµ, A ∈ E

und damit ∫A( f + + д−) dµ =

∫A(д+ + f −) dµ, A ∈ E .

Mit dem obigen Argument folgt f + + д− = д+ + f − µ-f.ü. Integrierbarkeitvon f und д impliziert, dass f und д und insbesondere deren Positiv- undNegativteile µ-f.ü. endlich sind. Damit folgt f = д µ-f.ü.

Beweis von Satz 2.22. Wie wir schon oben gesagt haben, folgt die µ-f.ü. Ein-deutigkeit der µ Dichte von ν mit Lemma 2.24. Es bleibt die Existenz zu zeigen.Diese zeigen wir nacheinander in vier Schritten.

63

2.2 Satz von Radon-Nikodým

Schritt 1: µ und ν endliche Maße. Wir setzen

S = f ≥ 0 : f integrierbar, µ[1A f ] ≤ ν (A),∀A ∈ A

und versehen S mit partieller Ordnung: f ≤ д, wenn f ≤ д µ-f.ü. Fernersetzen wir s B supµ[f ] : f ∈ S ≤ ν (Ω) < ∞.

Zunächst suchen wir ein maximales Element von S; S ist nichtleer, weil esdie Nullfunktion enthält. Gilt f ,д ∈ S, so folgt h = max f ,д ∈ S. Um das zuzeigen, setzen wir B = f ≥ д und C = f < д. Dann gilt für A ∈ A

µ[1Ah] = µ[1(A∩B)∪(A∩C )h] = µ[1A∩Bh] + µ[1A∩Ch]≤ ν (A ∩ B) + ν (A ∩C ) = ν (A).

Also ist h ∈ S. Sei f1, f2, . . . eine Folge in S mit µ[fn] → s und sei дn =max f1, . . . , fn ∈ S. Nach Konstruktion gilt дn ↑ supn fn C д und mit demSatz von monotoner Konvergenz, Satz 2.8, erhalten wir µ[дn]→ µ[д]. Wegenµ[дn] ≤ s und µ[дn] ≥ µ[fn]→ s für n → ∞ folgt µ[д] = s . Bleibt noch д ∈ Szu zeigen. Sei A ∈ A beliebig. Dann gilt

0 ≤ дn1A ↑ д1A und somit µ[дn1A] ↑ µ[д1A].

Es folgt µ[д1A] ≤ ν (A), weil µ[дn1A] ≤ ν (A) für alle n ist. Also ist д einmaximales Element von S.

Als nächstes zeigen wir, dass д die gesuchte µ-Dichte von ν ist, dass alsoµ[д1A] = ν (A) für alle A ∈ A gilt. Sei ρ eine Mengenfunktion auf A deniertdurch

ρ (A) = ν (A) − µ[д1A], A ∈ A.

Dann ist ρ ein Maß mit ρ ν und ρ (Ω) < ∞. Zu zeigen ist ρ (A) = 0 für alleA ∈ A. Angenommen ρ (Ω) > 0. Dann existiert ein k > 0 mit

µ (Ω) − kρ (Ω) < 0, (2.16)

insbesondere ist µ −kρ ein signiertes Maß. Sei D ∈ A für dieses signierte Maßwie in (2.13) gewählt. Dann ist

µ (A ∩ D) − kρ (A ∩ D) ≤ 0, A ∈ A, (2.17)µ (A ∩ Dc ) − kρ (A ∩ Dc ) ≥ 0, A ∈ A. (2.18)

64

2.2 Satz von Radon-Nikodým

Wir zeigen µ (D) > 0. Wäre µ (D) = 0, so würde ρ (D) = 0 folgen und mitA = Ω in (2.18) folgt mit (2.16)

0 ≤ µ (Dc ) − kρ (Dc ) = µ (Dc ) + µ (D) − k (ρ (Dc ) + ρ (D)) = µ (Ω) − kρ (Ω) < 0,

was zu einem Widerspruch führt. Sei h = 1k1D . Für A ∈ A gilt mit (2.17)

µ[1Ah] =1kµ (A ∩ D) ≤ ρ (A ∩ D) ≤ ρ (A) = ν (A) − µ[д1A].

Somit ist µ[1A(h + д)] ≤ ν (A), d.h. д + h ∈ S. Da h + д > д auf D ist undµ (D) > 0 ist es ein Widerspruch dazu, dass д ein maximales Element von S.Also ist ρ (Ω) = 0.Schritt 2: µ ein endliches Maß und ν ein σ -endliches Maß. Seien Ω1,Ω2, . . .disjunkte Mengen A so, dass Ω = ∪nΩn und ν (Ωn ) < ∞ für alle n. Wirsetzen νn (A) = ν (A ∩ Ωn ). Die Maße µ und νn sind endlich. Nach Schritt 1existieren nichtnegative Funktionen fn mit νn (A) = µ[1A fn], A ∈ A. Wirsetzen fn (ω) = 0 für ω < Ωn. Für f B

∑n fn gilt (vgl. Übung 2.6(a))

µ[1A f

]= µ

[∑n

fn1A

]=

∑n

µ[fn1A

]=

∑n

νn (A) = ν (A).

Also ist f eine µ-Dichte von ν .Schritt 3: µ und ν beides σ -endliche Maße. Seien Ω1,Ω2, . . . disjunkte MengenA so, dass Ω = ∪nΩn und µ (Ωn ) < ∞ für alle n. Nach Schritt 2 gibt esnichtnegative Funktionen fn mit

ν (A ∩ Ωn ) = µ[1A∩Ωn fn

], A ∈ A.

Wir setzen fn (ω) = 0 für ω < Ωn und f B∑

n fn. Dann gilt für alle A ∈ A

ν (A) =∑n

ν (A ∩ Ωn ) =∑n

µ[1A∩Ωn fn

]=

∑n

µ[1A1Ωn fn

]

= µ[1A

∑n

1Ωn fn]= µ

[1A f

].

Also ist f eine µ-Dichte von ν .

65

2.2 Satz von Radon-Nikodým

Schritt 4: µ ein σ -endliches Maß und ν ein σ -endliches signiertes Maß. Seiν = ν+ − ν− die Hahn-Jordan-Zerlegung von ν mit ν− < ∞ (was wir oh-ne Einschränkung annehmen können, ansonsten betrachten wir −ν ). NachSchritt 3 existieren nichtnegative Funktionen f + und f − mit

ν+(A) = µ[1A f +] und ν−(A) = µ[1A f −] A ∈ A.

Da ν− endlich ist, ist f − eine µ-integrierbare und µ-f.ü. endliche Funktion.Insbesondere sind f = f + − f − und µ[f ] = µ[f +] − µ[f −] wohldeniert undes gilt

ν (A) = ν+(A) − ν−(A) = µ[1A f +] − µ[1A f −] = µ[1A f ].

Also ist f eine µ-Dichte von ν .

Korollar 2.25. Unter den Voraussetzungen von Satz 2.22 gelten folgende Aussa-gen:

(a) Wenn ν endlich ist, dann ist f µ-integrierbar und damit µ-f.ü. endlich.

(b) Wenn |ν | σ -endlich ist, dann ist f µ-f.ü. endlich.

(c) Wenn ν ein Maß ist, dann gilt f ≥ 0 µ-f.ü.

(d) Wenn ν ein Wahrscheinlichkeitsmaß ist, dann gilt f ≥ 0 µ-f.ü. und µ[f ] = 1.

Beweis. Übung!

Beispiel 2.26. Viele Beispiele von Maßen mit Dichten sollten schon aus dereinführenden Stochastikvorlesung bekannt sein.

(a) Ist λ das Lebesgue Maß und f eine nichtnegative Lebesgue-integrierbareFunktion. Dann ist natürlich

ν (A) B

∫Af dλ

ein Maß auf B (R) mit ν λ und Dichte f .(i) Für σ 2 > 0 und µ ∈ R sei f (x ) = 1√

2πσ 2e−(x−µ )2/(2σ 2) . Dann ist ν die

(Gauß’sche) Normalverteilung mit Parametern µ und σ 2.

66

2.2 Satz von Radon-Nikodým

(ii) Für γ > 0 sei f (x ) = γe−γx1[0,∞) (x ). Dann ist ν die Exponentialver-teilung mit Parameter γ .

(b) Sei Ω = R und sei µ das Zählmaß auf N0. Für f : Ω → R+ setzen wir

ν (A) B∞∑n=01A(n) f (n)µ (n).

Für A ∈ B (R) mit µ (A) = 0 ist ν (A) = 0, also ist ν µ und f ist dieDichte von ν bezüglich µ.

(i) Ist p ∈ [0, 1], f (0) = 1−p, f (1) = p und f (x ) = 0 für x < 0, 1, dannist ν die Bernoulli-Verteilung mit Parameter p.

(ii) Ist für ein n ∈ N und p ∈ [0, 1] die Funktion f gegeben durchf (x ) =

(nx

)px (1 − p)n−x für x ∈ 0, 1, . . . ,n und f (x ) = 0 sonst, so

ist ν die Binomialverteilung mit Parametern n und p.(iii) Ist γ > 0 und f (x ) = e−γγ x/x ! für x ∈ N0 und f (x ) = 0 sonst, so ist

ν die Poissonverteilung mit Parameter γ .

Oben haben wir Beispiele von diskreten und stetigen Dichten gesehen. Ab-zählbare (oder endliche) Teilmengen von R sind Lebesgue-Nullmengen damithat jede der drei Wahrscheinlichkeitsverteilungen in Beispiel 2.26(b) volleMasse, nämlich 1, auf einer Lebesgue Nullmenge. Umgekehrt ist beispielsweisedas oene Intervall (0, 1) eine Nullmenge bezüglich dem Zählmaß auf N0,aber keine Nullmenge bezüglich dem Lebesgue-Maß und den Wahrscheinlich-keitsverteilungen in Beispiel 2.26(a). Insbesondere sind das Zählmaß und dasLebesgue-Maß auf unterschiedlichen Mengen konzentriert. Was damit gemeintist schauen wir uns zum Abschluss dieses Abschnittes genauer an.

Denition 2.27 (Singuläre Maße). Zwei Maße µ1 und µ2 auf einer σ -AlgebraA heißen singulär (zueinander), wenn es eine MengeA ∈ A gibt mit µ1(A) = 0und µ2(Ac ) = 0. Wir schreiben dann µ1 ⊥ µ2. Sind ν1 und ν2 signierte Maße,dann heißen sie singulär (zueinander), wenn |ν1 | ⊥ |ν2 | gilt. Auch in diesemFall schreiben wir dann ν1 ⊥ ν2.

67

2.2 Satz von Radon-Nikodým

Lemma 2.28. Es sei µ ein Maß und ν , ν1, ν2 signierte Maße auf einer σ -AlgebraA. Dann gelten folgende Aussagen:

(i) ν1 ⊥ µ, ν2 ⊥ µ ⇒ ν1 ± ν2 ⊥ µ, (sofern ν1 ± ν2 wohldeniert ist),

(ii) ν µ ⇐⇒ |ν | µ,

(iii) ν1 µ, ν2 ⊥ µ ⇒ ν1 ⊥ ν2,

(iv) ν µ, ν ⊥ µ ⇒ ν ≡ 0.

Beweis. (i) Nach Voraussetzung gibt es Mengen A,B ∈ A so, dass |ν1 |(Ac ) =|ν2 |(B

c ) = 0 und µ (A) = µ (B) = 0. Dann gilt µ (A ∪ B) = 0 und |ν1 |(C ) =|ν2 |(C ) = 0 für alle C ⊂ Ac ∩ Bc = (A ∪ B)c . Es folgt |ν1 ± ν2 |

((A ∪ B)c

)= 0.

(ii) „⇐“: Aus µ (A) = 0 folgt wegen der Absolutstetigkeit |ν |(A) = ν+(A) +ν−(A) = 0. Damit gilt ν+(A) = ν−(A) = 0 und ν (A) = ν+(A) − ν−(A) = 0, wasν µ zeigt.(ii) „⇒“: Für A ∈ A mit µ (A) = 0 folgt wegen der Absolutstetigkeit ν (A) = 0.Zu zeigen ist ν+(A) = ν−(A) = 0. Angenommen es gilt ν+(A) > 0. Dann istnach Hahn-Jordan-Zerlegung (Satz 2.19)

ν+(A) = supν (B) : B ∈ A,B ⊂ A,

also existiert ein B ⊂ A mit ν (B) > 0. Da µ (B) = 0 ist, ist es ein Widerspruchzu ν µ. Damit gilt ν+(A) = 0. Analog zeigt man ν−(A) = 0.(iii) Nach Voraussetzung ν2 ⊥ µ gibt es ein A mit µ (A) = 0 und |ν2 |(Ac ) = 0.Wegen ν1 µ und (ii) folgt |ν1 |(A) = 0, also |ν1 | ⊥ |ν2 |.(iv) Nach (iii) ist ν ⊥ ν , also existiert ein A mit |ν |(A) = |ν |(Ac ) = 0. Es folgt|ν |(Ω) = 0.

Satz 2.29 (Zerlegungssatz von Lebesgue). Es sei (Ω,A) ein messbarer Raum,µ ein σ -endliches Maß und ν ein σ -endliches signiertes Maß auf A. Dann hatν eine eindeutige Zerlegung ν = ν1 + ν2, wobei ν1,ν2 signierte Maße sind mitν1 µ und ν2 ⊥ µ.

Beweis. Wir beweisen hier nur die Existenz der Zerlegung. Der Beweis derEindeutigkeit ist eine Übungsaufgabe.

68

2.3 Produktmaße und Satz von Fubini

Zunächst beweisen wir die Existenz einer Zerlegung für den Fall, dass ν einσ -endliches Maß ist. Wir setzen λ = µ + ν . Dann ist λ ein σ -endliches Maßund es gilt µ λ und ν λ. Nach Satz von Radon-Nikodým (Satz 2.22) undKorollar 2.25(c) gibt es nichtnegative Borel messbare Funktionen f und д mit

µ (A) =

∫Af dλ und ν (A) =

∫Aдdλ, A ∈ A.

Sei B = f > 0 (dann ist Bc = f = 0) und deniere für A ∈ A

ν1(A) = ν (A ∩ B) und ν2(A) = ν (A ∩ Bc ).

Dann ist ν = ν1 + ν2 und es gilt ν1 µ und ν2 ⊥ µ. Um ν1 µ zu beweisen,sei A ∈ A mit µ (A) = 0 gegeben. Dann ist

∫Af dλ = 0 und insbesondere ist

f 1A = 0 λ-f.ü. Auf A ∩ B ist aber f > 0 also muss λ(A ∩ B) = 0 gelten unddamit auch λ1(A) = 0, d.h. wir haben ν1 µ gezeigt.

Die Aussage ν2 ⊥ µ folgt aus ν2(B) = ν2(∅) = 0 und µ (Bc ) =∫Bc0dλ = 0.

Ist ν ein σ -endliches signiertes Maß, dann wenden wir das obige Argumentauf ν+ und ν− an und erhalten so eine Zerlegung ν = ν1 + ν2 B (ν+1 − ν

−1 ) +

(ν+2 − ν−2 ) mit (ν+1 − ν−1 ) µ und (ν+2 − ν

−2 ) ⊥ µ.

Bemerkung 2.30. Nach unserer Diskussion vor dem Satz 2.29 ist klar, dassdiskrete Wahrscheinlichkeitsmaße, also Maße deren Verteilungsfunktionennur durch Sprünge wachsen stets singulär zum Lebesgue-Maß auf R sind.

Es gibt aber Beispiele von Wahrscheinlichkeitsmaßen die singulär zumLebesgue-Maß sind, obwohl sie eine stetige Verteilungsfunktion haben. Einsolches Beispiel ist die Cantor-Funktion und das dazugehörige Wahrschein-lichkeitsmaß (vgl. Beispiel 8.7 auf S. 73 in Elstrodt (2011)).

Im Allgemeinen wird ein Wahrscheinlichkeitsmaß auf R einen „diskreten“,einen „singulär-stetigen“ und einen „absolutstetig-stetigen“ Anteil bezüglichdem Lebesgue-Maß haben.

2.3 Produktmaße und Satz von Fubini

Es sein (X ,X) und (Y ,Y ) messbare Räume und seien µ und ν Maße auf diesenRäumen. In diesem Abschnitt werden wir ein Produktmaß auf X × Y (undgeeigneter σ -Algebra) konstruieren. Gesucht ist also ein Maß π mit

π (A × B) = µ (A)ν (B), A ⊂ X , B ⊂ Y .

69

2.3 Produktmaße und Satz von Fubini

Im Falle von Lebesgue-Maßen auf R werden wir sehen, dass das zugehörigeProduktmaß das Lebesgue-Maß aufR2 ist. Außerdem werden wir den Satz vonFubini beweisen mit dessen Hilfe man Mehrfachintegrale als iterierte Integraleberechnen kann. Zunächst erläutern wir, was die „geeignete“ σ -Algebra aufdem Produktraum ist.

Denition 2.31. Teilmengen von X × Y von der Form, A × B, A ∈ X, B ∈ Yheißen messbare Rechtecke in X × Y . Die von den messbaren Rechteckenerzeugte σ -Algebra heißt Produkt-σ -Algebra und wird mit X ⊗ Y bezeichnet.

Beispiel 2.32. Seien X = Y = R und X = Y = B (R), dann ist ein messbaresRechteck ein Kartesisches Produkt A × B zweier Borel-Mengen A und B aufR. Die Menge der messbaren Rechtecke enthält die Menge der halboenenRechtecke vonR2 (deniert in (1.15)). Da die halboenen Rechtecke die Borel-σ -Algebra B (R2) erzeugen, folgt B (R2) ⊂ B (R) ⊗B (R). Andererseits, wennA ein Intervall ist, dann enthält B ⊂ R : A × B ∈ B (R2) die Menge R,denn es ist A×R = ∪n (A× (−n,n]). Außerdem ist es abgeschlossen bezüglichBildung von Komplementen und abzählbaren Vereinigungen. Also ist es eineσ -Algebra, die alle Intervalle und damit auch Borel-Mengen enthält. Ist nunB eine Borel-Menge, dann enthält A ⊂ R : A × B ∈ B (R2) alle Intervalleund ist auch eine σ -Algebra, enthält damit alle Borel-Mengen. Das zeigt, dassmessbare Rechtecke in B (R2) sind, also B (R) ⊗ B (R) = B (R2).

Beachten Sie, dass X ×Y die Menge der messbaren Rechtecke ist und nachDenition X ⊗ Y = σ (X ×Y ) gilt. Beachten Sie auch, dass manchmal in derLiteratur mit X ×Y die davon erzeugte σ -Algebra bezeichnet wird.

Satz 2.33 (Messbarkeit von Schnitten). (i) Ist E ∈ X ⊗ Y , dann gilt y :(x ,y) ∈ E ∈ Y für jedes x ∈ X und x : (x ,y) ∈ E ∈ X für jedes y ∈ Y .

(ii) Ist f eine bezüglich X ⊗ Y messbare Funktion, dann ist für jedes festex ∈ X die Funktion f (x , ·) messbar bezüglichY und für jedes y ∈ Y ist dieFunktion f (·,y) messbar bezüglich X.

Wir nennen die Menge y : (x ,y) ∈ E Schnitt von E bei x und die Funktionf (x , ·) Schnitt von f bei x .

Beweis. Für ein festes x ∈ X betrachten wir die Abbildung Tx : Y → X × Ydeniert durch Tx (y) = (x ,y). Ist E = A × B ein messbares Rechteck, dann ist

70

2.3 Produktmaße und Satz von Fubini

T −1x (E) = ∅, wenn x < A und T −1x (E) = B, wenn x ∈ A. In beiden Fällen giltT −1x (E) ∈ Y . Nach Satz 1.63(i) ist Tx eine Y-X ⊗ Y messbare Abbildung. Alsoist y : (x ,y) ∈ E = T −1x (E) ∈ Y für E ∈ X ⊗ Y .

Ist nun f eine X ⊗Y-B (R) messbare Abbildung, dann ist nach Satz 1.63(ii)die Abbildung f Tx Y-B (R) messbar, d.h. f (x , ·) = f Tx (·) ist Y messbar.Die symmetrischen Aussagen für ein festes y ∈ Y zeigt man analog.

Satz 2.34 (Produktmaßsatz). Es seien (X ,X, µ ) und (Y ,Y,ν ) σ -endliche Maß-räume. Dann gibt es ein eindeutiges σ -endliches Maß π aufX⊗Y mit π (A×B) =µ (A)ν (B) für messbare Rechtecke A × B.

Denition 2.35 (Produktmaß). Das Maß π aus dem Produktmaßsatz heißtProduktmaß von µ und ν . Es wird üblicherweise mit µ ⊗ ν bezeichnet.

Beweis von Satz 2.34.Schritt 1: Existenz für µ und ν endlich. Für E ∈ X ⊗ Y ist nach Satz 2.33ν (y : (x ,y) ∈ E) eine wohldenierte Funktion in x . Sei L die Menge allerE ∈ X ⊗Y , für die diese Funktion messbar ist. Dann ist L ein Dynkin-System.(Beweis ist eine Übung!)

Ist E = A×B ein messbares Rechteck, so gilt ν (y : (x ,y) ∈ E) = 1A(x )ν (B).(Dies ist natürlich messbar in x .) Also ist L ein Dynkin-System und enthältdas schnittstabile System messbarer Rechtecke. Nach Satz 1.36 ist L = X ⊗Y .Es folgt, dass durch

π ′(E) =

∫Xν (y : (x ,y) ∈ E) µ (dx ), E ∈ X ⊗ Y, (2.19)

ein endliches Maß auf X ⊗ Y deniert wird. Analog zeigt man, dass durch

π ′′(E) =

∫Yµ (x : (x ,y) ∈ E) ν (dy), E ∈ X ⊗ Y, (2.20)

ein endliches Maß auf X ⊗ Y deniert wird. Für messbare Rechtecke gilt

π ′(A × B) = π ′′(A × B) = µ (A)ν (B). (2.21)

Die Familie der Mengen E ∈ X ⊗Y mit π ′(E) = π ′′(E) ist nach Beispiel 1.34.1.ein Dynkin-System. Da diese Familie die schnittstabile Menge der messbarenRechtecke enthält, stimmt sie nach Satz 1.36 mit X ⊗ Y überein. Damit istπ = π ′ = π ′′ ein Maß, das die geforderten Eigenschaften hat.

71

2.3 Produktmaße und Satz von Fubini

Schritt 2: Existenz für µ und ν σ -endlich. Seien A1,A2, . . . und B1,B2, . . . dis-junkte Zerlegungen von X bzw. Y in Mengen vom endlichen µ bzw. ν Maß.Wir setzen µm (A∩Am ) und νn (B) = ν (B ∩Bn ). Wegen ν (B) = ∑

n νn (B) ist derIntegrand in (2.19) auch im σ -endlichen Fall messbar bezüglich X. Also istπ ′ und mit dem analogen Argument auch π ′′ wohldeniert im σ -endlichenFall. Seien π ′mn und π ′′nm die Maße, die mittels (2.19) und (2.20) zu µm und νngehören. Nach Schritt 1 folgt

π ′(E) =∑m,n

π ′mn (E) =∑m,n

π ′′mn (E) = π′′(E). (2.22)

Also stimmen pi′ und π ′′ auch im σ -endlichen Fall überein. Außerdem gilt

π ′(A × B) =∑m,n

µm (A)νn (B) = µ (A)ν (B).

Damit hat π = π ′ = π ′′ auch im σ -endlichen Fall die geforderten Eigenschaf-ten.Schritt 3: Eindeutigkeit und σ -Endlichkeit des Produktmaßes. Familie (Am × Bn )ist eine Zerlegung von X × Y in messbare Rechtecke vom endlichen π -Maß.Daraus folgt die σ -Endlichkeit von π . Die Eindeutigkeit folgt mit Satz 1.37.

Das folgende Resultat, der Satz von Fubini, ist eine direkte Konsequenzdes Produktmaßsatzes. Mit diesem Satz können Mehfachintegrale als iterierteIntegrale berechnet werden.

Satz 2.36 (Satz von Fubini). Es seien (X ,X, µ ) und (Y ,Y,ν ) σ -endliche Maß-räume und sei π = µ ⊗ ν das zugehörige Produktmaß. Ist f : X × Y → R einenichtnegative oder π -integrierbare X ⊗ Y messbare Funktion, dann sind dieFunktionen

x 7→

∫Yf (x ,y) ν (dy) und y 7→

∫Xf (x ,y) µ (dx ) (2.23)

messbar bezüglich X bzw. Y . Außerdem gilt∫X×Y

f (x ,y) π (d (x ,y)) =

∫X

∫Yf (x ,y) ν (dy)µ (dx ) (2.24)

und ∫X×Y

f (x ,y) π (d (x ,y)) =

∫Y

∫Xf (x ,y) µ (dx )ν (dy). (2.25)

72

2.3 Produktmaße und Satz von Fubini

Beweis. Es sei f = 1E für ein E ∈ X ⊗ Y . Die Messbarkeit der Funktionx 7→

∫Yf (x ,y) ν (dy) = ν (y : (x ,y) ∈ E) haben wir im Beweis von Satz 2.34

gezeigt. Außerdem folgt (2.24) mit der Darstellung (2.19) von π . Analog folgtdie Messbarkeit von y 7→

∫Xf (x ,y) µ (dx ) = µ (x : (x ,y) ∈ E) und (2.25).

Sei f eine einfache nichtnegative Funktion. Weil Summen messbarer Funk-tionen messbar sind, folgt (2.23) mit der Linearität des Integrals. Die Aussagen(2.24) und (2.25) folgen auch mit der Linearität des Integrals.

Eine beliebige nichtnegative Funktionen f approximieren wir durch ein-fache Funktionen f1, f2, . . . mit fn ↑ f (Satz 1.70) und erhalten die Aussagen(2.23), (2.24) und (2.25) mit dem Satz von monotoner Konvergenz (Satz 2.8).

Ein beliebige π -inegrierbare Funktion f zerlegen wir wie üblich in ihrenPositiv- und Negativteil, f = f + − f −. Die Funktionen f + und f − sind nicht-negativ und nach dem obigen Argument gelten für sie (2.23), (2.24) und (2.25).Damit gelten die Aussagen auch für f .

Beispiel 2.37. Sei I =∫ ∞−∞

e−x2dx . Mit dem Satz von Fubini und Übergang

von Kartesischen zu Polarkoordinaten inR2 kann man I 2 wie folgt berechnen

I 2 =

"R2

e−(x2+y2) dx dy =

"r>0

0<θ<2π

e−r2r dr dθ .

Das Doppelintegral auf der rechten Seite kann nach Satz von Fubini durchiterierte Integrale berechnet werden. Und wir erhalten∫ ∞

−∞

e−x2dx =

√π .

Bemerkung 2.38 (Endliche Produkte höherer Ordnung). Seien (X ,X, µ ), (Y ,Y,ν )und (Z ,Z,η) drei σ -endliche Maßräume. Die Produkt-σ -Algebra X ⊗ Y ⊗ Zist die σ -Algebra, die von den messbaren Rechtecken A × B ×C mit A, B, Caus X, Y bzw. Z, erzeugt wird. Für C ∈ Z sei GC die Familie der MengenE ∈ X ⊗ Y mit E × C ∈ X ⊗ Y ⊗ Z. Dann ist GC eine σ -Algebra, die diemessbaren Rechtecke von X × Y enthält und daher gilt GC = X ⊗ Y . Es folgt(X ⊗Y ) ⊗Z ⊂ X ⊗Y ⊗Z. Da die umgekehrte Inklusion oensichtlich aucherfüllt ist, gilt (X ⊗ Y ) ⊗ Z = X ⊗ Y ⊗ Z.

Wir denieren das Produktmaß µ ⊗ ν ⊗ η auf X ⊗ Y ⊗ Z als (µ ⊗ ν ) ⊗ η.Für messbare Rechtecke A × B ×C gilt dann

µ ⊗ ν ⊗ η(A × B ×C ) = µ ⊗ ν (A × B)η(C ) = µ (A)ν (B)η(C ).

73

2.4 Übungen

Dieses Maß ist eindeutig. Die Aussagen des Produktmaßsatzes und des Satzesvon Fubini lassen sich in oensichtlicher Weise auf Produkte von drei undmehr Komponenten erweitern. Insbesondere können wir das Lebesgue Maßesλd aufRd als Produktmaß λ⊗ . . .⊗λ (d-mal) auf B (Rd ) = B (R) ⊗ . . .⊗B (R)denieren.

2.4 Übungen

Übung 2.1. Beweisen Sie Lemma 2.7.

Übung 2.2. Entscheiden Sie (mit Begründung), ob die Dirichletsche Sprungfunk-tion

f (x ) =

1 falls x rational0 falls x irrational

Lebesgue-integrierbar ist und berechnen Sie gegebenenfalls∫f dλ.

Übung 2.3. Es sei f eineR-wertige Funktion auf einemmeßbaren Raum. ZeigenSie:

(a) Ist f meßbar, dann ist f genau dann integrierbar, wenn | f | integrierbar ist.

(b) Im Allgemeinen ist Meßbarkeit von f nicht äquivalent zur Meßbarkeit von| f |.

Übung 2.4. Es sei f eine nichtnegative meßbare R-wertige Funktion auf einemMaßraum (Ω,A, µ ) mit µ (Ω) < ∞. Zeigen Sie:

(a) Nimmt die Funktion f nur ganzzahlige Werte an, so gilt∫f dµ =

∞∑n=1

µ ( f ≥ n).

(b) Die Funktion f (nicht notwendigerweise ganzzahlig) ist genau dann µ-integrierbar, wenn

∞∑n=1

µ ( f ≥ n) < ∞ (2.26)

gilt.

74

2.4 Übungen

(c) Aus (2.26) folgt limn→∞

nµ ( f ≥ n) = 0.

Übung 2.5. Beweisen Sie Satz 2.10.

Übung 2.6. Es sei (Ω,A, µ ) ein messbarer Raum.

(a) Sind f1, f2, . . . nichtnegative Borel-messbare Funktionen, so gilt∫ ∞∑n=1

fn dµ =∞∑n=1

∫fn dµ .

(b) Für eine Borel-messbare Funktion f wird nach Satz 2.5 durch

ν (A) =

∫Af dµ, A ∈ A,

eine σ -additive Mengenfunktion ν auf A deniert. Man nennt ν auch si-gniertes Maß. Zeigen Sie: Für Borel-messbare Funktionen д auf Ω gilt∫

дdν =

∫д f dµ,

in dem Sinne, dass wenn eine Seite existiert, so existiert auch die andere undbeide sind gleich. (Intuitiv heißt es dν/dµ = f , so dass dν = f dµ).

Übung 2.7. Durch fn (x ) = ne−nx , n = 1, 2, . . . wird auf [0,∞) eine Folge nicht-

negativer Funktionen deniert. Zeigen Sie, dass ( fn ) λ-f.ü. gegen eine Funktionf konvergiert, wobei ∫

[0,∞)f dλ , lim

n→∞

∫[0,∞)

fn dλ

gilt. Weshalb ist hier der Satz von Lebesgue nicht anwendbar?

Übung 2.8. Es sei µ ein beliebiges Wahrscheinlichkeitsmaß auf (R,B (R)) undδ0 das Einheitsmaß in 0 (also δ0(B) = 1, falls 0 ∈ B, und δ0(B) = 0, falls 0 < B).Finden Sie die Hahn-Jordan-Zerlegung des signierten Maßes ν = µ − δ0.

Übung 2.9. Es sei (Ω,A, µ ) ein Maßraum und f eine messbare Funktion, sodass∫f dµ existiert. AufA denieren wir das signierte Maß ν durch ν (A) =

∫Af dµ,

A ∈ A. Zeigen Sie

ν+(A) =

∫Af + dµ, ν−(A) =

∫Af − dµ, |ν |(A) =

∫A| f | dµ .

75

2.4 Übungen

Übung 2.10 (Diskrete Dichten). Es sei (Ω,A) ein messbarer Raum;A enthaltedie Einpunktmengen. Seien µ und ν diskrete Maße auf A.

(a) Sind µ und ν immer σ -endlich?

(b) Geben Sie eine notwendige und hinreichende Bedingung für ν µ an.

(c) Berechnen Sie alle µ-Dichten von ν .

Hinweis: Das Maß µ heißt diskret, wenn es abzählbar viele ωi ∈ Ω und pi ∈ R+gibt, so dass

µ (A) =∑ωi∈A

pi , A ∈ A.

Übung 2.11 (Äquivalente Maße). Zeigen Sie, dass die Relation auf der Mengeder Maße einer σ -Algebra reexiv und transitiv ist. Die durch µ ν und ν µdenierte Relation µ ∼ ν ist dann eine Äquivalenzrelation. (Insbesondere besitzenµ und ν dann dieselbe Nullmengen.) Zeigen Sie außerdem, dass für endlicheMaße µ und ν gilt: µ ∼ ν ist äquivalent zu dν = f dµ, wobei die Dichte f dieBedingung 0 < f (ω) < ∞ µ-f.ü. erfüllt.

Übung 2.12. Es sei Ω nichtabzählbar undA die σ -Algebra alle MengenA ⊂ Ω,für welche A oder Ac abzählbar ist. Mit µ sei das Zählmaß aufA bezeichnet undν sei ein Maß aufA mit ν (A) = 0 falls A abzählbar und ν (A) = ∞ sonst. ZeigenSie, das ν zwar absolutstetig bezüglich µ ist, jedoch keine µ-Dichte besitzt.

Übung 2.13. Beweisen Sie die Eindeutiglkeit der Zerlegung im Zerlegungssatzvon Lebesgue (Satz 2.29).

Übung 2.14. Gegeben seien ein σ -endlicher Maßraum (Ω,A, µ ) und nichtne-gative A-messbare Funktionen f und д.

(a) Für p ∈ [1,∞) gilt∫

f p dµ =

∫ ∞

0ptp−1µ ( f > t ) dt .

(b) Gilt µ ( f > t ) ≤ µ (д > t ) für alle t ≥ 0, so folgt∫

f dµ ≤

∫дdµ.

Hinweis: f (ω) ist gleich dem Lebesgue-Integral der Indikatorfunktion 1[0,f (ω)).Für p = 1 ist die Formel in (a) oft sehr hilfreich für Berechnungen von Erwar-tungswerten nichtnegativer Zufallsvariablen. Vergleichen Sie (a) mit Übung 2.4.

76

2.4 Übungen

Übung 2.15. Es seien F und G die Verteilungsfunktionen der Wahrscheinlich-keitsmaße µ bzw. ν auf (R,B (R)). Zeigen Sie:

1. Für c ∈ R gilt∫ (

F (x + c ) − F (x ))λ(dx ) = c .

2. Wenn F undG keine gemeinsame Unstetigkeitsstellen in (a,b] haben, danngilt die Formel der partiellen Integration∫

(a,b]G (x ) dF (x ) = F (b)G (b) − F (a)G (a) −

∫(a,b]

F (x ) dG (x ).

Dabei steht dF (x ) für µ (dx ) und dG (x ) für ν (dx ).

3. Ist F stetig, so gilt∫F (x ) dF (x ) = 1

2 .

Hinweis zu (b): Berechnen Sie das Produktmaß von (x ,y) ∈ (a,b]2 |x ≤ y ∪(x ,y) ∈ (a,b]2 |x ≥ y auf geeignete Weise.

Übung 2.16. (a) Es sei X = Y = N und µ = ν das Zählmaß. Zeigen Sie, dassfür

f (x ,y) =

2 − 2−x : falls x = y,−2 + 2−x : falls x = y + 1,0 : sonst,

die iterierten Integrale existieren aber nicht gleich sind. Warum widersprichtes nicht dem Satz von Fubini?

(b) Zeigen Sie, dass xy/(x2 + y2)2 nicht integrierbar über (x ,y) : |x |, |y | ≤ 1ist, obwohl die iterierten Integrale existieren und gleich sind.

77

3 Zufallsvariablen, Verteilungen undErwartungswerte

3.1 Zufallsvariablen und ihre Verteilungen

Eine Zufallsvariable auf einem Wahrscheinlichkeitsraum (Ω,A, P) ist eineA-messbare reellwertige (oderR-wertige) Funktion auf Ω. Alle Resultate undKonzepte für allgemeine Maßräume und messbare Funktionen, mit denen wiruns in den vorherigen Kapiteln beschäftigt haben, lassen sich auf Zufallsva-riablen und Wahrscheinlichkeitsräume übertragen. Ein Zufallsvektor ist eineA-messbare Abbildung von Ω nachRd . Jede Abbildung von Ω nachRd ist vonder Form ω 7→ X (ω) = (X1(ω), . . . ,Xd (ω)), wobei jedes Xi eine reellwertigeFunktion ist. Wir haben bereits gesehen, dass X genau dann messbar ist, wennalle Xi messbar sind (vgl. Bemerkung 1.65). Also ist ein Zufallsvektor einfachein d-Tupel von Zufallsvariablen.

Wenn G eine σ -Algebra mit G ⊂ A, dann ist ein d-dimensionaler Zufalls-vektor X genau dann G-messbar, wenn

X−1(A) = X ∈ A = ω ∈ Ω : X (ω) ∈ A ∈ G

für alle A ∈ B (Rd ) gilt. Mit σ (X ) bezeichnen wir die kleinste σ -Algebra,bezüglich welcher der Zufallsvektor X messbar ist.

Satz 3.1. Für ein Zufallsvektor X = (X1, . . . ,Xd ) gelten folgende Aussagen.

(i) Die σ -Algebra σ (X ) besteht genau aus den Mengen X ∈ A, A ∈ B (Rd ).

(ii) Eine ZufallsvariableY ist genau dann σ (X )-messbar, wenn es eine messbareFunktion f : Rd → R, sodass Y (ω) = f (X1(ω), . . . ,Xd (ω)) für alleω ∈ Ω.

Beweis. Die Aussage (i) ist klar nach Übung 1.7. Ist f messbar (damit istnatürlich die B (Rd )-B (R) Messbarkeit gemeint), dann ist Y (ω) = f (X (ω))nach Satz 1.63(ii) σ (X )-B (R) messbar. Es bleibt also die umgekehrte Richtungzu zeigen.

78

3.1 Zufallsvariablen und ihre Verteilungen

Sei Y eine σ (X ) messbare Zufallsvariable. Nehmen wir zunächst an, dassY einfach ist. Seien y1, . . . ,ym die unterschiedlichen möglichen Werte vonY . Dann liegen die Mengen Ai = Y = yi in σ (X ). Nach Teil (i) gibt esHi ∈ B (R

d ) mit Ai = X ∈ Hi . Wir setzen f =∑

i yi1Hi . Diese Funktion istnatürlich messbar. Da Ai disjunkt sind, kann kein X (ω) in mehr als einem Hi

liegen. Es folgt f (X (ω)) = Y (ω).Für beliebige Zufallsvariablen Y sei Yn eine Folge einfacher Zufallsvariablen

mit Yn (ω) → Y (ω) für alle ω. Für jedes n gibt eine messbare Funktion fn :Rd → R mit Yn (ω) = fn (X (ω)). Sei M die Teilmenge von Rd auf der fnkonvergiert, d.h.

M = x ∈ Rd : ( fn (x )) ist konvergent.

Nach Satz 1.68(iii) ist M ∈ B (Rd ). Wir setzen f (x ) = limn fn (x ) für x ∈ M undf (x ) = 0 für x ∈ Rd \M . Da f = limn fn1M ist, und fn1M messbare Funktionensind, ist f nach Satz 1.68(ii) messbar. Für alle ω gilt nach Konstruktion Y (ω) =limn fn (X (ω)). Hieraus folgtX (ω) ∈ M undY (ω) = limn fn (X (ω)) = f (X (ω)).

Die Verteilung µ einer Zufallsvariablen X auf R ist deniert als das Bildmaßµ = PX−1 von P unter X , d.h.

µ (A) = P(X ∈ A), A ∈ B (R). (3.1)

Wir verwenden die Notation X ∼ µ, „∼“ ist an der Stelle als „verteilt gemäß“zu lesen, oder L (X ) = µ, hier steht L für das englische Wort law, was in demZusammenhang als Verteilungsgesetz übersetzt werden kann. Die Verteilungs-funktion von X ist deniert durch

F (x ) = µ ((−∞,x]) = P(X ≤ x ), x ∈ R. (3.2)

Die Funktion F ist nichtfallend, rechtsseitig stetig und hat höchstens abzählbarviele Unstetigkeitstellen. Außerdem hat F überall linksseitige Grenzwerte undes gilt

F (x−) = µ ((−∞,x )) = P(X < x ),

F (x ) − F (x−) = µ (x ) = P(X = x ),(3.3)

79

3.1 Zufallsvariablen und ihre Verteilungen

und

limx→−∞

F (x ) = 0 und limx→∞

F (x ) = 1. (3.4)

Ist F eine Funktion mit den oben aufgezählten Eigenschaften, dann gibt esnach Satz 1.58 ein eindeutiges Wahrscheinlichkeitsmaß µ dessen Verteilungs-funktion F ist.

Beispiel 3.2 (Diskrete Verteilungen auf R). Eine Zufallsvariable X heißt dis-kret, wenn ihre Verteilung µ diskret ist, d.h. es gibt eine abzählbare TeilmengeI von R und (pi )i∈I mit pi ≥ 0 für alle i und µ (R) = µ (I ) =

∑i∈I µ (i) =∑

i∈I pi = 1. Die zugehörige Verteilungsfunktion ist dann gegeben durch

F (x ) = P(X ≤ x ) =∑

i∈I ,i≤x

pi .

Die Elemente x ∈ Rmit µ (x ) > 0 werden oft als Atome bezeichnet. DiskreteVerteilungen nennt man deswegen manchmal atomar.

(a) Eine bekannte diskrete Verteilung ist die Binomialverteilung. Eine Zufalls-variable X ist binomial verteilt mit Parametern n ∈ N und p ∈ [0, 1], wenngilt

P(X = k ) = µ (k =(n

k

)pk (1 − p)n−k , k = 0, 1, . . . ,n. (3.5)

Wir schreiben dann X ∼ Bin(n,p).Viele Zufallsvariablen auf vielen Wahrscheinlichkeitsräumen sind bino-mial verteilt. Sei z.B. X1,X2, . . . eine Folge unabhängiger Zufallsvariablenmit P(X` = 1) = p und P(X` = 0) = 1 − p. Dann sind ∑n

i=1Xi ,∑9+n

i=10Xi

oder eine beliebige Summe von n der Xi binomial verteilt. Man könnteauch Ω = 0, 1, . . . ,n nehmen mit A = P (Ω), P(k ) =

(nk

)pk (1 − p)n−k ,

k = 0, 1, . . . ,n und X (k ) = k . Schließlich könnte man auch direkt mit derVerteilungsfunktion der Binomialverteilung starten und dann P wie inSatz 1.58 (dort haben wir µ konstruiert) konstruieren. Dieses Beispiel zeigt,dass die Verteilung einer ZufallsvariablenX das probabilistische Verhaltenvon X selbst zwar vollständig beschreibt, aber keine Information über denzugrunde liegenden Wahrscheinlichkeitsraum (Ω,A, P) enthält.

80

3.1 Zufallsvariablen und ihre Verteilungen

(b) Eine weitere bekannte diskrete Verteilung ist die Poissonverteilung mitParameter γ > 0. Für diese gilt

P(X = k ) = µ (k ) = e−γγk

k! , k = 0, 1, . . . . (3.6)

Wir schreiben dann X ∼ Poi(γ ).

(c) Eine Konstante c kann als eine diskrete Zufallsvariable mit X (ω) ≡ cangesehen werden. Dann ist P(X = c ) = µ (c) = 1. Wir sagen, dann dassX gemäß der Dirac-Verteilung in c verteilt ist.

(d) Wir wissen bereits, dass eine Verteilungsfunktion höchstens abzählbarviele Unstetigkeitsstellen haben kann. Das folgende (etwas künstliche) Bei-spiel zeigt, dass die Menge der Unstetigkeitsstellen dicht inR liegen kann.Sei x1,x2, . . . eine Abzählung vonQ und sei µ (xk ) = 2−k . Dann ist µ einWahrscheinlichkeitsmaß und jede rationale Zahl eine Unstetigkeitsstelleder zu µ gehörigen Verteilungsfunktion.

Beispiel 3.3 (Stetige Verteilungen auf R). Eine Zufallsvariable X und ihreVerteilung µ haben eine Dichte bezüglich des Lebesgue Maßes λ, wenn es einenichtnegative Funktion f auf R gibt mit (wir schreiben dx statt λ(dx ))

P(X ∈ A) = µ (A) =∫Af (x ) dx , A ∈ B (R). (3.7)

Die Funktion f ist nur bis auf Lebesgue-Nullmengen eindeutig bestimmt undes gilt notwendigerweise λ[f ] = 1. Wir wissen, dass (3.7) für alle A ∈ B (R)gilt, wenn es für alle Intervalle (a,b] gilt, d.h. wenn

F (b) − F (a) =

∫ b

af (x ) dx (3.8)

für alle a < b gilt. Die Dichte f muss nicht unbedingt überall die Ableitungvon F sein damit (3.8) gilt. Andererseits, wenn F dierenzierbar ist und f = F ′

ist, dann gilt (3.8) nach Hauptsatz der Dierential- und Integralrechnung,dass f eine Dichte zu F bzw. der zugehörigen Verteilung ist. Verteilungen mitDichten nennen wir üblicherweise stetig. Natürlich gilt µ (x ) = 0 für allex ∈ R, wenn µ eine stetige Verteilung ist.

81

3.1 Zufallsvariablen und ihre Verteilungen

(a) Die Dichte der Exponentialverteilung mit Parameter α > 0 ist gegebendurch

f (x ) =

0 : wenn x < 0,αe−αx : wenn x ≥ 0.

(3.9)

Die Verteilungsfunktion ist dann

F (x ) =

0 : wenn x < 0,1 − e−αx : wenn x ≥ 0.

(3.10)

Für eine exponentiell verteilte ZufallsvariableX mit Parameter α schreibenwir X ∼ Exp(α ).

(b) Die Dichte der Normalverteilung mit Parametern µ ∈ R und σ 2 > 0 ist

f (x ) =1

√2πσ 2

e−(x−µ )2

2σ 2 , x ∈ R. (3.11)

Für eine entsprechend verteilte Zufallsvariable X schreiben wir X ∼N(µ,σ 2).

(c) Die Dichte der auf dem Intervall (a,b] gleichverteilten Zufallsvariable istdeniert durch

f (x ) =

1b−a : wenn a < x ≤ b,

0 : sonst.(3.12)

Für eine entsprechend verteilte Zufallsvariable X schreiben wir X ∼U((a,b]).

Fürs Rechnen mit Wahrscheinlichkeiten ist eine Verteilungsfunktion dannnützlich, wenn sie eine vergleichsweise einfache Darstellung hat, wie z.B.(3.10). Ansonsten ist es typischerweise leichter die Verteilung durch die Dichtef (x ) oder durch die diskreten Wahrscheinlichkeiten µ (i) zu beschreiben. Oftkönnen Wahrscheinlichkeiten bestimmter Ereignisse approximativ (mit pas-senden Grenzwertsätzen wie z.B. mit Gesetzen der großen Zahlen, zentralemGrenzwertsatz, etc.) berechnet werden.

82

3.1 Zufallsvariablen und ihre Verteilungen

Ist F eine Verteilungsfunktion einer stetigen Zufallsvariablen, dann ist F ste-tig. Im diskreten Fall ist F eine Sprungfunktion. Es gibt natürlich Verteilungen,die weder diskret noch stetig sind wie zum Beispiel µ (A) = 1

2µs(A) +12µd(A),

wobei µs stetig ist, und µd diskret ist. Wie wir schon im Zusammenhang mitder Lebesgue-Zerlegung bemerkt haben gibt es auch Verteilungen mit stetigenVerteilungsfunktionen, die singulär zum Lebesgue-Maß sind. Wenn nichtsanderes gesagt wird, sind für uns stetige Verteilungen solche, die absolut stetigzum Lebesgue-Maß sind.

WennX eine Zufallsvariable mit Verteilung µ und д : R→ R eine messbareFunktion, dann ist gilt

P(д(X ) ∈ A) = P(X ∈ д−1(A)) = µ (д−1(A)), A ∈ B (R). (3.13)

Also hat die Zufallsvariable д(X ) die Verteilung µд−1; vgl. Satz 1.71.Falls eine Verteilung eine Dichte besitzt, so folgt mit (3.8) und (3.4) die

(bereits bekannte) Darstellung

F (x ) =

∫ x

−∞

f (y) dy. (3.14)

Zumindest an den Stetigkeitsstellen von f gilt F ′(x ) = f (x ). Nehmen wir an,dass f stetig ist und д streng monoton wachsend mit T = д−1. Dann ist dieVerteilungsfunktion von д(X ) gegeben durch

P(д(X ) ≤ x ) = P(X ≤ T (x )) = F (T (x )). (3.15)

Ist T dierenzierbar, dann gilt ddx F (T (x )) = f (T (x ))T ′(x ), was die Dichte von

д(X ) sein muss. Ist д streng monoton fallend, dann ist

P(д(X ) ≤ x ) = P(X ≥ T (x )) = 1 − P(X ≥ T (x )) = 1 − F (T (x )). (3.16)

Die Dichte von д(X ) ist dann − ddx F (T (x )) = −f (T (x ))T

′(x ) = f (T (x )) |T ′(x ) |.Für bijektive Funktion д ist also die Dichte von д(X ) gegeben durch

d

dxP(д(X ) ≤ x ) = f (T (x )) |T ′(x ) |. (3.17)

Ist zum Beispiel X ∼ N(µ,σ 2), a > 0 und b ∈ R, dann gilt

aX + b ∼ N(aµ + b, (aσ )2).

Mit dem Ansatz wie oben kann man Verteilungsfunktionen und Dichten oftauch in dem Fall bestimmen, wenn д nicht bijektiv ist.

83

3.1 Zufallsvariablen und ihre Verteilungen

Beispiel 3.4. Wenn X standard-normalverteilt ist, d.h. X ∼ N(0, 1), dann giltfür x > 0

P(X 2 ≤ x ) = P(−√x ≤ X ≤

√x )

=1√2π

∫ √x

−√xe−y

2/2 dy =2√2π

∫ √x

0e−y

2/2 dy.

Also ist X 2 eine Zufallsvariable mit Dichte

f (x ) =

1√2π x

−1/2e−x/2 : wenn x > 0,0 : wenn x ≤ 0.

Für solche Dichtetransformationen (auch für Dichten von Zufallsvektoren)gibt es allgemeine Formeln; vgl. Satz 1.101 in Klenke (2013).

Denition 3.5 (Erwartungswert). Es seiX eine Zufallsvariable auf dem Wahr-scheinlichkeitsraum (Ω,A, P). Der Erwartungswert von X ist das Integral vonX bezüglich P:

E[X ] B∫

X dP =∫ΩX (ω) P(dω). (3.18)

Alle Denitionen, Konventionen und Resultate für Integrale messbarer Funk-tionen gelten natürlich auch für Erwartungswerte. Für nichtnegative X ist derErwartungswert immer deniert. Für beliebige X , sagen wir E[X ] ist deniertoder X hat einen Erwartungswert, wenn zumindest einer der Erwartungwer-te E[X+] oder E[X−] endlich ist. In diesem Fall ist E[X ] = E[X+] − E[X−].Die Zufallsvariable X ist integrierbar, d.h. E[X ] endlich, genau dann, wennE[|X |] < ∞ ist. Das Integral

∫AX dP über eine Menge A ist E[1AX ].

Bevor wir eine alternative (und möglicherweise geläugere) Version desErwartungswertes angeben, beweisen wir eine Substitutionsforlmel.

Satz 3.6 (Substitutionsformel). Seien (Ω,A) und (Ω′,A′) messbare Räumeund T : Ω → Ω′ eine A-A′ messbare Abbildung. Sei µ ein Maß auf A undsei µT −1 das zugehörige Bildmaß auf A′. Ist f : Ω′ → R eine nichtnegativemessbare Funktion, so gilt∫

Ωf (T (ω)) µ (dω) =

∫Ω′

f (ω′) µT −1(dω′). (3.19)

84

3.1 Zufallsvariablen und ihre Verteilungen

Eine (nicht notwendigerweise nichtnegative) Funktion f ist integrierbar bezüglichµT −1 genau dann, wenn f T intergrierbar bezüglich µ ist. Auch in diesem Fallgilt (3.19) und∫

T−1 (A′)f (T (ω)) µ (dω) =

∫A′

f (ω′) µT −1(dω′), A′ ∈ A′. (3.20)

Für nichtnegative f gilt (3.20) immer.

Beweis. Für f = 1A′ ist f T = 1T−1 (A′) . In diesem Fall ist die linke Seite von(3.19) gleich µ (T −1(A′)) und die rechte ist µT −1(A′). Gleichheit dieser Ausdru-cke gilt nach Denition des Bildmaßes; vgl. (1.38). Linearität des Integralsimpliziert, dass (3.19) für nichtnegative einfache Funktionen gilt. Ist f nicht-negativ und ( fn ) eine Folge einfacher Funktionen mit 0 ≤ fn ↑ f , dann folgt0 ≤ fn T ↑ f T und (3.19).

Wenden wir (3.19) auf | f | an, so erhalten wir die „genau dann wenn“ Aus-sage über die Integrierbarkeit von f . Für integrierbare Funktionen folgt (3.19)mit der üblichen Zerlegung in Positiv- und Negativteil. Schließlich folgt (3.20)aus (3.19), wenn wir f durch f 1A′ ersetzen.

Bemerkung 3.7 (Alternative Denition des Erwartungswertes). Sei д : R→ R

eine messbare Funktion und sei µ = PX−1 die Verteilung der ZufallsvariablenX . Dann gilt nach Satz 3.6

E[д(X )] =∫Ωд(X (ω)) P(dω) =

∫R

д(x ) PX−1(dx ) =∫ ∞

−∞

д(x ) µ (dx ).

(3.21)

Mit д(x ) = x folgt die (vermutlich aus Stochastik 0) geläuge und meistensnützlichere Darstellung des Erwartungswertes

E[X ] =∫ ∞

−∞

x µ (dx ). (3.22)

Wenn µ ein diskretes Maß ist mit µ (x1,x2, . . .) = 1, dann gilt

E[д(X )] =∑i

д(xi )µ (xi ) =∑i

д(xi )P(X = xi ) (3.23)

85

3.1 Zufallsvariablen und ihre Verteilungen

und

E[X ] =∑i

xiµ (xi ) =∑i

xiP(X = xi ) (3.24)

Ist µ ein Maß mit Dichte f , dann gilt

E[д(X )] =∫ ∞

−∞

д(x ) f (x ) dx (3.25)

und

E[X ] =∫ ∞

−∞

x f (x ) dx . (3.26)

Denition 3.8 (Momente von Zufallsvariablen). Für k ∈ N und eine Zufalls-variable X nennen wir (sofern die jeweilige Größe deniert ist)

• E[Xk] das k-te Moment von X ;

• E[|X |k] das k-te absolute Moment von X ;

• E[(X − E[X ])k] das k-te zentrale Moment von X ;

• E[|X − E[X ]|k] das k-te absolute zentrale Moment von X .

Speziell heißt das zweite absolute Moment Varianz vonX und wird mit Var[X ]bezeichnet, d.h.

Var[X ] B E[(X − E[X ])2]. (3.27)

Ist Y eine andere Zufallsvariable, so heißt

Cov[X ,Y ] B E[(X − E[X ]) (Y − E[Y ])] (3.28)

Kovarianz von X und Y und

ρ (X ,Y ) BCov[X ,Y ]√

Var[X ]√Var[Y ]

. (3.29)

heißt Korrelationskoezient von X und Y . Ist ρ (X ,Y ) = 0, so nennen wir dieZufallsvariablen X und Y unkorreliert.

86

3.2 Grundlegende Ungleichungen

3.2 Grundlegende Ungleichungen

In diesem Abschnitt erinnern wir an einige wichtige Ungleichungen, die mög-licherweise schon aus anderen Veranstaltungen bekannt sind. Im Folgendensei (Ω,A, P) ein Wahrscheinlichkeitsraum.

Auch wenn der Beweis der folgenden Ungleichung sehr einfach ist, ist sieund deren Varianten in vielen Situationen sehr nützlich.

Satz 3.9 (Allgemeine Markov-Ungleichung). Ist X eine Zufallsvariable undh : R→ (0,∞) eine monoton wachsende Funktion, dann gilt für jedes x ∈ R

P(X ≥ x ) ≤E[h(X )]h(x )

. (3.30)

Beweis. Für alle x ∈ R gilt

E[h(X )] ≥ E[h(X )1X≥x ] ≥ h(x )E[1X≥x ] = h(x )P(X ≥ x ).

Natürlich ist die Ungleichung (3.30) nur dann nützlich, wenn E[h(X )] end-lich ist und berechnet werden kann. Im nächsten Resultat stellen wir zweiVersionen von (3.30) vor.

Korollar 3.10. Für alle x > 0 gilt

P( |X | ≥ x ) ≤E[|X |r ]xr

, r ≥ 0 (Markov-Ungleichung) (3.31)

und

P( |X − E[X ]| ≥ x ) ≤Var[X ]x2

(Chebyshev-Ungleichung). (3.32)

Beweis. Für (3.31) wenden wir (3.30) auf |X | und h(x ) = xr an. Für (3.32)wenden wir (3.30) auf |X − E[X ]| und h(x ) = x2 an.

Nach Denition ist die Varianz einer Zufallsvariable nichtnegativ und mitder Darstellung Var[X ] = E[X 2] − (E[X ])2 folgt E[X 2] ≥ (E[X ])2. Die Unglei-chung könnten wir auch mit der folgenden Jensen-Ungleichung bekommen.

87

3.2 Grundlegende Ungleichungen

Satz 3.11 (Jensen-Ungleichung). Ist h : I → R eine konvexe Funktion und istP(X ∈ I ) = 1 und existieren die Erwartungswerte von X und h(X ), dann gilt

h(E[X ]

)≤ E[h(X )]. (3.33)

Beweis. Tangenten konvexer Funktionen liegen unterhalb des Funktionsgra-phen. Für jedes x0 ∈ I gibt es also ein a(x0) mit

h(x ) ≥ h(x0) + (x − x0)a(x0), x ∈ I . (3.34)

Wenden wir diese Ungleichung auf x = X und x0 = E[X ] an, so folgt

h(X ) ≥ h(E[X ]) + (X − E[X ])a(E[X ]).

Die Behauptung folgt wenn wir auf beiden Seite dieser Ungleichung denErwartungswert nehmen.

Natürlich liefert die Jensen-Ungleichung auch eine Abschätzung für konka-ve Funktionen. Ist nämlich h konkav, so ist −h konvex und nach Anwendungder Jensen-Ungleichung auf −h folgt

h(E[X ]

)≥ E[h(X )]. (3.35)

Damit ist für positive Zufallsvariablen (sofern die fraglichen Erwartungswerteexistieren) (E[X ])−1 ≤ E[X−1] und logE[X ] ≥ E[logX ].

Nun wiederholen wir Ungleichungen für p-fach integrierbare Funktionen.Für 0 < p < ∞ denieren wir

‖X ‖p B(E[|X |p]

)1/pund

‖X ‖∞ B inf α : P( |X | > α ) = 0,

‖X ‖∞ wird auch wesentliches Supremum von X genannt. Sei Lp = Lp(P) =

Lp(Ω,A, P) die Menge aller Zufallsvariablen mit ‖X ‖p < ∞. Wir erinnern

zunächst an einige wichtige Eigenschaften und Ungleichungen.

Lemma 3.12. Für a,b,α , β > 0 mit α + β = 1 gilt aαbβ ≤ αa + βb.

88

3.2 Grundlegende Ungleichungen

Beweis. Die Aussage ist äquivalent zu − log(αa+βb) ≤ α (− loga)+β (− logb)und diese folgt mit Konvexität von − log.

Korollar 3.13 (Young’sche Ungleichung). Für c,d > 0,p,q > 1mit 1/p+1/q =1 gilt cd ≤ cp/p + dq/q.

Beweis. Wähle in Lemma 3.12 α = 1/p, β = 1/q, a = cp , b = dq .

Satz 3.14 (Hölder-Ungleichung). Seien p,q ∈ [1,∞] mit 1/p + 1/q = 1. IstX ∈ Lp und ist Y ∈ Lq , dann gilt XY ∈ L1 und

‖XY ‖1 ≤ ‖X ‖p ‖Y ‖q . (3.36)

Beweis. Im Fall p = 1 oder p = ∞ ist die Aussage klar. Betrachten wir also denFall 1 < p < ∞. Wenn ‖X ‖p = 0 oder ‖Y ‖q = 0 ist, dann ist X = 0 P-f.s. oderY = 0 P-f.s. und es folgt XY = 0 P-f.s. und die Ungleichung ist klar.

Im Fall ‖X ‖p > 0 und ‖Y ‖q > 0 setzen wir c = |X (ω) |/‖X ‖p ,d = |Y (ω) |/‖Y ‖q .Mit Korollar 3.13 folgt

|X (ω)Y (ω) |

‖X ‖p ‖Y ‖q≤|X (ω) |p

p‖X ‖pp

+|Y (ω) |q

q‖Y ‖qq

.

Erwartungswert auf beiden Seiten liefert

E[|XY |]‖X ‖p ‖Y ‖q

≤1p+1q= 1,

was die Behauptung zeigt.

Für p = q = 2 folgt mit der Hölder-Ungleichung

E[|XY |] ≤(E[X 2]E[Y 2]

)1/2und wir erhalten die Cauchy-Schwarz-Ungleichung: für X ,Y ∈ L2 gilt(

E[XY ])2≤ E[X 2]E[Y 2]. (3.37)

Ersetzen wir in dieser Ungleichung X durch X − E[X ] und Y durch Y − E[Y ],dann erhalten wir −1 ≤ ρ (X ,Y ) ≤ 1.

Die nächste Ungleichung, die wir beweisen werden ist die Minkowski-Ungleichung. Wir starten mit einem Lemma.

89

3.2 Grundlegende Ungleichungen

Lemma 3.15. Für a,b ≥ 0, p ∈ [1,∞) gilt (a + b)p ≤ 2p−1(ap + bp ).Beweis. Für p = 1 ist die Ungleichung klar. Für p ∈ (1,∞) sei

h(x ) =d

dx

((a + x )p − 2p−1(ap + xp )

)= p (a + x )p−1 − 2p−1pxp−1.

Für p > 1 ist h(x ) > 0 für a + x > 2x , d.h. für x < a; h(x ) = 0 für x = a;h(x ) < 0 für x > a. Das Maximum der abgeleiteten Funktion wird also inx = a angenommen. Es folgt

(a + b)p − 2p−1(ap + bp ) ≤ (a + a)p − 2p−1(ap + ap ) = 0.

Satz 3.16 (Minkowski-Ungleichung). FürX ,Y ∈ Lp , 1 ≤ p ≤ ∞ giltX +Y ∈ Lp

und

‖X + Y ‖p ≤ ‖X ‖p + ‖Y ‖p . (3.38)

Beweis. Für p = 1 oder p = ∞ ist die Ungleichung (3.38) klar. Sei also p ∈(1,∞) und sei q so gewählt, dass 1/p + 1/q = 1 gilt. Nach Lemma 3.15 gilt|X +Y |p ≤ ( |X |+ |Y |)p ≤ 2p−1( |X |p + |Y |p ). AusX ,Y ∈ Lp folgt alsoX +Y ∈ Lp .Es gilt

|X + Y |p = |X + Y | |X + Y |p−1 ≤ |X | |X + Y |p−1 + |Y | |X + Y |p−1. (3.39)

Mit

(p − 1)q = p − 11/q =

p − 11 − 1/p = p

folgt

E[(|X + Y |p−1

)q]= E

[|X + Y |p

]< ∞.

Insbesondere gilt |X + Y |p−1 ∈ Lq , wenn X ,Y ∈ Lp . Nach Hölder-Ungleichung

gilt dann |X | |X + Y |p−1 ∈ L1 und |Y | |X + Y |p−1 ∈ L1 und

E[|X | |X + Y |p−1] ≤ ‖X ‖pE[(|X + Y |p−1

)q]1/q= ‖X ‖p ‖X + Y ‖

p/qp ,

E[|Y | |X + Y |p−1] ≤ ‖Y ‖pE[(|X + Y |p−1

)q]1/q= ‖X ‖p ‖X + Y ‖

p/qp .

Mit Ungleichung (3.39) folgt ‖X + Y ‖pp ≤ (‖X ‖p + ‖Y ‖p )‖X + Y ‖

p/qp . Mit

p − p/q = 1 folgt die Behauptung.

90

3.3 Unabhängige Ereignisse und Mengensysteme

Ist α ∈ R und X ∈ Lp so ist natürlich αX ∈ Lp und es gilt

‖αX ‖p = |α |‖X ‖p . (3.40)

Auf Lp denieren wir eine Metrik durch dp (X ,Y ) = ‖X − Y ‖p . Diese Me-trik ist oensichtlich symmetrisch und die Minkowski-Ungleichung liefertdafür die Dreiecksungleichung. Ferner ist dp (X ,Y ) = 0 genau dann, wennE[|X − Y |p] = 0 ist, d.h. wenn X = Y P-f.s. ist. Also ist dp eine Pseudometrik.Um sie zu einer Metrik zu machen identizieren wir Zufallsvariablen, die P-f.s.gleich sind. Die Menge Lp ist dann genau genommen eine Menge von Äqui-valenzklassen, wir unterscheiden aber nicht zwischen der Äquivalenzklasseund deren Repräsentanten. Nach dem Satz von Fischer-Riesz ist (L

p, ‖·‖p )

für p ∈ [1,∞] ein Banachraum, d.h. ein vollständiger normierter Raum (vgl.Satz 7.18 in Klenke (2013)).

3.3 Unabhängige Ereignisse und Mengensysteme

Es sei (Ω,A, P) ein Wahrscheinlichkeitsraum. Zwei Ereignisse A,B ∈ Aheißen bekanntlich unabhängig, wenn

P(A ∩ B) = P(A)P(B)

gilt. Wir erweitern nun diese Denition auf Familien von Ereignissen.

Denition 3.17 (Unabhängige Familien von Ereignissen). Es sei I eine beliebi-ge Indexmenge. Eine Familie (Ai )i∈I von EreignissenAi ∈ A heißt unabhängig,wenn für jede endliche Teilmenge J ⊂ I

P(∩j∈JAj

)=

∏j∈J

P(Aj ). (3.41)

Bemerkung 3.18 (Unabhängigkeit vs. paarweise Unabhängigkeit). Fordert manin der obigen Denition nur die Unabhängigkeit von je zwei Ereignissen (d.h.für alle zweielementigen Teilmengen J ⊂ I ), so spricht man von paarweiser Un-abhängigkeit. Natürlich impliziert Unabhängigkeit paarweise Unabhängigkeit.Die Umkehrung ist aber falsch.

Beispiel 3.19. Sei P die Gleichverteilung auf

Ω = (1, 0, 0), (0, 1, 0), (0, 0, 1), (1, 1, 1),

91

3.3 Unabhängige Ereignisse und Mengensysteme

d.h. P(ω) = 1/4 für jeden der vier Elemente ω ∈ Ω. Ferner sei

Ak = die kte Koordinate ist 1, k = 1, 2, 3.

Dann gilt

P(Ak ) =12 , k = 1, 2, 3

P(Ai ∩Aj ) =14 , i, j = 1, 2, 3, i , j,

P(Ai )P(Aj ) =14 , i, j = 1, 2, 3, i , j,

P(A1 ∩A2 ∩A3) =14 ,

P(A1)P(A2)P(A3) =18 .

Die MengenA1,A2,A3 sind also paarweise unabhängig, aber nicht unabhängig.Außerdem gilt mit A4 = ∅

P(A1 ∩A2 ∩A3 ∩A4) = 0 = P(A1)P(A2)P(A3)P(A4).

Also genügt es im Fall von endlichem I nicht, die Bedingung (3.41) für J = Iallein zu prüfen, um Unabhängigkeit von (Ai )i∈I zu zeigen.

Sind die Ereignisse A und B unabhängig, so sind auch A und Bc unabhängig,denn es ist

P(A ∩ Bc ) = P(A \ (A ∩ B)) = P(A) − P(A ∩ B) = P(A) − P(A)P(B)= P(A) (1 − P(B)) = P(A)P(Bc ).

Das folgende Resultat ist eine Verallgemeinerung.

Satz 3.20. Sei (Ai )i∈I eine Familie von Ereignissen mit einer beliebigen Index-menge I . Für i ∈ I setzen wir B0

i = Ai und B1i = Ac

i . Folgende Aussagen sindäquivalent.

(i) Die Familie (Ai )i∈I ist unabhängig.

(ii) Es gibt ein α ∈ 0, 1I , sodass (Bαii )i∈I unabhängig ist.

92

3.3 Unabhängige Ereignisse und Mengensysteme

(iii) Für jedes α ∈ 0, 1I ist (Bαii )i∈I unabhängig.

Beweis. Übung!

Satz 3.21 (Lemma von Borel-Cantelli). Sei (An )n∈N eine Folge von Ereignissenund sei A = lim supn→∞An. Dann gelten folgende Aussagen.

(i) Ist∑∞

n=1 P(An ) < ∞, so ist P(A) = 0.

(ii) Ist (An )n∈N unabhängig und gilt∑∞

n=1 P(An ) = ∞, so ist P(A) = 1.

Beweis. Mit Stetigkeit von oben und Subadditivität von P gilt nach Vorausset-zung

P(A) = P(∩∞n=1 ∪∞m=n Am ) = lim

n→∞P(∪∞m=nAm ) ≤ lim

n→∞

∞∑m=n

P(Am ) = 0,

was (i) zeigt.Für (ii) zeigen wir P(Ac ) = 0. Nach den de Morgannschen Regeln gilt

P(Ac ) = P(∪∞n=1 ∩∞m=n A

cm ) = lim

n→∞P(∩∞n=mA

cm ),

wobei wir im letzten Schritt die Stetigkeit von P von unten benutzt haben.Mit Stetigkeit von P von oben, der Unabhängigkeit, und der Ungleichunglog(1 − x ) ≤ −x für x ∈ [0, 1] folgt für jedes n

P(∩∞n=mAcm ) = lim

N→∞P(∩Nn=mA

cm ) = lim

N→∞

N∏m=n

P(Acm ) = lim

N→∞

N∏m=n

(1 − P(Am ))

= limN→∞

exp( N∑m=n

log(1 − P(Am )))≤ lim

N→∞exp

(−

N∑m=n

P(Am ))= 0.

Denition 3.22 (Unabhängige Mengensysteme). Es sei (Ei )i∈I eine Familievon Teilmengen Ei ⊂ A, wobei I eine beliebige Indexmenge ist. Die Familie(Ei )i∈I heißt unabhängig, wenn für jede endliche Teilmenge J ⊂ I und jedeWahl Ej ∈ Ej , j ∈ J

P(∩j∈JEj

)=

∏j∈J

P(Ej ) (3.42)

gilt.

93

3.3 Unabhängige Ereignisse und Mengensysteme

Folgender Satz sollte mit dem letzten Absatz von Beispiel 3.19 verglichenwerden. Die Aussagen könnten auf den ersten Blick widersprüchlich erschei-nen.

Satz 3.23. Es sei I endlich und für jedes i ∈ I sei Ei eine Teilmenge von A mitΩ ∈ Ei . Dann ist (Ei )i∈I genau dann unabhängig, wenn (3.42) für J = I gilt.

Beweis. Es ist nur zu zeigen, dass aus (3.42) für J = I die Unabhängigkeit folgt(die andere Richtung gilt trivialerweise). Sei J ′ eine echte Teilmenge von I . Fürj ∈ J ′ seien Ej ∈ Ej beliebig und für j ∈ I \ J ′ setzen wir Ej = Ω. Dann gilt

P(∩j∈J ′Ej

)= P

(∩j∈IEj

)=

∏j∈I

P(Ej ) =∏j∈J ′

P(Ej ).

Satz 3.24. Es sei I eine beliebige Indexmenge und für jedes i ∈ I sei Ei ⊂ A so,dass (Ei ∪ ∅) schnittstabil ist. Dann ist (Ei )i∈I genau dann unabhängig, wenn(σ (Ei ))i∈I unabhängig ist.

Beweis. Eine Richtung ist trivial. Für die andere zeigen wir, dass für alle endli-chen J , J ′ mit J ⊂ J ′ ⊂ I

P(∩j∈J ′Aj ) =∏j∈J ′

P(Aj ) (3.43)

für jede Wahl von (Aj )j∈J ′ mit Aj ∈ σ (Ej ), j ∈ J und Aj ∈ Ej , j ∈ J ′ \ J . In demFall J = J ′ ist es genau die Aussage, die wir zeigen müssen.

Wir beweisen (3.43) durch Induktion nach n = |J |. Für n = 0 ist die Aussagenach Voraussetzung erfüllt. Sei also (3.43) für alle J mit |J | = n erfüllt. Für einsolches J sei J = J ∪ j0 für ein j0 ∈ I \ J . Ferner sei J ′ ⊃ J .

Sei Aj ∈ σ (Ej ) für j ∈ J und Aj ∈ Ej für j ∈ J ′ \ J .Wir denieren auf (Ω,A) die Maße µ und ν durch

µ (A) B P(A ∩

⋂j∈J ′\j0

Aj

)und ν (A) B P(A)

∏j∈J ′\j0

P(Aj ) (3.44)

Ist A ∈ Ej0 ∪ ∅,Ω so gilt nach Induktionsvoraussetzung µ (A) = ν (A). Damitstimmen µ und ν auf einem schnittstabilen Erzeuger von σ (Ej0 ) überein. NachSatz 1.37 stimmen sie auch auf σ (Ej0 ) überein. Das zeigt (3.43) für J ′ mit|J ′| = n + 1.

94

3.4 Unabhängige Zufallsvariablen

3.4 Unabhängige Zufallsvariablen

Nun kommen wir zur Denition von unabhängigen Zufallsvariablen. Sei(Ω,A, P) wie zuvor ein Wahrscheinlichkeitsraum und I eine beliebige Index-menge. Für jedes i ∈ I sei (Ωi ,Ai ) ein messbarer Raum und Xi : (Ω,A) →(Ωi ,Ai ) eine A-Ai messbare Abbildung; jedes Xi ist also eine Ωi-wertige Zu-fallsvariable oder auch Ωi-wertiges Zufallselement. Wir lassen hier den ZusatzΩi-wertig weg und sprechen von Zufallsvariablen. Der Wertebereich sollteimmer aus dem Kontext klar sein. Wie in Übung 1.7 (vgl. auch Satz 3.1) be-zeichnen wir mit σ (Xi ) = X−1i (Ai ) = X

−1i (Ai ) : Ai ∈ Ai die von Xi auf Ω

erzeugte σ -Algebra.

Denition 3.25 (Unabhängige Zufallsvariablen). Die Familie (Xi )i∈I von Zu-fallsvariablen heißt unabhängig, falls die Familie der erzeugten σ -Algebren(σ (Xi ))i∈I gemäß Denition 3.22 unabhängig ist.

Unabhängigkeit von σ -Algebren ist eine gemeinsame Eigenschaft der σ -Algebren und des Wahrscheinlichkeitsmaßes P (auf der größeren σ -AlgebraA). Wie so oft werden Eigenschaften von Maßen auf schnittstabilen Erzeugernfestgelegt. Deswegen sollte das folgende Resultat nicht überraschend sein.

Satz 3.26. Für jedes i ∈ I sei Ei ein schnittstabiler Erzeuger von Ai . Ist dieFamilie (X−1i (Ei ))i∈I unabhängig, so ist auch (Xi )i∈I unabhängig.

Beweis. Da Urbilder von Durchschnitten, Durchschnitte von Urbildern sind(vgl. (1.34)), folgt mit Satz 1.63(i), dass X−1i (Ei ) ein schnittstabiler Erzeugervon σ (Xi ) ist. Mit Satz 3.24 folgt die Behauptung.

Denition 3.27 (Gemeinsame Verteilungsfunktion). Es sei (Xi )i∈I eine Familiereellwertiger Zufallsvariablen. Für endliche Teilmenge J ⊂ I wird die FunktionF J B F (X j )j ∈J : RJ → R, deniert durch

F J (x ) B P(∩j∈J X j ≤ xj

), x = (xj )j∈J ∈ R

J , (3.45)

die gemeinsame Verteilungsfunktion von (X j )j∈J genannt. Das zugehörige Wahr-scheinlichkeitsmaß P(X j )j ∈J heißt gemeinsame Verteilung von (X j )j∈J .

Satz 3.28. Es sei (Xi )i∈I eine Familie reellwertiger Zufallsvariablen auf demWahrscheinlichkeitsraum (Ω,A, P). Dann sind folgende Aussagen äquivalent.

95

3.4 Unabhängige Zufallsvariablen

(i) Die Familie (Xi )i∈I ist unabhängig.

(ii) Für jede endliche Teilmenge J ⊂ I und jedes x = (xj )j∈J ) gilt

F J (x ) =∏j∈J

Fj (xj ). (3.46)

(iii) Für jede endliche Teilmenge J ⊂ I und alle Borel-messbaren Funktionenдj : R→ R, j ∈ J gilt (sofern beide Seiten endlich sind)

E[∏j∈J

дj (X j )]=

∏j∈J

E[дj (X j )]. (3.47)

Beweis. Übung!

Nimmt man in (3.47) die Funktion дj als Identität für alle j, so folgt insbe-sondere

E[∏j∈J

X j

]=

∏j∈J

E[X j]. (3.48)

Also sind unabhängige Zufallsvariablen unkorreliert, vgl. Denition 3.8. DieUmkehrung ist im Allgemeinen falsch.

Satz 3.29. Seien X1, . . . ,Xn beliebige Zufallsvariablen mit endlichen zweitenMomenten. Dann gilt

Var[ n∑i=1

Xi

]=

n∑i,j=1

Cov[Xi ,X j] =n∑i=1

Var[Xi] + 2∑

1≤i<j≤nCov[Xi ,X j]. (3.49)

Insbesondere gilt

Var[ n∑i=1

Xi

]=

n∑i=1

Var[Xi] (3.50)

für unkorrelierte Zufallsvariablen.

96

3.4 Unabhängige Zufallsvariablen

Beweis. Wir können ohne Einschränkung E[Xi] = 0 für alle i = 1, . . . ,nannehmen. Ansonsten betrachten wir Xi = Xi − E[Xi]. Dann ist Var[Xi] =Var[Xi], Var

[∑ni=1Xi

]= Var

[∑ni=1 Xi

]und Cov[Xi ,X j] = Cov[Xi , X j].

Es gilt

Var[ n∑i=1

Xi

]= E

[( n∑i=1

Xi

)2]= E

[ n∑i,j=1

XiX j

]=

n∑i,j=1

E[XiX j]

=

n∑i,j=1

Cov[Xi ,X j] =n∑i=1

Cov[Xi ,Xi] + 2∑

1≤i<j≤nCov[Xi ,X j]

=

n∑i=1

Var[Xi] + 2∑

1≤i<j≤nCov[Xi ,X j].

Wir schließen diesen Abschnitt ab mit dem Beweis der Existenz unabhängi-ger Folgen von Zufallsvariablen mit vorgegebenen Verteilungen auf B (R).

Satz 3.30 (Existenz unabhängiger Folgen von Zufallsvariablen). Ist µ1, µ2, . . .eine endliche oder abzählbar unendliche Folge von Wahrscheinlichkeitsmaßenauf B (R), dann gibt es Wahrscheinlichkeitsraum (Ω,A, P) und eine Folge un-abhängiger Zufallsvariablen auf diesem Wahrscheinlichkeitsraum mit Xi ∼ µi .

Wir bereiten den Beweis des Satzes mit einigen Hilfsresultaten vor.

Satz 3.31. Sei

X11 X12 · · ·X21 X22 · · ·...

...

eine Familie unabhängiger Zufallsvektoren und sei Ai = σ (Xik : k ∈ N) dievon den Zufallvektoren der i-ten Zeile erzeugte σ -Algebra. Dann ist die Familie(Ai )i∈N unabhängig.

Beweis. Für i ∈ N sei Ei die Menge aller endlicher Schnitte der Form Xij ∈ H wobei H Borelmengen passender Dimension sind. Dann ist Ei ein schnittsta-biler Erzeuger von Ai . Mit Satz 3.26 folgt die Behauptung.

97

3.4 Unabhängige Zufallsvariablen

0 1 0 1 0 1

Abbildung 3.1: Graphen von d1 (ω), d2 (ω) und d3 (ω).

Lemma 3.32 (Existenz unabhängiger Bernoulli verteilter Zufallsvariablen).Es gibt einen Wahrscheinlichkeitsraum (Ω,A, P) und eine Folge unabhängigerZufallsvariablen (Zn )n∈N darauf mit

P(Zn = 0) = P(Zn = 1) = 12 , n ∈ N. (3.51)

Beweis. Sei Ω = (0, 1), A = B ((0, 1)) und sei P das Lebesgue-Maß aufB ((0, 1)). Zu jedem ω ∈ (0, 1) gibt eine nicht abbrechende dyadische Ent-wicklung .d1(ω)d2(ω) . . ., mit

ω =∞∑n=1

dn (ω)

2n .

Nicht abbrechend heißt z.B. dass wir von den beiden Darstellungen 12 =

.10000 . . . = .01111 . . . uns für die zweite entscheiden.Wir setzen Zn (ω) = dn (ω). Dann gilt (siehe Abbildung 3.1)

P(Z1 = 0) = P((0, 12 )

)=

12 = P

(( 12 , 1)

)= P(Z1 = 1).

Also hat Z1 die geforderte Verteilung. Ferner gilt

P(Z1 = 0,Z2 = 0) = P((0, 14 )

)=

14 .

Analog kann man sich überlegen, dass für alle i, j ∈ 0, 1

P(Z1 = i,Z2 = j ) =14

gilt. Zusammen mit

P(Z2 = 0) = P((0, 14 ) ∪ ( 12 ,

34 )

)=

12

98

3.4 Unabhängige Zufallsvariablen

und

P(Z2 = 2) = P(( 14 ,

12 ) ∪ ( 34 , 1)

)=

12

folgt Unabhängigkeit von Z1 und Z2. Mit analogen Argumenten zeigt mandie Unabhängigkeit von Z1, Z2 und Z3 und induktiv die Unabhängigkeit vonZ1, . . . ,Zn für alle n ∈ N.

Lemma 3.33 (Existenz unabhängiger uniform verteilter Zufallsvariablen).Es gibt einen Wahrscheinlichkeitsraum (Ω,A, P) und eine Folge unabhängigerZufallsvariablen (Un )n∈N darauf mitUn ∼ U ((0, 1)).

Beweis. Seien (Zn )n∈N wie in (3.51) unabhängige Bernoulli verteilte Zufallsva-riablen. Wir ordnen sie in Matrixform an

Z11 Z12 · · ·Z21 Z22 · · ·...

...

und setzen

Un =

∞∑k=1

Znk

2k.

Die Reihe ist konvergent und somit Un für jedes n nach Satz 1.68 messbar.Nach Satz 3.31 ist die Familie (Un )n∈N unabhängig. Wir zeigen nun, dassUn ∼ U ((0, 1)) gilt.

Die Zufallsvariable Snk =∑k

i=1 Zni2−i nimmt Werte j2−k 0 ≤ j < 2k an(Maximum von Snk ist ∑k

i=1 2−i = (2k − 1)2−k ). Wegen P(Zni = zi , 1 ≤ i ≤k ) = 2−k für alle z1, . . . , zk mit zi ∈ 0, 1 haben alle hat jede Realisierungvon Snk dieselbe Wahrscheinlichkeit 2−k . Ist 0 ≤ x < 1 und j2−k ≤ x so folgtj ≤ b2kxc. Also ist die Anzahl von j2−k in dem Intervall [0,x] gleich b2kxc + 1und damit ist P(Snk ≤ x ) = (b2kxc + 1)/2k . Wegen Snk (ω) ↑ Un (ω) für k → ∞folgt Snk ≤ x ↓ Un ≤ x für k → ∞. Mit Stetigkeit von P erhalten wir

P(Un ≤ x ) = limk→∞

P(Snk ≤ x ) = limk→∞

b2kxc + 12k

= x , 0 ≤ x < 1.

Damit ist Un uniform verteilt auf dem Einheitsintervall.

99

3.5 Faltung

Nun können wir Satz 3.30 beweisen indem wir die gesuchten Zufallsvaria-blen Xn aus den uniform verteilten erzeugen.

Beweis von Satz 3.30. Seien µ1, µ2, . . .Wahrscheinlichkeitsmaße aufB (R) undF1, F2, . . . die zugehörigen Verteilungsfunktionen. Wir denieren ϕn durch

ϕn (u) =

inf x : u ≤ Fn (x ) : für 0 < u < 10 : sonst.

(3.52)

Da Fn nichtfallend und rechtsstetig ist, gilt ϕn (u) ≤ x genau dann, wennu ≤ Fn (x ) gilt.

Sei (Ω,A, P) der Wahrscheinlichkeitsraum aus Lemma 3.32 und seienU1,U2, . . . die uniform Verteilten Zufallsvariablen aus Lemma 3.33. Wir de-nieren Xn (ω) = ϕn (Un (ω). Dann sind X1,X2, . . . unabhängige Zufallsvariablenauf (Ω,A, P). Außerdem gilt

P(Xn ≤ x ) = P(ϕn (Un ) ≤ x ) = P(Un ≤ Fn (x )) = Fn (x ).

Also ist Fn die Verteilungsfunktion von Fn.

In dieser Vorlesung genügt uns Satz 3.30. Eine Folge unabhängiger Zu-fallsvariablen ist ein spezieller stochastischer Prozess in diskreter Zeit. FürExistenz allgemeinerer (abhängiger) stochastischer Prozesse in diskreter oderstetiger Zeit gibt es Verallgemeinerungen von Satz 3.30, nämlich der Satz vonIonescu-Tulcea und der Erweiterungssatz von Kolmogorov; vgl. Abschnitt 14.3in Klenke (2013).

3.5 Faltung

Es seien X und Y unabhängige Zufallsvariablen mit Verteilungen µ und ν . FürH ∈ B (R) und x ∈ R setzen wir

H − x = y ∈ R : y + x ∈ H .

100

3.5 Faltung

Mit dem Satz von Fubini 2.36 angewandt auf die Funktion f (x ,y) = 1H (x +y)erhalten wir

P(X + Y ∈ H ) =

∫ ∞

−∞

∫ ∞

−∞

f (x ,y) ν (dy) µ (dx )

=

∫ ∞

−∞

ν (H − x ) µ (dx )

=

∫ ∞

−∞

P(Y ∈ H − x ) µ (dx )

(3.53)

Denition 3.34 (Faltung). Die Faltung zweier Wahrscheinlichkeitsmaße µund ν ist das Wahrscheinlichkeitsmaß µ ∗ ν deniert durch

(µ ∗ ν ) (H ) =

∫ ∞

−∞

ν (H − x ) µ (dx ), H ∈ B (R). (3.54)

SindX undY unabhängig mit Verteilungen µ und ν , dann ist µ∗ν nach (3.53)die Verteilung von X + Y . Da Addition von Zufallsvariablen kommutativ undassoziativ ist, gilt dasselbe auch für die Faltung: µ ∗ ν = ν ∗ µ und µ ∗ (ν ∗ η) =(µ ∗ ν ) ∗ η.

Seien F und G die zu µ und ν gehörige Verteilungsfunktionen. Die Vertei-lungsfunktion, die zu der Faltung µ ∗ ν gehört wird mit F ∗G bezeichnet undmit H = (−∞,y] in (3.54) folgt

(F ∗G ) (y) =

∫ ∞

−∞

G (y − x ) dF (x ), (3.55)

wobei dF (x ) = µ (dx ). Besitzt G eine Dichte д, dann ist

G (y − x ) =

∫ y−x

−∞

д(s ) ds =

∫ y

−∞

д(t − x ) dt . (3.56)

Nach Fubini’s Theorem ist die rechte Seite in (3.55) gleich∫ y

−∞

[∫ ∞

−∞

д(t − x ) dF (x )]dt .

Also hat F ∗G die Dichte

(F ∗ д) (y) =

∫ ∞

−∞

д(y − x ) dF (x ). (3.57)

101

3.5 Faltung

Hat auch F eine Dichte f , dann ist dF (x ) = f (x ) dx . Wir bezeichnen dieDichte von F ∗G mit f ∗ д und es gilt

( f ∗ д) (y) =

∫ ∞

−∞

д(y − x ) f (x ) dx . (3.58)

Die Gleichung (3.58) deniert die Faltung von Dichten, und µ ∗ν hat die Dichtef ∗ д, wenn µ die Dichte f und ν die Dichte д hat.

Beispiel 3.35. SeienX1, . . . ,Xn unabhängige Zufallsvariablen mitXi ∼ Exp(α )für alle i = 1, . . . ,n, d.h. die Dichte von Xi ist gegeben durch (3.9). Wir de-nieren дk durch

дk (x ) = α(αx )k−1

(k − 1)!e−αx , x ≥ 0, k = 1, 2, . . . (3.59)

und setze дk (x ) = 0 für x < 0.Es gilt

(дk−1 ∗ д1) (y) =

∫ y

0дk−1(y − x )д1(x ) dx = дk (y).

Die letzte Gleichung rechnet man leicht mit partieller Integration nach. Daд1 die Dichte der Exponentialverteilung ist, folgt induktiv, dass дk die Dichtevon X1 + . . . + Xk ist. Die zugehörige Verteilungsfunktion ist

Gk (x ) = 1 − e−αxk−1∑i=0

(αx )i

i! = e−αx∞∑i=k

(αx )i

i! .

Das kann man z.B. durch Ableiten von G nachrechnen.Die Funktion дk ist die Dichte der Gamma(k,α )-Verteilung. Wir haben also

soeben nachgerechnet, dass die Summe von n unabhängigen Exp(α ) verteiltenZufallsvariablen Gamma(n,α ) verteilt ist:

Exp(α )∗n = Exp(α ) ∗ · · · ∗ Exp(α ) = Gamma(n,α ). (3.60)

Beispiel 3.36. Es seien die Zufallsvariablen X1, . . . ,Xn unabhängig mit Xi ∼

N(µi ,σ2i ) für µi ∈ R und σi > 0, d.h. die Dichte von Xi ist

fi (x ) =1√2πσ 2

i

exp−(x − µi )

2

2σ 2i

, x ∈ R.

102

3.5 Faltung

Wenn µ1 = µ2 = 0 ist, so gilt mit σ1 = σ und σ2 = τ

( f1 ∗ f2) (y) =1

2πστ

∫ ∞

−∞

exp−(y − x )2

2σ 2 −x2

2τ 2dx . (3.61)

Wir substituieren

u =x√σ 2 + τ 2

στ, x =

στ√σ 2 + τ 2

u, dx =στ

√σ 2 + τ 2

du .

Es gilt

−(y − x )2

2σ 2 −x2

2τ 2 = −12

[y2σ 2 −

2uyτσσ 2√σ 2 + τ 2

+u2τ 2σ 2

σ 2√σ 2 + τ 2

+u2τ 2σ 2

τ 2√σ 2 + τ 2

]

= −12

[(σ 2 + τ 2)

y2

σ 2(σ 2 + τ 2)−

2uyτσσ 2√σ 2 + τ 2

+ u2]

= −12

[ y2

σ 2 + τ 2+

(y · τσ )2

σ 2 + τ 2−

2uy τσ√σ 2 + τ 2

+ u2]

= −12

[ y2

σ 2 + τ 2+

(u −

y · τσ√σ 2 + τ 2

)2].

Setzen wiry B

y · τσ√σ 2 + τ 2

dann folgt mit der obiger Rechnung eingesetzt in (3.61)

( f1 ∗ f2) (y) =1

2πστστ

√σ 2 + τ 2

∫ ∞

−∞

exp−

y2

2(σ 2 + τ 2)−12 (u − y)

2du

=1√

2π (σ 2 + τ 2)exp

y2

2(σ 2 + τ 2)

∫ ∞

−∞

1√2π

exp−12 (u − y)

2du

=1√

2π (σ 2 + τ 2)exp

y2

2(σ 2 + τ 2)

.

Für die letzte Gleichheit haben wir ausgenutzt, dass der Integrand in dervorletzten Zeile die Dichte der N(y, 1) ist. In der letzten Zeile erkennen wirdie Dichte der N(0,σ 2 + τ 2) Verteilung .

103

3.6 Konvergenz von Zufallsvariablen

Wir haben also nachgerechnet

N(0,σ 21 ) ∗ N(0,σ 2

2 ) = N(0,σ 21 + σ

22 ).

Generell kann man zeigen

N(µ1,σ21 ) ∗ · · · ∗ N(µn,σ

2n ) = N

( n∑i=1

µi ,n∑i=1

σ 2i

).

3.6 Konvergenz von Zufallsvariablen

Im Folgenden sei (Ω,A, P) ein Wahrscheinlichkeitsraum und X ,X1,X2, . . .seien Zufallsvariablen darauf.Denition 3.37 (Konvergenz in Wahrscheinlichkeit, fast sicher und in L

p).(i) Die Folge (Xn ) konvergiert in Wahrscheinlichkeit oder stochastisch gegen

X , wir schreiben XnP→ X , wenn für alle ε > 0 gilt

P( |Xn − X | ≥ ε )n→∞−−−−→ 0. (3.62)

(ii) Die Folge (Xn ) konvergiert fast sicher gegen X , wir schreiben Xnf.s.−−→ X ,

wenn es eine Menge N ⊂ Ω mit P(N ) = 0 gibt, sodass

Xn (ω)n→∞−−−−→ X (ω), für alle ω < N . (3.63)

(iii) Seien X ,X1,X2, . . . ∈ Lp für p > 0. Die Folge (Xn ) konvergiert in Lp oder

im p-ten Mittel gegen X , wir schreiben XnLp

−−→ X , wenn

‖Xn − X ‖pn→∞−−−−→ 0. (3.64)

Bemerkung 3.38. Die fast sichere Konvergenz haben wir im Kontext allgemei-ner Maße bereits früher kennen gelernt und als fast überall Konvergenz be-zeichnet; vgl. Bemerkung 2.6. Integrationssätze, wie etwa Satz von monotonerKonvergenz (Satz 2.8) oder Satz von der majorisierten Konvergenz (Satz 2.12),die wir für fast überall konvergente messbare Funktionen bewiesen haben,gelten also auch für fast sicher konvergente Folgen von Zufallsvariablen.

Analog zu (3.62) kann man auch einen Konvergenzbegri für beliebigeMaße einführen. In dem allgemeinen Fall spricht man dann von Konvergenzdem Maße nach.

104

3.6 Konvergenz von Zufallsvariablen

Satz 3.39. Konvergenz in Lp impliziert Konvergenz in Wahrscheinlichkeit.

Beweis. Mit Markov-Ungleichung (3.31) gilt für jedes ε > 0

P( |Xn − X | ≥ ε ) ≤ ε−pE[|Xn − X |

p] = ε−p ‖Xn − X ‖pp

n→∞−−−−→ 0.

Die umgekehrte Implikation in Satz 3.39 ist ohne weitere Voraussetzun-gen, nämlich gleichgradige Integrierbarkeit von |Xn |

p , falsch. An dieser Stelleverweisen auf Satz 6.25 und Satz 7.3 in Klenke (2013). Wir kommen später(teilweise) darauf zurück im Zusammenhang mit Konvergenz in Verteilung.

Beispiel 3.40 (XnP−→ X ; Xn

Lp

−−→ X ). Sei P = λ |B ((0,1)) das Lebesgue-Maß(also Gleichverteilung) auf (0, 1) und sei Xn = 2n1(0,n−1) . Für ε > 0 gilt

P( |Xn − 0| ≥ ε ) =∫

2n1(0,n−1)∩[ε,1) dλ.

Für n > ε−1 ist die Indikatorfunktion im Integral gleich Null. Also konvergiertXn in Wahrscheinlichkeit gegen 0.

Andererseits gilt

E[|Xn |p] =

∫2np1(0,n−1) dλ = 2npλ((0,n−1)) = 2np

n

n→∞−−−−→ ∞,

also konvergiert Xn nicht in im p-ten Mittel gegen 0.

In dem folgenden Satz geben wir eine oft nützliche äquivalente Charakteri-sierung der fast sicheren Konvergenz an.

Satz 3.41. Es gilt Xn → X f.s. genau dann, wenn für alle ε > 0 gilt

P( |Xk − X | ≥ ε für ein k ≥ n)n→∞−−−−→ 0. (3.65)

Beweis. Für ε > 0 setzen wir Bkε = |Xk − X | ≥ ε und

Bε = lim supn

Bnε =⋂n

⋃k≥n

Bkε .

105

3.6 Konvergenz von Zufallsvariablen

Mit Stetigkeit von P folgt

P(Bε ) = limn→∞

P(∪k≥nBkε )

und es gilt

ω : Xn (ω) 6→ X (ω) = ω : ∃ε > 0∀n ∃k ≥ n : |Xk (ω) − X (ω) | ≥ ε

=⋃ε>0

⋂n

⋃k≥n

ω : |Xk (ω) − X (ω) | ≥ ε

=⋃ε>0

Bε .

Also gilt Xn → X f.s. genau dann, wenn P(Bϵ ) = 0 für alle ε > 0.

Satz 3.42. Fast sichere Konvergenz impliziert Konvergenz in Wahrscheinlichkeit.

Beweis. Mit Charakterisierung der fast sicheren Konvergenz aus Satz 3.41 undNotation aus dem zugehörigen Beweis gilt Bnε ⊂ ∪k≥nBkε und damit

P( |Xn − X | ≥ ε ) = P(Bnε ) ≤ P(∪k≥nBkε )n→∞−−−−→ P(Bε ) = 0 für alle ε > 0.

Auch in Satz 3.42 gilt die umgekehrte Implikation im Allgemeinen nicht; vgl.Übung 3.11 und Übung 3.14. Zumindest gilt aber eine teilweise Umkehrung;siehe Satz 3.44. Das folgende Kriterium für fast sichere Konvergenz ist eineFolgerung aus dem ersten Borel-Cantelli Lemma; Satz 3.21. Für eine Folge An

von Ereignisse schreiben wir (vgl. Bemerkung 1.3)

An u. o. = lim supn

An .

Dabei steht „u.o.“ für unendlich oft.

Lemma 3.43. Gilt für Zufallsvariablen X ,X1,X2, . . .

∞∑n=1

P( |Xn − X | ≥ ε ) < ∞ für alle ε > 0, (3.66)

dann folgt Xnf.s.−−→ X .

106

3.6 Konvergenz von Zufallsvariablen

Beweis. Sei εk ,k = 1, 2, . . . eine Folge positiver reeller Zahlen mit εk → 0.Dann ist

Xn 6→ X =∞⋃k=1|Xn − X | ≥ εk u.o..

Damit folgt

P(Xn 6→ X ) ≤∞∑k=1

P( |Xn − X | ≥ εk u.o.).

Mit Borel-Cantelli Lemma und Voraussetzung (3.66) sehen wir, dass die Wahr-scheinlichkeiten in der Summe auf der rechten Seite gleich 0 sind.

Satz 3.44. Es gilt XnP−→ X genau dann, wenn jede Teilfolge (Xnk ) eine weitere

Teilfolge (Xnk (i ) ) enthält mit Xnk (i )

f.s.−−→ X .

Beweis. Wenn XnP−→ X gilt und (nk ) eine Teilfolge von (n) ist, dann wählen

wir eine weitere Teilfoge (nk (i ) ) so, dass

P( |Xnk (i ) − X | ≥ i−1) < 2−i für alle i .

Für jedes ε gilt i−1 < ε wenn i > ε−1. Damit gilt∞∑i=1

P( |Xnk (i ) − X | ≥ ε ) < ∞ für alle ε > 0.

Mit Lemma 3.43 folgt Xnk (i )

f.s.−−→ X .

Wenn Xn nicht gegen X in Wahrscheinlichkeit konvergiert, dann gibt es einε > 0 mit P( |Xnk − X | ≥ ε ) > ε entlang einer Teilfolge (nk ). Keine Teilfolgedavon kann in Wahrscheinlichkeit gegen X konvergieren. Also kann auchkeine fast sicher gegen X konvergieren.

Beispiel 3.45. Seien X ,X1,X2, . . . und Y ,Y1,Y2, . . . Zufallsvariablen.

(i) Gilt fürp ≥ 1XnLp

−−→ X undYnLp

−−→ Y , so folgt mit Minkowski-Ungleichung

leicht Xn + YnLp

−−→ X + Y .

107

3.7 Null-Eins Gesetz von Kolmogorov

(ii) Gilt Xnf.s.−−→ X und Yn

f.s.−−→ Y , so gilt auch Xn + Yn

f.s.−−→ X + Y . Denn

P(Xn + Yn 6→ X + Y ) ≤ P(Xn 6→ X ) + P(Yn 6→ Y ) = 0.

(iii) Gilt XnP−→ X und Yn

P−→ Y , so gilt auch Xn + Yn

P−→ X + Y . Denn für alle

ε > 0 gilt

P( |Xn + Yn − (X + Y ) | ≥ ε ) ≤ P( |Xn − X | + |Yn − Y | ≥ ε )

≤ P( |Xn − X | ≥ ε/2 oder |Yn − Y | ≥ ε/2)≤ P( |Xn − X | ≥ ε/2) + P( |Yn − Y | ≥ ε/2)n→∞−−−−→ 0.

3.7 Null-Eins Gesetz von Kolmogorov

Mit dem Borel-Cantelli Lemma haben wir bereits ein Null-Eins Gesetz ken-nen gelernt. Ist nämlich A1,A2, . . . eine Folge unabhängiger Ereignisse, dannist nach Borel-Cantelli Lemma P(lim supn An ) ∈ 0, 1. In diesem Abschnittbeweisen wir ein weiteres Null-Eins Gesetz.

Es sei (Xn )n∈N eine Folge von Zufallsvariablen und sei A die Menge allerω, für die ∑∞

n=1Xn (ω) konvergiert. Für die Frage ob ω ein Element von Aist oder nicht sind natürlich die Werte X1(ω), . . . ,Xm (ω) für jedes m ∈ Nirrelevant. Vielmehr ist entscheidend was im Unendlichen passiert. Also sollteA ein Element der σ -Algebra σ (Xm,Xm+1, . . .), und zwar für jedesm, sein.

Denition 3.46 (Terminale σ -Algebra). Die σ -Algebra

T B ∩∞n=1σ (Xn,Xn+1, . . .) (3.67)

heißt terminale σ -Algebra der Folge (Xn )n∈N. Elemente vonT heißen terminaleEreignisse.

Beispiel 3.47. Wie schon oben bemerkt sind die folgenden Ereignisse terminal ∞∑n=1

Xn

nkonvergiert

,

∞∑n=1

Xn konvergiert.

108

3.7 Null-Eins Gesetz von Kolmogorov

Weitere Beispiele terminaler Ereignisse sind

Xn ∈ In u.o. = lim supnXn ∈ In, für In ∈ B (R),

lim supn

Xn < ∞,

lim supn→∞

1n

n∑i=1

Xi < ∞,

lim supn→∞

1n

n∑i=1

Xi < c.

Die folgenden Ereignisse sind nicht terminal

Xn = 0 für alle n ≥ 1, ∞∑n=1

Xn konvergiert und ist kleiner als c.

Satz 3.48 (Null-Eins Gesetz von Kolmogorov). Es sei (Xn )n∈N unabhängig undsei T die zugehörige terminale σ -Algebra. Ist A ∈ T , so gilt P(A) ∈ 0, 1.

Beweis. Die Beweisidee ist zu zeigen, dass ein terminales Ereignis A von sichselbst unabhängig ist. Ist das gezeigt, so folgt P(A) = P(A)P(A) und somitP(A) ∈ 0, 1.

Sei A0 = ∪∞k=1σ (X1, . . . ,Xk ). Wir zeigen zunächst, dass A0 eine Algebra

ist, die die σ -Algebra σ (X1,X2, . . .) erzeugt. Dass Ω ∈ A0 und dass A0 abge-schlossen bezüglich Komplementenbildung ist klar. Sind B und C Mengen ausA0, dann gibt es j und k mit B ∈ σ (X1, . . . ,X j ) und C ∈ σ (X1, . . . ,Xk ). Fürm = maxk, j ist dann B,C ∈ σ (X1, . . . ,Xm ) und somit B∪C ∈ σ (X1, . . . ,Xm ).Also istA0 eine Algebra. Ist H ∈ B (R), dann ist X−1n (H ) ∈ A0 ⊂ σ (A0). Alsoist Xn messbar bezüglich σ (A0) und somit gilt σ (A0) = σ (X1,X2, . . .).

Sei nun A ∈ T . Dann gilt A ∈ σ (Xk+1,Xk+2, . . .) für jedes k . Ist B ∈σ (X1, . . . ,Xk ), dann sind A und B unabhängig nach Satz 3.31. Damit ist Aunabhängig von A0 und nach Satz 3.24 auch unabhängig von σ (X1,X2, . . .).Insbesondere ist A unabhängig von sich selbst, was den Beweis abschließt.

Korollar 3.49. Sei Y eine Zufallsvariable, die messbar bezüglich der terminalenσ -Algebra T ist, d.h. Y−1(B) ∈ T für alle B ∈ B (R). Dann ist Y trivial in demSinne, dass es ein c gibt mit P(Y = c ) = 1.

Beweis. Übung!

109

3.8 Starkes Gesetz der großen Zahlen

3.8 Starkes Gesetz der großen Zahlen

Es sei (Xn )n∈N eine Folge reellwertiger Zufallsvariablen und sei

Sn Bn∑i=1

Xi . (3.68)

Wir sagen, dass die Folge (Xn )n∈N dem schwachen Gesetz der großen Zahlengenügt, wenn

1n

n∑i=1

(Xi − E[Xi])P−→ 0, für n → ∞. (3.69)

Wir sagen, dass die Folge (Xn )n∈N dem starken Gesetz der großen Zahlen genügt,wenn

1n

n∑i=1

(Xi − E[Xi])f.s.−−→ 0, für n → ∞. (3.70)

Das Hauptziel dieses Abschnittes ist der Beweis einer allgemeinen Versiondes starken Gesetzes der großen Zahlen (GGZ) für Folgen identisch verteilterpaarweise unabhängiger Zufallsvariablen. Für solche Zufallsvariablen sind dieobigen Aussagen gleichbedeutend mit

1nSn

P−→ E[X1] (3.71)

bzw.1nSn

f.s.−−→ E[X1]. (3.72)

Natürlich impliziert das starke GGZ das schwache GGZ. Lässt man die Un-abhängigkeitsvoraussetzung fallen, so kann man unter geeigneten Annahmenan Varianzen und Kovarianzen von Zufallsvariablen das schwache GGZ rela-tiv einfach mit Hilfe der Chebyshev Ungleichung beweisen; vgl. Übung 3.13.Für Folgen unabhängiger identisch verteilter Zufallsvariablen mit endlichenvierten Momente kann man mit Chebyshev Ungleichung zeigen, dass für jedesε > 0

∞∑n=1

P(1nSn − E[X1]

> ε)< ∞. (3.73)

110

3.8 Starkes Gesetz der großen Zahlen

Mit Borel-Cantelli Lemma folgt dann 1nSn

f.s.−−→ E[X1]. Der Beweis ist dann

zwar vergleichsweise einfach, aber wie das folgende Resultat zeigt, sind dieVoraussetzungen viel zu stark.

Das folgende Resultat geht auf Kolmogorov zurück und wurde ursprünglichfür unabhängige anstatt für paarweise unabhängige Folgen von Zufallsvaria-blen bewiesen. Der Beweis der allgemeineren Version stammt von Etemadi.Satz 3.50 (Starkes GGZ von Etemadi und Kolmogorov). Es sei (Xn )n∈N eine Fol-ge integrierbarer, paarweise unabhängiger und identisch verteilter reellwertiger

Zufallsvariablen. Dann gilt n−1Snf.s.−−→ E[X1] für n → ∞.

Beweis. Wenn der Satz für nichtnegative Zufallsvariablen gilt, dann folgt

1nSn =

1n

n∑i=1

X+k −1n

n∑i=1

X−kf.s.−−→ E[X+1 ] − E[X−1 ].

Also können wir ohne Einschränkung annehmen, dass die ZufallsvariablenXn nichtnegativ sind.

Wir denieren eine Folge gestutzter (trunkierter) Zufallsvariablen (Yn )n∈Ndurch

Yn B Xn1Xn≤n

und setzen

S∗n =n∑

k=1Yk .

Für festes α > 1 denieren wir un = bαnc und zeigen zunächst∞∑n=1

P(S∗un − E[S

∗un ]

un

> ε

)< ∞. (3.74)

Da Xn paarweise unabhängig sind, sind auch Yn paarweise unabhängig und esfolgt

Var[S∗n] =n∑

k=1Var[Yk] ≤

n∑k=1

E[Y 2k ]

=

n∑k=1

E[X 2k1Xk≤k ] ≤ nE[X 2

11X1≤n].

111

3.8 Starkes Gesetz der großen Zahlen

Mit Chebyshev-Ungleichung folgt, dass die Summe in (3.74) nach oben be-schränkt ist durch∞∑n=1

1ε2u2n

Var[S∗un ] ≤∞∑n=1

1ε2u2n

unE[X 211X1≤un ] =

1ε2E

[X 21

∞∑n=1

1un1X1≤un

].

Sei K = 2α/(α − 1) und sei x > 0. Wenn N die kleinste natürliche Zahl n mitun ≥ x , dann ist αN ≥ x und wegen y ≤ 2byc (und byc−1 ≤ 2y−1) für y ≥ 1folgt

∞∑n=1

1un1x≤un =

∑un≥x

1un≤ 2

∑n≥N

1αn=

2αN

11 − 1/α =

K

αN≤

K

x.

Damit ist ∑∞n=1

1un1X1≤un ≤ KX−11 für X1 > 0 und die Summe in (3.74) ist

beschränkt durch Kε−2E[X1] < ∞.Aus (3.74) folgt mit Borel-Cantelli Lemma (speziell mit Lemma 3.43)

S∗un − E[S∗un ]

un

f.s.−−→ 0. (3.75)

Mit dem Satz von monotoner Konvergenz gilt E[Yn]n→∞−−−−→ E[X1]. Ist (xn )

eine konvergente reelle Folge, so konvergiert auch der Cesàro Durchschnittn−1

∑nk=1 xk und die beiden Grenzwerte stimmen überein (wenn das nicht

ohnehin bekannt ist, kann es leicht gezeigt werden). Es folgt

1nE[S∗n] =

1n

n∑k=1

E[Yk]n→∞−−−−→ E[X1],

und damit gilt u−1n S∗unf.s.−−→ E[X1].

Nun wollen wir aus der Konvergenz vonu−1n S∗un auf die vonu−1n Sun schließen.Es gilt (vgl. Übung 2.14(a) für die letzte Gleichung)

∞∑n=1

P(Xn , Yn ) =∞∑n=1

P(X1 > n) ≤

∫ ∞

0P(X1 > t ) dt = E[X1] < ∞.

Eine weitere Anwendung von Borel-Cantelli Lemma zeigt (S∗n − Sn )/nf.s.−−→ 0

und es folgtSunun

f.s.−−→ E[X1]. (3.76)

112

3.8 Starkes Gesetz der großen Zahlen

Es bleibt noch zu zeigen, dass wir in dem obigen Display un durch n ersetzenkönnen.

Ist un ≤ k ≤ un+1, dann folgt mit Xi ≥ 0

unun+1

Sunun≤

Skk≤un+1un

Sun+1un+1.

Mit un+1/un → α für n → ∞ und (3.76) folgt

1αE[X1] ≤ lim inf

k

Skk≤ lim sup

k

Skk≤ αE[X1] fast sicher.

Diese Ungleichung ist für alle α > 1 erfüllt. Damit hat auch das Ereignislimk

Sk = E[X1]=

⋂α∈Q∩(1,∞)

1αE[X1] ≤ lim inf

k

Skk≤ lim sup

k

Skk≤ αE[X1]

Wahrscheinlichkeit 1, also gilt n−1Snf.s.−−→ E[X1].

Korollar 3.51. Es sei (Xn )n∈N eine Folge paarweise unabhängiger und identischverteilter Zufallsvariablen mit E[X−1 ] < ∞, E[X+1 ] = ∞ (dann ist E[X1] = ∞).

Dann gilt n−1Snf.s.−−→ ∞.

Beweis. Nach dem starken GGZ gilt n−1 ∑nk=1X

−k

f.s.−−→ E[X−1 ], also genügt es

das Resultat für den Fall Xk = X+k≥ 0 zu beweisen. Für X (u)

n B Xn10≤Xn≤u

gilt

1n

n∑k=1

Xk ≥1n

n∑k=1

X (u)k

f.s.−−→ E[X (u)

1 ].

Mit dem Satz von monotoner Konvergenz gilt E[X (u)1 ] → E[X1], was den

Beweis abschließt.

Beispiel 3.52. IstX eine Cauchy verteilte Zufallsvariable mit Parameteru > 0hat die Dichte

cu (x ) =u

π (u2 + x2), x ∈ R.

113

3.9 Maximalungleichungen

Es gilt

E[X+] =∫ ∞

0x

u

π (u2 + x2)dx ≥

u

π

∫ ∞

1

1xdx = ∞.

Da die Dichte symmetrisch ist, folgt auch E[X−] = ∞. Der Erwartungswertvon X existiert also nicht.

Ist X1,X2, . . . eine Folge unabhängiger identisch Cauchy verteilter Zufalls-variablen, so können wir weder Satz 3.50 noch Korrolar 3.51 anwenden umetwas über n−1Sn aussagen zu können. Nach Übung 3.9 wissen wir aber, dassn−1Sn genauso Cauchy verteilt ist wie die Xi . Insbesondere kann es nicht fastsicher oder in Wahrscheinlichkeit gegen eine Konstante konvergieren.

Wir werden bald eine weitere Konvergenzart für Folgen von Zufallsvaria-blen behandeln, nämlich Konvergenz in Verteilung. Dabei konvergiert eineFolge Zn in Verteilung gegen eine Zufallsvariable Z wenn die Folge der Vertei-lungsfunktionen von Zn gegen die von Z an den Stetigkeitsstellen letztererkonvergiert. Für Zn = n

−1Sn und Z = X1 ist dies oenbar erfüllt (sogar exakt).

3.9 Maximalungleichungen

In diesem Abschnitt betrachten wir Maximalungleichungen, die sehr hilfreichsind um Summen von Zufallsvariablen zu studieren. Die bekannteste Maxi-malungleichung ist die Ungleichung von Kolmogorov. Gegeben eine FolgeX1,X2, . . . von Zufallsvariablen, schreiben wir wie zuvor Sn =

∑ni=1Xi .

Satz 3.53 (Kolmogorov-Ungleichung). Seien X1, . . . ,Xn unabhängige Zufalls-variablen mit E[Xi] = 0 und Var[Xi] = E[X 2] < ∞. Für jedes α > 0 gilt

P(max1≤k≤n

|Sk | ≥ α)≤

1α2 Var[Sn]. (3.77)

Beweis. SeiAk B |Sk | ≥ α , |Sj | < α , j = 1, . . . ,k − 1.

114

3.9 Maximalungleichungen

Da die Ereignisse Ak disjunkt sind, aber möglicherweise Ω , ∪nk=1Ak , gilt

Var[Sn] = E[S2n] ≥n∑

k=1

∫Ak

S2n dP

=

n∑k=1

∫Ak

(S2k + 2Sk (Sn − Sk ) + (Sn − Sk )

2)dP

n∑k=1

∫Ak

(S2k + 2Sk (Sn − Sk )

)dP.

Das EreignisAk und die Zufallsvariable Sk sind messbar bezüglichσ (X1, . . . ,Xk )und der Zuwachs Sn − Sk =

∑ni=k+1Xi ist messbar bezüglich σ (Xk+1, . . . ,Xn ).

Die beiden σ -Algebren sind unabhängig. Also gilt∫Ak

Sk (Sn − Sk ) dP = E[1AkSk (Sn − Sk )] = E[1AkSk]E[(Sn − Sk )] = 0.

Es folgt

Var[Sn] = E[S2n] ≥n∑

k=1

∫Ak

S2k dP ≥n∑

k=1

∫Ak

α2 dP

= α2n∑

k=1P(Ak ) = α

2P(max1≤k≤n

|Sk | ≥ α).

Mit Chebychev-Ungleichung für Sn erhalten wir unter Voraussetzungenvon Satz 3.53

P( |Sn | ≥ α ) ≤1α2 Var[Sn].

Dass, es zu Kolmogorov-Ungleichung verstärkt werden kann, kann man heuris-tisch wie folgt begründen: Wenn für Summen unabhängiger Zufallsvariablenmax1≤k≤n |Sk | groß ist, dann sollte auch |Sn | groß sein. Folgender Satz vonEtemadi ist auch ein Resultat in diese Richtung.Satz 3.54 (Etemadi). Für unabhängige Zufallsvariablen X1, . . . ,Xn und α ≥ 0gilt

P(max1≤k≤n

|Sk | ≥ 3α)≤ 3 max

1≤k≤nP(|Sk | ≥ α

). (3.78)

115

3.10 Reihen unabhängiger Zufallsvariablen

Beweis. Sei

Bk B |Sk | ≥ 3α , |Sj | < 3α , j = 1, . . . ,k − 1.

Die Ereignisse Bk sind disjunkt und es gilt

P(max1≤k≤n

|Sk | ≥ 3α)= P

(max1≤k≤n

|Sk | ≥ 3α , |Sn | ≥ α)+ P

(max1≤k≤n

|Sk | ≥ 3α , |Sn | < α)

≤ P( |Sn | ≥ α ) +n−1∑k=1

P(Bk , |Sn | < α ).

Aus |Sk | ≥ 3α und |Sn | < α folgt |Sn − Sk | > 2α . Außerdem sind die EreignisseBk und |Sn − Sk | > 2α unabhängig. Damit gilt

P(max1≤k≤n

|Sk | ≥ 3α)≤ P( |Sn | ≥ α ) +

n−1∑k=1

P(Bk , |Sn − Sk | > 2α )

≤ P( |Sn | ≥ α ) +n−1∑k=1

P(Bk )P( |Sn − Sk | > 2α )

≤ P( |Sn | ≥ α ) + max1≤k≤n

P( |Sn − Sk | ≥ 2α )n−1∑k=1

P(Bk )

≤ P( |Sn | ≥ α ) + max1≤k≤n

P( |Sn − Sk | ≥ 2α )

≤ P( |Sn | ≥ α ) + max1≤k≤n

(P( |Sn | ≥ α ) + P( |Sk | ≥ α )

)≤ 3 max

1≤k≤nP( |Sk | ≥ α ).

3.10 Reihen unabhängiger Zufallsvariablen

Sind die Zufallsvariablen X1,X2, . . . unabhängig, dann konvergiert nach demNull-Eins-Gesetz von Kolmogorov die Reihe ∑

n Xn entweder mit Wahrschein-lichkeit 0 oder mit Wahrscheinlichkeit 1. In diesem Abschnitt versuchen wirdie beiden Fälle in Abhängigkeit der Verteilung der Xn zu charakterisieren.

Satz 3.55. Es sei (Xn )n∈N unabhängig und sei E[Xn] = 0 für alle n ∈ N. Ist∑n Var[Xn] < ∞, dann konvergiert die Reihe

∑n Xn mit Wahrscheinlichkeit 1.

116

3.10 Reihen unabhängiger Zufallsvariablen

Beweis. Nach Kolmogorov-Ungleichung gilt

P(max1≤k≤r

|Sn+k − Sn | > ε)≤

1ε2

r∑k=1

Var[Xn+k].

Die rechte Seite ist nicht fallend in r und mit r → ∞ folgt

P(supk≥1|Sn+k − Sn | > ε

)≤

1ε2

∞∑k=1

Var[Xn+k].

Da nach Voraussetzung ∑n Var[Xn] konvergiert, folgt

limn→∞

P(supk≥1|Sn+k − Sn | > ε

)= 0 (3.79)

für alle ε > 0.Sei E (n, ε ) B supj,k≥n |Sj − Sk | > 2ε und E (ε ) = ∩nE (n, ε ). Dann gilt

E (n, ε ) ↓ E (ε ) und mit (3.79) folgt P(E (ε )) = 0. Die Vereinigung ∪εE (ε ) überalle rationalen positiven ε enthält die Menge der ω ∈ Ω, für die (Sn (ω))n∈Nkeine Cauchy-Folge (und damit nicht konvergent) ist. Diese Menge hat alsoWahrscheinlichkeit 0.

Wenn ∑n Xn mit Wahrscheinlichkeit 1 konvergiert, dann konvergiert Sn

fast sicher gegen eine endliche Zufallsvariable S . Nach Satz 3.42 konvergiertSn gegen S auch in Wahrscheinlichkeit. Die Umkehrung gilt im Allgemeinennicht, sie gilt aber dann, wenn die Summanden unabhängig sind.

Satz 3.56. Es sei (Xn )n∈N unabhängig. Die Folge (Sn )n∈N konvergiert genaudann in Wahrscheinlichkeit, wenn sie fast sicher konvergiert.

Beweis. Wir zeigen: SnP−→ S impliziert, dass die Folge (Sn )n∈N mit Wahrschein-

lichkeit 1 eine Cauchy-Folge ist.Wegen

P( |Sn+j − Sn | ≥ ε ) ≤ P(|Sn+j − S | ≥

ε

2)+ P

(|Sn − S | ≥

ε

2)

folgt aus SnP−→ S

limn→∞

supj≥1

P( |Sn+j − Sn | ≥ ε ) = 0. (3.80)

117

3.11 Übungen

Nach (3.78) gilt

P(max1≤j≤k

|Sn+j − Sn | ≥ ε)≤ 3 max

1≤j≤kP(|Sn+j − Sn | ≥

ε

3)

und damit

P(supk≥1|Sn+k − Sn | ≥ ε

)≤ 3 sup

k≥1P(|Sn+k − Sn | ≥

ε

3).

Mit (3.80) folgt, dass die Gleichung (3.79) aus dem Beweis von Satz 3.55 giltund dann folgt die Behauptung analog.

3.11 Übungen

Übung 3.1. Ist X eine P-integrierbare Zufallsvariable auf dem Wahrscheinlich-keitsraum (Ω,A, P) und A1,A2, . . . ∈ A eine Folge mit P(An ) → 0, so folgtE[1AnX ]→ 0.

Übung 3.2. Ist X eine reellwertige Zufallsvariable, so gilt

P(X ≥ x ) ≤ inft≥0

e−txE[etX ].

Übung 3.3 (Lyapunov-Ungleichung). Ist X eine reellwertige Zufallsvariableund ist 0 < s < t , so gilt

(E[|X |s])1/s ≤ (E[|X |t ])1/t .

Übung 3.4. Es sei Y eine nichtnegative Zufallsvariable mit E[Y 2] < ∞. Füra ∈ [0, 1] gilt

P(Y > aE[Y ]) ≥ (1 − a)2 (E[Y ])2

E[Y 2] .

Bemerkung: Die Chebyshev-Ungleichung liefert eine obere Schranke für Wahr-scheinlichkeit von Abweichungen vom Erwartungswert. Die hier zu beweisendeUngleichung liefert eine untere Schranke.

Übung 3.5. Beweisen Sie Satz 3.20.

Übung 3.6. Beweisen Sie Satz 3.28.

118

3.11 Übungen

Übung 3.7. Es seien X1, . . . ,Xn unabhängige und identisch verteilte Zufallsva-riablen mit Verteilungsfunktion F .

(i) Drücken Sie die Verteilungsfunktionen von Y := min1≤i≤n

Xi und Z := max1≤i≤n

Xi

durch F aus.

(ii) Es sei f die Dichte von X1. Drücken Sie die Dichten von Y und Z durch Fund f aus.

Übung 3.8. Es seien X1 und X2 unabhängig Poisson verteilte Zufallsvariablenmit positiven Parametern λ1 bzw. λ2.

(i) Bestimmen Sie die Verteilung von X1 + X2.

(ii) Für festes n ∈ N bestimmen Sie die bedingte Verteilung von X1 gegebenX1 + X2 = n, d.h. berechnen Sie

P (X1 = k |X1 + X2 = n), k = 0, 1, . . . ,n.

Hinweis: Sie können in (ii) die aus „Stochastik 0“ bekannte Formel benutzen:P(A|B) = P(A ∩ B)/P(B), wenn P(B) > 0.

Übung 3.9 (Stabilität der Cauchy-Verteilung). Cauchy-Verteilung mit Parame-ter u > 0 ist eine Verteilung auf (R,B (R)) mit Dichte

cu (x ) =u

π (u2 + x2), x ∈ R.

Es seien X1, . . . ,Xn unabhängig und identisch verteilte Zufallsvariablen mitDichte cu . Zeigen Sie, dass auch die Zufallsvariable (X1 + . . . + Xn )/n auchCauchy verteilt ist mit Paramter u.

Hinweis: Sie können ohne Beweis verwenden, dass cu ∗ cv = cu+v für alleu,v > 0 gilt.

Übung 3.10. (i) Es seien X und Y unabhängige standard normal verteilteZufallsvariablen. Zeigen Sie, dass die Zufallsvariable

Z =

XY : Y , 00 : Y = 0

Cauchy verteilt mit Parameter 1 ist.

119

3.11 Übungen

(ii) Es sei U eine auf (−π2 ,π2 ) gleichverteilte Zufallsvariable. Zeigen Sie, dass

tan(U ) Cauchy verteilt mit Parameter 1 ist.

Übung 3.11. Seien X1,X2, . . . unabhängige Zufallsvariablen mit

P(Xn = 1) = pn und P(Xn = 0) = 1 − pn .

(i) Zeigen Sie

XnP−→ 0 ⇐⇒ lim

n→∞pn = 0, (3.81)

XnLp

−−→ 0 ⇐⇒ limn→∞

pn = 0, (3.82)

Xnf.s.−−→ 0 ⇐⇒

∞∑n=1

pn < ∞. (3.83)

(ii) Zeigen Sie mit Hilfe von (i), dass aus der Konvergenz in Wahrscheinlichkeitund Konvergenz im p-ten Mittel im Allgemeinen nicht die fast sichereKonvergenz folgt.

(iii) Beweisen Sie in diesem speziellen Fall die Aussage von Satz 3.44 (ohne denSatz selbst zu benutzen).

Übung 3.12. Es sei (Ω,A, P) ein Wahrscheinlichkeitsraum und X ,X1,X2, . . . :(Ω,A) → (Rk ,B (Rk )) Zufallsvektoren. Man sagt, dass die Folge (Xn ) in Wahr-scheinlichkeit gegen X konvergiert, falls für jedes ε > 0

P(‖Xn − X ‖ > ε ) → 0 für n → ∞,

wobei ‖·‖ eine beliebige Norm auf Rk ist.

(i) Es sei f : Rk → Rm messbar und stetig in a ∈ Rk . Gilt XnP−→ a, so gilt

auch f (Xn )P−→ f (a).

(ii) (X 1n , . . . ,X

kn )

P−→ (X 1, . . . ,Xk ) genau dann, wenn X i

nP−→ X i für alle i ∈

1, . . . ,k .

120

3.11 Übungen

Übung 3.13. Für jedes n ∈ N seien X (n)1 , . . . ,X

(n)n paarweise unkorrelierte Zu-

fallsvariablen mit endlicher Varianz (nicht notwendigerweise identisch verteilt!)und

limn→∞

1n2

n∑i=1

Var[X (n)i ] = 0.

Zeigen Sie, dass die X (n)i dem schwachen Gesetz der großen Zahlen genügen,

d.h. beweisen Sie

1n

n∑i=1

(X (n)i − E[X

(n)i ]

) P−→ 0, n → ∞. (3.84)

Wenn die Zufallsvariablen X (n)1 , . . . ,X

(n)n korreliert sind, so kann (3.84) trotzdem

gelten. Finden Sie eine geeignete Bedingung an die Kovarianzen.

Übung 3.14. Es sei (Xn )n≥2 eine Folge unabhängiger Zufallsvariablen mit

P(Xn = n) =1

n logn und P(Xn = 0) = 1 − 1n logn .

Zeigen Sie: Die Folge genügt zwar dem schwachen, aber nicht dem starken Gesetzder großen Zahlen in dem Sinne, dass

1n

n∑i=2

(Xi − E[Xi])

zwar in Wahrscheinlichkeit gegen Null konvergiert, aber nicht fast sicher.

Übung 3.15. Es sei (Xn )n≥1 eine Folge unabhängiger nichtnegativer Zufallsva-riablen. Zeigen Sie, dass folgende Aussagen äquivalent sind:

(a)∞∑n=1

Xn < ∞ f.s. ,

(b)∞∑n=1

(P(Xn > 1) + E(Xn1Xn≤1)

)< ∞,

(c )∞∑n=1

E( Xn

1 + Xn

)< ∞.

121

4 Schwache Konvergenz und zentralerGrenzwertsatz

4.1 Schwache Konvergenz

Es seien X ,X1,X2, . . . Zufallsvariablen auf dem Wahrscheinlichkeitsraum(Ω,A, P). Ferner seien µ, µ1, µ2, . . . und F , F1, F2, . . . die Verteilungen bzw.Verteilungsfunktionen der Zufallsvariablen.

Denition 4.1. Die Folge (Xn ) konvergiert in Verteilung gegenX , wir schreibenXn ⇒ X , wenn

Fn (x )n→∞−−−−→ F (x ), (4.1)

für alle Stetigkeitstellen x ∈ R von F gilt. In diesem Fall konvergiert die Folgeder Verteilungen (µn ) schwach gegen µ und wir schreiben µn ⇒ µ bzw. Fn ⇒ F .

Bemerkung 4.2. Nach Denition gilt µn ⇒ µ genau dann, wenn

limn→∞

µn (A) = µ (A) (4.2)

für alle A der Form A = (−∞,x], für die µ (x ) = 0 gilt. Da es bei Konvergenzin Verteilung also um Konvergenz von Bildmaßen handelt, müssen die Zufalls-variablen nicht auf demselben Wahrscheinlichkeitsraum deniert werden. BeiKonvergenz in Wahrscheinlichkeit und fast sicherer Konvergenz ist es anders:Ausdrucke P( |Xn − X | > ε ) und P(limn→∞Xn = X ) machen nur dann Sinn,wenn X ,X1,X2, . . . Zufallsvariablen auf demselben Wahrscheinlichkeitsraumsind.

Beispiel 4.3. (i) SindX1,X2, . . . unabhängig Cauchy verteilt mit Parameteru > 0, so ist auchZn =

1n

∑nk=1Xk Cauchy-Verteilt mit Parameteru. Somit

gilt Zn ⇒ X1. Es gilt aber nicht ZnP−→ X1, wie man sich leicht überzeugen

kann. Insbesondere impliziert Konvergenz in Verteilung im Allgemeinennicht die Konvergenz in Wahrscheinlichkeit.

122

4.1 Schwache Konvergenz

(ii) Sei Fn die Verteilungsfunktion der Dirac-Verteilung in n (Einheitsmassein Punkt n), also Fn = 1(−∞,n] dann ist limn→∞ Fn (x ) = 0 für alle x , sodass(4.1) für F ≡ 0 gilt. Es gilt aber nicht Fn ⇒ F , da F keine Verteilungsfunk-tion ist.

(iii) Sei (xn ) eine Folge reeller Zahlen und µn die Dirac-Verteilung in xn und µdie Dirac-Verteilung in x ∈ R, dann gilt µn ⇒ µ genau dann, wenn xn →x . Wenn xn > x für unendlich viele n ist, dann gilt (4.1) nicht in x (demeinzigen Unstetigkeitspunkt der zu µ gehörigen Verteilungsfunktion).

Wir haben bereits gesehen, dass fast sichere Konvergenz die Konvergenzin Wahrscheinlichkeit impliziert. Nun zeigen wir, dass Konvergenz in Wahr-scheinlichkeit die Konvergenz in Verteilung impliziert.

Satz 4.4. Seien X ,X1,X2, . . . Zufallsvariablen auf demselben Wahrscheinlich-

keitsraum. Gilt XnP−→ X , so gilt auch Xn ⇒ X . Ist a eine Konstante und gilt

Xn ⇒ a, so gilt auch XnP−→ a.

Beweis. Für ε > 0 gilt

P(X ≤ x − ε ) − P( |Xn − X | ≥ ε ) ≤ P(Xn ≤ x )

≤ P(X ≤ x + ε ) − P( |Xn − X | ≥ ε ).

Lassen wir nun n gegen unendlich und dann ε gegen 0 gehen, dann folgt

P(X < x ) ≤ lim infn

P(Xn ≤ x ) ≤ lim supn

P(Xn ≤ x ) ≤ P(X ≤ x ).

Für x ∈ R mit P(X = x ) = 0 gilt also limn→∞ P(Xn ≤ x ) → P(X ≤ x ) unddamit Xn ⇒ X .

Wenn Xn ⇒ a gilt, so gilt für ε > 0

P( |Xn − a | > ε ) ≤ P(Xn ≤ a − ε ) + 1 − P(Xn ≤ a + ε ) → 0,

denn nach Voraussetzung gilt P(Xn ≤ a − ε ) → 0 und P(Xn ≤ a + ε ) → 1.

Die asymptotischen Eigenschaften einer Folge von Zufallsvariablen solltenicht durch Addition einer in Wahrscheinlichkeit gegen Null konvergentenFolge beeinträchtigt werden. Das (und mehr) beweist das folgende Resultat.

123

4.1 Schwache Konvergenz

Satz 4.5 (Slutsky). Seien (Xn )n∈N und (Yn )n∈N Folgen von Zufallsvariablen mit

Xn ⇒ X und YnP−→ c für eine Konstante c ∈ R, dann gilt

Yn + Xn ⇒ c + X , YnXn ⇒ cX und falls c , 0 Xn/Yn ⇒ Xn/c . (4.3)

Beweis. Wir beweisen die erste Aussage in (4.3). Der Beweis der zweiten isteine Übung.

Sei x ∈ R so, dass x − c ein Stetigkeitspunkt der Verteilungsfunktion F vonX ist. Wir wählen ε > 0 so, dass auch x − c + ε auch ein Stetigkeitspunkt vonF ist. Dann gilt

P(Xn + Yn ≤ x ) ≤ P(Xn + c ≤ x + ε ) + P( |Yn − c | > ε ) → P(X ≤ x − c + ε ).

Es folgt lim supn P(Xn + Yn ≤ x ) ≤ P(X + c ≤ x + ε ) und weil ε beliebig kleingewählt werden kann, folgt lim supn P(Xn + Yn ≤ x ) ≤ P(X + c ≤ x ). Ähnlich(man wähle x und ε > 0 so, dass x − c und x − c − ε Stetigkeitspunkte vonF sind) kann man zeigen, dass P(X + c < x ) ≤ lim infn P(Xn + Yn ≤ x ) gilt.Damit folgt die Behauptung.

Wir haben bereits gesehen (siehe z.B. Satz 3.30), dass für jedes Wahrschein-lichkeitsmaß auf (R,B (R)) es ein Wahrscheinlichkeitsraum und eine Zufalls-variable darauf gibt, so dass die Zufallsvariable dieses Wahrscheinlichkeitsmaßals Verteilung hat. Wenn also µn ⇒ µ gilt, dann gibt es eine Folge von Zufalls-variablen Yn und eine Zufallsvariable Y (möglicherweise auf verschiedenenWahrscheinlichkeitsräumen) mit Yn ∼ µn, Y ∼ µ und Yn ⇒ Y . Das nächste Re-sultat zeigt, dass die Zufallsvariablen auf demselben Wahrscheinlichkeitsraum(Ω,A, P) deniert werden könnnen und zwar, so dass Yn (ω) → Y (ω) für alleω gilt. Diese Bedingung ist natürlich viel stärker als Konvergenz in Verteilungund erleichtert einige Beweise.

Satz 4.6 (Skorohod). Seien µ, µ1, µ2, . . .Wahrscheinlichkeitsmaße auf (R,B (R))mit µn ⇒ µ. Dann gibt es Zufallsvariablen Y ,Y1,Y2, . . . auf einem gemeinsamenWahrscheinlichkeitsraum (Ω,A, P), so dass Yn die Verteilung µn, n ∈ N haben,Y die Verteilung µ hat und für alle ω ∈ Ω gilt Yn (ω)

n→∞−−−−→ Y (ω).

Beweis. Als den gemeinsamen Wahrscheinlichkeitsraum nehmen wir (Ω,A, P)mit Ω = (0, 1), A = B ((0, 1)) und P das Lebesgue-Maß auf (0, 1). Die Kon-struktion der Yn und Y ist ähnlich zur Konstruktion im Beweis von Satz 3.30.

124

4.1 Schwache Konvergenz

Seien Fn und F die Verteilungsfunktionen von µn bzw. µ. Für ω ∈ (0, 1)setzen wir Yn (ω) = inf x : ω ≤ Fn (x ) und Y (ω) = inf x : ω ≤ F (x ). Daω ≤ Fn (x ) äquivalent zu Yn (ω) ≤ x ist, folgt

P(ω : Yn (ω) ≤ x ) = P(ω : ω ≤ Fn (x )) = Fn (x ).

Also, ist Fn die Verteilungsfunktion von Yn und analog folgt, dass F die Ver-teilungsfunktion von Y ist. Es bleibt zu zeigen, dass wir Yn und Y noch wennnötig auf einer P-Nullmenge modizieren können um Yn (ω) → Y (ω) für alleω zu erreichen1.

Seiω ∈ (0, 1). Für ε > 0wählex so, dassY (ω)−ε < x < Y (ω) und µ (x ) = 0.Dann ist F (x ) < ω und x ist ein Stetigkeitspunkt von F . Wegen Fn (x ) → F (x )gilt, dass für n genügend groß Fn (x ) < ω n und damit Y (ω) − ε < x < Yn (ω)gilt. Also gilt lim infn Yn (ω) ≥ Y (ω).

Wenn ω < ω′ und ε positiv ist, dann wählen wir ein y mit Y (ω′) < y <Y (ω′) + ε und µ (y) = 0. Dann gilt ω < ω′ ≤ F (Y (ω′)) ≤ F (y). Für genügendgroße n gilt wie oben ω ≤ Fn (y) und somit Yn (ω) ≤ y < Y (ω′) + ε . Also giltlim supn Yn (ω) ≤ Y (ω′) für ω < ω′. Insgesamt gilt Yn (ω) → Y (ω) wenn Ystetig in ω ist.

Da Y nichtfallend auf (0, 1) ist, hat es höchstens abzählbar viele Unste-tigkeitsstellen. An solchen Stellen setzen wir Yn (ω) = Y (ω) = 0. Dann giltYn (ω) → Y (ω) für alle ω ∈ (0, 1). Da die Menge der Unstetigkeitstellen ab-zählbar ist, haben wir Yn und Y nur auf einer P-Nullmenge verändert. DieVerteilung bleibt also erhalten.

Satz 4.7 (Continuous mapping Theorem). Sei h : R → R eine messbareFunktion und sei die MengeDh der Unstetigkeitstellen vonh messbar. Gilt µn ⇒ µund µ (Dh ) = 0, so gilt auch µnh−1 ⇒ µh−1.

Beweis. Seien Yn ∼ µn und Y ∼ µ die Zufallsvariablen aus Satz 4.6. WegenYn (ω) → Y (ω) für alle ω und Stetigkeit von h auf Dc

hgilt h(Yn (ω)) → h(Y (ω))

für alle ω mit Y (ω) < Dh . Wegen P(ω : Y (ω) ∈ Dh) = µ (Dh ) = 0 folgth(Yn (ω)) → h(Y (ω)) fast sicher. Fast sichere Konvergenz impliziert Konver-genz in Wahrscheinlichkeit und Konvergenz in Verteilung. Also gilt h(Yn ) ⇒h(Y ). Das ist aber gleichbedeutend mit µnh−1 ⇒ µh−1.

1So denierte Yn und Y heißen verallgemeinerte Inversen von Fn bzw. F . Also ist zu zeigen,Fn ⇒ F die Konvergenz der verallgemeinerten Inversen impliziert.

125

4.1 Schwache Konvergenz

Das „continuous mapping Theorem“ lässt sich wie folgt mit Zufallsvariablenformulieren.

Korollar 4.8. Gilt Xn ⇒ X und P(X ∈ Dh ) = 0, dann gilt h(Xn ) ⇒ h(X ).

Im Spezialfall X ≡ a gilt das folgende Resultat (überlegen Sie sich wie manes mit Hilfe von Übung 3.12(i) zeigen kann).

Korollar 4.9. Gilt Xn ⇒ a und ist h stetig in a, dann gilt h(Xn ) ⇒ h(a).

Wir haben µn ⇒ µ bzw. Xn ⇒ X durch Konvergenz der zugehörigenVerteilungsfunktionen an den Stetigkeitstellen der Verteilungsfunktion derGrenzwertes deniert. Folgender Satz liefert einige äquivalente Charakteri-sierungen, die ohne Verteilungsfunktionen auskommen. Unter dem Namen„Portmanteau Theorem“ (portmanteau heißt auf engl. Reisekoer) werdentypischerweise noch mehr solcher Charakterisierungen zusammen gefasst;vgl. Satz 13.16 in Klenke (2013). Für A ∈ B (R) bezeichnen wir mit δA denRand von A, d.h. δA = A \A.

Satz 4.10. Die folgenden Bedingungen sind äquivalent.

(i) µn ⇒ µ;

(ii)∫f dµn →

∫f dµ für jede beschränkte stetige Funktion f : R→ R;

(iii) µn (A) → µ (A) für jedes A ∈ B (R) mit µ (δA) = 0.

Auch diesen Satz können wir alternativ mit Zufallsvariablen formulieren.

Satz 4.11. Die folgenden Bedingungen sind äquivalent.

(i) Xn ⇒ X ;

(ii) E[f (Xn )]→ E[f (X )] für jede beschränkte stetige Funktion f : R→ R;

(iii) P(Xn ∈ A) → P(X ∈ A) für jedes A ∈ B (R) mit µ (X ∈ δA) = 0.

Beweis von Satz 4.10. Sei µn ⇒ µ und seien Yn und Y die Zufallsvariablen ausSatz 4.6. Sei f eine beschränkte Funktion, so dass µ (D f ) = 0, wobei D f dieMenge der Unstetigkeitstellen von f ist. Aus P(Y ∈ D f ) = µ (D f ) = 0 folgtf (Yn ) → f (Y ) fast sicher. Mit dem Satz von majorisierter Konvergenz folgt

126

4.1 Schwache Konvergenz

(es gilt | f (Yn ) | ≤ M , wenn M die obere Schranke von | f | ist, also ist д ≡ Meine P-integrierbare Majorante)∫

f dµn = E[f (Yn )]→ E[f (Y )] =∫

f dµ .

Also folgt aus µn ⇒ µ und µ (D f ) = 0 zusammen∫f dµn →

∫f dµ für

beschränkte Funktionen f . Also folgt (ii) aus (i).Für f = 1A gilt D f = δA und aus µ (δA) = 0 und µn ⇒ µ folgt

µn (A) =

∫f dµn →

∫f dµ = µ (A).

Also folgt auch (iii) aus (i).Wegen δ (−∞,x] = x impliziert (iii) oensichtlich (i). Es bleibt noch zu

zeigen, dass (i) aus (ii) folgt. Seien Fn und F die Verteilungsfunktionen von µnbzw. µ. Für x < y denieren wir eine stetige beschränkte Funktion f durch

f (t ) B

1 : t ≤ x ,y−ty−x : x ≤ t ≤ y,

0 : y ≤ t .

(In dem Intervall [x ,y] interpolieren wir stetig zwischen den Werten 1 und 0,f ist also eine stetige Approximation der Indikatorfunktion 1(−∞,x].) Mit (ii)erhalten wir

Fn (x ) =

∫1(−∞,x] dµn ≤

∫f dµn →

∫f dµ ≤

∫1(−∞,y] dµ = F (y).

Es folgt lim supn Fn (x ) ≤ F (y) und mity ↓ x gilt lim supn Fn (x ) ≤ F (x ). Analogzeigt man, dass F (z) ≤ lim infn F (x ) für z < x gilt und es folgt F (x−) ≤lim infn Fn (x ). An Stetigkeitsstellen von F gilt F (x−) = F (x ) und damit

F (x ) ≤ lim infn

Fn (x ) ≤ lim supn

Fn (x ) ≤ F (x ),

also F (x ) = limn Fn (x ), was (i) zeigt.

127

4.2 Straheit und relative Kompaktheit

4.2 Straheit und relative Kompaktheit

Aus Analysis I kennen wir folgendes Resultat.

Proposition 4.12. Für Folgen reeller Zahlen (xn ) gelten folgende Aussagen.

(i) (xn ) ist genau dann beschränkt ist, wenn jede Teilfolge (xnk ) eine weitereTeilfolge (xnk (j ) ) enthält, die gegen ein x konvergiert: limj xnk (j ) = x .

(ii) Wenn (xn ) beschränkt ist und jede Teilfolge (xnk ) die konvergiert, gegendenselben Grenzwert x konvergiert, dann konvergiert auch die gesamteFolge (xn ) gegen x .

In diesem Abschnitt diskutieren wir Bedingungen unter welchen wir ähn-liche Aussagen für Folgen von Wahrscheinlichkeitsmaßen (bzw. Folgen vonZufallsvariablen) bezüglich schwacher Konvergenz machen können.

Denition 4.13 (Relative Kompaktheit). Eine Familie (µn ) von Wahrschein-lichkeitsmaßen auf (R,B (R)) heißt relativ kompakt, falls jede Teilfolge (µnk )eine weitere Teilfolge (µnk (j ) ) enthält mit µnk (j ) ⇒ µ für ein Wahrscheinlich-keitsmaß µ.

Der Beweis des folgenden Satzes basiert auf einem Diagonalargument undist im Prinzip rein analytisch. Für einen Beweis verweisen wir auf Satz 13.33in Klenke (2013) oder Theorem 25.9 in Billingsley (1995).

Satz 4.14 (Auswahlsatz von Helly). Für jede Folge (Fn ) von Verteilungsfunktio-nen gibt es eine Teilfolge (Fnk ) und eine nichtfallende rechtsseitig stetige FunktionF mit limk Fnk (x ) = F (x ) an den Stetigkeitstellen von F .

Beachten Sie, dass der Auswahlsatz von Helly nicht garantiert, dass derGrenzwert F Verteilungsfunktion eines Wahrscheinlichkeitsmaßes ist. Klarist nur, dass 0 ≤ F (x ) ≤ 1 ist. Ein Extrembeispiel mit F ≡ 0 haben wirbereits in Beispiel 4.3(ii) gesehen. Also ist sicherlich nicht jede Folge vonWahrscheinlichkeitsmaßen relativ kompakt. Wir brauchen Bedingungen, unterdenen „Massenverlust“ vermieden werden kann.

Denition 4.15 (Straheit). Eine Familie (µn ) von Wahrscheinlichkeitsmaßenauf (R,B (R)) heißt stra, wenn für jedes ε > 0 ein beschränktes Intervall(a,b] ⊂ R existiert mit µn ((a,b]) > 1 − ε für alle n ∈ N.

128

4.2 Straheit und relative Kompaktheit

Bemerkung 4.16. In der Denition der Straheit auf allgemeinen metrischenRäumen fordert man die Existenz einer kompakten Menge K mit µn (K ) > 1−εfür alle n. Auf R kann man jede kompakte Menge von einem Intervall derForm (a,b] überdecken und [a,b] ist kompakt. Also ist aufR unsere Denitionäquivalent zu der allgemeinen.

Satz 4.17 (Prohorov). Eine Familie (µn ) von Wahrscheinlichkeitsmaßen auf(R,B (R)) ist genau dann relativ kompakt, wenn sie stra ist.

Beweis. Sei (µn ) stra und sei (Fnk ) eine Teilfolge der zu (µn ) gehörigen Folgeder Verteilungsfunktionen. Nach dem Auswahlsatz von Helly gibt es eineweitere Teilfolge (Fnk (j ) ) mit limj Fnk (j ) (x ) = F (x ) für alle Stetigkeitstellenx von F , wobei F eine nichtfallende rechtsseitig stetige Funktion ist. NachSatz 1.58 gibt es ein Maß µ auf (R,B (R)), so dass µ ((a,b]) = F (b) − F (a). Fürε > 0, wähle a und b so, dass µn ((a,b]) > 1 − ε für alle n. Wenn nötig, kannman a kleiner und b größer machen, so dass beide Stetigkeitspunkte von Fsind. Dann folgt µ ((a,b]) ≥ 1 − ε und damit ist µ ein Wahrscheinlichkeitsmaßfür das µnk (j ) ⇒ µ gilt.

Die Umkehrung zeigen wir mit einem Widerspruchsbeweis. Wenn (µn )nicht stra ist, dann gibt es ein ε > 0 sodass für alle (a,b] gilt µn ((a,b]) ≤ 1−εfür ein n. Wähle nk so, dass µnk ((−k,k]) ≤ 1 − ε gilt. Nehmen wir an eineTeilfolge µnk (j ) konvergiert schwach gegen ein Wahrscheinlichkeitsmaß µ. Nunwählen wir (a,b] mit µ (a) = µ (b) = 0 und µ ((a,b]) > 1 − ε . Für genügendgroße j ist (a,b] ⊂ (−k (j ),k (j )] und es folgt

1 − ε ≥ µnk (j ) ((−k (j ),k (j )] ≥ µnk (j ) ((a,b]) → µ ((a,b]).

Das ist aber ein Widerspruch zu µ ((a,b]) > 1 − ε .

Korollar 4.18. Wenn (µn ) eine strae Folge von Wahrscheinlichkeitsmaßen undwenn alle schwach konvergenten Teilfolgen gegen dasselbe Wahrscheinlichkeits-maß µ konvergieren, dann gilt µn ⇒ µ.

Beweis. Nach dem Satz von Prohorov besitzt jede Teilfolge (µnk ) eine weitereTeilfolge (µnk (j ) ), die (für j → ∞) schwach konvergiert. Nach Voraussetzungist µ der schwache Limes für jede solche (Teil-)Teilfolge.

Nehmen wir an, dass µn ⇒ µ nicht gilt. Dann gibt es ein x ∈ R mitµ (x ) = 0, aber limn→∞ µn ((−∞,x]) , µ ((−∞,x]). Insbesondere gibt es einε > 0 mit |µnk ((−∞,x]) − µ ((−∞,x]) | ≥ ε für eine Teilfolge (µnk ). Davon

129

4.3 Vertauschung von Integration und Grenzwertbildung

kann keine weitere Teilfolge schwach konvergieren. Dieser Widerspruch zeigtµn ⇒ µ.

Beispiel 4.19. Sei µn = δxn das Dirac-Maß in xn. Dann ist (µn ) stra genaudann, wenn (xn ) beschränkt ist. Die Aussagen des Satzes von Prohorov unddes obigen Korollars sind in diesem Fall äquivalent zu Proposition 4.12.Beispiel 4.20. Sei µn die Normalverteilung mit Erwartungswertmn und Va-rainz σ 2

n . Sind mn und σ 2n beschränkt, dann sind auch die zweiten Momente

von µn beschränkt. Sind Xn die Zufallsvariablen mit Verteilungen µn, dannfolgt Markov-Ungleichung

P( |Xn | ≥ x ) ≤E[X 2]x2

→ 0, x → ∞.

Damit ist die Folge (µn ) stra. Ist (nk (j ) ) so gewählt, dass mnk (j ) → m undσ 2nk (j )→ σ 2 für j → ∞, dann gilt µnk (j ) ⇒ µ, wobei µ die Normalverteilung mit

Erwartungswertm und Varianz σ 2 ist (µ = δm, wenn σ 2 = 0).Istmn > b, dann gilt µn ((b,∞)) ≥ 1/2. Istmn < a, dann gilt µn ((−∞,a]) ≥ 1

2 .Also kann µn nicht stra sein wenn mn nicht beschränkt ist. Gilt |mn | ≤ Kfür ein K < ∞, dann gilt µn ((−∞,a]) ≥ ν ((−∞, (a − K )/σn]), wobei ν dieStandardnormalverteilung ist. Ist σn nicht beschränkt, dann folgt ν ((−∞, (a −K )/σn]) → 1/2 entlang einer Teilfolge. Also kann (µn ) auch in diesem Fallnicht stra sein.

Insgesamt ist eine Folge von Normalverteilungen genau dann stra, wenndie Folgen der Erwartungswerte und der Varianzen beschränkt sind.

4.3 Vertauschung von Integration und Grenzwertbildung

Sind (Xn ) und X Zufallsvariablen mit Xn ⇒ X , so gilt nach Satz 4.10

E[h(Xn )]→ E[h(X )] (4.4)

für alle stetigen beschränkten Funktionen h : R → R. Die Funktion h(x ) =−K1(−∞,K ) (x ) + x1[−K ,K](x ) + K1(K ,∞) (x ) ist stetig und beschränkt und fallses ein K < ∞ mit |Xn |, |X | ≤ K gibt, dann folgt

E[Xn] = E[h(Xn )]→ E[h(X )] = E[X ].

In diesem Abschnitt schauen wir uns an, unter welchen Bedingungen diesauch für unbeschränkte Folgen von Zufallsvariablen gilt.

130

4.3 Vertauschung von Integration und Grenzwertbildung

Satz 4.21. Gilt Xn ⇒ X , dann gilt E[|X |] ≤ lim infn E[|Xn |].

Beweis. Nach dem Satz von Skorohod gibt es einen gemeinsamen Wahrschein-lichkeitsraum und Zufallsvariablen Yn und Y mit denselben Verteilungen wieXn und X und mit Yn → Y fast überall (in der Tat sogar punktweise). Dannhaben auch |Yn | und |Y | dieselben Verteilungen wie |Xn | bzw. |X | und dieBehauptung folgt mit dem Lemma von Fatou (Satz 2.11).

Denition 4.22. Eine Folge von Zufallsvariablen (Xn ) heißt gleichgradigintegrierbar, falls

limα→∞

supn

∫|Xn |≥α

|Xn | dP = 0. (4.5)

Satz 4.23. Ist die Folge (Xn ) gleichgradig integrierbar, dann gilt

supn

E[|Xn |] < ∞. (4.6)

Beweis. Für alle n gilt

E[|Xn |] =∫|Xn |≥α

|Xn | dP +∫|Xn |<α

|Xn | dP

∫|Xn |≥α

|Xn | dP + αP( |Xn | < α )

∫|Xn |≥α

|Xn | dP + α .

Wegen gleichgradiger Integrierbarkeit, kann man zu einem gegebenen ε > 0,α so wählen, dass supn

∫|Xn |≥α

|Xn | dP < ε gilt. Dann gilt

supn

E[|Xn |] < ε + α < ∞.

Satz 4.24 (Kriterien für gleichgradige Integrierbarkeit). Die Folge (Xn ) istgleichgradig integrierbar, wenn eine der folgenden Voraussetzungen erfüllt ist.

(i) Es gibt ein ε > 0 mit supn E[|Xn |1+ε] < ∞.

131

4.3 Vertauschung von Integration und Grenzwertbildung

(ii) Es gibt eine Zufallsvariable Y mit E[|Y |] < ∞ und

P( |Xn | ≥ α ) ≤ P( |Y | ≥ α ) n ≥ 1, α > 0. (4.7)

Beweis. (i) Für alle n gilt

E[|Xn |1+ε] =

∫|Xn |≥α

|Xn |1+ε dP +

∫|Xn |<α

|Xn |1+ε dP

∫|Xn |≥α

|Xn |1+ε dP ≥

∫|Xn |≥α

|Xn |αε dP.

Mit

supn

∫|Xn |≥α

|Xn | dP ≤1αε

supn

E[|Xn |1+ε] α→∞−−−−→ 0

folgt nun die gleichgradige Integrierbarkeit von (Xn ).(ii) Mit Übung 2.14(ii) (die Aussagen dort gelten auch mit „≤“ statt „<“)erhalten wir aus (4.7)∫

1|Xn |≥α |Xn | dP ≤∫1|Y |≥α |Y | dP für alle n.

Die rechte Seite konvergiert gegen 0 für α → ∞, was die gleichgradige Inte-grierbarkeit von (Xn ) zeigt.

Satz 4.25. Ist (Xn ) gleichgradig integrierbar und gilt Xn ⇒ X , dann gilt

E[Xn]→ E[X ]. (4.8)

Beweis. Sei (Xn ) gleichgradig integrierbar, dann gilt supn E[|Xn |] < ∞ undSatz 4.21 impliziert E[|X |] ≤ lim infn E[|Xn |], d.h. X ist integrierbar. Wirdenieren

hα (x ) B

x falls |x | < α ,0 sonst.

Die Funktion hα ist messbar und beschränkt. Falls P( |X | = α ) = 0 gilt, so giltnach Korollar 4.8 hα (Xn ) ⇒ hα (X ), und mit dem Argument, das zu (4.4) führte,folgt

E[hα (Xn )] −→ E[hα (X )]. (4.9)

132

4.4 Charakteristische Funktionen

Ferner gilt

E[Xn] − E[hα (Xn )] =∫|Xn |≥α

Xn dP (4.10)

und

E[X ] − E[hα (X )] =∫|X |≥α

X dP. (4.11)

Diese drei Beziehungen implizieren

lim supn→∞

|E[Xn] − E[X ]| ≤ supn

∫|Xn |≥α

|Xn | dP +∫|X |≥α

|X | dP.

Die rechte Seite der Ungleichung konvergiert wegen gleichgradiger Integrier-barkeit von Xn und Integrierbarkeit von X für α → ∞ gegen 0.

Zum Abschluss des Abschnittes geben wir noch Bedingungen an unterdenen Konvergenz in Verteilung Konvergenz im p-ten Mittel impliziert.

Korollar 4.26. Es sei p ≥ 1. Gilt Xn ⇒ X und supn E[|Xn |p+ε] < ∞ für ein

ε > 0, dann folgt E[|X |p] < ∞ und E[Xpn ]→ E[Xp].

Beweis. Aus Xn ⇒ X folgt Xpn ⇒ X

p mit Satz 4.7. Nach Satz 4.24(i) ist (Xpn )

gleichgradig integrierbar und Satz 4.21 impliziert

E[|X |p] ≤ lim infn

E[|Xn |p] < ∞.

Schließlich erhalten wir E[Xpn ]→ E[Xp] mit Satz 4.25.

4.4 Charakteristische Funktionen

Manchmal ist es möglich schwache Konvergenz von Folgen von Verteilun-gen direkt mit der Denition 4.1 zu zeigen. (Denken Sie etwa an die Poisson-Approximation der Binomialverteilung.) Meistens sind jedoch geeignete Trans-formierte von Wahrscheinlichkeitsmaßen hilfreicher. Das Prinzip dahinternutzt die Tatsache, dass es genügt die Charakterisierung in Satz 4.10(ii) füreine „kleine“ Teilmenge von stetigen beschränkten Funktionen nachzuweisen.In diesem Abschnitt schauen wir uns die wichtigste Transformierte an.

133

4.4 Charakteristische Funktionen

Denition 4.27. Die charakteristische Funktion eines Wahrscheinlichkeits-maßes µ auf (R,B (R)) ist die Funktion φ : R→ C deniert durch

φ (t ) B

∫ ∞

−∞

eitx µ (dx ) =

∫ ∞

−∞

cos(tx ) µ (dx ) + i∫ ∞

−∞

sin(tx ) µ (dx ). (4.12)

Die charakteristische Funktion einer Zufallsvariablen X mit Verteilung µ ist

φ (t ) B E[eitX ] =∫ ∞

−∞

e−itx µ (dx ).

Außerhalb der Wahrscheinlichkeitstheorie werden charakteristische Funk-tionen als Fourier Transformierte bezeichnet. Um die Abhängigkeit der charak-teristischen Funktion von X bzw. µ zu betonen werden wir manchmal φX bzw.φµ für φ schreiben.Bemerkung 4.28. Wir notieren hier zur späteren Referenz einige bekannte bzw.leicht zu beweisende Formeln und Eigenschaften charakteristischer Funktio-nen

(i) Die folgenden Formeln sind aus Analysis I bekannt

eitx = cos(tx ) + i sin(tx ), (4.13)

|eitx | =(cos2(tx ) + sin2(tx )

)1/2= 1. (4.14)

(ii) Es gilt

E[eitX

] ≤ E[|eitX |

]= 1. (4.15)

Für a,b ∈ R gilt

φaX+b (t ) = E[eitaX+itb] = eitbE[eitaX ] = eitbφX (at ). (4.16)

(iii) Für jedes t ∈ R sind die Funktionen x 7→ cos(tx ) und x 7→ cos(tx ) stetigund beschränkt. Nach Satz 4.10(ii) (angewandt getrennt auf den Real-und Imaginärteil) gilt E[eitXn ]→ E[eitX ] für jedes t , wenn Xn ⇒ X . Wirsind hier an einer Umkehrung davon interessiert.

134

4.4 Charakteristische Funktionen

(iv) Ist φ charakteristische Funktion eines Wahrscheinlichkeitsmaßes µ sogilt

|φ (t + h) − φ (t ) | =

∫ ∞

−∞

(ei (t+h)x − eitx ) µ (dx )

∫ ∞

−∞

|eitx | |eihx − 1| µ (dx )

=

∫ ∞

−∞

|eihx − 1| µ (dx ).

(4.17)

Der Integrand in der letzten Zeile ist oensichtlich beschränkt und mitSatz von majorisierter Konvergenz folgt

|φ (t + h) − φ (t ) | → 0, h → 0. (4.18)

Also ist t → φ (t ) gleichmäßig stetig.

Lemma 4.29. Seien X1, . . . ,Xn unabhängig und sei Sn = X1 + · · · + Xn. Danngilt

φSn (t ) =n∏

k=1φXk (t ). (4.19)

Beweis. Unabhängigkeit der Zufallsvariablen Xk impliziert

E[eitSn ] = E[ n∏k=1

eitXk

]=

n∏k=1

E[eitXk ].

Die charakteristische Funktion bestimmt das zugehörige Wahrscheinlich-keitsmaß eindeutig. Das folgt aus dem folgenden Resultat; vgl. Bemerkung 4.31.

Satz 4.30 (Inversionsformel). Sei µ ein Wahrscheinlichkeitsmaß auf (R,B (R))mit charakteristischer Funktion φ. Dann gilt für a < b

limT→∞

12π

∫ T

−T

e−ita − e−itb

itφ (t ) dt = µ ((a,b)) +

12µ (a,b). (4.20)

135

4.4 Charakteristische Funktionen

Beweis. Sei IT =∫ T

−Te−ita−e−itb

it φ (t ) dt . Zunächst bemerken wir

e−ita − e−itb

it

=

∫ b

ae−ity dy

∫ b

a|e−ity | dy = b − a.

Mit Satz von Fubini erhalten wir

IT =

∫ T

−T

∫ ∞

−∞

e−ita − e−itb

iteitx µ (dx ) dt

=

∫ ∞

−∞

∫ T

−T

e−ita − e−itb

iteitx dt µ (dx )

=

∫ ∞

−∞

∫ T

−T

eit (x−a) − eit (x−b)

itdt µ (dx )

=

∫ ∞

−∞

[∫ T

−T

sin(t (x − a))t

dt −

∫ T

−T

sin(t (x − a))t

dt]µ (dx ).

Die letzte Gleichung folgt mit (4.13) weil Kosinus eine gerade Funktion ist.Sei S (T ) =

∫ T

0sinyy dy. Dann gilt∫ T

−T

sin(tu)t

dt = 2∫ T

0

sinyy

dy = 2S (Tu), u > 0,

und ∫ T

−T

sin(tu)t

dt = −

∫ T

−T

sin(−tu)t

dt = −2S (−Tu), u < 0.

Mit

sgn(y) =

−1 : y < 00 : y = 01 : y > 0

gilt ∫ T

−T

sin(tu)t

dt = 2 sgn(u)S ( |Tu |) C R (u,T ).

136

4.4 Charakteristische Funktionen

Es folgt

IT =

∫ ∞

−∞

(R (x − a,T ) − R (x − b,T )) µ (dx ).

Für T → ∞ gilt S (T ) → π2 . Es folgt, dass für T → ∞

R (u,T ) → π sgn(u)

und

R (x − a,T ) − R (x − b,T ) →

0 : x < a,

π : x = a,

2π : a < x < b,

π : x = b,

0 : x > b .

Mit dem Satz von majorisierter Konvergenz folgt

ITT→∞−−−−→ 2πµ ((a,b)) + πµ (a,b).

Teilen beider Seiten durch 2π liefert (4.20).

Bemerkung 4.31. Aus der Inversionsformel folgt, dass wenn µ und ν zweiWahrscheinlichkeitsmaße mit derselben charakteristischen Funktion sind,dann gilt µ ((a,b]) = ν ((a,b]), falls µ (a,b) = ν (a,b) = 0. Die Mengesolcher Intervalle ist aber ein schnittstabiler Erzeuger von B (R) und damitgilt µ = ν auf B (R).

Lemma 4.32. Sei µ ein Wahrscheinlichkeitsmaß auf (R,B (R)) mit charakte-ristischer Funktion φ. Dann gilt für alle u > 0

µ (x : |x | ≥ 1/u) ≤ 7u

∫ u

0(1 − Reφ (t )) dt . (4.21)

Beweis. Mit dem Satz von Fubini erhalten wir

I (u) B1u

∫ u

0(1 − Reφ (t )) dt =

∫ ∞

−∞

1u

∫ u

0(1 − cos(tx )) dt µ (dx )

=

∫ ∞

−∞

(1 − sin(ux )

ux

)µ (dx ).

137

4.4 Charakteristische Funktionen

Wegen |sin(ux ) | ≤ |ux | ist der Integrand in der letzten Zeile nichtnegativ undes folgt

I (u) ≥

∫|ux |≥1

(1 − sin(ux )

ux

)µ (dx )

≥ inf|y |≥1

(1 − sin(y)

y

)µ (x : |xu | ≥ 1)

= (1 − sin 1)µ (x : |xu | ≥ 1) ≥ 17µ (x : |xu | ≥ 1).

Damit folgt die Behauptung.

Satz 4.33 (Stetigkeitssatz von Lévy). Es seien µ, µ1, µ2, . . .Wahrscheinlichkeits-maße und φ,φ1,φ2, . . . die zugehörigen charakteristischen Funktionen. Danngilt µn ⇒ µ genau dann, wenn φn (t ) → φ (t ) für alle t gilt.

Beweis. Ist µn ⇒ µ so gilt (vgl. Bemerkung 4.28(iii)), φn (t ) → φ (t ) für alle t .Sei nun umgekehrt φn (t ) → φ (t ) für alle t . Da φ charakteristische Funktion

des Wahrscheinlichkeitsmaßes µ ist, ist nach Bemerkung 4.28(iv) φ stetig in0. Wir zeigen nun, dass die Familie (µn ) stra ist. Nach Lemma 4.32 und demSatz von majorisierter Konvergenz gilt

µn (x : |x | ≥ 1/u) ≤ 7u

∫ u

0(1 − Reφn (t )) dt

n→∞−−−−→

7u

∫ u

0(1 − Reφ (t )) dt

=7uo(u) = o(1) für u → 0.

Die vorletzte Gleichheit gilt, weil mit Stetigkeit von φ in 0 folgt

Reφ (t ) →∫ ∞

−∞

cos(0 · x ) µ (dx ) = 1 für t → 0.

Das zeigt die Straheit.Nach dem Satz von Prohorov ist die Familie (µn ) relativ kompakt. Jede

Teilfolge von (µn ) enthält also eine weitere Teilfolge die schwach konvergentist. Nach (i) hat der schwache Limes die charakteristische Funktion φ. NachInversionsformel ist also µ der schwache Limes jeder schwach konvergentenTeilfolge. Die Behauptung folgt nun mit Korollar 4.18.

138

4.4 Charakteristische Funktionen

Das folgende Lemma liefert eine Restgliedabschätzung der Taylorentwick-lung von x 7→ eix .Lemma 4.34. Für x ∈ R, n ∈ N0 gilt

eix −

n∑m=0

(ix )m

m!

≤ min

|x |n+1

(n + 1)! ,2|x |nn!

. (4.22)

Bemerkung 4.35. Der erste Term auf der rechten Seite ist eine gute Abschätzungfür kleine |x | und der zweite für große |x |.

Beweis. Partielle Integration liefert∫ x

0(x − s )neis ds =

[−(x − s )n+1

n + 1 eis]x0−

∫ x

0−(x − s )n+1

n + 1 ieis ds (4.23)

=xn+1

n + 1 +i

n + 1

∫ x

0(x − s )n+1eis ds . (4.24)

Mit n = 0 folgt1i(eix − 1) = x + i

∫ x

0(x − s )eis ds

und Auösen nach eix liefert

eix = 1 + ix + i2∫ x

0(x − s )eis ds

=(xi )0

0! +(ix )1

1! +i1+1

1!

∫ x

0(x − s )1eis ds .

Induktiv erhalten wir für alle n ≥ 0

eix =n∑

k=0

(ix )k

k! +in+1

n!

∫ x

0(x − s )neis ds . (4.25)

Nun ersetzen wir n durch n − 1 in (4.23), lösen nach dem Integral auf derrechten Seite auf und setzen das Ergebnis in (4.25) ein. Es folgt (beachten Siexn/n =

∫ x

0 (x − s )n−1 ds)

eix =n∑

k=0

(ix )k

k! +in

(n − 1)!

∫ x

0(x − s )n−1(eis − 1) ds . (4.26)

Abschätzung der beiden Integrale (mit Fallunterscheidung x ≥ 0 und x < 0)in (4.25) und (4.26) liefert die Behauptung (4.22).

139

4.4 Charakteristische Funktionen

Ist X eine Zufallsvariable mit endlichem n-ten Moment, dann folgt mit demobigen Lemma

φX (t ) −

n∑k=0

(it )k

k! E[Xk]≤ E

[min

|tX |n+1

(n + 1)! ,2|tX |nn!

]. (4.27)

Für jedes t mit

limn→∞

|t |nE[|X |n]n! = 0, (4.28)

gilt also

φX (t ) =∞∑k=0

(it )k

k! E[Xk]. (4.29)

Gilt insbesondere∞∑k=0

|t |kE[|X |k]k! = E[e |tX |] < ∞,

dann folgt (4.29). Einerseits kann man aus der Potenzreihenentwicklung vonφX die Momente von X ablesen. Andererseits kann man auch φX bestimmen,wenn man alle Momente von X kennt. Letzteres nutzten wir zur Berechnungder charakteristischen Funktion der Normalverteilung.

Beispiel 4.36. Für X ∼ N(0, 1) gilt

E[e |tX |] = 1√2π

∫ ∞

−∞

e−x2/2e |tx | dx < ∞.

Mit (4.29) und mit (4.34) in Übung 4.1 erhalten wir

φX (t ) =∞∑k=0

(it )2k

(2k )! 1 · 3 · . . . (2k − 1) =∞∑k=0

1k!

(−t2

2

)k= e−t

2/2.

Für σ > 0 undm ∈ R gilt Z = σX +m ∼ N(m,σ 2). Mit (4.16) können wir diecharakteristische Funktion von Z bestimmen:

φZ (t ) = eitmφX (σt ) = eitm−t2σ 2/2.

140

4.5 Zentraler Grenzwertsatz

4.5 Zentraler Grenzwertsatz

In diesem Abschnitt beweisen wir den zentralen Grenzwertsatz für Summenunabhängiger identisch verteilter Summanden.

Satz 4.37. Sei X eine Zufallsvariable mit E[X ] = 0 und E[X 2] = σ 2 < ∞. Danngilt für t → 0

φX (t ) = 1 − 12t

2σ 2 + o(t2). (4.30)

Beweis. Mit (4.27) im Fall n = 2 gilt

φX (t ) −

2∑k=0

(it )k

k! E[Xk]=

φX (t ) − 1 − itE[X ] − (it )2

2 E[X 2]

=φX (t ) − 1 +

12t

2σ 2

≤t2

3!E[min|t | |X |3, 6X 2].

(4.31)

Wegen min|t | |X |3, 6X 2 ≤ 6X 2 und E[6X 2] = 6σ 2 < ∞ folgt mit Satz vonmajorisierter Konvergenz

limt→0

E[min|t | |X |3, 6X 2] = E[limt→0

min|t | |X |3, 6X 2] = 0. (4.32)

Mit (4.31) und (4.32) folgt (4.30).

Satz 4.38 (Zentraler Grenzwertsatz). Es seien X1,X2, . . . unabhängige undidentisch verteilte Zufallsvariablen mit E[Xi] =m und Var[Xi] = σ 2 < ∞. Danngilt

1√n

n∑i=1

(Xi −m) ⇒ Z , (4.33)

wobei Z eine N(0,σ 2)-verteilte Zufallsvariable ist.

Beweis. Ohne Einschränkung können wirm = 0 annehmen. Mit Satz 4.37 gilt

φX1 (t ) = 1 − 12t

2σ 2 + o(t2).

141

4.5 Zentraler Grenzwertsatz

Mit (4.16) folgt

φX1/√n (t ) = φX1 (t/

√n) = 1 − 1

2t2

nσ 2 + o(t2/n).

Da die Zufallsvariablen unabhängig und identisch verteilt sind, erhalten wirmit (4.19)

φ (X1+...+Xn )/√n (t ) =

n∏k=1

φXk/√n (t ) =

(φX1/

√n (t )

)n=

(1 − 1

2t2

nσ 2 + o(t2/n)

)n n→∞−−−−→ e−

12 t

2σ 2.

Die rechte Seite ist nach Beispiel 4.36 die charakteristische Funktion derN(0,σ 2) Verteilung. Mit dem Stetigkeitssatz von Lévy (Satz 4.33) folgt dieBehauptung.

Beispiel 4.39 (Zentraler Grenzwertsatz von De Moivre-Laplace).Seien X1,X2, . . . unabhängige Bernoulli verteilte Zufallsvariablen mit Parame-ter p, also

P(Xi = 1) = p und P(Xi = 0) = 1 − p.

Dann istm = p und σ 2 = p (1−p) in Satz 4.38. Außerdem ist Sn = X1+ . . .+Xn

Binomial verteilt mit Parametern n und es gilt

Sn − np√np (1 − p)

⇒ Z ,

wobei Z ∼ N(0, 1).

Bemerkung 4.40. Wir haben den zentralen Grenzwertsatz für unabhängige undidentisch verteilte Zufallsvariablen bewiesen. Es gibt einige Verallgemeinerun-gen davon, sowohl für unabhängige nicht identisch verteilte Zufallsvariablen(hinreichend sind die Lindeberg-Bedingung und die Lyaponov-Bedingung)als auch abhängige Zufallsvariablen. Für einen umfangreichen Überblick überverschiedene Versionen des zentralen Grenzwertsatzes verweisen wir aufKapitel 9 in Chow and Teicher (1997).

142

4.6 Übungen

4.6 Übungen

Übung 4.1. Die momentenerzeugende Funktionψ einer Zufallsvariablen X istdeniert durch

ψ (t ) = E[etX ].

Sofern Sie auf einem oenen Intervall um 0 endlich ist, gilt

E[Xn] = ψ (n) (0), für alle n ∈ N0.

Dabei bezeichnetψ (n) die n-te Ableitung vonψ .Berechnen Sie für Y ∼ N(µ,σ 2) alle n-ten zentralen Momente E[(Y − E[Y ])n]

von Y . Berechnen Sie dazu die momentenerzeugende Funktion von Y − E[Y ] undschauen Sie sich die Koezienten der Taylorreihe vonψ um 0 an.

Folgern Sie: Für Y ∼ N(0, 1) gilt

E[Yn] =

0 falls n ungerade,(n − 1) · (n − 3) · · · 3 · 1 falls n gerade.

(4.34)

Übung 4.2. Seien X1, . . . ,Xn unabhängige, exponentialverteilte Zufallsvaria-

blen mit Parameter λ > 0 und Zn B max1≤i≤n

Xi . Zeigen Sie, dass die Folge Zn −lnnλ

in Verteilung gegen eine doppelexponentialverteilte ZufallsvariableZ konvergiert.Dabei ist die Verteilungsfunktion einer doppelexponentialverteilten Zufallsvaria-blen gegeben durch F (x ) = e−e

−λx, x ∈ R.

Übung 4.3. Es sei X1,X2, . . . eine Folge unabhängiger und identisch verteilterZufallsvariablen mit E[X 2

1 ] < ∞. Zeigen Sie, dass

max|Xi | : i ∈ 1, . . . ,n√n

⇒ 0.

Übung 4.4. Es sei X eine Zufallsvariable mit Dichte f . Zeigen Sie, dass fgenau dann eine gerade Funktion ist, wenn die charakteristische Funktion von Xreellwertig ist.

Übung 4.5. Berechnen Sie die charakteristische Funktion einer binomial ver-teilten Zufallsvariablen. Beweisen Sie mit Hilfe dieser Funktion: Sind X1 undX2 unabhängige Bin(n1,p) bzw. Bin(n2,p)-verteilte Zufallsvariablen, dann istX1 + X2 Bin(n1 + n2,p)-verteilt.

143

4.6 Übungen

Übung 4.6. Es seien X und Y unabhängige identisch verteilte Zufallsvariablenmit Erwartungswert 0 und Varianz 1. Zeigen Sie mit Hilfe der charakteristischenFunktionen: Stimmt die Verteilung der Zufallsvariablen (X + Y )/

√2 mit der von

X und Y überein, dann sind X und Y normal verteilt.Hinweis: Aus den Voraussetzungen erhält man für die charakteristische Funk-

tion eine Gleichung der Form φ (t ) = [φ (?)]2. Betrachten Sie Iterationen dieserGleichung zusammen mit der Taylorentwicklung von φ.

Übung 4.7. Beweisen Sie mit Hilfe der charakteristischen Funktionen das schwa-che Gesetz der großen Zahlen in der folgenden Form: Ist (Xn )n∈N eine Folge unab-hängiger und identisch verteilter Zufallsvariablen mit endlichem Erwartunswertm, dann konvergiert n−1

∑ni=1Xi in Wahrscheinlichkeit gegenm.

Übung 4.8. Für λ > 0 seiYλ eine Poisson verteilte Zufallsvariable mit Parameterλ. Zeigen Sie

Yλ − λ√λ⇒ X , für λ → ∞,

wobei X eine standardnormalverteilte Zufallsvariable ist.

Übung 4.9. Es seien s ≥ 0 und λ > 0. Beweisen Sie:

limn→∞

e−λn∑

0≤k≤ns

(λn)k

k! =

0 : s < λ,

1/2 : s = λ,

1 : s < λ.

Anleitung: Ist (Xn )n∈N eine Folge unabhängiger Poisson verteilter Zufallsvaria-blen mit Parameter λ, so gilt (begründen!)

P( 1n

n∑i=1

Xi ≤ s)= e−nλ

∑0≤k≤ns

(λn)k

k! .

Benutzen Sie für den Beweis der Behauptung den zentralen Grenzwertsatz.

144

5 Bedingte Wahrscheinlichkeiten undErwartungen

In der Einführungsvorlesung zu Stochastik wurden Wahrscheinlichkeiten vonEreignissen bedingt auf ein anderes Ereignis behandelt. In diesem Kapitelverallgemeinern wir diesen Begri weitgehend. Insbesondere werden wirerklären, was bedingte Wahrscheinlichkeiten von Ereignissen und allgemeinerbedingte Erwartungen gegeben eine σ -Algebra sind.

5.1 Motivation und erste Beispiele

Wenn (Ω,A, P) ein Wahrscheinlichkeitsraum ist und A,B ∈ A mit P(B) > 0,so ist die bedingte Wahrscheinlichkeit von A gegeben B ist deniert durch

P(A|B) =P(A ∩ B)

P(B). (5.1)

Bekanntermaßen ist P(·|B) ein Wahrscheinlichkeitsmaß auf A.Denition 5.1. Sei B ∈ A mit P(B) > 0. Ist X eineA messbare integrierbareZufallsvariable, so ist der bedingte Erwartungswert von X gegeben B deniertdurch

E[X |B] = 1P(B)

E[1BX ] =∫

X (ω)P(dω |B). (5.2)

Beispiel 5.2. Es sei Ω = (0, 1), A = B ((0, 1)) und P das Lebesgue-Maß aufB ((0, 1)). Dann ist U (ω) = ω eine auf (0, 1) uniform verteilte Zufallsvariable.Für B = (0, 1/2] ist P(B) = 1/2 und es gilt

E[U ] = 12 und E[U |B] = 1

P(B)

∫ 1/2

0U dP =

11/2

12(14 − 0

)=

14 .

Beispiel 5.3. Sei Ω = ∪nBn eine disjunkte Vereinigung von Mengen ausA mit P(Bn ) > 0 für alle n. Die σ -Algebra G = σ (B1,B2, . . .) besteht ausMengen der Form G = ∪n∈IBn mit I ⊂ N. Die Mengen Bn nennt man Atomevon G.

145

5.1 Motivation und erste Beispiele

(a) Für A ∈ A ist die bedingte Wahrscheinlichkeit von A gegeben G deniertdurch

P(A|G) (ω) = P(A|Bn ), falls ω ∈ Bn . (5.3)

Dann ist P(A|G) (ω) auf Bn konstant und damit ist es eine G messbareZufallsvariable. Für G = ∪n∈IBn gilt

E[1G1A] = P(A ∩G ) =∑n∈I

P(Bn ∩A) =∑n∈I

P(Bn )P(A|Bn )

= E[1GP(A|G)].

(b) Für eine A messbare integrierbare Zufallsvariable X ist der bedingte Er-wartungswert von X gegeben G deniert durch

E[X |G](ω) = E[X |Bn] falls ω ∈ Bn . (5.4)

Für G = ∪n∈IBn gilt

E[1GX ] =∑n∈I

E[1BnX ] =∑n∈I

P(Bn )E[X |Bn] = E[1GE[X |G]

]. (5.5)

Setzen wir in Beispiel 5.2 B1 = (0, 1/2] und B2 = (1/2, 1) undX = U , so giltG = ∅,B1,B2,Ω und dann ist E[U |G] eine G messbare Zufallsvariablemit

P(E[U |G] = 1

4)=

12 = P

(E[U |G] = 3

4).

Ferner gilt

E[E[U |G]

]=

12 ·

14 +

12 ·

34 =

12 = E[U ]. (5.6)

Man kann in (a) und (b) oben auch Bn mit P(Bn ) = 0 zulassen. Auf solchenMengen deniert man die bedingten Erwartungen (und Verteilungen) beliebigaber konstant.

146

5.2 Bedingte Erwartungen

5.2 Bedingte Erwartungen

Hier verallgemeinern wir die anschaulichen Denitionen aus dem vorherigenAbschnitt. Weil Wahrscheinlichkeiten von Ereignissen als Erwartungswerteentsprechender Indikatorfunktionen aufgefasst werden können, reicht es dieTheorie für bedingte Erwartungen zu entwickeln.

Denition 5.4. Es sei X eine integrierbare Zufallsvariable auf dem Wahr-scheinlichkeitsraum (Ω,A, P) und sei G ⊂ A eine σ -Algebra. Die bedingteErwartung von X gegeben G ist eine Zufallsvariable E[X |G] mit

(i) E[X |G] ist messbar bezüglich G;

(ii) Für alle G ∈ G gilt

E[1GX ] =∫GX dP =

∫GE[X |G]dP = E

[1GE[X |G]

]. (5.7)

Bemerkung 5.5 (Interpretation und bedingte Wahrscheinlichkeit). Der Wertder Zufallsvariablen E[X |G](ω) kann als der Erwartungswert (bzw. Schätzung)vonX interpretiert werden wenn für jedesG ∈ G bekannt ist obω ∈ G ist odernicht. Man hat überω also nur diese partielle Information. Am anschaulichstenist es in der Situation von Beispiel 5.3(b). Die einzige Information über ω diein (5.4) benötigt wird ist zu welchem Bn es gehört.

Die bedingte Wahrscheinlichkeit gegeben eine (allgemeine) σ -Algebra be-kommen wir (wie gewohnt) aus der bedingten Erwartung: Für B ∈ A ist

P(B |G) B E[1B |G]. (5.8)

Die Bedingungen (i) und (ii) in der Denition der bedingten Erwartung werdendann zu

(i) P(B |G) ist messbar bezüglich G;

(ii) Für alle G ∈ G gilt ∫GP(B |G)dP = P(B ∩G ). (5.9)

147

5.2 Bedingte Erwartungen

Denken wir an ein Spiel, bei dem ein Spieler aufgrund von Information diein G enthalten ist, die Möglichkeit hat auf ein Ereignis B zu wetten (im FallB ∈ G wäre das natürlich eine sichere Wette). Der Einsatz beträgt P(B |G) under bekommt 1€ wenn A eintritt und 0€ sonst. Der Gewinn (und Verlust) istalso

(1 − P(B |G)1B + (−P(B |G))1Bc = 1B − P(B |G). (5.10)

Angenommen der Spieler spielt nur wenn ein Ereignis G ∈ G eintritt undsonst nicht. Der erwartete Gewinn mit dieser Strategie ist dann der Gewinnin (5.10) integriert über G, also∫

G(1B − P(B |G)) dP.

Nach der Bedingung (ii) ist dieser erwartete Gewinn 0€, d.h. das Spiel ist fair.Bedingung (i) garantiert, dass man den Einsatz berechnen kann. Ein konkretesBeispiel könnte z.B. gleichzeitiges Würfeln zweier Würfel. Nach Aufdeckeneines der Würfel soll der Spieler auf eine bestimmte Augensumme wetten.

Im folgenden Satz beweisen wir mit Hilfe des Satzes von Radon-Nikodýmdie Existenz und die fast sichere Eindeutigkeit der bedingten Erwartungen.

Satz 5.6. Unter den Voraussetzungen und Notation von Denition 5.4 existiertdie bedingte Erwartung von X gegeben G uns ist fast sicher eindeutig bestimmt.

Da bedingte Erwartungen nur fast sicher eindeutig bestimmt sind, bezeich-net man Zufallsvariablen die (i) und (ii) in Denition 5.4 erfüllen als Versionender bedingten Erwartung.

Beweis von Satz 5.6. Sei G ∈ G. Nach Satz 2.5 wird durch

ν (G ) B E[1GX ]

ein endliches signiertes Maß ν auf G deniert. Dieses Maß ist absolutstetigbezüglich P, denn für N ∈ G mit P(N ) = 0 gilt

ν (N ) = E[1NX ] =∫NX dP = 0.

Nach dem Satz von Radon-Nikodým (Satz 2.22) existiert eine P-fast sichereindeutig bestimmte P-Dichte д von ν mit ν (G ) =

∫GдdP für alleG ∈ G. Diese

Dichte ist eine Version der bedingten Erwartung von X gegeben G.

148

5.2 Bedingte Erwartungen

Beispiel 5.7. Sei X eine Zufallsvariable auf (Ω,A, P).

(a) E[X |∅,Ω] = E[X ] f.s., denn Konstanten sind messbar bezüglich ∅,Ωund es gilt

E[1∅X ] = 0 = E[1∅E[X ]

]und E[1ΩX ] = E[X ] = E

[1ΩE[X ]

].

(b) E[X |A] = X f.s., denn beide Bedingungen in Denition 5.4 sind trivialer-weise erfüllt.

(c) E[X |σ (A)] = E[X |A]1A + E[X |Ac]1Ac .

Denition 5.8. Für Y : (Ω,A) → (Ω′,A′) ist die bedingte Erwartung von Xgegeben Y deniert durch

E[X |Y ] B E[X |σ (Y )], (5.11)

wobei σ (Y ) die von Y auf Ω erzeugte σ -Algebra ist.

Satz 5.9. SeienX ,Y : Ω → R Zufallsvariablen auf (Ω,A, P). Es gibt eine Funk-tion f : R→ Rmit E[X |Y ] = f (Y ) fast sicher. Diese Funktion ist charakterisiertdurch

E[1Y∈BX ] =∫Bf (y) PY (dy), (5.12)

wobei PY = PY−1 das Bildmaß von Y ist.

Beweis. Die erste Aussage ist eine direkte Konsequenz von Satz 3.1(ii). Diezweite Aussage folgt mit der Subtitutionsformel (Satz 3.6):

E[1Y∈BX ] = E[1Y−1 (B)X ] = E[1Y−1 (B)E[X |Y ]] = E[1B (Y ) f (Y )]

=

∫Bf (y)PY (dy).

149

5.3 Eigenschaften bedingter Erwartungen

5.3 Eigenschaen bedingter Erwartungen

Das folgende Resultat sollte nicht überraschend sein. Es ist nur eine Umfor-mulierung von Lemma 2.24(iii).

Satz 5.10. Sei E ein schnittstabiler Erzeuger von G und sei Ω eine endlicheoder abzählbar unendliche Vereinigung von Mengen aus E. Eine integrierbareFunktion f ist genau dann eine Version von E[X |G], wenn es messbar bezüglichG ist und wenn ∫

Gf dP =

∫GX dP

für alle G ∈ E gilt.

Satz 5.11. Seien X ,Y ,X1,X2, . . . integrierbare Zufallsvariablen auf (Ω,A, P)und G ⊂ A eine σ -Algebra. Dann gelten folgende Aussagen.

(i) Gilt X = a fast sicher, dann gilt E[X |G] = a.

(ii) Für a,b ∈ R gilt E[aX + bY |G] = aE[X |G] + bE[Y |G].

(iii) Gilt X ≤ Y fast sicher, dann gilt E[X |G] ≤ E[Y |G].

(iv) |E[X |G]| ≤ E[|X | |G].

(v) Gilt limn Xn = X und |Xn | ≤ Y fast sicher und ist Y integrierbar, so giltlimn E[Xn |G] = E[X |G] fast sicher.

Bemerkung 5.12. Die Aussagen aus dem obigen Satz sind vermutlich nichtüberraschend, weil wir sie für Erwartungswerte ohne Bedingung bereits sokennen. Aussage (v) ist die Version des Satzes für majorisierte Konvergenz vonLebesgue. Für eine Version des Satzes von dominierter Konvergenz verweisenwir auf Übung 5.1. Die Version der Jensen Ungleichung zeigen wir in Satz 5.15.

Beweis von Satz 5.11. (i) WennX = a fast sicher gilt, dann erfüllt die Funktionf ≡ a die Bedingungen (i) und (ii) in Denition 5.4 und ist somit eine Versionder bedingten Erwartung E[X |G].

150

5.3 Eigenschaften bedingter Erwartungen

(ii) Die Zufallsvariable aE[X |G] + bE[Y |G] ist G-messbar und integrierbarund für G ∈ G gilt∫

G(aE[X |G] + bE[Y |G]) dP = a

∫GE[X |G]dP + b

∫GE[Y |G]dP

= a

∫GX dP + b

∫GY dP

=

∫G(aX + bY ) dP.

(iii) Wenn X ≤ Y fast sicher gilt, dann gilt für G ∈ G∫G(E[Y |G] − E[X |G]) dP =

∫G(Y − X ) dP ≥ 0.

Da E[Y |G] − E[X |G] messbar bezüglich G ist, ist es fast sicher nicht negativ(vgl. das Argument im Beweis von Lemma 2.24(ii)). Das zeigt (iv).(iv) Das ist eine Folgerung von (ii) und (iii), denn mit diesen beiden Aussagengilt −E[|X | |G] ≤ E[X |G] ≤ E[|X | |G].(iv) Setze Zn = supk≥n |Xk − X |. Nach Voraussetzung gilt Zn ↓ 0 fast sicher.Mit (ii), (iii) und (iv) folgt

|E[Xn |G] − E[X |G]| ≤ E[Zn |G].

Es genügt also zu beweisen, dass E[Zn |G] ↓ 0 fast sicher gilt. Nach (iii) istE[Zn |G] nichtfallend und hat daher einen Grenzwert Z . Zu zeigen ist Z = 0fast sicher. Da Z nichtnegativ ist, ist es gleichbedeutend mit E[Z ] = 0. Es gilt0 ≤ Zn ≤ 2Y . Mit (5.7) und mit dem Satz von majorisierter Konvergenz folgt

E[Z ] =∫

E[Z |G]dP ≤∫

E[Zn |G]dP = E[Zn]n→∞−−−−→ 0.

Folgender Satz ist eine wichtige Verallgemeinerung von Beispiel 5.7(b).

Satz 5.13. Ist X messbar bezüglich G und sind Y und XY integrierbar, dann gilt

E[XY |G] = XE[Y |G] fast sicher. (5.13)

151

5.3 Eigenschaften bedingter Erwartungen

Beweis. 1) Sei zunächst X = 1B für ein B ∈ G. Natürlich ist dann XE[Y |G]messbar bezüglich G und außerdem gilt für G ∈ G

E[1GXY ] = E[1G∩BY ] = E[1G∩BE[Y |G]] = E[1GXE[Y |G]].

2) Ist X = ∑ni=1 bi1Bi für bi ∈ R und Bi ∈ G, so folgt die Aussage mit 1) und

Satz 5.11(ii).3) Seien X eine beliebige G messbare Zufallsvariable und seien X1,X2, . . .

einfache G Funktionen (wie in 2)) mit |Xn | ≤ X und Xn → X fast sicher.Einerseits folgt mit 2)

E[XnY |G] = XnE[Y |G]→ XE[Y |G] fast sicher.

Andererseits folgt mit Satz 5.11(v)

E[XnY |G]→ E[XY |G] fast sicher.

Also folgt E[XY |G] = XE[Y |G] fast sicher.

Bedingte Erwartung von X gegeben eine σ -Algebra G eine Art „Mittlung“der Zufallsvariablen auf den Mengen von G (vgl. Beispiel 5.2(b)). Wenn wiralso X erst auf einer σ -Algebra G2 mitteln und dann das Ergebnis auf einergröberen (kleineren) σ -Algebra G1 mitteln, dann sollte das Ergebnis dasselbesein wie das Mitteln über G1 allein. Das folgende Resultat könnte man mitder Aussage zusammenfassen: „Die kleinere σ -Algebra gewinnt immer“. EinSpezialfall dieses Resultates mit G2 = A ist (5.7) (vgl. auch Beispiel 5.7(b)).

Satz 5.14 (Turmeigenschaft). Wenn X integrierbar ist und für die σ -AlgebrenG1 und G2 gilt G1 ⊂ G2, dann gilt

E[E[X |G2]G1

]= E[X |G1] (5.14)

und

E[E[X |G1]G2

]= E[X |G1]. (5.15)

Beweis. Die linke Seite von (5.14) ist messbar bezüglich G1 also ist noch∫GE

[E[X |G2]G1

]dP =

∫GX dP (5.16)

152

5.3 Eigenschaften bedingter Erwartungen

für alleG ∈ G1 zu zeigen. Aber wennG ∈ G1 ist, istG ∈ G2 und die linke Seitein (5.16) ist gleich ∫

GE[X |G2]dP =

∫GXdP.

Das zeigt (5.14).Wegen G1 ⊂ G2 ist E[X |G1] messbar bezüglich G2, sodass bedingte Erwar-

tung von E[X |G1] gegeben G2 unverändert bleibt.

Satz 5.15 (Jensen-Ungleichung für bedingte Erwartungen). Ist h eine konvexeFunktion und sind X und h(X ) integrierbar, dann gilt

h(E[X |G]

)≤ E[h(X ) |G] fast sicher. (5.17)

Beweis. Wie in Beweis von Satz 3.11 gibt es für jedes x0 ein a(x0) mit

h(x ) ≥ h(x0) + (x − x0)a(x0). (5.18)

wobei a(x0) als die rechtsseitige Ableitung von h in x0 gewählt werden kann,so dass nicht fallend in x0 ist. Es folgt

h(X ) ≥ h(E[X |G]

)+ a

(E[X |G]

)(X − E[X |G]).

Nehmen wir zunächst an, dass E[X |G] beschränkt ist. Dann sind alle Termein der obigen Ungleichung integrierbar. Nehmen wir bedingte Erwartungenbezüglich G auf beiden Seiten und wenden (5.14) auf den zweiten Summandauf der rechten Seite, so folgt (5.17).

Um (5.17) allgemein zu zeigen, setzen wir Gn = |E[X |G]| ≤ n dann istGn ∈ G und E[1GnX |G] = 1GnE[X |G] ist beschränkt. Also gilt (5.17) für 1GnX :

h(E[1GnX |G]

)≤ E[h(1GnX ) |G] fast sicher.

Es gilt

E[h(1GnX ) |G] = E[1Gnh(X ) + 1Gcnh(0) |G]

= 1GnE[h(X ) |G] + 1Gcnh(0) → E[h(X ) |G].

Da h stetig ist, konvergiert h(1GnE[X |G]) fast sicher gegen h(E[X |G]). Damitist (5.17) bewiesen.

153

5.4 Übungen

5.4 Übungen

Übung 5.1. Es seien X1,X2, . . . nichtnegative Zufallsvariablen auf (Ω,A, P)und sei G ⊂ A eine σ -Algebra. Zeigen Sie:

(a) Gilt Xn ↑ X fast sicher, so folgt E[Xn |G] ↑ E[X |G] fast sicher.

(b) E[∑∞

n=1Xn |G]=

∑∞n=1 E[Xn |G].

(c) Wir setzen P(A|G) B E[1A |G] fürA ∈ A. Sind B1,B2, . . . disjunkte Mengenaus A, dann gilt P(∪∞n=1Bn |G) =

∑∞n=1 P(Bn |G).

Übung 5.2. SeienX undY unabhängige Zufallsvariablen. Berechnen Sie E[X |Y ].

Übung 5.3. Seien X und Y unabhängige und identisch verteilte integrierbareZufallsvariablen. Zeigen Sie

E[X |X + Y ] = E[Y |X + Y ] = X + Y

2 fast sicher.

Übung 5.4. Die bedingte Varianz von X gegeben Y ist deniert durch

Var[X |Y ] B E[(X − E[X |Y ])2Y

].

Zeigen Sie

Var[X ] = E[Var[X |Y ]

]+ Var

[E[X |Y ]

].

Übung 5.5. Seien X und Y beschränkte Zufallsvariablen. Zeigen Sie

E[YE[X |G]

]= E

[XE[Y |G]

].

154

Literaturverzeichnis

Ash, R. B.: 2000, Probability and measure theory, second edn, Har-court/Academic Press, Burlington, MA. With contributions by CatherineDoléans-Dade.

Billingsley, P.: 1995, Probability and measure, Wiley Series in Probability andMathematical Statistics, third edn, John Wiley & Sons, Inc., New York. AWiley-Interscience Publication.

Chow, Y. S. and Teicher, H.: 1997, Probability theory: Independence, interchange-ability, martingales, Springer Texts in Statistics, third edn, Springer-Verlag,New York.

Cohn, D. L.: 2013, Measure theory, Birkhäuser Advanced Texts: Basler Lehrbü-cher., 2nd edn, Birkhäuser/Springer, New York.

Elstrodt, J.: 2011, Maß- und Integrationstheorie., 7th revised and updated edn,Berlin: Springer.

Klenke, A.: 2013, Wahrscheinlichkeitstheorie., 3rd edn, Springer.

Kolmogoro, A.: 1933, Grundbegrie der Wahrscheinlichkeitsrechnung.,Springer-Verlag, Berlin.

155