Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance...

470
Einführung in die Wahrscheinlichkeitstheorie Prof. Dr. Andreas Eberle 28. September 2010

Transcript of Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance...

Page 1: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Einführung in die Wahrscheinlichkeitstheorie

Prof. Dr. Andreas Eberle

28. September 2010

Page 2: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Inhaltsverzeichnis

Inhaltsverzeichnis 2

1 Diskrete Zufallsvariablen 9

1.1 Ereignisse und ihre Wahrscheinlichkeit . . . . . . . . . . . . .. . . . . . . . . . 11

Ereignisse als Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

Wahrscheinlichkeitsverteilungen . . . . . . . . . . . . . . . . . . . .. . . . . . 13

Diskrete Wahrscheinlichkeitsverteilungen . . . . . . . . . . . .. . . . . . . . . 15

Spezielle Wahrscheinlichkeitsverteilungen . . . . . . . . . . .. . . . . . . . . . 18

1.2 Diskrete Zufallsvariablen und ihre Verteilung . . . . . . .. . . . . . . . . . . . 23

1.3 Simulation von Gleichverteilungen . . . . . . . . . . . . . . . . .. . . . . . . . 29

1.4 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 37

Transformationssatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 38

Linearität und Monotonie des Erwartungswertes . . . . . . . . . .. . . . . . . . 40

2 Bedingte Wahrscheinlichkeiten und Unabhängigkeit 44

2.1 Bedingte Wahrscheinlichkeiten . . . . . . . . . . . . . . . . . . . . .. . . . . . 44

Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung . . . . . . . . . 45

Bayessche Regel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

2.2 Mehrstufige diskrete Modelle . . . . . . . . . . . . . . . . . . . . . . .. . . . . 48

Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

Markov-Ketten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

2.3 Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . .. . . . . . 56

Verteilungen für unabhängige Ereignisse . . . . . . . . . . . . . . .. . . . . . . 58

2.4 Unabhängige Zufallsvariablen und Random Walk . . . . . . . . .. . . . . . . . 64

Unabhängigkeit von diskreten Zufallsvariablen . . . . . . . . .. . . . . . . . . 64

Der Random Walk aufZ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.5 Simulationsverfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 72

2

Page 3: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

INHALTSVERZEICHNIS 3

Das direkte Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .72

Acceptance-Rejection-Verfahren . . . . . . . . . . . . . . . . . . . . . .. . . . 73

3 Konvergenzsätze und Monte Carlo Verfahren 76

3.1 Varianz und Kovarianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 77

3.2 Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . .. . . . . . 81

3.3 Monte Carlo-Verfahren . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 83

Varianzreduktion durch Importance Sampling . . . . . . . . . . . .. . . . . . . 86

3.4 Gleichgewichte von Markov-Ketten . . . . . . . . . . . . . . . . . .. . . . . . 89

Gleichgewichte und Stationarität . . . . . . . . . . . . . . . . . . . . .. . . . . 89

Metropolis-Algorithmus und Gibbs-Sampler . . . . . . . . . . . . .. . . . . . . 93

3.5 Konvergenz ins Gleichgewicht . . . . . . . . . . . . . . . . . . . . . .. . . . . 97

4 Stetige und Allgemeine Modelle 102

4.1 Unendliche Kombinationen von Ereignissen . . . . . . . . . . .. . . . . . . . . 102

4.2 Allgemeine Wahrscheinlichkeitsräume . . . . . . . . . . . . . .. . . . . . . . . 110

Beispiele von Wahrscheinlichkeitsräumen . . . . . . . . . . . . . . .. . . . . . 110

Konstruktion vonσ-Algebren . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen . . . . . . . . . 115

4.3 Allgemeine Zufallsvariablen und ihre Verteilung . . . . .. . . . . . . . . . . . . 119

Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .. . . 120

Verteilungen von Zufallsvariablen . . . . . . . . . . . . . . . . . . . .. . . . . 122

4.4 Wahrscheinlichkeitsverteilungen aufR . . . . . . . . . . . . . . . . . . . . . . . 126

Eigenschaften der Verteilungsfunktion . . . . . . . . . . . . . . . .. . . . . . . 126

Diskrete Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 127

Stetige Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 129

Transformation von absolutstetigen Zufallsvariablen . . .. . . . . . . . . . . . . 134

4.5 Quantile und Inversionsverfahren . . . . . . . . . . . . . . . . . .. . . . . . . . 136

Quantile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137

Konstruktion und Simulation reellwertiger Zufallsvariablen . . . . . . . . . . . . 139

4.6 Normalapproximation der Binomialverteilung . . . . . . . . .. . . . . . . . . . 143

Der Satz von De Moivre - Laplace . . . . . . . . . . . . . . . . . . . . . . . . .144

Approximative Konfidenzintervalle . . . . . . . . . . . . . . . . . . . .. . . . . 150

Universität Bonn Wintersemester 2009/2010

Page 4: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4 INHALTSVERZEICHNIS

5 Unabhängigkeit und Produktmodelle 153

5.1 Unabhängigkeit in allgemeinen Modellen . . . . . . . . . . . . .. . . . . . . . 153

Unabhängigkeit von Ereignissen . . . . . . . . . . . . . . . . . . . . . . .. . . 153

Unabhängigkeit von Zufallsvariablen . . . . . . . . . . . . . . . . . .. . . . . . 156

Konfidenzintervalle für Quantile . . . . . . . . . . . . . . . . . . . . . .. . . . 160

5.2 Gemeinsame Verteilungen und endliche Produktmodelle .. . . . . . . . . . . . 162

Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen . . . . . . . . . . 162

Absolutstetigkeit von multivariaten Verteilungen . . . . . .. . . . . . . . . . . . 165

Gemeinsame Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . .166

5.3 Unendliche Produktmodelle . . . . . . . . . . . . . . . . . . . . . . . .. . . . 174

Konstruktion von unabhängigen Zufallsvariablen . . . . . . . .. . . . . . . . . 174

Unendliche Produktmaße . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .179

5.4 Asymptotische Ereignisse . . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 180

Das 0-1-Gesetz von Kolmogorov . . . . . . . . . . . . . . . . . . . . . . . . .. 182

Anwendungen auf Random Walks und Perkolationsmodelle . . . . .. . . . . . . 182

6 Erwartungswert und Varianz 187

6.1 Erwartungswert . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 187

Definition des Erwartungswerts . . . . . . . . . . . . . . . . . . . . . . . .. . . 187

Eigenschaften des Erwartungswerts . . . . . . . . . . . . . . . . . . . .. . . . 191

Konvergenzsätze . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193

6.2 Berechnung von Erwartungswerten; Dichten . . . . . . . . . . . .. . . . . . . . 195

Diskrete Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 196

Allgemeine Zufallsvariablen . . . . . . . . . . . . . . . . . . . . . . . . .. . . 196

Zufallsvariablen mit Dichten . . . . . . . . . . . . . . . . . . . . . . . . .. . . 199

Existenz von Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

6.3 Varianz, Kovarianz und lineare Regression . . . . . . . . . . . .. . . . . . . . . 204

Varianz und Standardabweichung . . . . . . . . . . . . . . . . . . . . . . .. . . 204

Quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . . . .. . . . . . . . 206

Beste Prognosen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207

Kovarianz und Korrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 209

Lineare Regression . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 212

Unabhängigkeit und Unkorreliertheit . . . . . . . . . . . . . . . . . .. . . . . . 216

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 5: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

INHALTSVERZEICHNIS 5

7 Gesetze der großen Zahlen 218

7.1 Ungleichungen und Konvergenz von ZVn . . . . . . . . . . . . . . . .. . . . . 218

Konvergenzbegriffe für Zufallsvariablen . . . . . . . . . . . . . .. . . . . . . . 218

Die Markov-Cebyšev-Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . 221

Die Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . .. 223

7.2 Starke Gesetze der großen Zahlen . . . . . . . . . . . . . . . . . . . .. . . . . 225

Das schwache Gesetz der großen Zahlen . . . . . . . . . . . . . . . . . . .. . . 226

Das starke Gesetz für quadratintegrierbare Zufallsvariablen . . . . . . . . . . . . 227

VonL2 nachL1 mit Unabhängigkeit . . . . . . . . . . . . . . . . . . . . . . . . 231

7.3 Empirische Verteilungen . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 235

Schätzen von Kenngrößen einer unbekannten Verteilung . . . .. . . . . . . . . 235

Konvergenz der empirischen Verteilungsfunktionen . . . . . .. . . . . . . . . . 237

Histogramme und Multinomialverteilung . . . . . . . . . . . . . . . .. . . . . 239

7.4 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 241

Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . .. . 242

Statistische Interpretation der Entropie . . . . . . . . . . . . . .. . . . . . . . . 245

Entropie und Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .246

8 Grenzwertsätze 249

8.1 Charakteristische und Momentenerzeugende Funktionen .. . . . . . . . . . . . 250

Definition und Eigenschaften . . . . . . . . . . . . . . . . . . . . . . . . . .. . 250

Inversion der Fouriertransformation . . . . . . . . . . . . . . . . . .. . . . . . 254

8.2 Erste Anwendungen auf Grenzwertsätze . . . . . . . . . . . . . . .. . . . . . . 256

Zentraler Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 257

Große Abweichungen vom Gesetz der großen Zahlen . . . . . . . . . .. . . . . 258

8.3 Verteilungskonvergenz . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . . 263

Schwache Konvergenz von Wahrscheinlichkeitsverteilungen . . . . . . . . . . . 264

Konvergenz der Verteilungen von Zufallsvariablen . . . . . . .. . . . . . . . . . 269

Existenz schwach konvergenter Teilfolgen . . . . . . . . . . . . . .. . . . . . . 272

Schwache Konvergenz über charakteristische Funktionen . .. . . . . . . . . . . 274

8.4 Der Zentrale Grenzwertsatz . . . . . . . . . . . . . . . . . . . . . . . .. . . . . 276

ZGS für Summen von i.i.d. Zufallsvariablen . . . . . . . . . . . . . .. . . . . . 277

Normalapproximationen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .279

Heavy Tails, Konvergenz gegenα-stabile Verteilungen . . . . . . . . . . . . . . 282

Der Satz von Lindeberg-Feller . . . . . . . . . . . . . . . . . . . . . . . . .. . 283

Universität Bonn Wintersemester 2009/2010

Page 6: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6 INHALTSVERZEICHNIS

8.5 Vom Random Walk zur Brownschen Bewegung . . . . . . . . . . . . . . . . .. 287

9 Multivariate Verteilungen und Statistik 288

9.1 Mehrstufige Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 288

Stochastische Kerne und der Satz von Fubini . . . . . . . . . . . . . .. . . . . 288

Wichtige Spezialfälle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 291

Bedingte Dichten und Bayessche Formel . . . . . . . . . . . . . . . . . . . .. . 292

9.2 Summen unabhängiger Zufallsvariablen, Faltung . . . . . .. . . . . . . . . . . 296

Verteilungen von Summen unabhängiger Zufallsvariablen . .. . . . . . . . . . . 297

Wartezeiten, Gamma-Verteilung . . . . . . . . . . . . . . . . . . . . . . .. . . 299

9.3 Transformationen, Gaußmodelle und Parameterschätzung . . . . . . . . . . . . . 301

Der Dichtetransformationssatz . . . . . . . . . . . . . . . . . . . . . . .. . . . 301

Multivariate Normalverteilungen und multivariater ZGS . .. . . . . . . . . . . . 302

Parameterschätzung im Gaußmodell . . . . . . . . . . . . . . . . . . . . .. . . 306

Hypothesentests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 310

10 Bedingte Erwartungen 313

10.1 Bedingen auf diskrete Zufallsvariablen . . . . . . . . . . . . .. . . . . . . . . . 313

Bedingte Erwartungen als Zufallsvariablen . . . . . . . . . . . . . .. . . . . . . 313

Formel von der totalen Wahrscheinlichkeit . . . . . . . . . . . . . .. . . . . . . 315

Bedingte Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 316

Anwendung auf zufällige Summen . . . . . . . . . . . . . . . . . . . . . . . .. 317

Charakterisierende Eigenschaften der bedingten Erwartung. . . . . . . . . . . . 318

10.2 Erzeugende Funktionen, Verzweigungsprozesse, und Erneuerungen . . . . . . . 319

Erzeugende Funktionen von ganzzahligen Zufallsvariablen. . . . . . . . . . . . 319

Erzeugende Funktionen zufälliger Summen . . . . . . . . . . . . . . .. . . . . 320

Galton-Watson-Verzweigungsprozesse . . . . . . . . . . . . . . . . .. . . . . . 321

Rekurrente Ereignisse und Erneuerungsgleichung . . . . . . . . .. . . . . . . . 324

10.3 Bedingen auf allgemeine Zufallsvariablen . . . . . . . . . . .. . . . . . . . . . 327

Das Faktorisierungslemma . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 328

Definition allgemeiner bedingter Erwartungen . . . . . . . . . . .. . . . . . . . 329

Diskreter und absolutstetiger Fall . . . . . . . . . . . . . . . . . . . .. . . . . . 332

Reguläre bedingte Verteilungen . . . . . . . . . . . . . . . . . . . . . . . .. . . 334

10.4 Rechnen mit bedingten Erwartungen; Poissonprozess . . .. . . . . . . . . . . . 337

Eigenschaften der bedingten Erwartung . . . . . . . . . . . . . . . . .. . . . . 338

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 7: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

INHALTSVERZEICHNIS 7

Poissonprozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 341

Poissonscher Punktprozess . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 345

10.5 Bedingte Erwartung als besteL2-Approximation . . . . . . . . . . . . . . . . . 348

Jensensche Ungleichung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .349

Bedingte Erwartung als besteL2-Prognose . . . . . . . . . . . . . . . . . . . . . 350

Existenz der bedingten Erwartung . . . . . . . . . . . . . . . . . . . . . .. . . 352

11 Markovketten 354

11.1 Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .354

Zufällige dynamische Systeme als Markovketten, Beispiele .. . . . . . . . . . . 355

Endlichdimensionale Randverteilung eine Markovkette . . . .. . . . . . . . . . 360

Verteilung auf dem Pfadraum; kanonisches Modell . . . . . . . . .. . . . . . . 365

11.2 Markoveigenschaft und Differenzengleichungen . . . . .. . . . . . . . . . . . . 368

Die Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .369

Differenzengleichungen für Markovketten . . . . . . . . . . . . . .. . . . . . . 374

Dirichletproblem und Austrittsverteilung . . . . . . . . . . . . .. . . . . . . . . 378

Beispiele harmonischer Funktionen . . . . . . . . . . . . . . . . . . . . .. . . 380

Mittlere Aufenthaltszeiten und Greenfunktion . . . . . . . . . .. . . . . . . . . 383

11.3 Rekurrenz und Transienz . . . . . . . . . . . . . . . . . . . . . . . . . . .. . . 384

Starke Markoveigenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 388

Rekurrenz und Transienz von einzelnen Zuständen . . . . . . . . . .. . . . . . 390

Kommunikationsklassen und globale Rekurrenz . . . . . . . . . . . .. . . . . . 393

11.4 Stationäre stochastische Prozesse . . . . . . . . . . . . . . . .. . . . . . . . . . 397

Stationarität und Reversibilität . . . . . . . . . . . . . . . . . . . . . .. . . . . 397

Rekurrenz von stationären Prozessen . . . . . . . . . . . . . . . . . . . .. . . . 399

Anwendung auf Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . .401

11.5 Ergodizität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 403

Positive Rekurrenz und Gleichgewichte . . . . . . . . . . . . . . . . . .. . . . 403

Ein Gesetz der großen Zahlen für Markovketten . . . . . . . . . . . .. . . . . . 405

Allgemeinere Ergodensätze . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 409

11.6 Zeitstetige Markovprozesse . . . . . . . . . . . . . . . . . . . . . .. . . . . . . 411

Übergangskerne und Markovprozesse . . . . . . . . . . . . . . . . . . . .. . . 411

Zeitstetige Markovketten . . . . . . . . . . . . . . . . . . . . . . . . . . . .. . 414

Vorwärts- und Rückwärtsgleichungen für Markovketten . . . . .. . . . . . . . . 418

Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung .. . . . . . . 422

Universität Bonn Wintersemester 2009/2010

Page 8: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8 INHALTSVERZEICHNIS

12 Importance Sampling und große Abweichungen 425

12.1 Relative Dichten und Importance Sampling . . . . . . . . . . . .. . . . . . . . 425

Relative Dichten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 425

Seltene Ereignisse und Importance Sampling . . . . . . . . . . . . .. . . . . . 430

12.2 Exponentielle Familien und große Abweichungen . . . . . .. . . . . . . . . . . 436

Exponentielle Familien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 436

Der Satz von Cramér . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440

Asymptotische Effizienz von IS Schätzern . . . . . . . . . . . . . . . .. . . . . 444

12.3 Relative Entropie und statistische Unterscheidbarkeit . . . . . . . . . . . . . . . 446

Relative Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446

Maßwechsel und untere Schranken für große Abweichungen . . .. . . . . . . . 449

Große Abweichungen für empirische Verteilungen . . . . . . . . .. . . . . . . 452

12.4 Likelihood . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .. 454

Konsistenz von Maximum-Likelihood-Schätzern . . . . . . . . . .. . . . . . . 454

Asymptotische Macht von Likelihoodquotiententests . . . . .. . . . . . . . . . 457

12.5 Bayessche Modelle und MCMC Verfahren . . . . . . . . . . . . . . . . .. . . . 461

Stichwortverzeichnis 462

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 9: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 1

Diskrete Zufallsvariablen

Unser Ziel in diesem Kapitel ist die mathematische Modellierung vonZufallsvorgängen. Ein-

fache Beispiele für Zufallsvorgänge sind das Werfen eines Würfels oder Münzwürfe. Anhand

dieser Beispiele wollen wir zunächst einige grundlegende Begriffe der Wahrscheinlichkeitstheo-

rie veranschaulichen.

NOTATIONEN: |A| bezeichnet die Anzahl der Elemente einer MengeA, AC bezeichnet das

Komplement der MengeA innerhalb einer bestimmten MengeB, dieA enthält.

Beispiel(Werfen eines Würfels).

• Mögliche Fälle sind 1, 2, 3, 4, 5, 6. Mit Ω = 1, 2, 3, 4, 5, 6 wird die Menge aller mög-

lichen Fälle bezeichnet. EinElementarereignis ist ein möglicher Fall, also ein Element

ω ∈ Ω.

• Ereignissesind die Objekte, denen man eine Wahrscheinlichkeit zuordnen kann, zum Bei-

spiel:

»Augenzahl ist 3« 3»Augenzahl ist gerade« 2, 4, 6»Augenzahl istnicht gerade« 1, 3, 5 = 2, 4, 6C

»Augenzahl ist größer als 3« 4, 5, 6»Augenzahl ist geradeund größer als 3« 4, 6 = 2, 4, 6 ∩ 4, 5, 6»Augenzahl geradeoder größer als 3« 2, 4, 5, 6 = 2, 4, 6 ∪ 4, 5, 6

JedesEreignis kann durch eineTeilmengeA vonΩ dargestellt werden!

9

Page 10: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

• Wahrscheinlichkeiten werden mitP (für »probability«) bezeichnet. Zum Beispiel sollte

für einen »fairen« Würfel gelten:

P [»3«] =1

6,

P [»Augenzahl gerade«] =Anzahl günstige FälleAnzahl mögliche Fälle

=|2, 4, 6|

|1, 2, 3, 4, 5, 6| =3

6=

1

2,

P [»Augenzahl gerade oder größer als 3«] =4

6=

2

3.

• Zufallsvariablen sind AbbildungenX : Ω → S, wobeiS eine beliebige Menge ist, zum

Beispiel:

X(ω) = ω, »Augenzahl des Wurfs«, oder

X(ω) =

1 falls ω ∈ 1, 2, 3, 4, 5,−5 falls ω ∈ 6,

»Gewinn bei einem fairen Spiel«.

Beispiel(Münzwürfe). a) EIN MÜNZWURF:

Die Menge der möglichen Fälle istΩ = 0, 1, wobei0 für »Kopf« und1 für »Zahl« steht.

Die Wahrscheinlichkeiten sind

P [1] = p und P [0] = 1− p mit 0 ≤ p ≤ 1.

Fürp = 12

ist der Münzwurf fair.

b) ENDLICH VIELE FAIRE MÜNZWÜRFE:

Die Menge der möglichen Fälle lautet

Ω = ω = (x1, . . . , xn) | xi ∈ 0, 1 =: 0, 1n.

Alle Ausgänge sind genau dann gleich wahrscheinlich, wennP [ω] = 2−n für alleω ∈ Ω

gilt. Dies wird im folgenden angenommen. Zufallsvariablenvon Interesse sind beispiels-

weise:

• Xi(ω) := xi, das Ergebnis desi-ten Wurfs. Das Ereignis »i-ter Wurf ist Kopf« wird

durch die MengeAi = ω ∈ Ω | Xi(ω) = 0 =: Xi = 0 beschrieben, und hat die

WahrscheinlichkeitP [Ai] =12.

• Sn(ω) :=∑n

i=1Xi(ω), die Anzahl der Einsen inn Münzwürfen. Das Ereignis »ge-

nauk-mal Zahl« wird durch die MengeA = ω ∈ Ω | Sn(ω) = k =: Sn = k be-

schrieben und hat die WahrscheinlichkeitP [A] =(nk

)2−n.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 11: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 11

c) UNENDLICH VIELE MÜNZWÜRFE:

Die Menge der möglichen Fälle ist nun

Ω = ω = (x1, x2, . . .) | xi ∈ 0, 1 = 0, 1N.

Diese Menge ist überabzählbar, da die Abbildung

Ω → [0, 1]

(x1, x2, . . .) 7→ 0.x1x2 . . .

surjektiv ist, (wobei das Einheitsintervall binär dargestellt wird). Die Definition von Er-

eignissen und Wahrscheinlichkeiten ist daher in diesem Fall aufwändiger. Wahrschein-

lichkeitsverteilungen auf überabzählbaren Mengen werdensystematisch in der Vorlesung

»Einführung in die Wahrscheinlichkeitstheorie« betrachtet.

In dieser Vorlesung ist die Menge der möglichen FälleΩ abzählbar. Solche Zufallsvorgänge wer-

dendiskret genannt.

1.1 Ereignisse und ihre Wahrscheinlichkeit

Ereignisse als Mengen

SeiΩ die Menge der möglichen Fälle undA ⊆ Ω ein Ereignis. Als Notationen für die MengeA

werden wir auch verwenden:

A = ω ∈ Ω | ω ∈ A = ω ∈ A = »A tritt ein«.

Wir wollen nunKombinationen von Ereignissenbetrachten.

SeienA,B,Ai, i ∈ I, Ereignisse. Was bedeuten Ereignisse wieAC ,A∪B,⋂

i∈I Ai anschaulich?

Um dies herauszufinden, betrachten wir einen möglichen Fallω und untersuchen, wann dieser

eintritt:

• A ∪ B:

ω ∈ A ∪B ⇔ ω ∈ A oderω ∈ B,

»A ∪ B tritt ein« ⇔ »A tritt ein oderB tritt ein«.

• ⋃i∈I Ai :

Universität Bonn Wintersemester 2009/2010

Page 12: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

ω ∈ ⋃i∈I Ai ⇔ es gibt eini ∈ I mit ω ∈ Ai.

»⋃

i∈I Ai tritt ein« ⇔ »mindestens eines der EreignisseAi tritt ein«.

• WEITERE BEISPIELE:

A ∩ B ⇔ »A undB treten ein«,⋂

i∈I Ai ⇔ »jedes derAi tritt ein«,

AC = Ω ⇔ »A tritt nicht ein«,

A = ∅ ⇔ »unmögliches Ereignis« (tritt nie ein),

A = Ω ⇔ »sicheres Ereignis« (tritt immer ein),

A = ω ⇔ »Elementarereignis« (tritt nur im Fallω ein).

SeiA die Kollektion aller im Modell zugelassenen bzw. in Betrachtgezogenen Ereignisse.

A besteht aus Teilmengen vonΩ, d.h.

A ⊆ P(Ω), wobei

P(Ω) := A | A ⊆ Ω

die Potenzmenge vonΩ, d.h. die Menge aller Teilmengen vonΩ bezeichnet. Die KollektionAsollte unter den obigen Mengenoperationen, also abzählbaren Vereinigungen, Durchschnitten und

Komplementbildung abgeschlossen sein. Wir fordern daher:

Axiom. A ⊆ P(Ω) ist eineσ-Algebra, d.h.

(i) Ω ∈ A,

(ii) Für alle A ∈ A gilt: AC ∈ A,

(iii) Für A1, A2, . . . ∈ A gilt:⋃∞

i=1Ai ∈ A.

Bemerkung. Fürσ-Algebren gilt auch:

a) Nach (i) und (ii) ist∅ = ΩC ∈ A.

b) SindA,B ∈ A, so gilt nach (iii) und a): A ∪B = A ∪ B ∪ ∅ ∪ ∅ ∪ . . . ∈ A.

c) SindA1, A2, . . . ∈ A, so ist nach (ii) und (iii):⋂∞

i=1Ai = (⋃∞

i=1ACi )

C ∈ A.

Beispiel. Die PotenzmengeA = P(Ω) ist eineσ-Algebra.

Üblicherweise verwendet manA = P(Ω) bei diskreten Modellen, d.h. für abzählbareΩ. Bei

nichtdiskreten Modellen kann mannicht jede WahrscheinlichkeitsverteilungP auf einerσ-Algebra

A ⊂ P(Ω) zu einer Wahrscheinlichkeitsverteilung aufP(Ω) erweitern (siehe »Einführung in die

Wahrscheinlichkeitstheorie«).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 13: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 13

Wahrscheinlichkeitsverteilungen

SeiΩ eine nichtleere Menge undA ⊆ P(Ω) eineσ-Algebra. Wir wollen nun EreignissenA ∈ Aeine WahrscheinlichkeitP [A] zuordnen. Für EreignisseA,B ∈ A gilt:

A ∪ B tritt ein ⇔ A oderB tritt ein.

Angenommen,A undB treten nicht gleichzeitig ein, d.h.

A ∩ B = ∅, (A undB sind »disjunkt«).

Dann sollte »endliche Additivität« gelten:

P [A ∪B] = P [A] + P [B].

Axiom. Eine Abbildung

P : A → [0,∞]

A 7→ P [A]

ist eineWahrscheinlichkeitsverteilungauf (Ω,A), wenn gilt:

(i) P ist »σ-additiv«, d.h. für EreignisseA1, A2, . . . ∈ A mitAi ∩ Aj = ∅ für i 6= j gilt:

P[ ∞⋃

i=1

Ai

]=

∞∑

i=1

P [Ai].

(ii) P ist »normiert«, d.h.

P [Ω] = 1.

EinWahrscheinlichkeitsraum(Ω,A, P ) besteht aus einer MengeΩ, einerσ-AlgebraA ⊆ P(Ω),

und einer WahrscheinlichkeitsverteilungP auf (Ω,A).

Satz 1.1(Elementare Rechenregeln). Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum.

i) Es gilt P [∅] = 0,

ii) Für A,B ∈ A mitA ∩ B = ∅ gilt endliche Additivität:

P [A ∪B] = P [A] + P [B].

Universität Bonn Wintersemester 2009/2010

Page 14: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

14 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

iii) Für A,B ∈ A mitA ⊆ B gilt:

P [B] = P [A] + P [B\A].

Insbesondere gilt:

P [A] ≤ P [B], »Monotonie«,

P [AC ] = 1− P [A], »Gegenereignis«,

P [A] ≤ 1.

iv) Für A,B ∈ A gilt:

P [A ∪ B] = P [A] + P [B]− P [A ∩ B] ≤ P [A] + P [B].

Beweis. i) Wegen derσ-Additivität vonP gilt

1 = P [Ω] = P [Ω ∪ ∅ ∪ ∅ ∪ . . .] = P [Ω]︸︷︷︸=1

+P [∅]︸︷︷︸≥0

+P [∅]︸︷︷︸≥0

+ . . . ,

und damit

P [∅] = 0.

ii) Für disjunkte EreignisseA,B folgt aus derσ-Additivität und mit i):

P [A ∪ B] = P [A ∪B ∪ ∅ ∪ ∅ ∪ . . .]= P [A] + P [B] + P [∅] + . . .

= P [A] + P [B].

iii) Falls A ⊆ B, istB = A ∪ (B\A). Da diese Vereinigung disjunkt ist, folgt mit ii):

P [B] = P [A] + P [B\A] ≥ P [A].

Insbesondere ist1 = P [Ω] = P [A] + P [AC ] und somitP [A] ≤ 1.

iv) Nach iii) gilt:

P [A ∪ B] = P [A] + P [(A ∪ B)\A]= P [A] + P [B\(A ∩ B)]

= P [A] + P [B]− P [A ∩B].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 15: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 15

Aussage iv) des Satzes lässt sich für endlich viele Ereignisse verallgemeinern. Nach iv) gilt für

die Vereinigung von drei Ereignissen:

P [A ∪ B ∪ C] = P [A ∪ B] + P [C]− P [(A ∪ B) ∩ C]= P [A ∪ B] + P [C]− P [(A ∩ C) ∪ (B ∩ C)]= P [A] + P [B] + P [C]− P [A ∩ B]− P [A ∩ C]− P [B ∩ C] + P [A ∩ B ∩ C].

Mit vollständiger Induktion folgt:

Korollar (Einschluss-/Ausschlussprinzip). Für n ∈ N mit EreignissenA1, . . . , An ∈ A gilt:

P [ A1 ∪ A2 ∪ . . . ∪ An︸ ︷︷ ︸»eines derAi tritt ein«

] =n∑

k=1

(−1)k−1∑

1≤i1<...<ik≤n

P [ Ai1 ∩ Ai2 ∩ . . . ∩ Aik︸ ︷︷ ︸»Ai1 , Ai2 , . . . undAik treten ein«

].

Das Einschluss-/Ausschlussprinzip werden wir auf eine elegantere Weise am Ende dieses Kapi-

tels beweisen (siehe Satz 1.9).

Diskrete Wahrscheinlichkeitsverteilungen

Als Beispiel für eine diskrete Wahrscheinlichkeitsverteilung haben wir den Münzwurf betrachtet:

Ω = 0, 1, A = ∅, 0, 1, 0, 1,P [1] = p, P [∅] = 0,

P [0] = 1− p, P [Ω] = 1.

ALLGEMEIN : Ist die Menge der möglichen FälleΩ endlich oder abzählbar unendlich, dann

setzen wir als zugehörigeσ-AlgebraA = P [Ω].

Satz 1.2. i) Sei0 ≤ p(ω) ≤ 1,∑

ω∈Ω p(ω) = 1 eineGewichtung der möglichen Fälle. Dann

ist durch

P [A] :=∑

ω∈Ap(ω), (A ⊆ Ω),

eineWahrscheinlichkeitsverteilungauf (Ω,A) definiert.

ii) Umgekehrt ist jede WahrscheinlichkeitsverteilungP auf (Ω,A) von dieser Form mit

p(ω) = P [ω] (ω ∈ Ω).

p : Ω → [0, 1] heißtMassenfunktion(»probability mass function«) der diskreten Wahr-

scheinlichkeitsverteilungP .

Universität Bonn Wintersemester 2009/2010

Page 16: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

16 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

Für den Beweis des Satzes brauchen wir einige Vorbereitungen.

Bemerkung (Vorbemerkung zu Summen mit positiven Summanden). Sei A eine abzählbare

Menge,p(ω) ≥ 0 für alleω ∈ A. Dann definieren wir

ω∈Ap(ω) :=

∞∑

i=1

p(ωi),

wobeiω1, ω2, . . . eine beliebige Abzählung vonA ist.

Lemma 1.3. i)∑

ω∈A p(ω) ∈ [0,∞] und ist wohldefiniert (d.h. unabhängig von der Abzäh-

lung). Es gilt: ∑

ω∈Ap(ω) = sup

F⊆A

|F |<∞

ω∈Fp(ω). (1.1.1)

Insbesondere giltMonotonie:

ω∈Ap(ω) ≤

ω∈Bp(ω), (A ⊆ B). (1.1.2)

ii) Ist A =⋃∞

i=1Ai eine disjunkte Zerlegung, dann gilt:

ω∈Ap(ω) =

∞∑

i=1

ω∈Ai

p(ω).

Beweis. i) Sei ω1, ω2, . . . eine beliebige Abzählung vonA. Aus p(ωi) ≥ 0 für alle i ∈ N

folgt, dass die Partialsummen∑n

i=1 p(ωi) monoton wachsend sind. Daraus folgt:

∞∑

i=1

p(ωi) = supn∈N

n∑

i=1

p(ωi).

Falls die Menge der Partialsummen von oben beschränkt ist, existiert dieses Supremum

in [0,∞). Andernfalls divergiert die Folge der Partialsummen bestimmt gegen+∞. Zu

zeigen bleibt:

supn∈N

n∑

i=1

p(ωi) = supF⊆A

|F |<∞

ω∈Fp(ω) ist unabhängig von der Abzählung von A.

»≤«: Für allen ∈ N gilt:n∑

i=1

p(ωi) ≤ supF⊆A

|F |<∞

ω∈Fp(ω),

da das Supremum auch überF = ω1, . . . , ωn gebildet wird. Damit folgt »≤«.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 17: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 17

»≥«: DaF ⊆ A endlich ist, gibt es einn ∈ N, so dassF ⊆ ω1, . . . , ωn . Also gilt:

ω∈Fp(ω) ≤

n∑

i=1

p(ωi) ≤∞∑

i=1

p(ωi).

Damit folgt »≥«.

ii) • FallsA endlich ist, giltAi 6= ∅ nur für endlich vielei ∈ N und alleAi sind endlich.

Die Behauptung folgt dann aus dem Kommutativ- und dem Assoziativgesetz.

• Sei andernfallsA abzählbar unendlich.

»≤«: DaF ⊆ A endlich, istF =⋃∞

i F ∩ Ai. Da diese Vereinigung disjunkt ist, folgt

mit σ-Additivität und Gleichung (1.1.2):

P [F ] =∑

i∈NP [F ∩ Ai] ≤

i∈NP [Ai].

Mit (i)) gilt auch:

P [A] = supF⊆A

|F |<∞

P [F ] ≤∑

i∈NP [Ai].

Damit folgt »≤«.

»≥«: SeienFi ⊆ Ai endlich. Da dieFi disjunkt sind, folgt mitσ-Additivität und Glei-

chung (1.1.2) für allen ∈ N:

n∑

i=1

P [Fi] = P

[n⋃

i=1

Fi

]≤ P

[ ∞⋃

i=1

Ai

]= P [A].

Mit (1.1.1) folgtn∑

i=1

P [Ai] ≤ P [A],

und fürn→ ∞ schließlich∞∑

i=1

P [Ai] ≤ P [A].

Damit folgt »≥«.

Beweis von Satz 1.2. i) Es istP [Ω] =∑

ω∈Ω p(ω) = 1 nach Voraussetzung.

SeienAi, (i ∈ N) disjunkt undA :=⋃∞

i=1Ai. Die σ-Additivität vonP folgt aus Lemma

1.3.ii):

P[ ∞⋃

i=1

Ai

]= P [A] =

ω∈Ap(ω) =

∞∑

i=1

ω∈Ai

p(ω) =∞∑

i=1

P [Ai]

Universität Bonn Wintersemester 2009/2010

Page 18: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

18 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

ii) Aus derσ-Additivität vonP folgt:

P [A] = P[ ⋃

ω∈Aω

︸ ︷︷ ︸disjunkt

]=∑

ω∈AP [ω].

Spezielle Wahrscheinlichkeitsverteilungen

Gleichverteilungen / Laplace-Modelle

SeiΩ endlich und nichtleer,A = P(Ω) undp(ω) = 1|Ω| für alleω ∈ Ω. Dann ist

P [A] =|A||Ω| =

Anzahl »günstiger« FälleAnzahl aller Fälle

, (A ⊆ Ω),

die Wahrscheinlichkeitsverteilung zup und wirdGleichverteilung genannt.

Beispiele. a) n FAIRE MÜNZWÜRFE:

SeiΩ = 0, 1n undP die Gleichverteilung. Dann ist

p(ω) =1

2n.

b) ZUFÄLLIGE PERMUTATIONEN:

Sei Ω = Sn = ω : 1, 2, . . . , n → 1, 2, . . . , n bijektive Abbildungen und P die

Gleichverteilung. Dann ist

P [A] =|A|n!.

Beispiele für zufällige Permutationen sind das Mischen eines Kartenspiels, Vertauschen

von Hüten oder Umzug in die LWK, wobein Schlüssel zufällig vertauscht werden. Es gilt:

P [»derk-te Schlüssel passt auf Schlossi«] = P [ω ∈ Sn | ω(i) = k] = (n− 1)!

n!=

1

n.

Wie groß ist die Wahrscheinlichkeit, dass einer der Schlüssel sofort passt?

Das Ereignis »Schlüsseli passt« istAi = ω | ω(i) = i = »i ist Fixpunkt«. Die Wahr-

scheinlichkeit für das Ereignis »ein Schlüssel passt« ist nach dem Einschluss-/Ausschluss-

prinzip (Satz 1.9):

P [»es gibt mindestens einen Fixpunkt«] = P [A1 ∪ A2 ∪ . . . ∪ An]

=n∑

k=1

(−1)k+1∑

1≤i1<i2<...<ik≤n

P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ]

=n∑

k=1

(−1)k+1∑

1≤i1<i2<...<ik≤n

(n− k)!

n!,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 19: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 19

wobei die innere Summe über allek-elementigen Teilmengen läuft. Es folgt:

=n∑

k=1

(−1)k+1

(n

k

)(n− k)!

n!

= −n∑

k=1

(−1)k

k!

Für das Gegenereignis erhalten wir:

P [»kein Schlüssel passt«] = P [»kein Fixpunkt«]− P [»mindestens ein Fixpunkt«]

= 1 +n∑

k=1

(−1)k

k!

=n∑

k=0

(−1)k

k!.

Die letzte Summe konvergiert fürn → ∞ gegene−1. Der Grenzwert existiert also und ist

weder0 noch1! Die Wahrscheinlichkeit hängt für großen nur wenig vonn ab.

Empirische Verteilungen

Seienx1, x2, . . . , xn ∈ Ω Beobachtungsdaten oder Merkmalsausprägungen, zum Beispieldas

Alter aller Einwohner von Bonn. Sei

N [A] := |i ∈ 1, . . . , n | xi ∈ A|, die Anzahl bzw. Häufigkeit der Werte inA, und

P [A] :=N [A]

n, die relative Häufigkeit der Werte inA.

Dann istP eine Wahrscheinlichkeitsverteilung auf(Ω,P(Ω)) mit Massenfunktion

p(ω) =N [ω]n

, der relativen Häufigkeit der Merkmalsausprägungen.

Beispiele. a) ABZÄHLUNG ALLER MÖGLICHEN FÄLLE :

Seix1, . . . , xn eine Abzählung der Elemente inΩ. Dann stimmt die empirische Verteilung

mit der Gleichverteilung überein.

b) EMPIRISCHEVERTEILUNG VON n ZUFALLSZAHLEN AUS 1, 2, 3, 4, 5, 6:

x=RandomChoice [ 1 , 2 , 3 , 4 , 5 , 6 , n ] ;

L i s t P l o t [ B inCounts [ x [ [ 1 ; ; n ] , 1 , 7 , 1 ] / n ,

F i l l i n g −> Axis , PlotRange −> 0 , 0 . 3 ,

P l o t S t y l e −> P o i n t S i z e[ Large ] ] , n , 1 , 100 , 1

Universität Bonn Wintersemester 2009/2010

Page 20: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

20 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

• n = 100: 0 1 2 3 4 5 6

0.05

0.10

0.15

0.20

0.25

0.30

• n = 10000: 0 1 2 3 4 5 6

0.05

0.10

0.15

0.20

0.25

0.30

c) EMPIRISCHEVERTEILUNG DERBUCHSTABEN »A« BIS »Z«:

• in dem Wort »Eisenbahnschrankenwaerterhaeuschen«:

f r e q = Str ingCount [ " e i s e n b a h n s c h r a n k e n w a e r t e r h a e u s c h e n " , # ] & /@

CharacterRange[ " a " , " z " ] ;

r e l f r e q = f r e q /Tota l [ f r e q ] ;

L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e[ Large ] ]

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 21: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.1. EREIGNISSE UND IHRE WAHRSCHEINLICHKEIT 21

5 10 15 20 25

0.05

0.10

0.15

0.20

• in einem englischen Wörterbuch:

f r e q = Length [ D i c t i ona ryLookup [# ~~ ___ ] ] & /@

CharacterRange[ " a " , " z " ] ;

r e l f r e q = f r e q /Tota l [ f r e q ] ;

L i s t P l o t [ r e l f r e q , F i l l i n g −> Axis , P l o t S t y l e −> P o i n t S i z e[ Large ] ]

5 10 15 20 25

0.02

0.04

0.06

0.08

0.10

0.12

d) BENFORDSCHESGESETZ:

Das Benfordsche Gesetz, auch Newcomb-Benford’s Law (NBL) beschreibt eine Gesetz-

mäßigkeit in der Verteilung der Ziffernstrukturen von Zahlen in empirischen Datensätzen,

zum Beispiel ihrer ersten Ziffern. Es lässt sich etwa in Datensätzen über Einwohnerzah-

len von Städten, Geldbeträge in der Buchhaltung, Naturkonstanten etc. beobachten. Kurz

gefasst besagt es:

Universität Bonn Wintersemester 2009/2010

Page 22: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

22 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

»Je niedriger der zahlenmäßige Wert einer Ziffernsequenz bestimmter

Länge an einer bestimmten Stelle einer Zahl ist, umso wahrscheinlicher ist

ihr Auftreten. Für die Anfangsziffern in Zahlen des Zehnersystems gilt zum

Beispiel: Zahlen mit der Anfangsziffer 1 treten etwa 6,5-mal so häufig auf

wie solche mit der Anfangsziffer 9.«

1881 wurde diese Gesetzmäßigkeit von dem Mathematiker Simon Newcomb entdeckt und

im „American Journal of Mathematics“ publiziert. Er soll bemerkt haben, dass in den be-

nutzten Büchern mit Logarithmentafeln, die Seiten mit Tabellen mit Eins als erster Ziffer

deutlich schmutziger waren als die anderen Seiten, weil sieoffenbar öfter benutzt worden

seien. Die Abhandlung Newcombs blieb unbeachtet und war schon in Vergessenheit gera-

ten, als der Physiker Frank Benford (1883−1948) diese Gesetzmäßigkeit wiederentdeckte

und darüber 1938 neu publizierte. Seither war diese Gesetzmäßigkeit nach ihm benannt,

in neuerer Zeit wird aber durch die Bezeichnung »Newcomb-Benford’s Law« (NBL) dem

eigentlichen Urheber wieder Rechnung getragen. Bis vor wenigen Jahren war diese Ge-

setzmäßigkeit nicht einmal allen Statistikern bekannt. Erst seit der US-amerikanische Ma-

thematiker Theodore Hill versucht hat, die Benford-Verteilung zur Lösung praktischer Pro-

bleme nutzbar zu machen, ist ihr Bekanntheitsgrad gewachsen.(Quelle: »Wikipedia«)

HÄUFIGKEITSVERTEILUNG DERANFANGSZIFFERN VONZAHLEN :

Ist d die erste Ziffer einer Dezimalzahl, so tritt sie nach dem Benfordschen Gesetz in

empirischen Datensätzen näherungsweise mit folgenden relativen Häufigkeitenp(d) auf:

p(d) = log10 1 +1

d= log10 d+ 1− log10 d.

In der Grafik unten (Quelle: »Wolfram Demonstrations Project«) werden die relativen

Häufigkeiten der Anfangsziffern1 bis 9 in den Anzahlen der Telefonanschlüsse in allen

Ländern der Erde mit den nach dem Benfordschen Gesetz prognostizierten relativen Häu-

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 23: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 23

figkeiten verglichen.

1 2 3 4 5 6 7 8 90.00

0.05

0.10

0.15

0.20

0.25

0.30

1.2 Diskrete Zufallsvariablen und ihre Verteilung

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum.

Definition. i) Einediskrete Zufallsvariable (ZV)ist eine Abbildung

X : Ω → S, S abzählbar,

so dass für allea ∈ S gilt:

X−1(a) := ω ∈ Ω | X(ω) = a ∈ A. (1.2.1)

Für X−1(a) (das Urbild vona unterX) schreiben wir im folgendenX = a.

ii) Die VerteilungvonX ist die WahrscheinlichkeitsverteilungµX auf S mit Gewichten

pX(a) := P [X = a], (a ∈ S).

Für P [X = a] schreiben wir im folgendenP [X = a].

Bemerkung. a) In der Tat istpX Massenfunktion einer Wahrscheinlichkeitsverteilung (siehe

Satz 1.2):

i) Für allea ∈ S gilt: pX(a) ≥ 0

ii) Da die EreignisseX = a disjunkt sind, folgt:∑

a∈SpX(a) =

a∈SP [X = a] = P

[ ⋃

a∈SX = a

]= P [Ω] = 1.

Universität Bonn Wintersemester 2009/2010

Page 24: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

24 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

b) FürB ⊆ S gilt:

X ∈ B := ω ∈ Ω|X(ω) ∈ B︸ ︷︷ ︸X−1(B)

=⋃

a∈BX = a︸ ︷︷ ︸

∈A

∈ A, sowie

P [X ∈ B] =∑

a∈BP [X = a] =

a∈BpX(a) = µX(B).

Die VerteilungµX gibt also an, mit welchen Wahrscheinlichkeiten die ZufallsvariableX

Werte in bestimmten Mengen annimmt.

Beispiele(Zweimal würfeln). SeiΩ = ω = (ω1, ω2) | ωi ∈ 1, . . . , 6 und seiP die Gleich-

verteilung.

a)

SeiXi : Ω → S := 1, 2, 3, 4, 5, 6,X(ω) := ωi, die Augenzahl desi-ten Wurfs.

Xi ist eine diskrete Zufallsvariable mit VerteilungµXi. Die Gewichte vonµXi

sind

pXi(a) = P [Xi = a] =

6

36=

1

6für allea ∈ S,

d.h.Xi ist gleichverteilt.

b)

SeiY : Ω → S := 2, 3, . . . , 12Y (ω) := X1(ω) +X2(ω), die Summe der Augenzahlen.

Die Gewichte der Verteilung vonY sind

pY (a) = P [Y = a] =

136

falls a ∈ 2, 12,236

falls a ∈ 3, 11,. . .

.

d.h.Y ist nicht mehr gleichverteilt!

Allgemeiner:

Beispiel. SeiΩ = ω1, . . . , ωn endlich,P die Gleichverteilung,X : Ω → S eine Zufallsvariable

undxi := X(ωi). Dann ist

P [X = a] =|ω ∈ Ω | X(ω) = a|

|Ω| =|1 ≤ i ≤ n | xi = a|

n,

also istµx die empirische Verteilung vonx1, . . . , xn.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 25: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 25

Binomialverteilung

Beispiel(»Ziehen mit Zurücklegen«). Wir betrachten eine endliche Grundgesamtheit (Populati-

on, Zustandsraum)S, zum Beispiel Kugeln in einer Urne, Vögel im Wald, Einwohner in NRW.

Wir wollen nun die zufällige Entnahme vonn Einzelstichproben mit Zurücklegen ausS beschrei-

ben und setzen daher

Ω = Sn = ω = (x1, . . . , xn) | xi ∈ S.

Wir nehmen an, dass alle kombinierten Stichproben gleich wahrscheinlich sind, d.h.P sei die

Gleichverteilung aufΩ.

RELEVANTE ZUFALLSVARIABLEN UND EREIGNISSE:

• i-ter Stichprobenwert:

Xi(ω) = xi,

P [Xi = a] =|S|n−1

|Ω| =|S|n−1

|S|n =1

|S| , für allea ∈ S,

d.h.Xi ist gleichverteilt aufS.

SeiE ⊆ S eine bestimmte Merkmalsausprägung der Stichprobe, die wirim folgenden

als »Erfolg« bezeichnen (zum Beispiel schwarze Kugel, Beobachtung einer Amsel). Dann

können wir die Ereignisse

Xi ∈ E,»Erfolg beii-ter Stichprobe«,

betrachten. Es gilt:

P [Xi ∈ E] = µXi(E) =

|E||S| .

Wir setzen

q :=|E||S| , »Erfolgswahrscheinlichkeit«

• Häufigkeit von E / »Anzahl der Erfolge«:

Sei nun

N : Ω → 0, 1, 2, . . . , n,N(ω) := |1 ≤ i ≤ n | Xi(ω) ∈ E|

die Anzahl der Einzelstichproben mit MerkmalsausprägungE.

Universität Bonn Wintersemester 2009/2010

Page 26: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

26 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

Lemma 1.4. Für k ∈ 0, 1, . . . , n gilt:

P [N = k] =

(n

k

)pk (1− p)n−k.

Beweis.Es gilt

|ω ∈ Ω | N(ω) = k| =(n

k

)|E|k |S\E|n−k,

wobei(n

k

)=Anzahl der Möglichkeitenk Indizes aus1, . . . , n auszuwählen,

für die ein Erfolg eintritt,

|E|k =Anzahl der Möglichkeiten für jeden Erfolg,

|S\E|n−k =Anzahl der Möglichkeiten für jeden Misserfolg.

Also gilt:

P [N = k] =

(nk

)|E|k |S\E|n−k

|S|n =

(n

k

) ( |E||S|

)k ( |S\E||S|

)n−k

=

(n

k

)pk (1− p)n−k.

Definition. Sein ∈ N und p ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung auf0, 1, . . . , n mit

Massenfunktion

pn,p(k) =

(n

k

)pk (1− p)n−k

heißtBinomialverteilung mit Parameternn und p (kurz:Bin(n, p)).

Bemerkung. Dasspn,p eine Massenfunktion einer Wahrscheinlichkeitsverteilung ist, folgt aus

Lemma 1.3!

Bemerkung. EreignisseE1, . . . , En heißenunabhängig, falls

P [Ei1 ∩ Ei2 ∩ . . . ∩ Eik ] = P [Ei1 ] · P [Ei2 ] · · ·P [Eik ]

für allek ≤ n und1 ≤ i1 < i2 < . . . < ik ≤ n gilt.

SindE1, . . . , En unabhängig undP [Ei] = p, dann ist

P [»genauk derEi treten ein«] =

(n

k

)pk (1− p)n−k,

d.h. die Anzahl der Ereignisse, die eintreten, ist binomialverteilt. Der Beweis folgt weiter unten.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 27: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.2. DISKRETE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 27

Poissonverteilung

Beispiel (Warteschlange). Angenommen, die Kunden in einer Warteschlange kommenunab-

hängig voneinanderzuzufälligen (gleichverteilten) Zeitpunkten. Wie viele Kunden kommen in

einer Zeitspanne der Länget0 an? SeiN die Anzahl dieser Kunden undt0 = 1. Wir unterteilen

das Intervall[0, 1]:

Wir machen die folgende Annahme (die natürlich in zu modellierenden Anwendungsproblemen

zu überprüfen ist):

»Wennn sehr groß ist, dann kommt in einer Zeitspanne der Länge1n

fast immer

höchstens ein Kunde«.

Ei stehe für das Ereignis, dass ein Kunde im Zeitintervall[i−1n, in

]ankommt (1 ≤ i ≤ n).

Wir nehmen außerdem an, dass die Wahrscheinlichkeit unabhängig von i und näherungsweise

proportional zu1n

ist, also:

P [Ei] ≈λ

n, λ ∈ (0,∞).

Für das Ereignis, dass genauk Kunden im Zeitintervall[0, 1] ankommen, sollte dann gelten, dass

P [N = k] ≈ P [»genauk derEi treten ein«] ≈ pn,λn(k),

wobeipn,λn(k) das Gewicht vonk unter der Binomialverteilung mit Parameternn und λ

nist. Diese

Näherung sollte»für große n immer genauer werden«.

Satz 1.5(Poissonapproximation der Binomialverteilung). Seiλ ∈ (0,∞). Dann gilt:

limn→∞

pn,λn(k) =

λk

k!e−λ, k = 0, 1, 2, . . . .

Beweis.Es gilt:

pn,λn(k) =

n!

k!(n− k)!·(λ

n

)k

·(1− λ

n

)n−k

=λk

k!· n · (n− 1) · . . . · (n− k + 1)

nk︸ ︷︷ ︸→1

·(1− λ

n

)n

︸ ︷︷ ︸→e−λ

·(1− λ

n

)−k

︸ ︷︷ ︸→1

−→ λk

k!e−λ für n→ ∞.

Universität Bonn Wintersemester 2009/2010

Page 28: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

28 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

Definition. Die Wahrscheinlichkeitsverteilung auf0, 1, 2, . . . mit Massenfunktion

p(k) =λk

k!e−λ , k = 0, 1, 2, . . . ,

heißtPoissonverteilung mit Parameterλ.

Aufgrund des Satzes verwendet man die Poissonverteilung zur näherungsweisen Modellierung

der Häufigkeit seltener Ereignisse (zum Beispiel Tippfehlerin einem Buch, Schadensfälle bei

Versicherung, Zusammenbrüche des T-Mobile-Netzes, . . . ) und damit zur »Approximation« von

Binomialverteilungen mit kleiner Erfolgswahrscheinlichkeit p.

Für häufigere Ereignisse (zum Beispiel wenn Erfolgswahrscheinlichkeit p unabhängig vonn ist)

verwendet man hingegen besser eine Normalverteilung zur näherungsweisen Modellierung der

(geeignet reskalierten) relativen Häufigkeitkn

des Ereignisses für großen. Definition und Eigen-

schaften von Normalverteilungen werden wir später kennenlernen.

Die folgenden (mit »Maple« erstellten) Graphiken zeigen die Poisson- und Normalapproximati-

on (Poisson schwarz, Normalverteilung rot) der Binomialverteilung (blau) für unterschiedliche

Parameterwerte:

n = 100, p = 0, 35 n = 100, p = 0, 02

Hypergeometrische Verteilung

Beispiel (Ziehen ohne Zurücklegen). Wir betrachtenm Kugeln in einer Urne (Wähler, Fische

im See, . . . ), davonr rote undm − r schwarze. Gezogen wird eine zufällige Stichprobe vonn

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 29: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.3. SIMULATION VON GLEICHVERTEILUNGEN 29

Kugeln, n ≤ min(r,m−r). Sind alle Stichproben gleich wahrscheinlich, dann ist eingeeignetes

Modell gegeben durch:

Ω = P(1, . . . ,m) = alle Teilmengen von1, . . . ,m der Kardinalitätn,

P = Gleichverteilung aufΩ.

Wir definieren eine ZufallsvariableN : Ω → 1, . . . ,m durch

N(ω) := Anzahl der roten Kugeln inω.

Für das Ereignis, dass genauk rote Kugeln in der Stichprobe sind, gilt:

P [N = k] =|ω ∈ Ω | N(ω) = k|

|Ω| =

(rk

)·(m−rn−k

)(mn

) , (k = 0, 1, . . . , n).

Diese Wahrscheinlichkeitsverteilung wirdhypergeometrische Verteilung mit Parameternm,

r und n genannt.

Bemerkung. Untersucht man die Asymptotik der hypergeometrischen Verteilung fürm→ ∞,

r → ∞, p = rm

fest undn fest, so gilt:

P [N = k] −→(n

k

)pk (1− p)k,

d.h. die hypergeometrische Verteilung nähert sich der Binomialverteilung an. Eine anschauliche

Erklärung dafür ist:

Befinden sich sehr viele Kugeln in der Urne, dann ist der Unterschied zwischen Ziehen mit und

ohne Zurücklegen vernachlässigbar, da nur sehr selten dieselbe Kugel zweimal gezogen wird.

1.3 Simulation von Gleichverteilungen

Ein (Pseudo-) Zufallszahlengenerator ist ein Algorithmus, der eine deterministische Folge

von ganzen Zahlenx1, x2, x3, . . .mit Werten zwischen0 und einem Maximalwertm− 1 erzeugt,

welche durch eine vorgegebene Klasse statistischer Tests nicht von einer Folge von Stichpro-

ben unabhängiger, auf0, 1, 2, . . . ,m− 1 gleichverteilter Zufallsgrößen unterscheidbar ist. Ein

Zufallszahlengenerator erzeugt also nicht wirklich zufällige Zahlen. Die von »guten« Zufalls-

zahlengeneratoren erzeugten Zahlen haben aber statistische Eigenschaften, die denen von echten

Zufallszahlen in vielerlei (aber nicht in jeder) Hinsicht sehr ähnlich sind.

Universität Bonn Wintersemester 2009/2010

Page 30: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

30 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

Konkret werden die Pseudozufallszahlen üblicherweise über eine deterministische Rekurrenzre-

lation vom Typ

xn+1 = f (xn−k+1, xn−k+2, . . . , xn) , n = k, k + 1, k + 2, . . . ,

ausSaatwertenx1, x2, . . . , xk erzeugt. In vielen Fällen hängt die Funktionf nur von der letzten

erzeugten Zufallszahlxn ab. Wir betrachten einige Beispiele:

Lineare Kongruenzgeneratoren (LCG)

Bei linearen Kongruenzgeneratoren ist die Rekurrenzrelation vom Typ

xn+1 = (axn + c) mod m, n = 0, 1, 2, . . . .

Hierbei sinda, c undm geeignet zu wählende positive ganze Zahlen, zum Beispiel:

ZX81-Generator: m = 216 + 1, a = 75, c = 0.

RANDU, IBM 360/370: m = 231, a = 65539, c = 0.

Marsaglia-Generator: m = 232, a = 69069, c = 1.

Langlands-Generator: m = 248, a = 142412240584757, c = 11.

Um einen ersten Eindruck zu erhalten, wie die Qualität der erzeugten Pseudozufallszahlen vona,

c undm abhängt, implementieren wir die Generatoren mit »Mathematica«:

f [ x_ ] := Mod [ a x + c , m]

Beispiel. Wir beginnen zur Demonstration mit dem Beispiel eines ganz schlechten LCG:

a = 11 ; c = 0 ; m = 63 ;

pseudorandomdata =Nes tL i s t [ f , 1 , 3 0 0 ] ;

L i s t P l o t [ pseudorandomdata ]

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 31: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.3. SIMULATION VON GLEICHVERTEILUNGEN 31

50 100 150 200 250 300

10

20

30

40

50

60

Die Folge von Zufallszahlen ist in diesem Fall periodisch mit einer Periode, die viel kleiner ist

als die maximal mögliche (63). Dies rechnet man auch leicht nach.

Periodizität mit Periode kleiner als m kann man leicht ausschließen. Es gilt nämlich:

Satz(Knuth). Die Periode eines LCG ist gleichm genau dann, wenn

i) c undm teilerfremd sind,

ii) jeder Primfaktor vonm ein Teiler vona− 1 ist, und

iii) falls 4 ein Teiler vonm ist, dann auch vona− 1.

Beweis.sieheD. Knuth: »The art of computer programming, Vol. 2.«

Beispiel (ZX 81-Generator). Hier ergibt sich ein besseres Bild, solange wir nur die Verteilung

der einzelnen Zufallszahlen betrachten:

a = 75 ; c = 0 ; m = 2^16 + 1 ;

pseudorandomdata =Nes tL i s t [ f , 1 , 30000 ] ;

L i s t P l o t [ pseudorandomdata ]

Universität Bonn Wintersemester 2009/2010

Page 32: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

32 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

5000 10 000 15 000 20 000 25 000 30 000

10 000

20 000

30 000

40 000

50 000

60 000

Fassen wir jedoch Paare(xi, xi+1) von aufeinanderfolgenden Pseudozufallszahlen als Koordina-

ten eines zweidimensionalen Pseudozufallsvektors auf, und betrachten die empirische Verteilung

dieser Vektoren, so ergibt sich keine besonders gute Approximation einer zweidimensionalen

Gleichverteilung:

b l o c k s = P a r t i t i o n [ pseudorandomdata , 2 ] ;L i s t P l o t [ b l o c k s ]

10 000 20 000 30 000 40 000 50 000 60 000

10 000

20 000

30 000

40 000

50 000

60 000

Beispiel (RANDU). Hier scheinen sowohl die einzelnen Pseudozufallszahlenxi als auch die

Vektoren(xi, xi+1) näherungsweise gleichverteilt zu sein:

a = 65539; c = 0 ; m = 2^31 ;

pseudorandomdata =Nes tL i s t [ f , 1 , 30000 ] ;

L i s t P l o t [ pseudorandomdata ]

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 33: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.3. SIMULATION VON GLEICHVERTEILUNGEN 33

5000 10 000 15 000 20 000 25 000 30 000

5.0´ 108

1.0´ 109

1.5´ 109

2.0´ 109

b l o c k s = P a r t i t i o n [ pseudorandomdata , 2 ] ;L i s t P l o t [ b l o c k s ]

5.0´ 108 1.0´ 109 1.5´ 109 2.0´ 109

5.0´ 108

1.0´ 109

1.5´ 109

2.0´ 109

Fassen wir aber jeweils drei aufeinanderfolgende Pseudozufallszahlen als Koordinaten eines Vek-

tors

(xi, xi+1, xi+2) im Z3auf, dann ist die empirische Verteilung dieser Pseudozufallsvektoren keine

Gleichverteilung mehr, sondern konzentriert sich auf nur15 zweidimensionalen Hyperebenen:

b locks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ; L i s t P o i n t P l o t 3 D [ b locks3 ]

Universität Bonn Wintersemester 2009/2010

Page 34: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

34 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

0

5.0´ 1081.0´ 109

1.5´ 1092.0´ 109

0

5.0´ 108

1.0´ 109

1.5´ 109

2.0´ 109

0

5.0´ 108

1.0´ 109

1.5´ 109

2.0´ 10

Beispiel (Marsaglia-Generator). Der von Marsaglia 1972 vorgeschlagene LCG besteht dagegen

alle obigen Tests (und einige weitere):

a = 60069; c = 1 ; m = 2^32 ;

pseudorandomdata =Nes tL i s t [ f , 1 , 30000 ] ;

L i s t P l o t [ pseudorandomdata ]

5000 10 000 15 000 20 000 25 000 30 000

1´ 109

2´ 109

3´ 109

4´ 109

b l o c k s = P a r t i t i o n [ pseudorandomdata , 2 ] ;

L i s t P l o t [ b l o c k s ]

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 35: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.3. SIMULATION VON GLEICHVERTEILUNGEN 35

1´ 109 2´ 109 3´ 109 4´ 109

1´ 109

2´ 109

3´ 109

4´ 109

b locks3 = P a r t i t i o n [ pseudorandomdata , 3 ] ;

L i s t P o i n t P l o t 3 D [ b locks3 ]

0

1´ 109

2´ 109

3´ 109

4´ 109

01´ 1092´ 1093´ 1094´ 109

0

1´ 10

2´ 109

3´ 109

4´ 109

Dies bedeutet natürlich nicht, daß die vom Marsaglia-Generator erzeugte Folge eine füralle

Zwecke akzeptable Approximation einer Folge von unabhängigen Stichproben von der Gleich-

verteilung ist. Da die Folge in Wirklichkeit deterministisch ist, kann man einen Test konstruieren,

der sie von einer echten Zufallsfolge unterscheidet.

Shift-Register-Generatoren

Bei Shift-Register-Generatoren interpretiert man eine Zahlxn∈ 0,1,. . . ,2k − 1

zunächst als

Binärzahl bzw. als Vektor aus0, 1k, und wendet dann eine gegebene MatrixT darauf an, um

xn+1 zu erhalten:

xn+1 = Txn, n = 0, 1, 2, . . . .

Universität Bonn Wintersemester 2009/2010

Page 36: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

36 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

Kombination von Zufallszahlengeneratoren

Zufallszahlengeneratoren lassen sich kombinieren, zum Beispiel indem man die von mehreren

Zufallszahlengeneratoren erzeugten Folgen von Pseudozufallszahlen aus0,1,. . . ,m − 1 mo-

dulom addiert. Auf diese Weise erhält man sehr leistungsfähige Zufallszahlengeneratoren, zum

Beispiel den Kiss-Generator von Marsaglia, der einen LCG und zwei Shift-Register-Generatoren

kombiniert, Periode295 hat, und umfangreiche statistische Tests besteht.

Zufallszahlen aus [0,1)

Ein Zufallszahlengenerator kann natürlich nicht wirklichreelle Pseudozufallszahlen erzeugen,

die die Gleichverteilung auf dem Intervall[0, 1) simulieren, denn dazu würden unendlich vie-

le »zufällige« Nachkommastellen benötigt. Stattdessen werden üblicherweise (pseudo-)zufällige

Dezimalzahlen vom Typ

un =xnm, xn ∈ 0, 1, . . . ,m− 1,

erzeugt, wobeim vorgegeben ist (zum Beispiel Darstellungsgenauigkeit des Computers), undxn

eine Folge ganzzahliger Pseudozufallszahlen aus0, 1, . . . , m - 1 ist. In »Mathematica« kann

man mit

RandomReal[spec,WorkingPrecision→ k

]

pseudozufällige Dezimalzahlen mit einer beliebigen vorgegebenen Anzahlk von Nachkommas-

tellen erzeugen.

Zufallspermutationen

Der folgende Algorithmus erzeugt eine (pseudo-)zufälligePermutation ausSn :

Algorithmus 1.6 (RPERM).

rperm [ n_ ] :=

Module [ x = Range[ n ] , k , a , Beginn mit Liste 1,2,...,n

Do[

k = RandomInteger [ i , n ] ;

a = x [ [ i ] ] ; x [ [ i ] ] = x [ [ k ] ] ; x [ [ k ] ] = a ; (Vertausche x[[i]] undx[[k]])

, i , n − 1 ] ; (Schleife,i läuft von1 bisn− 1)

x (Ausgabe vonx) ]

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 37: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.4. ERWARTUNGSWERT 37

rperm [ 1 7 ]

12 , 5 , 13 , 8 , 17 , 9 , 10 , 6 , 1 , 7 , 16 , 15 , 14 , 4 , 2 , 3 , 11

ÜBUNG:

SeiΩn = 1, 2, . . . , n × 2, 3, . . . , n × · · · × n− 1, n.

a) Zeigen Sie, daß die AbbildungX(ω) = τn−1,ωn−1 · · · τ2,ω2 τ1,ω1 eine Bijektion vonΩn

nachSn ist (τi,j bezeichnet die Transposition von i und j).

b) Folgern Sie, daß der Algorithmus oben tatsächlich eine Stichprobe einer gleichverteilten

Zufallspermutation ausSn simuliert.

1.4 Erwartungswert

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum,S ⊆ R abzählbar undX : Ω → S eine Zufallsvaria-

ble auf(Ω,A, P ).

Definition. Der ErwartungswertvonX bzgl.P ist definiert als

E[X] :=∑

a∈Sa · P [X = a] =

a∈Sa · pX(a),

sofern die Summe auf der rechten Seite wohldefiniert ist (d.h.unabhängig von der Abzählung von

S).

Bemerkung. a) FallsX(ω) ≥ 0 für alleω ∈ Ω gilt, sind alle Summanden der Reihe nichtne-

gativ und der ErwartungswertE[X] ∈ [0,∞] wohldefiniert.

b) Falls die Reihe absolut konvergiert, d.h. falls∑

a∈S |a| · P [X = a] endlich ist, ist der

ErwartungswertE[X] ∈ R wohldefiniert.

E[X] kann als derPrognosewertoder(gewichteter) Mittelwert für X(ω) interpretiert werden.

Beispiel(Indikatorfunktion eines EreignissesA ∈ A). Sei

X(ω) = IA(ω) :=

1 falls ω ∈ A,

0 falls ω ∈ AC .

Dann ist der Erwartungswert

E[X] = 1 · P [X = 1] + 0 · P [X = 0] = P [A].

Universität Bonn Wintersemester 2009/2010

Page 38: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

38 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

Ein Beispiel dafür ist ein elementarer Versicherungskontrakt mit Leistung

Y =

c falls ω ∈ A, »Schadensfall«,

0 sonst.

Dann gilt:

Y = c · IA und E[Y ] = c · P [A].Beispiel (Poissonverteilung). SeiX Poisson-verteilt mit Parameterλ. Dann ist der Erwartungs-

wert

E[X] =∞∑

k=0

k · P [X = k] =∞∑

k=0

k · λk

k!e−λ = λ ·

∞∑

k=1

λk−1

(k − 1)!e−λ = λ ·

∞∑

k=0

λk

(k)!e−λ = λ.

Wir können daher den Parameterλ als Erwartungswert oder die mittlere Häufigkeit des Ereignis-

ses interpretieren.

Transformationssatz

Sei nunS eine beliebige abzählbare Menge,g : S → R eine Funktion undX : Ω → S eine

Zufallsvariable. Wir definieren

g(X) : Ω → R,

ω 7→ g(X(ω)).

g(X) ist einereellwertige Zufallsvariable.

Satz 1.7(Transformationssatz). Es gilt

E[g(X)] =∑

a∈Sg(a) · P [X = a],

falls die Summe wohldefiniert ist (zum Beispiel fallsg nichtnegativ ist oder die Summe absolut

konvergiert).

Beweis.Es gilt mit Verwendung derσ-Additivität

E[g(X)] =∑

b∈g(S)b · P [g(X) = b] =

b∈g(S)b · P

[ ⋃

a∈g−1(b)

X = a]

=∑

b∈g(S)b ·

a∈g−1(b)

P [X = a]

=∑

b∈g(S)

a∈g−1(b)

g(a) · P [X = a]

=∑

a∈Sg(a) · P [X = a].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 39: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.4. ERWARTUNGSWERT 39

Bemerkung. a) Insbesondere gilt:

E[|X|] =∑

a∈S|a| · P [X = a].

IstE[|X|] endlich, dann konvergiertE[X] =∑a · P [X = a] absolut.

b) IstΩ abzählbar, dann folgt fürX : Ω → R:

E[X] = E[X idΩ] =∑

ω∈ΩX(ω) · P [ω] =

ω∈ΩX(ω) p(ω),

wobeiidΩ die identische Abbildung aufΩ bezeichnet. Der Erwartungswert ist dasgewich-

tete Mittel . IstP die Gleichverteilung aufΩ, folgt weiter:

E[X] =1

|Ω|∑

ω∈ΩX(ω).

Der Erwartungswert ist in diesem Spezialfall dasarithmetische Mittel .

Beispiel(Sankt-Petersburg-Paradoxon). Wir betrachten ein Glücksspiel mit fairen Münzwürfen

X1, X2, . . ., wobei sich der Gewinn in jeder Runde verdoppelt bis zum ersten Mal »Kopf« fällt,

dann ist das Spiel beendet.Wie hoch wäre eine faire Teilnahmegebühr für dieses Spiel?

Der Gewinn ist

G(ω) = 2T (ω), mit

T (ω) := minn ∈ N | Xn(ω) = 1, der Wartezeit auf »Kopf«.

Für den erwarteten Gewinn ergibt sich

E[G] =∞∑

k=1

2k · P [T = k] =∞∑

k=1

2k · P [X1 = · · · = Xk−1 = 1, Xk = 0] =∞∑

k=1

2k 2−k

= ∞.

Das Spiel sollte also auf den ersten Blick bei beliebig hoher Teilnahmegebühr attraktiv sein –

dennoch wäre wohl kaum jemand bereit, einen sehr hohen Einsatz zu zahlen.

Eine angemessenere Beschreibung – vom Blickwinkel des Spielers aus betrachtet – erhält man,

wenn man eine (üblicherweise als monoton wachsend und konkav vorausgesetzte) Nutzenfunk-

tion u(x) einführt, die den Nutzen beschreibt, den der Spieler vom Kapital x hat. Für kleinex

könnte etwau(x) = x gelten, aber für großex wäre plausibleru(x) < x. Dann istc ein fairer

Einsatz aus Sicht des Spielers, wennu(c) = E[u(G)] gilt.

Universität Bonn Wintersemester 2009/2010

Page 40: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

40 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

Linearität und Monotonie des Erwartungswertes

Satz 1.8(Linearität des Erwartungswerts). SeienX : Ω → SX ⊆ R undY : Ω → SY ⊆ R

diskrete reellwertige Zufallsvariablen auf(Ω,A, P ), für die E[|X|] und E[|Y |] endlich sind,

dann gilt:

E[λX + µY ] = λE[X] + µE[Y ] für alle λ, µ ∈ R.

Beweis.Wir definiereng : SX ×SY → R, (x, y) 7→ λx+µ y. Dann istg(X, Y ) = λX +µY

eine Zufallsvariable mit Werten inSX × SY . Mit dem Transformationssatz folgt:

E[λX + µY ] = E[g(X, Y )]

=∑

a∈SX

b∈SY

g(a, b)P [X = a, Y = b] (1.4.1)

=∑

a∈SX

b∈SY

(λ a+ µ b)P [X = a, Y = b]

= λ∑

a∈SX

a∑

b∈SY

P [X = a, Y = b] + µ∑

b∈SY

b∑

a∈SX

P [X = a, Y = b]

= λ∑

a∈SX

aP [X = a] + µ∑

b∈SY

b P [Y = b]

= λE[X] + µE[Y ].

Hierbei konvergiert die Reihe in (1.4.1) absolut, da

a∈SX

b∈SY

|λ a+ µ b|P [X = a, Y = b] ≤ |λ|∑

a∈SX

|a|P [X = a] + |µ|∑

b∈SY

|b|P [Y = b]

= |λ|E[|X|] + |µ|E[|Y |]

nach Voraussetzung endlich ist.

Korollar (Monotonie des Erwartungswerts). Seien die Voraussetzungen von Satz 1.8 erfüllt. Sei

zusätzlichX(ω) ≤ Y (ω) für alle ω ∈ Ω, dann gilt:

E[X] ≤ E[Y ].

Beweis.Nach Voraussetzung gilt(Y −X)(ω) ≥ 0 für alleω ∈ Ω, weshalb der Erwartungswert

E[Y −X] nichtnegativ ist. Aufgrund der Linearität des Erwartungswerts folgt:

0 ≤ E[Y −X] = E[Y ]− E[X].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 41: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.4. ERWARTUNGSWERT 41

Beispiele(Unabhängige0-1-Experimente). SeienA1, A2, . . . , An ∈ A unabhängige Ereignisse

mit Wahrscheinlichkeitp, und sei

Xi = IAi, die Indikatorfunktion des EreignissesAi, i = 0, . . . , n.

a) Die ZufallsvariablenXi sindBernoulli-verteilt mit Parameter p, d.h.

Xi =

1 mit Wahrscheinlichkeitp,

0 mit Wahrscheinlichkeit1− p.

Also gilt:

E[Xi] = E[IAi] = P [Ai] = p,

analog zu Beispiel 1.4.

b) Die Anzahl

Sn = X1 +X2 + · · ·+Xn

der Ereignisse, die eintreten, ist binomialverteilt mit Parameternn und p (siehe Übung),

d.h.

P [Sn = k] =

(n

k

)pk (1− p)n−k.

Den Erwartungswert kann man daher wie folgt berechnen:

E[Sn] =n∑

k=0

k · P [Sn = k] =n∑

k=0

k

(n

k

)pk (1− p)n−k

= . . . = n p.

Einfacher benutzt man aber die Linearität des Erwartungswerts, und erhält

E[Sn] = E

[n∑

i=1

Xi

]=

n∑

i=1

E[Xi] = n p,

sogarohne Verwendung der Unabhängigkeit!

Beispiel (Abhängige0-1-Experimente). Wir betrachten eine Population ausm Objekten, davon

r rote, aus der eine Zufallsstichprobe ausn Objekten ohne Zurücklegen entnommen wird,n ≤min(r,m− r). SeiAi das Ereignis, dass dasi-te Objekt in der Stichprobe rot ist, undXi = IAi

.

Die Anzahl

Sn = X1 + · · ·+Xn

Universität Bonn Wintersemester 2009/2010

Page 42: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

42 KAPITEL 1. DISKRETE ZUFALLSVARIABLEN

der roten Objekte in der Zufallsstichprobe ist dann hypergeometrisch verteilt mit Parameternm,

r undn. Als Erwartungswert dieser Verteilung erhalten wir analogzum letzten Beispiel:

E[Sn] =n∑

i=1

E[Xi] =n∑

i=1

P [Ai] = nr

m.

Beispiel(Inversionen von Zufallspermutationen). SeienΩ = Sn die Menge aller Permutationen

ω : 1, . . . , n → 1, . . . , n, P die Gleichverteilung aufΩ, und

N(ω) = |(i, j) | i < j undω(i) > ω(j)|,

die Anzahl der Inversionen einer Permutationω ∈ Ω. Dann gilt

N =∑

1≤i<j≤n

IAi,j, wobei

Ai,j = ω ∈ Sn | ω(i) > ω(j)

das Ereignis ist, dass eine Inversion voni undj auftritt. Es folgt:

E[N ] =∑

i<j

E[IAi,j] =

i<j

P [ω ∈ Sn | ω(i) > ω(j)] =∑

i<j

1

2=

1

2

(n

2

)=n (n− 1)

4.

ANWENDUNG: Beim Sortieralgorithmus »Insertion Sort« wird der Wertω(i) einer Liste

ω(1), ω(2), . . . , ω(n) beim Einfügen vonω(j) genau dann verschoben, wennω(j) < ω(i)

gilt. Ist die Anfangsanordnung eine Zufallspermutation der korrekten Anordnung, dann ist die

mittlere Anzahl der Verschiebungen, die der Algorithmus vornimmt, also gleichn (n−1)4

.

Satz 1.9(Einschluss-/Ausschlussprinzip). Für n ∈ N und EreignisseA1, . . . , An ∈ A gilt:

P [A1 ∪ A2 ∪ . . . ∪ An] =n∑

k=1

(−1)k−1∑

1≤i1<...<ik≤n

P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 43: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

1.4. ERWARTUNGSWERT 43

Beweis.Wir betrachten zunächst das Gegenereignis, und drücken dieWahrscheinlichkeiten als

Erwartungswerte von Indikatorfunktionen aus. Unter Ausnutzung der Linearität des Erwartungs-

werts erhalten wir:

P[(A1 ∪ · · · ∪ An)

C]= P

[AC

1 ∩ · · · ∩ ACn

]= E

[IAC

1 ∩···∩ACn

]

= E[ n∏

i=1

IACi

]= E

[ n∏

i=1

(1− IAi)]

=n∑

k=0

(−1)k∑

1≤i1<...<ik≤n

E[IAi1

· · · · · IAik

]

=n∑

k=0

(−1)k∑

1≤i1<...<ik≤n

E[IAi1

∩···∩Aik

]

=n∑

k=0

(−1)k∑

1≤i1<...<ik≤n

P[Ai1 ∩ · · ·Aik

].

Es folgt:

P [A1 ∪ · · · ∪ An] = 1− P[(A1 ∪ · · · ∪ An)

C]

=n∑

k=1

(−1)k−1∑

1≤i1<...<ik≤n

P [Ai1 ∩ Ai2 ∩ . . . ∩ Aik ] .

Universität Bonn Wintersemester 2009/2010

Page 44: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 2

Bedingte Wahrscheinlichkeiten und

Unabhängigkeit

2.1 Bedingte Wahrscheinlichkeiten

Sei (Ω, A, P) ein Wahrscheinlichkeitsraum undA,B ∈ A Ereignisse. Was ist die Wahrschein-

lichkeit dafür, dassA eintritt, wenn wir schon wissen, dassB eintritt?

Relevante Fälle: ω ∈ B

Davon günstige Fälle: ω ∈ A ∩B

Definition. SeiP [B] 6= 0. Dann heißt

P [A|B] :=P [A ∩ B]

P [B]

diebedingte Wahrscheinlichkeit vonA gegebenB.

Bemerkung. a) P [ • |B] : A 7→ P [A|B] ist eine Wahrscheinlichkeitsverteilung auf(Ω,A),

diebedingte Verteilung gegebenB . Der Erwartungswert

E[X|B] =∑

a∈Sa · P [X = a|B]

einer diskreten ZufallsvariableX : Ω → S bzgl. der bedingten Verteilung heißtbedingte

Erwartung von X gegebenB.

b) IstP die Gleichverteilung auf einer endlichen MengeΩ, dann gilt:

P [A|B] =|A ∩ B|/|Ω||B|/|Ω| =

|A ∩ B||B| für alleA,B ⊆ Ω.

44

Page 45: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.1. BEDINGTE WAHRSCHEINLICHKEITEN 45

Beispiele. a) Wir betrachten eine Familie mit 2 Kindern, und stellen dieFrage nach dem

Geschlecht der Kinder. Sei daher

Ω = JJ, JM,MJ,MM.

Angenommen, alle Fälle wären gleich wahrscheinlich. Dann gilt:

P [»beide Mädchen«| »eines Mädchen«] =|MM|

|MM,JM,MJ| =1

3,

P [»beide Mädchen«| »das erste ist Mädchen«] =|MM|

|MM,MJ| =1

2.

In Wirklichkeit sind die KombinationenJJ undMM wahrscheinlicher.

b) Bei 20 fairen Münzwürfen fällt 15-mal »Zahl«. Wie groß ist die Wahrscheinlichkeit, dass

die ersten 5 Würfe »Zahl« ergeben haben? Sei

Ω = ω = (x1, . . . x20) | xi ∈ 0, 1, und

Xi(ω) = xi, der Ausgang desi-ten Wurfs.

Es gilt:

P[X1 = . . . = X5 = 1

∣∣20∑

i=1

Xi = 15]=

P[X1 = . . . = X5 = 1 und

20∑i=6

Xi = 10]

P[ 20∑i=1

Xi = 15]

=2−5 · 2−15

(1510

)

2−20(2015

) =15 · 14 · · · · · 1120 · 19 · · · · · 16 ≈ 1

5.

Dagegen istP [X1 = . . . = X5 = 1] = 132

.

Berechnung von Wahrscheinlichkeiten durch Fallunterscheidung

SeiΩ =⋃Hi eine disjunkte Zerlegung vonΩ in abzählbar viele Fälle (»Hypothesen«)Hi , i ∈

I.

Satz 2.1(Formel von der totalen Wahrscheinlichkeit). Für alle A ∈ A gilt:

P [A] =∑

i∈IP [Hi]6=0

P [A|Hi] · P [Hi]

Universität Bonn Wintersemester 2009/2010

Page 46: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

46 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

Beweis.Es istA = A ∩ (⋃i∈IHi) =

⋃i∈I

(A ∩ Hi) eine disjunkte Vereinigung, also gilt nachσ-

Additivität:

P [A] =∑

i∈IP [A ∩Hi] =

i∈IP [A ∩Hi]︸ ︷︷ ︸

=0, fallsP [Hi]=0

=∑

i∈I,P [Hi]6=0

P [A|Hi] · P [Hi].

Beispiel. Urne 1 enthalte2 rote und3 schwarze Kugeln, Urne 2 enthalte3 rote und4 schwarze

Kugeln. Wir legen eine KugelK1 von Urne 1 in Urne 2 und ziehen eine KugelK2 aus Urne 2.

Mit welcher Wahrscheinlichkeit istK2 rot?

P [K2 rot] = P [K2 rot | K1 rot] · P [K1 rot] + P [K2 rot | K1 schwarz] · P [K1 schwarz]

=4

8· 25+

3

8· 35=

17

40.

Beispiel(Simpson-Paradoxon). Bewerbungen in Berkeley:

BEWERBUNGEN INBERKELEY

Statistik 1: Männer angenommen (A) Frauen angenommen (A)

2083 996 1067 349

Empirische

Verteilung:P [A|M ] ≈ 0, 48 P [A|F ] ≈ 0, 33

GENAUERE ANALYSE DURCH UNTERTEILUNG IN 4 FACHBEREICHE

Statistik 2: Männer angenommen (A) Frauen angenommen (A)

Bereich 1 825 511 62% 108 89 82%

Bereich 2 560 353 63% 25 17 68%

Bereich 3 325 110 34% 593 219 37%

Bereich 4 373 22 6% 341 24 7%

Sei PM [A] := P [A|M ] die empirische Verteilung unter Männern undPF [A] := P [A|F ] die

empirische Verteilung unter Frauen, angenommen zu werden.Die Aufgliederung nach Fachbe-

reichen ergibt folgende Zerlegung in Hypothesen:

PM [A] =4∑

i=1

PM [A|Hi]PM [Hi], PF [A] =4∑

i=1

PF [A|Hi]PF [Hi].

Im Beispiel istPF [A|Hi] > PM [A|Hi] für alle i, aberdennochPF [A] < PM [A]. Die erste Statis-

tik vermischt verschiedene Populationen und legt deshalb eventuell eine falsche Schlussfolgerung

nahe.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 47: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.1. BEDINGTE WAHRSCHEINLICHKEITEN 47

Bayessche Regel

Wie wahrscheinlich sind die HypothesenHi? Ohne zusätzliche Information istP [Hi] die Wahr-

scheinlichkeit vonHi. In der Bayesschen Statistik interpretiert manP [Hi] als unsere subjektive

Einschätzung (aufgrund von vorhandenem oder nicht vorhandenem Vorwissen) über die vorlie-

gende Situation (»a priori degree of belief«).

Angenommen, wir wissen nun zusätzlich, dass ein EreignisA ∈ A mit P [A] 6= 0 eintritt, und

wir kennen die bedingte Wahrscheinlichkeit (»likelihood«) P [A|Hi] für das Eintreten vonA unter

der HypotheseHi für jedesi ∈ I mit P [Hi] 6= 0. Wie sieht dann unsere neue Einschätzung der

Wahrscheinlichkeiten derHi (»a posteriori degree of belief«) aus?

Korollar (Bayessche Regel). Für A ∈ A mit P [A] 6= 0 gilt:

P [Hi|A] =P [A|Hi] · P [Hi]∑

j∈IP [Hj ]6=0

P [A|Hj] · P [Hj]für alle i ∈ I mit P [Hi] 6= 0, d.h.

P [Hi|A] = c · P [Hi] · P [A|Hi],

wobei c eine voni unabhängige Konstante ist.

Beweis.Es gilt:

P [Hi|A] =P [A ∩Hi]

P [A]=

P [A|Hi] · P [Hi]∑j∈I

P [Hj ]6=0

P [A|Hj] · P [Hj].

Beispiel. Von 10.000 Personen eines Alters habe einer die KrankheitK. Ein Test sei positiv (+)

bei 96% der Kranken und 0,1% der Gesunden.

A priori: P [K] = 110000

. P [KC ] = 999910000

.

Likelihood: P [+|K] = 0, 96. P [+|KC ] = 0, 001.

A posteriori:

P [K|+] =P [+|K] · P [K]

P [+|K] · P [K] + P [+|KC ] · P [KC ]

=0, 96 · 10−4

0, 96 · 10−4 + 10−3 · 0, 9999 ≈ 1

11.

Daraus folgt insbesondere:P [KC |+] ≈ 1011

, d.h. ohne zusätzliche Informationen muss man davon

ausgehen, dass1011

der positiv getesteten Personen in Wirklichkeit gesund sind!

Universität Bonn Wintersemester 2009/2010

Page 48: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

48 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

2.2 Mehrstufige diskrete Modelle

Wir betrachten einn-stufiges Zufallsexperiment. SindΩ1, . . . ,Ωn abzählbare Stichprobenräume

der Teilexperimente, dann können wir

Ω = Ω1 × . . .× Ωn = (ω1, . . . , ωn) | ωi ∈ Ωi

als Stichprobenraum des Gesamtexperiments auffassen und setzenA = P(Ω). Fürω ∈ Ω und

k = 1, . . . , n sei

Xk(ω) = ωk, der Ausgang desk-ten Teilexperiments.

Angenommen, wir kennen

P [X1 = x1] = p1(x1), für allex1 ∈ Ω1, (2.2.1)

die Verteilung (Massenfunktion) vonX1, sowie

P [Xk = xk | X1 = x1, . . . , Xk−1 = xk−1] = pk(xk | x1, . . . , xk−1), (2.2.2)

die bedingte Verteilung vonXk gegebenX1, . . . , Xk−1 für k = 2, . . . n, xi ∈ Ωi mit P [X1 =

x1, . . . , Xk−1 = xk−1] 6= 0.

Wie sieht die gesamte WahrscheinlichkeitsverteilungP aufΩ aus?

Satz 2.2.Seienp1 und pk( • | x1, . . . , xk−1) für jedesk = 2, . . . , n undx1 ∈ Ω1, . . . , xk−1 ∈Ωk−1 die Massenfunktion einer WahrscheinlichkeitsverteilungaufΩk. Dann existiert genau eine

WahrscheinlichkeitsverteilungP auf (Ω,A) mit (2.2.1)und (2.2.2). Diese ist bestimmt durch die

Massenfunktion

p(x1, . . . , xn) = p1(x1) p2(x2 | x1) p3(x3 | x1, x2) · · · pn(xn | x1, . . . , xn−1).

Beweis.

• EINDEUTIGKEIT:

Wir behaupten, dass für eine VerteilungP mit (2.2.1) und (2.2.2) gilt:

P [X1 = x1, . . . , Xk = xk] = p1(x1)·p2(x2 | x1) · · · pk(xk | x1, . . . , xk−1), k = 1, . . . , n.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 49: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.2. MEHRSTUFIGE DISKRETE MODELLE 49

Der Induktionsanfang folgt aus Bedingung (2.2.1). Sei die Induktionsbehauptung fürk− 1

wahr, dann folgt nach Induktionsannahme und (2.2.2):

P [X1 = x1, . . . , Xk = xk] =P [X1 = x1, . . . , Xk−1 = xk−1]

· P [X1 = x1, . . . , Xk = xk | X1 = x1, . . . , Xk−1 = xk−1]

=p1(x1) · p2(x2 | x1) · · · pk−1(xk−1 | x1, . . . , xk−2)

· pk(xk | x1, . . . , xk−1),

falls P [X1 = x1, . . . , Xk−1 = xk−1] 6= 0. Andernfalls verschwinden beide Seiten und die

Behauptung folgt. Fürk = n erhalten wir als Massenfunktion vonP :

p(x1, . . . , xn) = P [X1 = x1, . . . , Xn = xn] = p1(x1) · · · pn(xn | x1, . . . , xn−1).

• EXISTENZ:

p ist Massenfunktion einer WahrscheinlichkeitsverteilungP aufΩ1 × · · · × Ωn, denn:

x1∈Ω1

. . .∑

xn∈Ωn

p(x1, . . . , xn) =∑

x1∈Ω1

p1(x1)∑

x2∈Ω2

p2(x2 | x1) . . .∑

xn∈Ωn

pn(xn | x1, . . . , xn)︸ ︷︷ ︸

=1

= 1.

FürP gilt:

P [X1 = x1, . . . Xk = xk] =∑

xk+1∈Ωk+1

. . .∑

xn∈Ωn

p(x1, . . . , xn)

= p1(x1) p2(x2 | x1) · · · pk(xk | x1, . . . , xk−1), k = 1, . . . , n.

Damit folgen (2.2.1) und (2.2.2).

Beispiel. Wie groß ist die Wahrscheinlichkeit, dass beim Skat jeder Spieler genau einen der vier

Buben erhält? Sei

Ω = (ω1, ω2, ω3) | ωi ∈ 0, 1, 2, 3, 4,Xi(ω) = ωi = Anzahl der Buben von Spieleri.

Universität Bonn Wintersemester 2009/2010

Page 50: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

50 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

a

p1(a)

aap2(a|a)aaa

p3(a|aa)

aabp3(b|aa)

abp2(b|a)aba

p3(a|ab)

abbp3(b|ab)

bp1(b)

bap2(a|b)baa

p3(a|ba)

babp3(b|ba)

bbp2(b|b)bba

p3(a|bb)

bbbp3(b|bb)

c

p1(c) cap2(a|c)caa

p3(a|ca)

cabp3(b|ca)

cbp2(b|c)cba

p3(a|cb)

cbbp3(b|cb)

Abbildung 2.1: Baumdarstellung der Fallunterscheidungen

Es gilt:

p1(x1) =

(4x1

)(28

10−x1

)(3210

) , hypergeometrische Verteilung,

p2(x2 | x1) =(4−x1

x2

)(18+x1

10−x2

)(2210

)

p3(x3 | x1, x2) =

(4−x1−x2x3

)(18+x1+x210−x3

)(1210)

falls 2 ≤ x1 + x2 + x3 ≤ 4,

0 sonst.

Damit folgt:

p(1, 1, 1) = p1(1) p2(1 | 1) p3(1 | 1, 1) ≈ 5, 56%.

Im folgenden betrachten wir zwei fundamentale Klassen von mehrstufigen Modellen, Produkt-

modelle und Markov-Ketten.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 51: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.2. MEHRSTUFIGE DISKRETE MODELLE 51

Produktmodelle

Angenommen, der Ausgang desi-ten Experiments hängt nicht vonx1, . . . , xi−1 ab. Dann sollte

gelten:

pi(xi | x1, . . . , xi−1) = pi(xi)

mit einer vonx1, . . . , xi−1 unabhängigen Massenfunktionpi einer Wahrscheinlichkeitsverteilung

Pi aufΩi. Die WahrscheinlichkeitsverteilungP aufΩ hat dann die Massenfunktion

p(x1, . . . , xn) =n∏

i=1

pi(xi), x ∈ Ω. (2.2.3)

Definition. Die WahrscheinlichkeitsverteilungP auf Ω = Ω1 × . . . × Ωn mit Massenfunktion

(2.2.3)heißtProduktvonP1, . . . , Pn und wird mitP1 ⊗ . . .⊗ Pn notiert.

Beispiel(n-dimensionale Bernoulli-Verteilung). Wir betrachtenn unabhängige0-1-Experimente

mit Erfolgswahrscheinlichkeitp:

Ω1 = . . . = Ωn = 0, 1, pi(1) = p, pi(0) = 1− p, i = 1, . . . , n.

Seik =∑n

i=1 xi die Anzahl der Einsen. Dann ist

p(x1, . . . , xn) =n∏

i=1

pi(xi) = pk (1− p)n−k

dien-dimensionale Bernoulli-Verteilung.

Bemerkung. Sind die MengenΩi, i = 1, . . . , n endlich, und istPi die Gleichverteilung aufΩi,

dann istP1 ⊗ . . . ⊗ Pn die Gleichverteilung aufΩ1 × . . .× Ωn.

Die Multiplikativität im Produktmodell gilt nicht nur für die Massenfunktion, sondern allgemei-

ner für die Wahrscheinlichkeiten, dass in den Teilexperimenten bestimmte EreignisseA1, . . . ,

An eintreten:

Satz 2.3.Im Produktmodell gilt für beliebige EreignisseAi ⊆ Ωi, i = 1, . . . , n:

P [X1 ∈ A1, . . . , Xn ∈ An] =n∏

i=1

P [Xi ∈ Ai] (2.2.4)

|| ||

P [A1 × . . .× An]n∏

i=1

Pi[Ai]

(d.h.X1, . . . , Xn sindunabhängigeZufallsvariablen, siehe nächsten Abschnitt).

Universität Bonn Wintersemester 2009/2010

Page 52: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

52 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

Beweis.Es gilt:

P [X1 ∈ A1, . . . , Xn ∈ An] = P [(X1, . . . , Xn) ∈ A1 × · · · × An] = P [A1 × · · · × An]

=∑

x∈A1×···×An

p(x) =∑

x1∈A1

. . .∑

xn∈An

n∏

i=1

pi(xi)

=n∏

i=1

xi∈Ai

pi(xi) =n∏

i=1

Pi[Ai].

Insbesondere gilt:

P [Xi ∈ Ai] = P [X1 ∈ Ω, . . . , Xi−1 ∈ Ω, Xi ∈ Ai, Xi+1 ∈ Ω, . . . , Xn ∈ Ω] = Pi[Ai].

Markov-Ketten

Zur Modellierung einer zufälligen zeitlichen Entwicklungmit abzählbarem ZustandsraumS be-

trachten wir den Stichprobenraum

Ω = Sn+1 = (x0, x1, . . . , xn) | xi ∈ S.

Oft ist es naheliegend anzunehmen, dass die Weiterentwicklung des Systems nur vom gegen-

wärtigen Zustand, aber nicht vom vorherigen Verlauf abhängt (»kein Gedächtnis«), d.h. es sollte

gelten:

pk(xk | x0, . . . , xk−1) = pk(xk−1, xk)︸ ︷︷ ︸»Bewegungsgesetz«

, (2.2.5)

wobeipk : S × S → [0, 1] folgende Bedingungen erfüllt:

i) pk(x, y) ≥ 0 für allex, y ∈ S

ii)∑

y∈S pk(x, y) = 1 für allex ∈ S

d.h.pk(x, •) ist für jedesx ∈ S die Massenfunktion einer WahrscheinlichkeitsverteilungaufS.

Definition. Eine Matrix pk(x, y) (x, y ∈ S) mit i) und ii) heißtstochastische Matrix(oder

stochastischer Kern) aufS.

Im Mehrstufenmodell folgt aus Gleichung (2.2.5):

p(x0, x1, . . . , xn) = p0(x0)︸ ︷︷ ︸»Startverteilung«

p1(x0, x1) p2(x1, x2) · · · pn(xn−1, xn), für x0, . . . , xn ∈ S.

Den Fall, in dem der Übergangsmechanismuspk(x, y) = p(x, y) unabhängig vonk ist, nennt

manzeitlich homogen.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 53: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.2. MEHRSTUFIGE DISKRETE MODELLE 53

Beispiele. a) PRODUKTMODELL (siehe oben):

pk(x, y) = pk(y) ist unabhängig vonx.

b) ABHÄNGIGE MÜNZWÜRFE:

S = 0, 1, ε ∈[− 1

2,1

2

].

p =

(12+ ε 1

2− ε

12− ε 1

2+ ε

).

c) SELBSTBEFRUCHTUNG VONPFLANZEN:

p =

1 0 014

12

14

0 0 1

d) RANDOM WALK AUF S = Zd, (d ∈ N):

Universität Bonn Wintersemester 2009/2010

Page 54: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

54 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

p(x, y) =

12d

falls |x− y| = 1,

0 sonst.

e) URNENMODELL VON P. UND T. EHRENFEST(Austausch von Gasmolekülen in zwei Be-

hältern):

Es seienN Kugeln auf zwei Urnen verteilt. Zu jedem Zeitpunktt ∈ N wechselt eine

zufällig ausgewählte Kugel die Urne.

MAKROSKOPISCHESMODELL:

S = 0, 1, 2, . . . , n.

x ∈ S beschreibt die Anzahl Kugeln in der ersten Urne.

p(x, y) =

xn

falls y = x− 1,

n−xn

falls y = x+ 1,

0 sonst.

M IKROSKOPISCHESMODELL:

S = 0, 1n = (σ1, . . . , σn) | σi ∈ 0, 1.

Es istσi = 1 genau dann, wenn sich diei-te Kugel in Urne 1 befindet.

p(σ, σ) =

1N

falls∑n

i=1 |σi − σi| = 1,

0 sonst.

Die resultierende Markov-Kette ist ein Random Walk auf dem Hyperwürfel0, 1n, d.h.

sie springt in jedem Schritt von einer Ecke des Hyperwürfelszu einer zufällig ausgewählten

benachbarten Ecke.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 55: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.2. MEHRSTUFIGE DISKRETE MODELLE 55

Berechnung von Wahrscheinlichkeiten

Satz 2.4(Markov-Eigenschaft). Für alle 0 ≤ k < l ≤ n und x0, . . . , xl ∈ S mit P [X0 =

x0, . . . , Xk = xk] 6= 0 gilt:

P [Xl = xl | X0 = x0, . . . , Xk = xk] = P [Xl = xl | Xk = xk]

= (pk+1 pk+2 · · · pl)(xk, xl),

wobei

(p q)(x, y) :=∑

z∈Sp(x, z) q(z, y)

das Produkt der Matrizenp undq ist.

Bemerkung. a) MARKOV-EIGENSCHAFT:

Die Weiterentwicklung hängt jeweils nur vom gegenwärtigenZustandxk ab, und nicht vom

vorherigen Verlaufx0, x1, . . . , xk−1.

b) n-SCHRITT-ÜBERGANGSWAHRSCHEINLICHKEITEN:

P [Xn = y | X0 = x] = (p1 p2 · · · pn)(x, y)= pn(x, y) falls zeitlich homogen, d.h.pi ≡ p.

Beweis.

P [Xl = xl | X0 = x0, . . . , Xk = xk] =P [X0 = x0, . . . , Xk = xk, Xl = xl]

P [X0 = x0, . . . , Xk = xk]

=

∑xk+1,...,xl−1

p0(x0) p1(x0, x1) · · · pl(xl−1, xl)

p0(x0) p1(x0, x1) · · · pk(xk−1, xk)

=∑

xk+1

. . .∑

xl−1

pk+1(xk, xk+1) pk+2(xk+1, xk+2) · · · pl(xl−1, xl)

= (pk+1 pk+2 · · · pl)(xk, xl).

P [Xl = xl | Xk = xk] =P [Xk = xk, Xl = xl]

P [Xk = xk]

=

∑x1,...,xk−1

∑xk+1,...,xl−1

p0(x0) p1(x0, x1) · · · pl(xl−1, xl)∑x1,...,xk−1

p0(x0) p1(x0, x1) · · · pk(xk−1, xk)

= (pk+1 pk+2 · · · pl)(xk, xl).

Universität Bonn Wintersemester 2009/2010

Page 56: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

56 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

Beispiel.

S = 0, 1, 0 < α, β ≤ 1.

Für allen ∈ N gilt:

pn(0, 0) = pn−1(0, 0) · p(0, 0) + pn−1(0, 1) · p(1, 0)= pn−1(0, 0) · (1− α) + (1− pn−1(0, 0)) · β= (1− α− β) · pn−1(0, 0) + β.

Daraus folgt mit Induktion:

pn(0, 0) =β

α + β+

α

α + β(1− α− β)n, und

pn(0, 1) = 1− pn(0, 0).

Analoge Formeln erhält man fürpn(1, 0) undpn(1, 1) durch Vertauschung vonα undβ. Für die

n-Schritt-Übergangsmatrix ergibt sich:

pn =

α+βα

α+ββ

α+βα

α+β

)

︸ ︷︷ ︸Gleiche Zeilen

+ (1− α− β)n

α+β−αα+β

−βα+β

βα+β

)

︸ ︷︷ ︸−→ 0 exponentiell schnell,

falls α < 1 oderβ < 1

.

Insbesondere giltpn(0, ·) ≈ pn(1, ·) für großen ∈ N. Die Kette »vergisst« also ihren Startwert

exponentiell schnell (»Exponentieller Gedächtnisverlust«)!.

2.3 Unabhängigkeit von Ereignissen

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum. Hängen zwei EreignisseA,B ∈ A nicht voneinan-

der ab, dann sollte gelten:

P [A|B] = P [A], fallsP [B] 6= 0,

sowie

P [B|A]︸ ︷︷ ︸P [B∩A]P [A]

= P [B], fallsP [A] 6= 0,

also insgesamt

P [A ∩ B] = P [A] · P [B]. (2.3.1)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 57: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 57

Definition. i) Zwei EreignisseA,B ∈ A heißenunabhängig(bzgl. P), falls(2.3.1)gilt.

ii) Eine beliebige KollektionAi, i ∈ I, von Ereignissen heißtunabhängig(bzgl. P), falls

P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] =n∏

k=1

P [Aik ]

für alle n ∈ N und alle paarweise verschiedeneni1, . . . , in ∈ I gilt.

Beispiele. a) FallsP [A] ∈ 0, 1 gilt, ist A unabhängig vonB für alleB ∈ A.

b) Wir betrachten das Modell fürZWEI FAIRE MÜNZWÜRFE, alsoΩ = 0, 12 undP sei die

Gleichverteilung. Die Ereignisse

A1 = (1, 0), (1, 1), »erster Wurf Zahl«,

A2 = (0, 1), (1, 1), »zweiter Wurf Zahl«,

A3 = (0, 0), (1, 1), »beide Würfe gleich«,

sindpaarweise unabhängig, denn es gilt:

P [Ai ∩ Aj] =1

4= P [Ai] · P [Aj ] für alle i 6= j.

Allerdings ist die KollektionA1, A2, A3 nicht unabhängig, denn es gilt

P [A1 ∩ A2 ∩ A3] =1

46= P [A1] · P [A2] · P [A3].

Lemma 2.5. Seien die EreignisseA1, . . . , An ∈ A unabhängig,Bj = Aj oderBj = ACj für alle

j = 1, . . . , n. Dann sind die EreignisseB1, . . . , Bn unabhängig.

Beweis.Sei ohne Beschränkung der Allgemeinheit:

B1 = A1, . . . , Bk = Ak, Bk+1 = ACk+1, . . . , Bn = AC

n

. Dann gilt unter Verwendung der Linearität des Erwartungswerts und der Unabhängigkeit von

A1, . . . , An:

P [B1 ∩ . . . ∩ Bn] = P[A1 ∩ . . . ∩ Ak ∩ AC

k+1 ∩ . . . ACn

]

= E[IA1 · · · IAk

· (1− IAk+1) · · · (1− IAn)

]

= E[IA1 · · · IAk

·∑

J⊆k+1,...,n(−1)|J |

j∈JIAj

]

=∑

J⊆k+1,...,n(−1)|J |P

[A1 ∩ . . . ∩ Ak ∩

j∈JAj

]

=∑

J⊆k+1,...,n(−1)|J |P [A1] · · ·P [Ak] ·

j∈JP [Aj]

= P [A1] · · ·P [Ak] · (1− P [Ak+1]) . . . (1− P [An]) = P [B1] · · ·P [Bn].

Universität Bonn Wintersemester 2009/2010

Page 58: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

58 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

Verteilungen für unabhängige Ereignisse

SeienA1, A2, . . . ∈ A unabhängige Ereignisse (bzgl.P ) mit P [Ai] = p ∈ [0, 1]. Die Existenz

von unendlich vielen unabhängigen Ereignissen auf einem geeigneten Wahrscheinlichkeitsraum

setzen wir hier voraus – ein Beweis wird erst in der Vorlesung »Einführung in die Wahrschein-

lichkeitstheorie« gegeben.

Geometrische Verteilung

Die Wartezeit auf das erste Eintreten eines der Ereignisseist

T (ω) = infn ∈ N | ω ∈ An, wobei min ∅ := ∞.

Mit Lemma 2.5 folgt:

P [T = n] = P [AC1 ∩ AC

2 ∩ . . . ∩ ACn−1 ∩ An]

= P [An] ·n−1∏

i=1

P [ACi ]

= p · (1− p)n−1.

Definition. Seip ∈ [0, 1]. Die Wahrscheinlichkeitsverteilung aufN mit Massenfunktion

p(n) = p · (1− p)n−1

heißtgeometrische Verteilung zum Parameterp.

Bemerkung. a) Fürp 6= 0 gilt:

∞∑

n=1

p · (1− p)n−1 = 1,

d.h. die geometrische Verteilung ist eine Wahrscheinlichkeitsverteilung auf den natürlichen

Zahlen, und

P [T = ∞] = 0.

b) Allgemein gilt:

P [T > n] = P[AC

1 ∩ . . . ∩ ACn

]= (1− p)n.

c) Es gilt:

E[T ] =∞∑

n=0

P [T > n] =1

1− (1− p)=

1

p,

(siehe Übung).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 59: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 59

Binomialverteilung

Die Anzahl der Ereignisse unterA1, . . . , An, die eintreten, ist

Sn(ω) = |1 ≤ i ≤ n | ω ∈ Ai| =n∑

i=1

IAi(ω).

Es gilt:

P [Sn = k] =∑

I⊆1,...,n|I|=k

P[⋂

i∈IAi ∩

i∈1,...,n\IAC

i

]

=∑

I⊆1,...,n|I|=k

i∈IP [Ai] ·

i∈ICP [AC

i ]

=∑

I⊆1,...,n|I|=k

i∈Ip ·∏

i∈IC(1− p)

=∑

I⊆1,...,n|I|=k

p|I| · (1− p)|IC |

=

(n

k

)pk (1− p)n−k,

d.h.Sn ist Binomialverteilt mit Parametern n und p.

Satz 2.6(»Law of Averages«, Bernstein-Ungleichung). Für alle ε > 0 undn ∈ N gilt:

P

[Sn

n≥ p+ ε

]≤ e−2ε2n, und

P

[Sn

n≤ p− ε

]≤ e−2ε2n.

Insbesondere gilt:

P

[∣∣∣∣Sn

n− p

∣∣∣∣ > ε

]≤ 2 e−2ε2n,

d.h. die Wahrscheinlichkeit für eine Abweichung des Mittelwerts Sn

nvom Erwartungswertp um

mehr alsε fällt exponentiell inn.

Bemerkung. a) Satz 2.6 ist eine erste Version des »Gesetzes der großen Zahlen«.

b) Der Satz liefert eine nachträgliche Rechtfertigung der frequentistischen Interpretation der

Wahrscheinlichkeit als asymptotische relative Häufigkeit.

Universität Bonn Wintersemester 2009/2010

Page 60: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

60 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

c) Anwendung auf Schätzen vonp:

p ≈ Sn

n= relative Häufigkeit des Ereignisses bein unabhängigen Stichproben.

d) Anwendung auf näherungsweise Monte Carlo-Berechnung vonp:

Simulieren unabhängige Stichproben,p ∼ relative Häufigkeit.

Beweis.Seiq := 1− p, Sn ∼ Bin(n, p). Dann gilt fürλ > 0:

P [Sn ≥ n (p+ ε)] =∑

k≥np+nε

(n

k

)pk qn−k

≤∑

k≥np+nε

(n

k

)eλk pk qn−k e−λ(np+nε)

≤n∑

k=0

(n

k

)(p eλ)kqn−k e−λnp e−λnε

=(p eλ + q

)ne−λnp e−λnε ≤

(p eλq + q e−λp

)ne−λnε.

Wir behaupten:

p eλq + q e−λp ≤ eλ2

8 .

Damit folgt:

P [Sn ≥ n (p+ ε)] ≤ en (λ2

8−λε).

Der Exponent ist minimal fürλ = 4ε. Für diese Wahl vonλ folgt schließlich

P [Sn ≥ n (p+ ε)] ≤ e−2nε2 .

Beweis der Behauptung:

f(λ) := log(p eλq + q e−λp

)= log

(e−λ p (p eλ + q)

)= −λ p+ log

(p eλ + q

).

Zu zeigen ist nun

f(λ) ≤ λ2

8für alleλ ≥ 0.

Es gilt:

f(0) = 0,

f ′(λ) = −p+ p eλ

p eλ + q= −p+ p

p+ q e−λ, f ′(0) = 0,

f ′′(λ) =p q e−λ

(p+ q e−λ)2≤ 1

4.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 61: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 61

Die letzte Ungleichung folgt aus::

(a+ b)2 = a2 + b2 + 2 a b ≥ 4 a b

Damit folgt

f(λ) = f(0) +

∫ λ

0

f ′(x) dx

=

∫ λ

0

∫ x

0

f ′′(y) dy dx ≤∫ λ

0

x

4dx ≤ λ2

8für alleλ ≥ 0.

Beispiel. Im letzten Satz wurde gezeigt:

Sn =n∑

i=1

IAi, Ai unabhängig mitP [Ai] = p =⇒ P

[∣∣∣∣Sn

n− p

∣∣∣∣ ≥ ε

]−→ 0 für n→ ∞.

Zur Demonstration simulieren wir den Verlauf vonSn und Sn

nmehrfach (m-mal):

VERLAUF VON Sn

m = 30; nmax = 1000; p = 0 . 7 ;

(Wir erzeugenm× nmax Bernoulli-Stichproben mit Wahrscheinlichkeit p)

x = RandomChoice [ 1− p , p −> 0 , 1 , nmax , m ] ; s = Accumulate [ x ] ;

Das Feld s enthält m Verläufe vonsn = x1 + . . .+ xn, n = 1, . . . , nmax

Man ipu la te [Show[

L i s t L i n e P l o t [Transpose[ s [ [ 1 ; ; n ] ] ] ] ,

L i s t L i n e P l o t [ p∗Range[ n ] , P l o t S t y l e −> Black , Th ick ] ]

, n , 50 , 1 , nmax , 1 ]

(Vergleich derm Verläufe vonsn mit np)

• n = 50:

10 20 30 40 50

10

20

30

40

Universität Bonn Wintersemester 2009/2010

Page 62: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

62 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

• n = 500:

100 200 300 400 500

50

100

150

200

250

300

350

VERLAUF VON Sn

n

mean = s /Range[ nmax ] ;

(Das Feld mean enthält m Verläufe der Werte vonsn

n)

Man ipu la te [Show[

L i s t L i n e P l o t [Transpose[ mean [ [ 1 ; ; n ] ] ] ] ,

L i s t L i n e P l o t [ Cons tan tA r ray [ p , n ] , P l o t S t y l e −> Black , Th ick ] ] , n ,

50 , 1 , nmax , 1 ]

• n = 50:

10 20 30 40 50

0.4

0.5

0.6

0.7

0.8

0.9

1.0

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 63: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.3. UNABHÄNGIGKEIT VON EREIGNISSEN 63

• n = 500:

100 200 300 400 500

0.65

0.70

0.75

0.80

VERTEILUNG VON Sn

Man ipu la te [

L i s t P l o t [ Table [ k , PDF[ B i n o m i a l D i s t r i b u t i o n [ n , p ] , k ] , k , 0 , n ] ,

PlotRange −> Al l , F i l l i n g −> Axis ]

, n , 50 , 1 , nmax , 1 ]

• n = 50:

10 20 30 40 50

0.02

0.04

0.06

0.08

0.10

0.12

Universität Bonn Wintersemester 2009/2010

Page 64: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

64 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

• n = 500:

100 200 300 400 500

0.01

0.02

0.03

0.04

2.4 Unabhängige Zufallsvariablen und Random Walk

Unabhängigkeit von diskreten Zufallsvariablen

SeienXi : Ω → Si , i = 1, . . . , n, diskrete Zufallsvariablen auf dem Wahrscheinlichkeitsraum

(Ω,A, P ). Dann ist(X1, . . . , Xn) eine Zufallsvariable mit Werten im ProduktraumS1×· · ·×Sn.

Definition. Die VerteilungµX1,...,Xn des Zufallsvektors(X1, . . . , Xn) heißtgemeinsame Vertei-

lung der ZufallsvariablenX1, . . . , Xn. Die Massenfunktion der gemeinsamen Verteilung lautet

pX1,...,Xn(a1, . . . , an) = P [X1 = a1, . . . , Xn = an].

Definition. Die diskreten ZufallsvariablenX1, . . . , Xn heißenunabhängig, falls gilt:

P [X1 = a1, . . . , Xn = an] =n∏

i=1

P [Xi = ai] für alle ai ∈ Si, i = 1, . . . , n.

Die gemeinsame Verteilung enthält Informationen über den Zusammenhang zwischen den Zu-

fallsgrößenXi.

Satz 2.7.Die folgenden Aussagen sind äquivalent:

(i) X1, . . . , Xn sind unabhängig.

(ii) pX1,...,Xn(a1, . . . , an) =∏n

i=1 pXi(ai).

(iii) µX1,...,Xn =⊗n

i=1 µXi.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 65: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 65

(iv) Die EreignisseX1 ∈ A1, . . . , Xn ∈ An sind unabhängig für alleAi ⊆ Si, i =

1, . . . , n.

(v) Die EreignisseX1 = a1, . . . , Xn = an sind unabhängig für alleai ∈ Si, i = 1, . . . , n.

Beweis.

• (i) ⇔ (ii) nach Definition vonpX1,...,Xn .

• (ii) ⇔ (iii) nach Definition von⊗n

i=1 µXi.

• (iii) ⇒ (iv):

Seien1 ≤ i1 < i2 < . . . < im ≤ n undAik ⊆ Sik , (k = 1, . . . ,m). Wir setzenAi := Ω für

i /∈ i1, . . . , im. Mit (iii) folgt dann nach Satz 2.2:

P [Xi1 ∈ Ai1 , . . . , Xim ∈ Aim ] = P [X1 ∈ A1, . . . , Xn ∈ An]

= P [(X1, . . . , Xn) ∈ A1 × . . .× An]

= µX1,...,Xn(A1 × . . .× An)

=n∏

i=1

µXi(Ai) =

n∏

i=1

P [Xi ∈ Ai]

=m∏

i=1

P [Xik ∈ Aik ].

• (iv) ⇒ (v) ⇒ (i) ist klar.

Definition. Eine beliebige KollektionXi : Ω → Si, i ∈ I, von diskreten Zufallsvariablen heißt

unabhängig, falls die EreignisseXi = ai, i ∈ I, für alle ai ∈ Si unabhängig sind.

Der Random Walk auf Z

SeienX1, X2, . . . unabhängige identisch verteilte (»i.i.d.« – independent and identically distribu-

ted) Zufallsvariablen auf dem Wahrscheinlichkeitsraum(Ω,A, P ) mit

P [Xi = +1] = p, P [Xi = −1] = 1− p, p ∈ (0, 1).

Universität Bonn Wintersemester 2009/2010

Page 66: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

66 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

Die Existenz von unendlich vielen unabhängigen identisch verteilten Zufallsvariablen auf einem

geeigneten Wahrscheinlichkeitsraum (unendliches Produktmodell) wird in der Vorlesung »Ein-

führung in die Wahrscheinlichkeitstheorie« gezeigt. Seia ∈ Z ein fester Startwert. Wir betrachten

die durch

S0 = a,

Sn+1 = Sn +Xn+1,

definierte zufällige Bewegung (»Irrfahrt« oder »Random Walk«) aufZ. Als Position zur Zeitn

ergibt sich:

Sn = a+X1 +X2 + · · ·+Xn.

Irrfahrten werden unter anderem in primitiven Modellen fürdie Kapitalentwicklung beim Glücks-

spiel oder an der Börse (Aktienkurs), sowie die Brownsche Molekularbewegung (im Skalierungs-

limes Schrittweite→ 0) eingesetzt.

Beispiel(Symmetrischer Random Walk,p = 12).

z u f a l l = RandomChoice [−1 , 1 , 10000 ] ;

randomwalk = Fo ldL i s t [ Plus , 0 , z u f a l l ] ;

Man ipu la te [

L i s t L i n e P l o t [ randomwalk [ [ 1 ; ; nmax ] ] ] , nmax , 10 , 10000 ,10 ]

• nmax = 50:

10 20 30 40 50

-8

-6

-4

-2

2

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 67: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 67

• nmax = 500:

100 200 300 400 500

10

20

30

• nmax = 5000:

1000 2000 3000 4000 5000

20

40

60

80

100

Lemma 2.8(Verteilung vonSn). Für k ∈ Z gilt

P [Sn = a+ k] =

0 falls n+ k ungerade oder|k| > n,(

nn+k2

)p

n+k2 (1− p)

n−k2 sonst.

Beweis.Es gilt:

Sn = a+ k ⇔ X1 + · · ·+Xn = k ⇔

Xi = 1 genaun+k

2-mal,

Xi = −1 genaun−k2

-mal.

Beispiel(Rückkehrwahrscheinlichkeit zum Startpunkt). Mithilfe der Stirlingschen Formel

n! ∼√2πn

(ne

)nfür n→ ∞.

Universität Bonn Wintersemester 2009/2010

Page 68: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

68 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

folgt:

P [S2n+1 = a] = 0,

P [S2n = a] =

(2n

n

)pn(1− p)n =

(2n)!

(n!)2pn (1− p)n

∼√4πn

2πn

(2ne)2n

(ne)2n

pn (1− p)n =1√πn

(4p (1− p))n für n→ ∞,

wobei zwei Folgenan undbn asymptotisch äquivalentheißen(an ∼ bn), falls limn→∞anbn

= 1

gilt.

• Fallsp 6= 12

gilt 4 p (1− p) < 1 undP [S2n = a] konvergiert exponentiell schnell gegen0.

• Fallsp = 12

konvergiertP [S2n = a] ∼ 1√πn

nur langsam gegen0.

Symmetrischer Random Walk

Ab jetzt betrachten wir densymmetrischenRandom Walk, d.h.p = 12.

Seiλ ∈ Z. Wir wollen die Verteilung der Zufallsvariable

Tλ(ω) := infn ∈ N | Sn(ω) = λ, (min ∅ := ∞),

bestimmen. Fürλ 6= a ist Tλ die ersteTrefferzeit von λ, für λ = a ist es die ersteRückkehrzeit

nach a. Beschreibt der Random Walk beispielsweise die Kapitalentwicklung in einem Glücks-

spiel, dann kann manT0 als Ruinzeitpunkt interpretieren.

Sein ∈ N. Wir wollen nun die Wahrscheinlichkeit

P [Tλ ≤ n] = P

[n⋃

i=1

Si = λ]

berechnen. Da das EreignisTλ ≤ n von mehreren Positionen des Random Walks abhängt

(S1, S2, . . . , Sn), benötigen wir diegemeinsameVerteilung dieser Zufallsvariablen. Sei also

S(ω) := (S0(ω), S1(ω), . . . , Sn(ω))

derBewegungsverlauf bis zur Zeitn . Dann istS eine Zufallsvariable mit Werten im Raum

Ω(n)a := (s0, s1, . . . , sn) | s0 = a, si ∈ Z, so dass:|si − si−1| = 1 für alle i ∈ 1, . . . , n

der möglichen Pfade des Random Walk. Seiµa die gemeinsame Verteilung vonS unterP .

Lemma 2.9. µa ist dieGleichverteilungauf dem PfadraumΩ(n)a .

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 69: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 69

Beweis.Es gilt

µa((s0, . . . , sn)) = P [S0 = s0, . . . , Sn = sn]

= P [S0 = s0, X1 = s1 − s0, . . . , Xn = sn − sn−1]

=

0 falls s0 6= a oder|si − si−1| 6= 1 für ein i ∈ 1, . . . , n,(d.h.(s0, . . . , sn) /∈ Ω

(n)a ),

2−n sonst, d.h. falls(s0, . . . , sn) ∈ Ω(n)a .

Satz 2.10(Reflektionsprinzip). Seienλ, b ∈ Z. Es gelte entweder(a < λ und b ≤ λ), oder

(a > λ undb ≥ λ). Dann gilt:

P [Tλ ≤ n, Sn = b] = P [Sn = b⋆],

wobeib⋆ := λ+ (λ− b) = 2λ− b dieSpiegelungvonb anλ ist.

Beweis.Es gilt:

P [Tλ ≤ n, Sn = b] = µa[

=:A︷ ︸︸ ︷(s0, . . . , sn) | sn = b, si = λ für ein i ∈ 1, . . . , n],

P [Sn = b⋆] = µa[(s0, . . . , sn) | sn = b⋆︸ ︷︷ ︸=:B

].

Die im Bild dargestellte Transformation (Reflektion des Pfades nach Treffen vonλ) definiert eine

Bijektion vonA nachB. Also gilt |A| = |B|. Daµa die Gleichverteilung aufΩ(n)a ist, folgt:

µa(A) =|A|∣∣∣Ω(n)a

∣∣∣=

|B|∣∣∣Ω(n)a

∣∣∣= µa(B).

Korollar (Verteilung der Trefferzeiten). Es gilt:

i)

P [Tλ ≤ n] =

P [Sn ≥ λ] + P [Sn > λ], falls λ > a,

P [Sn ≤ λ] + P [Sn < λ], falls λ < a.

Universität Bonn Wintersemester 2009/2010

Page 70: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

70 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

2

4

−2

2 4 6 8 10 12 14

λ

Abbildung 2.2: Spiegelung des Random Walks anλ = 3

ii)

P [Tλ = n] =

12P [Sn−1 = λ− 1]− 1

2P [Sn−1 = λ+ 1], falls λ > a,

12P [Sn−1 = λ+ 1]− 1

2P [Sn−1 = λ− 1], falls λ < a.

=

λ−an

(n

n+λ−a2

)2−n falls λ > a,

a−λn

(n

n+λ−a2

)2−n falls λ < a.

Beweis.Wir beweisen die Aussagen fürλ > a, der andere Fall wird jeweils analog gezeigt.

i)

P [Tλ ≤ n] =∑

b∈ZP [Tλ ≤ n, Sn = b]︸ ︷︷ ︸

=

P [Sn = b] falls b ≥ λ,

P [Sn = b⋆] falls b < λ.

=∑

b≥λ

P [Sn = b] +∑

b<λ

P [Sn = b⋆]

︸ ︷︷ ︸=

∑b>λ

P [Sn=b]

= P [Sn ≥ λ] + P [Sn > λ].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 71: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.4. UNABHÄNGIGE ZUFALLSVARIABLEN UND RANDOM WALK 71

ii)

P [Tλ = n] = P [Tλ ≤ n]− P [Tλ ≤ n− 1]

Mit i) folgt

=

=:I︷ ︸︸ ︷P [Sn ≥ λ︸ ︷︷ ︸

=:A

]− P [Sn−1 ≥ λ︸ ︷︷ ︸=:B

] +

=:II︷ ︸︸ ︷P [Sn ≥ λ+ 1]− P [Sn−1 ≥ λ+ 1]

Wegen

P [A]− P [B] = P [A\B] + P [A ∩ B]− P [B\A]− P [B ∩ A] = P [A\B]− P [B\A]

erhalten wir für den ersten Term:

I = P [Sn ≥ λ, Sn−1 < λ]− P [Sn−1 ≥ λ, Sn < λ]

= P [Sn−1 = λ− 1, Sn = λ]− P [Sn−1 = λ, Sn = λ− 1]

=1

2P [Sn−1 = λ− 1]− 1

2P [Sn−1 = λ].

Hierbei haben wir benutzt, dass

|(s0, . . . , sn) ∈ Ω(n)a | sn−1 = λ− 1|

= |(s0, . . . , sn) | sn−1 = λ− 1 undsn = λ|+|(s0, . . . , sn) | sn−1 = λ− 1 undsn = λ− 2|

= 2 · |(s0, . . . , sn)|sn−1 = λ− 1, sn = λ

gilt. Mit einer analogen Berechnung für den zweiten Term erhalten wir insgesamt:

P [Tλ = n] = I + II

=1

2(P [Sn−1 = λ− 1]− P [Sn−1 = λ]

+P [Sn−1 = (λ+ 1)− 1]− P [Sn−1 = λ+ 1])

=1

2(P [Sn−1 = λ− 1]− P [Sn−1 = λ+ 1]).

SeiMn := max(S0, S1, . . . , Sn).

Korollar (Verteilung des Maximums). Für λ > a gilt:

P [Mn ≥ λ] = P [Tλ ≤ n] = P [Sn ≥ λ] + P [Sn > λ].

Universität Bonn Wintersemester 2009/2010

Page 72: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

72 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

2.5 Simulationsverfahren

Die Simulation von Stichproben verschiedener Wahrscheinlichkeitsverteilungen geht von auf

[0, 1] gleichverteilten Pseudo-Zufallszahlen aus. In Wirklichkeit simuliert ein Zufallszahlengene-

rator natürlich nur aufkm−1 | k = 0, 1, . . . ,m− 1 gleichverteilte Zufallszahlen, wobeim−1

die Darstellungsgenauigkeit des Computers ist. Dieser Aspekt wird im folgenden ignoriert. Um

Simulationsverfahren zu analysieren, benötigen wir noch den Begriff einer auf[0, 1] gleichverteil-

ten reellwertigen Zufallsvariablen. Die Existenz solcherZufallsvariablen auf einem geeigneten

Wahrscheinlichkeitsraum wird hier vorausgesetzt, und kann erst in der Vorlesung »Analysis III«

bzw. in der »Einführung in die Wahrscheinlichkeitstheorie« gezeigt werden.

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum, undU : Ω → [0, 1] eine Abbildung.

Definition. i) U ist einereellwertige Zufallsvariable, falls gilt:

ω ∈ Ω | U(ω) ≤ y ∈ A für alle y ∈ R.

ii) Eine reellwertige ZufallsvariableU : Ω → [0, 1] ist gleichverteilt auf[0, 1], falls

P [U ≤ y] = y für alle y ∈ [0, 1].

Wir notieren dies im folgenden als(U ∼ Unif[0, 1]).

iii) Reellwertige ZufallsvariablenUi : Ω → R, i ∈ I, heißenunabhängig, falls die Ereignisse

Ui ≤ yi, i ∈ I, für alle yi ∈ R unabhängig sind.

Ein Zufallszahlengeneratorsimuliert Stichprobenu1 = U1(ω), u2 = U2(ω), . . . von auf[0, 1]

gleichverteilten unabhängigen Zufallsvariablen. Wie erzeugt man daraus Stichproben von diskre-

ten Verteilungen?

Das direkte Verfahren

SeiS = a1, a2, . . . endlich oder abzählbar unendlich, undµ eine Wahrscheinlichkeitsverteilung

aufS mit Gewichtenpi = p(ai). Wir setzen

sn :=n∑

i=1

pi, n ∈ N, »kumulative Verteilungsfunktion«.

SeiU : Ω → [0, 1) eine gleichverteilte Zufallsvariable. Wir setzen

X(ω) := ai, falls si−1 < U(ω) ≤ si, i ∈ N.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 73: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.5. SIMULATIONSVERFAHREN 73

Lemma 2.11.FallsU ∼ Unif[0, 1), gilt X ∼ µ.

Beweis.Für allei ∈ N gilt:

P [X = ai] = P [si−1 < U ≤ si] = P [U ≤ si]− P [U ≤ si−1] = si − si−1 = pi.

Algorithmus 2.12 (Direkte Simulation einer diskreten Verteilung).INPUT: Gewichtep1, p2, . . . ,

OUTPUT: Pseudozufallsstichprobex vonµ.

n := 1

s := p1

erzeuge Zufallszahlu ∼ Unif[0, 1)

while u > s do

n := n+ 1

s := s+ pn

end while

return x := an

Bemerkung. a) Die mittlere Anzahl von Schritten des Algorithmus ist∞∑

n=1

n pn = Erwartungswert von Wahrscheinlichkeitsverteilung(pn) aufN.

b) Für große ZustandsräumeS ist das direkte Verfahren oft nicht praktikabel, siehe Übung.

Acceptance-Rejection-Verfahren

Sei S eine endliche oder abzählbare Menge,µ eine Wahrscheinlichkeitsverteilung aufS mit

Massenfunktionp(x), undν eine Wahrscheinlichkeitsverteilung aufS mit Massenfunktionq(x).

Angenommen, wir können unabhängige Stichproben vonν erzeugen. Wie können wir daraus

Stichproben vonµ erhalten? IDEE: Erzeuge Stichprobex von ν, akzeptiere diese mit Wahr-

scheinlichkeit proportional zup(x)q(x)

, sonst verwerfe die Stichprobe und wiederhole.

ANNAHME :

es gibt einc ∈ [1,∞) : p(x) ≤ c q(x) für allex ∈ S.

Aus der Annahme folgt:p(x)

c q(x)≤ 1 für allex ∈ S,

d.h. wir könnenp(x)c q(x)

alsAkzeptanzwahrscheinlichkeitwählen.

Universität Bonn Wintersemester 2009/2010

Page 74: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

74 KAPITEL 2. BEDINGTE WAHRSCHEINLICHKEITEN UND UNABHÄNGIGKEIT

Algorithmus 2.13 (Acceptance-Rejection-Verfahren).INPUT: Gewichtep(y), q(y), c (y ∈ S),

OUTPUT: Stichprobex vonµ.

repeat

erzeuge Stichprobex ∼ ν

erzeuge Stichprobeu ∼ Unif[0, 1]

until p(x)c q(x)

≥ u akzeptiere mit Wahrscheinlichkeitp(x)c q(x)

return x

ANALYSE DES ALGORITHMUS

Für die verwendeten Zufallsvariablen gilt:

X1, X2, . . . ∼ ν, (Vorschläge),

U1, U2, . . . ∼ Unif[0, 1].

Es gilt Unabhängigkeit, d.h.

P [X1 = a1, . . . , Xn = an, U1 ≤ y1, . . . , Un ≤ qn] =n∏

i=1

P [Xi = ai] ·n∏

i=1

P [Ui ≤ yi]

für allen ∈ N, ai ∈ S undyi ∈ R.

Seien

T = minn ∈ N

∣∣ p(Xn)c q(Xn)

≥ Un

die »Akzeptanzzeit«, und

XT (ω) = XT (ω)(ω) die ausgegebene Stichprobe.

des Acceptance-Rejection-Verfahrens. Wir erhalten:

Satz 2.14. i) T ist geometrisch verteiltmit Parameter1/c,

ii) XT ∼ µ.

Bemerkung. Insbesondere ist die mittlere Anzahl von Schritten bis Akzeptanz:

E[T ] = c.

Beweis. i) Sei

An :=

p(Xn)

c q(Xn)≥ Un

.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 75: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

2.5. SIMULATIONSVERFAHREN 75

Aus der Unabhängigkeit der ZufallsvariablenX1, U1, X2, U2, . . . folgt, dass auch die Er-

eignisseA1, A2, . . . unabhängig sind. Dies wird in der Vorlesung »Einführung in die Wahr-

scheinlichkeitstheorie« bewiesen. Zudem gilt wegen der Unabhängigkeit vonXn undUn:

P [An] =∑

a∈SP

[Un ≤ p(a)

c q(a)

∩ Xn = a

]

=∑

a∈SP

[Un ≤ p(a)

c q(a)

]· P [Xn = a]

=∑

a∈S

p(a)

c q(a)· q(a) = 1

c.

Also ist

T (ω) = minn ∈ N | ω ∈ An

geometrisch verteilt mit Parameter1/c.

ii)

P [XT = a] =∞∑

n=1

P [XT = a ∩ T = n]

=∞∑

n=1

P [Xn = a ∩ An ∩ AC1 ∩ . . . AC

n−1]

=∞∑

n=1

P [Xn = a ∩p(a)

c q(a)≥ Un

∩ AC

1 ∩ . . . ACn−1]

=∞∑

n=1

q(a)p(a)

c q(a)

(1− 1

c

)n−1

=p(a)

c

∞∑

n=1

(1− 1

c

)n−1

=p(a)

c

1

1− (1− 1c)= p(a).

Universität Bonn Wintersemester 2009/2010

Page 76: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 3

Konvergenzsätze und Monte Carlo

Verfahren

Seiµ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren MengeS, undf : S → R eine

reellwertige Zufallsvariable. Angenommen, wir wollen denErwartungswert

θ := Eµ[f ] =∑

x∈Sf(x)µ(x)

berechnen, aber die MengeS ist zu groß, um die Summe direkt auszuführen. In einemMonte

Carlo-Verfahren simuliert man eine große Anzahl unabhängiger StichprobenX1(ω), . . . , Xn(ω)

vonµ, und approximiert den Erwartungswertθ durch denMonte Carlo-Schätzer

θn(ω) :=1

n

n∑

i=1

f(Xi(ω)).

Wir wollen nun Methoden entwickeln, mit denen der Approximationsfehler|θn − θ| abgeschätzt

werden kann, und die Asymptotik des Approximationsfehlersfür n → ∞ untersuchen. Nach

dem Transformationssatz (1.7) und der Linearität des Erwartungswerts (1.8) gilt:

E[θn] =1

n

n∑

i=1

E[f(Xi)] =1

n

n∑

i=1

x∈Sf(x)µ(x) = Eµ[f ] = θ,

d.h.θn ist einerwartungstreuer Schätzer fürθ. Der mittlere quadratische Fehler (»MSE« – mean

squared error) des Schätzers ist daher:

MSE= E[|θn − θ|2] = E[|θn − E[θn]|2].

76

Page 77: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.1. VARIANZ UND KOVARIANZ 77

3.1 Varianz und Kovarianz

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum undX : Ω → S eine Zufallsvariable auf(Ω,A, P ),so dassE[|X|] endlich ist.

Definition.

Var(X) := E[(X − E[X])2

]

heißtVarianzvonX und liegt in[0,∞].

σ(X) :=√Var(X)

heißtStandardabweichungvonX.

Die Varianz bzw. Standardabweichung kann als Kennzahl für die Größe der Fluktuationen (Streu-

ung) der ZufallsvariablenX um den ErwartungswertE[X] und damit als Maß für das Risiko bei

Prognose des AusgangsX(ω) durchE[X] interpretiert werden.

Bemerkung. (a) Die Varianz hängt nur von der Verteilung vonX ab:

Var(X) =∑

a∈S(a−m)2 pX(a), wobei m = E[X] =

a∈Sa pX(a).

(b) Es gilt

Var(X) = 0 genau dann, wenn P [X = E[X]] = 1.

Bemerkung (Rechenregeln). i)

Var(X) = E[X2]− E[X]2.

Insbesondere ist die Varianz von X genau dann endlich, wennE[X2] endlich ist.

ii)

Var(aX + b) = Var(aX) = a2Var(X) für allea, b ∈ R.

Beweis. i) Nach der Linearität des Erwartungswerts gilt

Var(X) = E[X2 − 2X · E[X] + E[X]2

]= E

[X2]− E[X]2.

ii) Wiederholte Anwendung der Linearität des Erwartungswerts liefert

Var(aX + b) = E[(aX + b− E[aX + b])2

]= E

[(aX − E[aX])2

]= a2 Var(X).

Universität Bonn Wintersemester 2009/2010

Page 78: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

78 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Beispiele. a) SeiX = 1 mit Wahrscheinlichkeitp undX = 0 mit Wahrscheinlichkeit1− p.

Dann ist der Erwartungswert vonX:

E[X2]= E[X] = p,

und die Varianz vonX:

Var(X) = p− p2 = p (1− p).

b) SeiT geometrisch verteilt (T ∼ Geom(p)) mit Parameterp ∈ (0, 1]. Der Erwartungswert

vonT beträgt:

E[T ] =∞∑

k=1

k (1− p)k−1 p = −p p

dp

∞∑

k=0

(1− p)k = −p p

dp

1

p=

1

p.

Außerdem gilt:

E[T (T + 1)] =∞∑

k=1

k (k + 1) (1− p)k−1 p

=∞∑

k=1

k (k − 1) (1− p)k−2 p = pd2

dp2

∞∑

k=0

(1− p)k =2

p2.

Die Varianz vonT ist somit:

Var(T ) = E[T 2]− E[T ]2 =

2

p2− 1

p− 1

p2=

1− p

p2.

Definition.

L2(Ω,A, P ) := X : Ω → R | X ist diskrete Zufallsvariable mitE[X2]<∞

Lemma 3.1. i) Für ZufallsvariablenX, Y ∈ L2 gilt:

E[|XY |] ≤√E [X2]

√E [Y 2] <∞.

ii) L2 ist ein Vektorraum, und

(X, Y )L2 := E[X Y ]

ist einepositiv semidefinite symmetrische Bilinearform(»Skalarprodukt«) aufL2.

Bemerkung. i) Insbesondere gilt dieCauchy-Schwarz-Ungleichung:

E[X Y ]2 ≤ E[|X Y |] ≤ E[X2]E[Y 2]

für alleX, Y ∈ L2.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 79: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.1. VARIANZ UND KOVARIANZ 79

ii) Für eine ZufallsvariableX ∈ L2 gilt

E[|X|] ≤√E [X2]

√E [12] <∞.

Beweis. i) Nach der Cauchy-Schwarz-Ungleichung gilt:

E[|X Y |] =∑

a∈X(Ω)

b∈Y (Ω)

|a b|P [X = a, Y = b]

=∑

a∈X(Ω)

b∈Y (Ω)

|a|√P [X = a, Y = b] |b|

√P [X = a, Y = b]

≤√∑

a,b

a2 P [X = a, Y = b]

√∑

a,b

b2 P [X = a, Y = b]

=

√∑

a

a2 P [X = a]

√∑

b

b2 P [Y = b]

=√E [X2]

√E [Y 2].

ii) SeienX, Y ∈ L2, a ∈ R. Dann istaX + Y eine diskrete Zufallsvariable, für die nach

Monotonie und der Linearität des Erwartungswerts gilt:

E[(aX + Y )2

]= E

[a2X2 + 2aX Y + Y 2

]≤ 2a2E

[X2]+ 2E

[Y 2]<∞.

(X, Y )L2 = E[X Y ] ist bilinear, daE[ • ] linear und symmetrisch ist, und positiv semide-

finit, aufgrund von:

(X,X)L2 = E[X2]≥ 0 für alleX ∈ L2.

Definition. SeienX, Y ∈ L2.

i)

Cov(X, Y ) := E[(X − E[X]) (Y − E[Y ])] = E[X Y ]− E[X]E[Y ]

heißtKovarianzvonX undY .

ii) Gilt σ(X), σ(Y ) 6= 0, so heißt

(X, Y ) :=Cov(X, Y )

σ(X) σ(Y )

KorrelationskoeffizientvonX undY .

Universität Bonn Wintersemester 2009/2010

Page 80: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

80 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

iii) X undY heißenunkorreliert, fallsCov(X, Y ) = 0, d.h.

E[X Y ] = E[X] · E[Y ].

Bemerkung. Cov : L2 × L2 → R ist eine symmetrische Bilinearform mit:

Cov(X,X) = Var(X) ≥ 0 für alleX ∈ L2.

Satz 3.2(Zusammenhang von Unabhängigkeit und Unkorreliertheit). SeienX : Ω → S und

Y : Ω → T diskrete Zufallsvariablen auf(Ω,A, P ). Dann sind äquivalent:

(i) X undY sind unabhängig, d.h.

P [X ∈ A, Y ∈ B] = P [X ∈ A]P [Y ∈ B] für alleA,B ∈ A.

(ii) f(X) und g(Y ) sind unkorreliert für alle Funktionenf : S → R und g : T → R mit

f(X), g(Y ) ∈ L2.

Beweis. • (i)⇒ (ii): SeienX undY unabhängig, dann gilt:

E[f(X)g(Y )] =∑

a∈S

b∈Tf(a) g(b)P [X = a, Y = b]

=∑

a∈Sf(a)P [X = a]

b∈Tg(b)P [Y = b] = E[f(X)]E[g(Y )]

Somit folgt:

Cov(f(X), g(Y )) = 0.

• (ii)⇒ (i): Aus (ii) folgt für alle a ∈ S, b ∈ T :

P [X = a, Y = b] = E[Ia(X) Ib(Y )]

= E[Ia(X)]E[Ib(Y )] = P [X = a]P [Y = b].

Beispiel. SeiX = +1, 0,−1 jeweils mit Wahrscheinlichkeit13, undY = X2. Dann sindX und

Y nicht unabhängig, aber unkorreliert:

E[X Y ] = 0 = E[X]E[Y ].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 81: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.2. DAS SCHWACHE GESETZ DER GROSSEN ZAHLEN 81

Satz 3.3(Varianz von Summen). Für X1, . . . , Xn ∈ L2 gilt:

Var(X1 + · · ·+Xn) =n∑

i=1

Var(Xi) + 2n∑

i,j=1

i<j

Cov(Xi, Xj).

FallsX1, . . . , Xn unkorreliert sind, folgt insbesondere:

Var(X1 + · · ·+Xn) =n∑

i=1

Var(Xi).

Beweis.Nach Bilinearität der Kovarianz gilt:

Var(X1 + · · ·+Xn) = Cov(n∑

i=1

Xi,

n∑

j=1

Xj)

=n∑

i,j=1

Cov(Xi, Xj) =n∑

i=1

Var(Xi) + 2n∑

i,j=1

i<j

Cov(Xi, Xj).

Beispiel(Varianz der Binomialverteilung). Sei

Sn =n∑

i=1

Xi, Xi =

1 mit Wahrscheinlichkeitp,

0 mit Wahrscheinlichkeit1− p,

mit unabhängigen ZufallsvariablenXi. Mit Satz 3.2 folgt:

Var(Sn) =n∑

i=1

Var(Xi) = n p (1− p).

Analog gilt für den Random Walk:

σ(Sn) = O(√n).

3.2 Das schwache Gesetz der großen Zahlen

SeienX1, X2, . . . : Ω → R Zufallsvariablen, die auf einem gemeinsamen Wahrscheinlichkeits-

raum (Ω,A, P ) definiert sind (z.B. wiederholte Ausführungen desselben Zufallsexperiments),

und sei

Sn(ω) = X1(ω) + · · ·+Xn(ω).

Universität Bonn Wintersemester 2009/2010

Page 82: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

82 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Wir betrachten die empirischen Mittelwerte

Sn(ω)

n=

X1(ω) + . . .+Xn(ω)

n,

d.h. die arithmetischen Mittel der erstenn BeobachtungswerteX1(ω), . . . , Xn(ω). Gesetze der

großen Zahlen besagen, dass sich unter geeigneten Voraussetzungen die zufälligen „Fluktuatio-

nen“ derXi für großen wegmitteln, d.h. in einem noch zu präzisierenden Sinn gilt

Sn(ω)

n≈ E

[Sn

n

]für großen,

bzw.Sn

n− E[Sn]

n

n→∞−→ 0.

Ist insbesondereE[Xi] = m für alle i, dann sollten die empirischen MittelwerteSn/n gegenm

konvergieren. Das folgende einfache Beispiel zeigt, dass wir ohne weitere Voraussetzungen an

die ZufallsvariablenXi kein Gesetz der großen Zahlen erwarten können.

Beispiel. Sind die ZufallsvariablenXi alle gleich, d.h.X1 = X2 = . . ., so giltSn

n= X1 für alle

n. Es gibt also kein Wegmitteln des Zufalls, somit kein Gesetzgroßer Zahlen.

Andererseits erwartet man ein Wegmitteln des Zufalls beiunabhängigenWiederholungen des-

selben Zufallsexperiments.

Wir werden nun zeigen, dass sogar Unkorreliertheit und beschränkte Varianzen der Zufallsva-

riablenXi genügen, um ein Gesetz der großen Zahlen zu erhalten. Dazu nehmen wir an, dass

X1, X2, . . . diskrete Zufallsvariablen ausL2(Ω,A, P ) sind, die folgende Voraussetzungen erfül-

len:

ANNAHMEN :

(i) Die Zufallsvariablen sind unkorreliert:

Cov(Xi, Xj) = 0 für alle i 6= j.

(ii) Die Varianzen sind beschränkt:

v := supi∈N

Var(Xi) < ∞.

Es wirdkeine Unabhängigkeit vorausgesetzt!

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 83: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.3. MONTE CARLO-VERFAHREN 83

Satz 3.4(Schwaches Gesetz der großen Zahlen). Unter den Voraussetzungen (i) und (ii) gilt für

alle ε > 0:

P

[∣∣∣∣Sn

n− E[Sn]

n

∣∣∣∣ ≥ ε

]≤ v

ε2 n−→0 für n→ ∞.

Gilt außerdemE[Xi] = m für alle i ∈ N, folgt E[Sn]n

= m und Sn

nkonvergiert stochastischgegen

m.

Zum Beweis benötigen wir:

Lemma 3.5(Cebyšev-Ungleichung). Für X ∈ L2 undc > 0 gilt:

P [|X − E[X]| ≥ c] ≤ 1

c2Var(X).

Beweis.Es gilt

I|X−E[X]|≥c ≤1

c2(X − E[X])2

1c2(X − E[X])2 ist überall nichtnegativ und≥ 1 auf |X − E[X]| ≥ c. Durch Bilden des

Erwartungswerts folgt:

P [|X − E[X]| ≥ c] = E[I|X−E[X]|≥c

]≤ E[

1

c2(X − E[X])2] =

1

c2E[(X − E[X])2

]

Beweis von Satz 3.4.Nach derCebyšev-Ungleichung und den Annahmen (i) und (ii) gilt fürε >

0:

P

[∣∣∣∣Sn

n− E[Sn]

n

∣∣∣∣ ≥ ε

]≤ 1

ε2Var

(Sn

n

)=

1

n2 ε2Var(

n∑

i=1

Xi) =1

n2 ε2

n∑

i=1

Var(Xi) ≤v

n ε2.

Bemerkung (Starkes Gesetz der großen Zahlen).

Sn(ω)

n−→ m mit Wahrscheinlichkeit1.

Dies wird in der Vorlesung »Einführung in die Wahrscheinlichkeitstheorie« bewiesen.

3.3 Monte Carlo-Verfahren

SeiS eine abzählbare Menge undµ eine Wahrscheinlichkeitsverteilung aufS. Wir bezeichnen

im folgenden die Massenfunktion ebenfalls mitµ, d.h.

µ(x) := µ(x).

Universität Bonn Wintersemester 2009/2010

Page 84: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

84 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Seif : S → R eine reellwertige Funktion mit:

Eµ[f2] =

x∈Sf(x)2 µ(x) <∞.

Wir wollen den Erwartungswert

θ := Eµ[f ] =∑

x∈Sf(x)µ(x)

näherungsweise berechnen bzw. schätzen. Dazu approximieren wir θ durch dieMonte Carlo-

Schätzer

θn :=1

n

n∑

i=1

f(Xi), n ∈ N,

wobeiX1, X2, . . . unabhängige Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P )mit Verteilungµ sind. Nach der Abschätzung aus dem Gesetz der großen Zahlen ergibt sich:

Korollar.

P [|θn − θ| ≥ ε] ≤ 1

n ε2Varµ[f ] −→ 0 für n→ ∞,

d.h. θn ist einekonsistente Schätzfolgefür θ.

Beweis.Da die ZufallsvariablenXi unabhängig sind, sindf(Xi), i ∈ N, unkorreliert. Zudem gilt

E[f(Xi)] =∑

x∈Sf(x)µ(x) = Eµ[f ] = θ, und

Var[f(Xi)] =∑

x∈S(f(x)− θ)2 µ(x) = Varµ[f ] <∞

nach Voraussetzung. Die Behauptung folgt nun aus Satz 3.4.

Bemerkung. a) θn ist einerwartungstreuer Schätzerfür θ:

E[θn] =1

n

n∑

i=1

E[f(Xi)] = Eµ[f ] = θ.

b) Für den mittleren quadratischen Fehler des Schätzers ergibt sich nach a):

E[|θn − θ|2

]= Var(θn) =

1

nVarµ[f ].

Insbesondere gilt:

‖θn − θ‖L2 =

√E[|θn − θ|2] = O(1/

√n).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 85: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.3. MONTE CARLO-VERFAHREN 85

Beispiele. a) MONTE CARLO-SCHÄTZUNG VON θ =∫[0,1]d

f(x) dx:

Das mehrdimensionale Integral ist folgendermaßen definiert:

[0,1]df(x) dx :=

∫ 1

0

. . .

∫ 1

0

f(x1, . . . , xd) dx1 . . . dxd.

Der Wert vonθ kann mit dem folgenden Algorithmus geschätzt werden.

erzeuge Pseudozufallszahlenu1, u2, . . . , und ∈ (0, 1)

x(1) := (u1, . . . , ud)

x(2) := (ud+1, . . . , u2d)

. . .

x(n) := (u(n−1)d+1, . . . , und)

θn = 1n

∑ni=1 f(x

(i)) ist Schätzwert fürθ.

b) MONTE CARLO-SCHÄTZUNG VON WAHRSCHEINLICHKEITEN:

SeiS abzählbar,B ⊆ S. Wir suchen:

p = µ(B) = Eµ[IB]

Ein Monte Carlo-Schätzer ist

pn =1

n

n∑

i=1

IB(Xi), Xi unabhängig mit Verteilungµ.

FEHLERKONTROLLE:

• Mithilfe der Cebyšev-Ungleichung (Lemma 3.5) ergibt sich:

P [|pn − p| ≥ ε] ≤ 1

ε2Var(pn) =

1

nε2Varµ(IB) =

p (1− p)

nε2≤ 1

4nε2.

Gilt beispielsweisen ≥ 5ε2

, dann erhalten wir:

P [p /∈ (pn − ε, pn + ε)] ≤ 5%, unabhängig vonp,

d.h. das zufällige Intervall(pn − ε, pn + ε) ist ein95%-Konfidenzintervall für den

gesuchten Wertp.

• Mithilfe der Bernstein-Ungleichung (Chernoff-Abschätzung) erhalten wir fürδ > 0

undSn :=∑n

i=1 IB(Xi):

P [p /∈ (pn−ε, pn+ε)] = P[∣∣ 1nSn−p

∣∣ ≥ ε]≤ 2e−2nε2 ≤ δ, falls n ≥ log(2/δ)

2ε2.

Universität Bonn Wintersemester 2009/2010

Page 86: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

86 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Für kleineδ ist die erhaltene Bedingung ann wesentlich schwächer als eine entspre-

chende Bedingung, die man durch Anwenden derCebyšev-Ungleichung erhält. Für

denrelativen Schätzfehler(pn − p)/p ergibt sich:

P [|pn − p| ≥ εp] ≤ 2e−2nε2p2 ≤ δ, falls n ≥ log(2/δ)

2ε2p2.

Die benötigte Anzahl von Stichproben für eine(ε, δ)-Approximation vonp ist al-

so polynomiell inε, log(1/δ) und 1/p. Mit einer etwas modifizierten Abschätzung

kann man statt der OrdnungO( 1p2) sogarO(1

p) erhalten, sieheMitzenmacher und

Upfal: »Probability and Computing«.

Beispiel. Wie viele Stichproben sind nötig, damit derrelative Fehler mit 95% Wahrscheinlich-

keit unterhalb von10% liegt? Mithilfe derCebyšev-Ungleichung (Lemma 3.5) ergibt sich:

P [|pn − p| ≥ 0, 1 p] ≤ p (1− p)

n (0, 1 p)2=

100 (1− p)

n p≤ 0, 05, falls n ≥ 2000 (1− p)

p.

So sind zum Beispiel fürp = 10−5 ungefährn ≈ 2 108 Stichproben ausreichend. Dies ist nur ei-

ne obere Schranke, aber man kann zeigen, dass die tatsächlich benötigte Stichprobenzahl immer

noch sehr groß ist. Für solch kleine Wahrscheinlichkeiten ist das einfache Monte Carlo-Verfahren

ineffektiv, da die meisten Summanden vonθn dann gleich0 sind. Wir brauchen daher ein alter-

natives Schätzverfahren mit geringerer Varianz.

Varianzreduktion durch Importance Sampling

Seiν eine weitere Wahrscheinlichkeitsverteilung aufS mit Massenfunktionν(x) = ν(x). Es

gelteν(x) > 0 für allex ∈ S. Dann können wir den gesuchten Wertθ auch als Erwartungswert

bzgl.ν ausdrücken:

θ = Eµ[f ] =∑

x∈Sf(x)µ(x) =

x∈Sf(x)

µ(x)

ν(x)ν(x) = Eν [f ],

wobei

(x) =µ(x)

ν(x)

der Quotient der beiden Massenfunktionen ist. Ein alternativer Monte Carlo-Schätzer fürθ ist

daher

θn =1

n

n∑

i=1

f(Yi) (Yi),

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 87: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.3. MONTE CARLO-VERFAHREN 87

v we2

e1

e3

Abbildung 3.1: kleiner Beispielgraph für Perkolation

wobei dieYi unabhängige Zufallsvariablen mit Verteilungν sind. Auchθn ist erwartungstreu:

Eν [θn] = Eν [f ] = θ.

Für die Varianz erhalten wir:

Varν(θn) =1

nVarν(f ) =

1

n

(∑

x∈Sf(x)2(x)2ν(x)− θ2

).

Bei geeigneter Wahl vonν kann die Varianz vonθn deutlich kleiner sein als die des Schätzersθn.

Faustregel für eine gute Wahl vonν : ν(x) sollte groß sein, wenn|f(x)| groß ist.

»Importance Sampling«: Mehr Gewicht für die wichtigenx!

Beispiel(Zuverlässigkeit von Netzwerken; Perkolation). Gegeben sei ein endlicher Graph(V,E),

wobeiV die Menge der Knoten undE die Menge der Kanten bezeichnet. Wir nehmen an, dass

die Kanten unabhängig voneinander mit Wahrscheinlichkeitε ≪ 1 ausfallen. Seienv, w ∈ E

vorgegebene Knoten. Wir wollen die Wahrscheinlichkeit

p = P [»v nicht verbunden mitw durch intakte Kanten«]

approximativ berechnen. Sei

S = 0, 1E = (xe)e∈E | xe ∈ 0, 1

die Menge der Konfigurationen von intakten(xl = 0) bzw. defekten(xl = 1) Kanten undµ die

Wahrscheinlichkeitsverteilung aufS mit Massenfunktion

µ(x) = εk(x)(1− ε)|E|−k(x), k(x) =∑

e∈Exe.

Universität Bonn Wintersemester 2009/2010

Page 88: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

88 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Sei

A = x ∈ S | v, w nicht verbunden durch Kantene mit xe = 0.Dann ist

p = µ(A) = Eµ[IA].

Der »klassische Monte Carlo-Schätzer« fürp ist

pn =1

n

n∑

i=1

IA(Xi), Xi unabhängig mit Verteilungµ.

Fordern wir nun zum Beispiel

σ(pn) =

√p(1− p)

n

!

≤ p

10,

dann benötigen wir eine Stichprobenanzahl

n ≥ 100 (1− p)

p,

um diese Bedingung zu erfüllen. Die Größenordnung vonp für das in der obigen Graphik darge-

stellte Netzwerk mitε = 1% lässt sich wie folgt abschätzen:

10−6 = µ(»e1, e2, e3 versagen«) ≤ p ≤ µ(»mindestens 3 Kanten versagen«)

=

(22

3

)· 10−6 ≈ 1, 5 · 10−3.

Es sind also eventuell mehrere Millionen Stichproben nötig!

Um die benötigte Stichprobenanzahl zu reduzieren, wenden wir ein Importance Sampling-Verfahren

an. Sei

ν(x) = t−k(x) (1− t)|E|−k(x), k(x) =∑

e∈Exe,

die Verteilung bei Ausfallwahrscheinlichkeitt := 322

. Da unterν im Schnitt 3 Kanten defekt sind,

ist der Ausfall der Verbindung bzgl.ν nicht mehr selten. Für den Schätzer

pn =1

n

n∑

i=1

IA(Yi)µ(Yi)

ν(Yi), Yi unabhängig mit Verteilungν,

erhalten wir im Beispiel von oben:

Var(pn) =1

n

(∑

x∈SIA(x)

2µ(x)2

ν(x)− p2

)

≤ 1

n

22∑

k=3

(|E|k

) (ε2

t

)k ((1− ε)2

1− t

)|E|−k

≤ 0, 0053p

n.

Diese Abschätzung ist etwa um den Faktor 200 besser als die für den einfachen Monte Carlo-

Schätzer erhaltene Abschätzung der Varianz.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 89: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 89

3.4 Gleichgewichte von Markov-Ketten

SeiS eine abzählbare Menge,ν eine Wahrscheinlichkeitsverteilung aufS, undp(x, y), (x, y ∈S), einestochastische Matrixbzw.Übergangsmatrix, d.h.p(x, y) erfüllt die folgenden Bedin-

gungen:

(i) p(x, y) ≥ 0 für allex, y ∈ S,

(ii)∑

y∈S p(x, y) = 1 für allex ∈ S.

Hier und im folgenden bezeichnen wir diskrete Wahrscheinlichkeitsverteilungen und die entspre-

chenden Massenfunktionen mit demselben Buchstaben, d.h.ν(x) := ν(x).

Definition. Eine FolgeX0, X1, . . . : Ω → S von Zufallsvariablen auf einem Wahrscheinlichkeits-

raum(Ω,A, P ) heißtzeitlich homogene Markov-Kettemit Startverteilungν und Übergangsma-

trix p, falls die folgenden Bedingungen erfüllt sind:

(i) Für alle x0 ∈ S gilt:

P [X0 = x0] = ν(x0)

(ii) Für alle n ∈ N undx0, . . . , xn+1 ∈ S mit P [X0 = x0, . . . , Xn = xn] 6= 0 gilt:

P [Xn+1 = xn+1 | X0 = x0, . . . , Xn = xn] = p(xn, xn+1).

Bemerkung. Die Bedingungen (i) und (ii) sind äquivalent zu:

P [X0 = x0, . . . , Xn = xn] = ν(x0) p(x0, x1) · · · p(xn−1, xn) für allen ∈ N, xi ∈ S.

Gleichgewichte und Stationarität

Für eine Wahrscheinlichkeitsverteilungµ mit Massenfunktionµ(x) = µ(x) und eine stochas-

tische Matrixp aufS setzen wir

(µ p)(y) :=∑

x∈Sµ(x) p(x, y), (y ∈ S),

d.h.µ p ist der Zeilenvektor, den wir erhalten, wenn wir den Zeilenvektor(µ(x))x∈S von links an

die Matrixp multiplizieren.

Lemma 3.6. i) Die Verteilung zur Zeitn einer Markov-Kette mit Startverteilungν und Über-

gangsmatrixp ist ν pn.

Universität Bonn Wintersemester 2009/2010

Page 90: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

90 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

ii) Gilt ν p = ν, dann folgtXn ∼ ν für alle n ∈ N. (»Stationarität«)

Beweis. i) Wie im Beweis von Satz 2.4 erhalten wir

P [Xn = y | X0 = x] = pn(x, y)

für allen ∈ N undx, y ∈ S mit P [X0 = x] 6= 0, und damit:

P [Xn = y] =∑

x∈SP [X0=x]6=0

P [Xn = y | X0 = x]P [X0 = x]

=∑

x∈Sν(x) 6=0

pn(x, y) ν(x) = (ν pn)(y).

ii) Aus ν p = ν folgt ν pn = ν für allen ∈ N.

Definition. i) Eine Wahrscheinlichkeitsverteilungµ auf S heißt Gleichgewichtsverteilung

(oderstationäre Verteilung) der Übergangsmatrixp, fallsµ p = µ, d.h. falls:

x∈Sµ(x) p(x, y) = µ(y) für alle y ∈ S.

ii) µ erfüllt dieDetailed Balance-Bedingungbzgl. der Übergangsmatrixp, falls gilt:

µ(x) p(x, y) = µ(y) p(y, x) für alle x, y ∈ S (3.4.1)

Satz 3.7.Erfüllt µ die Detailed Balance-Bedingung(3.4.1), dann istµ eine Gleichgewichtsver-

teilung vonp.

Beweis.Aus der Detailed Balance-Bedingung folgt:

x∈Sµ(x) p(x, y) =

x∈Sµ(y) p(y, x) = µ(y).

Bemerkung. Bei Startverteilungµ gilt:

µ(x) p(x, y) = P [X0 = x,X1 = y], »Fluss vonx nachy«.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 91: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 91

DETAILED BALANCE: µ(x) p(x, y) = µ(y) p(y, x)

»Fluss vonx nachy« = »Fluss vony nachx«

GLEICHGEWICHT:∑

x∈S µ(x) p(x, y) =∑

x∈S µ(y) p(y, x)

»Gesamter Fluss nachy« »Gesamter Fluss vony«.

Beispiele. a) MARKOV-KETTE AUF S = 0, 1:

Seienα, β ∈ [0, 1] und

p =

(1− α α

β 1− β

).

Dann ist die Gleichgewichtsbedingungµ p = µ äquivalent zu den folgenden Gleichungen:

µ(0) = µ(0) (1− α) + µ(1) β,

µ(1) = µ(0)α + µ(1) (1− β).

Daµ eine Wahrscheinlichkeitsverteilung ist, sind beide Gleichungen äquivalent zu

β (1− µ(0)) = αµ(0).

Die letzte Gleichung ist äquivalent zur Detailed Balance-Bedingung (3.4.1). Fallsα+β > 0

gilt, ist µ =(

βα+β

, αα+β

)die eindeutige Gleichgewichtsverteilung und erfüllt die Detailed

Balance-Bedingung. Fallsα = β = 0 gilt, ist jede Wahrscheinlichkeitsverteilungµ eine

Gleichgewichtsverteilung mit Detailed Balance-Bedingung.

b) ZYKLISCHER RANDOM WALK : SeiS = Z/nZ ein diskreter Kreis, und

p(k, k + 1) = p, p(k, k − 1) = 1− p.

Die Gleichverteilungµ(x) = 1n

ist ein Gleichgewicht. Die Detailed Balance-Bedingung ist

dagegen nur fürp = 12, d.h. im symmetrischen Fall, erfüllt.

c) EHRENFEST-MODELL:

SeiS = 0, 1, . . . , n,

p(k, k − 1) =k

n, p(k, k + 1) =

n− k

n.

Universität Bonn Wintersemester 2009/2010

Page 92: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

92 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Man kann erwarten, dass sich im Gleichgewicht jede Kugel mitWahrscheinlichkeit12

in

jeder der beiden Urnen befindet. Tatsächlich erfüllt die Binomialverteilungµ(k) =(nk

)2−n

mit Parameterp = 12

die Detailed Balance-Bedingung:

µ(k − 1) p(k − 1, k) = µ(k) p(k, k − 1) k = 1, . . . , n

ist äquivalent zu

2−n n!

(k − 1)!(n− (k − 1))!

n− (k − 1)

n= 2−n n!

k!(n− k)!

k

nk = 1, . . . , n

d) RANDOM WALKS AUF GRAPHEN:

Sei(V,E) ein endlicher Graph,S = V die Menge der Knoten.

• Sei

p(x, y) =

1deg(x)

falls x, y ∈ E,

0 sonst.

Die Detailed Balance-Bedingung lautet in diesem Fall:

µ(x) p(x, y) = µ(y) p(y, x).

Sie ist erfüllt, falls

µ(x) = c deg(x)

gilt, wobeic eine Konstante ist. Damitµ eine Wahrscheinlichkeitsverteilung ist, muss

c so gewählt werden, dass gilt:

x∈Bdeg(x) = 2 |E|.

Somit ist die Gleichgewichtsverteilung:

µ(x) =deg(x)

2|E| .

• Sei := maxx∈V deg(x),

p(x, y) =

1 falls x, y ∈ E,

1− deg(x) sonst.

Es gilt p(x, y) = p(y, x) und somit ist die Gleichverteilung aufV die stationäre Ver-

teilung.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 93: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 93

Ist deg(x) konstant, dann stimmen die Random Walks in beiden Beispielen überein, und

die Gleichverteilung ist ein Gleichgewicht.

Im nächsten Abschnitt zeigen wir:

Satz(Konvergenzsatz für Markov-Ketten). IstS endlich, undp eine irreduzible und aperiodische

stochastische Matrix mit Gleichgewichtµ, dann gilt für alle Wahrscheinlichkeitsverteilungenν

aufS:

limn→∞

(ν pn)(x) = µ(x) für alle x ∈ S.

Aufgrund des Konvergenzsatzes können wir Stichproben von einer Wahrscheinlichkeitsvertei-

lung µ näherungsweise erzeugen, indem wir eine Markov-KetteXn mit Gleichgewichtµ simu-

lieren, und für großesn auswerten. Wie findet man eine Markov-Kette mit einer vorgegebenen

stationären Verteilung?

Metropolis-Algorithmus und Gibbs-Sampler

Die Metropolis-Kette

Sei q(x, y) eine symmetrische stochastische Matrix, d.h.q(x, y) = q(y, x) für alle x, y ∈ S.

Dann erfüllt die Gleichverteilung die Detailed Balance-Bedingung (3.4.1). Sei nunµ eine be-

liebige Wahrscheinlichkeitsverteilung aufS mit µ(x) > 0 für alle x ∈ S. Wie können wir die

Übergangsmatrixq so modifizieren, dass die Detailed Balance-Bedingung bzgl.µ erfüllt ist?

Algorithmus 3.8 (Metropolis-Algorithmus (Updatex→ y)). schlage Übergangx → y mit

Wahrscheinlichkeitq(x, y) vor

akzeptiere Übergang mit Wahrscheinlichkeitα(x, y) ∈ [0, 1]

sonst verwerfe Vorschlag und bleibe beix

ÜBERGANGSMATRIX:

p(x, y) :=

α(x, y) q(x, y) für y 6= x,

1−∑y 6=x α(x, y) q(x, y) für y = x.

Die Detailed Balance-Bedingung lautet:

µ(x)α(x, y) = µ(y)α(y, x) für allex, y ∈ S.

Sie ist äquivalent dazu, dass

b(x, y) := µ(x)α(x, y)

Universität Bonn Wintersemester 2009/2010

Page 94: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

94 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

symmetrisch inx undy ist. Was ist die größtmögliche Wahl vonb(x, y)?

Ausα(x, y) ≤ 1 folgen

b(x, y) ≤ µ(x),

b(x, y) = b(y, x) ≤ µ(y),

und somit

b(x, y) ≤ min(µ(x), µ(y)).

Der größtmögliche Wertb(x, y) = min(µ(x), µ(y)) entspricht gerade

α(x, y) = min(1,µ(y)

µ(x)

)=

1 falls µ(y) ≥ µ(x),

µ(y)µ(x)

falls µ(x) ≥ µ(y).

Definition. Die Markov-Kette mit Übergangsmatrix

p(x, y) = min

(1,µ(y)

µ(x)

)· q(x, y) für y 6= x

heißtMetropolis-Kettemit Vorschlagsverteilungq(x, y) und Gleichgewichtµ.

Satz 3.9.µ erfüllt die Detailed Balance-Bedingung bzgl.p.

Beweis.siehe oben.

Der Gibbs-Sampler

SeiS = S1 × · · · ×Sd ein endlicher Produktraum,µ(x1, . . . , xd) eine Wahrscheinlichkeitsvertei-

lung aufS und

µi(xi | x1, . . . , xi−1, xi+1, . . . , xd) :=µ(x1, . . . , xd)∑

z∈Siµ(x1, . . . , xi−1, z, xi+1, . . . , xd)

die bedingte Verteilung deri-ten Komponente gegeben die übrigen Komponenten.

Algorithmus 3.10 (Gibbs-Sampler (Updatex→ y)). y := x

for i := 1, . . . d do

updateyi ∼ µi( • | y1, . . . yi−1, yi+1, . . . , yd)

end for

return y

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 95: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.4. GLEICHGEWICHTE VON MARKOV-KETTEN 95

ÜBERGANGSMATRIX:

p = pd pd−1 · · · p1,

wobei

pi(x, y) =

µi(yi | y1, . . . , yi−1, yi+1, . . . , yd) falls yk = xk für allek 6= i,

0 sonst.

Satz 3.11. i) µ erfüllt die Detailed Balance-Bedingung bzgl.pi für alle i = 1, . . . , d.

ii) µ ist ein Gleichgewicht vonp.

Beweis. i) Der Beweis der ersten Aussage ist eine Übungsaufgabe.

ii) Nach der ersten Aussage istµ ein Gleichgewicht vonpi für alle i. Also gilt auch

µ p = µ pd pd−1 · · · p1 = µ.

Bemerkung. Zur Simulation vonYn, n ≥ 0, genügt es, die Massenfunktionµ(x) bis auf eine

multiplikative Konstante zu kennen:

ausµ(x) = C f(X) folgt

α(x, y) = min(1,f(y)

f(x)

)unabhängig vonC.

Beispiel(Rucksackproblem). Gegeben:

ω1, . . . , ωd ∈ R, »Gewichte«,

v1, . . . , vd ∈ R, »Werte«.

Rucksack mit maximalem Gewichtb > 0, packe soviel Wert wie möglich ein.

S = 0, 1d, alle Konfigurationen,

Sb = (z1, . . . , zd) ∈ S :∑d

i=1 ziwi ≤ b, zulässige Konfigurationen,

zi = 1 : i-ter Gegenstand im Rucksack.

RUCKSACKPROBLEM:

maximiereV (z) =∑d

i=1 zi vi unter Nebenbedingungz ∈ Sb.

Universität Bonn Wintersemester 2009/2010

Page 96: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

96 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Das Rucksackproblem istNP-vollständig, insbesondere ist keine Lösung inO(dk) Schritten für

eink ∈ N bekannt.

STOCHASTISCHERZUGANG: SIMULATED ANNEALING

Fürβ > 0 betrachten wir die Wahrscheinlichkeitsverteilung

µβ(z) =

1Zβeβ V (z) für z ∈ Sb,

0 für z ∈ S\Sb,

aufS, wobeiZβ =∑

z∈Sbeβ V (z) eine Konstante ist, dieµ zu einer Wahrscheinlichkeitsverteilung

normiert. Fürβ = 0 ist µβ die Gleichverteilung aufSb. Für β → ∞ konvergiertµβ gegen die

Gleichverteilung auf der Menge der globalen Maxima vonV , denn:

µβ(z) =eβ V (z)

=1∑

y∈Sbeβ (V (y)−V (z))

−→

0 falls V (z) 6= maxV,

1|y | V (y)=maxV | falls V (z) = maxV.

IDEE: Simuliere Stichprobez von µβ für β groß (β → ∞). Dann istV (z) wahrscheinlich

nahe dem Maximalwert.

METROPOLIS-ALGORITHMUS: Seix+ := max(x, 0) der Positivteil vonx. Wir wählen als

Vorschlagsmatrix die Übergangsmatrix

q(z, w) :=

1d

falls zi 6= wi für genau eini ∈ 1, . . . , d,0 sonst,

des Random Walks auf0, 1d. Für die Akzeptanzwahrscheinlichkeit ergibt sich

αβ(z, w) = min

(1,µβ(w)

µβ(z)

)=

e−β (V (z)−V (w)) für z, w ∈ Sb,

0 für z ∈ Sb, w /∈ Sb.

Der Vorschlagw wir also mit Wahrscheinlichkeit1 akzeptiert, wennV (w) ≥ V (z) gilt – andern-

falls wird der Vorschlag nur mit Wahrscheinlichkeitexp−β (V (z)− V (w)) akzeptiert.

Algorithmus 3.12 (Simulation einer Markov-Kette mit Gleichgewichtµβ). initialisierez(0) ∈Sb

for n = 1, 2, . . . do

z(n) := w := z(n−1)

erzeugei ∼ Unif1, . . . , dwi := 1− wi

if w ∈ Sb then

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 97: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.5. KONVERGENZ INS GLEICHGEWICHT 97

erzeugeu ∼ Unif(0, 1)

if u ≤ αβ(z, w) then

z(n) := w

end if

end if

end for

Algorithmus 3.13 (Simulated Annealing). Wie Algorithmus 3.12 aber mitβ = β(n) → ∞ für

n→ ∞.

Bemerkung. a) PHYSIKALISCHE INTERPRETATIONEN:

µβ ist die Verteilung im thermodynamischen Gleichgewicht fürdie EnergiefunktionH(z) =

−V (z) bei der TemperaturT = 1/β. Der Grenzwertβ → ∞ entsprichtT → 0 (»simulier-

tes Abkühlen«).

b) Die beim Simulated Annealing-Verfahren simulierte zeitlich inhomogene Markov-Kette

findet im allgemeinen nicht das globale Maximum vonV , sondern kann in lokalen Maxi-

ma »steckenbleiben«. Man kann zeigen, dass die Verteilung der Markov-Kette zur Zeitn

gegen die Gleichverteilung auf den Maximalstellen konvergiert, fallsβ(n) nur sehr lang-

sam (logarithmisch) gegen+∞ geht. In praktischen Anwendungen wird der Algorithmus

aber in der Regel mit einem schnelleren »Cooling schedule«β(n) verwendet. Das Auf-

finden eines globalen Maximums ist dann nicht garantiert – trotzdem erhält man ein oft

nützlichesheuristischesVerfahren.

3.5 Konvergenz ins Gleichgewicht

SeiS = x1, . . . , xm eine endliche Menge, und

WV(S) := µ = (µ(x1), . . . , µ(xm)) | µ(xi) ≥ 0,m∑

i=1

µ(xi) = 1 ⊆ Rm

die Menge aller Wahrscheinlichkeitsverteilungen aufS. Geometrisch istWV(S) ein Simplex im

Rm. Wir führen nun einen Abstandsbegriff aufWV(S) ein:

Definition. Die Variationsdistanzzweier Wahrscheinlichkeitsverteilungenµ, ν aufS ist:

dTV (µ, ν) :=1

2‖µ− ν‖1 =

1

2

x∈S|µ(x)− ν(x)|.

Universität Bonn Wintersemester 2009/2010

Page 98: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

98 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Bemerkung. a) Für alleµ, ν ∈ WV(S) gilt:

dTV (µ, ν) ≤1

2

x∈S(µ(x) + ν(x)) = 1.

b) Seienµ, ν Wahrscheinlichkeitsverteilungen undA := x ∈ S | µ(x) ≥ ν(x). Dann gilt:

dTV (µ, ν) =∑

x∈A(µ(x)− ν(x)) = max

A⊆S|µ(A)− ν(A)|.

Der Beweis dieser Aussage ist eine Übungsaufgabe.

Wir betrachten im folgenden eine stochastische Matrixp(x, y), (x, y ∈ S), mit Gleichgewicht

µ. Die Verteilung einer Markov-Kette mit Startverteilungν und Übergangsmatrixp zur Zeitn ist

ν pn. Um Konvergenz ins Gleichgewicht zu zeigen, verwenden wir die folgende Annahme:

M INORISIERUNGSBEDINGUNG: Es gibt einδ ∈ (0, 1] und einr ∈ N, so dass für allex, y ∈ S

gilt:

pr(x, y) ≥ δ · µ(y). (3.5.1)

Satz 3.14.Gilt die Minorisierungsbedingung(3.5.1), dann konvergiertν pn für jede Startvertei-

lungν exponentiell schnell gegenµ. Genauer gilt für allen ∈ N undν ∈ WV(S):

dTV (ν pn, µ) ≤ (1− δ)⌊n/r⌋.

Bemerkung. Insbesondere istµ daseindeutigeGleichgewicht: Betrachte eine beliebige Wahr-

scheinlichkeitsverteilungν mit ν p = ν. Dann folgt fürn→ ∞:

dTV (ν, µ) = dTV (ν pn, µ) −→ 0,

alsodTV (µ, ν) = 0, und somitµ = ν.

Beweis. 1. Durch die Zerlegung

pr(x, y) = δ µ(y) + (1− δ) q(x, y)

der r-Schritt-Übergangswahrscheinlichkeiten wird einestochastischeMatrix q definiert,

denn

(i) Aus der Minorisierungsbedingung (3.5.1) folgtq(x, y) ≥ 0 für allex, y ∈ S.

(ii) Aus∑

y∈S pr(x, y) = 1,

∑y∈S µ(y) = 1 folgt

∑y∈S q(x, y) = 1 für allex ∈ S.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 99: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.5. KONVERGENZ INS GLEICHGEWICHT 99

Wir setzen im folgendenλ := 1− δ. Dann gilt für alleν ∈ WV(S):

ν pr = (1− λ)µ+ λ ν q. (3.5.2)

2. Wir wollen mit vollständiger Induktion zeigen:

ν pkr = (1− λk)µ+ λk ν qk für allek ≥ 0, ν ∈ WV(S). (3.5.3)

Fürk = 0 ist die Aussage offensichtlich wahr. Gilt (3.5.3) für eink ≥ 0, dann erhalten wir

durch Anwenden von Gleichung (3.5.2) aufν pr mit ν = ν qk:

ν p(k+1)r = ν pkr pr

= ((1− λk)µ+ λk ν qk︸︷︷︸=ν

) pr

= (1− λk) µ pr︸︷︷︸=µ

+(1− λ)λkµ+ λk+1 ν qk q

= (1− λk+1)µ+ λk+1 ν qk+1.

3. Fürn ∈ N, n = k r + i, (k ∈ N, 0 ≤ i < r), folgt:

ν pn = ν pkr pi = (1− λk) µ pi︸︷︷︸=µ

+λk ν qk pi,

also

ν pn − µ = λk (ν qk pi − µ) für alleν ∈ WV(S),

und damit

dTV (ν pn, µ) =

1

2‖ν pn − µ‖1 = λk dTV (ν q

k pi, µ) ≤ λk

nach der letzten Bemerkung.

Welche Übergangsmatrizen erfüllen die Minorisierungsbedingung?

Definition. i) Die stochastische Matrixp heißt irreduzibel, falls es für allex, y ∈ S ein

n ∈ N gibt, so dasspn(x, y) > 0 gilt.

ii) Die Periodevonx ∈ S ist definiert als

Periode(x) := ggT(n ∈ N | pn(x, x) > 0︸ ︷︷ ︸=:R(x)

).

Universität Bonn Wintersemester 2009/2010

Page 100: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

100 KAPITEL 3. KONVERGENZSÄTZE UND MONTE CARLO VERFAHREN

Lemma 3.15. i) Falls p irreduzibel ist, giltPeriode(x) = Periode(y) für alle x, y ∈ S.

ii) Falls p irreduzibel und aperiodisch (d.h.Periode(x) = 1 für alle x ∈ S) ist, gibt es ein

r > 0, so dasspr(x, y) > 0 für alle x, y ∈ S gilt.

Beweis.Seienx, y ∈ S.

i) Seip irreduzibel. Dann gibt es eins und eint ∈ N, so dass gilt:

ps(x, y) > 0 und pt(y, x) > 0.

Füra := s+ t folgt:

• pa(x, x) ≥ ps(x, y) pt(y, x) > 0, alsoa ∈ R(x).

• pn+a(x, x) ≥ ps(x, y) pn(y, y) pt(y, x) > 0 für allen ∈ R(y), alson + a ∈ R(x) für

allen ∈ R(y).

Periode(x) ist ein gemeinsamer Teiler vonR(x), somit Teiler vona undn + a, also auch

vonn für allen ∈ R(y). Daher istPeriode(x) ein gemeinsamer Teiler vonR(y) und somit

gilt:

Periode(x) ≤ Periode(y).

»≥« wird analog gezeigt. Es folgt:

Periode(x) = Periode(y).

ii) R(x) ist abgeschlossen unter Addition, denn fallss, t ∈ R(x) ist, gilt:

ps+t(x, x) ≥ ps(x, x) pt(x, x) > 0,

und somits + t ∈ R(x). Dap aperiodisch ist, folgtggT(R(x)) = 1 für allex ∈ S. Nach

einem Satz der Zahlentheorie gilt:

Da R(x) additiv abgeschlossen, gibt es für allex ein r(x) ∈ N mit n ∈ R(x) für alle

n ≥ r(x).

n ∈ R(x) impliziert pn(x, x) > 0. Da p irreduzibel ist, folgt, dass es für allex, y ein

r(x, y) ∈ N gibt, so dass gilt:

pn(x, y) > 0 für allen ≥ r(x, y).

Für r ≥ maxx,y∈S r(x, y) folgt dannpr(x, y) > 0 für allex, y ∈ S.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 101: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

3.5. KONVERGENZ INS GLEICHGEWICHT 101

Satz 3.16(Konvergenzsatz fürendlicheMarkov-Ketten). Ist p irreduzibel und aperiodisch mit

Gleichgewichtµ, dann gilt:

limn→∞

dTV (ν pn, µ) = 0 für alle ν ∈ WV(S).

Beweis.Dap irreduzibel und aperiodisch ist, gibt es einr ∈ N mit:

pr(x, y) > 0 für allex, y ∈ S.

Daher gibt es einr ∈ N und einδ > 0, so dass gilt:

pr(x, y) > δ µ(y) für allex, y ∈ S,

(z.B. δ := minx,y∈S pr(x, y)). Mit Satz 3.14 folgt die Behauptung.

Beispiel(Metropolis-Kette). SeiS endlich,µ(x) > 0 für allex ∈ S, nicht konstant, undq(x, y)

irreduzibel. Dann istp(x, y) irreduzibel und aperiodisch. Somit folgt die Konvergenz ins Gleich-

gewicht nach Satz 3.16, allerdings evtl. sehr langsam!

ANWENDUNG: MARKOV-CHAIN -MONTE CARLO-VERFAHREN

Seiµ ∈ WV(S), f : S → R.

GESUCHT:

θ = Eµ[f ],

MARKOV-CHAIN -MONTE CARLO-SCHÄTZER:

θn,b =1

n

b+n∑

k=b+1

f(Xk),

wobeib ∈ N eine feste Konstante (»burn-in-Zeit«) und(Xk)k∈N irreduzible Markov-Ketten mit

Gleichgewichtµ sind.

Satz(Ergodensatz / Gesetz der großen Zahlen für Markov-Ketten). : Für alle b ∈ N gilt:

limn→∞

θn,b = θ mit Wahrscheinlichkeit1,

Beweis.siehe Vorlesung »Stochastische Prozesse«.

Die Analyse des Schätzfehler ist im Allgemeinen diffizil!

Universität Bonn Wintersemester 2009/2010

Page 102: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 4

Stetige und Allgemeine Modelle

4.1 Unendliche Kombinationen von Ereignissen

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Ist(An)n∈N eine Folge von bzgl.P unabhängigen

Ereignissen,An ∈ A mit fester Wahrscheinlichkeit

P [An] = p ∈ [0, 1]

und

Sn(ω) =n∑

i=1

IAi(ω) = |1 ≤ i ≤ n : ω ∈ Ai|

die Anzahl der Ereignisse unter den erstenn, die eintreten, dann istSn binomialverteilt mit den

Parameternn undp. Für die relative HäufigkeitSn

nder EreignisseAi gilt die Bernstein-Chernoff-

Ungleichung

P

[∣∣∣∣Sn

n− p

∣∣∣∣ ≥ ε

]≤ 2 · e−2ε2n, (4.1.1)

d.h. die Verteilung vonSn

nkonzentriert sich fürn → ∞ sehr rasch in der Nähe vonp, siehe Ab-

schnitt 2.3. Insbesondere ergibt sich ein Spezialfall des schwachen Gesetzes der großen Zahlen:

die Folge der ZufallsvariablenSn

nkonvergiertP -stochastisch gegenp, d.h.

P

[∣∣∣∣Sn

n− p

∣∣∣∣ ≥ ε

]n→∞→ 0 für alleε > 0.

Definition. (1). EineP -Nullmenge ist ein EreignisA ∈ A mit P [A] = 0.

(2). Ein EreignisA ∈ A tritt P -fast sicherbzw. fürP -fast alleω ∈ Ω ein, fallsP [A] = 1 gilt,

d.h. fallsAC eineP -Nullmenge ist.

102

Page 103: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 103

Wir wollen nun Methoden entwickeln, die es uns ermöglichen,zu zeigen, dass aus (4.1.1) sogar

limn→∞

Sn(ω)

n= p für P -fast alleω ∈ Ω (4.1.2)

folgt. Das relevante Ereignis

L :=

ω ∈ Ω : lim

n→∞

Sn(ω)

n= p

lässt sich offensichtlich nicht durch endlich viele derAi beschreiben.

Seien nun allgemeinA1, A2, . . . ∈ A beliebige Ereignisse. Uns interessieren zusammengesetzte

Ereignisse wie z.B.

∞⋃n=1

An („Eines derAn tritt ein“)∞⋂n=1

An („Alle der An treten ein“)∞⋂

m=1

∞⋃n=m

An = ω ∈ Ω : ∀m ∃n ≥ m : ω ∈ An („Unendlich viele derAn treten ein“ oder

„An tritt immer mal wieder ein“)∞⋃

m=1

∞⋂n=m

An = ω ∈ Ω : ∃m ∀n ≥ m : ω ∈ An („An tritt schließlich ein“)

Aufgrund der Eigenschaften einerσ-Algebra liegen alle diese Mengen wieder inA. Das Ereignis

L lässt sich wie folgt als abzählbare Kombination derAi ausdrücken:

ω ∈ L ⇐⇒ limn→∞

Sn

n= p

⇐⇒ ∀ε ∈ Q+ :

∣∣∣∣Sn

n− p

∣∣∣∣ ≤ ε schließlich

⇐⇒ ∀ε ∈ Q+ ∃m ∈ N ∀n ≥ m :

∣∣∣∣Sn

n− p

∣∣∣∣ ≤ ε

Somit gilt

L =⋂

ε∈Q+

∣∣∣∣Sn

n− p

∣∣∣∣ ≤ ε schließlich

=⋂

ε∈Q+

m∈N

n≥m

∣∣∣∣Sn

n− p

∣∣∣∣ ≤ ε

.

Um Wahrscheinlichkeiten von solchen Ereignissen berechnen zu können, ist es wesentlich, dass

eine WahrscheinlichkeitsverteilungP nicht nur endlich additiv, sondern sogarσ-additiv ist. Der

folgende Satz gibt eine alternative Charakterisierung derσ-Additivität:

Universität Bonn Wintersemester 2009/2010

Page 104: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

104 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Satz 4.1(σ-Additivität und monotone Stetigkeit). SeiA eineσ-Algebra undP : A → [0,∞]

additiv, d.h.

A ∩B = ∅ ⇒ P [A ∪ B] = P [A] + P [B].

(i) P ist σ-additiv genau dann, wenn:

A1 ⊆ A2 ⊆ . . . ⇒ P

[ ∞⋃

n=1

An

]= lim

n→∞P [An]

(ii) Gilt P [Ω] = 1, dann ist dies auch äquivalent zu:

A1 ⊇ A2 ⊇ . . . ⇒ P

[ ∞⋂

n=1

An

]= lim

n→∞P [An]

Beweis. (i) Sei P σ-additiv undA1 ⊆ A2 ⊆ . . . . Die MengenB1 := A1, B2 := A2\A1,

B3 := A3\A2, . . . sind disjunkt mit

n⋃

i=1

Bi =n⋃

i=1

Ai = An und∞⋃

i=1

Bi =∞⋃

i=1

Ai.

Also gilt:

P

[ ∞⋃

i=1

Ai

]= P

[ ∞⋃

i=1

Bi

]

σ−add.=

∞∑

i=1

P [Bi]

= limn→∞

n∑

i=1

P [Bi]

= limn→∞

P

[n⋃

i=1

Bi

]

= limn→∞

P [An].

Der Beweis der umgekehrten Implikation wird dem Leser als Übungsaufgabe überlassen.

(ii) Gilt P [Ω] = 1, dann folgt

P

[ ∞⋂

i=1

Ai

]= P

[( ∞⋃

i=1

Aci

)c]= 1− P

[ ∞⋃

i=1

Aci

].

Die Behauptung folgt nun aus (i).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 105: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 105

Ab jetzt setzen wir wieder voraus, dassP eine Wahrscheinlichkeitsverteilung ist. Eine weitere

Folgerung aus derσ-Additivität ist:

Satz 4.2(σ-Subadditivität ). Für beliebige EreignisseA1, A2, . . . ∈ A gilt:

P

[ ∞⋃

n=1

An

]≤

∞∑

n=1

P [An]

Abbildung 4.1: Darstellung von drei Mengen. Das Maß der Vereinigung von Mengen ist stets

kleiner gleich als die Summe der Maße der einzelnen Mengen.

Beweis.Die Mengen

Bn = An \ (An−1 ∪ · · · ∪ A1)

sind disjunkt mit∞⋃n=1

Bn =∞⋃n=1

An. Also gilt:

P

[ ∞⋃

n=1

An

]= P

[ ∞⋃

n=1

Bn

]=

∞∑

n=1

P [Bn]︸ ︷︷ ︸≤P [An]

≤∞∑

n=1

P [An].

Bemerkung. Insbesondere ist eine Vereinigung von abzählbar vielen Nullmengen wieder eine

Nullmenge.

Der folgende Satz spielt eine zentrale Rolle beim Beweis von Konvergenzaussagen für Zufalls-

variablen:

Satz 4.3(1. Borel - Cantelli - Lemma). Für EreignisseA1, A2, . . . ∈ A mit

∞∑

n=1

P [An] <∞

Universität Bonn Wintersemester 2009/2010

Page 106: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

106 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

gilt:

P [„unendlich viele derAn treten ein“] = P

[⋂

m

n≥m

An

]= 0.

Beweis.Da die Folge⋃

n≥m

An =: Bm von Ereignissen ausA monoton fallend ist, ergibt sich nach

Satz 4.1 und 4.2:

P

[⋂

m

n≥m

An

]= P

[⋂

m

Bm

]

4.1= lim

m→∞P [Bm]

= limm→∞

P

[⋃

n≥m

An

]

︸ ︷︷ ︸4.2≤

∞∑n=m

P [An]

≤ lim infm→∞

∞∑

n=m

P [An]

︸ ︷︷ ︸m→∞→ 0

= 0,

da die Summe∞∑n=1

P [An] nach Voraussetzung konvergiert.

Das erste Borel-Cantelli-Lemma besagt, dass mit Wahrscheinlichkeit 1 nur endlich viele der Er-

eignisseAn, n ∈ N eintreten, falls∑P [An] < ∞ gilt. Die Unabhängigkeit der Ereignisse er-

möglicht die Umkehrung dieser Aussage. Es gilt sogar:

Satz 4.4(2. Borel - Cantelli - Lemma). Für unabhängige EreignisseA1, A2, . . . ∈ A mit

∞∑

n=1

P [An] = ∞

gilt:

P [An unendlich oft] = P

[⋂

m

n≥m

An

]= 1

Bemerkung. Insbesondere ergibt sich ein0-1 Gesetz:

SindA1, A2, . . . ∈ A unabhängige Ereignisse, dann beträgt die Wahrscheinlichkeit, dass unend-

lich viele derAn, n ∈ N, eintreten, entweder0 oder1 - je nachdem ob die Summe∑P [An]

endlich oder unendlich ist.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 107: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 107

Wir zeigen nun das zweite Borel-Cantelli-Lemma:

Beweis.Sind die EreignisseAn, n ∈ N unabhängig, so auch die EreignisseACn , siehe Lemma

2.5. Zu zeigen ist:

P [An nur endlich oft] = P

[⋃

m

n≥m

ACn

]= 0

Nach Satz 4.1 gilt:

P

[⋃

m

n≥m

ACn

]= lim

m→∞P

[⋂

n≥m

ACn

](4.1.3)

Wegen der Unabhängigkeit der EreignisseACn erhalten wir zudem

P

[⋂

n≥m

ACn

]mon. Stetigkeit

= limk→∞

P

[k⋂

n=m

ACn

]

unabh.= lim

k→∞

k∏

n=m

P [ACn ]︸ ︷︷ ︸

=1−P [An]≤exp(−P [An])

≤ lim infk→∞

k∏

n=m

e−P [An]

= lim infk→∞

e−

k∑n=m

P [An]= 0, (4.1.4)

da limk→∞

k∑n=m

P [An] =∞∑

n=m

P [An] = ∞ nach Voraussetzung.

Aus 4.1.3 und 4.1.4 folgt die Behauptung.

Mithilfe des 1. Borel-Cantelli-Lemmas können wir nun eine erste Version eines starken Gesetzes

großer Zahlen beweisen. Seip ∈ [0, 1].

Satz 4.5(Starkes Gesetz großer Zahlen I, Borel 1909, Hausdorff 1914, Cantelli 1917). Sind

A1, A2, . . . ∈ A unabhängige Ereignisse mit WahrscheinlichkeitP [An] = p für alle n ∈ N, dann

gilt für Sn =n∑

i=1

IAi:

limn→∞

Sn(ω)

n︸ ︷︷ ︸asymptotische

relative Häufig-

keit des Ereig-

nisses

= p︸︷︷︸W’keit

für P -fast alleω ∈ Ω

Universität Bonn Wintersemester 2009/2010

Page 108: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

108 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Beweis.Sei

L :=

ω ∈ Ω

∣∣∣∣1

nSn(ω) → p für n→ ∞

Zu zeigen ist, dassLC ∈ A mit P [LC ] = 0.

Wegen

ω ∈ LC ⇐⇒ Sn(ω)

n6→ p ⇐⇒ ∃ε ∈ Q+ :

∣∣∣∣Sn(ω)

n− p

∣∣∣∣ > ε unendlich oft

gilt:

LC =⋃

ε∈Q+

∣∣∣∣Sn(ω)

n− p

∣∣∣∣ > ε unendlich oft

=⋃

ε∈Q+

m

n≥m

∣∣∣∣Sn(ω)

n− p

∣∣∣∣ > ε

∈ A.

Zudem folgt aus der Bernstein-Chernoff-Abschätzung:

∞∑

n=1

P

[∣∣∣∣Sn

n− p

∣∣∣∣ > ε

]≤

∞∑

n=1

2e−2nε2 <∞

für alleε > 0, also nach dem 1. Borel-Cantelli-Lemma:

P

[∣∣∣∣Sn

n− p

∣∣∣∣ > ε unendlich oft

]= 0.

Also istLc eine Vereinigung von abzählbar vielen Nullmengen, und damit nach Satz 4.2 selbst

eine Nullmenge.

Das starke Gesetz großer Zahlen in obigem Sinn rechtfertigtnochmals im Nachhinein die empiri-

sche Interpretation der Wahrscheinlichkeit eines Ereignisses als asymptotische relative Häufigkeit

bei unabhängigen Wiederholungen.

Beispiel(Random Walk/Irrfahrt ). Wir betrachten einen Random Walk

Zn = X1 +X2 +X3 + . . .+Xn (n ∈ N)

mit unabhängigen identisch verteilten InkrementenXi, i ∈ N, mit

P [Xi = 1] = p und P [Xi = −1] = 1− p, p ∈ (0, 1) fest.

Die EreignisseAi := Xi = 1 sind unabhängig mitP [Ai] = p und es gilt:

Xi = IAi− IAC

i= 2IAi

− 1,

also

Zn = 2Sn − n, wobei Sn =n∑

i=1

IAi.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 109: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.1. UNENDLICHE KOMBINATIONEN VON EREIGNISSEN 109

Nach Satz 4.5 folgt:

limn→∞

Zn

n= 2 lim

n→∞

Sn

n− 1 = 2p− 1 P -fast sicher.

Fürp 6= 12

wächst (bzw. fällt)Zn also mit Wahrscheinlichkeit1 asymptotisch linear (siehe Abbil-

dung 4.2):

Zn ∼ (2p− 1) · n P -fast sicher

10

20

30

40

50

100 200 300 400

(2p− 1)n

Abbildung 4.2: Random Walk mit Drift:p = 0.55, n = 500

Für p = 12

dagegen wächst der Random Walk sublinear, d.h.Zn

n→ 0 P -fast sicher. In diesem

Fall liegt für hinreichend großen der Graph einer typischen TrajektorieZn(ω) in einem beliebig

kleinen Sektor um diex-Achse (siehe Abbildung 4.3).

10

−10

−20

100 200 300 400

Abbildung 4.3: Random Walk ohne Drift:p = 0.5, n = 500

Eine viel präzisere Beschreibung der Asymptotik des Random Walk liefert derSatz vom iterier-

ten Logarithmus:

lim supn→∞

Sn(ω)√n log log n

= +1 P -fast sicher,

Universität Bonn Wintersemester 2009/2010

Page 110: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

110 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

lim infn→∞

Sn(ω)√n log log n

= −1 P -fast sicher

Mehr dazu: siehe Vorlesung „Stochastische Prozesse.“

4.2 Allgemeine Wahrscheinlichkeitsräume

Bisher haben wir uns noch nicht mit der Frage befasst, ob überhaupt ein Wahrscheinlichkeits-

raum existiert, auf dem unendlich viele unabhängige Ereignisse bzw. Zufallsvariablen realisiert

werden können. Auch die Realisierung einer auf einem endlichen reellen Intervall gleichverteil-

ten Zufallsvariable auf einem geeigneten Wahrscheinlichkeitsraum haben wir noch nicht gezeigt.

Die Existenz solcher Räume wurde stillschweigend vorausgesetzt.

Tatsächlich ist es oft nicht notwendig, den zugrunde liegenden Wahrscheinlichkeitsraum expli-

zit zu kennen - die Kenntnis der gemeinsamen Verteilungen aller relevanten Zufallsvariablen

genügt, um Wahrscheinlichkeiten und Erwartungswerte zu berechnen. Dennoch ist es an dieser

Stelle hilfreich, die grundlegenden Existenzfragen zu klären, und unsere Modelle auf ein sicheres

Fundament zu stellen. Die dabei entwickelten Begriffsbildungen werden sich beim Umgang mit

stetigen und allgemeinen Zufallsvariablen als unverzichtbar erweisen.

Beispiele von Wahrscheinlichkeitsräumen

Wir beginnen mit einer Auflistung von verschiedenen Wahrscheinlichkeitsräumen(Ω,A, P ), die

wir gerne konstruieren würden:

Dirac-Maß

SeiΩ beliebig,a ∈ Ω fest,A = P(Ω), P = δa, wobei

δa[A] :=

1 falls a ∈ A

0 sonst

Dies ist eine deterministische Verteilung mit:

P [ω = a] = 1

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 111: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 111

Diskrete Wahrscheinlichkeitsräume

Ist Ω eine abzählbare Menge undp : Ω → [0, 1] eine Gewichtsfunktion mit∑ω∈Ω

p(ω) = 1,

dann haben wir bereits gezeigt, dass eine eindeutige WahrscheinlichkeitsverteilungP auf der

PotenzmengeA = P(Ω) existiert mit

P [A] =∑

a∈Ap(a) =

a∈Ωp(a)δa[A] ∀A ⊆ Ω.

Jede diskrete Wahrscheinlichkeitsverteilung ist eine Konvexkombination von Diracmaßen:

P =∑

a∈Ωp(a)δa

Endliche Produktmodelle

Auch die Konstruktion mehrstufiger diskreter Modelle ist auf diese Weise möglich: Ist beispiels-

weise

Ω = (ω1, . . . , ωn) : ωi ∈ Ωi = Ω1 × . . .× Ωn

eine Produktmenge, und sindp1, . . . , pn Gewichtsfunktionen von Wahrscheinlichkeitsverteilun-

genP1, . . . , Pn aufΩ1, . . . ,Ωn, dann ist

p(ω) =n∏

i=1

pi(ωi)

die Gewichtsfunktion einer WahrscheinlichkeitsverteilungP = P1⊗ . . .⊗Pn aufΩ. Unter dieser

Wahrscheinlichkeitsverteilung sind die ZufallsvariablenXi(ω) = ωi unabhängig.

Unendliches Produktmodell (z.B. Münzwurffolge)

Es stellt sich die Frage, ob wir auch unendlich viele unabhängige Zufallsvariablen auf einem ähn-

lichen Produktraum realisieren können. Im einfachsten Fall möchten wir eine Folge unabhängiger

fairer Münzwürfe (0-1-Experimente) auf dem Grundraum

Ω = ω = (ω1, ω2, . . .) : ωi ∈ 0, 1 = 0, 1N

modellieren.Ω ist überabzählbar, denn die AbbildungX : (0, 1) → Ω, die einer reellen Zahl die

Ziffernfolge ihrer Binärdarstellung zuordnet, ist injektiv. Genauer ist eine injektive Abbildung

X : (0, 1) → Ω definiert durch

X(ω) = (X1(ω), X2(ω), X3(ω), . . .), (4.2.1)

Universität Bonn Wintersemester 2009/2010

Page 112: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

112 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

1

0.5 1.0

X1(ω)

1

0.25 0.50 0.75 1.00

X2(ω)

1

0.25 0.50 0.75 1.00

X3(ω)

Abbildung 4.4: Darstellung der ersten dreiXi(ω).

wobeiXn(ω) = IDn(ω), Dn =2n−1⋃i=1

[(2i− 1) · 2−n, 2i · 2−n).

Wir suchen eine WahrscheinlichkeitsverteilungP aufΩ mit

P [ω ∈ Ω : ω1 = a1, ω2 = a2, . . . , ωn = an] = 2−n (4.2.2)

Gibt es eineσ-AlgebraA, die alle diese Ereignisse enthält, und eine eindeutige Wahrscheinlich-

keitsverteilungP aufA mit (4.2.2)?

Wir werden in Abschnitt 5.3 zeigen, dass dies der Fall ist; wobei aber

(1). A 6= P(Ω) und

(2). P [ω] = 0 für alleω ∈ Ω

gelten muss. Das entsprechende Produktmodell unterscheidet sich in dieser Hinsicht grundlegend

von diskreten Modellen.

Kontinuierliche Gleichverteilung

Für die Gleichverteilung auf einem endlichen reellen Intervall Ω = [a, b],−∞ < a < b < ∞,

sollte gelten:

P [(c, d)] = P [[c, d]] =d− c

b− a∀a ≤ c < d ≤ b. (4.2.3)

Gibt es eineσ-AlgebraB, die alle Teilintervalle von[a, b] enthält, und eine Wahrscheinlichkeits-

verteilungP aufB mit (4.2.3)?

Wieder ist die Antwort positiv, aber erneut gilt notwendigerweiseB 6= P(Ω) undP [ω] = 0

für alleω ∈ Ω.

Tatsächlich sind die Probleme in den letzten beiden Abschnitten weitgehend äquivalent: die durch

die Binärdarstellung (4.2.1) definierte AbbildungX ist eine Bijektion von[0, 1) nach0, 1N\A,

wobeiA = ω ∈ Ω : ωn = 1 schließlich eine abzählbare Teilmenge ist. Eine Gleichverteilung

auf [0, 1) wird durchX auf eine Münzwurffolge auf0, 1N abgebildet, und umgekehrt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 113: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 113

Brownsche Bewegung

Simuliert man einen Random Walk, so ergibt sich in einem geeigneten Skalierungslimes mit

Schrittweite→ 0 anscheinend eine irreguläre, aber stetige zufällige Bewegung in kontinuierlicher

Zeit. Der entsprechende, 1923 von N. Wiener konstruierte stochastische Prozess heißtBrown-

246810121416

−2−4−6−8

10 20 30 40 50 60 70 80 90

Abbildung 4.5: Graph einer Stichprobe der eindimensionalen Brownschen Bewegung

sche Bewegung, und kann durch eine WahrscheinlichkeitsverteilungP (das Wienermaß) auf dem

Raum

Ω = C([0, 1],R) = ω : [0, 1] → R|ω stetigbeschrieben werden. Für diese, als Modell für Aktienkurse,zufällige Bewegungen, etc. in diver-

sen Anwendungsbereichen fundamentale Wahrscheinlichkeitsverteilung gilt unter anderem:

P [ω ∈ Ω : ω(t) ∈ [a, b)] = 1√2πt

b∫

a

e−x2

2t dx für alle t > 0,

siehe zum Beispiel die Vorlesung „Stochastische Prozesse“ im Sommersemester.

Um Wahrscheinlichkeitsverteilungen wie in den letzten beiden Beispielen zu konstruieren, benö-

tigen wir zunächst geeigneteσ-Algebren, die die relevanten Ereignisse bzw. Intervalle enthalten.

Dazu verwenden wir die folgende Konstruktion:

Konstruktion von σ-Algebren

SeiΩ eine beliebige Menge, undJ ⊆ P(Ω) eine Kollektion von Ereignissen, die auf jeden Fall

in der zu konstruierendenσ-Algebra enthalten sein sollen (z.B. die Mengen aus den Beispielen

zu unendlichen Produktmodellen und kontinuierlichen Gleichverteilungen auf Seite 111f).

Universität Bonn Wintersemester 2009/2010

Page 114: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

114 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Definition. Die Kollektion

σ(J ) :=⋂

F⊇J

F σ-Algebra aufΩ

F

von Teilmengen vonΩ heißt die vonJ -erzeugteσ-Algebra.

Bemerkung. Wie man leicht nachprüft (Übung), istσ(J ) tatsächlich eineσ-Algebra, und damit

die kleinsteσ-Algebra, dieJ enthält.

Beispiel(Borel’scheσ-Algebra auf R). SeiΩ = R undJ = (s, t)| − ∞ ≤ s ≤ t ≤ ∞ die

Kollektion aller offenen Intervalle. Die vonJ erzeugteσ-Algebra

B(R) := σ(J )

heißtBorel’scheσ-Algebra. Man prüft leicht nach, dassB(R) auch alle abgeschlossenen und

halboffenen Intervalle enthält. Die Borel’scheσ-Algebra wird auch erzeugt von der Kollektion

aller abgeschlossenen bzw. aller kompakten Intervall. Ebenso gilt:

B(R) = σ((−∞, c]|c ∈ R)

Allgemeiner definieren wir:

Definition. SeiΩ ein topologischer Raum (also z.B. ein metrischer Raum wieRn, C([0, 1],R)

etc.), und seiτ die Kollektion aller offenen Teilmengen vonΩ (dieTopologie). Die vonτ erzeugte

σ-Algebra

B(Ω) := σ(τ)

heißtBorel’scheσ-Algebra aufΩ.

Wieder verifiziert man, dassB(Ω) auch von den abgeschlossenen Teilmengen erzeugt wird. Im

FallΩ = R ergibt sich die oben definierte, von den Intervallen erzeugte,σ-Algebra.

Bemerkung. Nicht jede Teilmenge vonR ist in der Borelschenσ-AlgebraB(R) enthalten - ein

Beispiel wird in den Übungen gegeben.

Trotzdem enthältB(R) so gut wie alle Teilmengen vonR, die in Anwendungsproblemen auf-

treten; z.B. alle offenen und abgeschlossenen Teilmengen von R, sowie alle Mengen, die durch

Bildung von abzählbar vielen Vereinigungen, Durchschnitten und Komplementbildungen daraus

entstehen.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 115: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 115

Beispiel(Produkt σ-Algebra auf 0, 1N). EineZylindermengeauf dem Folgenraum

Ω = 0, 1N = (ω1, ω2, . . .) : ωi ∈ 0, 1

ist eine TeilmengeA vonΩ von der Form

A = ω ∈ Ω : ω1 = a1, ω2 = a2, . . . , ωn = an, n ∈ N, a1, . . . , an ∈ 0, 1.

In Beispiel 4.2 von oben betrachten wir die von der KollektionC aller Zylindermengen erzeugte

σ-AlgebraA = σ(C ) auf0, 1N. A heißtProdukt-σ-Algebra aufΩ.

Allgemeiner seiI eine beliebige Menge, undΩ =∏i∈I

Ωi eine Produktmenge (mit endlich, ab-

zählbar, oder sogar überabzählbar vielen FaktorenΩi, i ∈ I).

Definition. SindAi, i ∈ I σ-Algebren aufΩi, dann heißt die von der KollektionC aller Zylin-

dermengen

ω = (ωi)i∈I ∈ Ω : ωi1 ∈ Ai1 , ωi2 ∈ Ai2 , . . . , ωin ∈ Ain,

n ∈ N, i1, . . . , in ∈ I, Ai1 ∈ Ai1 , . . . , Ain ∈ Ain , erzeugteσ-Algebra

A =⊗

i∈IAi := σ(C )

Produktσ-Algebra aufΩ.

Man kann nachprüfen, dass die etwas anders definierte Produkt-σ-Algebra aus Beispiel 4.2 ein

Spezialfall dieser allgemeinen Konstruktion ist.

Existenz und Eindeutigkeit von Wahrscheinlichkeitsverteilungen

Sei (Ω,A) ein messbarer Raum, d.h. Ω ist eine nichtleere Menge undA ⊆ P(Ω) eine σ-

Algebra. In der Regel sind die WahrscheinlichkeitenP [A] zunächst für EreignisseA aus einer

TeilmengeJ ⊆ A mit A = σ(J ) gegeben, z.B. für Intervalle bei Wahrscheinlichkeitsverteilun-

gen aufR. Es stellt sich die Frage, ob hierdurch bereits die Wahrscheinlichkeiten aller Ereignisse

in A eindeutig festgelegt sind, und ob sichP zu einer Wahrscheinlichkeitsverteilung aufA fort-

setzen lässt. Diese Fragen beantworten die folgenden beiden fundamentalen Sätze.

Definition. (1). Ein MengensystemJ ⊆ A heißtdurchschnittsstabil, falls

A,B ∈ J ⇒ A ∩ B ∈ J .

(2). J heißtAlgebra, falls

Universität Bonn Wintersemester 2009/2010

Page 116: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

116 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

(a) Ω ∈ J

(b) A ∈ J ⇒ AC ∈ J

(c) A,B ∈ J ⇒ A ∪ B ∈ J .

Eine Algebra ist stabil unter endlichen Mengenoperationen(Bilden von endlichen Vereinigungen,

Durchschnitten und Komplementen). Insbesondere ist jede Algebra durchschnittsstabil.

Beispiel. (1). Die Kollektion aller offenen Intervalle ist eine durchschnittsstabile Teilmenge

vonB(R), aber keine Algebra. Dasselbe gilt für das MengensystemJ = (−∞, c]|c ∈ R.

(2). Die Kollektion aller endlichen Vereinigungen von beliebigen Teilintervallen vonR ist eine

Algebra.

Satz 4.6 (Eindeutigkeitssatz). Stimmen zwei WahrscheinlichkeitsverteilungenP und P auf

(Ω,A) überein auf einemdurchschnittsstabilen MengensystemJ ⊆ A, so auch aufσ(J ).

Den Satz werden wir am Ende dieses Abschnittes beweisen.

Beispiel. (1). Eine WahrscheinlichkeitsverteilungP aufB(R) ist eindeutig festgelegt durch die

WahrscheinlichkeitenP [(−∞, c]], c ∈ R.

(2). Die WahrscheinlichkeitsverteilungP im Modell der unendlich vielen Münzwürfe ist ein-

deutig festgelegt durch die Wahrscheinlichkeiten der Ausgänge der erstenn Würfe für alle

n ∈ N.

Nach dem Eindeutigkeitssatz 4.6 ist eine Wahrscheinlichkeitsverteilung durch die Wahrschein-

lichkeiten der Ereignisse aus einem durchschnittsstabilen Erzeugendensystem festgelegt. Um-

gekehrt zeigt der folgende Satz, dass sich eine auf einem ErzeugendensystemJ gegebeneσ-

additive Abbildung zu einem Maß auf derσ-Algebra fortsetzen lässt, fallsJ eine Algebra ist.

Satz 4.7(Fortsetzungssatz von Carathéodory). Ist J eine Algebra, undP : J → [0,∞] eine

σ-additive Abbildung, dann besitztP eine Fortsetzung zu einem Maß aufσ(J ).

Den Beweis dieses klassischen Resultats findet man in vielen Maßtheorie-, Analysis- bzw. Wahr-

scheinlichkeitstheorie-Büchern (siehe z. B. Williams: „Probability with martingales“, Appendix

A1). Wir verweisen hier auf die Analysisvorlesung, da für die weitere Entwicklung der Wahr-

scheinlichkeitstheorie in dieser Vorlesung der Existenzsatz zwar fundamental ist, das Beweisver-

fahren aber keine Rolle mehr spielen wird.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 117: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.2. ALLGEMEINE WAHRSCHEINLICHKEITSRÄUME 117

Bemerkung. Ist P [Ω] = 1, bzw. allgemeinerP [Ω] < ∞, dann ist die Maßfortsetzung nach Satz

4.6 eindeutig, denn eine Algebra ist durchschnittsstabil.

Als Konsequenz aus dem Fortsetzungssatz erhält man:

Korollar 4.8 (Existenz und Eindeutigkeit der kontinuierlichen Gleichverteilung). Es exis-

tiert genau eine WahrscheinlichkeitsverteilungU(0,1) aufB((0, 1)) mit

U(0,1)[(a, b)] = b− a für alle 0 < a ≤ b < 1. (4.2.4)

Zum Beweis ist noch zu zeigen, dass die durch (4.2.4) definierte AbbildungU(0,1) sich zu ei-

nerσ-additiven Abbildung auf die von den offenen Intervallen erzeugte AlgebraA0 aller endli-

chen Vereinigungen von beliebigen (offenen, abgeschlossenen, halboffenen) Teilintervallen von

(0, 1) fortsetzen lässt. Wie die Fortsetzung aufA0 aussieht, ist offensichtlich - der Beweis der

σ-Additivität ist etwas aufwändiger. Wir verweisen dazu wieder auf die Analysisvorlesung, bzw.

den Appendix A1 in Williams: „Probability with martingales.“

Bemerkung. (1). Auf ähnliche Weise folgt die Existenz und Eindeutigkeit des durch

λ[(a1, b1)× . . .× (ad, bd)] =d∏

i=1

(bi − ai) für alleai, bi ∈ R mit ai ≤ bi

eindeutig festgelegten Lebesguemaßesλ aufB(Rd), siehe Analysis III. Man beachte, dass

wegenλ[Rd] = ∞ eine Reihe von Aussagen, die wir für Wahrscheinlichkeitsverteilungen

beweisen werden, nicht für das Lebesguemaß aufRd gelten!

(2). Auch die Existenz der Wahrscheinlichkeitsverteilungen im Modell für unendlich viele faire

Münzwürfe kann man mithilfe des Satzes von Carathéodory zeigen. Wir werden diese

Wahrscheinlichkeitsverteilung stattdessen unmittelbaraus der GleichverteilungU(0,1) kon-

struieren.

Zum Abschluss dieses Abschnitts beweisen wir nun den Eindeutigkeitssatz. Dazu betrachten wir

das Mengensystem

D := A ∈ A | P [A] = P [A] ⊇ J .

Zu zeigen ist:D ⊇ σ(J ).

Dazu stellen wir fest, dassD folgende Eigenschaften hat:

(i) Ω ∈ D

Universität Bonn Wintersemester 2009/2010

Page 118: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

118 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

(ii) A ∈ D ⇒ Ac ∈ D

(iii) A1, A2, . . . ∈ D paarweise disjunkt⇒ ⋃Ai ∈ D

Definition. Ein MengensystemD ⊆ P(Ω) mit (i) - (iii) heißt Dynkinsystem.

Bemerkung. Für ein DynkinsystemD gilt:

A,B ∈ D , A ⊆ B ⇒ B\A = B ∩ AC = (BC ∪ A︸ ︷︷ ︸)C

disjunkt

∈ D

Lemma 4.9. Jedes∩ - stabile DynkinsystemD ist eineσ - Algebra.

Beweis.FürA,B ∈ D gilt:

A ∪ B = A ∪↑

disjunkt

∈D falls ∩−stabil

(B\(︷ ︸︸ ︷A ∩B)︸ ︷︷ ︸)

∈D nach Bem.

∈ D.

Hieraus folgt fürA1, A2, . . . ∈ D durch Induktion

Bn :=n⋃

i=1

Ai ∈ D,

und damit ∞⋃

i=1

Ai =∞⋃

n=1

Bn =∞⋃

n=1↑

disjunkt

(Bn\Bn−1︸ ︷︷ ︸)∈D nach Bem.

∈ D.

Lemma 4.10.IstJ ein∩ - stabiles Mengensystem , so stimmtdas vonJ erzeugte Dynkinsystem

D(J ) :=⋂

D Dynkinsystem

D⊇J

D

mit der vonJ erzeugtenσ - Algebraσ(J ) überein.

Aus Lemma (4.10) folgt der Eindeutigkeitssatz, dennA ∈ A |P [A] = P [A] ist ein Dynkin-

system, dasJ enthält, und somit gilt nach dem Lemma

A ∈ A |P [A] = P [A] ⊇ D(J ) = σ(J ),

fallsJ durchschnittsstabil ist.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 119: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 119

Beweis.(von Lemma (4.10))

Jedeσ - Algebra ist ein Dynkinsystem, also giltD(J ) ⊆ σ(J ).

Es bleibt zu zeigen, dassD(J ) eineσ - Algebra ist (hieraus folgt dannD(J ) = σ(J )). Nach

dem ersten Lemma ist dies der Fall, wennD(J ) durchschnittsstabil ist. Dies zeigen wir nun in

zwei Schritten:

Schritt 1: B ∈ J , A ∈ D(J ) ⇒ A ∩ B ∈ D(J )

Beweis: DB := A ∈ A |A ∩B ∈ D(J ) ⊇ J ist ein Dynkinsystem. Z.B. gilt

A ∈ DB ⇒ A ∩B ∈ D(J )

⇒ AC ∩ B = B↑

∈D(J )

\ (A ∩ B︸ ︷︷ ︸)∈D(J )

Bem.∈ D(J )

⇒ AC ∈ DB usw.

Also gilt DB ⊇ D(J ), und damitA ∩ B ∈ D(J ) für alleA ∈ D(J ).

Schritt 2: A,B ∈ D(J ) ⇒ A ∩ B ∈ D(J )

Beweis: DA := B ∈ A | A ∩ B ∈ D(J ) ⊇ J nach Schritt 1. Zudem istDA ein

Dynkinsystem (Beweis analog zu Schritt 1), also giltDA ⊇ D(J ).

4.3 Allgemeine Zufallsvariablen und ihre Verteilung

Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Wir wollen nun ZufallsvariablenX : Ω → S mit

Werten in einem allgemeinen messbaren Raum(S,S) betrachten. Beispielsweise istS = R oder

S = Rd undS ist die Borelscheσ-Algebra. Oft interessieren uns die Wahrscheinlichkeitenvon

Ereignissen der Form

X ∈ B = ω ∈ Ω|X(ω) ∈ B = X−1(B),

„Der Wert der ZufallsgrößeX liegt inB“

wobeiB ⊆ S eine Menge aus derσ-AlgebraS auf dem Bildraum ist, also z.B. ein Intervall oder

eine allgemeinere Borelmenge, fallsS = R gilt.

Wir erweitern dementsprechend die zuvor eingeführten Konzepte einer Zufallsvariablen und ihrer

Verteilung.

Universität Bonn Wintersemester 2009/2010

Page 120: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

120 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Allgemeine Zufallsvariablen

Definition. Eine AbbildungX : Ω → S heißtmessbar bzgl.A/S, falls

(M) X−1(B) ∈ A für alleB ∈ S.

EineZufallsvariable ist eine auf einem Wahrscheinlichkeitsraum definierte messbare Abbildung.

Bemerkung. (1). IstΩ abzählbar undA = P(Ω), dann ist jede AbbildungX : Ω → S eine

Zufallsvariable.

(2). IstS abzählbar undS = P(S), dann istX genau dann eine Zufallsvariable, falls

X = a = X−1(a) ∈ A für allea ∈ S

gilt. Dies ist gerade die Definition einer diskreten Zufallsvariable von oben.

Stimmt dieσ-AlgebraS nicht mit der PotenzmengeP(S) überein, dann ist es meist schwierig,

eine Bedingung(M) für alle MengenB ∈ S explizit zu zeigen. Die folgenden Aussagen liefern

handhabbare Kriterien, mit denen man in fast allen praktisch relevanten Fällen sehr leicht zeigen

kann, dass die zugrunde liegenden Abbildungen messbar sind. Wir bemerken zunächst, dass es

genügt die Bedingung(M) für alle Mengen aus einem ErzeugendensystemJ derσ-AlgebraSzu überprüfen:

Lemma 4.11.SeiJ ⊆ P(S) mit S = σ(J ). Dann gilt(M) bereits, falls

X−1(B) ∈ A für alleB ∈ J .

Beweis.Das MengensystemB ∈ S|X−1(B) ∈ A ist eineσ-Algebra, wie man leicht nach-

prüft. Diese enthältJ nach Voraussetzung, also enthält sie auch die vonJ erzeugteσ-Algebra

S.

Korollar (Reellwertige Zufallsvariablen). Sei (Ω,A, P ) ein Wahrscheinlichkeitsraum. Eine

AbbildungX : Ω → R ist genau dann eine Zufallsvariable bzgl. der Borelschenσ-Algebra,

wenn

X ≤ c = ω ∈ Ω | X(ω) ≤ c ∈ A ∀ c ∈ R, bzw. wenn

X < c = ω ∈ Ω | X(ω) < c ∈ A ∀ c ∈ R.

Beweis.Es gilt X ≤ c = X−1((−∞, c]). Die Intervalle(−∞, c], c ∈ R, erzeugenB(R), also

folgt die erste Aussage. Die zweite Aussage zeigt man analog.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 121: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 121

Beispiel(Indikatorfunktionen ). Für eine MengeA ⊆ Ω gilt:

IA ist Zufallsvariable⇔ A ∈ A,

denn

IA ≤ c =

∅ falls c < 0

Ω falls c ≥ 1

AC falls 0 ≤ c < 1

,

undAC ist genau dann inA enthalten, wennA in A enthalten ist.

Korollar (Stetige Abbildungen sind messbar). SeienΩ undS topologische Räume, undA,Sdie Borelschenσ-Algebren. Dann gilt:

X : Ω → S stetig ⇒ X messbar.

Beweis.SeiJ die Topologie vonS, d.h. die Kollektion aller offenen Teilmengen vonS. Nach

Definition der Borelschenσ-Algebra giltS = σ(J ). Wegen

B ∈ J ⇒ B offenX stetig=⇒ X−1(B) offen =⇒ X−1(B) ∈ A

folgt die Behauptung.

Kompositionen von messbaren Abbildungen sind wieder messbar:

Lemma 4.12. Sind(Ω1,A1), (Ω2,A2) und (Ω3,A3) messbare Räume, und istX1 : Ω1 → Ω2

messbar bzgl.A1/A2 undX2 : Ω2 → Ω3 messbar bzgl.A2/A3, dann istX2 X1 messbar bzgl.

A1/A3.

Ω1X1−→ Ω2

X2−→ Ω3

A1 A2 A3

Beweis.FürB ∈ A3 gilt (X2 X1)−1(B) = X−1

1 (X−12 (B)︸ ︷︷ ︸∈A2

) ∈ A1.

Beispiel. (1). IstX : Ω → R eine reellwertige Zufallsvariable undf : R → R eine messbare

(z.B. stetige) Funktion, dann ist auch

f(X) := f X : Ω → R

wieder eine reellwertige Zufallsvariable. Beispielsweisesind|X|, |X|p, eX usw. Zufallsva-

riablen.

Universität Bonn Wintersemester 2009/2010

Page 122: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

122 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

(2). SindX, Y : Ω → R reellwertige Zufallsvariablen, dann ist(X, Y ) : ω 7→ (X(ω), Y (ω))

eine messbare Abbildung in denR2 mit Borelscherσ-Algebra.

Da die Abbildung(x, y) 7→ x + y stetig ist, istX + Y wieder eine reellwertige Zufallsva-

riable. Dies sieht man auch direkt wie folgt: Fürc ∈ R gilt:

X + Y < c ⇐⇒ ∃ r, s ∈ Q : r + s < c,X < r undY < s,

also

X + Y < c =⋃

r,s∈Qr+s<c

(X < r ∩ Y < s) ∈ A

Verteilungen von Zufallsvariablen

Um Zufallsexperimente zu analysieren, müssen wir wissen, mit welchen Wahrscheinlichkeiten

die relevanten Zufallsvariablen Werte in bestimmten Bereichen annehmen. Dies wird durch die

Verteilung beschrieben. Seien(Ω,A) und(S,S) messbare Räume.

Satz 4.13(Bild einer Wahrscheinlichkeitsverteilung unter einer ZV). IstP eine Wahrschein-

lichkeitsverteilung auf(Ω,A), undX : Ω → S messbar bzgl.A/S, dann ist durch

µX(B) := P [X ∈ B] = P [X−1(B)] (B ∈ S)

eine Wahrscheinlichkeitsverteilung auf(S,S) definiert.

Beweis. (1). µX(S) = P [X−1(S)] = P [Ω] = 1

(2). SindBn ∈ S, n ∈ N, paarweise disjunkte Mengen, dann sind auch die UrbilderX−1(Bn),

n ∈ N, paarweise disjunkt. Also gilt wegen derσ-Additivität vonP :

µX

[⋃

n

Bn

]= P

[X−1

(⋃

n

Bn

)]= P

[⋃

n

X−1(Bn)

]=∑

n

P [X−1(Bn)] =∑

n

µX [Bn].

Definition. Die WahrscheinlichkeitsverteilungµX auf (S,S) heißt Bild von P unter X oder

Verteilung (law) vonX unter P .

FürµX werden häufig auch die folgenden Notationen verwendet:

µX = P X−1 = LX = PX = X(P )

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 123: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 123

Charakterisierung der Verteilung

• Diskrete Zufallsvariablen:

Die VerteilungµX einer diskreten Zufallsvariablen ist eindeutig durch dieMassenfunktion

pX(a) = P [X = a] = µX [a], a ∈ S,

festgelegt.

• Reelle Zufallsvariablen

Die VerteilungµX einer reellwertigen ZufallsvariablenX : Ω → R ist eine Wahrschein-

lichkeitsverteilung aufB(R). Sie ist eindeutig festgelegt durch die Wahrscheinlichkeiten

µX [(−∞, c]] = P [X ≤ c], c ∈ R,

da die Intervalle(−∞, c], c ∈ R, ein durchschnittsstabiles Erzeugendensystem der Borel-

schenσ-Algebra bilden.

Definition. Die FunktionFX : R → [0, 1],

FX(c) := P [X ≤ c] = µX [(−∞, c]]

heißt Verteilungsfunktion (distribution function) der ZufallsvariableX : Ω → R bzw. der

WahrscheinlichkeitsverteilungµX auf (R,B(R)).

Beispiel (Kontinuierliche Gleichverteilung). Seiena, b ∈ R mit a < b. Eine Zufallsvariable

X : Ω → R ist gleichverteilt auf dem Intervall(a, b), falls

FX(c) = P [X ≤ c] = U(a,b)[(a, c)] =c− a

b− afür alle c ∈ (a, b)

gilt. Eine auf(0, 1) gleichverteilte Zufallsvariable ist zum Beispiel die Identität

U(ω) = ω

auf dem Wahrscheinlichkeitsraum(Ω,A, P ) = ((0, 1),B((0, 1)),U(0,1)). IstU gleichverteilt auf

(0, 1), dann ist die Zufallsvariable

X(ω) = a+ (b− a)U(ω)

gleichverteilt auf(a, b).

Universität Bonn Wintersemester 2009/2010

Page 124: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

124 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Beispiel(Exponentialverteilung). Angenommen, wir wollen die Wartezeit auf das erste Eintreten

eines unvorhersehbaren Ereignisses (radioaktiver Zerfall, Erdbeben, . . . ) mithilfe einer Zufallsva-

riableT : Ω → (0,∞) beschreiben. Wir überlegen uns zunächst, welche Verteilung zur Model-

lierung einer solchen Situation angemessen sein könnte. Umdie WahrscheinlichkeitP [T > t] zu

approximieren, unterteilen wir das Intervall(0, t] in eine große Anzahln ∈ N von gleich großen

Intervallen( (k−1)tn

, ktn], 1 ≤ k ≤ n.

0 t(k − 1)t

n

kt

n

Abbildung 4.6: Unterteilung des Intervalls(0, t] in n Teile.

SeiAk das Ereignis, dass das unvorhersehbare Geschehen im Zeitraum ( (k−1)tn

, ktn] eintritt. Ein

nahe liegender Modellierungsansatz ist anzunehmen, dass die EreignisseAk unabhängig sind mit

Wahrscheinlichkeit

P [Ak] ≈ λt

n,

wobeiλ > 0 die „Intensität“, d.h. die mittlere Häufigkeit des Geschehens pro Zeiteinheit, be-

schreibt, und die Approximation fürn→ ∞ immer genauer wird. Damit erhalten wir:

P [T > t] = P [AC1 ∩ . . . ∩ AC

n ] ≈(1− λt

n

)n

für großesn.

Fürn→ ∞ konvergiert die rechte Seite gegene−λt.

Daher liegt folgende Definition nahe:

Definition. Eine ZufallsvariableT : Ω → [0,∞) heißtexponentialverteilt zum Parameterλ>0,

falls

P [T > t] = e−λt für alle t ≥ 0 gilt.

Die Exponentialverteilung zum Parameterλ ist dementsprechend die Wahrscheinlichkeitsver-

teilungµ = Exp(λ) auf (R,B(R)) mit

µ[(t,∞)] = e−λt für alle t ≥ 0,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 125: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.3. ALLGEMEINE ZUFALLSVARIABLEN UND IHRE VERTEILUNG 125

bzw. mit Verteilungsfunktion

F (t) = µ[(−∞, t]] =

1− e−λt für t ≥ 0

0 für t < 0.(4.3.1)

Nach dem Eindeutigkeitssatz ist dieExp(λ)-Verteilung durch (4.3.1) eindeutig festgelegt.

Wir konstruieren nun explizit eine exponentialverteilte Zufallsvariable. Dazu bemerken wir, dass

T : Ω → R genau dann exponentialverteilt mit Parameterλ ist, wenn

P [e−λT < u] = P

[T > −1

λlog u

]= e

λλlog u = u

für alle u ∈ (0, 1) gilt, d.h. wenne−λT auf (0, 1) gleichverteilt ist. Also können wir eine expo-

nentialverteilte Zufallsvariable konstruieren, indem wir umgekehrt

T := −1

λlogU U ∼ U(0,1)

setzen. Insbesondere ergibt sich die folgende Methode zur Simulation einer exponentialverteilten

Zufallsvariable:

Algorithmus 4.14 (Simulation einer exponentialverteilten Stichprobe).

Input: Intensitätλ > 0

Output: Stichprobex vonExp(λ)

(1). Simuliereu ∼ U(0,1)

(2). Setzex := − 1λlog u

Wir werden in Abschnitt 4.5 zeigen, dass mit einem entsprechenden Verfahren beliebige reel-

le Zufallsvariablen konstruiert und simuliert werden können. Zum Abschluss dieses Abschnitts

zeigen wir noch eine bemerkenswerte Eigenschaft exponentialverteilter Zufallsvariablen:

Satz 4.15(Gedächtnislosigkeit der Exponentialverteilung). IstT exponentialverteilt, dann gilt

für alle s, t ≥ 0:

P [T − s > t|T > s] = P [T > t].

Hierbei istT − s die verbleibende Wartezeit auf das erste Eintreten des Ereignisses. Also:

Auch wenn man schon sehr lange vergeblich gewartet hat,

liegt das nächste Ereignis nicht näher als am Anfang!

Universität Bonn Wintersemester 2009/2010

Page 126: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

126 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Beweis.

P [T−s > t|T > s] =P [T − s > t undT > s]

P [T > s]=P [T > s+ t]

T > s=e−λ(t+s)

e−λs= e−λt = P [T > t].

4.4 Wahrscheinlichkeitsverteilungen aufR

In diesem und im nächsten Abschnitt beschäftigen wir uns systematischer mit der Beschreibung,

Konstruktion und Simulation reellwertiger Zufallsvariablen. Wir notieren dazu zunächst einige

grundlegende Eigenschaften der Verteilungsfunktion

F (c) = P [X ≤ c]

einer auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierten ZufallsvariableX : Ω → R.

Wir werden im nächsten Abschnitt sehen, dass umgekehrt jedeFunktion mit den Eigenschaften

(1)-(3) aus Satz 4.16 die Verteilungsfunktion einer reellen Zufallsvariable ist.

Eigenschaften der Verteilungsfunktion

Satz 4.16.Für die VerteilungsfunktionF : R → [0, 1] einer reellwertigen ZufallsvariableX gilt:

(1). F ist monoton wachsend,

(2). limc→−∞

F (c) = 0 und limc→∞

F (c) = 1,

(3). F ist rechtsstetig, d.h.F (c) = limyցc

F (y) für alle c ∈ R,

(4). F (c) = limyրc

F (y) + µX [c].Insbesondere istF stetig beic, fallsµX [c] = 0 gilt.

Beweis.Die Aussagen folgen unmittelbar aus der monotonen Stetigkeit und Normiertheit der

zugrundeliegenden WahrscheinlichkeitsverteilungP . Der Beweis der Eigenschaften (1)-(3) wird

dem Leser als Übung überlassen. Zum Beweis von (4) bemerken wir, dass füry < c gilt:

F (c)− F (y) = P [X ≤ c]− P [X ≤ y] = P [y < X ≤ c].

Für eine monoton wachsende Folgeyn ր c erhalten wir daher aufgrund der monotonen Stetigkeit

vonP :

F (c)− limn→∞

F (yn) = limn→∞

P [yn < X ≤ c] = P

[⋂

n

yn < X ≤ c]

= P [X = c] = µX [c].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 127: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 127

Da dies für alle Folgenyn ր c gilt, folgt die Behauptung.

Im Folgenden betrachten wir einige Beispiele von eindimensionalen Verteilungen und ihren Ver-

teilungsfunktionen.

Diskrete Verteilungen

Die Verteilungµ einer reellen ZufallsvariableX heißt diskret, wennµ[S] = 1 für eine abzählbare

MengeS gilt.

Beispiele. (1). BERNOULLI-VERTEILUNG MIT PARAMETER p ∈ [0, 1]:

µ[1] = p, µ[0] = 1− p.

Als Verteilungsfunktion ergibt sich

F (c) =

0 für c < 0

1− p für c ∈ [0, 1)

1 für c ≥ 1.

1

1

1− p

µX

1

1

1− p

F

Abbildung 4.7: Massen- und Verteilungsfunktion einerBer(p)-verteilten Zufallsvariablen.

(2). GEOMETRISCHEVERTEILUNG MIT PARAMETER p ∈ [0, 1]:

µ[k] = (1− p)k−1 · p für k ∈ N.

Für eine geometrisch verteilte ZufallsvariableT gilt:

F (c) = P [T ≤ c] = 1− P [T > c]︸ ︷︷ ︸=P [T>⌊c⌋]

= 1− (1− p)⌊c⌋ für c ≥ 0,

wobei⌊c⌋ := maxn ∈ Z | n ≤ c der ganzzahlige Anteil vonc ist.

Universität Bonn Wintersemester 2009/2010

Page 128: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

128 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

1

1 2 3 4 5 6 7

1

1 2 3 4 5 6 7

F

Abbildung 4.8: Massen- und Verteilungsfunktion einerGeom(12)-verteilten Zufallsvariablen.

(3). BINOMIALVERTEILUNG MIT PARAMETERN n UND p:

µ[k] =(n

k

)pk(1− p)n−k für k = 0, 1, . . . , n

Somit ist die Verteilungsfunktion vonBin(n, p):

F (c) =

⌊c⌋∑

k=0

(n

k

)pk(1− p)n−k

0.05

0.10

0.15

−0.05

−0.10

10 20 30 40 50

Abbildung 4.9: Massenfunktion einerBin(55, 0.6)-verteilten Zufallsvariable.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 129: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 129

0.10.20.30.40.50.60.70.80.91.0

−0.1 10 20 30 40 50

Abbildung 4.10: Verteilungsfunktion vonBin(55, 0.6)

Allgemein sind die Unstetigkeitsstellen der VerteilungsfunktionF einer reellwertigen Zufallsva-

riableX nach Satz 4.16 (4) gerade dieAtomeder Verteilung, d.h. diec ∈ R mit µX [c] > 0.

NimmtX nur endlich viele Werte in einem IntervallI an, dann istF auf I stückweise konstant,

und springt nur bei diesen Werten.

Stetige Verteilungen

Die Verteilungµ einer reellen ZufallsvariableX heißtstetig, bzw.absolutstetig, falls eine inte-

grierbare Funktionf : R → [0,∞) existiert mit

F (c) = P [X ≤ c] = µ[(−∞, c]] =

c∫

−∞

f(x) dx für alle c ∈ R. (4.4.1)

Das Integral ist dabei im Allgemeinen als Lebesgueintegralzu interpretieren. Ist die Funktionf

stetig, dann stimmt dieses mit dem Riemannintegral überein.Daµ eine Wahrscheinlichkeitsver-

teilung ist, folgt, dassf eineWahrscheinlichkeitsdichte ist, d.h.f ≥ 0 und∫

R

f(x) = 1.

Definition. Eine Lebesgue-integrierbare Funktionf : R → [0,∞) mit (4.4.1) heißtDichtefunk-

tion der ZufallsvariableX bzw. der Verteilungµ.

Bemerkung. (1). Nach dem Hauptsatz der Differential- und Integralrechnung gilt

F ′(x) = f(x) (4.4.2)

Universität Bonn Wintersemester 2009/2010

Page 130: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

130 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

für allex ∈ R, falls f stetig ist. Im Allgemeinen gilt (4.4.2) fürλ-fast allex, wobeiλ das

Lebesguemaß aufR ist.

(2). Aus (4.4.1) folgt aufgrund der Eigenschaften des Lebesgueintegrals (s. Kapitel 6 unten):

P [X ∈ B] = µX [B] =

B

f(x) dx, (4.4.3)

für alle MengenB ∈ B(R). Zum Beweis zeigt man, dass beide Seiten von (4.4.3) Wahr-

scheinlichkeitsverteilungen definieren, und wendet den Eindeutigkeitssatz an.

Beispiele. (1). GLEICHVERTEILUNG AUF (a, b) (−∞ < a < b <∞).

f(x) =1

b− aI(a,b)(x), F (c) =

0 für c ≤ a

c−ab−a

für a ≤ c ≤ b

1 für c ≥ b

.

1

1 2 3

Abbildung 4.11: Dichtef(x) = 1[1,3](x) einer uniform auf[1, 3] verteilten Zufallsvariable (blau),

und deren VerteilungsfunktionF (c) (rot)

Affine Funktionen von gleichverteilten Zufallsvariablen sind wieder gleichverteilt.

(2). EXPONENTIALVERTEILUNG MIT PARAMETER λ > 0.

f(x) = λe−λxI(0,∞)(x),

F (c) = µ[(−∞, c]] = (1− e−λc)+ =

∫ ∞

c

f(x)dx.

Ist T eine exponentialverteilte Zufallsvariable zum Parameterλ, unda > 0, dann istaT

exponentialverteilt zum Parameterλa, denn

P [aT > c] = P [T >c

a] = e−

λac für alle c ≥ 0.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 131: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 131

1

1 2 3 4 5

Abbildung 4.12: Dichtef(x) = 1[0,∞)(x) · e−x einer zum Parameter1 exponentialverteilten

Zufallsvariable (blau) und deren VerteilungsfunktionF (c) (rot)

(3). NORMALVERTEILUNGEN

Wegen∞∫

−∞e−z2/2dz =

√2π ist die „Gaußsche Glockenkurve“

f(z) =1√2πe−z2/2, z ∈ R,

eine Wahrscheinlichkeitsdichte. Eine stetige ZufallsvariableZ mit Dichtefunktionf heißt

standardnormalverteilt. Die Verteilungsfunktion

Φ(c) =

c∫

−∞

1√2πe−

z2

2 dz

der Standardnormalverteilung ist i.A. nicht explizit berechenbar. IstZ standardnormalver-

teilt, und

X(ω) = σZ(ω) +m

mit σ > 0,m ∈ R, dann istX eine Zufallsvariable mit Verteilungsfunktion

FX(c) = P [X ≤ c] = P

[Z ≤ c−m

σ

]= Φ

(c−m

σ

).

Mithilfe der Substitutionz = x−mσ

erhalten wir:

FX(c) =

c−mσ∫

−∞

1√2πe−

z2

2 dz =

c∫

−∞

1√2πσ2

e−12(

x−mσ )

2

dx

Definition. Die WahrscheinlichkeitsverteilungN(m,σ2) aufR mit Dichtefunktion

fm,σ(x) =1√2πσ2

· e− 12(

x−mσ )

2

heißtNormalverteilung mit Mittelm und Varianzσ2. Die VerteilungN(0, 1) heißtStan-

dardnormalverteilung.

Universität Bonn Wintersemester 2009/2010

Page 132: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

132 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Wir werden im nächsten Abschnitt sehen, dass die Binomialverteilung (also die Verteilung

der Anzahl der Erfolge bei unabhängigen 0-1-Experimenten mit Erfolgswahrscheinlichkeit

p) für großen näherungsweise durch eine Normalverteilung beschrieben werden kann.

Entsprechendes gilt viel allgemeiner für die Verteilungenvon Summen vieler kleiner un-

abhängiger Zufallsvariablen (Zentraler Grenzwertsatz, s.u.).

m− 3σ m− 2σ m− σ m m+ σ m+ 2σ m+ 3σ

Abfall um Faktore−12

e−2

e−92

Abbildung 4.13: Dichte einer normalverteilten Zufallsvariable mit Mittelwertm und Varianzσ2.

m− 3σ m− 2σ m− σ m m+ σ m+ 2σ m+ 3σ

Abbildung 4.14: Verteilungsfunktion einer normalverteilten Zufallsvariable mit Mittelwertm und

Varianzσ2.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 133: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 133

Die Dichte der Normalverteilung ist an der Stellem maximal, und klingt außerhalb einer

σ-Umgebung vonm rasch ab. Beispielsweise gilt

fm,σ(m± σ) =fm,σ(m)√

e

fm,σ(m± 2σ) =fm,σ(m)

e2

fm,σ(m± 3σ) =fm,σ(m)

e9/2

Für die Wahrscheinlichkeit, dass eine normalverteilte Zufallsvariable Werte außerhalb der

σ-, 2σ- und3σ-Umgebungen annimmt, erhält man:

P [|X −m| > kσ] = P

[∣∣∣∣X −m

σ

∣∣∣∣ > k

]

= P [|Z| > k] = 2P [Z > k] = 2(1− Φ(k))

=

31.7% für k = 1

4.6% für k = 2

0.26% für k = 3

Eine Abweichung der Größeσ vom Mittelwertm ist also für eine normalverteilte Zufalls-

variable relativ typisch, eine Abweichung der Größe3σ dagegen schon sehr selten.

Die folgenden expliziten Abschätzungen für die Wahrscheinlichkeiten großer Werte sind oft nütz-

lich:

Lemma 4.17.Für eine standardnormalverteilte ZufallsvariableZ gilt:

(2π)−1/2 ·(1

y− 1

y3

)· e−y2/2 ≤ P [Z ≥ y] ≤ (2π)−1/2 · 1

y· e−y2/2 ∀y > 0

Beweis.Es gilt:

P [Z ≥ y] = (2π)−1/2

∞∫

y

e−z2/2 dz

Um das Integral abzuschätzen, versuchen wir approximativeStammfunktionen zu finden. Zu-

nächst gilt:d

dz

(−1

ze−z2/2

)=

(1 +

1

z2

)· e−z2/2 ≥ e−z2/2 ∀z ≥ 0,

Universität Bonn Wintersemester 2009/2010

Page 134: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

134 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

also1

ye−z2/2 =

∞∫

y

(1

ye−z2/2

)dz ≥

∞∫

y

e−z2/2 dz,

woraus die obere Schranke fürP [Z ≥ y] folgt.

Für die untere Schranke approximieren wir die Stammfunktion noch etwas genauer. Es gilt:

d

dz

((−1

z+

1

z3

)e−z2/2

)=

(1 +

1

z2− 1

z2− 3

z4

)e−z2/2 ≤ e−z2/2,

und damit (1

y− 1

y3

)e−y2/2 ≤

∞∫

y

e−z2/2 dz.

Für eineN(m,σ2)-verteilte ZufallsvariableX mit σ > 0 ist Z = X−mσ

standardnormalverteilt.

Also erhalten wir füry ≥ m:

P [X ≥ y] = P

[X −m

σ≥ y −m

σ

]≤ 1

y −m· (2πσ)−1/2 · e−

(y−m)2

2σ2 ,

sowie eine entsprechende Abschätzung nach unten.

Transformation von absolutstetigen Zufallsvariablen

Wir haben in Beispielen bereits mehrfach die Verteilung von Funktionen von absolutstetigen

Zufallsvariablen berechnet. Sei nun allgemeinI ⊆ R ein offenes Intervall, undX : Ω → I eine

Zufallsvariable mit stetiger Verteilung.

Satz 4.18(Eindimensionaler Dichtetransformationssatz). Ist Φ : I → J einmal stetig diffe-

renzierbar mitΦ′(x) 6= 0 für alle x ∈ I, dann ist die Verteilung vonΦ(X) absolutstetig mit

Dichte

fΦ(X)(y) =

fX(Φ

−1(y)) · |(Φ−1)′(y)| für y ∈ Φ(I)

0 sonst. (4.4.4)

Beweis.Nach der Voraussetzung gilt entwederΦ′ > 0 auf I oderΦ′ < 0 auf I. Wir betrachten

nur den ersten Fall. AusΦ′ > 0 folgt, dassΦ streng monoton wachsend ist, also eine Bijektion

von I nachΦ(I). Daher erhalten wir

FΦ(X)(c) = P [Φ(X) ≤ c] = P [X ≤ Φ−1(I)] = FX(Φ−1(c))

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 135: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.4. WAHRSCHEINLICHKEITSVERTEILUNGEN AUFR 135

für alle c ∈ Φ(I). Nach der Kettenregel ist dannFΦ(X) für fast allec ∈ Φ(I) differenzierbar, und

es gilt

F ′Φ(X)(c) = fX(Φ

−1(c)) · (Φ−1)′(c).

Die Behauptung folgt hieraus nach dem Hauptsatz der Differential- und Integralrechnung, da

P [Φ(x) 6∈ Φ(I)] = 0.

Beispiel(Geometrische Wahrscheinlichkeiten). Seiθ : Ω → [0, 2π) ein zufälliger, auf[0, 2π)

gleichverteilter, Winkel. Wir wollen die Verteilung voncos θ berechnen. Da die Kosinusfunktion

auf [0, 2π) nicht streng monoton ist, ist (4.4.4) nicht direkt anwendbar. Wir können aber das

Intervall [0, 2π) in die Teile[0, π) und [π, 2π) zerlegen, und dann die Verteilung ähnlich wie im

Beweis von Satz 4.18 berechnen. Wegen

P [cos θ > c] = P [cos θ > c und θ ∈ [0, π)] + P [cos θ > c und θ ∈ [π, 2π)]

= P [θ ∈ [0, arccos c)] + P [θ ∈ [π − arccos c, π)]

=2

2π· arccos c

erhalten wir, dasscos θ eine sogenannte „Halbkreisverteilung“ mit Dichte

fcos θ(x) = F ′cos θ(x) =

1

π· 1√

1− x2; x ∈ [−1, 1)

hat.

1

1−1

Abbildung 4.15: Abbildung der Dichtefunktionfcos θ

Universität Bonn Wintersemester 2009/2010

Page 136: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

136 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Anstelle von (4.4.4) gilt in diesem Fall

fcos θ(x) = fX(ψ1(x)) · |ψ′1(x)|+ fX(ψ2(x)) · |ψ′

2(x)|,

wobeiψ1(x) = arccos x undψ2(x) = 2π − arccos x die Umkehrfunktionen auf den Teilinter-

vallen sind. Entsprechende Formeln erhält man auch allgemein, wenn die Transformation nur

stückweise bijektiv ist. Auf ähnliche Weise zeigt man füra > 0 (Übung):

fa tan θ(x) =1

πa· 1

1 + (x/a)2, x ∈ R.

0.2

0.4

1 2−1−2

Abbildung 4.16: Abbildung der Dichtefunktionfa tan θ

Die Verteilung mit dieser Dichte heißtCauchyverteilungzum Parametera. Sie beschreibt unter

anderem die Intensitätsverteilung auf einer Geraden, die von einer in alle Richtungen gleichmäßig

strahlenden Lichtquelle im Abstanda bestrahlt wird.

a · tan θ

a

θ

4.5 Quantile und Inversionsverfahren

Quantile sind Stellen, an denen die Verteilungsfunktion einen bestimmten Wert überschreitet.

Mithilfe von Quantilen kann man daher verallgemeinerte Umkehrfunktionen der im Allgemeinen

nicht bijektiven Verteilungsfunktion definieren. Diese Umkehrabbildungen werden wir nutzen,

um reellwertige Zufallsvariablen mit einer gegebenen Verteilungsfunktion explizit zu konstruie-

ren.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 137: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.5. QUANTILE UND INVERSIONSVERFAHREN 137

Quantile

In praktischen Anwendungen (z.B. Qualitätskontrolle) müssen häufig Werte berechnet werden,

sodass ein vorgegebener Anteil der Gesamtmasse einer Wahrscheinlichkeitsverteilung aufR un-

terhalb dieses Wertes liegt. SeiX : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeits-

raum(Ω,A, P ) mit VerteilungsfunktionF .

Definition. Seiu ∈ [0, 1]. Dann heißtq ∈ R einu-Quantil der Verteilung vonX, falls

P [X < q] ≤ u und P [X > q] ≤ 1− u

gilt. Ein 12-Quantil heißtMedian.

Ist die Verteilungsfunktion nicht streng monoton wachsend, dann kann es mehrereu-Quantile zu

einem Wertu geben.

Beispiel (Stichprobenquantile). Wir betrachten eine Stichprobe, die ausn reellwertigen Daten

/ Messwertenx1, . . . , xn mit x1 ≤ x2 ≤ . . . ≤ xn besteht. Dieempirische Verteilung der

Stichprobe ist die Wahrscheinlichkeitsverteilung

µ =1

n

n∑

i=1

δxi

auf (R,P(R)), d.h. fürB ⊆ R ist

µ[B] =1

n|xi ∈ B, 1 ≤ i ≤ n|

die relative Häufigkeit des BereichsB unter den Messwertenxi. Die empirische Verteilung ergibt

sich, wenn wir zufällig eini ∈ 1, . . . , n wählen, und den entsprechenden Messwert betrachten.

Die Quantile der empirischen Verteilung bezeichnet man alsStichprobenquantile. Füru ∈ [0, 1]

sei

ku := 1 + (n− 1)u ∈ [1, n].

Ist ku ganzzahlig, dann istxku das eindeutigeu-Quantil der Stichprobe. Allgemein ist jedesq ∈[x⌊ku⌋, x⌈ku⌉] einu-Quantil der Stichprobe, d.h. fürku 6∈ Z gibt es mehrereu-Quantile.

Wir definieren nun zwei verallgemeinerte Inverse einer VerteilungsfunktionF , die ja im Allge-

meinen nicht bijektiv ist. Füru ∈ (0, 1) sei

G(u) := infx ∈ R|F (x) ≥ u = supx ∈ R|F (x) < u

Universität Bonn Wintersemester 2009/2010

Page 138: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

138 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

und

G(u) := infx ∈ R|F (x) > u = supx ∈ R|F (x) ≤ u.

Offensichtlich giltG(u) ≤ G(u). Ist die FunktionF stetig und streng monoton wachsend, also

eine Bijektion vonR nach(0, 1), dann giltG(u) = G(u) = F−1(u). Die FunktionG heißt daher

auch dielinksstetige verallgemeinerte InversevonF . Der folgende Satz zeigt, dassG(u) das

kleinste undG(u) das größteu-Quantil ist:

Satz 4.19.Für u ∈ (0, 1) undq ∈ R sind die folgenden Aussagen äquivalent:

(1). q ist einu-Quantil.

(2). F (q−) ≤ u ≤ F (q).

(3). G(u) ≤ q ≤ G(u).

Hierbei istF (q−) := limyրq

F (y) der linksseitige Limes vonF an der Stelleq.

Beweis.Nach Definition istq genau dann einu-Quantil, wenn

P [X < q] ≤ u ≤ 1− P [X > q] = P [X ≤ q]

gilt. Hieraus folgt die Äquivalenz von (1) und (2).

Um zu beweisen, dass (3) äquivalent zu diesen Bedingungen ist, müssen wir zeigen, dassG(u)

das kleinste undG(u) das größteu-Quantil ist. Wir bemerken zunächst, dassG(u) einu-Quantil

ist, da

F (G(u)−) = limxրG(u)

F (x)︸ ︷︷ ︸<u

für x<G(u)

≤ u,

und

F (G(u)) = limxցG(u)

F (x)︸ ︷︷ ︸≥u

für x>G(u)

≥ u.

Andererseits gilt fürx < G(u):

F (x) < u,

d.h.x ist keinu-Quantil. Somit istG(u) das kleinsteu-Quantil. Auf ähnliche Weise folgt, dass

G(u) das größteu-Quantil ist (Übung!).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 139: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.5. QUANTILE UND INVERSIONSVERFAHREN 139

Konstruktion und Simulation reellwertiger Zufallsvariablen

Wie erzeugt man ausgehend von auf(0, 1) gleichverteilten Zufallszahlen Stichproben von ande-

ren Verteilungenµ aufR1?

Endlicher Fall: Gilt µ(S) = 1 für eine endliche TeilmengeS ⊆ R, dann können wir die Frage

leicht beantworten: SeiS = x1, . . . , xn ⊆ R mit n ∈ N und x1 < x2 < . . . < xn. Die

Verteilungsfunktion einer Wahrscheinlichkeitsverteilungµ aufS ist

F (c) = µ[(−∞, c]] =∑

i:xi≤c

µ(xi).

IstU eine auf(0, 1) gleichverteilte Zufallsvariable, dann wird durch

X(ω) = xk falls F (xk−1) < U(ω) ≤ F (xk), x0 := −∞

eine Zufallsvariable mit Verteilungµ definiert, denn

P [X = xk] = F (xk)− F (xk−1) = µ[xk].

1

x1 x2 x3 x4 x5 x6 x7

µ(x

1 )

Generiereu

∼U

nif[0,1]

u

F (x)

Abbildung 4.17: Wir generieren eine uniform auf(0, 1) verteilte Pseudozufallszahlu. Suche nun

das minimalek ∈ N, für dask∑

i=1

µ(xi) > u. Dann istx = xk eine Pseudozufallsstichprobe von

der Verteilungµ.

Universität Bonn Wintersemester 2009/2010

Page 140: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

140 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Allgemeiner Fall: Wir wollen das Vorgehen nun verallgemeinern. SeiF : R → [0, 1] eine

Funktion mit den Eigenschaften

(1). monoton wachsend: F (x) ≤ F (y) ∀ x ≤ y

(2). rechtsstetig: limx↓c

F (x) = F (c) ∀ c ∈ R

(3). normiert: limxց−∞

F (x) = 0 , limxր+∞

F (x) = 1.

Das folgende Resultat liefert eine explizite Konstruktion einer Zufallsvariable mit Verteilungs-

funktionF :

Satz 4.20.Ist F : R → [0, 1] eine Funktion mit (1)-(3), und

G(u) = infx ∈ R|F (x) ≥ c, u ∈ (0, 1),

die linksstetige verallgemeinerte Inverse, dann ist das Bild

µ := U(0,1) G−1

der Gleichverteilung auf(0, 1) unterG eine Wahrscheinlichkeitsverteilung aufR mit Verteilungs-

funktionF .

Insbesondere gilt: IstU : Ω → (0, 1) eine unterP gleichverteilte Zufallsvariable, dann hat die

Zufallsvariable

X(ω) := G(U(ω))

unterP die VerteilungsfunktionF .

Beweis.DaG(u) einu-Quantil ist, giltF (G(u)) ≥ u, also

G(u) = minx ∈ R|F (x) ≥ u,

und somit fürc ∈ R :

G(u) ≤ c ⇐⇒ F (x) ≥ u für einx ≤ c ⇐⇒ F (c) ≥ u.

Es folgt:

P [G(U) ≤ c] = U(0,1)[u ∈ (0, 1)| G(u) ≤ c︸ ︷︷ ︸⇐⇒ F (c)≥u

]

= U(0,1)[(0, F (c))] = F (c).

Also istF die Verteilungsfunktion vonG(U) bzw. vonµ.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 141: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.5. QUANTILE UND INVERSIONSVERFAHREN 141

Bemerkung. (1). IstF eine Bijektion vonR nach(0, 1) (also stetig und streng monoton wach-

send), dann istG = F−1.

(2). NimmtX nur endlich viele Wertex1 < x2 < . . . < xn an, dann istF stückweise konstant,

und es gilt:

G(u) = xk für F (xk−1) < u ≤ F (xk), x0 := −∞,

d.h.G ist genau die oben im endlichen Fall verwendete Transformation.

Das Resultat liefert einen

Existenzsatz: Zu jeder FunktionF mit (1)-(3) existiert eine reelle ZufallsvariableX bzw. eine

Wahrscheinlichkeitsverteilungµ aufR mit VerteilungsfunktionF .

Zudem erhalten wir einen expliziten Algorithmus zur Simulation einer Stichprobe vonµ:

Algorithmus 4.21 (Inversionsverfahren zur Simulation einer Stichprobex von µ).

(1). Erzeuge (Pseudo)-Zufallszahlu ∈ (0, 1).

(2). Setzex := G(u).

Dieser Algorithmus funktioniert theoretisch immer. Er istaber oft nicht praktikabel, da manG

nicht immer berechnen kann, oder da das Anwenden der TransformationG (zunächst unwesent-

liche) Schwachstellen des verwendeten Zufallsgeneratorsverstärkt. Man greift daher oft selbst

im eindimensionalen Fall auf andere Simulationsverfahrenwie z.B. „Acceptance Rejection“ Me-

thoden zurück.

Beispiel. (1). BERNOULLI(p)-VERTEILUNG AUF 0, 1. Hier gilt:

F = (1− p) · I[0, 1) + 1 · I[1,∞)

undG = 1(1−p,1), siehe Abbildung 4.18.

Also ist die ZufallsvariableG(U) = IU<1−p für U ∼ U(0,1) Bernoulli(p)-verteilt.

(2). GLEICHVERTEILUNG AUF (a, b):

F (c) =c− a

b− afür c ∈ [a, b],

G(u) = a+ (b− a)u,

siehe Abbildung 4.19. Also ista+ (b− a)U für U ∼ U(0,1) gleichverteilt auf(a, b).

Universität Bonn Wintersemester 2009/2010

Page 142: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

142 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

1

1

1− p

F

1

1

G = I(1−p,1)

Abbildung 4.18:G(U) = IU>1−p ist Bernoulli(p)-verteilt.

1

a b

F

0 1

a

b G = a+ (b− a)u

Abbildung 4.19:G(u) = a+ (b− a)u ist (für u ∼ unif(0, 1)) uniform auf(a, b) verteilt.

(3). EXPONENTIALVERTEILUNG MIT PARAMETER λ > 0:

F (x) = 1− e−λx, G(u) = F−1(u) = −1

λlog(1− u).

Anwenden des Logarithmus transformiert also die gleichverteilte Zufallsvariable1 − u in

eine exponentialverteilte Zufallsvariable.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 143: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 143

4.6 Normalapproximation der Binomialverteilung

Die Binomialverteilung mit Parameternn undp beschreibt die Verteilung der Anzahl derjenigen

untern unabhängigen Ereignissen mit Wahrscheinlichkeitp, die in einem Zufallsexperiment ein-

treten. Viele Anwendungsprobleme führen daher auf die Berechnung von Wahrscheinlichkeiten

bzgl. der Binomialverteilung. Für großen ist eine exakte Berechnung dieser Wahrscheinlichkei-

ten aber in der Regel nicht mehr möglich. Bei seltenen Ereignissen kann man die Poissonappro-

ximation zur näherungsweisen Berechnung nutzen:

Konvergiertn → ∞, und konvergiert gleichzeitig der Erwartungswertn · pn gegen eine positive

reelle Zahlλ > 0, dann nähern sich die Gewichtebn,pn(k) der Binomialverteilung denen einer

Poissonverteilung mit Parameterλ an:

bn,pn(k) =

(n

k

)pkn(1− pn)

n−k → λk

ke−λ (k = 0, 1, 2, . . .),

siehe Satz 1.5. Geht die Wahrscheinlichkeitpn für n → ∞ nicht gegen 0, sondern hat zum Bei-

spiel einen festen Wertp ∈ (0, 1), dann kann die Poissonapproximation nicht verwendet werden.

Stattdessen scheinen sich die Gewichte der Binomialverteilung einer Gaußschen Glockenkurve

anzunähern, wie z.B. die folgende mit Mathematica erstellteGrafik zeigt:

Man ipu la te [

L i s t P l o t [

Table [ k , PDF[ B i n o m i a l D i s t r i b u t i o n [ n , Min [ 1 , lambda / n ] ] , k ] , k , 0 ,

I n tege rPa r t [4 lambda ] ] ,

F i l l i n g −> Axis , PlotRange −> Al l ,

P l o tMa rke rs −> Automatic , Medium , Axes −> True , Fa lse ] , n , 10 ,

" n " , 3 , 300 ,1 ,

lambda , 5 , " E rwar tungswer t : np=Lambda " , 2 , 20 ]

Universität Bonn Wintersemester 2009/2010

Page 144: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

144 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Wir wollen diese Aussage nun mathematisch präzisieren und beweisen.

Der Satz von De Moivre - Laplace

Wir analysieren zunächst das asymptotische Verhalten von Binomialkoeffizienten mithilfe der

Stirlingschen Formel.

Definition. Zwei Folgenan, bn ∈ R+, n ∈ N, heißenasymptotisch äquivalent(an ∼ bn), falls

limn→∞

anbn

= 1

gilt.

Bemerkung.

(1). an ∼ bn ⇐⇒ ∃εn → 0 : an = bn(1 + εn) ⇐⇒ log an − log bn → 0

(2). an ∼ bn ⇐⇒ bn ∼ an ⇐⇒ 1an

∼ 1bn

(3). an ∼ bn, cn ∼ dn =⇒ an · cn ∼ bn · dn

Satz 4.22(Stirlingsche Formel).

n! ∼√2πn ·

(ne

)n

Zum Beweis nimmt man den Logarithmus, und schätzt die sich ergebende Summe mithilfe eines

Integrals ab, siehe z.B. Forster: „Analysis I“.

Mithilfe der Stirlingschen Formel können wir die Gewichte

bn,p(k) =

(n

k

)pk(1− p)n−k

der Binomialverteilung für großen und k approximieren. Sei dazuSn eineBin(n, p)-verteilte

Zufallsvariable auf(Ω,A, P ). Für den Erwartungswert und die Standardabweichung vonSn gilt:

E[Sn] = np und σ(Sn) =√V ar[Sn] =

√np(1− p).

Dies deutet darauf hin, dass sich die Masse der Binomialverteilung für großen überwiegend in

einer Umgebung der GrößenordnungO(√n) umnp konzentriert.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 145: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 145

O(√n)

np

Abbildung 4.20: Die Gewichte der Binomialverteilung liegenfür großen näherungsweise auf

einer Glockenkurve mit Mittelnp und Standardabweichung√np(1− p).

Wir werden nun mithilfe der Stirlingschen Formel die Gewichte

bn,p(k) = P [Sn = k] =

(n

k

)pk(1− p)n−k

der Binomialverteilung für großen und k in einer Umgebung der GrößenordnungO(√n) von

np ausgehend von der Stirlingschen Formel approximieren, unddie vermutete asymptotische

Darstellung präzisieren und beweisen.

Dazu führen wir noch folgende Notation ein: Wir schreiben

an(k) ≈ bn(k) („lokal gleichmäßig asymptotisch äquivalent“),

falls

supk∈Un,r

∣∣∣∣an(k)

bn(k)− 1

∣∣∣∣→ 0 für alle r ∈ R+ gilt,

wobei

Un,r = 0 ≤ k ≤ n : |k − np| ≤ r · √n.

Die Aussagen aus der Bemerkung oben gelten analog für diese Art der lokal gleichmäßigen

asymptotischen Äquivalenz vonan(k) undbn(k).

Satz 4.23(de Moivre 1733, Laplace 1819). Seip ∈ (0, 1) undσ2 = p(1− p). Dann gilt:

(1). P [Sn = k] = bn,p(k) ≈ 1√2πnσ2

exp

(− 1

2σ2

(k − np√

n

)2)

=: bn,p(k)

(2). P

[a ≤ Sn − np√

n≤ b

]nր∞−→

b∫a

1√2πσ2

e−x2

2σ2

︸ ︷︷ ︸Gaußsche Glockenkurve

dx

Universität Bonn Wintersemester 2009/2010

Page 146: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

146 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Beweis. (1). Wir beweisen die Aussage in zwei Schritten:

(a) Wir zeigen zunächst mithilfe derStirlingschen Formel:

bn,p(k) ≈ 1√2πn k

n(1− k

n)·(pkn

)k

·(1− p

1− kn

)n−k

=: bn,p(k) (4.6.1)

Es gilt

limn→∞

n!√2πn

(ne

)n = 1.

Fürk ∈ Un,r gilt

k ≥ np− A · √n n→∞−→ ∞,

also folgt

supk∈Un,r

∣∣∣∣∣k!√

2πk(ke

)k − 1

∣∣∣∣∣ −→ 0 für n→ ∞,

d.h.

k! ≈√2πk

(k

e

)k

.

Analog erhält man

(n− k)! ≈√2π(n− k)

(n− k

e

)n−k

,

und damit

bn,p(k) =n!

k! · (n− k)!pk(1− p)n−k

≈√2πn · nn · pk · (1− p)n−k

2π√k(n− k) · kk · (n− k)n−k

=

√n

2πk(n− k)

(npk

)k (n(1− p)

n− k

)n−k

= bn,p(k).

(b) Wir zeigen nun mithilfe einerTaylorapproximation :

bn,p(k) ≈ bn,p(k) (4.6.2)

Fürk ∈ Un,r gilt ∣∣∣∣k

n− p

∣∣∣∣ ≤ r · n− 12 ,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 147: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 147

woraus folgt:√2π · n · k

n·(1− k

n

)≈

√2π · n · p · (1− p) =

√2π · n · σ2. (4.6.3)

Um die Asymptotik der übrigen Faktoren vonbn,p(k) zu erhalten, verwenden wir eine

Taylorapproximation für den Logarithmus :

Wegen

x logx

p= x− p+

1

2p(x− p)2 +O(|x− p|3)

gilt:

log

(pkn

)k(1− p

1− kn

)n−k

= (−n)

k

nlog

(kn

p

)

︸ ︷︷ ︸Taylor= k

n−p+ 1

2p( kn−p)2+O(| k

n−p|3)

+

(1− k

n

)log

(1− k

n

1− p

)

︸ ︷︷ ︸=p− k

n+ 1

2(1−p)(p− k

n)2+O(| k

n−p|3)

=1

2p(k

n− p)2 +

1

2(1− p)(p− k

n)2

︸ ︷︷ ︸

=(p− k

n)2

2

(1

p+

1

1− p

)

︸ ︷︷ ︸= 1

p(1−p)

+O(|kn− p|3)

=1

2p(1− p)(p− k

n)2 +O(|k

n− p|3)

Fürk ∈ Un,r gilt: ∣∣∣∣k

n− p

∣∣∣∣3

≤ r3 · n− 32 .

Also folgt:

log

(pkn

)k(1− p

1− kn

)n−k = − 1

2σ2

(k

n− p

)2

+Rk,n,

wobei|Rk,n| ≤ const.· r3n− 12 für allek ∈ Un,r, d.h.

(pkn

)k(1− p

1− kn

)n−k

≈ exp

(− 1

2σ2

(k

n− p

)2). (4.6.4)

Aussage (4.6.2) folgt dann aus (4.6.3) und (4.6.4).

Universität Bonn Wintersemester 2009/2010

Page 148: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

148 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

(c) Aus (a) und (b) folgt nun Behauptung (1).

(2). Aufgrund von (1) erhalten wir füra, b ∈ R mit a < b:

P

[a ≤ Sn − np√

n≤ b

]=

k∈0,1,...,na≤ k−np√

n≤b

P [Sn = k]︸ ︷︷ ︸=bn,p(k)≈bn,p(k)

=∑

k∈0,1,...,na≤ k−np√

n≤b

bn,p(k)(1 + εn,p(k)),

wobei

εn,p := supa≤ k−np√

n≤b

|εn,p(k)| −→ 0 für n→ ∞. (4.6.5)

Wir zeigen nun

limn→∞

k∈0,1,...,na≤ k−np√

n≤b

bn,p(k) =

b∫

a

1√2πσ2

· exp(− x2

2σ2

)dx (4.6.6)

Aus (4.6.5) und (4.6.6) folgt dann die Behauptung, da∣∣∣∣∣∣∣∣∣∣

k∈0,1,...,na≤ k−np√

n≤b

bn,p(k) · εn,p(k)

∣∣∣∣∣∣∣∣∣∣

≤ εn,p︸︷︷︸→0

·∑

k∈0,1,...,na≤ k−np√

n≤b

bn,p(k)

︸ ︷︷ ︸→

∫ ba ...dx<∞

n→∞ −→ 0

Zum Beweis von (4.6.6) sei

Γn :=

k − np√

n

∣∣∣∣ k = 0, 1, . . . , n

⊆ R.

Dann istΓn ein äquidistantes Gitter mit Maschenweite∆ = 1√n, und es gilt

k∈0,1,...,na≤ k−np√

n≤b

bn,p(k) =∑

x∈Γn

a≤x≤b

1√2πσ2

− x2

2σ2

∆x.

Für n → ∞ folgt (4.6.6), da die rechte Seite eine Riemannsummenapproximation des

Integrals ist.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 149: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 149

Der Satz von de Moivre/Laplace besagt, dass die Verteilungen der ZufallsvariablenSn−np√n

für

n→ ∞ schwachgegen die NormalverteilungN(0, σ2) mit Varianzσ2 = p(1−p) konvergieren.

Die allgemeine Definition der schwachen Konvergenz einer Folge von Wahrscheinlichkeitsvertei-

lungen wird in Abschnitt 8.3 unten gegeben. IstZ eine standardnormalverteilte Zufallsvariable,

dann gilt:Sn − np√

n

D−→ σZ,

bzw.Sn − E[Sn]

σ(Sn)=

Sn − np

σ√n

D−→ Z, (4.6.7)

wobei „D→“ für schwache Konvergenz der Verteilungen der Zufallsvariablen steht (Konvergenz

in Verteilung , s.u.).

Bemerkung. (1). Die Aussage (4.6.7) ist ein Spezialfall eines viel allgemeineren zentralen

Grenzwertsatzes:

SindX1, X2, . . . unabhängige, identisch verteilte Zufallsvariablen mit endlicher Varianz,

und istSn = X1 + . . . + Xn, dann konvergieren die Verteilungen der standardisierten

SummenSn − E[Sn]

σ(Sn)

schwach gegen eine Standardnormalverteilung, s.u.

Die Normalverteilung tritt also als universeller Skalierungslimes von Summen unabhängi-

ger Zufallsvariablen auf.

(2). Heuristisch gilt für großen nach (4.6.7)

„ SnD≈ np+

√np(1− p) · Z, “ (4.6.8)

wobei „D≈“ dafür steht, dass sich die Verteilungen der Zufallsvariablen einander in einem

gewissen Sinn annähern. In diesem Sinne wäre für großen

„Bin(n, p)D≈ N(np, np(1− p)).“

Entsprechende „Approximationen“ werden häufig in Anwendungen benutzt, sollten aber

hinterfragt werden, da beim Übergang von (4.6.7) zu (4.6.8)mit dem divergierende Fak-

tor√n multipliziert wird. Die mathematische Präzisierung entsprechender heuristischer

Argumentationen erfolgt üblicherweise über den Satz von deMoivre/Laplace.

Universität Bonn Wintersemester 2009/2010

Page 150: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

150 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

Beispiel(Faire Münzwürfe ). SeienX1, X2, . . . unabhängige Zufallsvariablen mitP [Xi = 0] =

P [Xi = 1] = 12

und seiSn = X1 + . . .+Xn (z.B. Häufigkeit von „Zahl“ bein fairen Münzwür-

fen). In diesem Fall ist alsop = 12

undσ =√p(1− p) = 1

2.

(1). 100 faire Münzwürfe:

P [S100 > 60] = P [S100 − E[S100] > 10] = P

[S100 − E[S100]

σ(S100)>

10

σ√100

]

Da S100−E[S100]σ(S100)

nach (4.6.7) näherungsweiseN(0, 1)-verteilt ist, und 10σ√100

= 2, folgt

P [S100 > 60] ≈ P [Z > 2] = 1− Φ(2) ≈ 0.0227 = 2.27%.

(2). 16 faire Münzwürfe:

P [S16 = 8] = P [7.5 ≤ S16 ≤ 8.5] = P [|S16 − E[S16]| ≤ 0.5]

= P

[∣∣∣∣S16 − E[S16]

σ(S16)

∣∣∣∣ ≤0.5

σ√16

]

Mit 0.5σ√16

= 14

folgt:

P [S16 = 8] ≈ P [|Z| ≤ 1.4] = 0.1974...

Der exakte Wert beträgtP [S16 = 8] = 0.1964.... Bei geschickter Anwendung ist die Nor-

malapproximation oft schon für eine kleine Anzahl von Summanden relativ genau!

Approximative Konfidenzintervalle

Angenommen, wir wollen den Anteilp der Wähler einer Partei durch Befragung vonn Wählern

schätzen. SeienX1, . . . , Xn unterPp unabhängige und Bernoulli(p)-verteilte Zufallsvariablen,

wobeiXi = 1 dafür steht, dass deri-te Wähler für die ParteiA stimmen wird. Ein nahe liegen-

der Schätzwert fürp ist Xn := Sn

n. Wie viele Stichproben braucht man, damit der tatsächliche

Stimmenanteil mit95% Wahrscheinlichkeit um höchstensε = 1% von Schätzwert abweicht?

Definition. Seiα ∈ (0, 1). Das zufällige Intervall[Xn − ε,Xn + ε] heißt Konfidenzintervall zum

Konfidenzniveau1− α (bzw. zum Irrtumsniveauα) für den unbekannten Parameterp, falls

Pp[p 6∈ [Xn − ε,Xn + ε]] ≤ α

für alle möglichen Parameterwertep ∈ [0, 1] gilt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 151: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

4.6. NORMALAPPROXIMATION DER BINOMIALVERTEILUNG 151

Im Prinzip lassen sich Konfidenzintervalle aus den Quantilen der zugrundeliegenden Verteilung

gewinnen. In der Situation von oben gilt beispielsweise:

p ∈ [Xn − ε,Xn + ε] ⇐⇒ |Xn − p| ≤ ε ⇐⇒ Xn ∈ [p− ε, p+ ε]

⇐⇒ Sn ∈ [n(p− ε), n(p+ ε)]

Diese Bedingung ist fürp ∈ [0, 1] mit Wahrscheinlichkeit≥ 1 − α erfüllt, falls z.B.n(p − ε)

oberhalb desα2-Quantils undn(p + ε) unterhalb des(1 − α

2)-Quantils der Binomialverteilung

Bin(n, p) liegt.

Praktikablere Methoden, um in unserem Modell Konfidenzintervalle zu bestimmen, sind zum

Beispiel:

Abschätzung mithilfe der Cebyšev-Ungleichung:

Pp

[∣∣∣∣Sn

n− p

∣∣∣∣ ≥ ε

]≤ 1

ε2·V ar

(Sn

n

)=

p(1− p)

nε2≤ 1

4nε2!

≤ α ∀ p ∈ [0, 1]

Dies ist erfüllt fürn ≥ 14ε2α

, also im Beispiel fürn ≥ 50.000.

Abschätzung über die exponentielle Ungleichung:

Pp

[∣∣∣∣Sn

n− p

∣∣∣∣ ≥ ε

]≤ 2 · e−2ε2n ≤ α ∀ p ∈ [0, 1],

ist erfüllt für n ≥ 12ε2

log( 2α), also im Beispiel fürn ≥ 18445.

Die exponentielle Abschätzung ist genauer - sie zeigt, dassbereits weniger als 20.000 Stichpro-

ben genügen. Können wir mit noch weniger Stichproben auskommen ? Dazu berechnen wir die

Wahrscheinlichkeit, dass der Parameter im Intervall liegt, näherungsweise mithilfe des zentralen

Grenzwertsatzes:

Approximative Berechnung mithilfe der Normalapproximatio n:

Pp

[∣∣∣∣Sn

n− p

∣∣∣∣ ≤ ε

]= Pp

[∣∣∣∣∣Sn − np√np(1− p)

∣∣∣∣∣ ≤nε√

np(1− p)

]

≈ N(0, 1)

(−

√nε√

p(1− p),

√nε√

p(1− p)

)

= 2

( √nε√

p(1− p)

)− 1

2

)

p(1−p)≤ 14≥ 2Φ(2

√nε)− 1 ≥ 1− α ∀ p ∈ [0, 1],

Universität Bonn Wintersemester 2009/2010

Page 152: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

152 KAPITEL 4. STETIGE UND ALLGEMEINE MODELLE

falls

n ≥(

1

2ε· Φ−1

(1− α

2

))2

.

Im Beispiel gilt

Φ−1(1− α

2

)≈ 1.96

und die Bedingung ist fürn ≥ 9604 erfüllt. Also sollten bereits ca.10.000 Stichproben ausrei-

chen!Exakte(also ohne Verwendung einer Näherung hergeleitete) Konfidenzintervalle sind in

vielen Fällen zu konservativ. In Anwendungen werden daher meistensapproximativeKonfidenz-

intervalle angegeben, die mithilfe einer Normalapproximation hergeleitet wurden. Dabei ist aber

folgendes zu beachten:

Warnung: Mithilfe der Normalapproximation hergeleitete approximative Konfidenzintervalle

erfüllen die Niveaubedingung im Allgemeinen nicht (bzw. nur näherungsweise). Da die Qualität

der Normalapproximation fürp → 0 bzw. p → 1 degeneriert, ist die Niveaubedingung im All-

gemeinen selbst fürn→ ∞ nicht erfüllt. Beispielsweise beträgt das Niveau von approximativen

99% Konfidenzintervallen asymptotisch tatsächlich nur96.8%!

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 153: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 5

Unabhängigkeit und Produktmodelle

5.1 Unabhängigkeit in allgemeinen Modellen

Unabhängigkeit von Ereignissen

In Abschnitt 2.3 haben wir einen Unabhängigkeitsbegriff für Ereignisse eingeführt: Eine Kol-

lektion Ai, i ∈ I, von Ereignissen aus derselbenσ-AlgebraA heißt unabhängig bzgl. einer

WahrscheinlichkeitsverteilungP , falls

P [Ai1 ∩ Ai2 ∩ . . . ∩ Ain ] =n∏

k=1

P [Aik ] (5.1.1)

für allen ∈ N und alle paarweise verschiedeneni1, . . . , in ∈ I gilt.

Beispiel. Ein EreignisA ist genau dann unabhängig von sich selbst, wennP [A] = P [A ∩ A] =P [A]2 gilt, also wenn die Wahrscheinlichkeit vonA gleich0 oder1 ist. Solche Ereignisse nennt

man auch deterministisch.

Wir wollen den obigen Unabhängigkeitsbegriff nun auf Ereignissysteme erweitern.

Definition. Eine KollektionAi (i ∈ I) von MengensystemenAi ⊆ A heißtunabhängig (bzgl.

P ), falls jede KollektionAi (i ∈ I) von EreignissenAi ∈ Ai unabhängig ist, d.h.

P [Ai1 ∩ . . . ∩ Ain ] =n∏

k=1

P [Aik ]

für alle n ∈ N, i1, . . . , in ∈ I paarweise verschieden, undAik ∈ Aik (1 ≤ k ≤ n).

Sind zum BeispielA und B unabhängige Ereignisse, dann sindσ(A) = ∅, A,AC ,Ω und

σ(B) = ∅, B,BC ,Ω unabhängige Mengensysteme. Allgemeiner:

153

Page 154: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

154 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Satz 5.1.SeienAi (i ∈ I) unabhängige Mengensysteme. JedesAi sei durchschnittsstabil. Dann

gilt:

(1). Dieσ-Algebrenσ(Ai) (i ∈ I) sind unabhängige Mengensysteme.

(2). Ist I =⋃

k∈KIk eine disjunkte Zerlegung vonI, dann sind auch dieσ-Algebrenσ(

⋃i∈Ik

Ai)

(k ∈ K) unabhängige Mengensysteme.

Beispiel. SindA1, . . . , An unabhängige Ereignisse, dann sind die Mengensysteme

A1 = A1, . . . ,An = An

unabhängig und durchschnittsstabil, also sind auch dieσ-Algebren

σ(Ai) = ∅, Ai, ACi ,Ω (i = 1, . . . , n)

unabhängige Mengensysteme, d.h es gilt

P [B1 ∩ . . . ∩ Bn] =n∏

i=1

P [Bi] ∀Bi ∈ ∅, Ai, ACi ,Ω.

Dies kann man auch direkt beweisen, siehe Lemma 2.5 oben.

Ein Beispiel zum zweiten Teil der Aussage von Satz 5.1 werden wir im Anschluss an den Beweis

des Satzes betrachten.

Beweis. (1). Seieni1, . . . , in ∈ I (n ∈ N) paarweise verschieden. Wir müssen zeigen, dass

P [Bi1 ∩ . . . ∩Bin ] = P [Bi1 ] · . . . · P [Bin ] (5.1.2)

für alleBi1 ∈ σ(Ai1), . . . , Bin ∈ σ(Ain) gilt. Dazu verfahren wir schrittweise:

(a) Die Aussage (5.1.2) gilt nach Voraussetzung fürBi1 ∈ Ai1 , . . . , Bin ∈ Ain .

(b) FürBi2 ∈ Ai2 , . . . , Bin ∈ Ain betrachten wir das MengensystemD aller Bi1 ∈A, für die (5.1.2) gilt.D ist ein Dynkinsystem, dasAi1 nach (a) enthält. DaAi1

durchschnittsstabil ist, folgt

D ⊇ D(Ai1) = σ(Ai1).

Also gilt (5.1.2) für alleBi1 ∈ σ(Ai1).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 155: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 155

(c) FürBi1 ∈ σ(Ai1) undBi3 ∈ σ(Ai3), . . . , Bin ∈ σ(Ain) betrachten wir nun das

Mengensystem allerBi2 ∈ A, für die (5.1.2) gilt. Wiederum istD ein Dynkinsystem,

dasAi2 nach (b) enthält. Wie im letzten Schritt folgt daher

D ⊇ D(Ai2) = σ(Ai2),

d.h. (5.1.2) ist für alleBi2 ∈ σ(Ai2) erfüllt.

Anschließend verfahren wir auf entsprechende Weise weiter. Nachn-facher Anwen-

dung eines analogen Arguments folgt die Behauptung.

(2). Fürk ∈ K gilt: σ(⋃i∈Ik

Ai) = σ(Ck) mit

Ck := Bi1 ∩ . . . ∩Bin |n ∈ N, i1, . . . , in ∈ Ik paarw. verschieden, Bij ∈ Aij.

Die MengensystemeCk, k ∈ K, sind durchschnittsstabil und unabhängig, da jede Kollek-

tion von EreignissenBi ∈ Ai, i ∈ I, nach Voraussetzung unabhängig ist. Also sind nach

Teil (1) der Aussage auch dieσ-Algebrenσ(Ck), k ∈ K, unabhängig.

Beispiel (Affe tippt Shakespeare). Wir betrachten unabhängige0-1-Experimente mit Erfolgs-

wahrscheinlichkeitp. SeiXi(ω) ∈ 0, 1 der Ausgang desi-ten Experiments. Für ein binäres

Wort (a1, . . . , an) ∈ 0, 1n, n ∈ N, gilt:

P [X1 = a1, . . . , Xn = an] = P

[n⋂

i=1

Xi = ai]

unabh.= pk · (1− p)n−k,

wobeik = a1 + . . .+ an die Anzahl der Einsen in dem Wort ist. Wir zeigen nun:

Behauptung: P [Wort kommt unendlich oft in der FolgeX1, X2, . . . vor] = 1, falls p 6∈ 0, 1.

Zum Beweis bemerken wir, dass die Ereignisse

Em = Xmn+1 = a1, Xmn+2 = a2, . . . , Xmn+n = an, m ∈ N,

„Text steht imm-ten Block“

unabhängig sind. Nach Satz 5.1 sind nämlich dieσ-Algebren

σ(Xmn+1 = 1, Xmn+2 = 1, . . . , Xmn+n = 1), m ∈ N,

unabhängig, also auch die darin enthaltenen EreignisseEm. Fürp 6= 0 gilt:

P [Em] = pk · (1− p)n−k > 0,

Universität Bonn Wintersemester 2009/2010

Page 156: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

156 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

also ∞∑

m=1

P [Em] = ∞.

Damit folgt nach Borel-Cantelli:

1 = P [Em unendlich oft] ≤ P [Wort kommt unendlich oft vor].

Unabhängigkeit von Zufallsvariablen

Wir betrachten nun Zufallsvariablen mit Werten in einem messbaren Raum(S,S).

Definition. SeienX,Xi : Ω → S, i ∈ I, Abbildungen.

(1). Das Mengensystem

σ(X) := X−1(B)|B ∈ S ⊆ P(Ω)

heißtdie vonX erzeugteσ-AlgebraaufΩ.

(2). Allgemeiner heißt

σ(Xi|i ∈ I) := σ

(⋃

i∈Iσ(Xi)

)= σ(X−1

i (B)|B ∈ S, i ∈ I)

die von den AbbildungenXi, i ∈ I, erzeugteσ-Algebra.

Bemerkung. (1). Man prüft leicht nach, dassσ(X) tatsächlich eineσ-Algebra ist.

(2). Eine AbbildungX : Ω → S ist messbar bzgl.A/S genau dann, wennσ(X) ⊆ A gilt.

Somit istσ(X) diekleinsteσ-Algebra aufΩ, bzgl. derX messbar ist.

(3). Entsprechend istσ(Xi, i ∈ I) die kleinsteσ-Algebra aufΩ, bzgl. der alle AbbildungenXi

messbar sind.

Beispiel (Produkt-σ-Algebra). SeiΩ = 0, 1N = ω = (x1, x2, . . .)|xi ∈ 0, 1, oder ein

allgemeiner Produktraum, und seiXi(ω) = xi die Projektion auf diei-te Komponente. Dann ist

die Produkt-σ-AlgebraA aufΩ gerade die von den AbbildungenXi erzeugteσ-Algebra:

A = σ(X1 = a1, . . . , Xn = an|n ∈ N, a1, . . . , an ∈ 0, 1)= σ(Xi = 1|i ∈ N)

= σ(X1, X2, . . .).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 157: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 157

Messbare Abbildungen auf(Ω,A) sind z.B.

Sn(ω) = X1(ω) + . . .+Xn(ω),

L(ω) = lim supn→∞

1

nSn(ω), L(ω) = lim inf

n→∞

1

nSn(ω), etc.

Wir können nun einen Unabhängigkeitsbegriff für allgemeine Zufallsvariablen einführen, der

kompatibel mit dem oben definierten Unabhängigkeitsbegriff für Mengensysteme ist.

Definition. Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum.

(1). Eine endliche KollektionX1, . . . , Xn : Ω → S von Zufallsvariablen auf(Ω,A, P ) heißt

unabhängig, falls

P [X1 ∈ B1, . . . , Xn ∈ Bn] =n∏

i=1

P [Xi ∈ Bi] ∀Bi ∈ S (1 ≤ i ≤ n). (5.1.3)

(2). Eine beliebige KollektionXi, i ∈ I, von Zufallsvariablen auf(Ω,A, P ) heißtunabhän-

gig, falls jede endliche TeilkollektionXi1 , . . . , Xin (i1, . . . , in ∈ I paarweise verschieden)

unabhängig ist.

Bemerkung. (1). Die Definition istkonsistent: Jede endliche Teilkollektion einer unabhängi-

gen endlichen Kollektion von Zufallsvariablen ist wieder unabhängig im Sinne von (5.1.3).

(2). Die ZufallsvariablenXi, i ∈ I, sind genau dann unabhängig, wenn dieσ-Algebren

σ(Xi) = Xi ∈ B|B ∈ B(S), i ∈ I,

unabhängige Mengensysteme sind.

Sei(S, S) ein weiterer messbarer Raum. Eine sehr wichtige Konsequenz von Bemerkung (2) ist:

Satz 5.2(Funktionen von unabhängigen Zufallsvariablen sind unabhängig). SindXi : Ω →S, i ∈ I, unabhängige Zufallsvariablen auf(Ω,A, P ), und sindhi : S → S messbare Abbildun-

gen, dann sind auch die ZufallsvariablenYi := hi(Xi), i ∈ I, unabhängig bzgl.P .

Beweis.

σ(Yi) = Y −1i (B)︸ ︷︷ ︸

X−1i (h−1

i (B))

| B ∈ S.

Da dieσ-Algebrenσ(Xi), i ∈ I, unabhängig sind, sind auchσ(Yi), i ∈ I, unabhängige Mengen-

systeme.

Universität Bonn Wintersemester 2009/2010

Page 158: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

158 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Aufgrund von Satz 5.1 kann man allgemeiner eine KollektionXi, i ∈ I, von unabhängigen

Zufallsvariablen in disjunkte GruppenXi, i ∈ Ik, I =⋃k

Ik, einteilen, und messbare Funktionen

Yk = hk(Xi|i ∈ Ik), k ∈ K

von den Zufallsvariablen der verschiedenen Gruppen betrachten. Auch dieYk sind dann wieder

unabhängige Zufallsvariablen.

Für unabhängige reellwertige ZufallsvariablenXi (i ∈ I) gilt insbesondere

P [Xi−1 ≤ c1, . . . , Xin ≤ cn] =n∏

k=1

P [Xik ≤ ck] (5.1.4)

für allen ∈ N, i1, . . . , in ∈ I paarweise verschieden, undci ∈ R.

Tatsächlich werden wir im nächsten Abschnitt zeigen, dass Bedingung (5.1.4) äquivalent zur

Unabhängigkeit derXi ist. Als erste Anwendung betrachten wir Extrema von unabhängigen ex-

ponentialverteilten Zufallsvariablen.

Beispiel(Maxima von exponentialverteilten Zufallsvariablen). SeienT1, T2, . . . unabhängige

Exp(1)-verteilte Zufallsvariablen. Wir wollen uns überlegen, wie sich die Extremwerte (Rekorde)

Mn = maxT1, . . . , Tn

asymptotisch fürn→ ∞ verhalten. Dazu gehen wir in mehreren Schritten vor:

(1). Wir zeigen zunächst mithilfe des Borel-Cantelli-Lemmas:

lim supn→∞

Tnlog n

= 1 P -fast sicher. (5.1.5)

Zum Beweis berechnen wir fürc ∈ R:

P

[Tnlog n

≥ c

]= P [Tn ≥ c · log n]

= e−c logn = n−c.

Für c > 1 gilt∞∑n=1

n−c <∞. Nach dem 1. Borel-Cantelli-Lemma folgt daher

P

[lim supn→∞

Tnlog n

> c

]≤ P

[Tnlog n

≥ c unendlich oft

]= 0.

Für cց 1 erhalten wir dann wegen der monotonen Stetigkeit vonP :

P

[lim supn→∞

Tnlog n

> 1

]= lim

cց1P

[lim supn→∞

Tnlog n

> c

]= 0. (5.1.6)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 159: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 159

Für c < 1 gilt∞∑n=1

n−c = ∞. Da die EreignisseTn ≥ c log n, n ∈ N, unabhängig sind,

folgt nach dem 2. Borel-Cantelli Lemma:

P

[lim supn→∞

Tnlog n

≥ c

]≥ P

[Tnlog n

≥ c unendlich oft

]= 1.

Für cր 1 erhalten wir mithilfe der monotonen Stetigkeit:

P

[lim supn→∞

Tnlog n

≥ 1

]= lim

cր1P

[lim supn→∞

Tnlog n

≥ c

]= 1 (5.1.7)

Aus (5.1.6) und (5.1.7) folgt die Behauptung (5.1.5).

(2). Als nächstes folgern wir:

Mn ∼ log n, d.h. limn→∞

Mn

log n= 1 P -f.s. (5.1.8)

Zum Beweis zeigen wir:

(a) lim supn→∞

Mn

log n≤ 1 P -f.s., und

(b) lim infn→∞

Mn

log n≥ 1 P -f.s.

Aussage (a) folgt aus (1), denn fürc ∈ R gilt:

lim supn→∞

Mn

log n> c

⇒ maxT1, . . . , Tn =Mn > c · log n unendlich oft

⇒ Tk(n) > c · log n für k(n) ≤ n für ∞ vielen

⇒ Tk > c · log k unendlich oft

⇒ lim supTklog k

≥ c

Nach (1) hat das letztere Ereignis fürc > 1 Wahrscheinlichkeit 0, also gilt wegen der

monotonen Stetigkeit vonP :

P

[lim supn→∞

Mn

log n> 1

]= lim

cց1P

[lim supn→∞

Mn

log n> c

]= 0.

Zum Beweis von (b) genügt es wegen der monotonen Stetigkeit zuzeigen, dass fürc < 1

P

[Mn

log n> c schließlich

]= P

[Mn

log n≤ c nur endlich oft

]= 1

gilt. Nach Borel-Cantelli I ist dies der Fall, wenn

n∈NP

[Mn

log n≤ c

]< ∞ (5.1.9)

Universität Bonn Wintersemester 2009/2010

Page 160: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

160 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

gilt. Für c ∈ R gilt aber wegen der Unabhängigkeit derTi

P

[Mn

log n≤ c

]= P [Ti ≤ c · log n ∀ 1 ≤ i ≤ n]

= P [T1 ≤ c · log n]n = (1− e−c logn)n

= (1− n−c)n ≤ e−n·n−c

= e−n1−c

,

und diese Folge ist fürc < 1 summierbar. Also gilt (5.1.9) für allec < 1, und damit (b).

(3). Abschließend untersuchen wir die Fluktuationen der ExtremwerteMn um log n noch ge-

nauer. Wir zeigen, dass die ZufallsvariableMn − log n in Verteilung konvergiert:

P [Mn − log n ≤ c]n→∞−→ e−e−c

für alle c ∈ R. (5.1.10)

Beweis.Wegen

P [Mn ≤ c] = P [Ti ≤ c ∀i = 1, . . . , n]

i.i.d.= P [T1 ≤ c]n

= (1− e−c)n für alle c ∈ R

folgt

P [Mn − log n ≤ c] = P [Mn ≤ c+ log n] = (1− 1

n· e−c)n

n→∞−→ e−e−c

Aussage (5.1.10) besagt, dassMn − log n in Verteilung gegen eine Gumbel-verteilte Zu-

fallsvariableX, d.h. eine Zufallsvariable mit VerteilungsfunktionFX(c) = e−e−ckonver-

giert. Für großen gilt also näherungsweise

MnD≈ log n+X, X ∼ Gumbel,

wobeilog n die Asymptotik undX die Fluktuationen beschreibt.

Konfidenzintervalle für Quantile

Sei (x1, . . . , xn) einen-elementige Stichprobe von einer unbekannten Wahrscheinlichkeitsver-

teilungµ auf (R,B(R)). Wir nehmen an, dassx1, . . . , xn Realisierungen von unabhängigen Zu-

fallsvariablen mit stetiger Verteilung sind:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 161: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.1. UNABHÄNGIGKEIT IN ALLGEMEINEN MODELLEN 161

Annahme: X1, . . . , Xn unabhängig unterPµ mit stetiger Verteilungµ.

Wir wollen nun die Quantile (z.B. den Median) der zugrundeliegenden Verteilung auf der Ba-

sis der Stichprobe schätzen. Eine FunktionT (X1, . . . , Xn), T : Rn → R messbar, nennt man

in diesem Zusammenhang auch einStatistikder Stichprobe(X1, . . . , Xn). Eine Statistik, deren

Wert als Schätzwert für eine Kenngrößeq(µ) der unbekannten Verteilung verwendet wird, nennt

man auch einen(Punkt-) Schätzerfür q. Nahe liegende Schätzer für die Quantile vonµ sind die

entsprechenden Stichprobenquantile. Unser Ziel ist es nun, Konfidenzintervallefür die Quantile

anzugeben, d.h. von den WertenX1, . . . , Xn abhängende Intervalle, in denen die Quantileun-

abhängig von der tatsächlichen Verteilungmit hoher Wahrscheinlichkeit enthalten sind. Seien

dazu

X(1) ≤ X(2) ≤ . . . ≤ X(n)

die der Größe nach geordneten WerteX1, . . . , Xn – diese nennt man auchOrdnungsstatistiken

der Stichprobe. Die Verteilung der Ordnungsstatistiken können wir explizit berechnen:

Satz 5.3(Verteilung der Ordnungsstatistiken). Ist µ eine absolutstetige Wahrscheinlichkeits-

verteilung mit VerteilungsfunktionF , dann hatX(k) die Verteilungsfunktion

F(k)(c) = Bin(n, F (c))[k, k + 1, . . . , n]

=n∑

j=k

(n

j

)F (c)j · (1− F (c))n−j. (5.1.11)

Beweis.Da die EreignisseXi ≤ c, 1 ≤ i ≤ n, unabhängig sind mit WahrscheinlichkeitF (c),

gilt

F(k)(c) = Pµ[X(k) ≤ c] = Pµ[Xi ≤ c für mindestensk verschiedenei ∈ 1, . . . , n]= Bin(n, F (c))[k, k + 1, . . . , n]

=n∑

j=k

(n

j

)F (c)j · (1− F (c))n−j.

Nach Satz 5.3 ist die Wahrscheinlichkeit, dass der Wert vonX(k) unterhalb einesu-Quantils der

zugrundeliegenden Verteilungµ liegt, für alle stetigen Verteilungen gleich! Damit folgt unmittel-

bar:

Korollar 5.4 (Ordnungsintervalle). Seiu ∈ (0, 1) und0 ≤ k < l ≤ n. Dann ist das zufällige

Intervall (X(k), X(l)) einKonfidenzintervall für dasu-Quantil der zugrundeliegenden Verteilung

µ zum Konfidenzniveau

β := Bin(n, k)[k, k + 1, . . . , l − 1],

Universität Bonn Wintersemester 2009/2010

Page 162: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

162 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

d.h. für jede absolutstetige Wahrscheinlichkeitsverteilungµ aufR, und für jedesu-Quantilqu(µ)

gilt:

Pµ[X(k) < qu(µ < X(l))] ≥ β.

Beweis.Da die Verteilungen stetig sind, giltFµ(qu(µ)) = u für jedesu-Quantil, und damit nach

Satz 5.3:

Pµ[X(k) < qu(µ) < X(l)] = Bin(n, u)[k, k + 1, . . . , n]− Bin(n, u)[l, l + 1, . . . , n]= Bin(n, u)[k, k + 1, . . . , l − 1].

Für großen kann man die Quantile der Binomialverteilung näherungsweise mithilfe der Norma-

lapproximation berechnen, und erhält daraus entsprechende Konfidenzintervalle für die Quantile

von stetigen Verteilungen. Bemerkenswert ist, dass diese Konfidenzintervalle nicht nur für Vertei-

lungen aus einer bestimmten Familie (z.B. der Familie der Normalverteilungen) gelten, sondern

für alle stetigen Wahrscheinlichkeitsverteilungen aufR (nichtparametrisches Modell).

5.2 Gemeinsame Verteilungen und endliche Produktmodelle

Um Aussagen über den Zusammenhang mehrerer ZufallsvariablenX1, . . . , Xn zu treffen, benö-

tigen wir Kenntnisse über deren gemeinsame Verteilung, d.h. über die Verteilung des Zufalls-

vektorsX = (X1, . . . , Xn). Diese ist eine Wahrscheinlichkeitsverteilung auf dem Produkt der

Wertebereiche der einzelnen Zufallsvariablen.

Wahrscheinlichkeitsverteilungen auf endlichen Produkträumen

Seien(Si,Si), 1 ≤ i ≤ n, messbare Räume. Die Produkt-σ-AlgebraS1⊗. . .⊗Sn aufS1×. . .×Sn

wird von den endlichen Produkten von Mengen aus denσ-AlgebrenSi erzeugt:

S1 ⊗ . . .⊗ Sn = σ(B1 × . . .×Bn|Bi ∈ Si ∀ 1 ≤ i ≤ n).

Bezeichnen wir mitπi : S1× . . .×Sn → Si, πi(x1, . . . , xn) := xi, die kanonische Projektion auf

die i-te Komponente, so gilt

S1 ⊗ . . .⊗ Sn = σ(π1, . . . , πn).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 163: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 163

Beispiel. Für die Borelscheσ-Algebra aufRn gilt:

B(Rn) = B(R)⊗ . . .⊗ B(R)︸ ︷︷ ︸n mal

=n⊗

i=1

B(R),

dennB(Rn) wird zum Beispiel von den offenen Quadern, also Produkten vonoffenen Intervallen,

erzeugt. Ein anderes Erzeugendensystem vonB(Rn) bilden die Produktmengen

(−∞, c1]× (−∞, c2]× . . .× (−∞, cn], c1, . . . , cn ∈ R. (5.2.1)

Ist µ eine Wahrscheinlichkeitsverteilung auf(S1 × . . . × Sn,S1 ⊗ . . . ⊗ Sn), dann heißen die

Wahrscheinlichkeitsverteilungen

µπi:= µ π−1

i , 1 ≤ i ≤ n,

aufSi (eindimensionale) Randverteilungen (marginals)vonµ. Wir werden in Kapitel 9 allge-

meine Wahrscheinlichkeitsverteilungen auf Produkträumen konstruieren und systematisch unter-

suchen. Im Moment beschränken wir uns meist auf eine spezielle Klasse von solchen Verteilun-

gen: die endlichen Produktmodelle.

Definition (Endliches Produktmaß). Seien(Si,Si, µi) Wahrscheinlichkeitsräume,1 ≤ i ≤ n.

Eine Wahrscheinlichkeitsverteilungµ auf (S1 × . . . × Sn,S1 ⊗ . . . ⊗ Sn) heißt Produkt derµi,

falls

µ[B1 × . . .×Bn] =n∏

i=1

µi[Bi] ∀Bi ∈ Si, 1 ≤ i ≤ n, (5.2.2)

gilt.

Bemerkung. Das Produktmaßµ ist durch (5.2.2)eindeutigfestgelegt, denn die Produktmengen

bilden einen durchschnittsstabilen Erzeuger derσ-AlgebraS1 ⊗ . . .⊗ Sn. Die Existenzvon Pro-

duktmaßen folgt aus dem Satz von Fubini, den wir in Abschnitt9.1 beweisen. Für Wahrschein-

lichkeitsverteilungen aufR zeigen wir die Existenz von Produktmaßen im nächsten Abschnitt.

Das nach der Bemerkung eindeutige Produktmaß der Wahrscheinlichkeitsverteilungenµ1, . . . , µn

bezeichnen wir mitµ1 ⊗ . . .⊗ µn. Die eindimensionalen Randverteilungen eines Produktmaßes

sind gerade die Faktorenµi.

Lemma 5.5. Unterµ = µ1 ⊗ . . .⊗ µn sind die Projektionen

πi : S1 × . . .× Sn −→ Si, πi(x1, . . . , xn) = xi, 1 ≤ i ≤ n,

unabhängig mit Verteilungµi.

Universität Bonn Wintersemester 2009/2010

Page 164: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

164 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Beweis.FürBi ∈ Si, 1 ≤ i ≤ n, gilt:

µ[πi ∈ Bi] = µ[S1 × . . .× Si−1 ×Bi × Si+1 × . . .× Sn]

= µi[Bi] ·∏

j 6=i

µj[Sj]︸ ︷︷ ︸=1

= µi[Bi],

und

µ[π1 ∈ B1, . . . , πn ∈ Bn] = µ[B1 × . . .×Bn] =n∏

i=1

µi[Bi] =n∏

i=1

µi[πi ∈ Bi].

Sind die MengenS1, . . . , Sn abzählbar, dann giltµ = µ1 ⊗ . . . ⊗ µn genau dann, wenn die

Massenfunktion vonµ das Produkt der einzelnen Massenfunktionen ist, d.h.

µ(x1, . . . , xn) =n∏

i=1

µi(xi) für alle xi ∈ Si, 1 ≤ i ≤ n.

Im Fall S1 = . . . = Sn = R mit Borelscherσ-Algebra bilden die Mengen aus (5.2.1) einen

durchschnittsstabilen Erzeuger der Produkt-σ-AlgebraB(Rn). Also istµ = µ1 ⊗ . . .⊗ µn genau

dann, wenn

µ[(−∞, c1]× . . .× (−∞, cn]] =n∏

i=1

µi[(−∞, ci]] für alle c1, . . . , cn ∈ R

gilt. Die linke Seite ist die VerteilungsfunktionFµ(c1, . . . , cn) der multivariaten Verteilungµ, die

rechte Seite das Produkt der Verteilungsfunktionen derµi.

Beispiel (Gleichverteilung auf n-dimensionalem Quader). Ist µi = U(ai,bi) die Gleichvertei-

lung auf einem endlichen Intervall(ai, bi),−∞ < ai < bi < ∞, dann istµ = µ1 ⊗ . . .⊗ µn die

Gleichverteilung auf dem QuaderS =n∏

i=1

(ai, bi), denn fürc1, . . . , cn ∈ S gilt:

µ

[n∏

i=1

(−∞, ci]

]=

n∏

i=1

µ− i[(−∞, ci]]

=n∏

i=1

ci − aibi − ai

= λn

[n∏

i=1

(ai, ci]

]/λn[S].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 165: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 165

Absolutstetigkeit von multivariaten Verteilungen

Absolutstetigkeit von endlichen Produktmodellen

Der Satz von Fubini, den wir in Abschnitt 9.1 in größerer Allgemeinheit beweisen werden, be-

sagt unter anderem, dass dasn-dimensionale Lebesgueintegral einer beliebigen Borel-messbaren

nicht-negativen Funktionf : Rn → R existiert, und als Hintereinanderausführung von eindimen-

sionalen Integralen nach den Koordinatenx1, . . . , xn berechnet werden kann:∫

Rn

f(x) dx =

∫· · ·∫f(x1, . . . , xn) dxn · · · dx1.

Hierbei können die eindimensionalen Integrationen in beliebiger Reihenfolge ausgeführt werden.

Für den Beweis verweisen wir auf die Analysisvorlesung bzw. auf Abschnitt 9.1 unten.

In Analogie zum eindimensionalen Fall heißt eine Wahrscheinlichkeitsverteilungµ auf(Rn,B(Rn))

stetigoderabsolutstetig, falls eineB(Rn)-messbareDichtefunktionf : Rn → [0,∞) existiert mit

µ[B] =

B

f(x) dx :=

∫IB(x)f(x) dx

für jeden Quader, bzw. allgemeiner für jede BorelmengeB ⊆ Rn. Endliche Produkte von eindi-

mensionalen absolutstetigen Verteilungen sind wieder absolutstetig, und die Dichte ist das Pro-

dukt der einzelnen Dichten:

Lemma 5.6. Sindµ1, . . . , µn absolutstetige Wahrscheinlichkeitsverteilungen auf(R,B(R)) mit

Dichtefunktionenf1, . . . , fn, dann ist das Produktµ = µ1 ⊗ . . . ⊗ µn eine absolutstetige Wahr-

scheinlichkeitsverteilung auf(Rn,B(Rn)) mit Dichtefunktion

f(x1, . . . , xn) =n∏

i=1

fi(xi).

Beweis.Für jede ProduktmengeB = B1× . . .×Bn, Bi ∈ B(R), gilt nach dem Satz von Fubini:

µ[B] =n∏

i=1

µi[Bi] =n∏

i=1

Bi

fi(xi)dxi =

∫· · ·∫IB(x1, . . . , xn)

n∏

i=1

fi(xi)dx1 · · · dxn.

Die Dichtefunktion der Gleichverteilung auf dem QuaderS = (a1, b1) × . . . × (an, bn) ist bei-

spielsweise

f(x1, . . . , xn) =n∏

i=1

1

bi − aiI(ai,bi)(xi) =

1

Volumen[S]IS(x).

Universität Bonn Wintersemester 2009/2010

Page 166: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

166 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Ein anderes Produktmaß von fundamentaler Bedeutung für die Wahrscheinlichkeitstheorie ist die

mehrdimensionale Standardnormalverteilung:

Beispiel(Standardnormalverteilung im Rn). Die Wahrscheinlichkeitsverteilung

µ =n⊗

i=1

N(0, 1)

auf(Rn,B(Rn)) heißtn-dimensionale Standardnormalverteilung. Die mehrdimensionale Stan-

dardnormalverteilung ist absolutstetig mit Dichte

f(x1, . . . , xn) =n∏

i=1

1√2π

· exp(−x

2i

2

)= (2π)−n/2e−‖x‖2/2, x ∈ Rn.

x y

z

Abbildung 5.1: Dichte der Standardnormalverteilung inR2.

Gemeinsame Verteilungen

SindXi : Ω → Si, 1 ≤ i ≤ n, beliebige Zufallsvariablen mit Werten in messbaren Räumen

(Si,Si), welche auf einem gemeinsamen Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind, dann

ist

(X1, . . . , Xn) : Ω −→ S1 × . . .× Sn

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 167: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 167

eine Zufallsvariable mit Werten im Produktraum(S1 × . . . × Sn,S1 ⊗ . . . ⊗ Sn), denn fürBi ∈Si, 1 ≤ i ≤ n, gilt:

(X1, . . . , Xn) ∈ B1 × . . .×Bn =n⋂

i=1

Xi ∈ B ∈ A.

Wie zuvor im diskreten Fall (s. Abschnitt 2.4) definieren wir:

Definition. Die VerteilungµX1,...,Xn des Zufallsvektors(X1, . . . , Xn) auf (S1 × . . . × Sn,S1 ⊗. . .⊗ Sn) heißtgemeinsame Verteilungder ZufallsvariablenX1, . . . , Xn.

Der folgende Satz gilt analog zum diskreten Fall:

Satz 5.7.Die folgenden Aussagen sind äquivalent:

(1). Die ZufallsvariablenX1, . . . , Xn sind unabhängig.

(2). Die gemeinsame VerteilungµX1,...,Xn ist ein Produktmaß.

(3). µX1,...,Xn = µX1 ⊗ . . .⊗ µXn.

Beweis.„ (1) =⇒ (3) “: folgt direkt aus der Definition der Unabhängigkeit undder gemeinsamen

Verteilung: SindX1, . . . , Xn unabhängig, dann gilt

µX1,...,Xn [B1 × . . .× Bn] = P [(X1, . . . , Xn) ∈ B1 × . . .×Bn]

= P [Xi ∈ Bi, ∀1 ≤ i ≤ n]

=n∏

i=1

P [Xi ∈ Bi]

=n∏

i=1

µXi[Bi]

für alleBi ∈ Si, 1 ≤ i ≤ n.

„ (3) =⇒ (2) “: Die Implikation ist offensichtlich, und „ (2)=⇒ (1) “ folgt aus Lemma 5.5: Ist

µX1,...,Xn ein Produktmaß, dann sind die kanonischen Projektionenπ1, . . . , πn unabhängig unter

µX1 , . . . , µXn . Also gilt fürBi ∈ Si:

P [X1 ∈ B1, . . . , Xn ∈ Bn] = µX1,...,Xn [B1 × . . .×Bn]

= µX1,...,Xn [π1 ∈ B1, . . . , πn ∈ Bn]

=n∏

i=1

µX1,...,Xn [πi ∈ Bi]

=n∏

i=1

P [πi ∈ Bi]

Universität Bonn Wintersemester 2009/2010

Page 168: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

168 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Wir wenden die Aussage von Satz 5.7 nun speziell auf diskreteund reellwertige Zufallsvariablen

an:

Diskrete Zufallsvariablen

Sind die WertebereicheS1, . . . , Sn der ZufallsvariablenX1, . . . , Xn abzählbar, dann wird die

gemeinsame Verteilung vollständig durch die gemeinsame Massenfunktion

pX1,...,Xn(a1, . . . , an) = P [X1 = a1, . . . , Xn = an], (a1, . . . , an) ∈ S1 × . . .× Sn

beschrieben. Die ZufallsvariablenX1, . . . , Xn sind genau dann unabhängig, wenn die gemeinsa-

me Massenfunktion das Produkt der einzelnen Massenfunktionen ist, s. Satz 2.7. Als Konsequenz

aus Satz 5.7 ergibt sich zudem:

Korollar 5.8. SindXi : Ω → Si, 1 ≤ i ≤ n, diskrete Zufallsvariablen, und hat die gemeinsame

Massenfunktion eine Darstellung

pX1,...,Xn(a1, . . . , an) = c ·n∏

i=1

gi(ai) ∀(a1, . . . , an) ∈ S1 × . . .× Sn

in Produktform mit einer Konstantenc ∈ R, und Funktionengi : Si → [0,∞), dann sind

X1, . . . , Xn unabhängig mit Massenfunktion

pXi(ai) =

gi(ai)∑a∈Si

gi(a)

Beweis.Die Werte

gi(ai) =gi(ai)∑

a∈Si

gi(a), ai ∈ Si,

sind die Gewichte eine Wahrscheinlichkeitsverteilungµi aufSi. Nach Voraussetzung gilt

µX1,...,Xn [a1 × . . .× an] = pX1,...,Xn(a1, . . . , an)

= c ·n∏

i=1

µXi[ai] ∀ (a1, . . . , an) ∈ S1 × . . .× Sn(5.2.3)

mit einer reellen Konstantec. Da auf beiden Seiten von (5.2.3) bis auf den Faktorc die Massen-

funktionen von Wahrscheinlichkeitsverteilungen stehen,gilt c = 1, und damit

µX1,...,Xn =n⊗

i=1

µi.

Also sind dieXi unabhängig mit Verteilungµi, d.h. mit Massenfunktiongi.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 169: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 169

Beispiel(Zwei Würfel ). SeienX, Y : Ω → 1, 2, 3, 4, 5, 6 gleichverteilte Zufallsvariablen. Für

die Gewichte der gemeinsamen Verteilung vonX undY gibt es dann beispielsweise folgende

Möglichkeiten:

(1). X, Y unabhängig.

1

2

3

4

5

6

1 2 3 4 5 6 X

Y

Abbildung 5.2:X, Y unabhängig;µX,Y = µX ⊗ µY . Gewichte der Punkte sind jeweils136

(2). X, Y deterministisch korreliert, z.B.Y = (X + 1) mod 6.

1

2

3

4

5

6

1 2 3 4 5 6 X

Y

Abbildung 5.3:Y = (X + 1) mod 6. Das Gewicht eines einzelnen Punktes ist16.

(3). Y = (X + Z) mod 6, Z unabhängig vonX, Z = 0,±1 mit Wahrscheinlichkeit13.

Universität Bonn Wintersemester 2009/2010

Page 170: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

170 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

1

2

3

4

5

6

1 2 3 4 5 6 X

Y

Abbildung 5.4:Y = (X+Z) mod 6; Z ∼ unif−1, 0, 1. Das Gewicht eines einzelnen Punktes

ist 118

Reelle Zufallsvariablen

Die gemeinsame Verteilung reellwertiger ZufallsvariablenX1, . . . , Xn : Ω → R auf der Produkt-

σ-AlgebraB(Rn) =n⊗

i=1

B(R) ist vollständig durch die Werte

FX1,...,Xn(c1, . . . , cn) := µX1,...,Xn [(−∞, c1]× . . .× (−∞, cn]]

= P [X1 ≤ c1, . . . , Xn ≤ cn], (c1, . . . , cn) ∈ Rn,

beschrieben. Die FunktionFX1,...,Xn : Rn → [0, 1] heißt gemeinsame Verteilungsfunktion.

Insbesondere sindX1, . . . , Xn genau dann unabhängig, wenn

FX1,...,Xn(c1, . . . , cn) =n∏

i=1

FXi(ci) ∀(c1, . . . , cn) ∈ Rn

gilt. In Analogie zu Korollar 5.8 erhalten wir zudem:

Korollar 5.9. SeienX1, . . . , Xn : Ω → R reellwertige Zufallsvariablen.

(1). SindX1, . . . , Xn unabhängige Zufallsvariablen mit absolutstetigen Verteilungen mit Dich-

tenfX1 , . . . , fXn , dann ist die gemeinsame Verteilung absolutstetig mit Dichte

fX1,...,Xn(x1, . . . , xn) =n∏

i=1

fXi(xi) ∀ x ∈ Rn.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 171: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 171

(2). Umgekehrt gilt: Ist die gemeinsame Verteilung absolutstetig, und hat die Dichte eine Dar-

stellung

fX1,...,Xn(x1, . . . , xn) = c ·n∏

i=1

gi(xi) ∀ x ∈ Rn

in Produktform mit einer Konstantec ∈ R und integrierbaren Funktionengi : R → [0,∞),

dann sindX1, . . . , Xn unabhängig, und die Verteilungen sind absolutstetig mit Dichten

fXi(xi) =

gi(xi)∫R

gi(t) dt.

Der Beweis verläuft ähnlich wie der von Korollar 5.8, und wirddem Leser zur Übung überlassen.

Beispiel(Zufällige Punkte in der Ebene). SeienX undY unabhängige Zufallsvariablen,N(0, σ2)-

verteilte auf(Ω,A, P ) mit σ > 0. Dann ist die gemeinsame VerteilungµX,Y absolutstetig mit

Dichte

fX,Y (x, y) =1

2πσ2· exp(−x

2 + y2

2σ2), (x, y) ∈ R2.

es gilt(X, Y ) 6= (0, 0) P -fast sicher. Wir definieren den Radial- und Polaranteil

R : Ω → (0,∞), Φ : Ω → [0, 2π)

durch

X = R · cosΦ und Y = R · sinΦ,

d.h.R =√X2 + Y 2 undΦ = arg(X+iY ) falls (X, Y ) 6= (0, 0). Auf der Nullmenge(X, Y ) =

(0, 0) definieren wir(R,Φ) in beliebiger Weise, sodass sich messbare Funktionen ergeben. Wir

berechnen nun die gemeinsame Verteilung vonR undΦ:

P [R ≤ r0,Φ ≤ φ0] = P [(X, Y ) ∈ „Kuchenstück“ mit Winkelφ0 und Radiusr0]

=

∫ ∫

Kuchenstück

fX,Y (x, y) dx dy

=

r0∫

0

φ0∫

0

fX,Y (r cosφ, r sinφ) r︸︷︷︸ dφ drJacobideterminante

der Koordinatentrans.f

=

r0∫

0

∫ φ0

0

r

2πσ2e−r2/(2σ2) dφ dr.

Universität Bonn Wintersemester 2009/2010

Page 172: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

172 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Hierbei haben wir im 3. Schritt den Transformationssatz (Substitutionsregel) für mehrdimensio-

nale Integrale verwendet - der Faktorr ist die Jacobideterminante der Koordinatentransformation

(s. Analysis). Es folgt, dass die gemeinsame VerteilungµR,Φ absolutstetig ist mit Dichte

fR,Φ(r, φ) =1

2π· rσ2

· e−r2/(2σ2).

Da die Dichte Produktform hat, sindR undΦ unabhängig. Die RandverteilungµΦ ist absolutste-

tig mit Dichte

fΦ(φ) = const. =1

2π(0 ≤ φ < 2π),

d.h.Φ ist gleichverteilt auf[0, 2π). Somit istµR absolutstetig mit Dichte

φR(r) =r

σ2· e−r2/(2σ2) (r > 0).

Die Berechnung können wir verwenden, um Stichproben von der Standardnormalverteilung zu

simulieren:

Beispiel (Simulation von normalverteilten Zufallsvariablen). Die Verteilungsfunktion einer

N(0, 1)-verteilten ZufallsvariableX ist

FX(x) =1√2π

∫ x

−∞e−t2/2 dt .

Das Integral ist nicht explizit lösbar und die InverseF−1X ist dementsprechend nur approximativ

berechenbar. Daher ist die Simulation einer Standardnormalverteilung durch Inversion der Ver-

teilungsfunktion relativ aufwendig. Ein einfacheres Simulationsverfahren ergibt sich, wenn wir

eine zweidimensionale Standardnormalverteilung betrachten und auf Polarkoordinaten transfor-

mieren. Dann gilt für den Radialanteil:

FR(x) =

∫ x

0

e−r2/2r dr = 1− e−x2/2.

Das Integral ist also explizit berechenbar, und

F−1R (u) =

√−2 log(1− u) , u ∈ (0, 1).

Der WinkelanteilΦ ist unabhängig vonR und gleichverteilt auf[0, 2π). Wir können Zufallsva-

riablen mit der entsprechenden gemeinsamen Verteilung erzeugen, indem wir

Φ := 2πU1 ,

R :=√−2 log(1− U2)

(bzw. =

√−2 logU2

),

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 173: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.2. GEMEINSAME VERTEILUNGEN UND ENDLICHE PRODUKTMODELLE 173

setzen, wobeiU1 undU2 unabhängige, auf(0, 1) gleichverteilte Zufallsvariablen sind. Stichpro-

ben vonU1 undU2 können durch Pseudozufallszahlen simuliert werden. die Zufallsvariablen

X := R cosΦ und Y := R · sinΦ

sind dann unabhängig undN(0, 1)-verteilt. Fürm ∈ R undσ > 0 sindσX + m undσY + m

unabhängigeN(m,σ2)-verteilte Zufallsvariable.

Wir erhalten also den folgenden Algorithmus zur Simulationvon Stichproben einer Normalver-

teilung:

Algorithmus 5.10 (Box-Muller-Verfahren ). Input: m ∈ R, σ > 0

Output: unabhängige Stichprobenx, y vonN(m,σ2).

1. Erzeuge unabhängige Zufallszahlenu1, u2 ∼ U(0,1)

2. x :=√−2 log u1 cos(2πu2), y :=

√−2 log u1 sin(2πu2)

3. x := σx+m, y = σy +m

Beispiel (Ordnungsstatistiken). Für die gesamte Verteilung der OrdnungsstatistikenX(1) ≤. . . ≤ X(n), unabhängiger, identisch verteilter, stetiger ZufallsvariablenX1, . . . , Xn : Ω → R gilt

aus Symmetriegründen und wegenP [Xi = Xj ] = 0 für i 6= j:

P [X(1) ≤ c1, . . . , X(n) ≤ cn] =∑

π∈Sn

P [Xπ(1) ≤ c1, . . . , Xπ(n) ≤ cn, Xπ(1) < . . . < Xπ(n)]

= n! P [X1 ≤ c1, . . . , Xn ≤ cn, X1 < X2 < . . . < Xn]

= n!

c1∫

−∞

· · ·cn∫

−∞

Iy1<y2<...<ynf(y1) · · · f(yn) dy1 · · · dyn.

Also ist die gemeinsame Verteilung vonX(1), . . . , X(n) absolutstetig mit Dichte

fX(1),...,X(n)(y1, . . . , yn) = n! · Iy1<y2<...<ynf(y1) · · · f(yn).

Durch Aufintegrieren erhält man daraus mithilfe des Satzes von Fubini und einer erneuten Sym-

metrieüberlegung die Dichten der Verteilungen der einzelnen Ordnungsstatistiken:

P [X(k) ≤ c] = n!

R

· · ·∫

R

Iy1<y2<...<ynf(y1) · · · f(yn) · IYk≤c dy1 · · · dyn

=

c∫

−∞

f(k)(yk) dyk

Universität Bonn Wintersemester 2009/2010

Page 174: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

174 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

mit

f(k)(y) =n!

(k − 1)!(n− k)!F (y)k−1(1− F (y))(n− k)f(y).

Dasselbe Resultat hätte man auch mit etwas Rechnen aus Satz 5.3herleiten können.

Bemerkung (Beta-Verteilungen). Sind die ZufallsvariablenXi auf (0, 1) gleichverteilt, dann

hatX(k) die Dichte

fX(k)(u) = B(k, n− k + 1)−1 · uk−1 · (1− u)n−k · I(0,1)(u)

mit Normierungskonstante

B(a, b) =

∫ 1

0

ua−1(1− u)b−1 du

(=

(a− 1)!(b− 1)!

(a+ b− 1)!für a, b ∈ N

).

Die entsprechende Verteilung heißtBeta-Verteilung mit Parametern a, b > 0, die FunktionB

ist dieEuler’sche Beta-Funktion.

1

2

1

Abbildung 5.5: Abbildung der Dichtefunktionen der zugehörigen Verteilungen von

X(1), . . . , X(5) bein = 5 in (rot, gelb, grün, blau, magenta).

5.3 Unendliche Produktmodelle

Konstruktion von unabhängigen Zufallsvariablen

Seienµ1, µ2, . . . vorgegebene Wahrscheinlichkeitsverteilungen auf(R,B(R)). Wir werden nun

explizit unabhängige ZufallsvariablenXk, k ∈ N, mit Verteilungenµk konstruieren. Als Konse-

quenz ergibt sich die Existenz des unendlichen Produktmaßes∞⊗k=1

µk als gemeinsame Verteilung

der ZufallsvariablenXk. Die ZufallsvariablenXi können wir sogar auf den RaumΩ = (0, 1) mit

Gleichverteilung realisieren:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 175: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.3. UNENDLICHE PRODUKTMODELLE 175

Satz 5.11.Auf dem Wahrscheinlichkeitsraum(Ω,B((0, 1)),U(0,1)) existieren unabhängige Zu-

fallsvariablenXk : Ω → R, k ∈ N, mit Verteilungen

P X−1k = µk für alle 1 ≤ i ≤ n.

Beweis.Wir verfahren in drei Schritten:

(1). Wir konstruieren die Zufallsvariablen im Fall

µk = Bernoulli

(1

2

)= U(0,1) ∀ k ∈ N,

d.h. im fairen Münzwurfmodell. Dazu verwenden wir die schonin Abschnitt 4.2 einge-

führte TransformationX : (0, 1) → 0, 1N, die einer reellen Zahl die Ziffernfolge ihrer

Binärdarstellung zuordnet, d.h. wir setzen

Xk(ω) = IDk(ω), Dk =

2k−1⋃

i=1

[(2i− 1) · 2−k, 2i · 2−k),

siehe Abbildung 4.4. Die AbbildungenXk : (0, 1) → 0, 1 sind messbar, und es gilt

P [X1 = a1, . . . , Xn = an] = 2n ∀n ∈ N, a1, . . . , an ∈ 0, 1, (5.3.1)

da die Mengeω ∈ Ω : X1(ω) = a1, . . . , Xn(ω) = an gerade aus den Zahlen in(0, 1)

besteht, deren Binärdarstellung mit den Zifferna1, . . . , an beginnt, und damit ein Inter-

vall der Länge2−n ist. Nach (5.3.1) sindX1, . . . , Xn für alleXk, k ∈ N, unabhängig mit

Verteilungµk.

(2). Wir konstruieren die Zufallsvariablen im Fall

µk = U(0,1) ∀ k ∈ N.

Dazu zerlegen wir die gerade konstruierte FolgeXk(ω) ∈ 0, 1, k ∈ N, in unendlich

viele Teilfolgen, und konstruieren aus jeder Teilfolge wieder eine Zahl aus[0, 1] mit den

entsprechenden Binärziffern. Genauer setzen wir in Binärdarstellung:

U1 := 0.X1X3X5X7 · · · ,U2 := 0.X2X6X10X14 · · · ,U3 := 0.X4X12X20X28 · · · , usw.,

also allgemein fürk ∈ N:

Uk(ω) :=∞∑

i=1

Xk,i(ω) · 2−i mit Xk,i := X(2i−1)·2k−1 .

Universität Bonn Wintersemester 2009/2010

Page 176: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

176 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Da die ZufallsvariablenXk,i, i, k ∈ N, unabhängig sind, sind nach dem Zerlegungssatz

auch dieσ-Algebren

Ak = σ(Xk,i|i ∈ N), k ∈ N,

unabhängig, und damit auch dieAk-messbaren ZufallsvariablenUk, k ∈ N. Zudem gilt für

n ∈ N und

r =n∑

i=1

ai · 2i−1 ∈ 0, 1, . . . , 2n − 1 :

P [Uk ∈ (r · 2−n, (r + 1) · 2−n)] = P [Xk,1 = a1, . . . , Xk,n = an] = 2−n.

Da die dyadischen Intervalle ein durchschnittsstabiles Erzeugendensystem der Borelschen

σ-Algebra bilden, folgt, dass die ZufallsvariablenUk auf [0, 1] gleichverteilt sind.

(3). Im allgemeinen Fall konstruieren wir die Zufallsvariablen aus den gerade konstruierten un-

abhängigen gleichverteilten ZufallsvariablenUk, k ∈ N, mithilfe des Inversionsverfahrens

aus Satz 4.19: Sindµk, k ∈ N, beliebige Wahrscheinlichkeitsverteilungen auf(R,B(R)),und

Gk(u) = infx ∈ R : Fk(x) ≥ u

die linksstetigen verallgemeinerten Inversen der Verteilungsfunktionen

Fk(c) = µk[(−∞, c]],

dann setzen wir

Yk(ω) := Gk(Uk(ω)), k ∈ N, ω ∈ Ω.

Da die ZufallsvariablenUk, k ∈ N, unabhängig sind, sind nach Satz 5.2 auch dieYk, k ∈ N,

wieder unabhängig. Zudem gilt nach Satz 4.19:

P Y −1k = µk für allek ∈ N.

Bemerkung. (1). Der Beweis von Satz 5.11 ist konstruktiv. Für numerischeAnwendungen ist

allerdings zumindest der erste Schritt des beschriebenen Konstruktionsverfahrens ungeeig-

net, da Defizite des verwendeten Zufallszahlengenerators und die Darstellungsungenauig-

keit im Rechner durch die Transformation verstärkt werden.

(2). Mithilfe des Satzes kann man auch die Existenz einer Folge unabhängiger Zufallsvariablen

Xk, k ∈ N, mit Werten imRd, oder allgemeiner in vollständigen, separablen, metrischen

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 177: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.3. UNENDLICHE PRODUKTMODELLE 177

RäumenSk, k ∈ N, und vorgegebenen Verteilungenµk auf den Borelschenσ-Algebren

B(Sk) zeigen. Sind beispielsweiseφk : R → Sk Bijektionen, sodassφk undφ−1k messbar

sind, und sindXk : Ω → R unabhängige reellwertige Zufallsvariablen mit Verteilungen

P [Xk ∈ B] = µK [φk(B)], dann sind die transformierten Zufallsvariablen

Xk = φk(Xk) : Ω → Sk, ∀k ∈ N,

unabhängig mit Verteilungenµk.

Beispiel (Random Walks im Rd). Sei µ eine Wahrscheinlichkeitsverteilung auf(Rd,B(Rd)),

und seienXi, i ∈ N, unabhängige Zufallsvariablen mit identischer VerteilungXi ∼ µ. Der durch

Sn = a+n∑

i=1

Xi, n = 0, 1, 2, . . . ,

definierte stochastische Prozess heißtRandom Walk mit Startwerta ∈ Rd und Inkrementvertei-

lungµ.

Im Fall d = 1 können wir Stichproben von den ZufallsvariablenXi, und damit vom Random

Walk, beispielsweise mithilfe der Inversionsmethode, simulieren.

Abbildung 5.6: Grafiken von Trajektorien des Random Walks mitverschiedenen Inkrementver-

teilungen.

Abbildung 5.6 zeigt Grafiken von Trajektorien des Random Walks mit den Inkrementverteilungen

µ =1

2(δ1 + δ−1) (klassischer Random Walk (SSRW)),

µ = N(0, 1) (diskrete Brownsche Bewegung),

Universität Bonn Wintersemester 2009/2010

Page 178: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

178 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

µ mit Dichte

f(x) = e−(x+1)I(−1,∞)(x) (zentrierteExp(1)-Verteilung)

undµ mit Dichte

f(x) = 3·2−5/2·(x+3

2)−5/2·I( 1

2,∞)(x+

3

2) (zentrierte Pareto(α− 1, α)-Verteilung mitα =

3

2).

1

2

3

1 2 3−1−2−3

Abbildung 5.7: Dichten der drei stetigen Verteilungen aus Abbildung 5.6:fN(0,1) in Blau,

fExp(1)−1 in Magenta undfPareto(α−1,α) in Rot.

Im Gegensatz zu den anderen Verteilungen fällt die Dichte der Pareto-Verteilung fürx → ∞nur sehr langsam ab („heavy tails“). Insbesondere hat die Verteilung unendliche Varianz. Die

Trajektorien der Random Walks werden mit der folgenden Mathematica-Routine simuliert:

nmax = 10000; )

x = RandomChoice [−1 , 1 , nmax ] ;

z = RandomReal [ N o r m a l D i s t r i b u t i o n [ 0 , 1 ] , nmax ] ;

u = RandomReal [ 0 , 1 , nmax ] ; y =−Log [ u ] − 1 ;

$ \ a l pha$ = 3 / 2 ; x0 =$ \ a l pha$ − 1 ; p =

RandomReal [ P a r e t o D i s t r i b u t i o n [ x0 ,$ \ a l pha$ ] , nmax ] ;

m = Mean[ P a r e t o D i s t r i b u t i o n [ x0 , $ \ a l pha$ ] ] ; q = p− m;

rws imple = Accumulate [ x ] ; rwexp = Accumulate [ y ] ;

rwnormal = Accumulate [ z ] ; rwpa re to = Accumulate [ q ] ;

L i s t L i n e P l o t [ rws imple [ [ 1 ; ; 3 0 0 0 ] ] , rwexp [ [ 1 ; ; 3 0 0 0 ] ] ,

rwnormal [ [ 1 ; ; 3 0 0 0 ] ] , rwpa re to [ [ 1 ; ; 3 0 0 0 ] ] ]

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 179: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.3. UNENDLICHE PRODUKTMODELLE 179

Die Trajektorien des klassischen Random Walks, und der RandomWalks mit exponential- und

normalverteilten Inkrementen sehen in größeren Zeiträumen ähnlich aus. Die Trajektorien des

Pareto-Random Walks (grün) verhalten sich dagegen anders, und werden auch in längeren Zeiträu-

men von einzelnen großen Sprüngen beeinflusst. Tatsächlichkann man zeigen, dass alle obigen

Random Walks mit Ausnahme des Pareto-Random Walks in einem geeigneten Skalierungslimes

mit Schrittweite gegen 0 in Verteilung gegen eine Brownsche Bewegung konvergieren (funktio-

naler zentraler Grenzwertsatz).

Unendliche Produktmaße

Als Konsequenz aus dem Satz können wir die Existenz von unendlichen Produktmaßen als ge-

meinsame Verteilung von unendlich vielen unabhängigen Zufallsvariablen zeigen. Dazu versehen

wir den Folgenraum

RN = (x1, x2, . . .)|xk ∈ R, ∀ k ∈ N

mit der Produkt-σ-Algebra

k∈NB(R) = σ(C) = σ(πk|k ∈ N),

die von der KollektionC aller Zylindermengen

π1 ∈ B1, . . . , πn ∈ Bn = x = (xk) ∈ RN|x1 ∈ B1, . . . , xn ∈ Bn,

n ∈ N, B1, . . . , Bn ∈ B(R), von den Koordinatenabbildungenπk : RN → R, πk(x) = xk.

Korollar 5.12 (Existenz von unendlichen Produktmaßen). Zu beliebigen Wahrscheinlichkeits-

verteilungenµk auf(R,B(R)) existiert eine eindeutige Wahrscheinlichkeitsverteilungµ =⊗k∈N

µk

auf (RN,⊗k∈N

B(R)) mit

µ[π1 ∈ B1, . . . , πn ∈ Bn] = µ[B1] · . . . · µn[Bn] (5.3.2)

für alle n ∈ N undB1, . . . , Bn ∈ B(R).

Definition. Die Wahrscheinlichkeitsverteilungµ mit (5.3.2) heißtProdukt der Wahrscheinlich-

keitsverteilungenµk, k ∈ N.

Beweis.Die Eindeutigkeit folgt, da die Zylindermengen ausC ein∩-stabiles Erzeugendensystem

der Produkt-σ-Algebra bilden.

Universität Bonn Wintersemester 2009/2010

Page 180: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

180 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Zum Beweis der Existenz: betrachten wir die AbbildungX : Ω → RN mit

X(ω) = (X1(ω), X2(ω), . . .),

wobeiXk unabhängige Zufallsvariablen mit Verteilungµk sind.X ist messbar bzgl.⊗k∈N

B(R),denn

X−1[x ∈ RN|(x1, . . . , xn) ∈ B] = ω ∈ Ω|(X1(ω), . . . , Xn(ω)) ∈ B ∈ A

für allen ∈ N undB ∈ B(Rn). Seiµ = P X−1 die Verteilung vonX aufRN. Dann gilt

µ[π1 ∈ B1, . . . , πm ∈ Bn] = µ[x ∈ RN|x1 ∈ B1, . . . , xn ∈ Bn]= P [X1 ∈ B1, . . . , Xn ∈ Bn]

=n∏

k=1

µk[Bk]

für allen ∈ N undB1, . . . , Bn ∈ B(R). Also istµ das gesuchte Produktmaß.

Bemerkung. Auf analoge Weise folgt nach Bemerkung 2. von oben die Existenz des Produkt-

maßes⊗k∈N

µk von beliebigen Wahrscheinlichkeitsverteilungenµk, k ∈ N, auf vollständigen, se-

parablen, messbaren RäumenSk mit Borelschenσ-AlgebrenSk. Das Produktmaß sitzt auf dem

Produktraum (

×k∈N

Sk,⊗

k∈NSk

).

Der Satz von Carathéodory impliziert sogar die Existenz von beliebigen (auch überabzählbaren)

Produkten von allgemeinen Wahrscheinlichkeitsräumen(Si,Si, µi), i ∈ I.

Sind(Si,Si, µi) beliebige Wahrscheinlichkeitsräume, dann sind die Koordinatenabbildungenπk :

×i∈NSi → Sk unter dem Produktmaß

⊗i∈Iµi unabhängig undµk-verteilt. Man nennt den Produk-

traum

(Ω,A, P ) =(×Si,

⊗Si,⊗

µi

)

daher auch daskanonische Modellfür unabhängigeµi-verteilte Zufallsvariablen.

5.4 Asymptotische Ereignisse

SeiXi (i ∈ I) eine unendliche Kollektion von Zufallsvariablen, die auf einem gemeinsamen

Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 181: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.4. ASYMPTOTISCHE EREIGNISSE 181

Definition. Ein EreignisA ∈ σ(Xi |i ∈ I) heißtasymptotisches Ereignis (tail event), falls

A ∈ σ(Xi | i ∈ I\I0) für jedeendlicheTeilmengeI0 ⊆ I gilt.

Die Menge

τ =⋂

I0⊆I endlich

σ(Xi | i ∈ I\I0)

aller asymptotischen Ereignisse ist eineσ-Algebra.τ heißtasymptotischeσ-Algebra(tail field).

Beispiel. (1). DYNAMISCH: IstXn, n ∈ N eine Folge von Zufallsvariablen (welche beispiels-

weise eine zufällige zeitliche Entwicklung beschreibt), dann gilt für ein EreignisA ∈σ(Xn, n ∈ N):

A asymptotisch ⇔ A ∈ σ(Xn+1, Xn+2, . . . )︸ ︷︷ ︸Zukunft abn

für allen.

Beispiele für asymptotische Ereignisse von reellwertigen Zufallsvariablen sind

Xn > 5n unendlich oft,lim supn→∞

Xn < c

, ∃ lim

n→∞Xn,

∃ lim 1

nSn = m

,

wobeiSn = X1 + . . .+Xn. Die Ereignisse

supn∈N

Xn = 3 und limSn = 5

sind dagegennichtasymptotisch.

(2). STATISCH: Eine KollektionXi, i ∈ Zd, von Zufallsvariablen auf einem Wahrscheinlich-

keitsraum(Ω,A, P ) heißt stochastisches Feld(random field). Beispielsweise basieren

verschiedene grundlegende Modelle der statistischen Mechanik auf stochastischen Feldern

Xi : Ω → 0, 1, wobeiXi = 1 dafür steht, dass

• sich ein Teilchen am Gitterpunkti befindet,

• ein Atom am Gitterpunkti angeregt ist,

• der Gitterpunkti durchlässig ist (Perkolationsmodell),

• etc.

Asymptotische Ereignisse beschreiben in diesem Fall „makroskopische“ Effekte.

Universität Bonn Wintersemester 2009/2010

Page 182: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

182 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Das 0-1-Gesetz von Kolmogorov

Satz 5.13( 0-1-Gesetz von Kolmogorov). SindXi (i ∈ I) unabhängige Zufallsvariablen auf

(Ω,A, P ), dann gilt

P [A] ∈ 0, 1 für alle A ∈ τ .

„Asymptotische Ereignisse sind deterministisch.“

Beweis.Der Übersichtlichkeit halber führen wir den Beweis im FallI = N - der Beweis im

allgemeinen Fall verläuft ähnlich. Es gilt:X1, X2, ... unabhängige Zufallsvariablen

=⇒ σ(X1), σ(X2), ..., σ(Xn), σ(Xn+1), σ(Xn+2), ... unabhängige Mengensysteme

=⇒σ(X1, ..., Xn), σ(Xn+1, Xn+2, ...) sind unabhängig für allen ∈ N

=⇒ σ(X1, ..., Xn) und τ sind unabhängig für allen ∈ N

=⇒τ unabhängig vonσ(X1, X2, ...) ⊇ τ

=⇒ EreignisseA ∈ τ sind unabhängig von sich selbst

=⇒ P [A] ∈ 0, 1 ∀ A ∈ τ .

Hierbei gilt die zweite Implikation nach Satz 5.1 (2), und die vierte nach Satz 5.1 (1)

Anwendungen auf Random Walks und Perkolationsmodelle

Beispiel (Rückkehr zum Startpunkt von Random Walks, Rekurrenz). Wir betrachten einen

eindimensionalen klassischen Random Walk mit Startpunkta ∈ Z und unabhängigen Inkremen-

tenXi mit Verteilung

P [Xi = 1] = p, P [Xi = −1] = 1− p.

Fürn ∈ N erhält man die Rückkehrwahrscheinlichkeiten

P [S2n+1 = a] = 0

P [S2n = a] =

(2n

n

)· pn · (1− p)n =

(2n)!

(n!)2· pn · (1− p)n.

Wir betrachten nun die Asymptotik fürn → ∞ dieser Wahrscheinlichkeiten. Aus derStirlings-

chen Formel

n! ∼√2πn ·

(ne

)n

folgt

P [S2n = a] ∼√4πn

2πn· (

2ne)2n

(ne)2n

· pn · (1− p)n =1√πn

(4p(1− p))n für n→ ∞.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 183: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.4. ASYMPTOTISCHE EREIGNISSE 183

Fürp 6= 12

fallen die Wahrscheinlichkeiten also exponentiell schnell ab. Insbesondere gilt dann

∞∑

m=0

P [Sm = a] =∞∑

n=0

P [S2n = a] <∞,

d.h. der asymmetrische Random Walk kehrt nach dem 1. Borel-Cantelli Lemma mit Wahrschein-

lichkeit 1 nur endlich oft zum Startpunkt zurück (TRANSIENZ). Nach dem starken Gesetz großer

Zahl gilt sogar

Sn ∼ (2p− 1)n P -fast sicher.

Fürp = 12

gilt dagegenP [S2n = a] ∼ 1/√πn, und damit

∞∑

m=0

P [Sm = a] =∞∑

n=0

P [S2n = a] = ∞.

Dies legt nahe, dass der Startpunkt mit Wahrscheinlichkeit1 unendlich oft besucht wird.

Ein Beweis dieser Aussage über das Borel-Cantelli-Lemma ist aber nicht direkt möglich, da die

EreignisseS2n = 0 nicht unabhängig sind. Wir beweisen nun eine stärkere Aussage mithilfe

des Kolmogorovschen 0-1-Gesetzes:

Satz 5.14(Rekurrenz und unbeschränkte Oszillationen des symmetrischen Random Walks).

Für p = 12

gilt

P [lim Sn = +∞ undlim Sn = −∞] = 1.

Insbesondere ist der eindimensionale Random Walkrekurrent, d.h.

P [Sn = a unendlich oft] = 1.

Tatsächlich wird nach dem Satz mit Wahrscheinlichkeit1 sogar jeder Punktλ ∈ Z unendlich oft

getroffen.

Beweis.Für allek ∈ N gilt:

P [Sn+k − Sn = k unendlich oft] = 1,

denn nach dem Beispiel zu Satz 5.1 („Affe tippt Shakespeare“)gibt esP -fast sicher unendlich

viele Blöcke der Längek mit Xn+1 = Xn+2 = ... = Xn+k = 1. Es folgt

P [lim Sn − lim Sn = ∞] ≥ P

[⋂

k

n

Sn+k − Sn = k]

= 1,

Universität Bonn Wintersemester 2009/2010

Page 184: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

184 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

und damit

1 = P [lim Sn = +∞ oderlim Sn = −∞] ≤ P [lim Sn = +∞] + P [lim Sn = −∞].

Also ist eine der beiden Wahrscheinlichkeiten auf der rechten Seite größer als12, und damit nach

dem Kolmogorovschen 0-1-Gesetz gleich1. Aus Symmetriegründen folgt

P [lim Sn = −∞] = P [lim Sn = +∞] = 1.

Das vorangehende Beispiel zeigt eine typische Anwendung desKolmogorovschen0-1-Gesetzes

auf stochastische Prozesse. Um die Anwendbarkeit in räumlichen Modellen zu demonstrieren,

betrachten wir ein einfaches Perkolationsmodell:

Beispiel(Perkolation im Zd). Seip ∈ (0, 1) fest, und seienXi (i ∈ Zd) unabhängige Zufallsva-

riablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ) mit

P [Xi = 1] = p , P [Xi = 0] = 1− p .

Ein Gitterpunkti ∈ Zd heißtdurchlässig, fallsXi = 1 gilt. Wir verbinden Gitterpunktei, j ∈ Zd

mit |i − j| = 1 durch eine Kante. SeiA das Ereignis, dass bzgl. dieser Graphenstruktur ei-

ne unendliche Zusammenhangskomponente (Cluster) aus durchlässigen Gitterpunkten existiert

(Eine Flüssigkeit könnte in diesem Fall durch ein makroskopisches Modellstück, das aus mi-

kroskopischen Gitterpunkten aufgebaut ist, durchsickern- daher der Name „Perkolation“).A ist

asymptotisch, also gilt nach dem Satz von Kolmogorov

P [A] ∈ 0, 1.

Hingegen ist es im Allgemeinen nicht trivial, zu entscheiden, welcher der beiden Fälle eintritt.

Im Fall d = 1 zeigt man leicht (Übung):

P [A] = 0 für allep < 1.

Fürd = 2 gilt:

P [A] = 1 ⇐⇒ p >1

2,

s. z.B. die Monografie„Percolation“ vonGrimmett. Fürd ≥ 3 ist nur bekannt, dass ein kritischer

Parameterpc ∈ (0, 1) existiert mit

P [A] =

1 für p > pc.

0 für p < pc.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 185: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

5.4. ASYMPTOTISCHE EREIGNISSE 185

Man kann obere und untere Schranken fürpc herleiten (z.B. gilt 12d−1

≤ pc ≤ 23), aber der genaue

Wert ist nicht bekannt. Man vermutet, dassP [A] = 0 für p = pc gilt, aber auch diese Aussage

konnte bisher nur in Dimensiond ≥ 19 (sowie fürd = 2) bewiesen werden, siehe das Buch von

Grimmett.

Definition. Eine ZufallsvariableY : Ω → [−∞,∞] heißt asymptotisch, wenn die bzgl. der

asymptotischenσ-Algebraτ messbar ist.

Das Perkolationsmodell ist ein Beispiel für ein sehr einfachformulierbares stochastisches Mo-

dell, das zu tiefgehenden mathematischen Problemstellungen führt. Es ist von großer Bedeu-

tung, da ein enger Zusammenhang zu anderen Modellen der statistischen Mechanik und dabei

auftretenden Phasenübergängen besteht. Einige elementare Aussagen über Perkolationsmodelle

werden in den Wahrscheinlichkeitstheorie-Lehrbüchern von Y. SinaiundA. Klenkehergeleitet.

Korollar 5.15. SindXi (i ∈ I) unabhängige Zufallsvariablen auf einem Wahrscheinlichkeits-

raum(Ω,A, P ), dann ist jede asymptotische ZufallsvariableY : Ω → [−∞,∞] P - fast sicher

konstant, d.h.

∃ c0 ∈ [−∞,∞] : P [Y = c0] = 1 .

Beweis.Ist Y τ - messbar, dann sind die EreignisseY ≤ c, c ∈ R, in τ enthalten. Aus

dem Kolmogorovschen 0-1-Gesetz folgt:

FY (c) = P [Y ≤ c] ∈ 0, 1 ∀ c ∈ R.

Da die Verteilungsfunktion monoton wachsend ist, existiert ein c0 ∈ [−∞,∞] mit

P [Y ≤ c] =

0 für c < c0

1 für c > c0,

und damitP [Y = c0] = limε↓0

(FY (c0)− FY (c0 − ε)) = 1. = 1.

Beispiele für asymptotische Zufallsvariablen im FallI = N sind etwa

limn→∞

Xn, limn→∞

Xn, limn→∞

1

n

n∑

i=1

Xi, sowie limn→∞

1

n

n∑

i=1

Xi.

Insbesondere sind für unabhängige ZufallsvariablenX1, X2, ... : Ω → R sowohl

lim1

n

n∑

i=1

Xi als auch lim1

n

n∑

i=1

Xi P - f.s. konstant.

Universität Bonn Wintersemester 2009/2010

Page 186: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

186 KAPITEL 5. UNABHÄNGIGKEIT UND PRODUKTMODELLE

Hieraus ergibt sich die folgendeDichotomie: SindXi, i ∈ N, unabhängige reellwertige Zufalls-

variablen, dann giltentwederein Gesetz großer Zahlen, d.h.

1

n

n∑

i=1

Xi konvergiertP - f.s., und der Limes istP - f.s. konstant

(falls der Limes inferior und Limes superiorP -fast sicher übereinstimmen),oder

P

[1

n

n∑

i=1

Xi konvergiert

]= 0.

Es ist bemerkenswert, dass für die Gültigkeit der Dichotomie keine Annahmen über die Vertei-

lung derXi benötigt werden. Insbesondere müssen dieXi nicht identisch verteilt sein!

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 187: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 6

Erwartungswert und Varianz

In diesem Kapitel definieren wir den Erwartungswert, die Varianz und die Kovarianz allgemeiner

reellwertiger Zufallsvariablen, und beweisen grundlegende Eigenschaften und Abschätzungen.

Da wir auch Grenzübergänge durchführen wollen, erweist es sich als günstig, die Werte+∞und−∞ zuzulassen. Wir setzen daherR = [−∞,∞]. Der RaumR ist ein topologischer Raum

bzgl. des üblichen Konvergenzbegriffs. Die Borelscheσ-Algebra aufR wird u.a. erzeugt von

den Intervallen[−∞, c], c ∈ R. Die meisten Aussagen über reellwertige Zufallsvariablenaus

den vorangegangenen Abschnitten übertragen sich unmittelbar auf ZufallsvariablenX : Ω → R,

wenn wir die VerteilungsfunktionFX : R → [0, 1] definieren durch

FX(c) = µX [[−∞, c]] = P [X ≤ c].

6.1 Erwartungswert

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum undX : Ω → R eine Zufallsvariable. Wir wollen den

Erwartungswert (Mittelwert, Prognosewert) vonX bezüglich der Wahrscheinlichkeitsverteilung

P in sinnvoller Weise definieren. Dazu gehen wir schrittweisevor:

Definition des Erwartungswerts

Elementare Zufallsvariablen

NimmtX nur endlich viele Wertec1, ..., cn ∈ R an, dann soll gelten:

E[X] =n∑

i=1

ci · P [X = ci],

187

Page 188: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

188 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

d.h. der Erwartungswert ist das Mittel der Werteci gewichtet mit den Wahrscheinlichkeiten der

EreignisseAi := X = ci.

Definition. Eine Zufallsvariable von der Form

X =n∑

i=1

ciIAi(n ∈ N, ci ∈ R, Ai ∈ A)

heißtelementar. Ihr Erwartungswertbzgl.P ist

E[X] :=n∑

i=1

ci · P [Ai].

Diese Definition ist ein Spezialfall der Definition des Erwartungswerts diskreter Zufallsvariablen

aus Kapitel 1. Insbesondere ist der ErwartungswertE[X] wohldefiniert, d.h. unabhängig von der

gewählten Darstellung der ZufallsvariableX als Linearkombination von Indikatorfunktionen,

und die AbbildungX 7→ E[X] ist linear undmonoton:

E[aX + bY ] = a · E[X] + b · E[Y ] für allea, b ∈ R,

X ≤ Y =⇒ E[X] ≤ E[Y ].

Die Definition des Erwartungswerts einer elementaren Zufallsvariable stimmt genau mit der des

Lebesgueintegrals der ElementarfunktionX bzgl. des MaßesP überein:

E[X] =

∫X dP =

∫X(ω) P (dω)

Für allgemeine Zufallsvariablen liegt es nahe, den Erwartungswert ebenfalls als Lebesgueintegral

bzgl. des MaßesP zu definieren. Wir skizzieren hier die weiteren Schritte zurKonstruktion des

Lebesgueintegrals bzw. des Erwartungswerts einer allgemeinen Zufallsvariable, siehe auch die

Analysisvorlesung.

Nichtnegative Zufallsvariablen

Die Definition des Erwartungswerts einer nichtnegativen Zufallsvariable beruht auf der monoto-

nen Approximation durch elementare Zufallsvariablen:

Lemma 6.1.SeiX : Ω → [0,∞] eine nichtnegative Zufallsvariable auf(Ω,A, P ). Dann existiert

eine monoton wachsende Folge elementarer Zufallsvariablen0 ≤ X1 ≤ X2 ≤ . . . mit

X = limn→∞

Xn = supn∈N

Xn.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 189: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.1. ERWARTUNGSWERT 189

Beweis.Fürn ∈ N sei

Xn(ω) :=

(k − 1) · 2−n falls (k − 1) · 2−n ≤ X(ω) < k · 2−n für eink = 1, 2, . . . , n · 2n

n falls X(ω) ≥ n.

1

2

3

4

5

1

2

3

4

5

Abbildung 6.1: Approximation durch Elementarfunktionen.Hier ist die Annäherung in rot in

zwei verschiedenen Feinheiten dargestellt.

Universität Bonn Wintersemester 2009/2010

Page 190: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

190 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Dann istXn eine elementare Zufallsvariable, denn es gilt

Xn =n2n−1∑

k=0

k

2nI k

2n≤X< k+1

2n + nIX≥n.

Die FolgeXn(ω) ist für jedesω monoton wachsend, da die Unterteilung immer feiner wird, und

supn∈N

Xn(ω) = limn→∞

Xn(ω) = X(ω) für alleω ∈ Ω.

Definition. SeiX : Ω → [0,∞] eine nicht-negative Zufallsvariable.

Der Erwartungswert(bzw. dasLebesgueintegral) vonX bzgl.P ist definiert als

E[X] := limn→∞

E[Xn] = supn→∞

E[Xn] ∈ [0,∞], (6.1.1)

wobeiXn eine monoton wachsende Folge von nichtnegativen elementaren Zufallsvariablen mit

X = supXn ist.

Auch in diesem Fall ist der Erwartungswert wohldefiniert (in[0,∞]):

Lemma 6.2. Die Definition ist unabhängig von der Wahl einer monoton wachsenden FolgeXn

von nichtnegativen Zufallsvariablen mitX = supn∈N

Xn.

Für den Beweis verweisen wir auf die Analysisvorlesung oder auf die Literatur, siehe z.B. Ap-

pendix 5 in WILLIAMS „Probability with martingales.“

Bemerkung. SindXn = IAn undX = IA Indikatorfunktionen, dann folgt (6.1.1) aus der mono-

tonen Stetigkeit vonP . In diesem Fall gilt nämlich:

Xn ր X ⇐⇒ An ր A (d.h.An monoton wachsend undA =⋃

An).

Aus der monotonen Stetigkeit vonP folgt dann

E[X] = P [A] = limP [An] = limE[Xn].

Aus der Definition des Erwartungswerts folgt unmittelbar:

Lemma 6.3. Für nichtnegative ZufallsvariablenX, Y mitX ≤ Y gilt E[X] ≤ E[Y ].

Beweis.Ist X ≤ Y , dann gilt auchXn ≤ Yn für die approximierenden elementaren Zufallsva-

riablen aus Lemma 6.1, also

E[X] = supn∈N

E[Xn] ≤ supn∈N

E[Yn] = E[Y ].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 191: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.1. ERWARTUNGSWERT 191

Allgemeine Zufallsvariablen

Eine allgemeine ZufallsvariableX : Ω → R können wir in ihren positiven und negativen Anteil

zerlegen:

X = X+ −X− mit X+ := max(X, 0), X− := −min(X, 0).

X+ undX− sind nichtnegative Zufallsvariablen. Ist mindestens einer der beiden Erwartungswer-

teE[X+] bzw.E[X−] endlich, dann können wir (ähnlich wie in Kapitel 1 für diskrete Zufallsva-

riablen) definieren:

Definition. Der Erwartungswert einer ZufallsvariableX : Ω → R mit E[X+] < ∞ oder

E[X−] <∞ ist

E[X] := E[X+]− E[X−] ∈ [−∞,∞].

Notation: Der ErwartungswertE[X] ist das Lebesgueintegral der messbaren FunktionX :

Ω → R bzgl. des MaßesP . Daher verwenden wir auch folgende Notation:

E[X] =

∫X dP =

∫X(ω) P (dω).

Eigenschaften des Erwartungswerts

Nachdem wir den Erwartungswert einer allgemeinen ZufallsvariableX : Ω → R definiert ha-

ben, fassen wir nun einige grundlegende Eigenschaften des Erwartungswerts zusammen. Dazu

bezeichnen wir mit

L1 = L1(P ) = L1(Ω,A, P ) := X : Ω → R Zufallsvariable | E[|X|] <∞

die Menge aller bzgl.P integrierbaren Zufallsvariablen. Für ZufallsvariablenX ∈ L1(Ω,A, P )ist nach Lemma 6.3 sowohlE[X+] als auchE[X−] endlich. Also ist der ErwartungswertE[X]

definiert und endlich.

Satz 6.4.Für ZufallsvariablenX, Y ∈ L1(Ω,A, P ) unda, b ∈ R gilt:

(1). X ≥ 0 P -fast sicher=⇒ E[X] ≥ 0

(2). Die ZufallsvariableaX + bY ist bzgl.P integrierbar, und

E[aX + bY ] = a · E[X] + b · E[Y ].

Universität Bonn Wintersemester 2009/2010

Page 192: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

192 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Insbesondere ist der Erwartungswert monoton:

(3). X ≤ Y P -fast sicher=⇒ E[X] ≤ E[Y ].

Zum Beweis der Eigenschaften (1) und (2) verweisen wir auf dieAnalysisvorlesung oder die

Literatur. Eigenschaft (3) folgt unmittelbar aus (1) und (2).

Nach Aussage (2) des Satzes istL1(Ω,A, P ) ein Vektorraum. Durch

X ∼ Y : ⇐⇒ P [X = Y ] = 1

wird eine Äquivalenzrelation auf diesem Raum definiert. EineKonsequenz von Aussage (3) des

Satzes ist, dass zwei äquivalente (alsoP -fast sicher identische= Zufallsvariablen denselben Er-

wartungswert haben:

X ∼ Y =⇒ E[X] = E[Y ].

Daher ist der Erwartungswert einer Äquivalenzklasse vonP -fast sicher gleichen Zufallsvariablen

eindeutig definiert. In Zukunft verwenden wir häufig dieselbe Notation für die Äquivalenzklassen

und Repräsentanten aus den Äquivalenzklassen. Satz 6.4 besagt, dass der Erwartungswert ein

positives lineares Funktionalauf dem Raum

L1(Ω,A, P ) := L1(Ω,A, P )/ ∼

aller Äquivalenzklassen von integrierbaren Zufallsvariablen definiert. Aus dem Satz folgt zudem:

Korollar 6.5. Durch

‖X‖L1(Ω,A,P ) = E[|X|]

wird eine Norm aufL1(Ω,A, P ) definiert. Insbesondere gilt für ZufallsvariablenX : Ω → R :

E[|X|] = 0 =⇒ X = 0 P -fast sicher.

Beweis.Für eine ZufallsvariableX : Ω → R mit E[|X|] = 0 undε > 0 gilt wegen der Monoto-

nie und Linearität des Erwartungswerts:

P [|X| ≥ ε] = E[I|X|≥ε] ≤ E

[ |X|ε

]=

1

εE[|X|] = 0.

Für εց 0 folgt

P [|X| > 0] = limεց0

P [|X| ≥ ε] = 0,

alsoX = 0 P -fast sicher.

Zudem folgt aus der Monotonie und Linearität des Erwartungswerts die Dreiecksungleichung:

E[|X + Y |] ≤ E[|X|+ |Y |] = E[|X|] + E[|Y |].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 193: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.1. ERWARTUNGSWERT 193

In der Analysis wird gezeigt, dass der RaumL1(Ω,A, P ) bzgl. der im Korollar definierten Norm

ein Banachraum ist.

Konvergenzsätze

Ein Vorteil des Lebesgueintegrals gegenüber anderen Integrationsbegriffen ist die Gültigkeit von

sehr allgemeinen Konvergenzsätzen. Diese lassen sich zurückführen auf den folgenden funda-

mentalen Konvergenzsatz, der sich aus der oben skizziertenKonstruktion des Lebesgueintegrals

ergibt:

Satz 6.6(Satz von der monotonen Konvergenz, B. Levi). IstXn, n ∈ N, eine monoton wach-

sende Folge von Zufallsvariablen mitE[X−1 ] <∞ (z.B.X1 ≥ 0), dann gilt:

E[supn∈N

Xn] = E[ limn→∞

Xn] = limn→∞

E[Xn] = supn∈N

E[Xn].

Der Beweis findet sich in zahlreichen Lehrbüchern der Integrations- oder Warscheinlichkeits-

theorie, siehe z.B. WILLIAMS : PROBABILITY WITH MARTINGALES , APPENDIX 5.

Eine erste wichtige Konsequenz des Satzes von der monotonenKonvergenz ist:

Korollar 6.7. Für nichtnegative ZufallsvariablenXi, i ∈ N, gilt:

E

[ ∞∑

i=1

Xi

]=

∞∑

i=1

E[Xi].

Beweis.

E

[ ∞∑

i=1

Xi

]= E

[limn→∞

n∑

i=1

Xi

]

= limn→∞

E

[n∑

i=1

Xi

](wegen monotoner Konvergenz)

= limn→∞

n∑

i=1

E[Xi] (wegen Linearität)

=∞∑

i=1

E[Xi].

Bemerkung (Abzählbare Wahrscheinlichkeitsräume, Summation als Spezialfall von Inte-

gration). FallsΩ abzählbar ist, können wir jede ZufallsvariableX : Ω → R auf die folgende

Weise als abzählbare Linearkombination von Indikatorfunktionen darstellen:

X =∑

ω∈ΩX(ω) · Iω.

Universität Bonn Wintersemester 2009/2010

Page 194: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

194 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

IstX ≥ 0, dann gilt nach Korollar 6.7:

E[X] =∑

ω∈ΩX(ω) · P [ω].

Dieselbe Darstellung des Erwartungswerts gilt auch für allgemeine reellwertige Zufallsvariablen

aufΩ, falls der Erwartungswert definiert ist, d.h.E[X+] oderE[X−] endlich ist.

Insbesondere sehen wir, dassSummation ein Spezialfall von Integrationist: IstΩ abzählbar und

p(ω) ≥ 0 für alleω ∈ Ω, dann gilt

ω∈ΩX(ω) · p(ω) =

∫X dP,

wobeiP das Maß mit Massenfunktionp ist. Beispielsweise gilt also

ω∈ΩX(ω) =

∫X dν,

wobeiν das durchν[A] = |A|, A ⊆ Ω, definierte Zählmaß ist.

Konvergenzsätze wie der Satz von der monotonen Konvergenz lassen sich also auch auf Summen

anwenden!

Beispiel. Ist P die Gleichverteilung auf einer endlichen MengeΩ, dann ist

E[X] =1

|Ω|∑

ω∈ΩX(ω)

dasarithmetische Mittel von X.

Wir beweisen nun noch zwei wichtige Konvergenzsätze, die sich aus dem Satz von der monoto-

nen Konvergenz ergeben:

Korollar 6.8 (Lemma von Fatou). SeienX1, X2, · · · : Ω → R Zufallsvariablen auf einem

Wahrscheinlichkeitsraum(Ω,A, P ) und seiY ∈ L1(Ω,A, P ) (z.B.Y ≡ 0).

(1). GiltXn ≥ Y für alle n ∈ N, dann folgt

E[lim infXn] ≤ lim inf E[Xn].

(2). GiltXn ≤ Y für alle n ∈ N, dann folgt

E[lim supXn] ≥ lim sup E[Xn].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 195: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 195

Beweis.Die Aussagen folgen aus dem Satz über monotone Konvergenz. Beispielsweise gilt:

E [lim inf Xn] = E

[limn→∞

infk≥n

Xk

]= lim

n→∞E

[infk≥n

Xk

]

≤ limn→∞

infk≥n

E[Xk] = lim infn→∞

E[Xn],

da die Folge der Infima monoton wachsend ist und durch die integrierbare ZufallsvariableY nach

unten beschränkt ist. Die zweite Aussage zeigt man analog.

Korollar 6.9 (Satz von der majorisierten Konvergenz, Lebesgue). SeiXn : Ω → R, n ∈N, eineP -fast sicher konvergente Folge von Zufallsvariablen. Existiert eine MajoranteY ∈L1(Ω,A, P ) mit |Xn| ≤ Y für alle n ∈ N, dann gilt

E[limXn] = lim E[Xn]. (6.1.2)

Beweis.Nach dem Lemma von Fatou gilt:

E[lim infXn] ≤ lim inf E[Xn] ≤ lim sup E[Xn] ≤ E[lim supXn],

daXn ≥ −Y ∈ L1 undXn ≤ Y ∈ L1 für allen ∈ N gilt. KonvergiertXn P -fast sicher, dann

stimmen die linke und rechte Seite der obigen Ungleichungskette überein.

Beispiel. Wir betrachten Setzen mit Verdoppeln auf »Null« für eine Folge von fairen Münz-

würfen. Bei Anfangseinsatz1 beträgt das Kapital des Spielers nachn Münzwürfen

Xn = 2n · In<T ,

wobeiT die Wartezeit auf die erste »Eins« ist. Es folgt

E[Xn] = 2nP [T > n] = 2n · 2−n = 1 für allen ∈ N,

das Spiel ist also fair. Andererseits fällt aberP -fast sicher irgendwann eine »Eins«, d.h. es gilt:

limn→∞

Xn = 0 P -fast sicher.

Die Aussage (6.1.2) des Satzes von Lebesgue ist in dieser Situation nicht erfüllt!

6.2 Berechnung von Erwartungswerten; Dichten

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum. In diesem Abschnitt zeigen wir, wie man in verschie-

denen Fällen den Erwartungswert einer ZufallsvariableX : Ω → [0,∞] aus der Verteilung von

X berechnen kann.

Universität Bonn Wintersemester 2009/2010

Page 196: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

196 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Diskrete Zufallsvariablen

FallsX nur abzählbar viele Werte annimmt, können wir die ZufallsvariableX auf folgende Weise

als abzählbare Linearkombination von Indikatorfunktionen darstellen:

X =∑

a∈X(Ω)

a · IX=a.

Es folgt:

E[X] =∑

a∈X(Ω)

E[a · IX=a] =∑

a∈X(Ω)

a · P [X = a].

Dieselbe Aussage gilt allgemeiner für diskrete reellwertige ZufallsvariablenX mit

E[X+] <∞ oder E[X−] <∞.

Für ZufallsvariablenX : Ω → S, mit Werten in einer beliebigen abzählbaren MengeS, und eine

Borel-messbare Funktionh : S → R erhalten wir entsprechend

E[h(X)] =∑

a∈X(Ω)

h(a) · P [X = a], (6.2.1)

fallsE[h(X)] definiert ist, also z.B. fallsh ≥ 0 oderh(X) ∈ L1(Ω,A, P ) gilt.

Die allgemeine Definition des Erwartungswerts als Lebesgueintegral stimmt also für diskrete

Zufallsvariablen mit der in Kapitel 1 gegebenen Definition überein.

Allgemeine Zufallsvariablen

Die Berechnungsmethode (6.2.1) für den Erwartungswert diskreter Zufallsvariablen lässt sich auf

Zufallsvariablen mit beliebigen Verteilungen erweitern.Sei dazu(Ω,A, P ) ein Wahrscheinlich-

keitsraum,(S,S) ein messbarer Raum,X : Ω → S eine Zufallsvariable, undh : S → [0,∞]

eine messbare Abbildung.

Satz 6.10(Transformationssatz). Unter den obigen Voraussetzungen gilt:

EP [h(X)] =

∫h(X(ω))P (dω) =

∫h(x) µ(dx) = Eµ[h],

wobeiµ = P X−1 die Verteilung vonX unterP ist, undEP bzw.Eµ den Erwartungswert unter

P bzw.µ bezeichnet.

Die Erwartungswerte hängen somit nur von der Verteilung vonX ab!

Beweis.Der Beweis erfolgt in drei Schritten:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 197: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 197

(1). Isth = IB die Indikatorfunktion einer messbaren MengeB ∈ S, dann gilt:

E[h(X)] =

∫IB(X(ω))P (dω) = P [X−1(B)] = µ[B] =

∫IB dµ,

daIB(X(ω)) = IX−1(B)(ω) gilt.

(2). Für Linearkombinationenh =∑n

i=1 aiIBivon Indikatorfunktionen mitn ∈ N, ai ∈ R, und

Bi ∈ S gilt die Aussage auch, da das Lebesgueintegral linear vom Integranden abhängt.

(3). Für eine allgemeine messbare Funktionh ≥ 0 existiert schließlich eine monoton wachsen-

de Folgehn von Elementarfunktionen mithn(x) ր h(x) für allex ∈ S. Durch zweimalige

Anwendung des Satzes von der monotonen Konvergenz erhaltenwir erneut:

E[h(X)] = E[limhn(X)] = limE[hn(X)] = lim

∫hn dµ =

∫h dµ.

Das hier verwendeteBeweisverfahren der »maßtheoretischen Induktion«wird noch sehr häufig

auftreten: Wir zeigen eine Aussage

(1). für Indikatorfunktionen,

(2). für Elementarfunktionen,

(3). für nichtnegative messbare Funktionen,

(4). für allgemeine integrierbare Funktionen.

Mit maßtheoretischer Induktion zeigt man auch:

Übung: Jedeσ(X)-messbare ZufallsvariableY : Ω → R ist vom TypY = h(X) mit einer

messbaren Funktionh : S → R.

Nach Satz 6.10 ist der ErwartungswertE[T ] einer reellwertigen ZufallsvariableT : Ω → [0,∞]

eindeutig bestimmt durch die VerteilungµT = P T−1:

E[T ] =

∫t µT (dt) ,

also auch durch die Verteilungsfunktion

FT (t) = P [T ≤ t] = µT [[0, t]], t ∈ R.

Der folgende Satz zeigt, wie man den Erwartungswert konkretausFT berechnet:

Universität Bonn Wintersemester 2009/2010

Page 198: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

198 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Satz 6.11.Für eine ZufallsvariableT : Ω → [0,∞] gilt

E[T ] =

∫ ∞

0

P [T > t] dt =

∫ ∞

0

(1− FT (t)) dt.

Beweis.Wegen

T (ω) =

∫ T (ω)

0

dt =

∫ ∞

0

IT>t(ω)dt

erhalten wir

E[T ] = E

[∫ ∞

0

IT>tdt

]=

∫ ∞

0

E[IT>t

]dt =

∫ ∞

0

P [T > t] dt.

Hierbei haben wir im Vorgriff auf Kapitel 9 denSatz von Fubinibenutzt, der gewährleistet, dass

man zwei Lebesgueintegrale (das Integral übert und den Erwartungswert) unter geeigneten Vor-

aussetzungen (Produktmessbarkeit) vertauschen kann, siehe Satz 9.1.

Bemerkung (Stieltjesintegral). Das Lebesgue-Stieltjes-Integral∫h dF einer messbaren Funkti-

onh : R → [0,∞] bzgl. der VerteilungsfunktionF einer Wahrscheinlichkeitsverteilungµ aufR

ist definiert als das Lebesgueintegral

∫h(t) dF (t) :=

∫h(t) µ(dt).

Ist h stetig, dann lässt sich das Integral als Limes von Riemannsummen darstellen. Nach dem

Transformationssatz gilt für eine ZufallsvariableT : Ω → [0,∞]:

E[T ] =

∫t µT (dt) =

∫t dFT (t).

Die Aussage von Satz 6.11 folgt hieraus formal durch partielle Integration.

Beispiel(Exponentialverteilung). Für eine exponentialverteilte ZufallsvariableT mit Parameter

λ > 0 erhalten wir:

E[T ] =

∞∫

0

P [T > t] dt =

∞∫

0

e−λt dt =1

λ.

Es gilt also

Mittlere Wartezeit =1

Mittlere relative Häufigkeit pro Zeiteinheit

.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 199: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 199

Beispiel(Heavy tails). Seiα > 0. Für eine ZufallsvariableT : Ω → [0,∞) mit

P [T > t] ∼ t−α für t→ ∞

gilt

E[T ] =

∞∫

0

P [T > t] dt < ∞

genau dann, wennα > 1. Allgemeiner ist dasp-te Moment

E[T p] =

∞∫

0

P [T p > t] dt =

∞∫

0

P [T > t1/p]︸ ︷︷ ︸∼tα/p

dt

nur fürp < α endlich.

Zufallsvariablen mit Dichten

Die Verteilungen vieler Zufallsvariablen haben eine Dichte bzgl. des Lebesguemaßes, oder bzgl.

eines anderen geeigneten Referenzmaßes. Wir wollen uns nun überlegen, wie man in diesem Fall

den Erwartungswert berechnet.

Sei (S,S) ein messbarer Raum undν ein Maß auf(S,S) (z.B. das Lebesguemaß oder eine

Wahrscheinlichkeitsverteilung).

Definition. Eine Wahrscheinlichkeitsdichteauf (S,S, ν) ist eine messbare Funktion : S →[0,∞] mit ∫

S

(x) ν(dx) = 1.

Satz 6.12. (1). Ist eine Wahrscheinlichkeitsdichte auf(S,S, ν), dann wird durch

µ[B] :=

B

(x) ν(dx) =

∫IB(x)(x) ν(dx) (6.2.2)

eine Wahrscheinlichkeitsverteilungµ auf (S,S) definiert.

(2). Für eine messbare Funktionh : S → [0,∞] gilt∫h(x) µ(dx) =

∫h(x)(x) ν(dx). (6.2.3)

Insbesondere folgt nach dem Transformationssatz:

E[h(X)] =

∫h(x)(x) ν(dx)

für jede ZufallsvariableX mit Verteilungµ.

Universität Bonn Wintersemester 2009/2010

Page 200: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

200 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Beweis.Wir zeigen zunächst, dassµ eine Wahrscheinlichkeitsverteilung ist: SindB1, B2, ... ∈ Sdisjunkt, so folgt

µ

[ ∞⋃

i=1

Bi

]=

∫I⋃∞

i=1 Bi(x) · (x) ν(dx)

= limn→∞

∫I⋃n

i=1 Bi(x) · (x) ν(dx) (wegen ≥ 0 und monotoner Konvergenz)

= limn→∞

n∑

i=1

Bi

(x) ν(dx) = limn→∞

n∑

i=1

µ[Bi]

=∞∑

i=1

µ[Bi].

Zudem gilt:

µ[S] =

∫ dν = 1.

Die Aussage (6.2.3) über den Erwartungswert beweisen wir durch maßtheoretische Induktion:

(1). Die Aussage folgt unmittelbar, wennh = IB für B ∈ S gilt.

(2). Für Linearkombinationenh =∑n

i=1 ciIBifolgt die Aussage aus der Linearität beider Sei-

ten von (6.2.3) inh.

(3). Für allgemeineh ≥ 0 existiert eine Teilfolgehn aus Elementarfunktionen mithn ր h. Mit

monotoner Konvergenz folgt∫h dµ = lim

∫hn dµ = lim

∫hn dν =

∫h dν.

Bemerkung. Durch (6.2.2) wird die Dichte (x) der Wahrscheinlichkeitsverteilungµ bzgl. des

Maßesν für ν-fast allex eindeutig festgelegt: Existiert∈ L1(S,S, ν) mit∫

B

dν = µ[B] =

B

˜dν für alleB ∈ S,

dann folgt:∫

>˜(− ˜) dν =

<˜(− ˜) dν = 0, also

∫(− ˜)+ dν =

∫(− ˜)− dν = 0.

Somit erhalten wir:

(− ˜)+ = (− ˜)− = 0 ν-fast überall,

und damit = ˜ ν-fast überall.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 201: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 201

Notation: Die Aussage (6.2.3) rechtfertigt die folgende Notation füreine Wahrscheinlichkeits-

verteilungµ mit Dichte bzgl.ν:

µ(dx) = (x) ν(dx) bzw. dµ = dν bzw. µ = · ν.

Für die nach der Bemerkungν-fast überall eindeutig bestimmte Dichte vonµ bzgl.ν verwenden

wir dementsprechend auch die folgende Notation:

(x) =dµ

dν(x).

Wichtige Spezialfälle:

(1). MASSENFUNKTION ALSDICHTE BZGL. DES ZÄHLMASSES.

Das Zählmaß auf einer abzählbaren MengeS ist das durch

ν[B] = |B|, B ⊆ S,

definierte Maß aufS. Die Gewichtsfunktionx 7→ µ[x] einer Wahrscheinlichkeitsvertei-

lung µ auf S ist die Dichte vonµ bzgl. des Zählmaßesν. Insbesondere ist die Massen-

funktion einer diskreten ZufallsvariableX : Ω → S die Dichte der Verteilung vonX bzgl.

ν:

µX [B] = P [X ∈ B] =∑

a∈BpX(a) =

B

pX(a)ν(da), für alleB ⊆ S.

Die Berechnungsformel für den Erwartungswert diskreter Zufallsvariablen ergibt sich da-

mit als Spezialfall von Satz 6.12:

E[h(X)]6.12=

∫h(a)pX(a)ν(da) =

a∈Sh(a)pX(a) für alleh : S → [0,∞].

(2). DICHTEN BZGL. DES LEBESGUEMASSES

Eine Wahrscheinlichkeitsverteilungµ auf Rd mit Borelscherσ-Algebra hat genau dann

eine Dichte bzgl. des Lebesguemaßesλ, wenn

µ[(−∞, c1]× . . .× (−∞, cd]] =

c1∫

−∞

· · ·cd∫

−∞

(x1, . . . , xd) dxd · · · dx1

für alle (c1, . . . , cd) ∈ Rd gilt. Insbesondere hat die Verteilung einer reellwertigenZufalls-

variableX genau dann die DichtefX bzgl.λ, wenn

FX(c) = µX [(−∞, c]] =

c∫

−∞

fX(x) dx für alle c ∈ R

Universität Bonn Wintersemester 2009/2010

Page 202: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

202 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

gilt. Die Verteilungsfunktion ist in diesem Fall eine Stammfunktion der Dichte, und damit

λ-fast überall differenzierbar mit Ableitung

F ′X(x) = fX(x) für fast allex ∈ R.

Für den Erwartungswert ergibt sich:

E[h(X)] =

R

h(x)fX(x) dx

für alle messbaren Funktionenh : R → R mit h ≥ 0 oderh ∈ L1(R,B(R), µ).

Beispiel (Normalverteilungen). Die Dichte der Standardnormalverteilung bzgl. des Lebesgue-

maßes ist (x) = (2π)−1/2 · e−x2/2. Damit ergibt sich für den Erwartungswert und die Varianz

einer ZufallsvariableZ ∼ N(0, 1):

E[Z] =

∞∫

−∞

x · (2π)−1/2 · e−x2/2 dx = 0, und

Var[Z] = E[(Z − E[Z])2] = E[Z2]

=

∞∫

−∞

x2 · (2π)−1/2 · e−x2/2 dx

=

∞∫

−∞

1 · (2π)−1/2 · e−x2/2 dx = 1.

Hierbei haben wir im letzten Schritt partielle Integrationbenutzt.

IstX eineN(m,σ2)-verteilte Zufallsvariable, dann istZ = X−mσ

standardnormalverteilt, und es

gilt X = m+ σZ, also

E[X] = m+ σE[Z] = m,

und

Var[X] = Var[σZ] = σ2 Var[Z] = σ2.

Die Parameterm undσ geben also den Erwartungswert und die Standardabweichung der Nor-

malverteilung an.

(3). RELATIVE DICHTEN: Seienµ und ν zwei Wahrscheinlichkeitsverteilungen auf einem

messbaren Raum(S,S) mit Dichtenf bzw.g bezüglich eines Referenzmaßesλ (z.B. Zähl-

maß oder Lebesguemaß). Giltg > 0 λ-fast überall, dann hatµ bzgl.ν die Dichte

dν=

f

g=

dµ/dλ

dν/dλ,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 203: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.2. BERECHNUNG VON ERWARTUNGSWERTEN; DICHTEN 203

denn nach Satz 6.12 gilt:

µ[B] =

B

f dλ =

B

f

gg dλ

=

B

f

gdν für alleB ∈ S.

In der Statistik treten relative Dichten als „Likelihoodquotienten“ auf, wobeif(x) bzw.

g(x) die „Likelihood“ eines Beobachtungswertesx bzgl. verschiedener möglicher zugrun-

deliegender Wahrscheinlichkeitsverteilungen beschreibt, s. Abschnitt 9.1.

Existenz von Dichten

Wir geben abschließend ohne Beweis den Satz von Radon-Nikodyman. Dieser Satz besagt, dass

eine Wahrscheinlichkeitsverteilung (oder allgemeiner ein σ-endliches Maß)µ genau dann ei-

ne Dichte bzgl. eines anderen (σ-endlichen) Maßesν hat, wenn alleν-Nullmengen auchµ-

Nullmengen sind. Ein Maßµ auf einem messbaren Raum(S,S) heißtσ-endlich, wenn eine

Folge von messbaren MengenBn ∈ S mit µ[Bn] <∞ undS =⋃n∈N

Bn existiert.

Definition. (1). Ein Maßµ auf (S,S) heißt absolutstetigbzgl. eines anderen Maßesν auf

demselben messbaren Raum (µ≪ ν) falls für alleB ∈ S gilt:

ν[B] = 0 =⇒ µ[B] = 0

(2). Die Maßeµ undν heißenäquivalent(µ ∼ ν), fallsµ≪ ν undν ≪ µ.

Beispiel. Ein Diracmaßδx, x ∈ R, ist nicht absolutstetig bzgl. das Lebesguemaßesλ aufR, denn

es giltλ[x] = 0, aberδx[x] > 0. Umgekehrt ist auch das Lebesguemaß nicht absolutstetig

bzgl. des Diracmaßes.

Satz 6.13(Radon-Nikodym). Für σ-endliche Maßeµ undν gilt µ ≪ ν genau dann, wenn eine

Dichte ∈ L1(S,S, ν) existiert mit

µ[B] =

B

dν für alleB ∈ S.

Die eine Richtung des Satzes zeigt man leicht: Hatµ eine Dichte bzgl.ν, und giltν[B] = 0, so

folgt

µ[B] =

B

dν =

∫ · IB dν = 0,

Universität Bonn Wintersemester 2009/2010

Page 204: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

204 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

da · IB = 0 ν-fast überall. Der Beweis der Umkehrung ist nicht so einfach,und kann funk-

tionalanalytisch erfolgen, siehe z.B. Klenke: „Wahrscheinlichkeitstheorie“. Einen stochastischen

Beweis über Martingaltheorie werden wir in der Vorlesung „Stochastische Prozesse“ führen.

Beispiel (Absolutstetigkeit von diskreten Wahrscheinlichkeitsverteilungen). Sind µ und ν

Wahrscheinlichkeitsverteilungen (oderσ-endliche Maße) auf einer abzählbaren MengeS, dann

gilt µ ≪ ν genau dann, wennµ(x) = 0 für alle x ∈ S mit ν(x) = 0 gilt. In diesem Fall ist die

Dichte vonµ bzgl.ν durch

dν(x) =

µ(x)

ν(x)falls ν(x) 6= 0

beliebig sonst

gegeben. Man beachte, dass die Dichte nur fürν-fast allex, also für allexmit ν(x) 6= 0, eindeutig

bestimmt ist.

6.3 Varianz, Kovarianz und lineare Regression

Varianz und Standardabweichung

SeiX : Ω → R eine integrierbare Zufallsvariable auf einem Wahrscheinlichkeitsraum(Ω,A, P ).Wie zuvor für diskrete Zufallsvariablen (s. Abschnitt 3.1)definieren wir auch im allgemeinen Fall

dieVarianzVar[X] und die Standardabweichungσ[X] durch

Var[X] := E[(X − E[X])2], σ[X] :=√

Var[X].

Auch in diesem Fall folgen aus der Linearität des Erwartungswerts die Rechenregeln

Var[X] = E[X2]− E[X]2, und (6.3.1)

Var[aX + b] = Var[aX] = a2 · Var[X] für allea, b ∈ R. (6.3.2)

Insbesondere ist die Varianz genau dann endlich, wennE[X2] endlich ist. Nach Korollar 6.5

gilt zudem genau dannVar[X] = 0, wennX P -f.s. konstant gleichE[X] ist. Aufgrund des

Transformationssatzes für den Erwartungswert können wir die Varianz auch allgemein aus der

VerteilungµX = P X−1 berechnen:

Korollar 6.14. Die VarianzVar[X] hängt nur von der VerteilungµX = P X−1 ab:

Var[X] =

∫(x− x)2 µX(dx) mit x = E[X] =

∫x µ(dx).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 205: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 205

Beweis.Nach Satz 6.12 gilt

Var[X] = E[(X − E[X])2] =

∫(x− E[X])2µX(dx)

mit E[X] =∫xµX(dx).

Beispiel(Empirisches Mittel und empirische Varianz). Ist die zugrundeliegende Wahrschein-

lichkeitsverteilung aufΩ eine empirische Verteilung

P =1

n

n∑

i=1

δωi

vonnElementenω1, . . . , ωn aus einer Grundgesamtheit (z.B. alle Einwohner von Bonn, odereine

Stichprobe daraus), dann ist die Verteilung einer AbbildungX : Ω → S (statistisches Merkmal,

z.B. Alter der Einwohner von Bonn) gerade die empirische Verteilung der auftretenden Werte

xi = X(ωi):

µX =1

n

n∑

i=1

δxi.

Die Gewichte der empirischen Verteilung sind die relativenHäufigkeiten

µX(a) =h(a)

n, h(a) = |1 ≤ i ≤ n : xi = a|.

Für den Erwartungswert einer Funktiong(X), g : S → R, ergibt sich

E[g(X)] =∑

a∈x1,...,xng(a) · h(a)

n=

1

n

n∑

i=1

g(xi),

d.h. der Erwartungswert bzgl. der empirischen Verteilung ist das arithmetische Mittel der Werte

g(xi).

IstX reellwertig, so erhalten wir als Erwartungswert und Varianz dasempirische Mittel

E[X] =∑

a∈x1,...,xna · h(a)

n=

1

n

n∑

i=1

xi =: xn,

und dieempirische Varianz

Var[X] = E[(X − E[X])2] =∑

a∈x1,...,xn(a− xn)

2 · h(a)n

=1

n

n∑

i=1

(xi − xn)2 = (x2)n − (xn)

2 =: σ2n.

Universität Bonn Wintersemester 2009/2010

Page 206: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

206 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Sind diexi selbst unabhängige Stichproben von einer Wahrscheinlichkeitsverteilungµ, dann ist

die empirische Verteilungn−1n∑

i=1

δxinach dem Gesetz der großen Zahlen eine Approximation

vonµ, siehe Abschnitt 7.2 unten. Daher verwendet man das Stichprobenmittelxn und die Stich-

probenvarianzσ2n bzw. die renormierte Stichprobenvarianz

s2n =1

n− 1

n∑

i=1

(xi − xn)2

in der Statistik, um den Erwartungswert und die Varianz einer zugrundeliegenden (unbekannten)

Verteilung zu schätzen.

Beispiel (Exponentialverteilung). Für eine zum Parameterλ > 0 exponentialverteilte Zufalls-

variableT gilt E[T ] = 1λ. Mit partieller Integration folgt zudem:

E[T 2] =

∞∫

0

t2fT (t) dt =

∞∫

0

t2λe−λt dt

=

∞∫

0

2te−λt dt =2

λ

∞∫

0

tfT (t) dt

=2

λE[T ] =

2

λ2,

also

σ(T ) =√Var[T ] = (E[T 2]− E[T ]2)1/2 =

1

λ.

Die Standardabweichung ist also genauso groß wie der Erwartungswert!

Beispiel(Heavy Tails). Eine ZufallsvariableX : Ω → R mit Verteilungsdichte

fX(x) ∼ |x|−p für |x| → ∞

ist integrierbar fürp > 2. Fürp ∈ (2, 3] gilt jedoch

Var[X] =

∞∫

−∞

(x− E[X])2fX(x) dx = ∞.

Quadratintegrierbare Zufallsvariablen

Für einen gegebenen Wahrscheinlichkeitsraum(Ω,A, P ) bezeichnen wir mitL2(Ω,A, P ) den

Raum aller bezüglichP quadratintegrierbaren Zufallsvariablen:

L2(Ω,A, P ) = X : Ω → R messbar| E[X2] <∞.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 207: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 207

Der Raum ist ein Unterraum des Vektorraums allerA/B(R) messbaren Abbildungen, denn für

X, Y ∈ L2(Ω,A, P ) unda ∈ R gilt:

E[(aX + Y )2] ≤ E[2(aX)2 + 2Y 2] = 2a2E[X2] + 2E[Y 2] < ∞.

Zudem gilt

L2(Ω,A, P ) ⊆ L1(Ω,A, P ),

denn aus|X| ≤ (X2 + 1)/2 folgt

E[|X|] ≤ E

[1

2(X2 + 1)

]=

1

2(E[X2] + 1) < ∞

für alleX ∈ L2(Ω,A, P ). Hierbei haben wir wesentlich benutzt, dassP ein endliches Maß ist

- für unendliche Maße ist der RaumL2 nicht in L1 enthalten! Nach (6.3.1) ist umgekehrt eine

Zufallsvariable ausL1 genau dann inL2 enthalten, wenn sie endliche Varianz hat.

Auf dem Vektorraum

L2(Ω,A, P ) = L2(Ω,A, P )/ ∼

der Äquivalenzklassen vonP -fast sicher gleichen quadratintegrierbaren Zufallsvariablen wird

durch

(X, Y )L2 := E[XY ] und ‖X‖L2 := (X,X)1/2

L2

ein Skalarprodukt und eine Norm definiert. Hierbei ist der ErwartungswertE[XY ]wegen|XY | ≤(X2 + Y 2)/2 definiert. Insbesondere gilt dieCauchy-Schwarz-Ungleichung

|E[XY ]| ≤ E[X2]1/2 · E[Y 2]1/2 für alleX, Y ∈ L2(Ω,A, P ).

In der Analysis wird gezeigt, dassL2(Ω,A, P ) bzgl. desL2-Skalarprodukts ein Hilbertraum, also

vollständig bzgl. derL2-Norm ist.

Beste Prognosen

Angenommen wir wollen den Ausgang eines Zufallsexperiments vorhersagen, dass durch eine

reellwertige ZufallsvariableX : Ω → R beschrieben wird. Welches ist der beste Prognosewerta

für X(ω), wenn uns keine weiteren Informationen zur Verfügung stehen?

Die Antwort hängt offensichtlich davon ab, wie wir den Prognosefehler messen. Häufig verwen-

det man den mittleren quadratischen Fehler (meansquareerror)

MSE = E[(X − a)2]

Universität Bonn Wintersemester 2009/2010

Page 208: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

208 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

bzw. die Wurzel (rootmeansquareerror)

RMSE = MSE1/2 = ‖X − a‖L2(Ω,A,P ).

Satz 6.15(Erwartungswert als besterL2-Prognosewert). IstX ∈ L2(Ω,A, P ), dann gilt für

alle a ∈ R:

E[(X − a)2] = Var[X] + (a− E[X])2 ≥ E[(X − E[X])2]

Der mittlere quadratische Fehler des Prognosewertesa ist also die Summe der Varianz vonX

und des Quadrats desBias (systematischer bzw. mittlerer Prognosefehler)a− E[X]:

MSE = Varianz+ Bias2.

Insbesondere ist der mittlere quadratische Fehler genau für a = E[X] minimal.

Beweis.Füra ∈ R gilt wegen der Linearität des Erwartungswertes:

E[(X − a)2] = E[(X − E[X] + E[X]− a)2]

= E[(X − E[X])2] + 2E[(X − E[X]) · (E[X]− a)]︸ ︷︷ ︸=(E[X]− E[X])︸ ︷︷ ︸

=0

·(E[X]−a)

+ E[(E[X]− a)2]

= Var[X] + (E[X]− a)2.

Verwendet man eine andere Norm, um den Prognosefehler zu messen, dann ergeben sich im

Allgemeinen andere beste Prognosewerte. Beispielsweise gilt:

Satz 6.16(Median als besterL1-Prognosewert). IstX ∈ L1(Ω,A, P ) undm ein Median der

Verteilung vonX, dann gilt für allea ∈ R:

E[|X − a|] ≥ E[|X −m|]

.

Beweis.Fürm ≥ a folgt die Behauptung aus der Identität

|X −m| − |X − a| ≤ (m− a)(I(−∞,m)(X)− I[m,∞)(X))

durch Bilden des Erwartungswertes. Der Beweis fürm ≤ a verläuft analog.

Insbesondere minimieren Stichprobenmittel und Stichprobenmedian einer Stichprobex1, . . . , xn ∈R also die Summe der quadratischen bzw. absoluten Abweichungen

∑(xi−a)2 bzw.

∑ |xi−a|.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 209: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 209

Kovarianz und Korrelation

SeienX undY quadratintegrierbare reellwertige Zufallsvariablen, die auf einem gemeinsamen

Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind. Wie schon für diskrete Zufallsvariablen defi-

nieren wir wieder dieKovarianz

Cov[X, Y ] := E[(X − E[X])(Y − E[Y ])] = E[XY ]− E[X] · E[Y ]

und denKorrelationskoeffizienten

[X, Y ] :=Cov[X, Y ]

σ[X]σ[Y ],

falls σ[X] · σ[Y ] 6= 0. Die ZufallsvariablenX undY heißen unkorreliert, fallsCov[X, Y ] = 0

gilt, d.h. falls

E[XY ] = E[X] · E[Y ].

Um die Kovarianz zu berechnen, benötigen wir die gemeinsameVerteilung der Zufallsvariablen

X undY . Aus dem Transformationssatz für den Erwartungswert folgt:

Korollar 6.17. Die KovarianzCov[X, Y ] hängt nur von der gemeinsamen Verteilung

µX,Y = P (X, Y )−1

der ZufallsvariablenX undY ab:

Cov[X, Y ] =

∫ (x−

∫z µX(dz)

)(y −

∫z µY (dz)

)µX,Y (dx dy).

Beweis.Nach dem Transformationssatz gilt

Cov[X, Y ] = E[(X − E[X])(Y − E[Y ])]

=

∫ (x−

∫z µX(dz)

)(y −

∫z µY (dz)

)µX,Y (dx dy).

Aus der Linearität des Erwartungswertes folgt, dass die AbbildungCov : L2 ×L2 → R symme-

trisch und bilinear ist. Die VarianzVar[X] = Cov[X,X] ist die zugehörige quadratische Form.

Insbesondere gilt wie im diskreten Fall:

Var

[n∑

i=1

Xi

]=

n∑

i=1

Var[Xi] + 2 ·n∑

i,j=1

i<j

Cov[Xi, Xj ].

Universität Bonn Wintersemester 2009/2010

Page 210: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

210 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Sind die ZufallsvariablenX1, . . . , Xn unkorreliert, dann folgt:

Var[X1 + . . .+Xn] =n∑

i=1

Var[Xi].

Die folgende Aussage ist ein Spezialfall der Cauchy-Schwarz-Ungleichung. Wir geben trotzdem

einen vollständigen Beweis, da dieser auch in Zusammenhang mit linearer Regression von Inter-

esse ist.

Satz 6.18(Cauchy-Schwarz). (1). FürX, Y ∈ L2 gilt:

|Cov[X, Y ]| ≤ Var[X]1/2 · Var[Y ]1/2 = σ[X] · σ[Y ]. (6.3.3)

(2). Im Fallσ[X] · σ[Y ] 6= 0 gilt für den Korrelationskoeffizienten

|[X, Y ]| ≤ 1. (6.3.4)

Gleichheit in (6.3.3) bzw. (6.3.4) gilt genau dann, wenn eina 6= 0 und einb ∈ R existieren,

sodassY = aX + b P -fast sicher gilt. Hierbei ist [X, Y ] = 1 im Falle a > 0 und

[X, Y ] = −1 für a < 0.

Beweis.Im Fall σ[X] = 0 gilt X = E[X] P -fast sicher, und die Ungleichung (6.3.3) ist trivia-

lerweise erfüllt. Wir nehmen nun an, dassσ[X] 6= 0 gilt.

(1). Füra ∈ R gilt:

0 ≤ Var[Y − aX] = Var[Y ]− 2aCov[X, Y ] + a2 Var[X] (6.3.5)

=

(a · σ[X]− Cov[X, Y ]

σ[X]

)2

− Cov[X, Y ]2

Var[X]+ Var[Y ].

Da der erste Term füra := Cov[X,Y ]σ[X]2

verschwindet, folgt:

Var[Y ]− Cov[X, Y ]2

Var[X]≥ 0.

(2). Die Ungleichung|[X, Y ]| ≤ 1 folgt unmittelbar aus (6.3.3). Zudem gilt genau dann

Gleichheit in (6.3.5) bzw. (6.3.3), wennVar[Y − aX] = 0 gilt, alsoY − aX P -fast si-

cher konstant ist. In diesem Fall folgt

Cov[X, Y ] = Cov[X, aX] = aVar[X],

also hat [X, Y ] dasselbe Vorzeichen wiea.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 211: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 211

Beispiel(Empirischer Korrelationskoeffizent). Ist die zugrundeliegende Wahrscheinlichkeits-

verteilung eine empirische VerteilungP = 1n

n∑i=1

δωi, und sindX, Y : Ω → R reellwertige

Abbildungen (statistische Merkmale), dann gilt

µX,Y =1

n

n∑

i=1

δ(xi,yi) mit xi = X(ωi) undyi = Y (ωi).

Als Kovarianz ergibt sich

Cov[X, Y ] =1

n

n∑

i=1

(xi − xn)(yi − yn) =1

n

(n∑

i=1

xiyi

)− xnyn.

Der entsprechendeempirische Korrelationskoeffizientder Daten(xi, yi), 1 ≤ i ≤ n, ist

[X, Y ] =Cov[X, Y ]

σ[X]σ[Y ]=

n∑i=1

(xi − xn)(yi − yn)

(n∑

i=1

(xi − xn)2)1/2( n∑

i=1

(yi − yn)2

)1/2=: rn.

Den empirischen Korrelationskoeffizienten verwendet man als Schätzer für die Korrelation von

Zufallsgrößen mit unbekannten Verteilungen.

Die Grafiken 6.3 und 6.3 zeigen Stichproben mit verschiedenen Korrelationskoeffizienten.

b

b

b b

b

bb

bb b

b

b

b

bb

b

b

b

b

b

b

b

b b

bb

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

bb

b

b

bb

b

b b

bb

b

b

b

b

b

b

b

bb

b

b bb b

b

b

b

b

b

b

b b

b

b

bb

bb

b

bb

b

b

bb

1

2

−1

−2

1 2−1−2 X

Y

= 1

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

b

b

b

b

bbb

b

b

b

bb

b

b

b

bb

b

bb

b

b

b

bb

bb

b

bbb

b

b

b

bb

b

b

b

b b

b

b

b

b

b

b

1

2

−1

−2

1 2−1−2 X

Y

= 12

b b

b

b

b

b

bb

b

bb

b

bb

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

bb

b

b

b

bb

b

b

b

b

bb

b

b

b

b

b

b

b

b

b

b

bb

b

b

bb

b

bb

b

b

b

b

bb

b

b

b b

b

b

b

b

b

b

b

b

bb

b

b

b

b

b

1

2

−1

−2

1 2−1−2 X

Y

= 0

b

b

b

bb

b

b

b

b

b

b

b

b

b

b

b

b

b

b b

bb

b

b

b

b

b

bb

b

b b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

b

bb

b

bb

b

b

b b

b

b

b

b b

bb

b

bb

b

b b

b

b

b

bb

bb

b

b

b

b

bb

b

b

b

b1

2

−1

−2

1 2−1−2 X

Y

= −12

bb

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

b

b

b

b

bbb

bb

b

b

b

b b

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

bb

bb

b

b

b

b

b

b

b

b

b

b

b

b b

bb

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

bb

b

b

b

b

bb

b

b

b

b

bb

b

b

b

b

b b

1

2

−1

−2

1 2−1−2 X

Y

= −1

Abbildung 6.2: Stichprobe von 100 Punkten von korreliertenStandardnormalverteilungen

Universität Bonn Wintersemester 2009/2010

Page 212: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

212 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

bb

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

b

b

b

b

bbb

bb

b

b

b

b b

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

bb

bb

b

b

b

b

b

b

b

b

b

b

b

b b

bb

b

b

b

b

b

b

b

b

b

b

bb

b

b

b

bb

b

b

b

b

bb

b

b

b

b

bb

b

b

b

b

b b

1

2

−1

−2

1 2−1−2 X

Y

= 1

Abbildung 6.3: Stichprobe von 100 Punkten von korreliertenStandardnormalverteilungen

Anwendung auf lineare Prognose (Regression)

SeienX, Y ∈ L2(Ω,A, P ) Zufallsvariablen mitσ[X] 6= 0. Angenommen, wir kennen den Wert

X(ω) in einem Zufallsexperiment und suchen die bestelineareVorhersage

Y (ω) = aX(ω) + b, (a, b ∈ R) (6.3.6)

für Y (ω) im quadratischen Mittel, d.h. den Minimierer des mittlerenquadratischen Fehlers,

MSE := E[(Y − Y )2],

unter alle ZufallsvariablenY , die affine Funktionen vonX sind.

Korollar 6.19. Der mittlere quadratische Fehler ist minimal unter allen ZufallsvariablenY =

aX + b (a, b ∈ R) für

Y (ω) = E[Y ] +Cov[X, Y ]

Var[X]· (X(ω)− E[X]).

Beweis.Es gilt

MSE = Var[Y − Y ] + E[Y − Y ]2

= Var[Y − aX] + (E[Y ]− aE[X]− b)2.

Der zweite Term ist minimal für

b = E[Y ]− aE[X],

und der erste Term für

a =Cov[X, Y ]

σ[X]2,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 213: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 213

siehe den Beweis der Cauchy-Schwarz-Ungleichung, Satz 6.18.Die bzgl. des mittleren quadra-

tischen Fehlers optimale Prognose fürY gestützt aufX ist also

Yopt = aX + b = E[Y ] + a(X − E[X]).

Beispiel(Regressionsgerade, Methode der kleinsten Quadrate). Im Beispiel der empirischen

Verteilung von oben erhalten wir die Regressionsgeradey = ax+ b, die die Quadratsummen∑

i=1

(axi + b− yi)2 = n · MSE

der Abweichungen minimiert. Es gilt

a =Cov[X, Y ]

σ[X]2=

n∑i=1

(xi − xn)(yi − yn)

n∑i=1

(xi − xn)2

und

b = E[Y ]− a · E[X] = yn − a · xn.

Die Regressionsgeraden sind in Grafik 6.3 eingezeichnet.

Beispiel(Zweidimensionale Normalverteilung). Die zweidimensionale NormalverteilungN(m,C)

ist die Verteilung imR2 mit Dichte

fm,C(x) =1

2π ·√detC

· exp(−1

2(x−m) · C−1(x−m)

), x ∈ R2.

Hierbei istm ∈ R2 undC =

(v1 c

c v2

)eine symmetrische positiv-definite Matrix mit Koeffizi-

entenc ∈ R und v1, v2 > 0. Mit σi :=√vi, i = 1, 2, und := c

σ1σ2gilt:

detC = v1v2 − c2 = σ21σ

22 · (1− 2), und

C−1 =1

detC

(v2 −c−c v1

)=

1

1− 2·

1σ21

− σ1σ2

− σ1σ2

1σ22

,

also

fm,C(x) =

exp

(− 1

2(1−2)

[(x1−m1

σ1

)2− 2x1−m1

σ1· x2−m2

σ2+(

x2−m2

σ2

)2])

2πσ1σ2√1− 2

.

Die folgende Aussage zeigt, dass die Koeffizientenmi, σi und tatsächlich der Mittelwert, die

Standardabweichung und die Korrelation der Koordinatenx1 undx2 sind:

Behauptung:

Universität Bonn Wintersemester 2009/2010

Page 214: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

214 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

(1). fm,C ist eine Wahrscheinlichkeitsdichte bzgl. des Lebesguemaßes imR2.

(2). Für reellwertige ZufallsvariablenX1, X2 mit gemeinsamer VerteilungµX1,X2 = N(m,C)

undi = 1, 2 gilt

E[Xi] = mi, Var[Xi] = vi, und Cov[X1, X2] = c, (6.3.7)

d.h.m ist der Mittelwertvektor undC = (Cov[Xi, Xj ])i,j die Kovarianzmatrix der Nor-

malverteilungN(m,C).

Der Beweis der Behauptung wird der Leserin/dem Leser als Übungüberlassen - wir zeigen nur

exemplarisch die Berechnung der Kovarianz im Fallm = 0. Mit quadratischer Ergänzung können

wir den Exponenten in der Dichtef0,C(x) schreiben als

− 1

2(1− 2)

(x1σ1

− x2σ2

)2

− 1

2

(x2σ2

)2

.

Mit m(x2) =x2σ1σ2

erhalten wir dann nach dem Satz von Fubini:

R2

x1x2f0,C(x) dx

=1

2πσ1σ2√

1− 2

∫ ∫x1x2 exp[−

1

2(1− 2)σ21

(x1 − m(x2))2] dx1 exp

(− x222σ2

2

)dx2

=1√2πσ2

2

∫x2 · m(x2)︸ ︷︷ ︸x22σ1/σ2

· exp(− x222σ2

2

)dx2 = σ1σ2 = c,

wobei wir im zweiten und dritten Schritt die Formeln für den Erwartungswert und die Varianz von

eindimensionalen Normalverteilungen verwendet haben. Nach dem Transformationssatz ergibt

sich:

E[X1X2] =

∫x1x2 µX1,X2(dx) = c.

Da auf ähnliche WeiseE[X1] = E[X2] = 0 folgt, ist c die Kovarianz vonX1 undX2.

Bemerkung. Ist X = (X1, X2) ein N(m,C)-verteilter Zufallsvektor, dann ist jede Linear-

kombinationY = α1X1 + α2X2, α ∈ R2, normalverteilt mit Mittelwertα · m und Varianz

α · Cα. Auch dies kann man durch eine explizite Berechnung der Verteilungsfunktion aus der

gemeinsamen Dichte vonX1 undX2 zeigen. Wir werden multivariate Normalverteilungen sys-

tematischer in Abschnitt 9.3 untersuchen, und dort auch einen eleganteren Beweis der letzten

Aussage mithilfe von charakteristischen Funktionen geben.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 215: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 215

Beispiel(Autoregressiver Prozess). SeienX0 undZn, n ∈ N, unabhängige reellwertige Zufalls-

variablen mitZn ∼ N(0, 1) für allen. Der durch das „stochastische Bewegungsgesetz“

Xn = αXn−1︸ ︷︷ ︸lineares

Bewegungsgesetz

+ εZn︸︷︷︸zufällige Störung,

Rauschen

, n ∈ N, (6.3.8)

definierte stochastische Prozess(Xn)n=0,1,2,... heißtautoregressiver Prozess AR(1)mit Parame-

ternε, α ∈ R. Autoregressive Prozesse werden zur Modellierung von Zeitreihen eingesetzt. Im

allgemeineren autoregressiven Modell AR(p), p ∈ N, mit Parameternε, α1, . . . , αp ∈ R lautet

das Bewegungsgesetz

Xn =

p∑

i=1

αiXn−i + εZn, n ≥ p.

Grafik 6.3 zeigt simulierte Trajektorien von AR(1)- und AR(2)-Prozessen:

Das folgende Lemma fasst einige grundlegende Eigenschaften des AR(1) Modells zusammen.

Lemma 6.20.Für den AR(1)-Prozess mit Parameternε, α undm ∈ R, σ > 0 gilt:

(1). Xn−1 ∼ N(m,σ2) =⇒ Xn ∼ N(αm,α2σ2 + ε2).

(2). Für |α| < 1 ist die Verteilungµ = N(0, ε2

1−α2 ) ein Gleichgewicht, d.h.

X0 ∼ µ =⇒ Xn ∼ µ ∀n ∈ N.

Bei StartverteilungP X−10 = µ gilt:

Cov[Xn, Xn−k] = αk · ε2

1− α2für alle 0 ≤ k ≤ n.

Exponentieller Abfall der Korrelationen

Universität Bonn Wintersemester 2009/2010

Page 216: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

216 KAPITEL 6. ERWARTUNGSWERT UND VARIANZ

Beweis.Gilt Xn−1 ∼ N(m,σ2), dann ist(Xn−1, Zn) bivariat normalverteilt, also ist auch die

LinearkombinationXn = aXn−1+ εZn normalverteilt. Der Erwartungswert und die Varianz von

Xn ergeben sich aus (6.3.7). Der Beweis der übrigen Aussagen wird dem Leser als Übungsauf-

gabe überlassen.

Bemerkung. (1). Der AR(1)-Prozess ist eineMarkovkettemit Übergangswahrscheinlichkeiten

p(x, ·) = N(αx, ε2), s. Abschnitt 9.1 unten.

(2). Ist die gemeinsame Verteilung der StartwerteX0, X1, . . . , Xp−1 eine multivariate Normal-

verteilung, dann ist der AR(p)-Prozess einGaussprozess, d.h. die gemeinsame Verteilung

vonX0, X1, . . . , Xn ist für jedesn ∈ N eine multivariate Normalverteilung.

Unabhängigkeit und Unkorreliertheit

Wir zeigen abschließend, dass auch für allgemeine ZufallsvariablenX undY aus Unabhängigkeit

die Unkorreliertheit von beliebigen Funktionenf(X) und g(Y ) folgt. SeienX : Ω → S und

Y : Ω → T Zufallsvariablen mit Werten in messbaren Räumen(S,S) und(T, T ).

Satz 6.21.Es sind äquivalent:

(1). Die ZufallsvariablenX undY sind unabhängig, d.h.

P [X ∈ A, Y ∈ B] = P [X ∈ A] · P [Y ∈ B] für alleA ∈ S undB ∈ T

(2). Die Zufallsvariablenf(X) undg(Y ) sind unkorreliert für alle messbaren Funktionenf, g

mit f, g ≥ 0 bzw.f(X), g(Y ) ∈ L2(Ω,A, P ), d.h.

E[f(X) · g(Y )] = E[f(X)] · E[g(Y )]. (6.3.9)

Beweis.Offensichtlich folgt (1) aus (2) durch Wahl vonf = IA undg = IB. Die umgekehrte Im-

plikation folgt durch maßtheoretische Induktion: Gilt (1), dann ist (6.3.9) für Indikatorfunktionen

f undg erfüllt. Wegen der Linearität beider Seiten dieser Gleichung in f undg gilt (6.3.9) auch

für beliebige Elementarfunktionen. Für messbaref, g ≥ 0 betrachten wir Folgen von Elementar-

funktionenfn, gn mit fn ր f, gn ր g. Die Aussage (6.3.9) folgt durch monotone Konvergenz.

Allgemeine Funktionen zerlegen wir in ihren Positiv- und Negativanteil, und wenden die Aus-

sage auf diese an. Also giltCov[f(X), g(Y )] = 0 für alle messbarenf, g mit f, g ≥ 0 bzw.

f(X), g(Y ) ∈ L2(Ω,A, P ).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 217: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

6.3. VARIANZ, KOVARIANZ UND LINEARE REGRESSION 217

Korollar 6.22. SindX, Y ∈ L1(Ω,A, P ) unabhängig, so gilt:

X · Y ∈ L1(Ω,A, P ) und E[XY ] = E[X] · E[Y ].

Beweis.Nach Satz 6.21 gilt:

E[|XY |] = E[|X|] · E[|Y |] < ∞.

Die Formel fürE[XY ] folgt durch die ZerlegungenX = X+ −X− undY = Y + − Y −.

Universität Bonn Wintersemester 2009/2010

Page 218: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 7

Gesetze der großen Zahlen

In diesem Kapitel beweisen wir verschiedene Gesetze der großen Zahlen, d.h. wir leiten Bedin-

gungen her, unter denen die Mittelwerte1n

n∑i=1

Xi einer Folge(Xi)i∈N von reellwertigen Zufalls-

variablen gegen ihren Erwartungswert konvergieren. Dabeiunterscheiden wir verschiedene Arten

der Konvergenz, die wir zunächst genauer untersuchen wollen.

7.1 Grundlegende Ungleichungen und Konvergenz von Zu-

fallsvariablen

Konvergenzbegriffe für Zufallsvariablen

SeienYn, n ∈ N, undY reellwertige Zufallsvariablen, die auf einem gemeinsamenWahrschein-

lichkeitsraum(Ω,A, P ) definiert sind. Wir betrachten die folgenden Konvergenzbegriffe für die

Folge(Yn)n∈N:

Definition. (1). Fast sichere Konvergenz:

Die Folge(Yn)n∈N konvergiertP -fast sicher gegenY , falls gilt:

P[limn→∞

Yn = Y]

= P [ω ∈ Ω|Yn(ω) → Y (ω)] = 1.

(2). Stochastische Konvergenz(Convergence in probability):

Die Folge(Yn)n∈N konvergiertP -stochastisch gegenY (NotationYnP→ Y ), falls

limn→∞

P [|Yn − Y | > ε] = 0 für alle ε > 0 gilt.

218

Page 219: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 219

(3). Lp-Konvergenz(1 ≤ p <∞):

Die Folge(Yn)n∈N konvergiert inLp(Ω,A, P ) gegenY , falls

limn→∞

E[|Yn − Y |p] = 0.

Ein Gesetz der großen Zahlen bezüglich fast sicherer Konvergenz heißtstarkes Gesetz der

großen Zahlen, ein G.d.g.Z. bezüglich stochastischer Konvergenz heißtschwaches Gesetz der

großen Zahlen. Wir wollen nun die Zusammenhänge zwischen den verschiedenen Konvergenz-

begriffen untersuchen.

Satz 7.1. (1). Fast sichere Konvergenz impliziert stochastische Konvergenz.

(2). Die umgekehrte Implikation gilt im Allgemeinen nicht.

Beweis. (1). KonvergiertYn P -fast sicher gegenY , dann gilt fürε > 0:

1 = P [|Yn − Y | < ε schließlich]

= P

[⋃

m

n≥m

|Yn − Y | < ε]

= limm→∞

P

[⋂

n≥m

|Yn − Y | < ε]

≤ limm→∞

infn≥m

P [|Yn − Y | < ε]

= lim infn→∞

P [|Yn − Y | < ε].

Es folgt limn→∞

P [|Yn − Y | < ε] = 1 für alle ε > 0, d.h.Yn konvergiert auchP -stochastisch

gegenY .

(2). Sei andererseitsP das Lebesguemaß aufΩ = (0, 1] mit Borelscherσ-Algebra. Wir be-

trachten die Zufallsvariablen

Y1 = I(0,1], Y2 = I(0, 12], Y3 = I( 1

2,1], Y4 = I(0, 1

4], Y5 = I( 1

4, 12], Y6 = I( 1

2, 34], Y6 = I( 3

4,1], . . .

Dann gilt

P [|Yn| > ε] = P [Yn = 1] → 0 für alleε > 0,

also konvergiertYn stochastisch gegen 0, obwohl

lim supYn(ω) = 1 für alleω ∈ Ω gilt.

Universität Bonn Wintersemester 2009/2010

Page 220: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

220 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

Hier ist ein weiteres Beispiel, das den Unterschied zwischenstochastischer und fast sicherer

Konvergenz zeigt:

Beispiel. SindT1, T2, . . . unterP unabhängigeExp(1)-verteilte Zufallsvariablen, dann konver-

giertTn/ log n P -stochastisch gegen 0, denn

P

[∣∣∣∣Tnlog n

∣∣∣∣ ≥ ε

]= P [Tn ≥ ε · log n] = n−ε n→∞→ 0

für alleε > 0. Andererseits gilt nach (5.1.6) aber

lim supn→∞

Tnlog n

= 1 P -fast sicher,

also konvergiertTn/ log n nichtP -fast sicher.

Obwohl die stochastische Konvergenz selbst nicht fast sichere Konvergenz impliziert, kann man

aus einer Verschärfung von stochastischer Konvergenz die fast sichere Konvergenz schließen.

Wir sagen, dass eine FolgeYn, n ∈ N, von Zufallsvariablen auf(Ω,A, P ) schnell stochastisch

gegenY konvergiert, falls

∞∑

n=1

P [|Yn − Y | ≥ ε] < ∞ für alleε > 0.

Lemma 7.2. Aus schneller stochastischer Konvergenz folgt fast sichere Konvergenz.

Beweis.Wir können o.B.d.A.Y = 0 annehmen. KonvergiertYn schnell stochastisch gegen0,

dann gilt:

P [lim sup |Yn| ≤ ε] ≥ P [|Yn| ≥ ε nur endlich oft] = 1.

Es folgt

P [lim sup |Yn| 6= 0] = P

ε∈Q+

lim sup |Yn| > ε

= 0.

Ähnlich zeigt man:

Lemma 7.3. KonvergiertYn P -stochastisch gegenY , dann existiert eine TeilfolgeYnk, dieP -fast

sicher gegenY konvergiert.

Beweis.Wieder können wir o.B.d.A.Y = 0 annehmen. KonvergiertYn stochastisch gegen0,

dann existiert eine TeilfolgeYnkmit

P

[|Ynk

| ≥ 1

k

]≤ 1

k2.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 221: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 221

Nach dem Lemma von Borel-Cantelli folgt

P

[|Ynk

| ≥ 1

knur endlich oft

]= 1,

alsoYnk→ 0 P -fast sicher.

Als nächstes beweisen wir eine Erweiterung derCebyšev-Ungleichung, die wir an vielen Stellen

verwenden werden. Insbesondere impliziert sie, dass stochastische Konvergenz schwächer ist als

Lp-Konvergenz.

Die Markov-Cebyšev-Ungleichung

SeiX : Ω → R eine Zufallsvariable auf einem Wahrscheinlichkeitsraum(Ω,A, P ). Wir verwen-

den die folgende Notation:

Notation: E[X ; A] := E[X · IA] =∫AXdP .

Satz 7.4(Allgemeine Markov-Ungleichung). Seih : [0,∞] → [0,∞] monoton wachsend und

Borel-messbar. Dann gilt

P [|X| ≥ c] ≤ E[h(|X|) ; |X| ≥ c]

h(c)≤ E[h(|X|)]

h(c)für alle c > 0 mit h(c) 6= 0.

Beweis.Dah nichtnegativ und monoton wachsend ist, gilt

h(|X|) ≥ h(|X|) · I|X|≥c ≥ h(c) · I|X|≥c,

also auch

E[h(|X|)] ≥ E[h(|X|) ; |X| ≥ c] ≥ h(c) · P [|X| ≥ c].

Wichtige Spezialfälle:

(1). Markov - Ungleichung: Fürh(x) = x erhalten wir:

P [|X| ≥ c] ≤ E[|X|]c

für alle c > 0.

Insbesondere gilt für eine ZufallsvariableX mit E[|X|] = 0:

P [|X| ≥ c] = 0 für alle c > 0,

also auchP [|X| > 0] = 0, d.h.X = 0 P -fast sicher.

Universität Bonn Wintersemester 2009/2010

Page 222: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

222 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

(2). Cebyšev - Ungleichung: Für h(x) = x2 undX = Y − E[Y ] mit Y ∈ L1(Ω,A, P )erhalten wir:

P [|Y − E[Y ]| ≥ c] ≤ E[(Y − E[Y ])2]

c2=

Var[Y ]

c2für alle c > 0.

Diese Ungleichung haben wir bereits in Abschnitt 3.2 im Beweis des schwachen Gesetzes

der großen Zahlen verwendet.

(3). Exponentielle Abschätzung: Fürh(x) = exp(tx) mit t > 0 erhalten wir wegen

IX≥c ≤ e−tcetX :

P [X ≥ c] = E[IX≥c] ≤ e−tc · E[etX ].

Die Abbildung t 7→ E[etX ] heißtmomentenerzeugende Funktionder Zufallsvariablen

X. Exponentielle Ungleichungen werden wir in Abschnitt 8.2 zur Kontrolle der Wahr-

scheinlichkeitengroßer Abweichungenvom Gesetz der großen Zahlen verwenden.

Als erste Anwendung der allgemeinen Markovungleichung zeigen wir für reellwertige Zufalls-

variablenX,Xn (n ∈ N):

Korollar 7.5 (Lp-Konvergenz impliziert stochastische Konvergenz). Für 1 ≤ p <∞ gilt:

E[|Xn −X|p] → 0 ⇒ P [|Xn −X| > ε] → 0 für alle ε > 0.

Beweis.Nach der Markovungleichung mith(x) = xp gilt:

P [|Xn −X| ≥ ε] ≤ 1

εpE[|Xn −X|p].

Bemerkung. Aus stochastischer Konvergenz folgt im Allgemeinen nichtLp-Konvergenz (Übung).

Es gilt aber: KonvergiertXn → X stochastisch, und ist die Folge der Zufallsvariablen|Xn|p

(n ∈ N) gleichmäßig integrierbar, d.h.

supn∈N

E[|Xn|p ; |Xn| ≥ c] → 0 für c→ ∞,

dann konvergiertXn gegenX in Lp (Verallgemeinerter Satz von Lebesgue). Wir benötigen diese

Aussage im Moment nicht, und werden sie daher erst in der Vorlesung »Stochastische Prozesse«

beweisen.

Als nächstes wollen wir den Zusammenhang zwischenLp-Konvergenz für verschiedene Werte

vonp ≥ 1 untersuchen. Dazu verwenden wir eine weitere fundamentaleUngleichung:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 223: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.1. UNGLEICHUNGEN UND KONVERGENZ VON ZVN 223

Die Jensensche Ungleichung

Ist ℓ(x) = ax + b eine affine Funktion aufR, undX ∈ L1 eine integrierbare Zufallsvariable,

dann folgt aus der Linearität des Lebesgueintegrals:

E[ℓ(X)] = E[aX + b] = aE[X] + b = ℓ(E[X]) (7.1.1)

Da konvexe Funktionen Suprema einer Familie von affinen Funktionen (nämlich der Tangenten

an den Funktionsgraphen der konvexen Funktion) sind, ergibt sich für konvexe Funktionen eine

entsprechendeUngleichung:

Satz 7.6(Jensensche Ungleichung). IstP eine Wahrscheinlichkeitsverteilung,X ∈ L1(Ω,A, P )eine reellwertige Zufallsvariable, undh : R → R eine konvexe Abbildung, dann istE[h(X)−] <

∞, und es gilt

h(E[X]) ≤ E[h(X)].

Warnung: Diese Aussage gilt (wie auch (7.1.1)) nur für die Integration bzgl. eines Wahrschein-

lichkeitsmaßes!

Bevor wir die Jensensche Ungleichung beweisen, erinnern wirkurz an die Definition und ele-

mentare Eigenschaften von konvexen Funktionen:

Bemerkung. Eine Funktionh : R → R ist genau dann konvex, wenn

h(λx+ (1− λ)y) ≤ λh(x) + (1− λ)h(y) für alleλ ∈ [0, 1] undx, y ∈ R

gilt, d.h. wenn alle Sekanten oberhalb des Funktionsgraphen liegen.

1

2

3

1 2 3 4−1−2−3−4x y

Abbildung 7.1: Sekante an konvexer Funktion

Universität Bonn Wintersemester 2009/2010

Page 224: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

224 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

Hieraus folgt, dass jede konvexe Funktion stetig ist: Füra < b < x < y < c < d gilt nämlich

h(b)− h(a)

b− a≤ h(y)− h(x)

y − x≤ h(d)− h(c)

d− c.

Also sind die Differenzenquotientenh(y)−h(x)y−x

gleichmäßig beschränkt auf(b, c), und somit ist

h gleichmäßig stetig auf(b, c). Da konvexe Funktionen stetig sind, sind sie auch messbar. Die

Existenz des ErwartungswertesE[h(X)] in (−∞,∞] folgt dann ausE[h(X)−] <∞.

Wir beweisen nun die Jensensche Ungleichung:

Beweis.Ist h konvex, dann existiert zu jedemx0 ∈ R eine affine Funktionℓ (Stützgerade) mit

ℓ(x0) = h(x0) und ℓ ≤ h, siehe die Analysis Vorlesung oder[A. K LENKE: „WAHRSCHEIN-

LICHKEITSTHEORIE“, Abschnitt 7.2].

0.5

1.0

1.5

2 4x0

Abbildung 7.2: Darstellung vonℓ(x) undh(x)

Wählen wirx0 := E[X], dann folgt

h(E[X]) = ℓ(E[X]) = E(ℓ[X]) ≤ E[h(X)].

Der Erwartungswert auf der rechten Seite ist definiert, dah(X) durch die integrierbare Zufalls-

variableℓ(X) nach unten beschränkt ist. Insbesondere giltE[h(X)−] ≤ E[ℓ(X)−] <∞.

Korollar 7.7 (Lq-Konvergenz impliziert Lp-Konvergenz). Für 1 < p ≤ q gilt:

‖X‖p := E[|X|p] 1p ≤ ‖X‖q.

Insbesondere folgtLp-Konvergenz ausLq-Konvergenz.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 225: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.2. STARKE GESETZE DER GROSSEN ZAHLEN 225

Beweis.Nach der Jensenschen Ungleichung gilt

E[|X|p]qp ≤ E[|X|q],

da die Funktionh(x) = |x|q/p für q ≥ p konvex ist.

Nach dem Korollar gilt fürp ≤ q:

Lp(Ω,A, P ) ⊇ Lq(Ω,A, P ),

und

Xn → X in Lq ⇒ Xn → X in Lp.

Man beachte, dass diese Aussage nur fürendliche Maßewahr ist, da im Beweis die Jensensche

Ungleichung verwendet wird.

Mithilfe der Jensenschen Ungleichung beweist man auch dieHölderungleichung:

E[|XY |] ≤ ‖X‖p · ‖Y ‖q für p, q ∈ [1,∞] mit1

p+

1

q= 1.

7.2 Starke Gesetze der großen Zahlen

Wir werden nun Gesetze der großen Zahlen unter verschiedenen Voraussetzungen an die zugrun-

deliegenden Zufallsvariablen beweisen. Zunächst nehmen wir an, dassX1, X2, . . . ∈ L2(Ω,A, P )quadratintegrierbare Zufallsvariablen sind, deren Varianzen gleichmäßig beschränkt sind, und de-

ren Korrelationen hinreichend schnell abklingen:

Annahme: „Schnelles Abklingen der positiven Korrelation“

(A) Es existiert eine Folgecn ∈ R+ (n ∈ N) mit∞∑

n=0

cn <∞

und

Cov[Xi, Xj ] ≤ c|i−j| für alle i, j ∈ N. (7.2.1)

Die Bedingung (A) ist insbesondere erfüllt, wenn dieKorrelationen exponentiell abfallen, d.h.

wenn

|Cov[Xi, Xj ]| ≤ c · α|i−j|

für ein α ∈ (0, 1) und c ∈ R+ gilt. Sind etwa die ZufallsvariablenXi unkorreliert, und ist die

Folge derVarianzen beschränkt, d.h. gilt

Universität Bonn Wintersemester 2009/2010

Page 226: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

226 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

(A1) Cov[Xi, Xj ] = 0 für alle i, j ∈ N, und

(A2) v := supi

Var[Xi] <∞,

dann ist die Annahme (A) mitc0 = v und cn = 0 für n > 0 erfüllt. In diesem Fall haben wir

bereits in Abschnitt 3.2 ein schwaches Gesetz der großen Zahlen bewiesen.

Wichtig: Es wirdkeine Unabhängigkeit vorausgesetzt!

Sei nun

Sn = X1 + . . .+Xn

die Summe der erstenn Zufallsvariablen.

Das schwache Gesetz der großen Zahlen

Den Beweis des schwachen Gesetzes der großen Zahlen aus Abschnitt 3.2 können wir auf den

hier betrachteten allgemeinen Fall erweitern:

Satz 7.8(Schwaches Gesetz der großen Zahlen,L2-Version). Unter der Voraussetzung (A) gilt

für alle n ∈ N undε > 0:

E

[(Sn

n− E[Sn]

n

)2]

≤ v

n, und (7.2.2)

P

[∣∣∣∣Sn

n− E[Sn]

n

∣∣∣∣ ≥ ε

]≤ v

ε2n(7.2.3)

mit v := c0 + 2 ·∞∑n=1

cn <∞. Gilt insbesondereE[Xi] = m für alle i ∈ N, dann folgt

Sn

n→ m in L2(Ω,A, P ) undP -stochastisch.

Beweis.Unter Verwendung der Voraussetzung an die Kovarianzen erhalten wir

E

[(Sn

n− E[Sn]

n

)2]

= Var

[Sn

n

]=

1

n2Var[Sn]

=1

n2

n∑

i,j=1

Cov[Xi, Xj ] ≤ 1

n2

n∑

i=1

n∑

j=1

c|i−j|

≤ 1

n2

n∑

i=1

∞∑

k=−∞c|k| =

v

n

Die zweite Behauptung folgt daraus durch Anwenden derCebyšev-Ungleichung.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 227: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.2. STARKE GESETZE DER GROSSEN ZAHLEN 227

Bemerkung. (1). Im Fall unkorrelierter ZufallsvariablenXi (Annahmen (A1) und (A2)) ist die

Aussage ein Spezialfall einer allgemeinen funktionalanalytischen Sachverhalts:

Das Mittel von beschränkten orthogonalen Vektoren im Hilbertraum

L2(Ω,A, P ) = L2(Ω,A, P )/ ∼ konvergiert gegen0.

Unkorreliertheit derXi bedeutet gerade, dass die Zufallsvariablen

Yi := Xi − E[Xi]

orthogonal inL2 sind - beschränkte Varianzen derXi ist gleichbedeutend mit der Be-

schränktheit derL2 Normen derYi. Es gilt

Sn − E[Sn] =n∑

i=1

Yi,

also

E

[(Sn

n− E[Sn]

n

)2]

=

∥∥∥∥∥1

n

n∑

i=1

Yi

∥∥∥∥∥

2

L2

=1

n2

n∑

i=1

n∑

j=1

〈Yi, Yj〉L2

=1

n2

n∑

i=1

‖Yi‖2L2 ≤ 1

nsupi

‖Yi‖2L2 .

(2). DieL2-Konvergenz und stochastische Konvergenz von(Sn − E[Sn])/n gegen0 gilt auch,

falls die Korrelationen „langsam“ abklingen, d.h. falls (7.2.1) für eine nicht summierbare

Nullfolge cn erfüllt ist. In diesem Fall erhält man allerdings im Allgemeinen keine Ab-

schätzung der OrdnungO( 1n) für den Fehler in (7.2.2) bzw. (7.2.3).

(3). Eine für große n deutlich bessere Abschätzung des Fehlers in (7.2.3) (mit exponentiellem

Abfall in n) erhält man bei Unabhängigkeit und exponentieller Integrierbarkeit derXi mit-

hilfe derexponentiellen Ungleichung, siehe Satz 8.3 unten.

Das starke Gesetz für quadratintegrierbare Zufallsvariablen

Unter derselben Voraussetzung wie in Satz 7.8 gilt sogarP -fast sichere Konvergenz:

Satz 7.9(Starkes Gesetz großer Zahlen,L2-Version). Unter der Voraussetzung (A) konvergiert

Sn(ω)

n− E[Sn]

n−→ 0

Universität Bonn Wintersemester 2009/2010

Page 228: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

228 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

für P -fast alleω ∈ Ω. Insbesondere gilt

Sn

n−→ m P -fast sicher,

fallsE[Xi] = m für alle i.

Der Übersichtlichkeit halber führen wir den Beweis zunächstunter den stärkeren Voraussetzun-

gen (A1) und (A2). Der allgemeine Fall ist eine Übungsaufgabe, die sich gut zum Wiederholen

der Beweisschritte eignet:

Beweis unter den Annahmen (A1) und (A2).Wir können o.B.d.A.E[Xi] = 0 für alle i voraus-

setzen – andernfalls betrachten wir die zentrierten ZufallsvariablenXi := Xi−E[Xi]; diese sind

wieder unkorreliert mit beschränkten Varianzen. Zu zeigenist dann:

Sn

n→ 0 P -fast sicher.

Wir unterteilen den Beweis in mehrere Schritte:

(1). Schnelle stochastische Konvergenz gegen0 entlang der Teilfolgenk = k2: Aus derCebyšev-

Ungleichung folgt:

P

[∣∣∣∣Sk2

k2

∣∣∣∣ ≥ ε

]≤ 1

ε2Var

[Sk2

k2

]≤ 1

ε2k2supi

Var[Xi].

Da die Varianzen beschränkt sind, ist der gesamte Ausdruck durch die Summanden einer

summierbaren Reihe beschränkt. Somit ergibt sich nach Borel-Cantelli:

Sk2(ω)

k2→ 0

für alleω außerhalb einer NullmengeN1.

(2). Wir untersuchen nun die Fluktuationen der FolgeSn zwischen den Werten der Teilfolge

nk = k2. Sei

Dk := maxk2≤l<(k+1)2

|Sl − Sk2|.

Wir zeigenschnelle stochastische Konvergenz gegen0 für Dk/k2. Für ε > 0 haben wir

P

[Dk

k2≥ ε

]= P

k2≤l<(k+1)2

|Sl − Sk2| > εk2

≤k2+2k∑

l=k2

P [|Sl − Sk2| > εk2] ≤ const.k2

,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 229: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.2. STARKE GESETZE DER GROSSEN ZAHLEN 229

denn nach derCebyšev-Ungleichung gilt fürk2 ≤ l ≤ k2 + 2k:

P [|Sl − Sk2| > εk2] ≤ 1

ε2k4Var[Sl − Sk2 ] ≤ 1

ε2k4Var

[l∑

i=k2+1

Xi

]

≤ l − k2

ε2k4supi

Var[Xi] ≤ const· kk4.

Nach Lemma 7.2 folgt daherDk(ω)

k2→ 0

für alleω außerhalb einer NullmengeN2.

(3). Zu gegebenemn wählen wir nunk = k(n) mit k2 ≤ n < (k + 1)2. Durch Kombination

der ersten beiden Schritte erhalten wir:∣∣∣∣Sn(ω)

n

∣∣∣∣ ≤ |Sk2(ω)|+Dk(ω)

n≤∣∣∣∣Sk2(ω)

k2

∣∣∣∣+Dk(ω)

k2−→ 0 für n→ ∞

für alleω außerhalb der NullmengeN1∪N2. Also konvergiertSn/n P -fast sicher gegen0.

Beispiel (Random Walk im Rd). SeiSn = X1 + ... + Xn ein Random Walk imRd mit unab-

hängigen identisch verteilten InkrementenXi mit Verteilungµ. Gilt

E[‖Xi‖2] =

Rd

‖x‖2 µ(dx) < ∞,

dann folgt nach dem schwachen Gesetz der großen Zahlen (angewandt auf die Komponenten

S(k)n =

n∑i=1

X(k)i des VektorsSn):

Sn(ω)

n−→ m für P -fast alleω,

wobeim =∫Rd

xµ(dx) der Schwerpunkt der Inkrementverteilung ist. Insbesondere gilt fürm 6= 0:

Sn ∼ m · n für n→ ∞ P -fast sicher,

d.h.Sn wächst linear mit Geschwindigkeitm. Im Fallm = 0 gilt dagegen

Sn(ω)

n→ 0 P -fast sicher,

Universität Bonn Wintersemester 2009/2010

Page 230: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

230 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

d.h. der Random Walk wächst sublinear. Eine viel präzisere Beschreibung der pfadweisen Asymp-

totik des Random Walk im Fallm = 0 liefert derSatz vom iterierten Logarithmus:

lim supn→∞

Sn(ω)√n log log n

= +1 P -fast sicher,

lim infn→∞

Sn(ω)√n log log n

= −1 P -fast sicher,

siehe z.B. [BAUER: „WAHRSCHEINLICHKEITSTHEORIE“].

Beispiel (Wachstum in zufälligen Medien). Um ein zufälliges Populationswachstum zu be-

schreiben, definieren wir ZufallsvariablenXn (n ∈ N) durch

X0 = 1, Xn = Yn ·Xn−1,

d.h.Xn =∏n

i=1 Yi. Hierbei nehmen wir an, dass die WachstumsratenYi unabhängige identisch

verteilte Zufallsvariablen mitYi > 0 P -f.s. sind. Seim = E[Yi].

(1). ASYMPTOTIK DER ERWARTUNGSWERTE: Da dieYi unabhängig sind, gilt:

E[Xn] =n∏

i=1

E[Yi] = mn.

Die mittlere Populationsgröße wächst also imsuperkritischen Fallm > 1 exponentiell und

fällt im subkritischen Fallm < 1 exponentiell ab.

Konkretes Beispiel:In einem Glücksspiel setzt der Spieler in jeder Runde die Hälfte seines

Kapitals. Mit Wahrscheinlichkeit12

erhält er dasc-fache des Einsatzes zurück, und mit

Wahrscheinlichkeit12

erhält er nichts zurück. Hier gilt:

Yi =

12(1 + c) mit p = 1

2

12

mit p = 12

,

also

m = E[Yi] =1

4(1 + c) +

1

4=

2 + c

4.

Das Spiel ist also „fair“ fürc = 2 und „superfair“ fürc > 2.

(2). ASYMPTOTIK VON Xn(ω): Wir nehmen nun an, dasslog Y1 ∈ L2 gilt. Nach dem starken

Gesetz der großen Zahlen folgt dann:

1

nlogXn =

1

n

n∑

i=1

log Yi → E[log Y1] =: α P -f.s.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 231: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.2. STARKE GESETZE DER GROSSEN ZAHLEN 231

Also existiert fürε > 0 einN(ω) mit N(ω) <∞ P -fast sicher,

Xn(ω) ≤ e(α+ε)n und Xn(ω) ≥ e(α−ε)n für allen ≥ N(ω).

Fürα < 0 fällt Xn alsoP -fast sicher exponentiell ab, währendXn für α > 0 P -fast sicher

exponentiell wächst.

(3). ZUSAMMENHANG VON α UND m: Nach der Jensenschen Ungleichung gilt:

α = E[log Y1] ≤ logE[Y1] = logm.

Hierbei haben wir benutzt, dass der Logarithmus eine konkave, bzw.− log eine konvexe

Funktion ist. Im subkritischen Fallm < 1 ist also auchα strikt negativ, d.h.Xn fällt auch

P -f.s. exponentiell ab. Im superkritischen Fallm > 1 kann es aber passieren, dasstrotzdem

α < 0 gilt, d.h. obwohl die Erwartungswerte exponentiell wachsen, fällt Xn P -fast sicher

exponentiell! Im Beispiel

Yi =

12(1 + c) mit p = 1

2

12

mit p = 12

von oben wachsen die Erwartungswerte exponentiell fürc > 2, aber es gilt

α = E[log Yi] =1

2

(log

1 + c

2+ log

1

2

)=

1

2log

1 + c

4≥ 0 ⇔ c ≥ 3.

Für c ∈ (2, 3) ist das Spiel also superfair mit fast sicherem exponentiellem Bankrott!

Die Voraussetzungen des Satzes von Lebesgue sind in dieser Situation nicht erfüllt, denn

es gilt:

E[Xn] ր ∞, obwohlXn → 0 P -fast sicher.

Von L2 nachL1 mit Unabhängigkeit

Sind ZufallsvariablenX, Y : Ω → S unabhängig, so sindf(X) und g(Y ) für beliebige be-

schränkte oder nichtnegative Funktionenf, g : S → R unkorreliert. Bisher konnten wir zeigen,

dass das starke Gesetz der großen Zahlen für unkorrelierte (bzw. schwach korrelierte) Zufalls-

variablenXn ∈ L2 mit gleichmäßig beschränkten Varianzen gilt. Die Unabhängigkeit derXn

ermöglicht es, diese Aussage auf integrierbare Zufallsvariablen (d.h.L1 stattL2) zu erweitern:

Satz 7.10(Kolmogorovs Gesetz der großen Zahlen). SeienX1, X2, ... ∈ L1(Ω,A, P ) paar-

weise unabhängig und identisch verteilt mitE[Xi] = m. Dann gilt:

limn→∞

1

n

n∑

i=1

Xi = m P -fast sicher.

Universität Bonn Wintersemester 2009/2010

Page 232: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

232 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

Kolmogorov hatte eine entsprechende Aussage unter der Annahme von Unabhängigkeit (statt

paarweiser Unabhängigkeit) bewiesen. Der Beweis unter der schwächeren Voraussetzung stammt

von Etemadi (1981).

Bemerkung (Dynamische Systeme, Ergodensatz). In einer dynamischen Interpretation bedeu-

tet die Aussage

1

n

n∑

i=1

Xi(ω) −→ m =

∫x µXi

(dx) P -fast sicher,

des starken Gesetzes der großen Zahlen, dass die „zeitlichen Mittelwerte“ der Zufallsvariablen

Xi gegen den „räumlichen Mittelwert“m konvergieren. Dies ist ein Spezialfall eines viel allge-

meinerenErgodensatzes, der eine entsprechende Aussage für ergodische dynamischeSysteme

liefert, siehe z.B. BREIMAN : PROBABILITY oder DURRETT: PROBABILITY : THEORY AND EX-

AMPLES.

von Satz 7.10.Wir führen den Beweis in mehreren Schritten.

(1). Reduktion auf nichtnegative Zufallsvariablen.

Wir können o.B.d.A.Xi ≥ 0 für alle i ∈ N voraussetzen. Andernfalls zerlegen wirXi =

X+i −X−

i . Die ZufallsvariablenX+i , i ∈ N, bzw.X−

i , i ∈ N, sind jeweils Funktionen der

Xi, und daher wieder paarweise unabhängig. Aus dem Gesetz der großen Zahlen fürX+i

undX−i folgt das Gesetz der großen Zahlen für die ZufallsvariablenXi.

(2). Reduktion auf Gesetz der großen Zahlen fürYi := Xi · IXi≤i.

Nach dem Lemma von Borel-Cantelli gilt

P [Yi 6= Xi unendlich oft] = 0,

denn

∞∑

i=1

P [Yi 6= Xi] =∞∑

i=1

P [Xi > i]

=∞∑

i=1

P [X1 > i] (Xi identisch verteilt)

≤∫ ∞

0

P [X1 > x] dx (P [X1 > x] monoton fallend)

= E[X1] < ∞.

Also konvergiert1n

∑ni=1Xi P -fast sicher gegenm, falls dasselbe für1

n

∑ni=1 Yi gilt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 233: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.2. STARKE GESETZE DER GROSSEN ZAHLEN 233

Sei nun

Sn =n∑

i=1

Yi.

Die ZufallsvariablenYi sind wieder paarweise unabhängig, und es gilt0 ≤ Yi ≤ i.

(3). Konvergenz der Erwartungswerte.

Da die ZufallsvariablenYi nicht mehr identisch verteilt sind, bestimmen wir zunächstden

Grenzwert der Erwartungswerte der MittelwerteSn/n. Nach dem Satz von der monotonen

Konvergenz gilt

E[Yi] = E[Xi ; Xi ≤ i] = E[X1 · IX1≤i]−→E[X1] = m, für i→ ∞,

also auch

E

[Sn

n

]=

1

n

n∑

i=1

E[Yi] −→ m für n→ ∞.

(4). P -fast sichere Konvergenz vonSn

nentlang der Teilfolgenkn = ⌊αn⌋ , α > 1.

Vorbemerkung: Es gilt

n≥m

1

k2n=

1

⌊αm⌋2+

1

⌊αm+1⌋2+ ... ≤ const.

⌊αm⌋2=

const.k2m

mit einer vonm unabhängigen Konstanten.

Behauptung:Skn

kn−→ lim

n→∞E

[Skn

kn

]= m P -fast sicher.

Beweis der Behauptung: Nach dem Lemma von Borel-Cantelli genügt es,

∞∑

n=1

P

[∣∣∣∣Skn − E[Skn ]

kn

∣∣∣∣ ≥ ε

]< ∞

zu zeigen. Dies ist der Fall, wenn

∞∑

n=1

Var

[Skn

kn

]<∞

gilt. Wegen

Var[Yi] ≤ E[Y 2i ] = E[X2

i ; Xi ≤ i] = E[X21 ; X1 ≤ i]

Universität Bonn Wintersemester 2009/2010

Page 234: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

234 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

erhalten wir mithilfe der Vorbemerkung

∞∑

n=1

Var

[Skn

kn

]=

∞∑

n=1

1

k2n·

kn∑

i=1

Var[Yi]

≤∞∑

i=1

E[X21 ; X1 ≤ i] ·

n:kn≥i

1

k2n

≤ const.·∞∑

i=1

E[X2

1 ; X1 ≤ i]· 1i2

≤ const.·∞∑

i=1

i∑

j=1

j2 · P [X1 ∈ (j − 1, j]] · 1i2

= const.·∞∑

j=1

j2 · P [X1 ∈ (j − 1, j]] ·∞∑

i=j

1

i2

≤ const.·∞∑

j=1

j · P [X1 ∈ (j − 1, j]]

= const.· E[ ∞∑

j=1

j · IX1∈(j−1,j]

]

≤ const.· E[X1 + 1] < ∞.

(5). P -fast sichere Konvergenz vonSn

n.

Für l ∈ N mit kn ≤ l ≤ kn+1 gilt wegenYi ≥ 0:

Skn ≤ Sl ≤ Skn+1 .

Es folgtknkn+1

· Skn

kn=

Skn

kn+1

≤ Sl

l≤ Skn+1

kn=kn+1

kn· Skn+1

kn+1

.

Fürn→ ∞ erhalten wir wegenkn+1

kn→ α und Skn (ω)

kn→ m:

m

α≤ lim inf

Sl(ω)

l≤ lim sup

Sl(ω)

l≤ αm

für alle ω außerhalb einer vonα abhängenden NullmengeNα. Fürω außerhalb der Null-

menge⋃

α>1α∈Q

Nα folgt somit:

liml→∞

Sl(ω)

l= m.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 235: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.3. EMPIRISCHE VERTEILUNGEN 235

Korollar 7.11 (Gesetz der großen Zahlen ohne Integrierbarkeit). SeienX1, X2... paarweise

unabhängige, identisch verteilte, nicht-negative Zufallsvariablen. Dann gilt:

limn→∞

1

n∑

i=1

Xi(ω) = E[X1] ∈ [0,∞] P -fast sicher.

Beweis.Nach Satz 7.10 gilt die Aussage im FallE[X1] < ∞. FürE[X1] = ∞ erhalten wir für

k ∈ N:

lim infn→∞

1

n

n∑

i=1

Xi ≥ lim infn→∞

1

n

n∑

i=1

(Xi ∧ k) = E[X1 ∧ k] P -fast sicher.

Fürk → ∞ folgt dann mit monotoner Konvergenz

lim infn→∞

1

n

n∑

i=1

Xi ≥ E[X1] = ∞,

und damit die Behauptung.

7.3 Empirische Verteilungen

Schätzen von Kenngrößen einer unbekannten Verteilung

Angenommen, wir haben eine Stichprobe aus reellen BeobachtungswertenX1, X2, . . . , Xn ge-

geben, und möchten die zugrundeliegende Wahrscheinlichkeitsverteilungµ auf (R,B(R)) mög-

lichst weitgehend rekonstruieren. Im einfachsten Modell interpretieren wir die Beobachtungs-

werte als Realisierungen unabhängiger ZufallsvariablenX1, X2, . . . mit Verteilungµ.

(1). SCHÄTZEN DESERWARTUNGSWERTES: Sei∫|x| µ(dx) <∞. Um den Erwartungswert

m =

∫x µ(dx)

zu schätzen, verwenden wir dasempirische Mittel

Xn :=1

n

n∑

i=1

Xi.

Das empirische Mittel ist einerwartungstreuer Schätzerfür m, d.h.Xn ist eine Funkti-

on von den BeobachtungswertenX1, . . . , Xn mit E[Xn] = m. Obere Schranken für den

SchätzfehlerP [|Xn − m| > ε], ε > 0, erhält man z.B. mithilfe derCebyšev- oder der

exponentiellen Markov-Ungleichung. Fürn→ ∞ gilt nach dem Gesetz der großen Zahlen

Xn −→ m P -fast sicher,

d.h.Xn ist einekonsistenteFolge von Schätzern fürm.

Universität Bonn Wintersemester 2009/2010

Page 236: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

236 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

(2). SCHÄTZEN DER VARIANZ : Um die Varianz

v =

∫(x−m)2 µ(dx)

der zugrundeliegenden Verteilung zu schätzen, verwendet man meistens dierenormierte

Stichprobenvarianz

Vn =1

n− 1

n∑

i=1

(Xi −Xn)2.

Der Vorfaktor 1n−1

(statt 1n) gewährleistet unter anderem, dassVn ein erwartungstreuer

Schätzer fürv ist, denn aus

1

n

n∑

i=1

(Xi −Xn)2 =

1

n

n∑

i=1

(Xi −m)2 − (Xn −m)2 (7.3.1)

Stichprobenvarianz= MSE − Stichprobenbias2

folgt

E

[1

n

n∑

i=1

(Xi −Xn)2

]=

1

n

n∑

i=1

Var[Xi]− Var[Xn] =n− 1

nv,

alsoE[Vn] = v.

Um zu zeigen, dassVn eine konsistente Folge von Schätzern fürv ist, können wir erneut

das Gesetz der großen Zahlen anwenden. Da die ZufallsvariablenXi − Xn, 1 ≤ i ≤ n,

selbst nicht unabhängig sind, verwenden wir dazu die Zerlegung (7.3.1). Nach dem starken

Gesetz der großen Zahlen für nichtnegative Zufallsvariablen erhalten wir

n− 1

nVn =

1

n

n∑

i=1

(Xi −m)2 − (Xn −m)2 −→ v P -fast sicher,

also auchVn → v P -fast sicher.

(3). SCHÄTZEN VON INTEGRALEN: Allgemeiner können wir für jede Funktionf ∈ L1(S,S, µ)das Integral

θ =

∫f dµ

erwartungstreu durch dieempirischen Mittelwerte

θn =1

n

n∑

i=1

f(Xi)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 237: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.3. EMPIRISCHE VERTEILUNGEN 237

schätzen. Dies haben wir schon in Kapitel 3 für Monte Carlo Verfahren verwendet. Da die

Zufallsvariablenf(Xi) wieder unabhängig und identisch verteilt sind mit Erwartungswert

θ, gilt nach dem starken Gesetz der großen Zahlen:

θn −→ θ P -fast sicher. (7.3.2)

(4). SCHÄTZEN DER VERTEILUNG: Die gesamte Verteilungµ können wir durch dieempiri-

sche Verteilung

µn(ω) =1

n

n∑

i=1

δXi(ω)

der Zufallsstichprobe schätzen.µn ist eine „zufällige Wahrscheinlichkeitsverteilung,“ d.h.

eine Zufallsvariable mit Werten im RaumWV (R) der Wahrscheinlichkeitsverteilungen

auf (R,B(R)). Aus (7.3.2) ergibt sich die folgende Approximationseigenschaft der empi-

rischen Verteilungen:

∫f dµn =

1

n

n∑

i=1

f(Xi)n→∞−→

∫f dµ (7.3.3)

P -fast sicher für allef ∈ L1(S,S, µ).

Konvergenz der empirischen Verteilungsfunktionen

Für dieempirischen Verteilungsfunktionen

Fn(c) = µn[(−∞, c]] =1

n|1 ≤ i ≤ n : Xi ≤ c|

von unabhängigen, identisch verteilten, reellwertigen ZufallsvariablenX1, X2, . . . mit Vertei-

lungsfunktionF ergibt sich wegenFn(c) =∫I(−∞,c] dµn:

limn→∞

Fn(c) = F (c) P -fast sicher für allec ∈ R. (7.3.4)

Diese Aussage kann man noch etwas verschärfen:

Satz 7.12(Glivenko-Cantelli). SindX1, X2, . . . unabhängig und identisch verteilt mit Vertei-

lungsfunktionF , dann gilt für die empirischen VerteilungsfunktionenFn:

supc∈R

|Fn(c)− F (c)| −→ 0 P -fast sicher. (7.3.5)

Universität Bonn Wintersemester 2009/2010

Page 238: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

238 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

Beweis.Wir führen den Beweis unter der zusätzlichen Annahme, dassF stetig ist – für den

allgemeinen Fall siehe z.B.Klenke: Wahrscheinlichkeitstheorie. Sieε > 0 gegeben. IstF stetig,

dann existierenk ∈ N und Konstanten

−∞ = c0 < c1 < c2 < . . . < ck = ∞ mit F (ci)− F (ci−1) ≤ε

2

für alle 1 ≤ i ≤ k. DaFn nach 7.3.4 mit Wahrscheinlichkeit1 punktweise gegenF konvergiert,

existiert zudem einn0 ∈ N mit

max0≤i≤n

|Fn(ci)− F (ci)| <ε

2für allen ≥ n0.

Wegen der Monotonie der Verteilungsfunktionen folgt dann

Fn(c)− F (c) ≤ Fn(ci)− F (ci−1) ≤ ε

2+ Fn(ci)− F (ci) < ε,

und entsprechend

F (c)− Fn(c) ≤ F (ci)− Fn(ci−1) ≤ ε

2+ F (ci)− Fn(ci) < ε,

für allen ≥ n0, c ∈ R, und1 ≤ i ≤ k mit ci−1 ≤ c ≤ ci. Also gilt auch

supc∈R

|Fn(c)− F (c)| < ε für allen ≥ n0.

Bemerkung (QQ-Plot). In parametrischen statistischen Modellen nimmt man von vornherein

an, dass die beobachteten Daten Realisierungen von Zufallsvariablen sind, deren Verteilung aus

einer bestimmten Familie von Wahrscheinlichkeitsverteilungen stammt, z.B. der Familie aller

Normalverteilungen. Um zu entscheiden, ob eine solche Annahme für gegebene reellwertige Da-

tenx1, . . . , xn gerechtfertigt ist, kann man die empirische Verteilungsfunktion mit der tatsäch-

lichen Verteilungsfunktion vergleichen. Ein praktikables graphisches Verfahren ist der Quantil-

Quantil-Plot, bei dem die Quantile der empirischen und der theoretischen Verteilung gegenein-

ander aufgetragen werden. Um auf Normalverteilung zu testen, plottet man beispielsweise die

Punkte (Φ−1

(k − 1

2

n

), x(k)

), k = 1, 2, . . . , n,

wobeiΦ die Verteilungsfunktion der Standardnormalverteilung ist, und

x(1) ≤ x(2) ≤ . . . ≤ x(n)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 239: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.3. EMPIRISCHE VERTEILUNGEN 239

die Ordnungsstatistiken vonx1, . . . , xn, also die(k − 12)/n-Quantile der empirischen Verteilung

sind. Ist die zugrundeliegende Verteilung eine Normalverteilung mit Mittelm und Standardab-

weichungσ, dann liegen die Punkte für großen näherungsweise auf einer Geraden mit Steigung

σ und Achsenabschnittm, da für die Verteilungsfunktion und die Quantile der theoretischen Ver-

teilung dann

F (c) = P [X ≤ c] = P [σZ +m ≤ c] = P

[Z ≤ c−m

σ

]= Φ

(c−m

σ

),

bzw.

F−1(u) = m+ σΦ−1(u)

gilt. Die folgende Grafik zeigt QQ-Plots bzgl. der Normalverteilung für verschiedene Datensätze.

Histogramme und Multinomialverteilung

Die empirische Verteilungµn(ω) = 1n

n∑i=1

δXi(ω) von ZufallsvariablenX1, . . . , Xn ist selbst ei-

ne Zufallsvariable mit Werten im Raum der Wahrscheinlichkeitsverteilungen. Wir wollen nun

die Verteilung dieser Zufallsvariablen explizit berechnen, falls dieXi unabhängig und identisch

verteilt mit endlichem WertebereichS sind. Haben die Zufallsvariablen keinen endlichen Wer-

tebereich, dann kann man die Aussagen trotzdem anwenden, indem man den Wertebereich in

endlich viele Teilmengen (Klassen) zerlegt.

DasHistogrammvonn Beobachtungswertenx1, . . . , xn, die in einer endlichen MengeS liegen,

ist der Vektor

~h = (ha)a∈S, ha = |1 ≤ i ≤ n|xi = a|,

der Häufigkeiten der möglichen Wertea ∈ S unterx1, . . . , xn. Graphisch stellt man ein Histo-

gramm durch ein Balkendiagramm dar:

Universität Bonn Wintersemester 2009/2010

Page 240: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

240 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

ha

a

hb

b

hc

c

hd

d

Abbildung 7.3: Histogramm der Klassena, b, c undd mit den jeweiligen Häufigkeitenha, hb, hc

undhd

Der Raum Hist(n, S) aller möglichen Histogramme vonn Beobachtungswerten ist eine Teilmen-

ge von0, 1, . . . , nS:

Hist(n, S) = ~h = (ha)a∈S|ha ∈ Z+,∑

a∈Sha = n ⊆ 0, 1, . . . , nS.

Sie nunµ eine Wahrscheinlichkeitsverteilung auf der endlichen MengeS. Wir wollen die Vertei-

lung des Histogrammvektors bestimmen, wenn die Beobachtungswerte unabhängige Stichproben

von der Verteilungµ sind. Wir betrachten also unabhängige ZufallsvariablenX1, . . . , Xn auf ei-

nem Wahrscheinlichkeitsraum(Ω,A , P ) mit Verteilungµ und die Häufigkeiten

Ha(ω) := |1 ≤ i ≤ n : Xi(ω) = a|

der möglichen Wertea ∈ S. Die ZufallsvariableHa ist Bin(n, p)-verteilt mit p = µ[a]. Wir

berechnen nun diegemeinsame Verteilungaller dieser Häufigkeiten, d.h. die VerteilungµH des

Zufallsvektors

H = (Ha)a∈S : Ω −→ Hist(n, S)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 241: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.4. ENTROPIE 241

mit Werten im Raum der Histogramme. Dazu verwenden wir die Unabhängigkeit derXi. Mit

I = 1, . . . , n erhalten wir:

µH(~k) = P [Ha = ka ∀a ∈ S]

= P [Xi = a genauka-mal für allea ∈ S]

=∑

I=⋃

a∈SIa

|Ia|=ka

P [Xi = a ∀ i ∈ Ia ∀ a ∈ S]

=∑

I=⋃

a∈SIa

|Ia|=ka

a∈Sµ[a]ka

=

(n~k

)∏

a∈Sµ[a]ka .

Hierbei laufen die Summen über alle disjunkten Zerlegungenvon I = 0, 1, . . . , n in Teilmen-

genia, a ∈ S, mit jeweilska Elementen, und derMultinomialkoeffizient

(n~k

):=

n!∏a∈S

ka!, ka ∈ 0, 1, . . . , n mit

a∈Ska = n,

gibt die Anzahl der Partitionen vonn Elementen in Teilmengen von jeweilska Elementen an.

Definition. Die Verteilung des HistogrammvektorsH heißtMultinomialverteilung für n Stich-

proben mit Ergebniswahrscheinlichkeitenµ(a), a ∈ S.

Bemerkung. Im Fall |S| = 2 ist H(ω) eindeutig festgelegt durchH1(ω), und die Zufallsva-

riableH1 ist binomialverteilt mit Parameternn undp = µ[1]. In diesem Sinn ergibt sich die

Binomialverteilung als Spezialfall der Multinomialverteilung.

7.4 Entropie

Wir definieren nun die Entropie einer diskreten Wahrscheinlichkeitsverteilung. Mithilfe des Ge-

setzes der großen Zahlen können wir eine statistische Interpretation dieser Größe geben, aus der

sich insbesondere der Quellenkodierungssatz von Shannon ergibt.

Universität Bonn Wintersemester 2009/2010

Page 242: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

242 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

Definition und Eigenschaften

Wir bemerken zunächst, dass die auf[0,∞) definierte Funktion

u(x) :=

x log x für x > 0

0 für x = 0

stetig und strikt konvex ist mit

u(x) ≤ 0 für allex ∈ [0, 1], (7.4.1)

u(x) ≥ x− 1 für allex ≥ 0, (7.4.2)

und absolutem Minimumu(1/e) = −1/e.

0.2

0.4

−0.2

−0.4

−0.6

−0.8

−1.0

−1.2

−1.4

0.5 1.0

1e

Abbildung 7.4: Graph der Funktionu(x) (blau) und ihrer unteren Schrankex− 1 (rot)

Sei nunS eine abzählbare Menge, undµ = (µ(x))x∈S eine Wahrscheinlichkeitsverteilung aufS.

Definition. Die Größe

H(µ) := −∑

x∈Sµ(x) 6=0

µ(x) log µ(x) = −∑

x∈Su(µ(x)) ∈ [0,∞]

heißtEntropieder Wahrscheinlichkeitsverteilungµ.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 243: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.4. ENTROPIE 243

Anschaulich können wir− log µ(x) interpretieren als Maß für die »Überraschung« bzw. den

»Informationsgewinn«, falls eine Stichprobe von der Verteilung µ den Wertx hat. Die »Überra-

schung« ist umso größer, je unwahrscheinlicherx ist. Die EntropieH(µ) ist dann die »mittlere

Überraschung« bzw. der »mittlere Informationsgewinn« beim Ziehen einer Stichprobe vonµ.

Eine wichtige Eigenschaft der Entropie, die auch die Wahl des Logarithmus erklärt, ist:

Satz 7.13(Faktorisierungseigenschaft). Für beliebige diskrete Wahrscheinlichkeitsverteilun-

genµ undν gilt:

H(µ⊗ ν) = H(µ) +H(ν).

Der mittlere Informationszuwachs in einem aus zwei unabhängigen Experimenten zusammenge-

setzten Zufallsexperiment ist also die Summe der einzelnenmittleren Informationszuwächse.

Beweis.Nach Definition der Entropie gilt:

H(µ⊗ ν) =∑

x,yµ(x)ν(y) 6=0

µ(x)ν(y) log(µ(x)ν(y))

= −∑

x:µ(x) 6=0

µ(x) log(µ(x))−∑

y:ν(y) 6=0

ν(y) log(ν(y))

= H(µ) +H(ν).

Wir bestimmen nun auf einer gegebenen abzählbaren MengeS die Wahrscheinlichkeitsverteilun-

gen mit minimaler bzw. maximaler Entropie.

Extrema der Entropie:

(1). Entropieminima: Nach (7.4.1) ist die Entropie stets nicht-negativ, und es gilt:

H(µ) = 0 ⇐⇒ µ(x) ∈ 0, 1 ∀x ∈ S ⇐⇒ µ ist ein Diracmaß.

Die Diracmaße sind also die Entropieminima. Ist das Zufallsexperiment deterministisch,

d.h.µ ein Diracmaß, dann tritt bei Ziehen einer Stichprobe vonµ keine Überraschung bzw.

kein Informationszuwachs auf.

(2). Entropiemaximum: Ist S endlich, dann gilt für alle Wahrscheinlichkeitsverteilungenµ

aufS:

H(µ) ≤ − log

(1

|S|

)= H(US),

Universität Bonn Wintersemester 2009/2010

Page 244: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

244 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

wobeiUS die Gleichverteilung aufS ist. Nach der Jensenschen Ungleichung gilt nämlich

−∑

x∈Su(µ(x)) = −|S| ·

∫u(µ(x)) US(dx)

≤ −|S| · u(∫

µ(x) US(dx)

)

= −|S| · u(

1

|S|

)= − log

1

|S|

mit Gleichheit genau dann, wennµ die Gleichverteilung ist.

Die Gleichverteilung maximiert also die Entropie auf einemendlichen Zustandsraum. An-

schaulich können wir die Gleichverteilung als eine »völligzufällige« Verteilung auffassen

– d.h. wir verwenden die Gleichverteilung als Modell, wenn wir keinen Grund haben, einen

der Zustände zu bevorzugen. Die Entropie ist in diesem Sinneein Maß für die»Zufällig-

keit«(bzw.»Unordnung«) der Wahrscheinlichkeitsverteilungµ.

Auf einer abzählbar unendlichen Menge existiert keine Wahrscheinlichkeitsverteilung mit

maximaler Entropie.

Beispiel (Entropie von Markovketten ). Sei p(x, y) (x, y ∈ S) eine stochastische Matrix auf

einer endlichen MengeS, die die GleichverteilungUS als Gleichgewicht hat, d.h. für alley ∈ S

gilt:∑

x∈Sp(x, y) = |S| ·

x∈SUS(x) p(x, y) = |S| · US(y) = 1. (7.4.3)

Beispielsweise istp die Übergangsmatrix eines Random Walks auf dem diskreten Kreis Zk =

Z/(kZ), der symmetrischen GruppeSn („Mischen eines Kartenspiels“), oder dem diskreten Hy-

perwürfel0, 1n („Ehrenfestmodell“).

Der folgende Satz zeigt, dass die EntropieH(µpn) der Verteilung zur Zeitn einer Markovkette

mit Startverteilungµ und Übergangsmatrixp monoton wächst:

Satz 7.14(Zunahme der Entropie). Ist p eine stochastische Matrix aufS mit (7.4.3), dann gilt:

H(µp) ≥ H(µ)

für jede Wahrscheinlichkeitsverteilungµ auf S. Insbesondere istn 7→ H(µpn) monoton wach-

send.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 245: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.4. ENTROPIE 245

Beweis.Aus der Jensenschen Ungleichung folgt:

−H(µp) =∑

y∈Su

(∑

x∈Sµ(x)p(x, y)

)

≤∑

y∈S

x∈Su(µ(x))p(x, y)

=∑

x∈Su(µ(x)) = −H(µ).

Hierbei haben wir im zweiten Schritt benutzt, dass die Funktion u konvex ist, und dassx 7→p(x, y) nach (7.4.3) für jedesy ∈ S die Gewichtsfunktion einer Wahrscheinlichkeitsverteilung

ist.

In der Interpretation der statistischen Physik geht die zeitliche Entwicklung auf makroskopischer

Ebene (Thermodynamik) von einem geordneten hin zu einem ungeordneten Zustand maxima-

ler Entropie (»thermodynamische Irreversibilität«). Trotzdem ist auf mikroskopischer Ebene die

Dynamik rekurrent, d.h. jeder Zustandx ∈ S wird von der Markovkette mit Wahrscheinlichkeit

1 unendlich oft besucht – dies dauert nur eventuell astronomisch lange. Die Einführung eines

Markovmodells durch die österreichischen Physiker Tatjana und Paul Ehrenfest konnte eine ent-

sprechende Kontroverse von Zermelo („Dynamik kehrt immer wieder zurück“) und Boltzmann

(„soll solange warten“) lösen.

Statistische Interpretation der Entropie

Seiµ eine Wahrscheinlichkeitsverteilung auf einer abzählbaren MengeS. Die Wahrscheinlich-

keit einer Folge von Ausgängenx1, . . . , xn bei Entnehmen einer Stichprobe ausn unabhängigen

Zufallsgrößen mit Verteilungµ beträgt

pn(x1, ..., xn) =n∏

i=1

µ(xi).

Der gemittelte Informationszuwachs durch Auswertung der Wertex1, . . . , xn ist also

− 1

nlog pn(x1, ..., xn).

Mithilfe des Gesetzes der großen Zahlen können wir die Asymptotik dieser Größen fürn → ∞untersuchen:

Satz 7.15(Shannon - Mc Millan). SeienX1, X2, . . . : Ω → S unterP unabhängige Zufallsva-

riablen mit Verteilungµ. Dann giltP -fast sicher

− 1

nlog pn(X1, . . . , Xn) −→ H(µ) für n→ ∞.

Universität Bonn Wintersemester 2009/2010

Page 246: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

246 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

Beweis.Mit Wahrscheinlichkeit1 gilt µ(Xi) > 0 für alle i, also nach Korollar 7.11:

− 1

nlog pn(X1, . . . , Xn) = − 1

n

n∑

i=1

log µ(Xi)n→∞−→ −

∫log µ dµ = H(µ).

Bemerkung(Exponentielle Skala). Die Aussage des Satzes besagt, dass auf der „exponentiellen

Skala“ fast sicher

pn(X1, . . . , Xn) ≃ e−nH(µ)

gilt, d.h. beide Ausdrücke sind asymptotisch äquivalent bis auf subexponentielle (also z.B. poly-

nomiell) wachsende Faktoren. Eine asymptotische Beschreibung von Wahrscheinlichkeiten auf

der exponentiellen Skala ist Gegenstand der Theorie großerAbweichungen, siehe Abschnitt Satz

8.3 und Kapitel 11 unten.

Entropie und Kodierung

Wir betrachten nun eine Anwendung der Entropie auf diemöglichst effiziente Beschreibung/Ko-

dierung einer Zufallsfolge.Eine unbekannte Signalfolge mit Werten in einer endlichen MengeS

(dem zugrundeliegenden „Alphabet“) beschreibt man im einfachsten A-Priori-Modell durch un-

abhängige ZufallsvariablenX1, X2, ... mit Verteilungµ, wobeiµ(x) die relative Häufigkeit des

Buchstabensx in der verwendeten Sprache ist. Eine „perfekte“ Kodierung ordnet jedem Wort mit

einer vorgegebenen Anzahln von Buchstaben, also jedem Element des ProduktraumsSn, eine

Binärfolge zu. Will man alle Wörter mitn Buchstaben perfekt kodieren, werdenn · log |S| Bits

benötigt. Wir betrachten stattdessen „effiziente“ Kodierungen, die nur den „meisten“ Wörtern mit

n Buchstaben eindeutig eine Binärfolge zuordnen.

Definition. Eine Folge von MengenBn ⊆ Sn (n ∈ N) heißtwesentlichbzgl.µ, falls

P [(X1, ..., Xn) ∈ Bn] = µn[Bn] → 1 für n→ ∞.

1− 10, 1k

Sn

Abbildung 7.5: Perfekte Kodierung

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 247: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

7.4. ENTROPIE 247

irgendwie

1− 10, 1k

Sn

Bn

Abbildung 7.6: Effiziente Kodierung bzgl. einer Folge von wesentlichen MengenBn.

Korollar 7.16 (Maßkonzentrationssatz von McMillan). Für jedesε > 0 ist die Folge

Bn :=(x1, ...xn) ∈ Sn

∣∣ e−n(H(µ)+ε) ≤ pn(x1, ..., xn) ≤ e−n(H(µ)−ε), n ∈ N,

wesentlich bzgl.µ, und es gilt

|Bn| ≤ en(H(µ)+ε) für alle n ∈ N.

Beweis.Es gilt

Bn =

(x1, ...xn) ∈ Sn

∣∣∣∣H(µ)− ε ≤ − 1

nlog pn(x1, ..., xn) ≤ H(µ) + ε

. (7.4.4)

Da aus der fast sicheren Konvergenz von− 1nlog pn(X1, ..., Xn) gegen die EntropieH(µ) die

stochastische Konvergenz folgt, ist die FolgeBn (n ∈ N) nach Satz 7.15 wesentlich bzgl.µ.

Zudem gilt wegenpn(x1, ..., xn) ≥ e−n(H(µ)+ε) für (x1, . . . , xn) ∈ Bn:

1 ≥ P [(X1, ..., Xn) ∈ Bn] =∑

x∈Bn

pn(x1, ..., xn) ≥ |Bn| · e−n(H(µ)+ε),

also|Bn| ≤ en(H(µ)+ε)

Der Maßkonzentrationssatz zeigt, dass Folgen von wesentlichen Mengen existieren, die auf der

exponentiellen Skala nicht viel schneller alsexp(n ·H(µ)) wachsen.

Wie groß sind wesentliche Mengen mindestens? Fürp ∈ (0, 1) sei

K(n, p) = inf |An| |An ⊆ Sn mit P [(X1, ..., Xn) ∈ An] ≥ p

die mindestens benötigte Anzahl von Wörtern, um den Text(X1, ..., Xn) mit Wahrscheinlich-

keit ≥ p korrekt zu erfassen. Dann istlog2K(n, p) die für eine korrekte binäre Kodierung von

(X1, ..., Xn) mit Wahrscheinlichkeit≥ p mindestens benötigte Anzahl von Bits.

Universität Bonn Wintersemester 2009/2010

Page 248: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

248 KAPITEL 7. GESETZE DER GROSSEN ZAHLEN

Satz 7.17(Quellenkodierungssatz von Shannon). Für alle p ∈ (0, 1) gilt:

limn→∞

1

nlogK(n, p) = H(µ), bzw.

limn→∞

1

nlog2K(n, p) = H2(µ) := −

x:µ(x) 6=0

µ(x) log2 µ(x).

Insbesondere gilt: IstAn (n ∈ N) wesentlich bzgl.µ, so ist

lim infn→∞

1

nlog |An| ≥ H(µ).

Bemerkung. (1). Die Größe1nlog2K(n, p) kann als die für eine mit Wahrscheinlichkeit≥

p korrekte Kodierung benötigte Zahl von Bits pro gesendetem Buchstaben interpretiert

werden.

(2). Der Quellenkodierungssatz zeigt, dass es keine Folge von wesentlichen Mengen gibt, die

auf der exponentiellen Skala deutlich langsamer wächst alsdie im Maßkonzentrationssatz

konstruierten Folgen.

Beweis.Wir zeigen separat eine obere und eine untere Schranke für1nlogK(n, p):

Obere Schranke: lim supn→∞

1nlogK(n, p) ≤ H(µ):

Zum Beweis seiε > 0 gegeben. Nach Korollar 7.16 ist die Folge

Bn =x ∈ Sn

∣∣e−n(H(µ)+ε) ≤ pn(x1, ..., xn) ≤ e−n(H(µ)−ε)

wesentlich bzgl.µ, und 1nlog |Bn| ≤ H(µ) + ε. Wegen

limn→∞

P [(X1, ..., Xn) ∈ Bn] = 1 > p, (7.4.5)

folgt

lim supn→∞

1

nlogK(n, p) ≤ lim sup

n→∞

1

nlog |Bn| ≤ H(µ) + ε.

Die Behauptung ergibt sich fürε→ 0.

Untere Schranke: lim infn→∞

1nlogK(n, p) ≥ H(µ):

SeienAn ⊆ Sn mit P [(X1, ..., Xn) ∈ An] ≥ p. Dann gilt wegen (7.4.5) und (7.4.4) auch

p ≤ lim infn→∞

P [(X1, ..., Xn) ∈ An ∩ Bn] ≤ lim infn→∞

(|An ∩ Bn| · e−n(H(µ)−ε)

),

also für alleε > 0

lim infn→∞

1

nlog |An| ≥ lim inf

n→∞

1

nlog |An ∩ Bn| ≥ H(µ)− ε.

Für ε→ 0 folgt

lim infn→∞

1

nlog |An| ≥ H(µ).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 249: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 8

Grenzwertsätze

SindXi : Ω → R, i ∈ N, unabhängige identisch verteilte (i.i.d.) Zufallsvariablen mit Erwartungs-

wertm, dann konvergieren die MittelwerteSn

nder SummenSn =

n∑i=1

Xi nach dem Gesetz der

großen Zahlen fürn → ∞ fast sicher gegenm. Wir wollen nun die Verteilung vonSn für große

n genauer untersuchen. Dabei unterscheidet man zwei unterschiedliche Arten von Aussagen:

• Zentrale Grenzwertsätzebeschreiben „typische“ Fluktuationen um den Grenzwert ausdem

Gesetz der großen Zahlen, d.h. die asymptotische Form der Verteilung vonSn/n in Berei-

chen der GrößenordnungO(1/√n) um den Erwartungswertm, siehe Abschnitt 8.4.

• Aussagen übergroße Abweichungenbeschreiben asymptotisch die Wahrscheinlichkeiten

der seltenen Abweichungen der GrößenordnungO(1) von Sn/n vom Erwartungswertm.

Diese Wahrscheinlichkeiten fallen unter geeigneten Voraussetzungen exponentiell ab, siehe

Abschnitt 8.2.

Mit dem Satz von de Moivre/Laplace bzw. der Bernsteinungleichung haben wir bereits entspre-

chende Aussagen kennengelernt, falls dieXi Bernoulli-verteilte Zufallsvariablen sind. In die-

sem Kapitel werden wir sehen, dass keine spezifische Form derVerteilung vorausgesetzt werden

muss, sondern die Aussagen ganz allgemein unter geeignetenIntegrierbarkeitsbedingungen gel-

ten.

Ein wichtiges Hilfsmittel zum Beweis allgemeiner Grenzwertsätze sind momentenerzeugende

und charakteristische Funktionen:

249

Page 250: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

250 KAPITEL 8. GRENZWERTSÄTZE

8.1 Charakteristische und Momentenerzeugende Funktionen

In diesem Abschnitt führen wir charakteristische und momentenerzeugende Funktionen von re-

ellen Zufallsvariablen ein und beweisen einige grundlegende Aussagen über diese Funktionen.

Insbesondere zeigen wir, dass sich die Verteilung einer reellen Zufallsvariable eindeutig aus ihrer

charakteristischen Funktion rekonstruieren lässt.

Definition und Eigenschaften

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum undX : Ω → R eine reellwertige Zufallsvariable mit

Verteilungµ.

Definition. (1). Die FunktionM : R → (0,∞],

M(t) := E[etX ] =

R

etx µ(dx),

heißtmomentenerzeugende Funktionender ZufallsvariableX bzw. der Verteilungµ.

(2). Die Funktionφ : R → C,

φ(t) := E[eitX ] =

R

eitx µ(dx),

heißtcharakteristische FunktionvonX bzw.µ.

Da die Funktionent 7→ etx undt 7→ eitx für t ∈ R nichtnegativ bzw. beschränkt sind, sind die Er-

wartungswerte definiert. Dabei wird der Erwartungswert einer komplexwertigen Zufallsvariable

separat für Real- und Imaginärteil berechnet.

Rechenregeln Die folgenden Rechenregeln ergeben sich unmittelbar aus derDefinition:

(1). SindX undY unabhängige reellwertige Zufallsvariablen auf(Ω,A, P ), dann gilt

MX+Y (t) = MX(t) ·MY (t) und φX+Y (t) = φX(t) · φY (t)

für alle t ∈ R.

(2). Füra, b ∈ R gilt

MaX+b(t) = ebt ·MX(at) und φaX+b(t) = eibt · φX(at)

für alle t ∈ R.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 251: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 251

(3). Für momentenerzeugende bzw. charakteristische Funktionen gilt stets

M(0) = φ(0) = 1, und

φ(−t) = φ(t) für alle t ∈ R.

Die Funktionφ(−t) =∫e−itxµ(dx) ist dieFouriertransformationdes Maßesµ. Istµ absolutste-

tig bzgl. des Lebesguemaßes mit Dichtef , dann istφ(−t) die Fouriertransformation der Funktion

f :

φ(t) =

R

e−itxf(x) dx = f(t).

Entsprechend ist

M(−t) =

R

e−tx µ(dx) (t > 0)

dieLaplacetransformationdes Maßesµ bzw. der Dichtef .

Bemerkung (Zusammenhang vonM und φ). (1). Gilt M(s) < ∞ für ein s > 0 (bzw. ana-

log für eins < 0), dann istM auf dem Intervall[0, s] (bzw. [s, 0]) endlich, denn nach der

Jensenschen Ungleichung folgt:

M(t) = E[etX ] ≤ E[esX ]t/s < ∞ für alle t ∈ [0, s] bzw. t ∈ [s, 0].

(2). GiltM(t) <∞ auf(−δ, δ) für einδ > 0, dann istM analytisch fortsetzbar auf den Streifen

z ∈ C : |Re(z)| < δ in der komplexen Zahlenebene, und es gilt

φ(t) = M(it) für alle t ∈ R.

Die letzte Bemerkung ermöglicht manchmal eine vereinfachteBerechnung der charakteristischen

Funktion.

Beispiel. (1). Für eine standardnormalverteilte ZufallsvariableZ gilt:

MZ(t) =1√2π

∫ ∞

−∞etx−x2/2dx = et

2/2 1√2π

∫ ∞

−∞e−(x−t)2/2dx = et

2/2 <∞ für alle t ∈ R.

Also ist die charakteristische Funktion gegeben durch

φZ(t) = MZ(it) = e−t2/2 für alle t ∈ R.

Universität Bonn Wintersemester 2009/2010

Page 252: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

252 KAPITEL 8. GRENZWERTSÄTZE

(2). Eine normalverteilte ZufallsvariableX mit Mittel m und Varianzσ2 können wir darstellen

alsX = σZ +m mit Z ∼ N(0, 1). Also gilt:

MX(t) = emt MZ(σt) = exp

(mt+

σ2t2

2

),

φX(t) = exp

(imt− σ2t2

2

).

SindX1, ..., Xn unabhängige,N(m,σ2)-verteilte Zufallsvariablen, dann erhalten wir:

φX1+...+Xn(t) =n∏

i=1

φXi(t) = exp

(inmt− nσ2t2

2

).

Da die rechte Seite die charakteristische Funktion vonN(nm, nσ2) ist, folgt nach dem

Fourierinversionssatz (s.u., Satz 8.2):

X1 + ...+Xn ∼ N(nm, nσ2) .

(3). Die Binomialverteilung mit Parameternn undp ist die Verteilung der Summe∑n

i=1 Yi von

unabhängigenBernoulli(p)-verteilten ZufallsvariablenY1, ..., Yn. Also sind

φ(t) =n∏

i=1

φYi(t) =

(1− p+ peit

)n, und

M(t) =(1− p+ pet

)n

die charakteristische und momentenerzeugende Funktion vonBin(n, p).

(4). DieCauchyverteilungist die absolutstetige Wahrscheinlichkeitsverteilung auf R mit

Dichte

f(x) =1

π(1 + x2)(x ∈ R).

Für eine Cauchyverteilte ZufallsvariableX gilt MX(t) = ∞ für alle t 6= 0

(und sogarE[|X|n] = ∞ ∀n ∈ N). Trotzdem existiert

φX(t) = e−|t| für alle t ∈ R .

Die charakteristische Funktion ist allerdings bei0 nicht differenzierbar.

Wir zeigen nun, dass sich die MomenteE[Xn] einer ZufallsvariableX : Ω → R unter geeigne-

ten Voraussetzungen aus der momentenerzeugenden bzw. charakteristischen Funktion berechnen

lassen. Die nötigen Voraussetzungen sind allerdings im Fall der momentenerzeugenden Funktion

viel stärker:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 253: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 253

Satz 8.1. (1). IstM endlich auf(−δ, δ), δ > 0, dann gilt

E[ezX ] =∞∑

n=0

zn

n!E[Xn] für alle z ∈ C mit |z| < δ.

Insbesondere folgt

M(t) =∞∑

n=0

tn

n!E[Xn] für alle t ∈ (−δ, δ) ,

und somit

M (n)(0) = E[Xn] für alle n ≥ 0 .

(2). IstE[|X|n] <∞ für einn ∈ N, dann giltφ ∈ Cn(R) und

φ(n)(t) = in · E[XneitX ] für alle t ∈ R . (8.1.1)

Beweis. (1). Aus der Voraussetzung und dem Satz von der monotonen Konvergenz folgt für

s ∈ (0, δ):∞∑

n=0

sn

n!E[|X|n] = E

[es|X|] ≤ E

[esX]+ E

[e−sX

]< ∞ .

Insbesondere existieren alle MomenteE[Xn], n ∈ N, sowie die exponentiellen Momente

E[ezX ] für z ∈ C mit |Re(z)| < δ. Nach dem Satz von Lebesgue erhalten wir für diesez

zudem∞∑

n=0

zn

n!E[Xn] = lim

m→∞E

[m∑

n=0

(zX)n

n!

]= E

[lim

m→∞

m∑

n=0

(zX)n

n!

]= E[ezX ] ,

daes|X| für s ≥ |z| eine Majorante der Partialsummen ist.

(2). Wir zeigen die Behauptung durch Induktion nachn. Fürn = 0 gilt (8.1.1) nach Definition

vonφ(t). IstE[|X|n+1] < ∞, dann folgt nach Induktionsvoraussetzung und mit dem Satz

von Lebesgue:

φ(n)(t+ h)− φ(n)(t)

h=

1

hE[(iX)n

(ei(t+h)X − eitX

)]

= E

[(iX)n

1

h

∫ t+h

t

iXeisX ds

]→ E

[(iX)n+1 eitX

]

für h→ 0, also

φn+1(t) = E[(iX)n+1 · eitX ].

Die Stetigkeit der rechten Seite int folgt ebenfalls aus dem Satz von Lebesgue und der

VoraussetzungE[|X|n+1] <∞.

Universität Bonn Wintersemester 2009/2010

Page 254: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

254 KAPITEL 8. GRENZWERTSÄTZE

Beispiel. Für eine ZufallsvariableX mit DichtefX(x) = const. · e−|x|1/2 gilt E[|X|n] < ∞ für

allen ∈ N. Also ist die charakteristische Funktion beliebig oft differenzierbar. Die momentener-

zeugende FunktionM(t) = E[etX ] ist hingegen nur fürt = 0 endlich.

Bemerkung (Satz von Bochner). Eine Funktionφ : R → C ist genau dann eine charakteristi-

sche Funktion einer Wahrscheinlichkeitsverteilung aufR, wenn gilt:

(1). φ(0) = 1 und |φ(t)| ≤ 1 für alle t ∈ R.

(2). φ ist gleichmäßig stetig.

(3). φ ist nicht negativ definit, d.h.n∑

i,j=1

φ(ti − tj)zizj ≥ 0 ∀n ∈ N, t1, ..., tn ∈ R, z1, ..., zn ∈ C.

Dass jede charakteristische Funktion einer Wahrscheinlichkeitsverteilung die Eigenschaften (1)-

(3) hat, prüft man leicht nach (Übung). Der Beweis der umgekehrten Aussage findet sich z.B. in

Vol. II des Lehrbuchs von Feller.

Inversion der Fouriertransformation

Die folgende zentrale Aussage zeigt, dass eine Wahrscheinlichkeitsverteilungeindeutigdurch ih-

re charakteristische Funktionφ festgelegt ist, und liefert eineexplizite Formelzur Rekonstruktion

der Verteilung ausφ:

Satz 8.2(Lévys Inversionsformel). Seiφ die charakteristische Funktion einer Zufallsvariable

X mit Verteilungµ. Dann gilt:

(1).

1

2µ[a] + µ[(a, b)] +

1

2µ[b] =

1

2πlimT→∞

∫ T

−T

e−ita − e−itb

itφ(t) dt ∀ a < b .

(2). Gilt∫∞−∞ |φ(t)| dt <∞, dann istµ absolutstetig mit stetiger Dichte

f(x) =1

∫ ∞

−∞e−itx φ(t) dt.

Bemerkung. (1). Die Verteilungµ ist durch (1) eindeutig festgelegt, denn fürc, d ∈ R mit

c < d gilt:

1

2µ[a] + µ[(a, b)] +

1

2µ[b] =

1

2

(µ[[a, b]

]+ µ

[(a, b)

])→ µ[(c, d)] ,

für aց c undbր d.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 255: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.1. CHARAKTERISTISCHE UND MOMENTENERZEUGENDE FUNKTIONEN 255

(2). Ist die Verteilungµ absolutstetig mit quadratintegrierbarer Dichtef , dann ist auch die

entsprechende charakteristische Funktion

φ(t) =

∞∫

−∞

eitxf(x) dx

quadratintegrierbar. Die Aussage (2) aus Satz 8.2 ist in diesem Fall die klassischeFourier-

inversionsformel der Analysis, siehe z.B. Forster „Analysis 3“.

Im Beweis der Inversionsformel verwenden wir den Satz von Fubini, der besagt, dass wir die

Integrationsreihenfolge in Doppelintegralen vertauschen dürfen, wenn der Integrand produktin-

tegrierbar ist. Für den Beweis des Satzes von Fubini verweisen wir auf die Analysisvorlesung

oder Abschnitt 9.1.

von Satz 8.2. (1). SeiT > 0 unda < b. Nach dem Satz von Fubini können wir die Integrati-

onsreihenfolge in dem folgendem Doppelintegral vertauschen, und erhalten:

1

∫ T

−T

e−ita − e−itb

itφ(t)︸︷︷︸ dt =

=∫eitx µ(dx)

1

π

∫ ∫ T

−T

eit(x−a) − eit(x−b)

2itdt

︸ ︷︷ ︸=: g(T,x)

µ(dx) (8.1.2)

Dabei haben wir benutzt, dass der Integrand produktintegrierbar ist, da aus der Lipschitz-

Stetigkeit der Abbildungy 7→ eiy mit KonstanteL = 1 folgt, dass∣∣∣∣eit(x−a) − eit(x−b)

it

∣∣∣∣ ≤|t · (x− a)− t · (x− b)|

|t| = |a− b| gilt.

Weiterhin erhalten wir, wegeneit(x−a) = cos(t·(x−a))+i sin(t·(x−a)), cos(x) = cos(−x)undsin(x) = − sin(−x):

g(T, x) =

∫ T

0

sin(t · (x− a))

tdt −

∫ T

0

sin(t · (x− b))

tdt

=

∫ T ·(x−a)

0

sin u

udu −

∫ T ·(x−b)

0

sin u

udu

= S(T · (x− a)) − S(T · (x− b))

wobei

S(t) :=

∫ t

0

sin u

udu

der Integralsinus ist. Mithilfe des Residuensatzes (siehe Funktionentheorie) zeigt man:

limt→∞

S(t) =π

2, lim

t→−∞S(t) = −π

2.

Universität Bonn Wintersemester 2009/2010

Page 256: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

256 KAPITEL 8. GRENZWERTSÄTZE

Damit erhalten wir:

limT→∞

g(T, x) =π

2sgn(x− a) − π

2sgn(x− b) = π · I(a,b)(x) +

π

2· Ia,b(x) ,

wobei wir sgn(0) := 0 setzen. DaS beschränkt ist, ist auchg(T, x) beschränkt inT undx.

Nach dem Satz von Lebesgue folgt daher aus (8.1.2) fürT → ∞1

∫ T

−T

e−ita − e−itb

itφ(t) dt =

1

π

∫g(T, x) µ(dx)

T→∞−→ µ[(a, b)] +1

2µ[a, b] .

(2). Istφ integrierbar, dann ist die Funktion(t, x) 7→ e−itx φ(t) produktintegrierbar auf

[a, b]× R für alle−∞ < a < b <∞. Also ist die Funktion

f(x) :=1

∫ ∞

−∞e−itx φ(t) dt

integrierbar auf[a, b], und es gilt nach dem Satz von Fubini und (1):∫ b

a

f(x) dx =1

∫ ∞

−∞φ(t)

∫ b

a

e−itx dx

︸ ︷︷ ︸= e−ita−e−itb

it

dt(1)=

1

2µ[a] + µ[(a, b)] +

1

2µ[b] .

Insbesondere folgt∫ b−ε

a+ε

f(x) dx ≤ µ [(a, b)] ≤∫ b

a

f(x) dx ∀ ε > 0,

also fürεց 0:

µ[(a, b)] =

∫ b

a

f(x) dx .

8.2 Erste Anwendungen auf Grenzwertsätze

Charakteristische und momentenerzeugende Funktionen werden häufig beim Beweis von Grenz-

wertsätzen der Wahrscheinlichkeitstheorie vewendet. Wirskizzieren an dieser Stelle schon ein-

mal die Anwendung charakteristischer Funktionen zum Beweisdes zentralen Grenzwertsatzes

und zeigen anschließend, wie obere Schranken für die Wahrscheinlichkeiten großer Abweichun-

gen vom Gesetz der großen Zahlen mithilfe momentenerzeugender Funktionen hergeleitet wer-

den können. Der detaillierte Beweis des zentralen Grenzwertsatzes wird dann nach weiteren Vor-

bereitungen in Abschnitt 8.3 ausgeführt. Die Analyse der Asymptotik der Wahrscheinlichkeiten

großer Abweichungen auf der exponentiellen Skala werden wir in Kapitel 11 durch den Beweis

einer unteren Schranke vervollständigen.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 257: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 257

Zentraler Grenzwertsatz

SeienX1, X2, ... ∈ L 2(Ω,A, P ) unabhängige und identisch verteilte Zufallsvariablen mitE[Xi] =

0 für alle i, und seiSn = X1 + ...+Xn. Nach dem Gesetz der großen Zahlen gilt:

Sn

n→ 0 P -fast sicher.

Wie sieht die Verteilung vonSn für große n aus?

Um eine asymptotische Darstellung zu erhalten, reskalieren wir zunächst so, dass die Varianz

konstant ist. Es gilt

Var[Sn] = n · Var[X1],

also ist

Var

[Sn√n

]=

1

n· Var[Sn] = Var[X1] =: σ2

unabhängig vonn.

Um die Asymptotik der Verteilungen der entsprechend standardisierten SummenSn√n

zu bestim-

men, betrachten wir die charakteristischen Funktionen. Dadie SummandenXi unabhängig und

identisch verteilt sind, erhalten wir

φ Sn√n(t) = φSn

(t√n

)Xi iid=

[φX1

(t√n

)]n.

WegenX1 ∈ L 2(Ω,A, P ) ist φX1 zweimal stetig differenzierbar, und die Taylorentwicklung bei

t = 0 ist gegeben durch

φX1(t) = 1 + i · E[X1] · t−1

2E[X2

1 ] · t2 + o(t2) = 1− 1

2σ2t2 + o(t2).

Damit folgt:

φ Sn√n(t) =

(1− σ2t2

2n+ o

(t2

n

))n

nր∞−→ exp

(−σ

2t2

2

)= φN(0,σ2)(t) ∀ t ∈ R.

Wir werden im nächsten Abschnitt zeigen, dass aus der Konvergenz der charakteristischen Funk-

tionen unter geeigneten Voraussetzungen die schwache Konvergenz (Definition s.u.) der Vertei-

lungen folgt. Somit ergibt sich:

Zentraler Grenzwertsatz: Die Verteilung der standardisierten SummenSn√n

konvergiert schwach

gegen die NormalverteilungN(0, σ2).

Den detaillierten Beweis werden wir in Abschnitt 8.3 führen.Der zentrale Grenzwertsatz erklärt,

warum die Normalverteilungen in der Stochastik von so großer Bedeutung sind:

Universität Bonn Wintersemester 2009/2010

Page 258: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

258 KAPITEL 8. GRENZWERTSÄTZE

Bemerkung (Universalität der Normalverteilung ). Die Limesverteilung im zentralen Grenz-

wertsatz ist unabhängig von der Verteilung vonX1, vorausgesetzt, es giltX1 ∈ L 2(Ω,A, P ).

Große Abweichungen vom Gesetz der großen Zahlen

SeienX1, X2, ... ∈ L 1(Ω,A, P ) i.i.d. Zufallsvariablen mit Erwartungswertm und momentener-

zeugender Funktion

M(t) = E[etX1 ] ,

und seiSn = X1 + ...+Xn.

Der folgende Satz verschärft dienicht-asymptotischeobere Schranke für große Abweichungen

vom Gesetz der großen Zahlen aus der Bernstein-Ungleichung (Satz 2.6), und verallgemeinert

diese auf nicht Bernoulliverteilte Zufallsvariablen.

Satz 8.3(Chernoff). Für alle n ∈ N unda ∈ R gilt:

P

[Sn

n≥ a

]≤ e−nI(a) falls a ≥ m, bzw.

P

[Sn

n≤ a

]≤ e−nI(a) falls a ≤ m,

wobei die exponentielle AbfallrateI(a) gegeben ist durch

I(a) = supt∈R

(at− logM(t)).

Beweis.Wir zeigen diese Aussage im Falla ≥ m – der Beweis füra ≤ m verläuft analog. Der

Beweis erfolgt in drei Schritten:

(1). Zentrieren:Wir können o.B.d.A.m = 0 annehmen. Andernfalls betrachten wir die zentrier-

ten ZufallsvariablenXi = Xi − E[Xi], die wieder unabhängig und identisch verteilt sind.

Man überzeugt sich leicht, dass aus der Behauptung fürXi die Behauptung fürXi folgt

(Übung).

(2). Exponentielle Markovungleichung:Für allet ≥ 0 gilt:

P

[Sn

n≥ a

]= P [Sn ≥ na] ≤ e−tnaE[etSn ]

Xi iid= e−tna E[etX1 ]n = e−(at−logM(t))·n.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 259: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 259

(3). Optimieren der Abschätzung:Bilden wir das Infimum der für verschiedenet ≥ 0 erhalte-

nen Abschätzungen, dann ergibt sich:

P

[Sn

n≥ a

]≤ inf

t≥0e−(at−logM(t))·n = e− supt≥0(at−logM(t))·n.

Es bleibt zu zeigen, dass

supt≥0

(at− logM(t)) = supt∈R

(at− logM(t)) = I(a).

Dies ist in der Tat der Fall, denn fürt < 0 unda ≥ 0 gilt nach der Jensenschen Ungleichung

und der Voraussetzungm = 0:

at− logM(t) ≤ − logE[etX1 ] ≤ −E[log etX1 ]

= −tm = 0 = a · 0− logM(0).

Bemerkung (Kumulantenerzeugende Funktion, Legendretransformation). (1). Die Funk-

tion Λ(t) := logM(t) heißt logarithmische momentenerzeugendeoderkumulantenerzeu-

gende FunktionvonX1. Diese Funktion hat u.a. folgende Eigenschaften:

(a) Λ ist konvex undunterhalbstetig, d.h.lim infs→t

Λ(s) ≥ Λ(t) für alle t ∈ R.

(b) Λ(0) = 0.

(c) Gilt M(t) <∞ auf (−δ, δ) für ein δ > 0, dann ist

Λ′(0) =M ′(0)

M(0)= m, und

Λ′′(0) =M ′′(0)

M(0)− M ′(0)2

M(0)2= E[X2

1 ]− E[X1]2 = Var[X1].

Die höheren Ableitungen vonΛ heißenKumulantenvonX1.

(2). Die RatenfunktionI ist dieLegendre-Transformation vonΛ:

I(a) = supt∈R

fa(t) mit fa(t) = at− Λ(t),

d.h.I(a) ist der negative Achsenabschnitt der (eindeutigen) Tangente an den Graphen von

Λ mit Steigunga (wobeiI(a) = ∞, falls keine solche Tangente existiert).

Universität Bonn Wintersemester 2009/2010

Page 260: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

260 KAPITEL 8. GRENZWERTSÄTZE

1

2

3

4

−1

−2

1 2 3−1 t

logM(t)

I(a)

−I(a)

Abbildung 8.1: Geometrische Darstellung der RatenfunktionI(a) als negativer Achsenabschnitt

der eindeutigen Tangente mit Steigunga (rot) an die Kumulantenerzeugende Funktion (blau)

Wichtige Eigenschaften der Ratenfunktion sind:

(a) I ist wieder konvex und unterhalbstetig.

(b) I(a) ≥ fa(0) = 0 ∀a ∈ R.

(c) Gilt M(t) < ∞ auf (−δ, δ) für ein δ > 0, dann istfa ∈ C∞(−δ, δ) mit fa(0) = 0

undf ′a(0) = a−m. Also folgt:

I(a) = sup fa > 0 ∀ a 6= m.

Unter der Voraussetzung der letzten Bemerkung (c) ist die exponentielle Abfallrate strikt posi-

tiv, d.h. es ergibt sich einexponentieller Abfall der Wahrscheinlichkeiten großer Abweichungen!

Sind die ZufallsvariablenXi nicht exponentiell integrierbar, dann kann es auch passieren, dass

I(a) = 0 für a 6= m. Die Wahrscheinlichkeiten großer Abweichungen fallen in diesem Fall lang-

samer als exponentiell ab, denn es gilt auch eine asymptotische untere Schranke mit derselben

RatenfunktionI, siehe Satz 12.7 unten.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 261: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.2. ERSTE ANWENDUNGEN AUF GRENZWERTSÄTZE 261

Beispiel. Für konkrete Verteilungen der ZufallsvariablenXi kann man die Kumulantenerzeugen-

de FunktionΛ und die RatenfunktionI häufig explizit berechnen:

(1). Für normalverteilte ZufallsvariablenXi ∼ N(m,σ2) gilt I(a) = (a−m)2

2σ2 , also

P

[Sn

n≥ a

]≤ e−

(a−m)2n

2σ2 für allea ≥ m.

Die Ratenfunktion hat eine Nullstelle beim Erwartungswertm, da die MittelwertSn/n

gegen diese konvergieren. Jenseits vonm fallen die Wahrscheinlichkeiten exponentiell ab,

und zwar mit einer Rate die quadratisch wächst.

1

2

3

4

5

6

1 2 3 4−1−2

Abbildung 8.2: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion

einerN (1, 1)-verteilten Zufallsvariable

(2). FürXi ∼ Exp(λ) gilt

I(a) =

λa− 1− log(λa) für a > 0

∞ für a ≤ 0.

In diesem Fall hat die Ratenfunktion eine Nullstelle beim Erwartungswert1/λ. Da nicht

positive Werte mit Wahrscheinlichkeit 1 nicht auftreten, hat die Ratenfunktion auf dem

Intervall (−∞, 0] den Wert+∞.

Universität Bonn Wintersemester 2009/2010

Page 262: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

262 KAPITEL 8. GRENZWERTSÄTZE

1

2

3

4

5

6

7

8

1 2 3 4 5 6

Abbildung 8.3: Legendre-Transformierte der logarithmischen momentenerzeugenden Funktion

einerExp(2)-verteilten Zufallsvariable

(3). FürXi ∼ Bernoulli(p) erhält man

I(a) = a log

(a

p

)+ (1− a) log

(1− a

1− p

)für a ∈ (0, 1).

1

1

Abbildung 8.4: Legendre-Transformation der logarithmischen momentenerzeugenden Funktion

einer Bernoulli(1/2)-verteilten Zufallsvariable

WegenI(a) ≥ 2(a− p)2 verschärft die Abschätzung aus dem Satz von Chernoff in diesem

Fall die in Satz 2.6 hergeleitete obere Schranke

P

[Sn

n≥ a

]≤ e−2(a−p)2n für a ≥ p.

Wir werden später sehen, dassI(a) sich als relative Entropie der Bernoulli(a)-Verteilung

bzgl. der Bernoulli (p)-Verteilung interpretieren lässt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 263: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.3. VERTEILUNGSKONVERGENZ 263

Beispiel (Ehrenfestmodell im Gleichgewicht). Es befinden sichn = 1023 Moleküle in einem

Gefäß. Jedes Molekül sei mit Wahrscheinlichkeit12

in der linken bzw. rechten Hälfte. SeienXi

(1 ≤ i ≤ n) Bernoulli(12

)-verteilte unabhängige Zufallsvariablen, wobeiXi = 1 dafür steht,

dass sich dasi-te Molekül in der linken Hälfte befindet. Der AnteilSn/n der Moleküle in dieser

Hälfte konvergiert nach dem Gesetz der großen Zahlen fast sicher gegen1/2.

Wie groß istp := P[Sn

n≥ 1

2+ 10−10

]?

Eine Abschätzung mit derCebyšev-Ungleichung liefert:

p ≤ 1020 · Var[Sn

n

]=

1

4· 10−3 =

1

4000.

Durch Anwenden der exponentiellen Abschätzung erhält man dagegen die viel präzisere Aussage

p ≤ e−2n(10−10)2 = e−2000 .

Eine Abweichung von der Größenordnung10−10 vom Mittelwert ist alsopraktisch unmöglich !

Die makroskopische GrößeSn/n ist daher de facto deterministisch.

8.3 Verteilungskonvergenz

SeiS ein metrischer Raum mit Borelscherσ-AlgebraB(S), zum BeispielS = R oderS = Rd.

Wir wollen nun einen für den zentralen Grenzwertsatz angemessenen Konvergenzbegriff für die

Verteilungenµn einer FolgeYn von Zufallsvariablen mit Werten inS einführen. Naheliegend

wäre es zu definieren, dass eine Folgeµn von Wahrscheinlichkeitsverteilungen auf(S,B(S))gegen eine Wahrscheinlichkeitsverteilungµ konvergiert, wennµ[A] = limµn[A] für jedeMenge

A ∈ B(S) gilt. Ein solcher Konvergenzbegriff erweist sich jedoch sofort als zu restriktiv, z.B.

würde eine Folge von diskreten Wahrscheinlichkeitsverteilungen in diesem Sinne niemals gegen

eine Normalverteilung konvergieren. Einen angemesseneren Grenzwertbegriff erhält man durch

Berücksichtigung der Topologie aufS:

Definition. (1). Schwache Konvergenz von Wahrscheinlichkeitsverteilungen: Eine Folge(µn)n∈N

von Wahrscheinlichkeitsverteilungen aufS (mit Borelscherσ-Algebra)konvergiert schwach

gegen eine Wahrscheinlichkeitsverteilungµ aufS (µnw→ µ), falls

∫f dµn −→

∫f dµ für alle stetigen, beschränktenf : S → R gilt.

Universität Bonn Wintersemester 2009/2010

Page 264: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

264 KAPITEL 8. GRENZWERTSÄTZE

(2). Konvergenz in Verteilung von Zufallsvariablen: Eine Folge(Yn)n∈N von Zufallsvariablen

mit Werten inS konvergiert in Verteilunggegen eine ZufallsvariableY bzw. gegen die

Verteilung vonY , falls

Verteilung(Yn)w−→ Verteilung(Y ),

d.h. falls

E[f(Yn)] −→ E[f(Y )] für alle f ∈ Cb(S) gilt.

Konvergenz in Verteilung bezeichnet man auf Englisch als „convergence in distribution“ oder

„convergence in law.“ Entsprechend verwendet man die KurzschreibweisenYnD→ Y oderYn

L→Y , fallsYn in Verteilung gegenY konvergiert.

Beachte: Die ZufallsvariablenYn, n ∈ N, und Y können bei der Verteilungskonvergenzauf

verschiedenen Wahrscheinlichkeitsräumendefiniert sein!

Schwache Konvergenz von Wahrscheinlichkeitsverteilungen

Um den Begriff der schwachen Konvergenz besser zu erfassen, beginnen wir mit einigen Bemer-

kungen und Beispielen:

Bemerkung. (1). Die hier definierte Form der schwachen Konvergenz entspricht nicht der im

funktionalanalytischen Sinn definierten schwachen Konvergenz auf dem Vektorraum al-

ler beschränkten signierten Maße auf(S,B(S)), sondern einer schwach∗-Konvergenz auf

diesem Raum, siehe z.B. ALT: L INEARE FUNKTIONALANALYSIS .

(2). Wir werden in Satz 8.5 zeigen, dass im FallS = R die Folgeµn genau dann schwach

gegenµ konvergiert, wenn für die Verteilungsfunktionen

Fµn(x) −→ Fµ(x) für alle Stetigkeitsstellenx vonF ,

d.h. für allex ∈ R mit µ[x] = 0, gilt.

Neben schwacher Konvergenz betrachtet man häufig u.a. auch die folgenden Konvergenzarten

auf positiven bzw. beschränkten signierten Maßen:

• Vage Konvergenz:µn konvergiert vage gegenµ, falls∫f dµn −→

∫f dµ

für alle stetigen Funktionenf mit kompaktem Träger gilt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 265: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.3. VERTEILUNGSKONVERGENZ 265

• Konvergenz in Variationsdistanz:µn konvergiertµ in Variationsdistanz,falls

‖µ− µn‖TV :=1

2sup

f :S→R messbarmit |f | ≤ 1

∣∣∣∣∫f dµ−

∫f dµn

∣∣∣∣ −→ 0.

Die Variationsdistanz zweier Wahrscheinlichkeitsverteilungen lässt sich auch wie folgt dar-

stellen:

‖µ− ν‖TV = supA∈S

|µ[A]− ν[A]|.

Im diskreten Fall gilt

‖µ− ν‖TV =1

2

x∈S|µ[x]− ν[x]| .

Diesen Abstandsbegriff haben wir bereits in Abschnitt 3.5 bei der Konvergenz ins Gleich-

gewicht von Markovketten verwendet.

Offensichtlich folgt aus der Konvergenz in Variationsdistanz die schwache Konvergenz, aus der

wiederum die vage Konvergenz folgt:

‖µn − µ‖TV → 0 =⇒ µnw→ µ =⇒ µn → µ vage.

Die folgenden Beispiele verdeutlichen die unterschiedlichen Konvergenzbegriffe:

Beispiel. (1). Diracmaße: Fürx, xn ∈ S (n ∈ N) mit xn → x gilt δxn

w→ δx.

Beweis:

∫f dδxn = f(xn) → f(x) =

∫f dδx für allef ∈ Cb(R).

Alternativer Beweis im FallS = R:

Fδxn (c) = I[xn,∞)(c)n→∞→ I[x,∞)(c) = Fδx(c) für alle c 6= x,

d.h. für alle Stetigkeitsstellen vonFδx .

In diesem Beispiel gilt i.A. keine Konvergenz in Variationsnorm, denn‖δxn − δx‖TV = 1

für xn 6= x.

Universität Bonn Wintersemester 2009/2010

Page 266: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

266 KAPITEL 8. GRENZWERTSÄTZE

(2). Degeneration/Diracfolge:Auf S = R1 konvergiert die Folgeµn := N(0, 1n) von Normal-

verteilungen mit degenerierender Varianz schwach gegen das Diracmaßδ0, denn mit dem

Satz von Lebesgue folgt fürf ∈ Cb(R)∫f dµn =

∫f(x)

1√2π/n

e−x2

2/n dx

y=√nx

=

∫f

(y√n

)1√2π

e−y2

2 dy

Lebesgue−→ f(0) ·∫

1√2π

e−y2

2 dy

︸ ︷︷ ︸= 1

=

∫f dδ0.

1

2

3

1 2 3−1−2−3

Abbildung 8.5: Schwache Konvergenz der NormalverteilungenN(0, 1/n) gegenδ0.

(3). Schwache vs. vage Konvergenz:Die Folgeµn = N(0, n) konvergiert vage gegen das

Nullmaßµ mit µ[A] = 0 für alle A. In der Tat gilt fürf ∈ C(R) mit f(x) = 0 für

x 6∈ [−K,K]:

∣∣∣∣∫f dµn

∣∣∣∣ =

∣∣∣∣∣∣

K∫

−K

f(x) · 1√2πn

e−x2/2ndx

∣∣∣∣∣∣≤ 2K√

2πn· sup |f | n→∞−→ 0.

Es gilt aber keine schwache Konvergenz, da∫

1 dµn = µn[R] = 1 6→ 0.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 267: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.3. VERTEILUNGSKONVERGENZ 267

Die Masse wandert in diesem Fall ins Unendliche ab.

1 2 3 4 5 6 7 8−1−2−3−4−5−6−7−8

Abbildung 8.6: Konvergenz der Dichten der NormalverteilungenN(0, n) gegen die Nullfunktion.

(4). Wartezeiten:Die WartezeitTp auf den ersten Erfolg bei unabhängigen Ereignissen mit

Erfolgswahrscheinlichkeitp ∈ (0, 1) ist geometrisch verteilt:

P [Tp > k] = (1− p)k für allek ∈ N.

Sei nun eine Intensitätλ > 0 gegeben. Um kontinuierliche Wartezeiten zu approximieren,

betrachten wir unabhängige Ereignisse, die zu den Zeitpunkten i/n, n ∈ N, mit Wahr-

scheinlichkeitλ/n stattfinden. Dann ist1nTλ/n die Wartezeit bis zum ersten Eintreten eines

Ereignisses. Fürn→ ∞ gilt:

P

[1

nTλ

n> x

]= P

[Tλ

n> nx

]=

(1− λ

n

)⌊nx⌋nր∞−→ e−λx ∀x ≥ 0.

Also konvergiert die Verteilung von1nTλ/n schwach gegen die Exponentialverteilung mit

Parameterλ. Konvergenz in Variationsdistanz gilt nicht, da die approximierenden Vertei-

lungen diskret, und die Grenzverteilungen stetig sind.

(5). Diskrete Approximation von Wahrscheinlichkeitsverteilungen: Allgemeiner können wir

eine gegebene Wahrscheinlichkeitsverteilung auf verschiedene Arten durch diskrete Wahr-

scheinlichkeitsverteilungen, also Konvexkombinationenvon Diracmaßen approximieren:

(a) Klassische numerische Approximation:Seiµ eine absolutstetige Wahrscheinlich-

keitsverteilung auf[0, 1] mit Dichtefunktion proportional zug(x), und sei

µn :=n∑

i=1

w(i)n δ i

n,

Universität Bonn Wintersemester 2009/2010

Page 268: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

268 KAPITEL 8. GRENZWERTSÄTZE

mit

w(i)n =

g( in)

n∑j=1

g( jn).

Dann konvergiertµn schwach gegenµ, denn∫

f dµn =n∑

i=1

w(i)n f

(i

n

)=

1n

∑ni=1 f

(in

)g(in

)

1n

∑ni=1 g

(in

)

nր∞−→∫ 1

0fg dx

∫ 1

0g dx

=

∫f dµ ∀ f ∈ C([0, 1]).

1

11n

2n

. . . n−1n

g(x)

Abbildung 8.7: Stützstellen und Gewichte einer deterministischen Approximation vonµ.

Die Stützstelleni/n und die Gewichtew(i)n können natürlich auch auf andere Art

gewählt werden, z.B. kann die hier verwendete naive Approximation des Integrals

durch eine andere deterministische Quadraturformel ersetzt werden.

(b) Monte-Carlo-Approximation : Sei(S,S, µ) ein beliebiger Wahrscheinlichkeitsraum.

SindX1, X2, ... : Ω → S unabhängige Zufallsvariablen auf(Ω,A, P ) mit Verteilung

µ, dann konvergieren dieempirischen Verteilungen

µn(ω, •) :=1

n

n∑

i=1

δXi(ω)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 269: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.3. VERTEILUNGSKONVERGENZ 269

P -f.s. schwach gegenµ, denn fürf ∈ Cb(S) gilt nach dem starken Gesetz großer

Zahlen fürP -fast alleω∫

f dµn(ω, •) =1

n

n∑

i=1

f(Xi(ω))︸ ︷︷ ︸iid,

beschränkt

GdgZ−→ E[f(X1)] =

∫f dµ.

Konvergenz der Verteilungen von Zufallsvariablen

Im Gegensatz zu anderen Konvergenzbegriffen für eine Folge(Yn)n∈N von Zufallsvariablen be-

zieht sich die Verteilungskonvergenz nur auf die Verteilungen derYn. Insbesondere können die

ZufallsvariablenYn und der GrenzwertY alle auf unterschiedlichen Wahrscheinlichkeitsräumen

definiert sein. Wir untersuchen nun den Zusammenhang der schwachen Konvergenz der Vertei-

lungen mit anderen Konvergenzarten in dem Fall, dassYn (n ∈ N) undY reellwertigeZufallsva-

riablen sind, die auf einemgemeinsamen Wahrscheinlichkeitsraum(Ω,A, P ) definiert sind.

Satz 8.4.KonvergiertYn P -fast sicher oderP -stochastisch gegenY , dann konvergiertYn auch

in Verteilung gegenY .

Beweis.Seif ∈ Cb(R). KonvergiertYn fast sicher gegenY , dann konvergiert auchf(Yn) fast

sicher gegenf(Y ). Nach dem Satz von Lebesgue folgt

E[f(Yn)] −→ E[f(Y )].

KonvergiertYn nur stochastisch gegenY , dann hat jede Teilfolge(Ynk)k∈N von (Yn)n∈N eine fast

sicher gegenY konvergente Teilfolge(Ynkl)l∈N. Wie zuvor folgt

E[f(Ynkl)] −→ E[f(Y )].

Also hat jede Teilfolge der Folge(E[f(Yn)])n∈N der Erwartungswerte eine gegenE[f(Y )] kon-

vergente Teilfolge, d.h. es gilt erneut

E[f(Yn)] −→ E[f(Y )].

Wir beweisen nun eine partielle Umkehrung der Aussage aus Satz 8.4:

Satz 8.5(Skorokhod - Darstellung und Charakterisierung der schwachen Konvergenz).

Seienµn, µ Wahrscheinlichkeitsverteilungen auf(R,B(R)) mit VerteilungsfunktionenFn bzw.F .

Dann sind äquivalent:

Universität Bonn Wintersemester 2009/2010

Page 270: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

270 KAPITEL 8. GRENZWERTSÄTZE

(1). Die Folge(µn)n∈N konvergiert schwach gegenµ.

(2). Fn(c) → F (c) für alle Stetigkeitsstellenc vonF .

(3). Es existieren ZufallsvariablenGn, G auf

(Ω,A, P ) = ((0, 1),B((0, 1)),U(0,1))

mit Verteilungenµn bzw.µ, sodassGn → G P -fast sicher.

Beweis.„(3) ⇒ (1)“ folgt aus Satz 8.4.

„(1) ⇒ (2)“: Für c ∈ R gilt:

Fn(c) =

∫I(−∞,c] dµn und F (c) =

∫I(−∞,c] dµ. (8.3.1)

Seiε > 0. Wir definieren stetige Approximationen der Indikatorfunktion I(−∞,c] durch

fε(x) =

1 für x ≤ c− ε

0 für x ≥ c

c−xε

für x ∈ [(c− ε, c)

, und gε(x) =

1 für x ≤ c

0 für x ≥ c+ ε

c+ε−xε

für x ∈ (c, c+ ε)

.

1

c− ε c c+ ε

Abbildung 8.8: Stetige Approximationen vonI(−∞,c].

Es gilt

I(−∞,c−ε] ≤ fε ≤ I(−∞,c] ≤ gε ≤ I(−∞,c+ε]. (8.3.2)

Konvergiertµn schwach gegenµ, dann folgt nach (8.3.1) und (8.3.2):

lim inf Fn(c) ≥ lim inf

∫fε dµn =

∫fε dµ ≥ F (c− ε), und

lim supFn(c) ≤ lim sup

∫gε dµn =

∫gε dµ ≤ F (c+ ε).

Für εց 0 erhalten wir

lim supFn(c) ≤ F (c) = limεց0

F (c+ ε),

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 271: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.3. VERTEILUNGSKONVERGENZ 271

und

lim inf Fn(c) ≥ F (c) = limεց0

F (c− ε),

falls F bei c stetig ist.

„(2) ⇒ (3)“: Für u ∈ (0, 1) betrachten wir die minimalen und maximalenu-Quantile

G(u) := infx ∈ R | F (x) ≥ u, und G(u) := infx ∈ R | F (x) > u

der Verteilungµ, siehe Abschnitt 4.4. Entsprechend seienGn undGn die minimalen und maxi-

malenu-Quantile der Verteilungµn. Analog zum Beweis von Satz 4.20 zeigt man, dassG und

G bzw.Gn undGn unter der GleichverteilungP = U(0,1) Zufallsvariablen mit Verteilungµ bzw.

µn sind. Wir zeigen nun, dass aus (2) folgt:

Behauptung:Gn → G P -fast sicher undGn → G P -fast sicher.

Damit ist dann die Implikation „(2)⇒ (3)“ bewiesen. Den Beweis der Behauptung führen wir in

mehreren Schritten durch:

(a) Offensichtlich giltG ≤ G, undGn ≤ Gn für allen ∈ N.

(b) G = G undGn = Gn P -fast sicher, denn:

P [G 6= G] = P [G < G] = P

[⋃

c∈QG ≤ c < G

]

≤∑

c∈QP [G ≤ c \ G ≤ c] =

c∈Q(P [G ≤ c]︸ ︷︷ ︸

=F (c)

−P [G ≤ c]︸ ︷︷ ︸=F (c)

) = 0 .

(c) Wir zeigen nun:

lim supGn(u) ≤ G(u), und lim inf Gn(u) ≥ G(u). (8.3.3)

Zum Beweis der ersten aussage genügt es zu zeigen, dass

lim supGn(u) ≤ c für alle c > G(u) mit µ[c] = 0 (8.3.4)

gilt, denn es existieren höchstens abzählbar vielec mit µ[c] 6= 0. Für c > G(u) mit

µ[c] = 0 gilt aber nach Definition vonG und nach (2):

u < F (c) = limn→∞

Fn(c),

also existiert einn0 ∈ N mit

Fn(c) > u für allen > n0. (8.3.5)

Universität Bonn Wintersemester 2009/2010

Page 272: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

272 KAPITEL 8. GRENZWERTSÄTZE

Aus (8.3.5) folgt

Gn(u) ≤ c für n ≥ n0,

und somit

lim supGn(u) ≤ c.

Damit haben wir die erste Aussage in (8.3.3) bewiesen. Die zweite Aussage zeigt man auf

ähnliche Weise.

(d) Aus (a)-(c) folgtP -fast sicher:

lim supGn

(a)

≤ lim supGn

(c)

≤ G(b)= G

(3)

≤ lim inf Gn

(a)

≤ lim inf Gn,

also

limGn = G und limGn = G.

Ein wesentlicher Schritt, um den oben skizzierten Beweis desZentralen Grenzwertsatzes zu ver-

vollständigen, ist es, zu zeigen, dass die Verteilungen derstandardisierten Summen von unab-

hängigen, identisch verteilten, quadratintegrierbaren Zufallsvariablen eine schwach konvergente

Teilfolge haben:

Existenz schwach konvergenter Teilfolgen

Eine Folge von Wahrscheinlichkeitsverteilungen auf einerendlichenMengeS = x1, . . . , xdkönnen wir als beschränkte Folge inRd auffassen. Daher existiert stets eine konvergente Teilfolge

– der Grenzwert ist wieder eine Wahrscheinlichkeitsverteilung aufS. Für unendliche MengenS

gilt eine entsprechende Aussage im Allgemeinen nicht. Wir beweisen nun ein Kriterium für die

Existenz schwach konvergenter Teilfolgen für Folgen von Wahrscheinlichkeitsverteilungen auf

R1. Dazu setzen wir voraus, dass die Masse nicht ins unendlicheabwandert:

Definition. Eine Folgeµn ∈ WV (R) heißtstraff (engl. tight), falls zu jedemε > 0 einc ∈ (0,∞)

existiert mit

µn([−c, c]) ≥ 1− ε für alle n ∈ N.

Eine straffe Folge von Wahrscheinlichkeitsverteilungen ist also gleichmäßig auf Kompakta kon-

zentriert. Die Masse kann daher fürn→ ∞ nicht ins Unendliche abwandern.

Beispiel. Die Folgeµn = N(mn, σ2n),mn ∈ R, σn > 0, ist genau dann straff, wenn die Folgen

mn undσn der Mittelwerte und Standardabweichungen beschränkt sind.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 273: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.3. VERTEILUNGSKONVERGENZ 273

Satz 8.6(Helly-Bray ). Jede straffe Folgeµn ∈ WV (R) hat eine schwach konvergente Teilfolge.

Bemerkung. (1). Das Kriterium lässt sich deutlich verallgemeinern: Eine entsprechende Aus-

sage gilt für Folgen von Wahrscheinlichkeitsverteilungenauf beliebigen vollständigen se-

parablen metrischen Räumen (Satz von Prohorov, siehe z.B.Billingsley: Convergence of

probability measures). Die endlichen Intervalle[−c, c] in der Definition von Straffheit er-

setzt man in diesem Fall durch kompakte Mengen.

(2). Der RaumWV (R) aller Wahrscheinlichkeitsverteilungen auf[−∞,∞] ist sogarkompakt

bezüglich der schwachen Topologie, d.h.jede Folgeµn ∈ WV (R) hat eine schwach kon-

vergente Teilfolge. Der Beweis verläuft analog zu dem von Satz 8.6. Es folgt, dass jede

Folgeµn ∈ WV (R) eine vag konvergente Teilfolge hat. Der Limes ist jedoch i.A. kein

Wahrscheinlichkeitsmaß aufR, da die Masse ins unendliche abwandern kann. Allgemei-

ner gilt: IstS kompakt, dann istWV (S) kompakt bzgl. der schwachen Konvergenz.

Wir beweisen nun den Satz von Helly-Bray:

Beweis.Seiµn (n ∈ N) eine straffe Folge von Wahrscheinlichkeitsverteilungen auf R. Um die

Existenz einer schwach konvergenten Teilfolge zu zeigen, betrachten wir die Folge der Vertei-

lungsfunktionenFn. Wir zeigen die Aussage in mehreren Schritten:

(1). Es existiert eine Teilfolge(Fnk)k∈N, sodassFnk

(x) für alle x ∈ Q konvergiert:

Zum Beweis verwenden wir ein Diagonalverfahren: Seix1, x2, ... eine Abzählung vonQ.

Wegen0 ≤ Fn ≤ 1 existiert eine Teilfolge(Fn(1)k)k∈N, für dieF

n(1)k(x1) konvergiert. Ebenso

existiert eine Teilfolge(Fn(2)k)k∈N von (F

n(1)k)k∈N, für die F

n(2)k(x2) konvergiert, usw. Die

DiagonalfolgeFnk(x) := F

n(k)k(x) konvergiert dann für allex ∈ Q.

Fürx ∈ Q setzen wirF (x) := limk→∞ Fnk(x). Nach (1) existiert der Grenzwert, außerdem

ist die FunktionF : Q → [0, 1]Der Limes existiert nach 1. fürx ∈ Q und die Funktion

F : Q → [0, 1] monoton wachsend, da die FunktionenFnkmonoton wachsend sind.

(2). Stetige Fortsetzung vonF auf [0, 1]: Fürx ∈ R setzen wir

F (x) := infF (y) | y ∈ Q, y > x.

Die folgenden Eigenschaften der FunktionF prüft man leicht nach:

(a) Die FunktionF ist rechtsstetig, monoton wachsend, und es gilt0 ≤ F ≤ 1.

(b) Fnk(x) → F (x) für allex ∈ R, an denenF stetig ist.

Universität Bonn Wintersemester 2009/2010

Page 274: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

274 KAPITEL 8. GRENZWERTSÄTZE

(3). Aus (a)folgt, dass durch

µ[(a, b]] := F (b)− F (a), −∞ < a ≤ b <∞,

ein positives Maß aufR definiert wird mit

µ[R] = limc→∞

µ[(−c, c]] ∈ [0, 1].

Wir zeigen nun, dassµ eineWahrscheinlichkeitsverteilungaufR ist, falls die Folge(µn)n∈N

straff ist. Es gilt nämlich:

µ[(−c, c]] = F (c)− F (−c) = limk→∞

(Fnk(c)− Fnk

(−c)) = limk→∞

µnk[(−c, c]] (8.3.6)

für fast allec. Aus der Straffheit von(µn)n∈N folgt, dass zu jedemε > 0 ein c(ε) ∈ R

existiert mit

µnk[(−c, c]] ≥ 1− ε für allek.

Aus (8.3.6) folgt dannµ[(−c, c]] ≥ 1− ε, falls c groß genug ist, und damit fürεց 0:

µ[R] ≥ 1, also µ(R) = 1.

(4). Aus (b) folgt nun nach Satz 8.5, dass die Folge(µnk)k∈N schwach gegenµ konvergiert.

Schwache Konvergenz über charakteristische Funktionen

Unter Verwendung der Existenz schwach konvergenter Teilfolgen einer straffen Folge von Wahr-

scheinlichkeitsverteilungen zeigen wir nun, dass eine Folge von Wahrscheinlichkeitsverteilun-

gen aufR genau dann schwach konvergiert, wenn die charakteristischen Funktionen gegen eine

Grenzfunktion konvergieren, die bei0 stetig ist:

Satz 8.7(Stetigkeitssatz, Konvergenzsatz von Lévy). Seien(µn)n∈N Wahrscheinlichkeitsver-

teilungen auf(R,B(R)) mit charakteristischen Funktionen

φn(t) =

∫eitx µn(dx).

Dann gilt:

(1). Konvergiertµn schwach gegen eine Wahrscheinlichkeitsverteilungµ, dann konvergieren

auch die charakteristischen Funktionen:

φn(t) → φ(t) :=

∫eitx µ(dx) für alle t ∈ R.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 275: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.3. VERTEILUNGSKONVERGENZ 275

(2). Konvergiert umgekehrtφn(t) für alle t ∈ R gegen einen Limesφ(t), und istφ stetig bei

t = 0, dann istφ die charakteristische Funktion einer Wahrscheinlichkeitsverteilungµ,

undµn konvergiert schwach gegenµ.

Bemerkung. (1). Die Stetigkeit vonφ bei 0 ist wesentlich. Zum Beispiel ist die Folgeµn =

N(0, n) nicht schwach konvergent, aber die charakteristischen Funktionen konvergieren

punktweise:

φn(t) = e−t2

2nn↑∞→

0 falls t 6= 0

1 falls t = 0.

(2). Eine Aussage wie im Satz gilt auch für Wahrscheinlichkeitsverteilungen aufRd. Hier defi-

niert man die charakteristische Funktionφ : Rd → C durch

φ(t) =

Rd

eit·x µ(dx), t ∈ Rd.

Beweis.Der erste Teil der Aussage folgt unmittelbar auseitx = cos(tx) + i sin(tx), denn

Kosinus und Sinus sind beschränkte stetige Funktionen.

Der Beweis des zweiten Teils der Aussage erfolgt nun in mehreren Schritten. Wir nehmen an,

dass die charakteristischen Funktionenφn(t) punktweise gegen eine bei0 stetige Grenzfunktion

φ(t) konvergieren.

(1). Relative Kompaktheit: Jede Teilfolge von(µn)n∈N hat eine schwach konvergente Teilfolge.

Dies ist der zentrale Schritt im Beweis. Nach dem Satz von Helly-Bray genügt es zu zei-

gen, dassµn (n ∈ N) unter den Voraussetzungen straff ist. Dazu schätzen wir dieWahr-

scheinlichkeitenµn[|x| ≥ c] mithilfe der charakteristischen Funktionen ab. Da die Funktion

f(u) = 1 − sinuu

für u 6= 0 strikt positiv ist mit lim|u|→∞

f(u) = 1, existiert eine Konstante

a > 0 mit f(u) ≥ a für alle |u| ≥ 1. Damit erhalten wir fürε > 0:

µn

[|x| ≥ 1

ε

]

= µn [x ∈ R | |εx| ≥ 1] ≤ 1

a

∫ (1− sin εx

εx

)

︸ ︷︷ ︸= 1

ε∫−ε

(1−cos(xt))dt

µn(dx)

(8.3.7)Fubini=

1

2aε

∫ ε

−ε

(1− Re(φn(t)))dtnր∞−→

Lebesgue

1

2aε·∫ ε

−ε

(1− Re(φ(t)))dt.

Universität Bonn Wintersemester 2009/2010

Page 276: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

276 KAPITEL 8. GRENZWERTSÄTZE

Sei nunδ > 0 vorgegeben. Istε hinreichend klein, dann gilt wegen der vorausgesetzten

Stetigkeit vonφ bei0:

|1− Re(φ(t))| = |Re(φ(0)− φ(t))| ≤ δa

2für alle t ∈ [−ε, ε].

Also können wir die rechte Seite von (8.3.7) durchδ/2 abschätzen, und somit existiert ein

n0 ∈ N mit

µn

[|x| ≥ 1

ε

]≤ δ für allen ≥ n0. (8.3.8)

Diese Aussage gilt natürlich auch, falls wirε noch kleiner wählen. Zudem gilt (8.3.8) auch

für allen < n0, falls ε klein genug ist. Also istµn (n ∈ N) straff.

(2). Der Grenzwertjederschwach konvergenten Teilfolge von(µn)n∈N hat die charakteristische

Funktionφ.

Zum Beweis sei(µnk)k∈N eine Teilfolge von(µn)n∈N undµ eine Wahrscheinlichkeitsver-

teilung mitµnk

w→ µ. Dann gilt nach dem ersten Teil der Aussage des Satzes:

φµ(t) = limk→∞

φnk(t) = φ(t) für alle t ∈ R.

(3). Schwache Konvergenz von(φn)n∈N.

Nach dem Inversionssatz existiert höchstens eine Wahrscheinlichkeitsverteilungµmit cha-

rakteristischer Funktionφ. Also konvergieren nach (2) alle schwach konvergenten Teilfol-

gen von(µn)n∈N gegen denselben Limesµ. Hieraus folgt aber, zusammen mit (1), dass

(µn)n∈N schwach gegenµ konvergiert, denn fürf ∈ Cb(S) hat jede Teilfolge von∫f dµn

eine gegen∫f dµ konvergente Teilfolge, und somit gilt

∫f dµn →

∫f dµ.

8.4 Der Zentrale Grenzwertsatz

Wir können nun den in Abschnitt 8.2 skizzierten Beweis des Zentralen Grenzwertsatzes (engl.

Central Limit Theorem) vervollständigen. Wir zeigen zunächst, dass ein zentraler Grenzwertsatz

für Summen beliebiger unabhängiger, identisch verteilterZufallsvariablen mit endlicher Vari-

anz gilt. Diese Aussage wurde zuerst 1900 von Lyapunov bewiesen, der damit den Satz von de

Moivre/Laplace (1733) deutlich verallgemeinern konnte. Am Ende dieses Abschnitts beweisen

wir eine noch allgemeinere Version des Zentralen Grenzwertsatzes, die auf Lindeberg und Feller

zurückgeht.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 277: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.4. DER ZENTRALE GRENZWERTSATZ 277

Zentraler Grenzwertsatz für Summen von i.i.d. Zufallsvariablen

Satz 8.8(Zentraler Grenzwertsatz – 1. Version). SeienX1, X2, ... ∈ L2(Ω,A, P ) unabhän-

gige, identisch verteilte Zufallsvariablen mit Varianzσ2 und sei

Sn = X1 + ...+Xn .

Dann konvergieren die Verteilungen der standardisierten Summen

Sn =Sn − E[Sn]√

n=

1√n

n∑

i=1

(Xi − E[Xi])

schwach gegenN(0, σ2).

Bemerkung. (1). Alternativ kann man die standardisierten Summen auf Varianz1 normieren,

und erhältSn − E[Sn]

σ · √nD−→ Z,

wobeiZ eine standardnormalverteilte Zufallsvariable ist.

(2). Die VoraussetzungXi ∈ L2(Ω,A, P ) ist wesentlich. Bei unendlicher Varianz derXi kön-

nen sich andere Grenzverteilungen für die geeignet renormierten SummenSn−anbn

(an ∈R, bn > 0) ergeben. Als Grenzverteilungen können i.A. die sogenannten stabilen Vertei-

lungen auftreten, siehe dazu z.B. Satz 8.12 unten.

(3). Im Fall σ2 = 0 gilt die Aussage auch. Hierbei interpretieren wir das Diracmaßδm als

degenerierte NormalverteilungN(m, 0).

Wir beweisen nun den Zentralen Grenzwertsatz in der oben stehenden Form:

Beweis.O.B.d.A. seiE[Xi] = 0, ansonsten betrachten wir die zentrierten ZufallsvariablenXi :=

Xi−E[Xi]. Nach dem Konvergenzsatz von Lévy genügt es zu zeigen, dass die charakteristischen

Funktionen der standardisierten SummenSn punktweise gegen die charakteristische Funktion der

NormalverteilungN(0, σ2) konvergieren, d.h.

φSn(t) → φN(0,σ2)(t) = e−

σ2t2

2 ∀ t ∈ R. (8.4.1)

Da die ZufallsvariablenXi unabhängig, identisch verteilt und zentriert sind, gilt für t ∈ R:

φSn(t)

E[Sn]=0= φSn

(t√n

)Xi iid=

(φX1

(t√n

))n

.

Universität Bonn Wintersemester 2009/2010

Page 278: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

278 KAPITEL 8. GRENZWERTSÄTZE

AusX1 ∈ L2 folgt φX1 ∈ C2(R), und

φX1(t) = E[eitX1 ] = 1 + itE[X1] +(it)2

2E[X2

1 ] + o(t2) = 1− t2σ2

2+ o(t2),

wobeio für eine Funktiono : R+ → C mit limε↓0|o(ε)|ε

= 0 steht. Damit erhalten wir:

φSn(t) =

(1− t2σ2

2n+ o

(t2

n

))n

.

Wir vermuten, dass dieser Ausdruck fürn→ ∞ gegene−t2σ2

2 strebt. Dies kann man beweisen, in-

dem man den Logarithmus nimmt, und die Taylorapproximationlog(1+w) = w+o(|w|) verwen-

det. Da die charakteristische Funktion komplexwertig ist,muss dazu allerdings der Hauptzweig

der komplexen Logarithmusfunktion verwendet werden.

Wir zeigen stattdessen die Konvergenz ohne Verwendung von Aussagen aus der Funktionentheo-

rie: Für komplexe Zahlenzi, wi ∈ C mit |zi|, |wi| ≤ 1 gilt nach der Dreiecksungleichung∣∣∣∣∣

n∏

i=1

zi −n∏

i=1

wi

∣∣∣∣∣ = |(z1 − w1)z2z3 · · · zn + w1(z2 − w2)z3z4 · · · zn + . . .+ w1 · · ·wn−1(zn − wn)|

≤n∑

i=1

|zi − wi|.

Damit erhalten wir:∣∣∣∣φSn

(t)− exp

(−t

2σ2

2

)∣∣∣∣ =

∣∣∣∣(1− t2σ2

2n+ o

(t2

n

))n

− exp

(−t

2σ2

2n

)n∣∣∣∣

≤ n ·∣∣∣∣1−

t2σ2

2n+ o

(t2

n

)− exp

(−t

2σ2

2n

)∣∣∣∣ .

Da die rechte Seite fürn→ ∞ gegen0 konvergiert, folgt (8.4.1) und damit die Behauptung.

Beispiel. (1). SindX1, X2, . . . unabhängig mitP [Xi = 1] = p und P [Xi = 0] = 1 − p,

dann istSn =n∑

i=1

Xi binomialverteilt mit Parameternn undp. Die Aussage des Zentralen

Grenzwertsatzes folgt in diesem Fall aus dem Satz von de Moivre/Laplace.

(2). Sind die ZufallsvariablenXi unabhängig und Poissonverteilt mit Parameterλ > 0, dann ist

Sn =n∑

i=1

Xi Poissonverteilt mit Parameternλ. Der Zentrale Grenzwertsatz liefert in diesem

Fall eine Normalapproximation für Poissonverteilungen mit großer Intensität (Übung).

(3). SindX1, X2, . . . unabhängige,N(m,σ2)-verteilte Zufallsvariablen, dann gilt

Sn =X1 +X2 + . . .+Xn − nm√

n∼ N(0, σ2)

für allen ∈ N (und nicht nur asymptotisch!).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 279: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.4. DER ZENTRALE GRENZWERTSATZ 279

Warum tritt die Normalverteilung im Limes auf? Wie schon im letzten Beispiel bemerkt,

gilt

Xi ∼ N(0, σ2) unabhängig ⇒ X1 + . . .+Xn√n

∼ N(0, σ2).

Die zentrierten Normalverteilungen sind also „invariant“unter derReskalierungstransformation

aus dem zentralen Grenzwertsatz. Man kann sich leicht plausibel machen, dass eine Grenzvertei-

lung der standardisierten Summen unabhängiger quadratintegrierbarer Zufallsvariablen eine ent-

sprechende Invarianzeigenschaft haben muss. Tatsächlichsind die zentrierten Normalverteilun-

gen die einzigen nichtdegenerierten Wahrscheinlichkeitsverteilungen mit dieser Invarianz. Aus

dem Zentralen Grenzwertsatz folgt sogar:

Korollar 8.9. Seiµ eine Wahrscheinlichkeitsverteilung aufR mit∫x2µ(dx) <∞. Gilt

X, Y ∼ µ unabhängig ⇒ X + Y√2

∼ µ, (8.4.2)

dann istµ eine zentrierte Normalverteilung.

Bemerkung. Die Aussage gilt auch ohne die Voraussetzung∫x2µ(dx) < ∞ ; der Beweis ist

aber aufwändiger, siehe z.B. BREIMAN : PROBABILITY .

Beweis.SeienX1, X2, . . . unabhängige Zufallsvariablen mit Verteilungµ. Aus der Vorausset-

zung (8.4.2) folgtE[Xi] =∫x µ(dx) = 0 für alle i ∈ N, und durch Induktion:

(X1 + . . .+Xn)√n

∼ µ für n = 2k, k ∈ N.

Wegen∫x2µ(dx) < ∞ sind dieXi quadratintegrierbar. Durch Anwenden des zentralen Grenz-

wertsatzes auf die standardisierten Summen folgt, dassµ eine zentrierte Normalverteilung ist.

Normalapproximationen

Die Normalverteilungsasymptotik der standardisierten Summen wird häufig verwendet, um Wahr-

scheinlichkeiten näherungsweise zu berechnen. Wir betrachten zunächst ein typisches Beispiel:

Beispiel (Versicherungsgesellschaft mitn Verträgen). Eine Versicherungsgesellschaft habe

mit n Kunden Verträge abgeschlossen. Beim Eintreten des Schadenfalls für Vertragi muss die

LeistungXi ≥ 0 gezahlt werden. Wir nehmen an, dass gilt:

Xi ∈ L2 i.i.d. mit E[Xi] = m, Var[Xi] = σ2.

Universität Bonn Wintersemester 2009/2010

Page 280: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

280 KAPITEL 8. GRENZWERTSÄTZE

Die Prämie pro Vertrag betrageΠ = m + λσ2, wobeim die erwartete Leistung ist undλσ2 mit

λ > 0 einem Risikozuschlag entspricht. Die Einnahmen nach einer Zeitperiode betragen dann

n ·Π, die AusgabenSn = X1 + ...+Xn. Wir wollen die Wahrscheinlichkeit des Ruinereignisses

Sn > k + nΠ,

berechnen, wobeik das Anfangskapital bezeichnet. Hierbei nehmen wir implizit an, dass nicht

verzinst wird, und die Abrechnung nur am Schluß einer Zeitperiode erfolgt. Wenn die standardi-

sierten Schadenssummen mithilfe einer ZGS-Näherung approximiert werden, ergibt sich:

P [Ruin] = P [Sn > k + nΠ] = P [Sn − E[Sn] > k + nλσ2]

= P

[Sn − E[Sn]

σ√n

>k

σ√n+ λσ

√n

]

≈ P

[Z >

k

σ√n+ λσ

√n

],

wobei Z eine standardnormalverteilte Zufallsvariable ist. Der Ausdruck auf der rechten Seite

geht fürn → ∞ gegen0. Eine große Anzahl von Verträgen sollte also eine kleine Ruinwahr-

scheinlichkeit implizieren. Fürn = 2000, σ = 60 undλ = 0, 05% ergibt sich beispielsweise:

k = 0 : P [Ruin] ≈ 9%,

k = 1500 : P [Ruin] ≈ 3%.

Nach einer solchen Überschlagsrechnung sollte man das verwendete Modell und die Approxi-

mationsschritte einer kritischen Analyse unterziehen. Inunserem Fall stellen sich unmittelbar

mehrere Fragen:

(1). Wir haben die ZGS-Näherung verwendet, obwohl die auftretenden Schranken für die stan-

dardisierten Summen vonn abhängen. Ist das in diesem Fall zulässig?

(2). Ist die Quadratintegrierbarkeit derXi eine sinnvolle Modellannahme, und was ergibt sich

andernfalls?

(3). In einem realistischen Modell kann man nicht davon ausgehen, dass dieXi identisch ver-

teilt sind. Gilt trotzdem ein Zentraler Grenzwertsatz?

(4). Ist die Unabhängigkeitsannahme gerechtfertigt?

Wir werden nun auf die ersten drei Fragen näher eingehen. Dasfolgende Beispiel zeigt, dass

man in der Tat vorsichtig sein sollte, wenn man vonn abhängige Quantile von standardisierten

Summen durch entsprechende Quantile von Normalverteilungen ersetzt:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 281: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.4. DER ZENTRALE GRENZWERTSATZ 281

Beispiel (Eine zu naive ZGS-Approximation). SeienXi, i ∈ N, unabhängige, identisch ver-

teilte Zufallsvariablen mitE[Xi] = 0 und Var[Xi] = 1, und seia > 0. Mit einer ZGS-

Approximation erhalten wir für großen:

P

[1

n

n∑

i=1

Xi ≥ a

]= P

[1√n

n∑

i=1

Xi ≥ a√n

]

≈ 1√2π

∫ ∞

a√n

e−x2

2 dx

= e−na2

2 · 1√2π

∫ ∞

0

e−a√ny− y2

2 dy(x = a

√n+ y

)

= e−na2

2 · 1√2πn

∫ ∞

0

e−az− z2

2n dz(z =

√ny)

∼ 1√2πa2n

· exp(−na

2

2

)

Dies ist abernicht die korrekte Asymptotik fürn → ∞. Auf der exponentiellen Skala gilt näm-

lich

P

[1

n

n∑

i=1

Xi ≥ a

]∼ exp (−nI(a)) ,

wobei I(a) die Ratenfunktion aus dem Satz von Chernoff ist. Diese ist im Allgemeinen von

na2/2 verschieden. Die ZGS-Approximation ist hier nicht anwendbar, daa√n vonn abhängt!

Dass die Näherung aus dem Beispiel oben trotzdem recht gut funktioniert, wenn die Zufallsva-

riablenXi dritte Momente haben, garantiert die folgendeAbschätzung der Konvergenzgeschwin-

digkeit im Zentralen Grenzwertsatz:

Satz 8.10(Berry-Esséen). SeienXi ∈ L3 i.i.d. Zufallsvariablen,Z ∼ N(0, 1), und seien

Fn(x) := P

[Sn − E[Sn]

σ√n

≤ x

],

Φ(x) := P [Z ≤ x].

Dann gilt folgende Abschätzung:

supx∈R

|Fn(x)− Φ(x)| ≤ 3 · E[|X1 − E[X1]|3]σ3√n

.

Den Beweis dieser Aussage findet man etwa im Buch PROBABILITY THEORY von R. Durrett

(4.10).

Universität Bonn Wintersemester 2009/2010

Page 282: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

282 KAPITEL 8. GRENZWERTSÄTZE

Für die Normalapproximation der BinomialverteilungBin(n, p) ergibt sich beispielsweise

3 · E[|X1 − E[X1]|3]σ3√n

=3 · ((1− p)2 + p2)√

np(1− p).

Für p → 0 oder p → 1 divergiert die rechte Seite. Wir erhalten also möglicherweise einen

hohen Approximationsfehler fürp nahe0 oder1. In diesen Fällen empfiehlt sich in der Tat die

Verwendung der Poisson-Approximation anstelle des zentralen Grenzwertsatzes.

Heavy Tails, Konvergenz gegenα-stabile Verteilungen

Als nächstes betrachten wir ein Beispiel, welches zeigt, dass die Voraussetzung der Quadratinte-

grierbarkeit der Zufallsvariablen essentiell für den zentralen Grenzwertsatz ist:

Seienα ∈ (1, 2), r ∈ (0,∞), und seienX1, X2, . . . : Ω → R unabhängige identisch verteilte

absolutstetige Zufallsvariablen, deren Dichtefunktion

fXi(x) = |x|−α−1 für alle |x| ≥ r

erfüllt. Da die Dichte für|x| → ∞ nur langsam abfällt, sind die Zufallsvariablen nicht quadratin-

tegrierbar; sie sind aber integrierbar. Daher ergibt sich ein anderes asymptotisches Verhalten der

charakteristischen Funktionen fürt→ 0 :

Lemma 8.11.Für t→ 0 gilt

φXi(t) = 1 + imt− c|t|α +O(t2)

mitm = E[Xi] undc =∫R

(1− cos u)|u|−α−1 du ∈ (0,∞).

Beweis.Seit 6= 0. Wegeneiu − 1− iu = O(u2) undcos u− 1 = O(u2) erhalten wir

φXi(t)− 1− imt =

∞∫

−∞

(eitx − 1− itx)f(x) dx

=

∞∫

−∞

(eiu − 1− iu)f(ut

) 1

|t| du

=1

|t|

tr∫

−tr

(eiu − 1− iu)f(ut

)du+ |tα|

[−tr,tr]C

(cosu− 1)|u|−α−1 du

= −c|t|α +O(t2).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 283: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.4. DER ZENTRALE GRENZWERTSATZ 283

Für die zentrierten SummenSn =n∑

i=1

(Xi −m) folgt nach dem Lemma:

φSn(t) = (1− c|t|α +O(t2))n.

Um Konvergenz der charakteristischen Funktionen zu erhalten, müssen wirXn nun mitn−1/α

stattn−1/2 reskalieren:

φn−1/αSn(t) = φSn(n

−1/αt) = (1− c|t|αn−1 +O(n−2/α))n

→ exp(−c|t|α) für n→ ∞.

Nach dem Konvergenzsatz von Lévy folgt:

Satz 8.12.Für n→ ∞ gilt

n−1/αSnD→ µc,α,

wobeiµc,α die Wahrscheinlichkeitsverteilung mit charakteristischer Funktion

φc,α(t) = exp(−c|t|α)

ist.

Definition. Seienα ∈ (0, 2] undm ∈ R. Die Wahrscheinlichkeitsverteilungen mit charakteristi-

scher Funktion

φ(t) = exp(imt− c|t|α),

c ∈ (0,∞), heißensymmetrischeα-stabile Verteilungenmit Mittelwertm.

Die Dichten derα-stabilen Verteilungen sind fürα 6= 1, 2 nicht explizit berechenbar, fallen

aber für|x| → ∞ wie |x|−α−1 ab. Fürα = 1 erhält man die Cauchyverteilungen, fürα = 2

die Normalverteilungen. Satz 8.12 ist ein Spezialfall eines allgemeineren Grenzwertsatzes für

Summen von Zufallsvariablen mit polynomiellen Tails, siehe z.B. BREIMAN , THEOREM 9.34.

Der Satz von Lindeberg-Feller

Wir wollen nun die Annahme fallen lassen, dass die SummandenXi identisch verteilt sind, und

zeigen, dass trotzdem ein zentraler Grenzwertsatz gilt. Sei

Sn = Yn,1 + Yn,2 + ...+ Yn,n mit Yn,i ∈ L2(Ω,A, P ).

Die ZufallsvariablenYn,i können etwa kleine Störungen oder Messfehler beschreiben.Setzen wir

Yn,i =Xi − E[Xi]√

nmit Xi ∈ L2 unabhängig, (8.4.3)

so erhalten wir das Setup von oben.

Universität Bonn Wintersemester 2009/2010

Page 284: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

284 KAPITEL 8. GRENZWERTSÄTZE

Satz 8.13(ZGS von Lindeberg-Feller). Seiσ ∈ (0,∞). Es gelte:

(i) Yn,i (1 ≤ i ≤ n) sind unabhängig für jedesn ∈ N mitE[Yn,i] = 0,

(ii) Var[Sn] =∑n

i=1 Var[Yn,i]n↑∞−→ σ2,

(iii) γn,ε :=∑n

i=1 E[Y2n,i; |Yn,i| > ε]

n↑∞−→ 0 ∀ ε > 0.

Dann konvergiert die Verteilung vonSn schwach gegenN(0, σ2).

Der Satz zeigt, dass die Summe vieler kleiner unabhängiger Störungen unter geeigneten Voraus-

setzungen ungefähr normalverteilt ist. Dies rechtfertigtbis zu einem gewissen Grad, dass Zu-

fallsgrößen mit unbekannter Verteilung, die durch Überlagerung vieler kleiner Effekte entstehen,

häufig durch normalverteilte Zufallsvariablen modelliertwerden.

Bemerkung. (1). Der Zentrale Grenzwertsatz von oben ist ein Spezialfall des Satzes von Lindeberg-

Feller: SindXi ∈ L2 i.i.d. Zufallsvariablen mitE[Xi] = m undVar[Xi] = σ2, und defi-

nieren wirYn,i wie in (8.4.3), dann gilt:

Var[Sn] =1

n

n∑

i=1

Var[Xi] = Var[X1] = σ2, für allen ∈ N,

und, fürε > 0

γn,ε =n∑

i=1

E[Y 2n,i; |Yn,i| > ε

]=

1

n

n∑

i=1

E[|Xi −m|2; |Xi −m| > ε

√n]

= E[|X1 −m|2; |X1 −m| > ε

√n]

→ 0 für n→ ∞,

daX1 quadratintegrierbar ist.

(2). Die Bedingung (iii) ist insbesondere erfüllt, wenn dieLyapunovbedingung

n∑

i=1

E[|Yn,i|p] n→∞−→ 0 für einp > 2 gilt,

denn fürε > 0 istE[Y 2n,i; |Yn,i| ≥ ε] ≤ E[|Yn,i|p]/εp−2.

Wir beweisen nun den Satz von Lindeberg-Feller: Der Beweis basiert wieder auf einer Analyse

der Asymptotik der charakteristischen Funktionen. Dazu zeigen wir zunächst einige asymptoti-

sche Abschätzungen:

Beweis. (a) Vorüberlegungen:Seit ∈ R fest.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 285: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.4. DER ZENTRALE GRENZWERTSATZ 285

(I) Taylorapproximation fürφn,i(t) := E[eitYn,i ]:

Aus den verschiedenen Abschätzungen des Taylorrestgliedserhält man

eix = 1 + ix− x2

2+R(x) mit |R(x)| ≤ min

( |x|36

, x2). (8.4.4)

Damit ergibt sich

φn,i(t) = 1 + itE[Yn,i]−t2

2E[Y 2

n,i] + E[R(tYn,i)] = 1− t2σ2n,i

2+Rn,i,

wobei fürRn,i := E[R(tYn,i)] die Abschätzung

|Rn,i| ≤ E

[min

( |tYn,i|36

, t2Y 2n,i

)](8.4.5)

gilt.

(II) Wir zeigen∑n

i=1 |Rn,i| → 0 für n→ ∞:

Für ε > 0 gilt nach (8.4.5):

|Rn,i| ≤1

6· E[|tYn,i|3; |Yn,i| ≤ ε

]+ E[|tYn,i|2; |Yn,i| > ε].

Mit E [|tYn,i|3; |Yn,i| ≤ ε] ≤ |t|3ε · σ2n,i erhalten wir

n∑

i=1

|Rn,i| ≤ |t|3ε6

n∑

i=1

σ2n,i + t2γn,ε,

und somit nach Voraussetzung (ii) und (iii)

lim supn→∞

n∑

i=1

|Rn,i| ≤ σ2|t|36

ε .

Die Behauptung folgt fürε→ 0.

(III) Wir zeigen sup1≤i≤n σ2n,i → 0 für n→ ∞:

Für ε > 0 und1 ≤ i ≤ n gilt

σ2n,i = E[Y 2

n,i; |Yn,i| ≤ ε] + E[Y 2n,i; |Yn,i| > ε] ≤ ε2 + γn,ε.

Wegenγn,ε → 0 für n→ ∞ ergibt sich

lim supn→∞

sup1≤i≤n

σ2n,i ≤ ε2.

Die Behauptung folgt wieder fürε→ 0.

Universität Bonn Wintersemester 2009/2010

Page 286: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

286 KAPITEL 8. GRENZWERTSÄTZE

(b) Hauptteil des Beweises: Zu zeigen ist

φSn(t) =

n∏

i=1

φn,i(t)n→∞−→ exp

(−t

2σ2

2

), (8.4.6)

die Aussage folgt dann aus dem Konvergenzsatz von Lévy.

Wir zeigen:

∣∣∣∣∣

n∏

i=1

φn,i(t)−n∏

i=1

(1− t2σ2

n,i

2

)∣∣∣∣∣n→∞−→ 0, und (8.4.7)

n∏

i=1

(1− t2σ2

n,i

2

)n→∞−→ e−

t2σ2

2 . (8.4.8)

Daraus folgt (8.4.6), und damit die Behauptung.

Beweis von (8.4.7):Wie oben gezeigt, gilt fürzi, wi ∈ C mit |zi|, |wi| ≤ 1:∣∣∣∣∣

n∏

i=1

zi −n∏

i=1

wi

∣∣∣∣∣ ≤n∑

i=1

|zi − wi|.

Zudem gilt|φn,i(t)| ≤ 1, und nach der 3. Vorüberlegung existiert einn0 ∈ N mit

1− t2σ2n,i

2∈ (0, 1) für allen ≥ n0 und1 ≤ i ≤ n. (8.4.9)

Damit erhalten wir fürn ≥ n0:∣∣∣∣∣

n∏

i=1

φn,i(t)−n∏

i=1

(1− t2σ2

n,i

2

)∣∣∣∣∣ ≤n∑

i=1

∣∣∣∣φn,i(t)−(1− t2σ2

n,i

2

)∣∣∣∣ =n∑

i=1

|Rn,i|

Die rechte Seite konvergiert nach der 2. Vorüberlegung gegen 0.

Beweis von (8.4.8):Wegen (8.4.9) erhalten wir

log

(n∏

i=1

(1− t2σ2

n,i

2

))=

n∑

i=1

log

(1− t2σ2

n,i

2

)

= −n∑

i=1

t2σ2n,i

2+

n∑

i=1

Rn,i,

wobei |Rn,i| ≤ C ·(t2σ2

n,i

)2mit C ∈ (0,∞). Die rechte Seite konvergiert nach Vorausset-

zung (ii) fürn→ ∞ gegen− t2σ2

2, denn

n∑

i=1

|Rn,i| ≤ Ct4 ·n∑

i=1

σ4n,i ≤ Ct4 ·

n∑

i=1

σ2n,i · sup

1≤i≤nσ2n,i → 0

nach der 3. Vorüberlegung.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 287: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

8.5. VOM RANDOM WALK ZUR BROWNSCHEN BEWEGUNG 287

Bemerkung (Zentrale Grenzwertsätze für Summen abhängiger Zufallsvariablen). In allen

Fällen haben wir bisher angenommen, dass die ZufallsvariablenXi unabhängig sind. Tatsäch-

lich hat man zentrale Grenzwertsätze auch für viele große Modellklassen mit Abhängigkeit ge-

zeigt, beispielsweise für Martingale, additive Funktionale von Markovketten, Skalierungslimiten

von Teilchensystemen, unterschiedliche Folgen von Parameterschätzern in der Statistik, usw. Wir

werden darauf in weiterführenden Vorlesungen zurückkommen.

8.5 Vom Random Walk zur Brownschen Bewegung

Universität Bonn Wintersemester 2009/2010

Page 288: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 9

Multivariate Verteilungen und statistische

Anwendungen

9.1 Mehrstufige Modelle

Seien(Si,Si), 1 ≤ i ≤ n, messbare Räume. Wir wollen allgemeine Wahrscheinlichkeitsvertei-

lungen auf dem ProduktraumS1× ...×Sn konstruieren und effektiv beschreiben. In Analogie zu

diskreten, mehrstufigen Modellen versuchen wir diese in derForm

P (dx1...dxn) = µ(dx1)p(x1, dx2)p((x1, x2), dx3) · · · p((x1, ..., xn−1), dxn)

darzustellen.

Stochastische Kerne und der Satz von Fubini

Wir betrachten zunächst den Falln = 2, der allgemeine Fall ergibt sich dann durch Iteration der

Konstruktion. Seien also(S,S) und(T,T ) messbare Räume, und sei

Ω := S × T und A := S ⊗ T die Produkt-σ-Algebra.

Unser Ziel ist die Konstruktion einer Wahrscheinlichkeitsverteilung auf(Ω,A) vom Typ

P (dxdy) = µ(dx)p(x, dy).

Definition. Eine Abbildung

p : S × T −→ [0, 1], (x, C) 7→ p(x, C),

heißtstochastischer Kern(oderÜbergangswahrscheinlichkeit), wenn gilt:

288

Page 289: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.1. MEHRSTUFIGE MODELLE 289

(i) p(x, •) ist für jedesx ∈ S eine Wahrscheinlichkeitsverteilung auf(T,T ),

(ii) p(•, C) ist für jedesC ∈ T eine messbare Funktion auf(S,S).

Bemerkung (Diskreter Spezialfall). Sind S und T abzählbar mitS = P(S),T = P(T ),

dann istp eindeutig festgelegt durch die Matrix mit Komponenten

p(x, y) := p(x, y) (x ∈ S , y ∈ T ).

Dap ein stochastischer Kern ist, istp(x, y) (x ∈ S, y ∈ T ) einestochastische Matrix.

Der folgende Satz zeigt im allgemeinen Fall die Existenz eines zweistufigen Modells mitµ als

Verteilung der ersten Komponente, undp(x, •) als bedingte Verteilung der zweiten Komponente

gegeben den Wertx der ersten Komponente. Der Satz zeigt zudem, dass Erwartungswerte im

mehrstufigen Modell durch Hintereinanderausführen von Integralen berechnet werden können.

Satz 9.1(Fubini ). Seiµ(dx) eine Wahrscheinlichkeitsverteilung auf(S,S) undp(x, dy) ein sto-

chastischer Kern von(S,S) nach(T,T ). Dann existiert eine eindeutige Wahrscheinlichkeitsver-

teilungµ⊗ p auf (Ω,A) mit

(µ⊗ p)[B × C] =

B

µ(dx) p(x, C) für alleB ∈ S, C ∈ T . (9.1.1)

Für diese Wahrscheinlichkeitsverteilung gilt:∫f d(µ⊗ p) =

∫ (∫f(x, y) p(x, dy)

)µ(dx) für alleA-messbarenf : Ω → R+.

(9.1.2)

Beweis. (1). Eindeutigkeit:Das MengensystemB × C | B ∈ S, C ∈ T ist ein durch-

schnittsstabiler Erzeuger der Produkt-σ-AlgebraA. Also ist die Wahrscheinlichkeitsvertei-

lungµ⊗ ν durch (9.1.1) eindeutig festgelegt.

(2). Existenz:Wir wollen die Wahrscheinlichkeitsverteilungµ⊗ν über (9.1.2) mitf = IA, A ∈A, definieren. Dazu müssen wir überprüfen, ob die rechte Seitein diesem Fall definiert ist

(d.h. ob die Integranden messbar sind), und ob

(µ⊗ p)[A] :=

∫ (∫IA(x, y) p(x, dy)

)µ(dx)

eine Wahrscheinlichkeitsverteilung auf(Ω,A) definiert.

Für ProduktmengenA = B×C (B ∈ S, C ∈ T ) ist die Funktionx 7→∫IA(x, y)p(x, dy)

nach Definition des stochastischen Kerns messbar. Da die MengenA ∈ A, für die diese

Funktion messbar ist, ein Dynkinsystem bilden, folgt die Messbarkeit für alleA ∈ A.

Universität Bonn Wintersemester 2009/2010

Page 290: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

290 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

µ⊗ p ist eine Wahrscheinlichkeitsverteilung, denn einerseitsfolgt

(µ⊗ p)[Ω] = (µ⊗ p)[S × T ] =

∫ (∫IS(x)IT (y)p(x, dy)

)µ(dx) = µ[S] = 1

aus∫Tp(x, dy) = p(x, T ) = 1; andererseits gilt für disjunkte MengenAi (i ∈ N)

I⋃Ai=∑

IAi,

woraus unter zweimaliger Anwendung des Satzes von der monotonen Konvergenz folgt:

(µ⊗ p)

[⋃

i

Ai

]=

∫ (∫ ∑

i

IAi(x, y) p(x, dy)

)µ(dx)

=∑

i

∫ (∫IAi

(x, y) p(x, dy)

)µ(dx)

=∑

i

(µ⊗ p)[Ai].

Durch maßtheoretische Induktion zeigt man nun, dass die Wahrscheinlichkeitsverteilung

µ⊗ p auch (9.1.2) erfüllt.

Als nächstes wollen wir dieRandverteilungen des gerade konstruierten zweistufigen Modells

berechnen. Sei alsoP := µ⊗ p, und seien

X : S × T → S , Y : S × T → T

(x, y) 7→ x (x, y) 7→ y,

die Projektionen auf die 1. bzw. 2. Komponente. Wegenp(x, T ) = 1 gilt:

P [X ∈ B] = P [B × T ] =

B

µ(dx) p(x, T ) = µ[B] ∀ B ∈ S,

also ist die VerteilungP X−1 der ersten Komponente gleichµ. Für die Verteilung der zweiten

Komponente erhalten wir

P [Y ∈ C] = P [S × C] =

S

µ(dx) p(x, C) ∀ C ∈ T .

Definition. Die durch

(µp)[C] :=

∫µ(dx) p(x, C), CinT ,

definierte Wahrscheinlichkeitsverteilung auf(T,T ) heißtMischungder Wahrscheinlichkeitsver-

teilungenp(x, •) bezüglichµ.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 291: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.1. MEHRSTUFIGE MODELLE 291

Wie gerade gezeigt, istµp = P Y −1 die Verteilung der zweiten Komponente im zweistufigen

Modell.

Bemerkung. SindS undT abzählbar, dann sindµ ⊗ p undµp die schon in Abschnitt 2.3 be-

trachteten Wahrscheinlichkeitsverteilungen mit Gewichten

(µ⊗ p)(x, y) = µ(x) p(x, y),

(µp)(y) =∑

x∈Sµ(x) p(x, y).

Die Massenfunktionen vonµ ⊗ p undµp sind also das Tensor- bzw. Matrixprodukt des Zeilen-

vektorsµ und der stochastischen Matrixp.

Wichtige Spezialfälle

Produktmaße: Ist p(x, •) ≡ ν eine feste (vonx unabhängige) Wahrscheinlichkeitsverteilung

auf (T,T ), dann istµ⊗ p das Produktµ⊗ ν der Wahrscheinlichkeitsverteilungenµ undν. Der

Satz von Fubini liefert also die Existenz des Produktmaßes,und die schon mehrfach verwendete

Berechnungsformel∫f d(µ⊗ ν) =

S

(∫

T

f(x, y) ν(dy)

)µ(dx) (9.1.3)

für die Integrale nicht-negativer oder integrierbarer messbarer Funktionen bzgl. des Produktma-

ßes. Die Integrationsreihenfolge kann man in diesem Fall vertauschen, denn wegen

(µ⊗ ν)[B × C] = µ[B]ν[C] für alle B ∈ S, C ∈ T (9.1.4)

gilt (ν ⊗ µ) R−1 = µ⊗ ν, wobeiR(x, y) = (y, x), und damit nach dem Transformationssatz:∫ (∫

f(x, y) µ(dx)

)ν(dy)

Fub.=

∫f R d(ν ⊗ µ)

=

∫f d(µ⊗ ν)

Fub.=

∫ (∫f(x, y) ν(dy)

)µ(dx).

Durch wiederholte Anwendung dieses Arguments erhalten wirzudem:

Korollar 9.2. Seien(Si,Si, µi) Wahrscheinlichkeitsräume(1 ≤ i ≤ n). Dann existiert eine

eindeutige Wahrscheinlichkeitsverteilungµ1 ⊗ ...⊗ µn auf (S1 × ...× Sn,S1 ⊗ ...⊗ Sn) mit:

(µ1 ⊗ ...⊗ µn) [B1 × ...×Bn] =n∏

i=1

µi[Bi] für alleBi ∈ Si (1 ≤ i ≤ n).

Universität Bonn Wintersemester 2009/2010

Page 292: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

292 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Für alle produktmessbaren Funktionenf : S1 × ...× Sn → [0,∞) gilt:∫f d(µ1 ⊗ ...⊗ µn) =

∫...

(∫f(x1, ..., xn)µn(dxn)

)...µ1(dx1),

wobei die Integration auch in beliebiger anderer Reihenfolge ausgeführt werden kann.

Beweis.Die Existenz folgt durch wiederholte Anwendung des Satzes von Fubini, die Eindeutig-

keit aus dem Eindeutigkeitssatz. Dass die Integrationsreihenfolge vertauscht werden kann, zeigt

man ähnlich wie im oben betrachteten Falln = 2.

Deterministische Kopplung: Gilt p(x, •) = δf(x) für eine messbare Funktionf : S → T , dann

folgt (µ⊗ p)[(x, y) | y = f(x)] = 1. Die zweite Komponente ist also durch die erste Kompo-

nente mit Wahrscheinlichkeit1 eindeutig festgelegt. Die Verteilung der zweiten Komponente ist

in diesem Fall das Bild vonµ unterf :

µp = µ f−1.

Übergangskerne von Markovschen Ketten: Gilt S = T , dann können wirp(x, dy) als Über-

gangswahrscheinlichkeit (Bewegungsgesetz) einer Markovkette auf(S,S) auffassen. In Analogie

zum diskreten Fall definieren wir:

Definition. Eine Wahrscheinlichkeitsverteilungµ auf (S,S) heißt Gleichgewicht (stationäre

oder auch invariante Verteilung)vonp, fallsµp = µ gilt, d.h. falls∫µ(dx)p(x,B) = µ[B] für alle B ∈ S.

Beispiel (Autoregressiver Prozess). Der AR(1)-Prozess mit Parameternε, α ∈ R ist eine Mar-

kovkette mit Übergangskernp(x, •) = N(αx, ε2). Die NormalverteilungN(0, ε2

1−α2

)ist für

α ∈ (0, 1) ein Gleichgewicht. Fürα ≥ 1 existiert kein Gleichgewicht.

Bedingte Dichten und Bayessche Formel

Wir betrachten nun Situationen mit nichttrivialer Abhängigkeit zwischen den Komponenten im

kontinuierlichen Fall. SeienX : Ω → Rn undY : Ω → Rm Zufallsvariablen auf einem Wahr-

scheinlichkeitsraum(Ω,A, P ), deren gemeinsame Verteilung absolutstetig ist mit DichtefX,Y ,

d.h.

P [x ∈ B, Y ∈ C] =

B

C

fX,Y (x, y) dy dx für alleB ∈ B(Rn), C ∈ B(Rm).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 293: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.1. MEHRSTUFIGE MODELLE 293

1

2

−1

−2

500 1000

Abbildung 9.1: Simulation einer Trajektorie eines AR(1)-Prozesses mit Parameternα = 0.8 und

ε2 = 1.5.

Nach dem Satz von Fubini sind dann auch die Verteilungen vonX undY absolutstetig mit dichten

fX(x) =

Rm

fX,Y (x, y) dy

und

fY (x) =

Rn

fX,Y (x, y) dx.

Obwohl bedingte Wahrscheinlichkeiten gegebenY = y nicht im herkömmlichen Sinn definiert

werden können, da das EreignisY = y eine Nullmenge ist, können wir die bedingte Dichte

und die bedingte Verteilung vonX gegebenY in diesem Fall sinnvoll definieren. Anschaulich

beträgt die Wahrscheinlichkeit, dass der WertX in einem infinitesimal kleinen Volumenelement

dx liegt, gegeben, dass der Wert vonY in einem entsprechenden infinitesimalen Volumenelement

dy liegt:

P [X ∈ dx|Y ∈ dy] =P [X ∈ dx, Y ∈ dy]

P [Y ∈ dy]=

fX,Y (x, y) dx dy

fY (y) dy

=fX,Y (x, y)

fY (y)dx

Diese heuristische Überlegung motiviert die folgende Definition:

Definition. Die FunktionfX|Y : Rn × Rm → [0,∞] mit

fX|Y =

fX,Y (x, y)

fY (y)falls fY (y) 6= 0

fX(x) falls fY (y) = 0

Universität Bonn Wintersemester 2009/2010

Page 294: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

294 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

heißtbedingte Dichte vonX gegebenY , und die vony abhängende Wahrscheinlichkeitsvertei-

lung

µX|Y (y,B) :=

B

fX|Y (x, y) dx, für B ∈ B(Rn),

heißtbedingte Verteilung vonX gegebenY .

Bemerkung. (1). Für festesy ist die bedingte Dichte eine Wahrscheinlichkeitsdichte auf Rn.

Da fX|Y produktmessbar ist, ist die bedingte VerteilungµX|Y nach dem Satz von Fubini

einstochastischer KernvonRm nachRn.

(2). Auf der Nullmengey ∈ Rm|fY (y) = 0 sindfX|Y (x|y) undµX|Y (y, dx) nicht eindeutig

festgelegt - die oben getroffene Definition über die unbedingte Dichte ist relativ willkürlich.

Aus der Definition der bedingten Dichte ergibt sich unmittelbar eine Variante der Bayesschen

Formel für absolutstetige Zufallsvariablen:

Satz 9.3(Bayessche Formel). Für (x, y) ∈ Rn × Rm mit fX(x) > 0 undfY (y) > 0 gilt

fX|Y (x|y) =fX(x)fY |X(y|x)∫

Rn

fX(x)fY |X(y|x) dx.

Beweis.Aus der Definition folgt

fX|Y (x|y) =fX,Y (x, y)

fY (y)=

fX,Y (x, y)∫Rn

fX,Y (x, y) dx,

und damit die Behauptung.

In Modellen der Bayesschen Statistik interpretiert manfX(x) als Dichte dera priori angenom-

menen Verteilung eines unbekannten ParametersX, undfY |X(y|x) als Maß für die Plausibilität

(„Likelihood“) des Parameterwertesx, wenn der Werty der ZufallsgrößeY beobachtet wird. Die

Bayessche Formel besagt dann, dass die Verteilung vonX, von der mana posteriori(d.h. nach

der Beobachtung vony) ausgeht, die Dichte

fX|Y (x|y) = const.(y) · fX(x) · fY |X(y|x)A posteriori Dichte ∝ A priori Dichte × Likelihood

hat. Trotz der einfachen Form der Bayesschen Formel ist es im Allgemeinen nicht trivial, Stich-

proben von der A-posteriori-Verteilung zu simulieren, undErwartungswerte numerisch zu be-

rechnen. Problematisch ist u.A., dass die Berechnung der Normierungskonstanten die Auswer-

tung eines (häufig hochdimensionalen) Integrals erfordert. Ein wichtiges Verfahren zur Simulati-

on von Stichproben in diesem Zusammenhang ist der Gibbs-Sampler.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 295: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.1. MEHRSTUFIGE MODELLE 295

SindX undY gemeinsam normalverteilt, dann kann man die wichtigsten Erwartungswerte bzgl.

der A-posteriori-Verteilung im Prinzip exakt berechnen. Wir demonstrieren dies nun in einem

grundlegenden Beispiel eines zweistufigen Modells. Ähnliche Modelle treten in zahlreichen An-

wendungen auf.

Beispiel(Signalverarbeitung). SeiS = T = R1, also

S × T = R2 = (x, y) | x, y ∈ R.

Wir interpretieren die erste Komponentex als Größe eines nicht direkt beobachtbaren Signals,

und die zweite Komponentey als verrauschte Beobachtung vonx. In einem einfachen Bayes-

schen Modell nimmt man z.B. a priori an, dass Signal und Beobachtung normalverteilt sind:

Signal x ∼ N(0, v) , v > 0,

Beobachtung y ∼ N(x, ε) , ε > 0.

Die Verteilung der ersten Komponente und der Übergangskernzur zweiten Komponente sind

dann:

µ(dx) = fX(x) λ(dx)

p(x, dy) = fY |X(y|x) λ(dy)

mit den Dichten

fX(x) :=1√2πv

e−x2

2v (Dichte der Verteilung der ersten KomponenteX),

fY |X(y|x) :=1√2πε

e−(y−x)2

2ε (bedingte Dichte der zweiten KomponenteY gegebenX = x).

Die gemeinsame Verteilung von Signal und Beobachtungswert ist

(µ⊗ p)(dxdy) = µ(dx) p(x, dy)

=1

2π√vε

exp

(−(ε+ v)x2 − 2vxy + vy2

2vε

)λ(dx)λ(dy)

=1

2π√detC

exp

(−1

2

(x

y

)· C−1

(x

y

))λ2(dx dy).

D.h.µ⊗ p ist eine zweidimensionale Normalverteilung mit Kovarianzmatrix

C =

(v v

v v + ε

).

Universität Bonn Wintersemester 2009/2010

Page 296: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

296 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Mit anderen Worten: Die gemeinsame Verteilung vonX undY ist absolutstetig bzgl. des zwei-

dimensionalen Lebesguemaßes mit Dichte

fX,Y (x, y) = fX(x)fY |X(y|x) =1

2π√detC

exp

−1

2

(x

y

)⊤

· C−1

(x

y

) .

Als Dichte der Verteilungµp vonY ergibt sich:

fY (y) =

∫fX,Y (x, y) dx.

Nach der Bayesschen Formel erhalten wir für die A-posterioridichte des Signals gegeben die

Beobachtungy:

fX|Y (x|y) :=fX,Y (x, y)

fY (y)

=fX(x)fY |X(y|x)∫

fX(x)fY |X(y|x) λ(dx)(9.1.5)

= const(y) · exp(−ε+ v

2vε(x− v

v + εy)2).

Die bedingte Verteilung des Signals gegeben die Beobachtungist alsoN(x, u), wobei

x =v

v + εy der Prognosewert ist, und

u =vε

v + ε=

(1

v+

1

ε

)−1

die Varianz der Prognose.

In einem Bayesschen Modell würden wir also nach der Beobachtung mit einer Standardabwei-

chungσ =√u prognostizieren, dass der Signalwert gleichx ist.

Ähnliche Modellierungsansätze werden auch in viel allgemeinerem Kontext verwendet. Bei-

spielsweise wird in stochastischen Filterproblemen das Signal durch eine Markovkette (oder

einen zeitstetigen Markovprozess) beschrieben, und die Folge der Beobachtungen durch einen

von der Markovkette angetriebenen stochastischen Prozess. Sind alle gemeinsamen Verteilun-

gen Gaußsch, dann kann man auch hier die a posteriori Verteilung im Prinzip exakt berechnen –

andernfalls muss man auf numerische Näherungsmethoden (z.B. Partikelfilter) zurückgreifen.

9.2 Summen unabhängiger Zufallsvariablen, Faltung

SeienX undY unabhängige reellwertige Zufallsvariablen auf(Ω,A, P ) mit Verteilungenµ bzw.

ν. Wir wollen die Verteilung vonX + Y bestimmen. Für diskrete Zufallsvariablen ergibt sich:

P [X + Y = z] =∑

x∈X(Ω)

P [X = x, Y = z − x]︸ ︷︷ ︸=P [X=x]·P [Y=z−x]

=∑

x∈X(Ω)

µ(x)ν(z − x) (9.2.1)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 297: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG 297

Die Wahrscheinlichkeitsverteilung mit Massenfunktion

(µ ⋆ ν)(z) =∑

x∈X(Ω)

µ(x)ν(z − x)

heißt Faltung vonµ undν. Eine entsprechende Aussage erhält man auch im allgemeinenFall:

Verteilungen von Summen unabhängiger Zufallsvariablen

Satz 9.4.SeienX undY unabhängige reellwertige Zufallsvariablen mit Verteilungenµ bzw.ν.

Dann ist die Verteilung vonX + Y die durch

(µ ⋆ ν)[B] :=

∫µ(dx) ν[B − x] , B ∈ B(R),

definierteFaltung der Wahrscheinlichkeitsverteilungenµ undν.

Beweis.Sei B := (x, y) | x + y ∈ B. DaX undY unabhängig sind, erhalten wir mit dem

Satz von Fubini

P [X + Y ∈ B] = P [(X, Y ) ∈ B] = (µ⊗ ν)[B]

Fubini=

∫µ(dx)

∫ν(dy)IB(x+ y)︸ ︷︷ ︸

=IB−x(y)

=

∫µ(dx) ν[B − x].

Bemerkung. Die Faltungµ⋆ν zweier Wahrscheinlichkeitsverteilungenµ undν aufR1 ist wieder

eine Wahrscheinlichkeitsverteilung aufR1. Da die Addition von Zufallsvariablen kommutativ

und assoziativ ist, hat die Faltung von Wahrscheinlichkeitsverteilungen nach Satz 9.4 dieselben

Eigenschaften:

µ ⋆ ν = ν ⋆ µ (daX + Y = Y +X) (9.2.2)

(µ ⋆ ν) ⋆ η = µ ⋆ (ν ⋆ η) (da(X + Y ) + Z = X + (Y + Z) ). (9.2.3)

Im diskreten Fall istµ ⋆ ν nach (9.2.2) die Wahrscheinlichkeitsverteilung mit Gewichten

(µ ⋆ ν)(z) =∑

x

µ(x)ν(z − x).

Eine entsprechende Berechnungsformel ergibt sich auch für absolutstetige Wahrscheinlichkeits-

verteilungen:

Universität Bonn Wintersemester 2009/2010

Page 298: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

298 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Lemma 9.5. Ist ν absolutstetig mit Dichteg, dann ist auchµ ⋆ ν absolutstetig mit Dichte

(z) =

∫µ(dx) g(z − x).

Ist zusätzlich auchµ absolutstetig mit Dichtef , dann gilt

(z) =

R

f(x) g(z − x) dx =: (f ⋆ g)(z)

Beweis.Wegen der Translationsinvarianz des Lebesguemaßes gilt

(µ ⋆ ν)[B] =

∫µ(dx)ν[B − x] =

∫µ(dx)

B−x

g(y)dy

︸ ︷︷ ︸=∫B g(z−x)dz

Fub.=

B

(∫µ(dx)g(z − x)

)dz .

Also istµ ⋆ ν absolutstetig mit Dichte. Die zweite Behauptung folgt unmittelbar.

Beispiel. (1). SindX undY unabhängig, undBin(n, p) bzw.Bin(m, p)-verteilt, dann istX+Y

eineBin(n +m, p)-verteilte Zufallsvariable. Zum Beweis bemerkt man, dass die gemein-

same Verteilung vonX und Y mit der gemeinsamen Verteilung vonZ1 + ... + Zn und

Zn+1 + ... + Zn+m übereinstimmt, wobei die ZufallsvariablenZi (1 ≤ i ≤ n +m) unab-

hängig undBernoulli(p)-verteilt sind. Also folgt:

µX+Y = µZ1+...+Zn+Zn+1+...+Zn+m = Bin(n+m, p) .

Als Konsequenz erhalten wir (ohne zu rechnen):

Bin(n, p) ⋆ Bin(m, p) = Bin(n+m, p) ,

d.h. die Binomialverteilungen bilden eineFaltungshalbgruppe. Explizit ergibt sich:

l∑

k=0

(n

k

)pk(1− p)n−k

(m

l − k

)pl−k(1− p)m−(l−k) =

(n+m

l

)pl(1− p)n+m−l ,

d.h.l∑

k=0

(n

k

)(m

l − k

)=

(n+m

l

). (9.2.4)

Die kombinatorische Formel (9.2.4) ist auch alsVandermonde-Identitätbekannt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 299: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.2. SUMMEN UNABHÄNGIGER ZUFALLSVARIABLEN, FALTUNG 299

(2). SindX undY unabhängig und Poisson-verteilt mit Parameternλ bzw. λ, dann istX + Y

Poisson-verteilt mit Parameterλ+ λ, denn nach der Binomischen Formel gilt fürn ≥ 0:

(µX ⋆ µY )(n) =n∑

k=0

µX(k) · µY (n− k)

=n∑

k=0

λk

k!e−λ · λn−k

(n− k)!e−λ

= e−λ+λ ·n∑

k=0

λk

k!

λn−k

(n− k)!

= e−λ+λ · (λ+ λ)n

n!.

Also bilden auch die Poissonverteilungen eine Faltungshalbgruppe:

Poisson(λ) ⋆ Poisson(λ) = Poisson(λ+ λ)

(3). SindX undY unabhängig und normalverteilt mit Parametern(m,σ2) bzw. (m, σ2), dann

istX + Y normalverteilt mit Parametern(m+ m, σ2 + σ2), siehe??. Dies verifiziert man

leicht mithilfe der charakteristischen Funktionen. Die Normalverteilungen bilden also eine

zweiparametrige Faltungshalbgruppe.

Wartezeiten, Gamma-Verteilung

SeienT1, T2, ... sukzessive Wartezeiten auf das Eintreten eines unvorhersehbaren Ereignisses. In

einem einfachen Modell nehmen wir an, dass dieTi (i ∈ N) unabhängige exponentialverteilte

Zufallsvariablen sind, d.h. die Verteilungen derTi sind absolutstetig mit Dichte

f(t) = λ · e−λt · I(0,∞)(t) .

Die Verteilung der Gesamtwartezeit

Sn = T1 + ...+ Tn

bis zumn-ten Ereignis ist dann

µSn = µT1 ⋆ µT2 ⋆ ... ⋆ µTn .

Insbesondere ist die Verteilung vonS2 absolutstetig mit Dichte

(f ⋆ f)(s) =

R

f(x)︸︷︷︸=0

fur x<0

f(s− x)︸ ︷︷ ︸=0

fur x>s

=

∫ s

0

λ2e−λxe−λ(s−x)dx = λ2e−λs

∫ s

0

dx = λ2se−λs

für s ≥ 0, bzw.(f ⋆ f)(s) = 0 für s < 0. Durch Induktion ergibt sich allgemein:

Universität Bonn Wintersemester 2009/2010

Page 300: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

300 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Lemma 9.6. Die Verteilung vonSn ist absolutstetig mit Dichte

fλ,n(s) =λn

Γ(n)· sn−1 · e−λs · I(0,∞)(s) ,

wobei

Γ(n) :=

∫ ∞

0

tn−1 e−t dxn∈N= (n− 1)! .

Definition. Die Wahrscheinlichkeitsverteilung aufR+ mit Dichtefλ,n heißtGammaverteilung

mit Parameternλ, n ∈ (0,∞).

1

1 2 3 4

Abbildung 9.2: Dichtefunktionen der GammaverteilungΓ1,n für verschiedenen.

Die Gammaverteilung ist auch für nicht-ganzzahligen definiert,Γ ist dann die Eulersche Gam-

mafunktion. Fürn = 1 ergibt sich die Exponentialverteilung als Spezialfall derGammavertei-

lung. Allgemein gilt:

Γ(λ, r) ⋆ Γ(λ, s) = Γ(λ, r + s) ,

d.h. die Gammaverteilungen mit festem Parameterλ bilden eine Faltungshalbgruppe.

Durch Anwenden des zentralen Grenzwertsatzes auf die ZufallsvariableSn erhalten wir:

Korollar 9.7 (Normalapproximation der Gammaverteilungen). Sei λ > 0. Dann gilt für

Γ(λ, n) verteilte ZufallsvariablenSn:

n−1/2 ·(Sn − nλ−1

) D→ N(0, λ−2) für n→ ∞.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 301: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 301

Bemerkung (Poissonprozess). Die Anzahl der bis zur Zeitt ≥ 0 eingetretenen Ereignisse im

obigen Modell ist

Nt = maxn ≥ 0 | Sn ≤ t .

Die ZufallsvariablenNt sind Poissonverteilt mit Parameterλ · t (Übung). Die KollektionNt (t ≥0) der Zufallsvariablen heißtPoissonprozess mit Intensitätλ. Der Poissonprozess ist ein mo-

noton wachsender stochastischer Prozess mit ganzzahligenWerten. Er ist selbst eine zeitstetige

Markovkette und ist von grundlegender Bedeutung für die Konstruktion allgemeiner Markov-

ketten in kontinuierlicher Zeit. Wir werden den Poissonprozess in der Vorlesung „Stochastische

Prozesse“ genauer betrachten.

9.3 Transformationen, Gaußmodelle und Parameterschätzung

Der Dichtetransformationssatz

Allgemein gibt es zwei ganz verschiedene Arten, eine Wahrscheinlichkeitsverteilungµ(dx) zu

transformieren:

(1). Koordinatentransformation: y = φ(x), µ(dx) → µ φ−1(dy)

(2). Maßwechsel durch Dichte: µ(dx) → (x)µ(dx).

In bestimmten regulären Fällen lassen sich beide Transformationen in Beziehung setzen: Ein

Koordinatenwechsel hat denselben Effekt wie eine absolutstetige Maßtransformation mit einer

geeigneten Dichte. Wir demonstrieren dies hier im Fall absolutstetiger Verteilungen imRd. Die

entsprechende Koordinatentransformationsformel verwenden wir dann, um multivariate Normal-

verteilungen, und verschiedene für die Statistik zentraleVerteilungen zu untersuchen.

SeienS, T ⊆ Rn offen, und seiX : Ω → S eine Zufallsvariable auf einem Wahrscheinlichkeits-

raum(Ω,A, P ) mit absolutstetiger VerteilungµX mit DichtefX .

Satz 9.8(Mehrdimensionaler Dichtetransformationssatz). Ist φ : S → T ein Diffeomorphis-

mus (C1) mit detDφ(x) 6= 0 für alle x ∈ S, dann ist die Verteilung vonφ(X) absolutstetig mit

Dichte

fφ(X)(y) = fX(φ−1(y)) · | detDφ−1(y)|,

wobeidetDφ−1(y) = det(∂xi

∂yj) die Jacobideterminante der Koordinatentransformation ist.

Universität Bonn Wintersemester 2009/2010

Page 302: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

302 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Beweis.Die Behauptung folgt aus dem Transformationssatz der multivariaten Analysis:

P [φ(X) ∈ B] = P [X ∈ φ−1(B)]

=

φ−1(B)

fX(x) dxSubst.=

B

fX(φ−1(y)) · | detDφ−1(y)| dy .

Beispiel (Sukzessive Wartezeiten). SeienT und T unabhängige, zum Parameterλ > 0 expo-

nentialverteilte Zufallsvariablen (z.B. sukzessive Wartezeiten), und seiS = T + T . Nach dem

Dichtetransformationssatz gilt dann

fT,S(t, s) = fT,T (t, s− t) · | det ∂(t, s− t)

∂(t, s)|

∝ e−λt · I(0,∞)(t) · e−λ(s−t) · I(0,∞)(s− t)

= e−λs · I(0,s)(t).

Somit ist die bedingte DichtefS|T (s|t) für festest > 0 proportional zue−λs · I(t,∞)(s). Dies ist

auch anschaulich sofort plausibel, das eine um die unabhängige ZufallsvariableT verschobene

exponentialverteilte Zufallsvariable ist.

Interessanter ist die Berechnung der bedingten Dichte vonT gegebenS: Für festess > 0 ist

fT |S(t|s) proportional zuI(0,s)(t), d.h.

fT |S(t|s) =1

s· I(0,s)(t).

Gegeben die SummeS der beiden Wartezeiten ist die erste WartezeitT also gleichverteilt auf

[0, S]!

Wir betrachten nun verschiedene weiterreichende Anwendungen des Dichtetransformationssat-

zes.

Multivariate Normalverteilungen und multivariater ZGS

SeiZ = (Z1, Z2, ..., Zd) mit unabhängigen,N(0, 1)-verteilten ZufallsvariablenZi. Die Vertei-

lung des ZufallsvektorsZ ist dann absolutstetig bzgl. des Lebesguemaßes imRd mit Dichte

fZ(x) =d∏

i=1

1√2π

e−x2i2 = (2π)−

d2 e−

|x|22 (d-dimensionale Standardnormalverteilung).

Sei nunm ∈ Rd undσ ∈ Rd×d eined× d-Matrix. Wir betrachten den Zufallsvektor

Y = σZ +m .

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 303: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 303

Wir zeigen zunächst, dassY Erwartungswertm und KovarianzmatrixC = σσT hat, und berech-

nen die charakteristische Funktion:Erwartungswert: E[Yi] =∑d

k=1 σikE[Zk] + mi = mi

.

Kovarianz: Cov(Yi, Yj) = Cov(∑

k σikZk +mi,∑

l σjlZl +mj)

=∑

k,l σikσjl · Cov(Zk, Zl) =∑

k σikσjk = Cij.

Charakteristische Funktion: Für einen Vektorp ∈ Rd gilt

ϕY (p) := E[eip·Y

]= E

[ei(σ

T p)·Z]eip·m = e−

12|σT p|2+ip·m

= e−12p·Cp+ip·m . (9.3.1)

Ist σ regulär, dann können wir die Dichte der Verteilung vonY sofort mithilfe des Transforma-

tionssatzes explizit berechnen:

fY (y) = fX(σ−1(y −m)) · | det σ−1|

=1√

(2π)d| detC|exp

(−1

2(y −m)C−1(y −m)

).

Auch imRd ist eine Wahrscheinlichkeitsverteilung durch ihre charakteristische Funktion eindeu-

tig festgelegt, s. z.B. Bauer: Wahrscheinlichkeitstheorie.Allgemein (also auch für nicht reguläre

σ) können wir die Verteilung vonY auch über die Fourierinversionsformel berechnen.

Definition. Seim ∈ Rd undC ∈ Rd×d eine symmetrische, nicht-negativ definite Matrix. Die

VerteilungN(m,C) im Rd mit charakteristischer FunktionφY = exp(−12pCp + ipm) heißt

d-dimensionale Normalverteilungmit Mittelm und KovarianzmatrixC.

Bemerkung/Übung. Mithilfe von charakteristischen Funktionen beweist man die folgenden

Transformationsformeln und Charakterisierungen für multivariate Normalverteilungen:

(1). Füra ∈ Rk undA ∈ Rk×d gilt

X ∼ N(m,C) ⇒ AX + a ∼ N(Am+ a,ACAT ).

(2). Folgende Aussagen sind äquivalent:

• X ∼ N(0, C) ist multivariat normalverteilt mit KovarianzmatrixC.

• p ·X ∼ N(0, p · Cp) ∀ p ∈ Rd.

Auch imRd gilt ein zentraler Grenzwertsatz :

Universität Bonn Wintersemester 2009/2010

Page 304: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

304 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Satz 9.9(Multivariater zentraler Grenzwertsatz ). SeienX1, X2, ... : Ω → Rd unabhängige,

identisch verteilte, quadratintegrierbare Zufallsvektoren auf(Ω,A, P ), und seiSn = X1 + . . .+

Xn. Dann giltSn − E[Sn]√

n

D−→ Z ∼ N(0, C),

wobeiCjk = Cov(X1,j , X1,k) die Kovarianzmatrix der ZufallsvektorenXi ist.

Der Beweis basiert auf folgender Charakterisierung der schwachen Konvergenz von Zufallsvek-

toren:

Lemma 9.10(Cramér-Wold Device). Für ZufallsvariablenY, Y1, Y2, ... : Ω → Rd gilt:

YnD−→ Y ⇔ p · Yn D−→ p · Y ∀ p ∈ Rd.

Beweisskizze.Die Richtung „⇒“ ist klar, daY 7→ p · Y stetig ist. Umgekehrt gilt:

p · Yn D−→ p · Y ⇒ E[exp(ip · Yn)] → E[exp(ip · Y )] ∀ p ∈ Rd.

Mit einem ähnlichen Beweis wie imR1 folgt dann aus der Konvergenz der charakteristischen

Funktionen die schwache KonvergenzYnD−→ Y . Um die relative Kompaktheit zu zeigen (Satz

von Helly-Bray), verwendet man dabei imRd die multivariaten Verteilungsfunktionen

Fn(x1, ..., xd) := P [Yn,1 ≤ x1, ..., Yn,d ≤ xd], (x1, . . . , xd) ∈ Rd.

Wir beweisen nun den zentralen Grenzwertsatz:

Beweis.Fürp ∈ Rd gilt nach dem eindimensionalen zentralen Grenzwertsatz:

p ·(Sn − E[Sn]√

n

)=

1√n

n∑

i=1

(p ·Xi − E[p ·Xi])

D−→ N (0,Var[p ·X1]) = N(0, p · Cp),

da

Var[p ·X1] = Cov

[∑

k

pkX1,k ,∑

l

pkX1,l

]=∑

k,l

pkplCkl = p · Cp.

IstY einN(0, C)-verteilter Zufallsvektor, dann istN(0, p ·Cp) die Verteilung vonp ·Y . Mithilfe

der Cramér-Wold Device folgt also

(Sn − E[Sn])/√n

D→ Y.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 305: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 305

Beispiel (Vom Random Walk zur Brownschen Bewegung). SeiSn = X1 + ... + Xn, wobei

dieXi unabhängige Zufallsvariablen mit

E[Xi] = 0 und Var[Xi] = 1

sind. Beispielsweise istSn ein klassischer Random Walk. Um einen stochastischen Prozess in

kontinuierlicher Zeit zu erhalten, interpolieren wirn 7→ Sn linear. Anschließend reskalieren wir

in Raum und Zeit, und setzen

S(n)t :=

1√nSnt, t ∈ R+.

GRAPHIK SKALIERTER RANDOM WALK

Aus dem Zentralen Grenzwertsatz folgt:

S(n)t =

√t

1√nt

SntD−→ ∼ N(0, t) für jedes festet ∈ R+,

d.h. die eindimensionalen Randverteilungen der ProzesseS(n) = (S(n)t )t≥0 konvergieren. Allge-

meiner zeigt man mithilfe des multivariaten zentralen Grenzwertsatzes, dass auch endlich dimen-

sionale Randverteilungen schwach konvergieren:(S(n)t1 , S

(n)t2 , ..., S

(n)tk

)D−→ (Bt1 , ..., Btk) , für alle0 ≤ t1 < t2 < . . . < tk, k ∈ N,

wobei(Bt1 , ..., Btk) multivariat normalverteilt ist mit

E[Btj ] = 0 und Cov[Btj , Btk ] = min(tj, tk).

Eine noch allgemeinere Aussage erhält man mithilfe einesfunktionalen zentralen Grenzwert-

satzes(Invarianzprinzip von Donsker, ZGS auf dem BanachraumC([0, 1],R)): Der gesamte

stochastische Prozess(S(n)t )0≤t≤1 konvergiert in Verteilung gegen eineBrownsche Bewegung

(Bt)0≤t≤1. Mehr dazu in den weiterführenden Vorlesungen »Stochastische Prozesse« und »Grund-

züge der stochastischen Analysis«.

Wir betrachten noch eine weitere Anwendung des Dichtetransformationssatzes auf Normalver-

teilungen.

Beispiel(χ2-Verteilungen). Wir berechnen nun die Verteilung vom Quadrat des Abstandes vom

Ursprung eines standardnormalverteilten Zufallsvektorsim Rd:

Z = (Z1, ..., Zd) ∼ N(0, Id), ‖Z‖2 =d∑

i=1

Z2i .

Universität Bonn Wintersemester 2009/2010

Page 306: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

306 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Wegenf|Zi|(x) = 2√2πe−

x2

2 · I(0,∞)(x) folgt durch Anwenden des Dichtetransformationssatzes

mit Y = φ(x) := x2:

fZ2i(y) =

√2

πe−

y2 · I(0,∞)(y) ·

1

2√y,

d.h.Z2i ist Γ(1

2, 12)-verteilt. Da die ZufallsvariablenZ2

i , 1 ≤ i ≤ d, unabhängig sind, folgt:

||Z||2 =d∑

i=1

Z2i ∼ Γ

(1

2,d

2

).

Definition. Die Gamma-Verteilung mit Parametern12

und d2

heißt auchChiquadrat-Verteilung

χ2(d) mit d Freiheitsgraden.

Parameterschätzung im Gaußmodell

Angenommen, wir beobachten reellwertige Messwerte (Stichproben, Daten), die von einer unbe-

kannten Wahrscheinlichkeitsverteilungµ aufR stammen. Ziel der Statistik ist es, Rückschlüsse

auf die zugrundeliegende Verteilung aus den Daten zu erhalten. Im einfachsten Modell (Gauß-

modell) nimmt man an, dass die Daten unabhängige Stichproben von einer Normalverteilung mit

unbekanntem Mittelwert und/oder Varianz sind:

µ = N(m, v), m, v unbekannt.

Eine partielle Rechtfertigung für die Normalverteilungsannahme liefert der zentrale Grenzwert-

satz. Letztendlich muss man aber in jedem Fall überprüfen, ob eine solche Annahme gerechtfer-

tigt ist.Ein erstes Ziel ist es nun, den Wert vonm auf der Basis vonn unabhängigen Stichproben

X1(ω) = x1, . . . , Xn(ω) = xn zu schätzen, und zu quantifizieren.

Problemstellung: Schätzung des Erwartungswerts

• Schätzem auf der Basis vonn unabhängigen StichprobenX1(ω), ..., Xn(ω) vonµ.

• Herleitung von Konfidenzintervallen.

Im mathematischen Modell interpretieren wir die Beobachtungswerte als Realisierungen von un-

abhängigen ZufallsvariablenX1, . . . , Xn. Da wir die tatsächliche Verteilung nicht kennen, unter-

suchen wir alle in Betracht gezogenen Verteilungen simultan:

X1, . . . , Xn ∼ N(m, v) unabhängig unterPm,v. (9.3.2)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 307: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 307

Ein naheliegender Schätzer fürm ist derempirische Mittelwert

Xn(ω) :=X1(ω) + ...+Xn(ω)

n.

Wir haben oben bereits gezeigt, dass dieser Schätzererwartungstreu (unbiassed)undkonsistent

ist, d.h. für allem, v gilt:

Em,v[Xn] = m

und

Xn → m Pm,v-stochastisch fürn→ ∞.

Wie wir den Schätzfehler quantifizieren hängt davon ab, ob wir die Varianz kennen.

Schätzung vonm bei bekannter Varianz v.

Um den Schätzfehler zu kontrollieren, berechnen wir die Verteilung vonXn:

Xi ∼ N(m, v) unabh. ⇒ X1 + ...+Xn ∼ N(nm, nv)

⇒ Xn ∼ N(m,v

n)

⇒ Xn −m√v/n

∼ N(0, 1)

BezeichnetΦ die Verteilungsfunktion der Standardnormalverteilung, dann erhalten wir

Pm,v

[|Xn −m| < q

√v

n

]= N(0, 1)(−q, q) = 2

(Φ(q)− 1

2

)für allem ∈ R.

Satz 9.11.Im Gaußmodell (9.3.2) mit bekannter Varianzv ist das zufällige Intervall

(Xn − Φ−1(α)

√v

n, Xn + Φ−1(α)

√v

n

)

ein (2α− 1) · 100% Konfidenzintervallfür m, d.h.

Pm,v[m ∈ Intervall] ≥ 2α− 1 für allem ∈ R.

Man beachte, dass die Länge des Konfidenzintervalls in diesem Fall nicht von den beobachteten

Stichproben abhängt!

Schätzung vonm bei unbekannter Varianz v. In Anwendungen ist meistens die Varianz un-

bekannt. In diesem Fall können wir das Intervall oben nicht verwenden, da es von der unbe-

kannten Varianzv abhängt. Stattdessen schätzen wirm und v simultan, und konstruieren ein

Universität Bonn Wintersemester 2009/2010

Page 308: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

308 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Konfidenzintervall fürm mithilfe beider Schätzwerte. Erwartungstreue Schätzer für m und v

sind

Xn =1

n

n∑

i=1

Xi und Vn =1

n− 1

n∑

i=1

(Xi −Xn)2 .

Um ein Konfidenzintervall fürm zu erhalten, bestimmen wir mithilfe des Transformationssatzes

die gemeinsame Verteilung vonXn undVn:

Lemma 9.12.Xn undVn sind unabhängig unterPm,v mit Verteilung

Xn ∼ N(m,

v

n

),

n− 1

vVn ∼ χ2(n− 1) .

Beweis.Wir führen eine lineare KoordinatentransformationY = OX durch, wobeiO eine or-

thogonalen× n-Matrix vom Typ

O =

( 1√n... 1√

n

beliebig

)

ist. Eine solche Matrix erhalten wir durch Ergänzen des normierten Vektors( 1√n, ..., 1√

n) zu einer

Orthonormalbasis desRn. In den neuen Koordinaten gilt:

Xn =1

n

n∑

i=1

Xi =1√nY1, und

(n− 1)Vn =n∑

i=1

(Xi −Xn)2 =

n∑

i=1

X2i − nX

2

n = ||X||2Rn − nX2

n

O orthogonal= ||Y ||2Rn − Y 2

1 =n∑

i=2

Y 2i .

Da die ZufallsvariablenXi (1 ≤ i ≤ n) unabhängig undN(m, v)-verteilt sind, ist der Zufalls-

vektorX = (X1, ..., Xn) multivariat normalverteilt mit Mittel(m, . . . ,m) und Kovarianzmatrix

v · In. Nach dem Transformationssatz folgt

Y ∼ N

O

m...

m

, v ·OInOT

= N

m√n

0...

0

, v · In

.

Also sindY1, ..., Yn unabhängige Zufallsvariablen mit Verteilungen

Y1 ∼ N(m√n, v) , Yi ∼ N(0, v) für i ≥ 2.

Es folgt, dass

Xn =Y1√n

undn− 1

vVn =

n∑

i=2

(Yi√v

)2

unabhängige Zufallsvariablen mit VerteilungenN(m, vn) bzw.χ2(n− 1) sind.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 309: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 309

Bei bekannter Varianzv hatten wir Konfidenzintervalle fürm vom TypXn±q ·√

vn

erhalten, wo-

beiq ein geeignetes Quantil der Standardnormalverteilung ist.Daher liegt es nahe, zu versuchen,

bei unbekannter Varianz Konfidenzintervalle vom TypXn ± q ·√

Vn

nherzuleiten. Es gilt:

Pm,v

[|Xn −m| ≥ q

√Vnn

]= Pm,v[|Tn−1| ≥ q] mit

Tn−1 :=

√n · (Xn −m)√

Vn.

Die ZufallsvariableTn−1 heißt Studentschet-Statistik mit n − 1 Freiheitsgraden.1 Unsere

Überlegungen zeigen, dass wir aus Quantilen der Studentschen t-Statistik Konfidenzintervalle

für das Gaußmodell herleiten können. Wir müssen nur noch dieVerteilung vonTn berechnen:

Satz 9.13(Student2). Die Verteilung vonTn ist absolutstetig mit Dichte

fTn(t) = B

(1

2,n

2

)−1

· n−1/2 ·(1 +

t2

2

)−n/2

(t ∈ R).

»Studentschet-Verteilung mitn Freiheitsgraden«. Hierbei ist

B

(1

2,n

2

)=

1√n

∫ ∞

−∞(1 + s2)−

n2 ds

dieEulersche Beta-Funktion, die als Normierungsfaktor auftritt.

Insbesondere ist das zufällige Intervall

Xn ± q ·√Vnn

ein100 · (1− 2α)% Konfidenzintervall fürm, falls

q = F−1Tn−1

(1− α)

ein (1− α)-Quantil dert-Verteilung mitn− 1 Freiheitsgraden ist.

Beweis.Direkt oder mithilfe des Transformationssatzes zeigt man:SindZ undY unabhängige

Zufallsvariablen mit VerteilungenN(0, 1) bzw.χ2(n− 1), dann istZ/√

1n−1

Y absolutstetig mit

dichtefTn−1.

1In der Statistik bezeichnet man eine messbare Funktion der Beobachtungsdaten als Statistik - ein (Punkt-) Schät-

zer ist eine Statistik, die zum Schätzen eines unbekannten Parameters verwendet wird, ein Konfidenzintervall nennt

man auch Intervallschätzer.2Synonym von W. S. Gosset, der als Angestellter der Guiness-Brauerei nicht publizieren durfte.

Universität Bonn Wintersemester 2009/2010

Page 310: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

310 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Der Satz folgt dann nach Lemma 9.12 mit

Z :=Xn −m√

v/nund Y :=

n− 1

vVn .

Bemerkung(Nichtparametrische und Verteilungsunabhängige Konfidenzintervalle). In An-

wendungen ist es oft unklar, ob eine Normalverteilungsannahme an die Beobachtungswerte ge-

rechtfertigt ist. Zudem können einzelne größere Ausreißerin den Daten (z.B. aufgrund von Mess-

fehlern) das Stichprobenmittel relativ stark beeinflussen. Der Stichprobenmedian ist dagegen in

den meisten Fällen ein deutlich stabilerer Schätzwert für den Median der zugrundeliegenden

Verteilung, und die in Abschnitt 5.1 hergeleiteten, auf Ordnungsstatistiken basierenden, Konfi-

denzintervalle für den Median und andere Quantile werden ebenfalls in der Regel weniger stark

durch Ausreißer beeinflusst. Zudem gelten diese Konfidenzintervalle simultan für alle stetigen

Verteilungen. Ist man sich daher nicht sicher, ob eine Normalverteilungsannahme aufgrund der

Daten gerechtfertigt ist, empfiehlt es sich, auf die stabileren Ordnungsintervalle zurückzugreifen.

Beispiel. (NOCH EINZUFÜGEN)

Hypothesentests

In Anwendungen werden statistische Aussagen häufig nicht über Konfidenzintervalle, sondern

als Hypothesentest formuliert. Mathematisch passiert dabei nichts wirklich Neues – es handelt

sich nur um eine durch praktische Erwägungen motivierte Umformulierung derselben Resultate:

Angenommen, wir habenn unabhängige reellwertige StichprobenX1, ..., Xn von einer unbe-

kannten Verteilung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus

einer Familieµθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt, z.B. der Familie aller

Normalverteilungenµm,v, θ = (m, v) ∈ R × R+. Die gemeinsame Verteilung vonX1, . . . , Xn

ist dann das Produktmaßµnθ =

n⊗i=1

µθ. Sei nunΘ0 eine Teilmenge des Parameterbereichs. Wir

wollen entscheiden zwischen der

NullhypotheseH0: »θ ∈ Θ0«

und der

AlternativeH1: »θ 6∈ Θ0«

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 311: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

9.3. TRANSFORMATIONEN, GAUSSMODELLE UND PARAMETERSCHÄTZUNG 311

Ein Hypothesentestfür ein solches Problem ist bestimmt durch eine messbare TeilmengeC ⊆Rn (denVerwerfungsbereich) mit zugehöriger Entscheidungsregel:

AkzeptiereH0 ⇐⇒ (X1, ..., Xn) /∈ C.

Beispiel (t-Test). SeienX1, X2, . . . , Xn unabhängige Stichproben von einer Normalverteilung

mit unbekanntem Parameter(m, v) ∈ Θ = R × R+. Wir wollen testen, ob der Mittelwert der

Verteilung einen bestimmten Wertm0 hat:

NullhypotheseH0: »m = m0« , Θ0 = m0 × R+ .

Ein solches Problem tritt z.B. in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob

ein Sollwertm0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren,

wobeiXi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese

mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht.

Im t–Testfür obiges Testproblem wird die Nullhypothese akzeptiert,falls der Betrag derStudent-

schen t-Statistikunterhalb einer angemessen zu wählenden Konstantenc liegt, bzw. verworfen,

falls

|Tn−1| =

∣∣∣∣√n · (Xn −m0)√

Vn

∣∣∣∣ > c

gilt.

Seien nun allgemeinX1, X2, . . . unterPθ unabhängige Zufallsvariablen mit Verteilungµθ. Bei

einem Hypothesentest können zwei Arten von Fehlern auftreten:

Fehler 1. Art: H0 wird verworfen, obwohl wahr.Die Wahrscheinlichkeit dafür beträgt:

Pθ[(X1, ..., Xn) ∈ C] = µnθ [C] , θ ∈ Θ0.

Fehler 2. Art: H0 wird akzeptiert, obwohl falsch.Die Wahrscheinlichkeit beträgt:

Pθ[(X1, ..., Xn) /∈ C] = µnθ [C

C ] , θ ∈ Θ \Θ0.

Obwohl das allgemeine Testproblem im Prinzip symmetrisch inH0 undH1 ist, interpretiert man

beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die

Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeu-

gen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht

vorhanden) unterhalb einer vorgegebenen (kleinen) Schrankeα liegen. Die Wahrscheinlichkeit

µnθ [C] , θ ∈ Θ \Θ0 ,

daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein.

Universität Bonn Wintersemester 2009/2010

Page 312: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

312 KAPITEL 9. MULTIVARIATE VERTEILUNGEN UND STATISTIK

Definition. Die Funktion

G(θ) = Pθ[(X1, ..., Xn) ∈ C] = µnθ [C]

heißtGütefunktiondes Tests. Der Test hatNiveauα, falls

G(θ) ≤ α für alle θ ∈ Θ0

gilt. Die FunktionG(θ) mit θ ∈ Θ1 heißtMacht des Tests.

Aus Satz 9.13 und der Symmetrie der Studentschent-Verteilung folgt unmittelbar:

Korollar 9.14. Der Studentsche t-Test hat Niveauα falls c ein (1− α2)-Quantil der Studentschen

t-Verteilung mitn− 1 Freiheitsgraden ist.

Allgemeiner gilt:

Satz 9.15(Korrespondenz Konfidenzintervalle↔ Hypothesentests). Für einen reellwertigen

Parameterγ = c(θ), ein Irrtumsniveauα ∈ (0, 1), und messbare Abbildungen (Statistiken)

γ, ε : Rn → R sind äquivalent:

(i) Das Intervall

[γ(X1, . . . , Xn)− ε(X1, . . . , Xn) , γ(X1, . . . , Xn) + ε(X1, . . . , Xn)]

ist ein(1− α) · 100 % Konfidenzintervall fürγ.

(ii) Für jedesγ0 ∈ R ist

C = (x1, ..., xn) : |γ(x1, . . . , xn)− γ0| > ε(x1, . . . , xn)

der Verwerfungsbereich eines Test der Nullhypotheseγ = γ0 zum Niveauα.

Beweis.Das Intervall ist genau dann ein Konfidenzintervall fürγ zum Irrtumsniveauα, wenn

Pθ [|γ(X1, . . . , Xn)− c(θ)| > ε(X1, ..., Xn)] ≤ α ∀ θ ∈ Θ

gilt, also wenn der entsprechende Test der Nullhypothesenc(θ) = γ0 für jedesγ0 Niveauα

hat.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 313: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 10

Bedingte Erwartungen

Zur Analyse von stochastischen Modellen mit Abhängigkeiten verwendet man in der Regel be-

dingte Wahrscheinlichkeiten und Erwartungswerte gegebendie Werte von Zufallsvariablen. Bei-

spielsweise beschreibt man einen stochastischen ProzessXn , n ∈ N, durch die bedingten Vertei-

lungen des nächsten ZustandsXn+1 gegeben den VerlaufX0:n = (X0, X1, . . . , Xn) bis zur Zeit

n.

10.1 Bedingen auf diskrete Zufallsvariablen

Wir betrachten zunächst das Bedingen auf den Ausgang einer diskreten ZufallsvariableY : Ω →S, S abzählbar. In diesem Fall können wir diebedingte Wahrscheinlichkeitsverteilung

P [A | Y = z] =P [A ∩ Y = z]

P [Y = z], A ∈ A,

und diebedingten Erwartungswerte

E[X | Y = z] =E[X;Y = z]

P [Y = z], X ∈ L1(Ω,A, P ),

für allez ∈ S mit P [Y = z] > 0 auf elementare Weise wie in Abschnitt 2.1 definieren. Fürz ∈ S

mit P [Y = z] = 0 sind die bedingten Wahrscheinlichkeiten nicht definiert.

Bedingte Erwartungen als Zufallsvariablen

Es wird sich als praktisch erweisen, die bedingten Wahrscheinlichkeiten und Erwartungswerte

nicht als Funktion des Ausgangsz, sondern als Funktion der ZufallsvariableY zu interpretieren.

Die bedingten Wahrscheinlichkeiten und Erwartungswerte sind dann selbst Zufallsvariablen:

313

Page 314: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

314 KAPITEL 10. BEDINGTE ERWARTUNGEN

Definition. SeiX : Ω → R eine Zufallsvariable mitE[X−] < ∞, undY : Ω → S eine diskrete

Zufallsvariable. Die durch

E[X | Y ] := g(Y ) =∑

z∈Sg(z) · IY=z

mit

g(z) :=

E[X | Y = z] falls P [Y = z] > 0

beliebig fallsP [Y = z] = 0

P -fast sicher eindeutig definierte ZufallsvariableE[X | Y ] heißt(Version der) bedingte(n) Er-

wartung vonX gegebenY . Für ein EreignisA ∈ A heißt die Zufallsvariable

P [A | Y ] := E[IA | Y ]

(Version der) bedingte(n) Wahrscheinlichkeit vonA gegebenY .

Die bedingte ErwartungE[X | Y ] und die bedingte WahrscheinlichkeitP [A | Y ] sind also Zu-

fallsvariablen mit den WertenE[X | Y = z] bzw.P [A | Y = z] auf den MengenY = z, z ∈ S

mit P [Y = z] > 0. Auf jeder der NullmengenY = z, z ∈ S mit P [Y = z] = 0, wird der

bedingten Erwartung ein willkürlicher konstanter Wert zugewiesen, d.h. die Definition ist nur

P -fast überall eindeutig. Wir fassen zunächst einige elementare Eigenschaften der so definierten

bedingten Erwartung zusammen:

Lemma 10.1(Eigenschaften der bedingten Erwartung).

(1). Die AbbildungX 7→ E[X | Y ] ist P -fast sicher linear und monoton.

(2). SindX undY unabhängig, dann giltE[X | Y ] = E[X] P -fast sicher.

(3). Herausziehen, was bekannt ist:

Für alle f : S → R mit f(Y ) ·X ≥ 0 bzw.f(Y ) ·X ∈ L1 gilt

E[f(Y ) ·X | Y ] = f(Y ) · E[X | Y ] P -fast sicher.

Insbesondere gilt

E[f(Y ) | Y ] = f(Y ) P -fast sicher.

Beweis. (2). SindX undY unabhängig, dann gilt

E[X | Y = z] =E[X · IY=z]

P [Y = z]= E[X]

für alle z ∈ S mit P [Y = z] > 0, alsoE[X | Y ] = E[X] P -fast sicher. Die ebenso

elementaren Beweise von (1) und (3) werden dem Leser als Übungüberlassen.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 315: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN 315

Anschaulich können wir die zweite Aussage folgendermaßen interpretieren: SindX undY unab-

hängig, dann liefert die Kenntnis des WertesY (ω) keine zusätzlichen Informationen überX(ω).

Daher ist die besteL2-Prognose fürX(ω) wie im unbedingten Fall durch den Erwartungswert

E[X] gegeben.

Formel von der totalen Wahrscheinlichkeit

Die aus Satz 2.1 bekannte Formel von der totalen Wahrscheinlichkeit können wir mithilfe der

obigen Definition in kompakter Weise schreiben.

Satz 10.2(Formel von der totalen Wahrscheinlichkeit). SeiY : Ω → S eine diskrete Zufalls-

variable mit Verteilungµ(z) = P [Y = z]. Für alle messbarenX : Ω → R+ gilt:

E[X] =∑

z: µ(z) 6=0

E[X | Y = z]µ(z) = E[E[X | Y ]]

Insbesondere gilt

P [A] = E[P [A | Y ]] für alleA ∈ A.

Beweis.WegenΩ =⋃z∈S

Y = z gilt nach dem Transformationssatz

E[X] =∑

z∈SE[X;Y = z] =

z: µ(z) 6=0

E[X;Y = z]

=∑

z: µ(z) 6=0

E[X | Y = z] · µ(z) =∑

z: µ(z) 6=0

g(z) · µ(z)

= E[g(Y )],

wobeig : S → R eine beliebige Funktion mitg(z) = E[X | Y = z] für alle z ∈ S mit µ(z) 6= 0

ist. Die Aussage folgt wegeng(Y ) = E[X | Y ] P -fast sicher.

Bemerkung. FürX ∈ L1(Ω,A, P ) folgt aus der Monotonie der bedingten Erwartung

|E[X | Y ]| ≤ E[|X|∣∣ Y ]

und damit die Ungleichung

E[|E[X | Y ]|] ≤ E[E[|X|

∣∣ Y ]]

= E[|X|].

Die AbbildungX 7→ E[X | Y ] ist also eine Kontraktion aufL1(Ω,A, P ). Die Aussage von Satz

10.2 gilt entsprechend auch fürX ∈ L1.

Universität Bonn Wintersemester 2009/2010

Page 316: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

316 KAPITEL 10. BEDINGTE ERWARTUNGEN

Bedingte Varianz

Sei nunX : Ω → R eine bzgl.P integrierbare Zufallsvariable

Definition.

Var[X | Y ] := E[(X − E[X | Y ])2 | Y

]

heißtbedingte VarianzvonX gegebenY .

IstX quadratintegrierbar, dann gelten die folgenden Aussagen:

Lemma 10.3.Für X ∈ L2(Ω,A, P ) gilt:

(1). L2-Kontraktivität: E[∣∣E[X

∣∣ Y ]∣∣2]≤ E[X2].

(2). Var[X | Y ] = E[X2 | Y ]− E[X | Y ]2 P -fast sicher.

Insbesondere folgt fürz ∈ S mit µ(z) 6= 0:

Var[X | Y ] = Var[X | Y = z] aufY = z. (10.1.1)

Beweis. (1). folgt aus Satz 10.2, da für allez ∈ S mit P [Y = z] 6= 0 aufY = z gilt:

|E[X | Y ]|2 = |E[X | Y = z]|2 ≤ E[X2 | Y = z] = E[X2 | Y ].

(2). Nach Lemma 10.1, (1) und (3), ergibt sich dann ähnlich wie für die unbedingte Varianz:

Var[X | Y ] = E[X2 | Y ]− 2 · E[X · E[X | Y ] | Y ] + E[E[X | Y ]2 | Y ]

= E[X2 | Y ]− E[X | Y ]2 P -fast sicher.

Die folgende Zerlegungsformel kann häufig verwendet werden, um Varianzen zu berechnen oder

abzuschätzen:

Satz 10.4(Formel von der bedingten Varianz). Für eine ZufallsvariableX ∈ L2(Ω,A, P )gilt:

Var[X] = E[Var[X | Y ]] + Var[E[X | Y ]]

=∑

z:µ(z) 6=0

Var[X | Y = z] · µ(z) +∑

z:µ(z) 6=0

(E[X | Y = z]− E[X])2 · µ(z).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 317: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.1. BEDINGEN AUF DISKRETE ZUFALLSVARIABLEN 317

Beweis.Es gilt

Var[X] = E[X2]− E[X]2 = E[E[X2 | Y ]]− E[E[X | Y ]]2

= E[E[X2 | Y ]]− E[E[X | Y ]2] + E[E[X | Y ]2]− E[E[X | Y ]]2

= E[Var[X | Y ]] + Var[E[X | Y ]].

Der zweite Teil der Behauptung folgt nun aus (10.1.1) und der entsprechenden Eigenschaft für

die bedingte Erwartung.

Anwendung auf zufällige Summen

Als erste Anwendung betrachten wir eine Summe

SN(ω) :=

N(ω)∑

i=1

Xi(ω)

von unabhängigen, identisch verteilten ZufallsvariablenXi ∈ L1(Ω,A, P ) mit zufälliger Anzahl

N von Summanden. Hierbei seiN : Ω → 0, 1, 2, . . . eine von denXi unabhängige Zufallsva-

riable. Seienm = E[X1] undσ2 = Var[X1]. Wir berechnen nun die verschiedenen Kenngrößen

der Verteilung vonSN .

Berechnung des Erwartungswertes:DaSk undN unabhängig sind, erhalten wir

E[SN |N = k] = E[Sk |N = k] = E[Sk] = k ·m für allek ∈ N,

alsoE[SN |N ] = N ·m, und damit nach Satz 10.2:

E[SN ] = E[E[SN |N ]] = E[N ] ·m.

Berechnung der Varianz:Erneut folgt wegen der Unabhängigkeit vonSk undN :

Var[SN |N = k] = Var[Sk |N = k] = Var[Sk] = k · σ2,

alsoVar[SN |N ] = N · σ2, und damit nach Satz 10.4:

Var[SN ] = E[Var[SN |N ]] + Var[E[SN |N ]] = E[N ] · σ2 +Var[N ] ·m2.

Berechnung der momentenerzeugenden Funktion:Für t ∈ R gilt

MSN(t) = E

[etSN

]= E

[E[etSN | N ]

]= E

[N∏

i=1

E[etXi ]

]

= E[E[etX1 ]N

]= E

[MX1(t)

N]=MN (logMX1(t)) .

Universität Bonn Wintersemester 2009/2010

Page 318: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

318 KAPITEL 10. BEDINGTE ERWARTUNGEN

Mithilfe von MSNkann man die Momente der zufälligen SummeSN berechnen:

E[SmN ] = M

(m)SN

(0) für allem ∈ N.

Im Prinzip erhält man die Verteilung vonSN durch Laplace-Inversion, was aber nicht immer

praktikabel ist. Nehmen die ZufallsvariablenXi nur nichtnegative ganzzahlige Werte an, kann

man statt der momentenerzeugenden Funktion die erzeugendeFunktion verwenden, und daraus

die Verteilung berechnen. Wir gehen darauf im folgenden Abschnitt ein.

Charakterisierende Eigenschaften der bedingten Erwartung

Zum Abschluss dieses Abschnitts beweisen´wir eine alternative Charakterisierung der bedingten

Erwartung gegeben eine diskrete ZufallsvariableY : Ω → S, S abzählbar. Diese Charakterisie-

rung werden wir in Abschnitt 10.3 verwenden, um bedingte Erwartungen für allgemeine Bedin-

gungen zu definieren. SeiX : Ω → R+ eine nichtnegative (bzw. integrierbare) Zufallsvariable

auf einem Wahrscheinlichkeitsraum(Ω,A, P ).

Satz 10.5.Eine reellwertige ZufallsvariableX ≥ 0 (bzw.X ∈ L1) auf (Ω,A, P ) ist genau dann

eine Version der bedingten ErwartungE[X | Y ], wenn gilt:

(I) X = g(Y ) für eine Funktiong : S → R, und

(II) E[X · f(Y )

]= E[X · f(Y )] für alle nichtnegativen bzw. beschränkten Funktionen

f : S → R.

Beweis.Ist X eine Version vonE[X | Y ], dann gilt (I). Außerdem folgt nach Lemma 10.1 (3)

und der Formel von der totalen Wahrscheinlichkeit:

E[X · f(Y )

]= E

[E[X∣∣ Y]· f(Y )

]= E

[E[X · f(Y )

∣∣ Y]]

= E[X · f(Y )]

für jede nichtnegative bzw. beschränkte Funktionf : S → R.

Umgekehrt folgt aus (I), dassX = g(z) auf Y = z gilt. Ist außerdem (II) erfüllt, dann folgt

weiter

g(z) = E[X | Y = z

]=

E[X · Iz(Y )

]

P [Y = z]

=E[X · Iz(Y )

]

P [Y = z]= E[X | Y = z]

für alle z ∈ S mit P [Y = z] > 0, d.h.X = g(Y ) ist eine Version der bedingten Erwartung

E[X | Y ].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 319: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 319

In einigen Fällen können die charakterisierenden Eigenschaften direkt überprüft werden, um be-

dingte Erwartungen zu identifizieren:

Beispiel (Summen austauschbarer Zufallsvariablen). SeienX1, X2, . . . , Xn ∈ L1(Ω,A, P )integrierbare Zufallsvariablen, deren gemeinsame Verteilung invariant unter Koordinatenpermu-

tationen ist, d.h.(Xπ(1), Xπ(2), . . . , Xπ(n)) ∼ (X1, X2, . . . , Xn) für alleπ ∈ Sn. Zufallsvariablen

mit dieser Eigenschaft heißenaustauschbar– beispielsweise sind unabhängige identisch verteil-

te Zufallsvariablen austauschbar. Wir zeigen:

E[Xi | Sn] =1

nSn P -fast sicher für allei = 1, . . . , n,

wobeiSn = X1+. . .+Xn. Zum Beweis überprüfen wir, dassX i :=1nSn die Bedingungen (I) und

(II) aus Satz 10.5 fürY = Sn erfüllt. (I) ist offensichtlich. Zudem gilt wegen der Austauschbarkeit

für jede beschränkte messbare Funktionf : R → R:

E[Xi · f(Sn)] = E[Xj · f(Sn)] für alle i, j = 1, . . . , n,

also

E

[1

nSn · f(Sn)

]=

1

n

n∑

j=1

E[Xj · f(Sn)] = E[Xi · f(Sn)]

für alle i = 1, . . . , n, d.h. (II) ist auch erfüllt.

10.2 Erzeugende Funktionen, Verzweigungsprozesse, und Er-

neuerungen

Wir wollen die Methoden aus dem letzten Abschnitt nun verwenden, um Verzweigungs- und

Erneuerungsprozesse zu untersuchen. Ein wichtiges Hilfsmittel sind in beiden Fällen erzeugende

Funktionen:

Erzeugende Funktionen von ganzzahligen Zufallsvariablen

SeiX : Ω → 0, 1, 2, . . . eine auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierte Zufalls-

variable mit nichtnegativenganzzahligenWerten.

Definition. Die durch

G(s) = E[sX ] =∞∑

k=0

P [X = k]sk, s ∈ [−1, 1],

Universität Bonn Wintersemester 2009/2010

Page 320: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

320 KAPITEL 10. BEDINGTE ERWARTUNGEN

definierte Funktion heißterzeugende Funktionder ZufallsvariableX bzw. der Folgeµ(k) =

P [X = k] der Gewichte vonX.

Durch Vergleich mit der geometrischen Reihe sieht man, dass der Konvergenzradius der Potenz-

reihe stets größer oder gleich1 ist. Also ist die erzeugende Funktion analytisch auf(−1, 1), und

es gilt

P [X = k] =G(k)(0)

k!für allek = 0, 1, 2, . . . .

Kennen wir also die erzeugende Funktion explizit, dann können wir die Gewichte der Verteilung

berechnen.

Durch zweimaliges Ableiten zeigt man zudem, dassG monoton und konvex auf[0, 1] ist. Für

s ∈ (0, 1] gilt nach DefinitionG(s) =M(log s). Daher lassen sich aus der erzeugenden Funktion

die Momente vonX berechnen – beispielsweise giltE[X] = G′(1−) (linksseitige Ableitung von

G(s) beis = 1), falls der Erwartungswert endlich ist.

Für die erzeugende Funktion einer SummeX + Y von unabhängigen, nichtnegativen, ganzzah-

ligen ZufallsvariablenX undY gilt offensichtlich

GX+Y (s) = GX(s) ·GY (s) für alles ∈ [−1, 1].

Somit ist die erzeugende Funktion der Faltung

(µ ∗ ν)(k) =k∑

i=0

µ(i)ν(k − i) (k = 0, 1, 2, . . .)

zweier Wahrscheinlichkeitsverteilungenµ undν auf N ∪ 0 das Produkt der einzelnen erzeu-

genden Funktionen.

Erzeugende Funktionen können in verschiedenen Situationen für explizite Berechnungen ver-

wendet werden. Wir demonstrieren dies hier in einigen grundlegenden Beispielen. Viele weite-

re entsprechende Anwendungen finden sich in den Wahrscheinlichkeitstheorie-Lehrbüchern von

Feller und Grimmett/Stirzacker.

Erzeugende Funktionen zufälliger Summen

SindN,X1, X2, . . . : Ω → 0, 1, 2, . . . unabhängige Zufallsvariablen, dann erhalten wir für die

SummeSN =N∑i=1

Xi :

GSN(s) = E[sSN ] = E[E[sSN |N ]] = E[G(s)N ] = GN(G(s)), (10.2.1)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 321: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 321

wobeiG die erzeugende Funktion der SummandenXi ist. Für die Verteilung vonSN ergibt sich

P [SN = k] =1

k!(GN G)(k)(0) für allek ≥ 0.

Beispiel(Ausdünnungseigenschaft von Poissonverteilungen). Ein Huhn lege eine mit Parame-

ter λ > 0 Poissonverteilte AnzahlN von Eiern, von denen aus jedem unabhängig voneinander

und vonN mit Wahrscheinlichkeitp ein Küken schlüpfe. Die erzeugende Funktion der Poisson-

verteilung ist

GN(s) = E[sN ] =∞∑

k=0

sk · λk

k!e−λ = eλ(s−1).

Die Anzahl der geschlüpften Küken istSN =N∑i=1

Xi, wobei dieXi untereinander und vonN

unabhängige, Bernoulli(p)-verteilte Zufallsvariablen sind. Wir erhalten also

GSN(s) = GN(GX1(s)) = GN(1− p+ p · s) = epλ·(s−1),

d.h. die Zahl der geschlüpften Küken ist wieder Poissonverteilt mit Parameterp · λ. Eine ausge-

dünnte Poissonverteilung ist also wieder eine Poissonverteilung!

Galton-Watson-Verzweigungsprozesse

Wir betrachten das folgende Modell für ein zufälliges Populationswachstum: Alle Individuen

der Population erzeugen unabhängig voneinander eine zufällige Anzahl von Nachkommen in

der nächsten Generation mit Verteilungν. Hierbei seiν eine feste Wahrscheinlichkeitsverteilung

auf 0, 1, 2, . . . mit ν[2, 3, . . .] 6= 0. Dieses Modell wurde 1889 von Galton und Watson ein-

geführt, um die Aussterbewahrscheinlichkeit englischer Adelstitel zu untersuchen. Ähnlich wie

beim Random Walk handelt es sich um ein fundamentales stochastisches Modell mit unzähligen

Erweiterungen und Anwendungen, z.B. auf das Wachstum von Zellpopulationen, die Ausbreitung

von Epidemien, die Zunahme der Neutronenzahl in einem Reaktor, oder auch die näherungsweise

Berechnung von genetischen Abständen oder der Anzahl von Zuständen in einem großen zufäl-

ligen Graphen (z.B. dem Internet), die man in einer bestimmten Anzahl von Schritten erreichen

kann. Die Nachkommensstruktur eines einzelnen Individuums bestimmt einen zufälligen verwur-

zelten Baum, s. Grafik 10.1. Dementsprechend spielen Verzweigungsprozesse auch eine zentrale

Rolle bei der Analyse diverser stochastischer Modelle auf Bäumen, s. z.B. [Peres: Probablity on

trees].

Universität Bonn Wintersemester 2009/2010

Page 322: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

322 KAPITEL 10. BEDINGTE ERWARTUNGEN

n = 0

n = 1

n = 2

n = 3

...

Z0 = 1

Z1 = 3

Z2 = 3

Z3 = 6

...

b

b

b

b b

b

b b

b

b b b b

Abbildung 10.1: Beispiel für eine Realisierung eines Galton-Watson-Prozesses.

Wir beschreiben die Nachkommenszahlen der einzelnen Individuen in der(n−1)-ten Generation

eines Verzweigungsprozesses durch unabhängige Zufallsvariablen

Nni : Ω → 0, 1, 2, . . ., i, n = 1, 2, . . . ,

mit Verteilungν. Für die Gesamtzahl der Individuen in dern-ten Generation erhalten wir die

folgende rekursive Darstellung:

ZN =

Zn−1∑

i=1

Nni für allen ≥ 1.

Ohne wesentliche Einschränkungen nehmen wirZ0 = 1 an. Enthält die Anfangspopulation statt-

dessen mehrere Individuen, dann erzeugen diese voneinander unabhängige, identisch verteilte

Unterpopulationen. DaZn−1 nur von den ZufallsvariablenNki für k ≤ n− 1 abhängt, sindZn−1

undNni (i ∈ N) unabhängige Zufallsvariablen. Durch Bedingen aufZn−1 erhalten wir für die

mittleren Populationsgrößen die Rekursion

E[Zn] = E[Zn−1] ·m,

wobeim :=∞∑i=1

i · ν(i) die mittlere Nachkommenszahl eines Individuums ist. Wir unterscheiden

die folgenden Fälle:

m > 1 : Exponentielles Wachstum der Erwartungswerte (superkritisch)

m = 1 : Erwartungswerte konstant (kritisch)

m < 1 : Exponentieller Abfall der Erwartungswerte (subkritisch)

Wir wollen nun untersuchen, mit welcher Wahrscheinlichkeit die Population in den einzelnen

Fällen ausstirbt. Nach (10.2.1) gilt für die erzeugenden Funktionen der Populationsgrößen die

Rekursionsformel

GZn(s) = E[s∑Zn−1

i=1 Nni

]= GZn−1(G(s)),

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 323: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 323

wobeiG die erzeugende Funktion der Verteilungν der AnzahlNni der Kinder eines Individuums

ist. Per Induktion folgt wegenGZ1(s) = G(s):

GZn(s) = G(G(. . . G(s) . . .))︸ ︷︷ ︸n−mal

= Gn(s) für allen ∈ N unds ∈ [0, 1].

Für die Wahrscheinlichkeitenπn, dass der Prozess zur Zeitn ausgestorben ist, erhalten wir die

Rekursionsformel

πn = P [Zn = 0] = GZn(0) = Gn(0) = G(πn−1). (10.2.2)

Sei nunπ die Wahrscheinlichkeit, dass die Population in endlicher Zeit ausstirbt. Da die Ereig-

nisseZn = 0 monoton wachsend sind, gilt

π = P

[⋃

n

Zn = 0]

= limn→∞

πn.

DaG auf [0, 1] stetig ist, folgt aus (10.2.2)

π = G(π),

d.h. die Aussterbewahrscheinlichkeitπ ist ein Fixpunkt der erzeugenden Funktion. Wie oben

bemerkt, ist die erzeugende FunktionG : [0, 1] → [0, 1] strikt konvex mitG(1) = 1 und

G′(1−) = E[Nni ] = m. Hieraus folgt, dass1 im Fall m ≤ 1 der einzige Fixpunkt vonG in

[0, 1] ist, während im superkritischen Fallm > 1 ein weiterer Fixpunktπ∗ ∈ [0, 1) existiert, siehe

auch Grafik 10.2. Aus den Skizzen erkennt man zudem, dass die Aussterbewahrscheinlichkeit

π = lim πn der kleinste Fixpunkt vonG auf [0, 1] ist. Also stirbt der Prozess im subkritischen

bzw. kritischen Fall mit Wahrscheinlichkeit 1 aus, währender im superkritischen Fall mit einer

strikt positiven Wahrscheinlichkeit überlebt.

Universität Bonn Wintersemester 2009/2010

Page 324: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

324 KAPITEL 10. BEDINGTE ERWARTUNGEN

m ≤ 1

1

1

π0

π1

π1

π2

π2

π3

π3

π4

π4

π5

π5

πn → 1

m > 1

1

1

π0

π1

π1

π2

π2

πn → π∗ < 1

Abbildung 10.2: Erzeugendenfunktionen von Galton-Watson-Prozessen mit unterschiedlichen

Verteilungen für die Anzahl der Nachkommen. In Rot: Fixpunktiteration

Beispiel(Geometrische Nachkommensverteilung). Ist die Verteilung

ν(k) = pk(1− p) (k = 0, 1, 2 . . .)

der Anzahl der Nachkommen eine geometrische Verteilung mitParameterp ∈ (0, 1), dann ergibt

sich

G(s) =∞∑

k=0

skpk(1− p) =1− p

1− psfür alles ∈ [0, 1].

Fixpunkte dieser Funktion sind1 und 1−pp

. Für 1 − p ≥ p (subkritischer Fall) ist1 der einzige

Fixpunkt in [0, 1], also stirbt die PopulationP -fast sicher aus. Im superkritischen Fall1− p < p

beträgt die Aussterbewahrscheinlichkeitπ dagegen nur1−pp

.

Rekurrente Ereignisse und Erneuerungsgleichung

Als weitere Anwendung von erzeugenden Funktionen betrachten wir eine Folge von unvorherseh-

baren Ereignissen, die zu diskreten Zeitpunktenn ∈ N eintreten. Die Ereignisse bezeichnen wir

auch als „Erneuerungen“ (engl. renewals), und denken dabeiz.B. an den wiederholten Ausfall

und Austausch eines Verschleißteils in einer Maschine, oder das wiederholte Abarbeiten einer

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 325: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.2. ERZEUGENDE FUNKTIONEN, VERZWEIGUNGSPROZESSE, UNDERNEUERUNGEN 325

Warteschlange. Wir beschreiben den Zeitpunkt, an dem diek-te Erneuerung stattfindet, durch

eine Zufallsvariable

Sk = T1 + T2 + . . .+ Tk.

T1 ist also der Zeitpunkt der ersten Erneuerung, und fürk ≥ 2 ist Tk der zeitliche Abstand der

(k−1)-ten und derk-ten Erneuerung. In einem einfachen Modell nehmen wir an, dassT1, T2, . . . :

Ω → N unabhängige Zufallsvariablen sind, und, dassT2, T3, . . . identisch verteilt sind (aber nicht

T1!). Wir wollen nun die Wahrscheinlichkeitenpn der Ereignisse

An = ∃k ∈ N : Sk = n „Erneuerung zur Zeitn“

aus den Verteilungen der Wartezeiten berechnen. Bedingen auf den Wert vonT1 liefert fürn ≥ m:

P [An | T1 = m] = P [∃k ∈ N : T1 + . . .+ Tk = n | T1 = m]

= P [∃k ∈ N : T2 + . . .+ Tk = n−m | T1 = m]

= P [∃k ∈ N : T2 + . . .+ Tk = n−m],

und damit

P [An | T1 = m] = P [An−m+1 | T1 = 1] = P [An−m+1 | A1].

Nach der Formel von der totalen Wahrscheinlichkeit erhalten wir für n ∈ N:

pn =n∑

m=1

qn−m · P [T1 = m] (10.2.3)

mit qn := P [An+1 | A1]. Um die bedingten Wahrscheinlichkeitenqn zu berechnen, bedingen wir

zusätzlich aufT2. DaT2, T3, . . . unabhängig und identisch verteilt sind, gilt fürn ≥ m:

P [An+1 | A1 ∩ T2 = m] = P [∃k ∈ N : T1 + . . .+ Tk = n+ 1 | T1 = 1, T2 = m]

= P [∃k ≥ 2 : T3 + . . .+ Tk = n−m | T1 = 1, T2 = m]

= P [∃k ≥ 2 : T3 + . . .+ Tk = n−m]

= P [∃k ≥ 2 : T2 + . . .+ Tk−1 = n−m]

= P [An−m+1 | A1] = qn−m.

Wegen

qn = P [An+1 | A1] =n∑

m=1

P [An+1 | A1 ∩ T2 = m] · P [T2 = m]

Universität Bonn Wintersemester 2009/2010

Page 326: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

326 KAPITEL 10. BEDINGTE ERWARTUNGEN

erhalten wir

qn =n∑

m=1

qn−m · P [T2 = m] für allen ≥ 1. (10.2.4)

Die Gleichungen (10.2.3) und (10.2.4) heißenErneuerungsgleichungen. Auf den rechten Sei-

ten dieser Gleichungen stehen (wegenT1, T2 ≥ 1) die Faltungen der Folgeqn, n ∈ N, mit der

Folge der Gewichte der WartezeitenT1 bzw.T2. Daher ist es zweckmäßig, zu den erzeugenden

Funktionen

Gp(s) =∞∑

n=1

pnsn

und

Gq(s) =∞∑

n=0

qnsn

überzugehen. Für|s| < 1 erhalten wir aus (10.2.3)

Gp(s) = Gq(s) ·GT1(s).

Aus (10.2.4) ergibt sich, da die rechte Seite fürn = 0 verschwindet:

Gq(s)− 1 =∞∑

n=1

qnsn = Gq(s) ·GT2(s).

Es folgtGq(s) = (1−GT2(s))−1, und damit

Gp(s) =GT1(s)

1−GT2(s). (10.2.5)

(10.2.5) liefert den gesuchten Zusammenhang zwischen der Verteilung der Wartezeiten, und den

Wahrscheinlichkeitenpn, dass zur Zeitn eine Erneuerung stattfindet.

Sei nun die Verteilung der LebensdauernT2, T3, . . . vorgegeben. Dann können wir untersuchen,

welche Verteilung die AnfangswartezeitT1 haben muss, damit die Wahrscheinlichkeitenpn nicht

vonn abhängen (Stationarität). Fürα ∈ [0, 1] gilt pn = α für allen ∈ N genau dann, wenn

Gp(s) =∞∑

n=1

pnsn =

α

1− sfür alles ∈ (−1, 1),

d.h. wenn

GT1(s) = α · 1−GT2(s)

1− sfür alles ∈ (−1, 1). (10.2.6)

DaGT1 undGT2 erzeugende Funktionen von Wahrscheinlichkeitsverteilungen sind, muss dann

gelten:

1 = GT1(1) = lims↑1

GT1(s)

= α lims↑1

GT2(s)− 1

s− 1= αG′

T2(1−)

= α · E[T2].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 327: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 327

Also mussT2 endlichen Erwartungswert haben, und

α = 1/E[T2] (10.2.7)

gelten. Dies ist auch anschaulich plausibel: Im stationären Fall ist die Erneuerungswahrschein-

lichkeit zu einem festen Zeitpunkt der Kehrwert des mittleren zeitlichen Abstandes zwischen

zwei Erneuerungen. Gilt (10.2.7), dann ergibt sich aus (10.2.6) durch Koeffizientenvergleich:

P [T1 = n] = α ·(1−

n∑

k=1

P [T2 = k]

)=

P [T2 > n]

E[T2]. (10.2.8)

Die Folgepn der Erneuerungswahrscheinlichkeiten ist also genau dann konstant, wenn die Ver-

teilung vonT1 durch (10.2.8) gegeben ist („stationärer Erneuerungsprozess“). Weiter kann man

ausgehend von (10.2.6) zeigen, dass fürbeliebigeVerteilungen der ersten Erneuerungszeit die

Wahrscheinlichkeitenpn für n → ∞ gegen1/E[T2] konvergieren („asymptotische Stationari-

tät“), falls der Erwartungswert endlich ist und keinePeriodizitätauftritt, d.h.

ggT(n|P [T2 = n] > 0) = 1.

Den Beweis diesesErneuerungssatzesüber erzeugende Funktionen findet man im Klassiker von

W.Feller (An Introduction to Probability Theory and its Applications, Vol. 1).

10.3 Bedingen auf allgemeine Zufallsvariablen

IstY eine reellwertige Zufallsvariable auf einem Wahrscheinlichkeitsraum(Ω,A, P ) mit stetiger

Verteilungsfunktion, dann giltP [Y = z] = 0 für alle z ∈ R. Bedingte Wahrscheinlichkeiten

gegebenY = z können daher nicht wie für diskrete Zufallsvariablen definiert werden. Alternativ

könnte man versuchen, bedingte Wahrscheinlichkeiten gegebenY als Grenzwert zu definieren:

P [A | Y = z] = limhց0

P [A | z − h ≤ Y ≤ z + h]. (10.3.1)

Dies ist in bestimmten Fällen möglich, aber im allgemeinen ist die Existenz des Grenzwertes

nicht gewährleistet.

Stattdessen definiert man bedingte Erwartungen gegeben allgemeine ZufallsvariablenY mithilfe

der Charakterisierung aus Satz 10.5. Bedingte Wahrscheinlichkeiten gegebenY erhält man als

Spezialfall bedingter Erwartungen:

P [A | Y ] := E[IA | Y ]. (10.3.2)

Universität Bonn Wintersemester 2009/2010

Page 328: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

328 KAPITEL 10. BEDINGTE ERWARTUNGEN

Bedingte Wahrscheinlichkeiten wie in (10.3.1) sind im Allgemeinen nicht im herkömmlichen

Sinn definiert. Es ist allerdings ausgehend von (10.3.1) allgemein möglich, für ein festes Ereignis

A die Abbildungz 7→ P [A | Y = z] bis auf Modifikation auf Nullmengen bzgl. der Verteilung

vonY zu definieren.

Das Faktorisierungslemma

Wir beweisen zunächst eine wichtige maßtheoretische Aussage. Diese wird es uns unter Anderem

ermöglichen, die charakterisierenden Eigenschaften bedingter Erwartungen aus Satz 10.5 noch

etwas eleganter zu formulieren:

Satz 10.6(Faktorisierungslemma). Sei(S,S) ein messbarer Raum undY : Ω → S eine Abbil-

dung. Eine AbbildungX : Ω → R ist genau dannσ(Y )-messbar, wenn

X = f(Y ) = f Y

für eineS-messbare Funktionf : S → R gilt.

(Ω, σ(Y )) (S,S) (R,B(R))Y

X

Beweis. (1). IstX = f Y für eine messbare Funktionf , dann gilt

X−1(B) = Y −1(f−1(B)) ∈ σ(Y ) für alleB ∈ B(R),

daf−1(B) ∈ S. Daher istX σ(Y )-messbar.

(2). Für die umgekehrte Richtung müssen wir zeigen, dass aus der σ(Y )-Messbarkeit vonX

folgt, dassX eine messbare Funktion vonY ist. Dazu gehen wir schrittweise vor („maß-

theoretische Induktion“):

(a) IstX = IA eine Indikatorfunktion mitA ∈ σ(Y ), dann giltA = Y −1(B) mit B ∈ S,

und damit

X(ω) = IY −1(B)(ω) = IB(Y (ω)) für alleω ∈ Ω.

(b) FürX =∑n

i=1 ciIAimit Ai ∈ σ(Y ) undci ∈ R gilt entsprechend

X =n∑

i=1

ciIBi(Y ),

wobeiBi Mengen ausS mit Ai = Y −1(Bi) sind.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 329: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 329

(c) Für eine beliebige nichtnegative,σ(Y )-messbare AbbildungX : Ω → R existiert

eine Folge(Xn) von σ(Y )-messbaren Elementarfunktionen mitXn ր X. Nach (b)

gilt Xn = fn(Y ) mit S-messbaren Funktionenfn. Damit folgt:

X = supXn = sup fn(Y ) = f(Y ),

wobeif = sup fn wiederS-messbar ist.

(d) Für eine allgemeineσ(Y )-messbare AbbildungX : Ω → R sind sowohlX+ als auch

X− messbare Funktionen vonY , also auchX selbst.

Mithilfe des Faktorisierungslemmas können wir diecharakterisierenden Eigenschaften(I) und

(II) bedingter Erwartungen gegeben eine diskrete ZufallsvariableY aus Satz 10.5 wie folgt um-

formulieren:

X ist genau dann eine Version vonE[X | Y ], wenn gilt:

(i) X ist σ(Y )-messbar,

(ii) E[X ; A] = E[X ; A] für alleA ∈ σ(Y ).

Die Äquivalenz von (I) und (i) folgt aus dem Faktorisierungslemma, und die Äquivalenz von (II)

und (ii) ergibt sich durch maßtheoretische Induktion, denn(ii) besagt gerade, dass

E[X · IB(Y )] = E[X · IB(Y )] für alleB ∈ S gilt.

Definition allgemeiner bedingter Erwartungen

Eine bemerkenswerte Konsequenz der Charakterisierung bedingter Erwartungen durch die Be-

dingungen (i) und (ii) ist, dass diebedingte ErwartungE[X | Y ] von der ZufallsvariablenY nur

über die vonY erzeugteσ-Algebraσ(Y ) abhängt!Sind zwei ZufallsvariablenY undZ Funk-

tionen voneinander, dann istσ(Y ) = σ(Z), und damit stimmen auch die bedingten Erwartungen

E[X | Y ] und E[X | Z] überein (mit Wahrscheinlichkeit 1). Daher liegt es nahe, gleich von

der bedingten Erwartung gegeben eineσ-Algebra zu sprechen. Dieσ-Algebra (z.B.σ(Y ) oder

σ(Y1, . . . , Yn)) beschreibt dann die zur Verfügung stehende „Information“, auf die bedingt wird.

Die Charakterisierung bedingter Erwartungen durch (i) und (ii) können wir sofort auf den Fall

allgemeiner bedingter Erwartungen gegeben eineσ-Algebra oder gegeben beliebige Zufallsva-

riablen übertragen. Sei dazuX : Ω → R eine nichtnegative (oder integrierbare) Zufallsvariable

auf einem Wahrscheinlichkeitsraum(Ω,A, P ).

Universität Bonn Wintersemester 2009/2010

Page 330: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

330 KAPITEL 10. BEDINGTE ERWARTUNGEN

Definition (Bedingte Erwartung, allgemein). (1). SeiF ⊆ A eine σ-Algebra. Eine nicht-

negative (bzw. integrierbare) ZufallsvariableX : Ω → R heißt Version der bedingten

ErwartungE[X | F ], falls gilt:

(a) X ist F-messbar, und

(b) E[X ; A] = E[X ; A] für alleA ∈ F .

(2). Für beliebige ZufallsvariablenY, Y1, Y2, . . . , Yn auf (Ω,A, P ) definieren wir

E[X | Y ] := E[X | σ(Y )],

E[X | Y1, . . . Yn] := E[X | (Y1, . . . , Yn)] = E[X | σ(Y1, . . . , Yn)].

(3). Für ein EreignisA ∈ A definieren wir

P [A | F ] := E[IA | F ], und entsprechend P [A | Y ] = E[A | Y ].

Bemerkung. Durch maßtheoretische Induktion zeigt man, dass Bedingung (b) äquivalent ist zu:

(b’) E[X · Z] = E[X · Z] für alle nichtnegativen (bzw. beschränkten)F-messbarenZ :

Ω → R.

Satz 10.7(Existenz und Eindeutigkeit der bedingten Erwartung). SeiX ≥ 0 oderX ∈ L1,

undF ⊆ A eineσ-Algebra. Dann gilt

(1). Es existiert eine Version der bedingten ErwartungE[X | F ].

(2). Zwei Versionen stimmenP -fast sicher überein.

Beweis.Die Existenz kann man unmittelbar aus dem Satz von Radon-Nikodym folgern, s. z.B.

[A.Klenke, Wahrscheinlichkeitstheorie]. Wir geben stattdessen am Ende von Abschnitt 10.4 einen

Existenzbeweis, der mit elementaren Methoden auskommt.

Zum Beweis der Eindeutigkeit seienX undX zwei Versionen der bedingten ErwartungE[X |F ].

Dann sindX undX beideF-messbar, und

E[X ; A] = E[X ; A] für alleA ∈ F .

Hieraus folgtX = X P -fast sicher.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 331: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 331

Bemerkung (Probleme mit Ausnahmemengen). Man beachte, dass die bedingte Erwartung

E[X | F ] und damit auch die bedingte WahrscheinlichkeitP [A | F ] nur für jedefesteZufalls-

variableX bzw. jedesfesteEreignisA bis auf Modifikation auf Nullmengen eindeutig definiert

sind. Ein weiteres Problem ist, dass wir allgemein zwar bedingte Erwartungen gegeben eine Zu-

fallsvariableY definieren können, aber nicht solche gegeben das EreignisY = z für festesz. In

vielen Fällen kann man die beschriebenen Probleme durch Auswahl einer „regulären Version der

bedingten Verteilung gegebenY “ umgehen. Wir kommen darauf in Korollar 10.9 zurück.

Bemerkung (E[X |Y = z]). ObwohlE[X | Y = z] für ein festesz im Allgemeinen nicht defi-

niert ist, kann man die Funktionz 7→ E[X | Y = z] bis auf Modifikation auf Nullmengen bzgl.

der Verteilung vonY sinnvoll definieren: IstY : Ω → S eine Zufallsvariable mit Werten in einem

messbaren Raum(S,S), dann ist jede Version der bedingten ErwartungE[X |Y ] nach Definition

σ(Y )-messbar. Also gilt nach dem Faktorisierungslemma:

E[X | Y ] = g(Y ) für eine messbare Funktiong : S → R. (10.3.3)

Da die Versionen der bedingten Erwartung bis auf Modifikation auf P -Nullmengen eindeutig

festgelegt sind, ist die Funktiong bis auf Modifikation aufµY -Nullmengen eindeutig festgelegt.

In Anlehnung an den diskreten Fall setzt man manchmal:

E[X | Y = z] := g(z). (10.3.4)

Genauer definieren wir für eine nichtnegative ZufallsvariableX:

Definition. Eine messbare Funktiong : S → R+ heißtVersion der bedingten Erwartungz 7→E[X | Y = z] vonX gegebenY = z, wenn gilt:

E[X ; Y ∈ B] =

B

g(z)µY (dz) für alleB ∈ S. (10.3.5)

Die charakterisierende Bedingung (10.3.5) ist nichts anderes als eine allgemeine Variante der

Formel von der totalen Wahrscheinlichkeit. Mithilfe des Transformationssatzes sieht man, dassg

genau dann (10.2.3) erfüllt, wenng(Y ) eine Version vonE[X | Y ] ist.

WARNUNG: Bei der Definition ist zu beachten, dassE[X | Y = z] für ein festesz im Allgemei-

nen nicht definiert ist, sondern nur die Funktionz 7→ E[X | Y = z] modulo Modifikation auf

µY -Nullmengen! Das formale Rechnen mit bedingten Erwartungenwir in (10.3.4) ist daher eine

häufige Fehlerquelle.

Universität Bonn Wintersemester 2009/2010

Page 332: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

332 KAPITEL 10. BEDINGTE ERWARTUNGEN

Trotz dieser Gefahren ist die NotationE[X | Y = z] oft nützlich, um Argumentationen transpa-

renter zu machen, oder um anschauliche Überlegungen in mathematische Formeln zu übersetzen.

Wir werden sie daher auch hier gelegentlich verwenden.

Diskreter und absolutstetiger Fall

In einigen Fällen kann man die Definition direkt anwenden, umbedingte Erwartungswerte zu

berechnen. Wir betrachten zunächst noch einmal den Spezialfall einediskreten Bedingung:

Gilt F = σ(Hi|i ∈ N) für eine disjunkte ZerlegungΩ =⋃i∈NHi in abzählbar viele messbare

Teilmengen („Hypothesen“)Hi ∈ A, dann sindF-messbare Zufallsvariablen konstant auf jeder

der MengenHi. Aus der Definition der bedingten Erwartung folgt dann

E[X | F ] = E[X |Hi] aufHi

für alle i ∈ N mit P [Hi] > 0.

Beispiel(Unbedingte Erwartungen). Die bedingte Erwartung einer ZufallsvariableX gegeben

die trivialeσ-Algebra∅,Ω ist der Erwartungswert vonX.

Beispiel(Bedingen auf eine Partition). Ist P = U[0,1) die Gleichverteilung auf[0, 1), undF =

σ([ti−1, ti)|i = 1, . . . , n) die von einer Partition0 = t0 < t1 < t2 < . . . < tn = 1 erzeugte

σ-Algebra, denn ist die bedingte ErwartungE[g |F ] einer integrierbaren Funktiong : [0, 1) → R

die durch

E[g | F ] =1

ti − ti−1

ti∫

ti−1

g(u) du auf [ti−1, ti)

definierte Funktion.

H1 H2 H3 H4 H51

Abbildung 10.3: Die Funktiong(ω) ist hier blau dargestellt undE[g|F ] in rot.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 333: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 333

Ist die gemeinsame Verteilung aller relevanten Zufallsvariablen absolutstetig, dann kann man

bedingte Erwartungen mithilfe von bedingten Dichten berechnen:

Satz 10.8(Berechnung bedingter Erwartungen im absolutstetigen Fall). SeienX : Ω →Rn und Y : Ω → Rm Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ), deren

gemeinsame VerteilungµX,Y absolutstetig ist, und seih : Rn × Rm → [0,∞] messbar. Dann ist

E[h(X, Y ) | Y ](ω) =

Rn

h(x, Y (ω))fX|Y (x|Y (ω)) dx (10.3.6)

eine Version der bedingten Erwartung vonh(X, Y ) gegebenY .

Beweis.Nach dem Satz von Fubini ist die rechte Seite von (10.3.6) eine messbare Funktion von

Y (ω), und es gilt

E

[g(Y ) ·

∫h(x, Y )fX|Y (x|Y ) dx

]=

∫ ∫g(y)h(x, y)fX|Y (x|y)fY (y) dx dy

= E[g(Y )h(X, Y )]

für jede messbare Funktiong : Rm → [0,∞].

Mit der Notation aus (10.3.4) lautet die Aussage des Satzes:

E[h(X, Y )|Y = z] =

Rn

h(x, z)fX|Y (x|z) dx für µY -fast allez ∈ S.

Um die bedingte Erwartung zu berechnen, müssen wir also den uns bekannten Wert vonY ein-

setzen, und die Funktion bzgl. der bedingten DichtefX|Y nachx integrieren.

Beispiel(Bedingen auf eine Koordinate). IstP = UΩ die Gleichverteilung auf einer beschränk-

ten, messbaren MengeΩ ⊆ R2, und ist

Y : Ω → R, Y (x, y) = y,

die Projektion auf die zweite Komponente, dann gilt

E[h|Y ](x, y) =1

λ(Ωy)

Ωy

h(x, y) dx P -fast sicher (10.3.7)

für jede integrierbare Funktionh : Ω → R. Hierbei istΩy = x ∈ R|(x, y) ∈ R dery-Schnitt

vonΩ. Bedingen aufY entspricht hier also dem normierten „Herausintegrieren“ der komplemen-

tären Koordinatex.

Universität Bonn Wintersemester 2009/2010

Page 334: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

334 KAPITEL 10. BEDINGTE ERWARTUNGEN

yΩy

Ω ⊆ R2

Abbildung 10.4: In Rot: Dery-Schnitt der MengeΩ.

Reguläre bedingte Verteilungen

Beim Bedingen auf diskrete Zufallsvariablen konnten wir bedingte Wahrscheinlichkeitsverteilun-

gen auf elementare Weise definieren. Für allgemeine Zufallsvariablen sind die bedingten Wahr-

scheinlichkeiten

P [X ∈ B | Y ] = E[IB(X) | Y ]

für jede feste messbare MengeB nur bis auf Modifikation aufP -Nullmengen eindeutig definiert.

Dies ist ein Nachteil, da die Ausnahmemenge vonB abhängen kann, und im Allgemeinen über-

abzählbar viele messbare Mengen existieren. Die bedingte Verteilung vonX gegebenY ist daher

zunächst nicht definiert. Im absolutstetigen Fall können wir das Problem umgehen, indem wir die

über die bedingte Dichte gegebene Version

µX|Y (y, dx) := fX|Y (x|y)dx

der bedingten Verteilung verwenden. Aus Satz 10.8 folgt unmittelbar, dass wir bedingte Wahr-

scheinlichkeiten gegebenY ausµX|Y berechnen können:

Korollar 10.9. Ist die gemeinsame Verteilung der ZufallsvariablenX : Ω → Rn undY : Ω →Rm absolutstetig, dann istµX|Y einereguläre Version der bedingten Verteilung vonX gegeben

Y , d.h.

(1). µX|Y ist ein stochastischer Kern vonRm nachRn.

(2). Für jedesB ∈ B(Rn) ist

P [X ∈ B | Y ] = µX|Y (Y,B)

eine Version der bedingten Wahrscheinlichkeit vonX ∈ B gegebenY .

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 335: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.3. BEDINGEN AUF ALLGEMEINE ZUFALLSVARIABLEN 335

Bemerkung (Existenz von regulären Versionen bedingter Verteilungen). Die Existenz von

regulären Versionen von bedingten Verteilungen gegeben eine ZufallsvariableY kann man all-

gemein beweisen, wennY Werte in einem vollständigen, separablen, metrischen Raum (kurz:

polnischen Raum) annimmt, siehe z.B. [Breiman, Ch. 4.3.]. Eine explizite Berechnung über be-

dingte Dichten ist natürlich im Allgemeinen nicht möglich.

Wenn wir uns auf eine bestimmte reguläre VersionµX|Y festlegen, dann können wir die bedingten

WahrscheinlichkeitenP [X ∈ B|Y = z] durch

P [X ∈ B | Y = z] = µX|Y (z, B)

für alle z ∈ S definieren. Die Festlegung auf eine bestimmte reguläre Version der bedingten

Verteilung ist im Allgemeinen willkürlich. Manchmal gibt es aber eine kanonische Version, die

sich auszeichnet. Dies ist zum Beispiel der Fall, wenn die Dichte der gemeinsamen Verteilung

vonX undY eine stetige Version hat.

Beispiel(Bivariate Normalverteilung ). Ist (X, Y ) bivariat normalverteilt mit Mittel(0, 0) und

Kovarianzmatrix

(1

1

), ∈ (−1, 1), dann gilt

fX,Y (x, y) =1

2π√

1− 2· exp

(−x

2 − 2xy + y2

2(1− 2)

).

Für ein festesx ∈ R folgt

fY |X(y|x) ∝ fX,Y (x, y) ∝ exp

(−(y − x)2

2(1− 2)

)

als Funktion vony. Also ist

µY |X(x, •) = N(x, 1− 2)

eine kanonische reguläre Version der bedingten VerteilungvonY gegebenX.

Universität Bonn Wintersemester 2009/2010

Page 336: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

336 KAPITEL 10. BEDINGTE ERWARTUNGEN

x

y

z

x0

x2

x1

Abbildung 10.5: Die DichtefX,Y (x, y) und in Blau, Grün und MagentafY |X(y|xi) für i ∈0, 1, 2. Man beachte, dassfY |X(y|xi) ∝ fX,Y (xi, y) als Funktion vony.

Beispiel(Grenzen naiven Bedingens). Sei(X, Y ) gleichverteilt auf dem Viertelkreis

S = (x, y) ∈ R2|x > 0, y > 0, x2 + y2 < 1.

Wir versuchen auf zwei Arten eine „bedingte Verteilung vonX gegebenX = Y “ zu berechnen.

Dazu betrachten wir die ZufallsvariablenV = Y −X undW = Y/X. WegenfX,Y ∝ IS erhalten

wir mithilfe des Dichtetransformationssatzes für fast jedesv:

fX|V (x|v) ∝ fX,V (x, v) = fX,Y (x, v + x) ·∣∣∣∣det

∂(x, v + x)

∂(x, v)

∣∣∣∣∝ IS(x, v + x),

wobei „∝“ für „proportional als Funktion vonx“ steht. Wählen wir die normierte rechte Seite als

kanonische Version der bedingten Dichte, so ergibt sich

fX|V (x|0) ∝ IS(x, x) = I(0,1/√2)(x).

GegebenY −X = 0 istX also gleichverteilt auf(0, 1/√2).

Andererseits erhalten wir für fast jedesw:

fX|W (x|w) ∝ fX,W (x, w) = fX,W (x, wx) ·∣∣∣∣det

∂(x, wx)

∂(x, w)

∣∣∣∣∝ IS(x, wx) · x.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 337: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 337

Wählen wir wieder die rechte Seite als kanonische Version, soergibt sich

fX|W (x|1) ∝ x · IS(x, x) = x · I(0,1/√2)(x).

Die bedingte Verteilung vonX gegebenY/X = 1 unterscheidet sich also von der bedingten

Verteilung vonX gegebenY − X = 0. Bedingte Wahrscheinlichkeiten gegebenX = Y sind

daher nicht wohldefiniert!

Eine anschauliche Erklärung für das Phänomen ist, dass wir in den beiden Fällen oben auf un-

terschiedliche infinitesimale Umgebungen der Diagonale(x, y) ∈ S|x = y bedingen, wie die

folgende Grafik veranschaulicht:

(x, y) ∈ S :

∣∣∣∣x

y− 1

∣∣∣∣ < δ

(x, y) ∈ S : |y − x| < δ

Abbildung 10.6: Zwei verschiedene Arten die Diagonale zu approximieren.

10.4 Rechnen mit bedingten Erwartungen; Poissonprozess

In vielen Fällen tritt eine Kombination bedingter Erwartungen bezüglich verschiedener Zufalls-

variablen und/oderσ-Algebren auf. Die bedingten Erwartungswerte können dann meist nicht

unmittelbar berechnet werden, lassen sich aber mithilfe grundlegender Eigenschaften und Re-

chenregeln schrittweise umformen und ggf. vereinfachen. Wir leiten nun aus der Definition ei-

nige fundamentale Eigenschaften bedingter Erwartungen her, die wir in diesem Zusammenhang

häufig verwenden werden.

Als eine erste Anwendung untersuchen wir zeitliche und räumliche Poissonprozesse. Zeitliche

Poissonprozesse sind die einfachsten Beispiele von zeitstetigen stochastischen Prozessen mit

stationären unabhängigen Inkrementen, bzw. von zeitstetigen Markovketten. Räumliche Pois-

sonprozesse (Poissonsche Punktprozesse) sind grundlegende Modelle für zufällige Punktmen-

gen. Beide Arten von Prozessen spielen in etlichen Anwendungsbereichen eine wichtige Rolle

Universität Bonn Wintersemester 2009/2010

Page 338: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

338 KAPITEL 10. BEDINGTE ERWARTUNGEN

(z.B. Warteschlangen, Versicherungsmathematik, Materialwissenschaften, stochastische Geome-

trie etc.), und bilden die Basis für die Konstruktion vieler komplexerer stochastischer Modelle.

Eigenschaften der bedingten Erwartung

Wir leiten zunächst aus der Definition einige fundamentale Eigenschaften der bedingten Erwar-

tung her, die wir häufig bei der Berechnung bedingter Erwartungswerte verwenden werden:

Satz 10.10.SeienX, Y undXn (n ∈ N) nichtnegative oder integrierbare Zufallsvariablen auf

(Ω,A, P ), und seienF ,G ⊆ A σ-Algebren.

Es gelten folgende Aussagen:

(1). Linearität:E[λX +µY | F ] = λE[X | F ] +µE[Y | F ] P -fast sicher für alleλ, µ ∈ R.

(2). Monotonie: AusX ≥ 0 P -fast sicher folgtE[X | F ] ≥ 0 P -fast sicher.

(3). AusX = Y P -fast sicher folgtE[X | F ] = E[Y | F ] P -fast sicher.

(4). Monotone Konvergenz: Ist(Xn) monoton wachsend mitX1 ≥ 0, dann gilt

E[supXn | F ] = supE[Xn | F ] P -fast sicher.

(5). Projektivität / Tower Property: IstG ⊆ F , dann gilt

E[E[X | F ] | G] = E[X | G] P -fast sicher.

Insbesondere:

E[E[X | Y, Z] | Y ] = E[X|Y ] P -fast sicher.

(6). Herausziehen, was bekannt ist: SeiY F-messbar mitY ·X ∈ L1 bzw.≥ 0. Dann gilt

E[Y ·X | F ] = Y · E[X | F ] P -fast sicher.

(7). Unabhängigkeit: IstX unabhängig vonF , dann giltE[X | F ] = E[X] P -fast sicher.

(8). Seien(S,S) und (T, T ) messbare Räume. IstY : Ω → S F-messbar, undX : Ω → T

unabhängig vonF , undf : S × T → [0,∞) eine produktmessbare Abbildung, dann gilt

E[f(X, Y ) | F ](ω) = E[f(X, Y (ω))] für P -fast alleω.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 339: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 339

Beweis. (1). Aus der Linearität des Erwartungswertes folgt, dassλE[X | F ] + µE[Y | F ] eine

Version der bedingten ErwartungE[λX + µY | F ] ist.

(2). SeiX eine Version vonE[X | F ]. AusX ≥ 0 P -fast sicher folgt wegenX < 0 ∈ F :

E[X ; X < 0] = E[X ; X < 0] ≥ 0,

und damitX ≥ 0 P -fast sicher.

(3). Dies folgt unmittelbar aus (1) und (2).

(4). IstXn ≥ 0 und monoton wachsend, dann istsupE[Xn | F ] eine nichtnegativeF-messbare

Zufallsvariable (mit Werten in[0,∞]), und nach dem „klassischen “ Satz von der monoto-

nen Konvergenz (siehe Satz 6.6) gilt:

E[supE[Xn | F ] · Z] = supE[E[Xn | F ] · Z] = supE[Xn · Z] = E[supXn · Z]

für jede nichtnegativeF-messbare ZufallsvariableZ. Also ist supE[Xn | F ] eine Version

der bedingten Erwartung vonsupXn gegebenF .

(5). Wir zeigen, dass jede Version vonE[X | G] auch eine Version vonE[E[X | F ] | G] ist, also

die Eigenschaften (i) und (ii) aus der Definition der bedingten Erwartung erfüllt:

(i) E[X | G] ist nach DefinitionG-messbar.

(ii) FürA ∈ G gilt auchA ∈ F , und somitE[E[X |G]; A] = E[X ; A] = E[E[X |F ]; A].

(6) und (7). Auf ähnliche Weise verifiziert man, dass die Zufallsvariablen, die auf der rechten Seite der

Gleichungen in (6) und (7) stehen, die definierenden Eigenschaften der bedingten Erwar-

tungen auf der linken Seite erfüllen (Übung).

(8). Dies folgt aus (6) und (7) in drei Schritten:

(a) Gilt f(x, y) = g(x) · h(y) mit messbaren Funktioneng, h ≥ 0, dann folgt nach (6)

und (7)P -fast sicher:

E[f(X, Y ) | F ] = E[g(X) · h(Y ) | F ] = h(Y ) · E[g(X)|F ]

= h(Y ) · E[g(X)],

und somit

E[f(X, Y ) | F ](ω) = E[g(X) · h(Y (ω))] = E[f(X, Y (ω))] für P -fast alleω.

Universität Bonn Wintersemester 2009/2010

Page 340: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

340 KAPITEL 10. BEDINGTE ERWARTUNGEN

(b) Um die Behauptung für Indikatorfunktionenf(x, y) = IB(x, y) von produktmessba-

ren MengenB zu zeigen, betrachten wir das Mengensystem

D = B ∈ S ⊗ T | Behauptung gilt fürf = IB.

D ist ein Dynkinsystem, das nach (a) alle ProdukteB = B1 × B2 mit B1 ∈ S und

B2 ∈ T enthält. Also gilt auch

D ⊇ σ(B1 ×B2 |B1 ∈ S, B2 ∈ T ) = S ⊗ T .

(c) Für beliebige produktmessbare Funktionenf : S × T → R+ folgt die Behauptung

nun durch maßtheoretische Induktion.

Bemerkung (Konvergenzsätze für bedingte Erwartungen). Aus dem Satz von der monoto-

nen Konvergenz (Eigenschaft (4)) folgen auch Versionen desLemmas von Fatou und des Satzes

von der dominierten Konvergenz für bedingte Erwartungen. Der Beweis verläuft ähnlich wie im

unbedingten Fall (Übung).

Die letzte Eigenschaft aus Satz 10.10 ist oft sehr nützlich.Für unabhängige ZufallsvariablenX

undY ergibt sich insbesondere

E[f(X, Y ) | Y ](ω) = E[f(X, Y (ω))] für P -fast alleω, (10.4.1)

d.h.

E[f(X, Y ) | Y = z] = E[f(X, z)] für µY -fast allez. (10.4.2)

Die Unabhängigkeit vonX undY ist wesentlich für (10.4.1) bzw. (10.4.2):

Beispiel. Ist Y = X, dann gilt offensichtlich

E[X · Y | Y = z] = E[Y 2 | Y = z] = z2 für µY -fast allez, aber

E[X · z] = z · E[X] = z · E[Y ].

Das Anwenden der Formeln (10.4.1) und (10.4.2) ohne dass Unabhängigkeit vorliegt ist ein sehr

häufiger Fehler beim Rechnen mit bedingten Erwartungen!

Beispiel(Summen von Wartezeiten). Für eine exponential-verteilte Zufallsvariable gilt

P [T > t+ h|T > t] = P [T > h] für alle t ≥ 0 undh ∈ R.

Durch Bedingen können wir diese Aussage deutlich verallgemeinern:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 341: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 341

Lemma 10.11(Erweiterte Gedächtnislosigkeit). SindT undR unabhängige nichtnegative Zu-

fallsvariablen, und istT exponentialverteilt, dann gilt

P [T +R > t+ h | T > t] = P [T +R > h] für alle t ≥ 0 undh ∈ R.

Beweis.Durch Bedingen aufR erhalten wir nach (10.4.2) fürt ≥ 0:

P [T +R > t+ h undT > t | R = r](∗)= P [T + r > t+ h undT > t]

= P [T > t+ h− r | T > t] · P [T > t]

= P [T > h− r] · P [T > t]

für fast aller > 0, also

P [T +R > t+ h undT > t] =

∫P [T +R > t+ h, T > t |R = r] µR(dr)

=

∫P [T > h− r] µR(dr) · P [T > t]

(∗∗)= P [T +R > h] · P [T > t].

Hierbei haben wir in(∗) und(∗∗) wesentlich benutzt, dassT undR unabhängig sind.

Das Lemma zeigt, dass für Summen von unabhängigen Wartezeiten eine Gedächtnislosigkeits-

eigenschaft gilt, sofern der erste Summand exponentialverteilt ist. Diese Tatsache ist von grund-

legender Bedeutung um nachzuweisen, dass die zukünftige Weiterentwicklung von zeitstetigen

Markovketten nicht vom Verlauf in der Vergangenheit, sondern nur vom gegenwärtigen Zustand

abhängt. Wir betrachten zunächst exemplarisch den einfachsten Fall einer solchen zeitstetigen

Markovkette - den Poissonprozess.

Poissonprozesse

Ein Poissonprozess mit Intensitätλ > 0 ist ein zeitstetiger stochastischer Prozess, d.h. eine Kol-

lektionNt, t ∈ [0,∞), von Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ), mit

nichtnegativen ganzzahligen Werten. Der Prozess wartet jeweils eineExp(λ)-verteilte Zeit ab,

und springt dann um eine Einheit nach oben. Naheliegende Anwendungen sind z.B. die Model-

lierung einer Warteschlange, oder der Anzahl der bei einer Versicherung auflaufenden Schadens-

fälle.

Um einen Poissonprozess zu konstruieren, wählen wir unabhängige exponentialverteilte Zufalls-

variablenT1, T2, . . . ≥ 0 mit festem Parameterλ > 0 auf einem Wahrscheinlichkeitsraum

(Ω,A, P ), und setzen

Sn = T1 + T2 + . . .+ Tn, n ∈ N, und

Universität Bonn Wintersemester 2009/2010

Page 342: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

342 KAPITEL 10. BEDINGTE ERWARTUNGEN

Nt = #n ∈ N | Sn ≤ t, t ∈ [0,∞).

1

2

3

4

S1 S2 S3 S4

Nt

t

Abbildung 10.7: Darstellung vonNt(ω).

Dann istt 7→ Nt(ω) für alleω monoton wachsend mit ganzzahligen Werten undN0(ω) = 0. Die

WartezeitSn bis zumn-ten Sprung istΓ(λ, n)-verteilt, s. Lemma 9.5. Durch Bedingen können

wir die Verteilungen des Prozesses(Nt)t≥0 auf elegante Weise berechnen. Beispielsweise folgt

aus der erweiterten Gedächtnislosigkeit (Lemma 10.11) fürt, h ≥ 0 unmittelbar

P [Nt+h < k |Nt = 0] = P [Sk > t+ h | S1 > t]

= P [T1 + T2 + . . .+ Tk > t+ h | T1 > t]

= P [T1 + T2 + . . .+ Tk > h]

= P [Nh < k] für allek ∈ N,

d.h. die bedingte Verteilung vonNt+h gegebenNt = 0 stimmt mit der Verteilung vonNh überein.

Allgemeiner erhalten wir:

Satz 10.12.Für t, h ≥ 0 gilt:

(1). Nt ∼ Poisson(λt)

(2). Stationarität:Nt+h −Nt ∼ Nh

(3). Unabhängige Inkremente:Nt+h −Nt |= σ(Ns | 0 ≤ s ≤ t).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 343: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 343

Beweis. (1). Verteilung vonNt: Da Sk = T1 + . . . + Tk unabhängig vonTk+1 undΓ(λ, k)-

verteilt ist, erhalten wir fürk ∈ N nach (10.4.2):

P [Nt = k] = P [Sk ≤ t < Sk+1]

=

∫P [Sk ≤ t < Sk + Tk+1 | Sk = u] : µSk

(du)

=

∫I(0,t](u) · P [t < u+ Tk+1] µSk

(du)

=

t∫

0

e−λ(t−u) · 1

(k − 1)!λkuk−1e−λu du

=(λt)k

k!e−λt.

Also istNt Poisson-verteilt zum Parameterλt.

(2). Gemeinsame Verteilung vonNt undNt+h: Seienk, l ≥ 0. WegenSk = T1 + . . . + Tk und

Sk+l = Sk+Tk+1+ . . .+Tk+l erhalten wir nach (10.4.1) aufgrund der Unabhängigkeit der

Ti:

P [Nt+h < k + l, Nt = k | T1, . . . , Tk](ω)= P [Sk+l > t+ h, Sk ≤ t < Sk+1 | T1, . . . , Tk](ω)= P [Sk(ω) + Tk+1 + . . .+ Tk+l > t+ h, Sk(ω) ≤ t < Sk(ω) + Tk+1] (10.4.3)

= P [Tk+1 + . . .+ Tk+l > h] · P [Tk+1 > t− Sk(ω)] · ISk≤t(ω)

= P [Nh < l] · P [Nt = k | T1, . . . , Tk](ω)

für P -fast alleω. Hierbei haben wir im vorletzten Schritt Lemma 10.11 verwendet. Aus (a)

folgt:

P [Nt+h −Nt < l,Nt = k] = E[P [Nt+h < k + l, Nt = k | T1, . . . , Tk]]= P [Nh < l] · P [Nt = k], (10.4.4)

d.h.

P [Nt+h −Nt < l |Nt = k] = P [Nh < l] für allek, l ≥ 0.

Also ist das InkrementNt+h −Nt unabhängig vonNt mit Verteilung

P (Nt−h −Nt)−1 = P N−1

h = Poisson(λh).

Universität Bonn Wintersemester 2009/2010

Page 344: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

344 KAPITEL 10. BEDINGTE ERWARTUNGEN

(3). Unabhängigkeit vonNt+h − Nt undσ(Ns | 0 ≤ s ≤ t): Wir bemerken zunächst, dass für

jedes EreignisA ∈ σ(Ns | 0 ≤ s ≤ t) undk ≥ 0 ein EreignisAk ∈ σ(T1, . . . , Tk) existiert

mit

A ∩ Nt = k = Ak ∩ Nt = k. (10.4.5)

Zum Beweis kann man sich auf Ereignisse der FormA = Ns = l mit s ∈ [0, t] undl ≥ 0

beschränken, da diese dieσ-Algebraσ(Ns | 0 ≤ s ≤ t) erzeugen. Für solche EreignisseA

gilt in der Tat

A∩Nt = k = Ns = l, Nt = k = Sl ≤ s < Sl+1, Sk ≤ t < Sk+1 = Ak∩Nt = k

wobei

Ak :=

∅ falls l > k,

Sl ≤ s falls l = k,

Sl ≤ s < Sl+1 falls l < k,

ein Ereignis ist, dass nur vonT1, . . . , Tk abhängt.

Nach (10.4.5) erhalten wir fürA ∈ σ(Ns | 0 ≤ s ≤ t) undk, l ≥ 0 analog zu (10.4.4):

P [Nt+h −Nt < l ∩ A ∩ Nt = k]= E[P [Nt+h −Nt < l,Nt = k | T1, . . . , Tk];Ak]

= P [Nh < l] · P [Ak ∩ Nt = k]= P [Nt+h −Nt < l] · P [A ∩ Nt = k].

Durch Summieren überk folgt die Unabhängigkeit vonNt+h −Nt undA.

Aus Satz 10.12 folgt, dass für jede Partitiont0 < t1 < . . . < tk die InkrementeNt1 −Nt0 , Nt2 −Nt1 , . . . , Ntk −Ntk−1

unabhängige Zufallsvariablen mit Verteilung

Nt −Ns ∼ Poisson(λ · (t− s)), 0 ≤ s ≤ t, (10.4.6)

sind. Insbesondere sind die Inkrementestationär, d.h. die Verteilung vonNt −Ns hängt nur von

t− s ab.

Definition. (1). Ein stochastischer Prozess(Nt)t≥0 auf einem Wahrscheinlichkeitsraum(Ω,A, P )heißtLévy-Prozess, falls

(a) die InkrementeNt −Ns, 0 ≤ s ≤ t, stationär sind, und

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 345: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 345

(b) Inkremente über disjunkten Intervallen unabhängig sind.

(2). Ein Lévy-Prozess heißtPoissonprozess mit Intensitätλ > 0, falls (10.4.6) gilt.

Weitere wichtige Beispiele von Lévy-Prozessen sind Brownsche Bewegungen undα-stabile Pro-

zesse. EineBrownsche Bewegung(Bt)t≥0 ist ein Lévy-Prozess mit normalverteilten Inkrementen

Bt −Bs ∼ N(0, t− s), 0 ≤ s ≤ t, dessen Pfadet 7→ Bt(ω) für P -fast alleω stetig sind.

Prozesse in diskreter Zeit mit unabhängigen stationären Inkrementen sind Random Walks. Lévy-

Prozesse kann man aus Random Walks durch Grenzübergänge mit unterschiedlichen Skalierun-

gen erhalten (Poissonapproximation, zentraler Grenzwertsatz, Grenzwertsatz für Inkremente mit

heavy tails etc.). Den Poissonprozess erhält man beispielsweise als Grenzwert fürk → ∞ der

reskalierten Random WalksN (k)t = S

(k)⌊kt⌋,

S(k)n =

n∑

i=1

X(k)i , X

(k)i unabhängig,∼ Bernoulli(λ/k).

Die Simulation in Abbildung 5.6 deutet an, wie andere Lévyprozesse als Skalierungslimiten von

Random Walks auftreten.

Ein weiteres Beispiel für Lévy-Prozesse sind zusammengesetzte (compound) Poissonprozesse:

Beispiel (Compound Poisson-Prozess). Seiµ eine Wahrscheinlichkeitsverteilung aufRd und

λ > 0. Dann heißt der stochastische Prozess

St =Nt∑

i=1

Xi, t ≥ 0,

mit unabhängigen ZufallsvariablenXi mit Verteilungµ und einem von denXi unabhängigen

Poissonprozess(Nt)t≥0 mit Intensitätλ, Compound-Poisson-Prozess mit Sprungverteilung

µ und Intensität λ. Der Compound-Poisson-Prozess ist eine zeitstetige Version des Random

Walks mit InkrementenXi. Er wartet jeweils eineExp(λ)-verteilte Zeit ab, und macht dann

einen Sprung gemäß der Verteilungµ. Entsprechende Prozesse werden u. A. in der Versiche-

rungsmathematik zur Modellierung der akkumulierten Schadenshöhe bis zur Zeitt verwendet.

Die VerteilungSt für ein festest ≥ 0 kann man mit den oben eingeführten Methoden für zu-

fällige Summen berechnen. Zudem kann man beweisen, dass(St)t≥0 in der Tat ein Prozess mit

stationären unabhängigen Inkrementen ist.

Poissonscher Punktprozess

Die Sprungzeitpunkte eines Poissonprozesses in einem endlichen Zeitintervall(s, t] kann man

auch auf andere Weise konstruieren: IstZ eine Poisson-verteilte Zufallsvariable mit Parame-

Universität Bonn Wintersemester 2009/2010

Page 346: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

346 KAPITEL 10. BEDINGTE ERWARTUNGEN

ter λ · (t − s), und sindU1, U2, . . . unabhängig voneinander und vonZ, und gleichverteilt auf

(s, t], dann sindU1, . . . , UZ die Sprungzeiten eines Poissonprozesses mit Parameterλ (s. Korollar

10.14). Allgemeiner sei nunν ein endliches Maß auf einem messbaren Raum(S,S). Wir wollen

eine zufällige „Punktwolke“ inS mit Intensitätν konstruieren. Dazu wählen wir unabhängige

ZufallsvariablenX1, X2, . . . : Ω → S mit Verteilungµ = νν(S)

, und setzen fürA ⊆ S:

N(A) =Z∑

i=1

δXi[A] = #1 ≤ i ≤ Z|Xi ∈ A, (10.4.7)

wobeiZ (Gesamtzahl der Punkte) unabhängig von denXi und Poisson-verteilt mit Parameter

ν(S) ist. Die AbbildungA 7→ N(A) ist die Häufigkeitsverteilung der PunkteX1, . . . , XZ , und

damit ein zufälliges Maß. Hat das Intensitätsmaßν keine Atome (d.h. giltν[x] = 0 für alle

x ∈ S), dann sind die PunkteXi mit Wahrscheinlichkeit1 alle verschieden, und wir könnenN

P -fast sicher mit der zufälligen PunktmengeX1, X2, . . . , XZ ⊆ S identifizieren.

Satz 10.13(Konstruktion von Poissonschen Punktprozessen). Das durch (10.4.7) definierte

zufällige MaßN ist ein Poissonscher Punktprozess mit Intensitätsmaßν, d.h. für beliebige

k ∈ N und disjunkte TeilmengeA1, . . . , Ak ⊆ S, sind die ZufallsvariablenN(A1), . . . , N(Ak)

unabhängig mit Verteilung

N(Ai) ∼ Poisson(ν(Ai)).

Zum Beweis benötigen wir die erzeugende Funktion der gemeinsamen Verteilung mehrerer Zu-

fallsvariablen:

Definition (Erzeugende Funktion und gemeinsame Verteilung). SeienN1, . . . , Nk : Ω →0, 1, 2, . . . nichtnegative ganzzahlige Zufallsvariablen auf einem Wahrscheinlichkeitsraum(Ω,A, P ),und sei

ν(n1, . . . , nk) = P [N1 = n1, . . . , Nk = nk].

Die erzeugende Funktiondes Zufallsvektors(N1, . . . , Nn) bzw. der Wahrscheinlichkeitsvertei-

lungν auf0, 1, 2, . . .k ist die durch

G(s1, . . . , sk) = E[sN11 sN2

2 · . . . · sNkk ] =

∞∑

n1,...,nk=0

ν(n1, . . . , nk) · sn11 s

n22 · . . . · snk

k

definierte FunktionG : [0, 1]k → [0, 1].

Die gemeinsame Verteilungν ist ähnlich wie im eindimensionalen Fall eindeutig durch die er-

zeugende Funktion festgelegt, denn fürn1, . . . , nk ∈ 0, 1, 2, . . . gilt:

ν(n1, . . . , nk) =1

n1! · . . . · nk!· ∂

n1+n2+...+nk

∂n1s1 · . . . · ∂nk

sk

(0, . . . , 0).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 347: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.4. RECHNEN MIT BEDINGTEN ERWARTUNGEN; POISSONPROZESS 347

Beweis.O.B.d.A. können wirS =k⋃

i=1

Ai annehmen. Wir berechnen für diesen Fall die erzeu-

gende Funktion der gemeinsamen Verteilung vonN(A1), . . . , N(Ak). Für s1, . . . , sk ∈ [0, 1)

giltk∏

j=1

sN(Aj)j =

Z∏

i=1

k∏

j=1

sIAj

(Xi)

j ,

also wegen der Unabhängigkeit vonZ und denXi:

E

[k∏

j=1

sN(Aj)j

∣∣∣∣∣ Z]

=Z∏

i=1

E

[k∏

j=1

sIAj

(Xi)

j

]=

(k∑

j=1

sj · µ[Aj]

)Z

.

Hierbei haben wir im letzten Schritt verwendet, dass das Produkt überj gleichsj ist, fallsXi in

der MengeAj liegt. DaZ Poisson-verteilt ist mit Parameterν(S), erhalten wir

E

[k∏

j=1

sN(Aj)j

]= GZ

(k∑

j=1

sj · µ[Aj]

)

= exp

(ν(S) ·

(k∑

j=1

sj · µ[Aj]− 1

))

=k∏

j=1

exp (ν(Aj) · (sj − 1)) ,

d.h. die erzeugende Funktion von(N(A1), . . . , N(Ak)) ist das Produkt der erzeugenden Funk-

tionen von Poissonverteilungen mit Parameternν(Aj). Hieraus folgt, dass die gemeinsame Ver-

teilung der ZufallsvariablenN(A1), . . . , N(Ak) das Produkt dieser Poissonverteilungen ist.

Poissonsche Punktprozesse bezeichnet man auch synonym alsräumliche Poissonprozesse, Pois-

sonsche Zufallsmaße, oderPoissonsche Felder. Sie spielen eine wichtige Rolle bei der Model-

lierung zufälliger räumlicher Strukturen, z.B. in der stochastischen Geometrie. Satz 10.13 liefert

uns einen einfachen Algorithmus zur Simulation Poissonscher Punktprozesse. Graphik??wurde

mit diesem Algorithmus erzeugt. Als eindimensionalen Spezialfall von Satz 10.13 erhalten wir

eine alternative Konstruktion von zeitlichen Poissonprozessen:

Korollar 10.14. Seienλ, a ∈ (0,∞). SindZ,U1, U2, . . . unabhängige Zufallsvariablen mit Ver-

teilungenZ ∼ Poisson(λ · a) undU1, U2, . . . ∼ Unif(0,a), dann ist

Nt :=Z∑

i=1

I[0,t](Ui), 0 ≤ t ≤ a,

ein Poissonprozess mit Intensitätλ.

Universität Bonn Wintersemester 2009/2010

Page 348: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

348 KAPITEL 10. BEDINGTE ERWARTUNGEN

Beweis.Es giltNt = N([0, t]), wobeiN der wie in (10.4.7) definierte Poissonsche Punktprozess

auf S = [0, a] mit homogenem Intensitätsmaßλ · dt ist. Nach Satz 10.13 folgt, dass für jede

Partition0 ≤ t0 < t1 < . . . < tk ≤ a die Inkremente

Ntj −Ntj−1= N((tj−1, tj]), 1 ≤ j ≤ k,

unabhängig und Poisson(λ · (tj − tj−1))-verteilt sind.

Poissonsche Punktprozesse lassen sich durch verschiedeneTransformationen wieder in Poisson-

sche Punktprozesse überführen. Bildet man beispielsweise die PunkteXi, 1 ≤ i ≤ Z, eines

Poissonschen PunktprozessesN mit Intensitätsmaßν mit einer (messbaren) Abbildungφ ab,

dann erhält man einen Poissonschen Punktprozess

N(A) :=Z∑

i=1

δφ(Xi)[A] =Z∑

i=1

IA(φ(Xi)) =Z∑

i=1

Iφ−1(A)(Xi)

mit Intensitätsmaßν = ν φ−1. Zudem gilt eine Ausdünnungseigenschaft:

SeienZ,X1, X2, . . . , U1, U2, . . . unabhängige Zufallsvariablen mit Verteilungen

Z ∼ Poisson(ν(S)), Xi ∼ν

ν(S), Ui ∼ Unif(0,1),

und seiα : S → [0, 1] eine messbare Funktion (Akzeptanzwahrscheinlichkeit). Wir konstruieren

einen ausgedünnten PunktprozessNα, indem wir einen PunktXi nur mit Wahrscheinlichkeit

α(Xi) berücksichtigen:

Nα :=Z∑

i=1

IUi≤α(Xi)δXi.

Satz 10.15(Färbungssatz, Ausdünnungseigenschaft). Nα ist ein Poissonscher Punktprozess

mit Intensitätsmaßα(x)ν(dx).

Der Beweis wird dem Leser als Übung überlassen. Bemerkenswertist unter Anderem, dass die

beschriebene Konstruktion eine Kopplung von Poissonprozessen mit verschiedenen Intensitäts-

maßen, d.h. eine simultane Konstruktion dieser Prozesse auf einem gemeinsamen Wahrschein-

lichkeitsraum ermöglicht.

10.5 Bedingte Erwartung als besteL2-Approximation

In diesem Abschnitt zeigen wir, dass sich die bedingte Erwartung einer quadratintegrierbaren

ZufallsvariableX gegeben eineσ-AlgebraF charakterisieren lässt als beste Approximation von

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 349: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.5. BEDINGTE ERWARTUNG ALS BESTEL2-APPROXIMATION 349

X im Unterraum derF-messbaren quadratintegrierbaren Zufallsvariablen, bzw. als orthogonale

Projektion vonX auf diesen Unterraum. Neben naheliegenden Anwendungen aufnichtlineare

Prognosen liefert uns dies auch einen einfachen Existenzbeweis für die bedingte Erwartung.

Jensensche Ungleichung

Die Jensensche Ungleichung gilt auch für bedingte Erwartungen.

Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum,X ∈ L1(Ω,A, P ) eine integrierbare Zufallsvariable

undF ⊆ A eineσ-Algebra.

Satz 10.16(Jensen). Ist u : R → R eine konvexe Funktion mitu(X) ∈ L1 oderu ≥ 0, dann gilt

E[u(X) | F ] ≥ u(E[X | F ]) P -fast sicher.

Beweis.Jede konvexe Funktionu lässt sich als Supremum von abzählbar vielen affinen Funktio-

nen darstellen, d.h. es gibtan, bn ∈ R mit

u(x) = supn∈N

(anx+ bn) für allex ∈ R.

Zum Beweis betrachtet man die Stützgeraden an allen Stellen einer abzählbaren dichten Teil-

menge vonR, siehe z.B. [Williams: Probability with martingales, 6.6].Wegen der Monotonie

und Linearität der bedingten Erwartung folgt

E[u(X) | F ] ≥ E[anX + bn | F ] = an · E[X | F ] + bn

P -fast sicher für allen ∈ N, also auch

E[u(X) | F ] ≥ supn∈N

(an · E[X | F ] + bn) P -fast sicher.

Korollar 10.17 (Lp-Kontraktivität ). Die AbbildungX 7→ E[X | F ] ist eine Kontraktion auf

Lp(Ω,A, P ) für alle p ≥ 1, d.h.

E [|E[X | F ]|p] ≤ E[|X|p] für alleX ∈ L1(Ω,A, P ).

Beweis.Nach der Jensenschen Ungleichung gilt:

|E[X | F ]|p ≤ E[|X|p | F ] P -fast sicher.

Die Behauptung folgt durch Bilden des Erwartungswertes.

Im Beweis des Korollars haben wir insbesondere gezeigt, dassfür eine ZufallsvariableX ∈ Lp

auch die bedingte ErwartungE[X | F ] in Lp enthalten ist. Wir beschränken uns nun auf den Fall

p = 2.

Universität Bonn Wintersemester 2009/2010

Page 350: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

350 KAPITEL 10. BEDINGTE ERWARTUNGEN

Bedingte Erwartung als besteL2-Prognose

Der RaumL2(Ω,A, P ) = L2(Ω,A, P )/ ∼ der Äquivalenzklassen von quadratintegrierbaren

Zufallsvariablen ist ein Hilbertraum mit Skalarprodukt(X, Y )L2 = E[XY ]. Ist F ⊆ A ei-

ne Unter-σ-Algebra, dann istL2(Ω,F , P ) ein abgeschlossener Unterraumvon L2(Ω,A, P ),denn Grenzwerte vonF-messbaren Zufallsvariablen sind wiederF-messbar. Nach der Jensen-

schen Ungleichung ist fürX ∈ L2(Ω,A, P ) jede Version der bedingten ErwartungE[X | F ]

im UnterraumL2(Ω,F , P ) derF-messbaren quadratintegrierbaren Zufallsvariablen enthalten.

Außerdem respektiert die bedingte Erwartung Äquivalenzklassen, s. Satz 10.7. Die Zuordnung

X 7→ E[X | F ] definiert also eine lineare Abbildung vom HilbertraumL2(Ω,A, P ) der Äquiva-

lenzklassen auf den UnterraumL2(Ω,F , P ).

Satz 10.18.Für Y ∈ L2(Ω,F , P ) sind äquivalent:

(1). Y ist eine Version der bedingten ErwartungE[X | F ].

(2). Y ist eine „beste Approximation“ von X im UnterraumL2(Ω,F , P ), d.h.

E[(X − Y )2] ≤ E[(X − Z)2] für alleZ ∈ L2(Ω,F , P ).

(3). Y ist eine Version derorthogonalen ProjektionvonX auf den UnterraumL2(Ω,F , P ) ⊆L2(Ω,A, P ), d.h.

E[(X − Y ) · Z] = 0 für alleZ ∈ L2(Ω,F , P ).

L2(Ω,F , P )

L2(Ω,A, P )X

0

E[X | F ]

Abbildung 10.8: Darstellung vonX 7→ E[X | F ] als orthogonale Projektion auf den Unterraum

L2(Ω,F , P ).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 351: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.5. BEDINGTE ERWARTUNG ALS BESTEL2-APPROXIMATION 351

Beweis.(1) ⇐⇒ (3): FürY ∈ L2(Ω,F , P ) gilt:

Y ist eine Version vonE[X | F ]

⇐⇒ E[Y · IA] = E[X · IA] für alleA ∈ F⇐⇒ E[Y · Z] = E[X · Z] für alleZ ∈ L2(Ω,F , P )⇐⇒ E[(X − Y ) · Z] = 0 für alleZ ∈ L2(Ω,F , P )

Hierbei zeigt man die zweite Äquivalenz mit den üblichen Fortsetzungsverfahren (maß-

theoretische Induktion).

(3)⇒ (2): SeiY eine Version der orthogonalen Projektion vonX auf L2(Ω,F , P ). Dann gilt

für alleZ ∈ L2(Ω,F , P ):

E[(X − Z)2] = E[((X − Y ) + (Y − Z))2]

= E[(X − Y )2] + E[(Y − Z)2] + 2E[(X − Y ) (Y − Z)︸ ︷︷ ︸∈L2(Ω,F ,P )

]

≥ E[(X − Y )2]

Hierbei haben wir im letzten Schritt verwendet, dassY − Z im UnterraumL2(Ω,F , P )enthalten, also orthogonal zuX − Y ist.

(2)⇒ (3): Ist umgekehrtY eine beste Approximation vonX inL2(Ω,F , P ) undZ ∈ L2(Ω,F , P ),dann gilt

E[(X − Y )2] ≤ E[(X − Y + tZ)2]

= E[(X − Y )2] + 2tE[(X − Y )Z] + t2E[Z2]

für alle t ∈ R, alsoE[(X − Y ) · Z] = 0.

Die Äquivalenz von (2) und (3) ist eine bekannte funktionalanalytische Aussage: die beste Appro-

ximation eines Vektors in einem abgeschlossenen Unterraumeines Hilbertraums ist die orthogo-

nale Projektion des Vektors auf diesen Unterraum. Die dahinterstehende geometrische Intuition

verdeutlicht man sich leicht anhand von Abbildung 10.8.

Satz 10.18 rechtfertigt die Verwendung der bedingten Erwartung als Prognoseverfahren. Bei-

spielsweise istE[X | Y ] nach dem Faktorisierungslemma die besteL2-Prognose fürX unter

allen Funktionen vom Typg(Y ), g : R → R messbar.

Universität Bonn Wintersemester 2009/2010

Page 352: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

352 KAPITEL 10. BEDINGTE ERWARTUNGEN

Beispiel(Nichtlineare Prognose). SeienS, T : Ω → R+ unabhängige Zufallsvariablen, die zum

Beispiel die Ausfallzeiten zweier Komponenten eines Systems beschreiben.S sei exponential-

verteilt mit Parameterλ > 0 - die Verteilung vonT ist beliebig. Angenommen, wir können nur

den Ausfall der einen Komponente (mit AusfallzeitT ) beobachten, und wir möchten den Wert

der ersten Ausfallzeit

X = min(T, S)

aufgrund des beobachteten WertesT (ω) prognostizieren. Nach Satz 10.18 ist der beste Progno-

sewert fürX bzgl. des mittleren quadratischen Fehlers durch

X(ω) = E[X | T ](ω)

gegeben. Explizit erhalten wir wegen der Unabhängigkeit von T undS:

E[X | T ](ω) = E[min(T (ω), S)]

=

∞∫

0

min(T (ω), s)λe−λs ds

=

T (ω)∫

0

sλe−λs ds+

∞∫

T (ω)

T (ω)λe−λs ds

=1

λ(1− e−λT (ω)) für P -fast alleω.

Die beste Prognose im quadratischen Mittel hängt also in diesem Fallnichtlinear von T ab.

Sie unterscheidet sich damit von derbesten linearen Prognose(Regressionsgerade), die wie in

Abschnitt 6.3 gezeigt durch

Xlin = aT + b mit a =Cov[X,T ]

Var[T ], b = E[X]− aE[T ]

gegeben ist. Dass sichX und Xlin unterscheiden ist die Regel. Eine wichtige Ausnahme ergibt

sich, wenn die gemeinsame Verteilung vonX undT eine Gaußverteilung ist - in diesem Fall ist

die besteL2 PrognoseE[X | T ] stets eine affine Funktion vonT .

Existenz der bedingten Erwartung

Durch die Charakterisierung der bedingten Erwartung als besteL2-Approximation ergibt sich die

Existenz der bedingten Erwartung einer quadratintegrierbaren Zufallsvariable unmittelbar aus der

Existenz der Bestapproximation eines Vektors in einem abgeschlossenen Unterraum eines Hil-

bertraums. Durch monotone Approximation folgt hieraus dieExistenz der bedingten Erwartung

auch für beliebige nichtnegative bzw. integrierbare Zufallsvariablen:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 353: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

10.5. BEDINGTE ERWARTUNG ALS BESTEL2-APPROXIMATION 353

Satz 10.19.Für jede ZufallsvariableX ≥ 0 bzw.X ∈ L1(Ω,A, P ) und jedeσ-AlgebraF ⊆ Aexistiert eine Version der bedingten ErwartungE[X | F ].

Beweis. (1). Wir betrachten zunächst den FallX ∈ L2(Ω,A, P ). Wie eben bemerkt, ist der

RaumL2(Ω,F , P ) ein abgeschlossener Unterraum des HilbertraumsL2(Ω,A, P ). Seid =

inf‖Z − X‖L2 | Z ∈ L2(Ω,F , P ) der Abstand vonX zu diesem Unterraum. Um zu

zeigen, dass eine beste Approximation vonX in L2(Ω,F , P ) existiert, wählen wir eine

Folge(Xn) aus diesem Unterraum mit‖Xn − X‖L2 → d. Mithilfe der Parallelogramm-

Identität folgt fürn,m ∈ N:

‖Xn −Xm‖2L2 = ‖(Xn −X)− (Xm −X)‖2L2

= 2 · ‖Xn −X‖2L2 + 2 · ‖Xm −X‖2L2 − ‖(Xn −X) + (Xm −X)‖2L2

= 2 · ‖Xn −X‖2L2︸ ︷︷ ︸→d2

+2 · ‖Xm −X‖2L2︸ ︷︷ ︸→d2

−4

∥∥∥∥Xn +Xm

2−X

∥∥∥∥2

L2︸ ︷︷ ︸≤d2

,

und damit

lim supn,m→∞

‖Xn −Xm‖2L2 ≤ 0.

Also ist die Minimalfolge(Xn) eine CauchyLfolge in dem vollständigen RaumL2(Ω,F , P ),d.h. es existiert einY ∈ L2(Ω,F , P ) mit

‖Xn − Y ‖L2 → 0.

FürY gilt

‖Y −X‖L2 = ‖ limn→∞

Xn −X‖L2 ≤ lim infn→∞

‖Xn −X‖L2 ≤ d,

d.h.Y ist die gesuchte Bestapproximation, und damit eine Version der bedingten Erwartung

E[X | F ].

(2). Für eine beliebige nichtnegative ZufallsvariableX auf (Ω,A, P ) existiert eine monoton

wachsende Folge(Xn) nichtnegativer quadratintegrierbarer ZufallsvariablenmitX = supXn.

Man verifiziert leicht, dasssupnE[Xn | F ] eine Version vonE[X | F ] ist.

(3). Entsprechend verifiziert man, dass für allgemeineX ∈ L1(Ω,A, P ) durchE[X | F ] =

E[X+ | F ]− E[X− | F ] eine Version der bedingten Erwartung gegeben ist.

Universität Bonn Wintersemester 2009/2010

Page 354: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 11

Markovketten

In diesem Kapitel werden wir Markovketten genauer untersuchen. Ein wichtiges Hilfsmittel dabei

ist der Zusammenhang von Markovketten und Differenzengleichungen.

11.1 Grundlagen

Sei(S,S) ein messbarer Raum. Eine FolgeX0, X1, . . . von auf einem Wahrscheinlichkeitsraum

(Ω,A, P ) definierten ZufallsvariablenXn : Ω → S heißt(zeitdiskreter) stochastischer Prozess

mit Zustandsraum S. Den Index „n“ interpretieren wir entsprechend als „Zeit.“ Fürm ≤ n

setzen wir:

Xm:n := (Xm, Xm+1, . . . , Xn).

Seien nunpn(x, dy), n = 1, 2, 3, . . . , stochastische Kerne auf(S,S). Wir verwenden die Notation

(pnf)(x) :=

∫pn(x, dy)f(y)

für den Erwartungswert einer messbaren Funktionf : S → R bzgl. der Wahrscheinlichkeitsver-

teilungpn(x, •). Insbesondere gilt

(pnIA)(x) = pn(x,A) für alleA ∈ S.

Definition. Ein stochastischer Prozess(Xn) mit ZustandsraumS heißtMarkovkette mit Über-

gangswahrscheinlichkeitenpn(x, dy), falls gilt:

P [Xn+1 ∈ A |X0:n] = pn+1(Xn, A) P -f.s. für alleA ∈ S undn ≥ 0, (11.1.1)

bzw. dazu äquivalent

E[f(Xn+1) |X0:n] = (pn+1f)(Xn) P -f.s. für alleS-messbarenf : S → R+ undn ≥ 0.

(11.1.2)

354

Page 355: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.1. GRUNDLAGEN 355

Die Markovkette heißtzeitlich homogen, falls pn nicht vonn abhängt. Die Verteilung vonX0

heißtStartverteilungder Markovkette. GiltP X−10 = δx, dann sagen wir, dieMarkovkette

startet inx.

Die Äquivalenz von (11.1.1) und (11.1.2) ergibt sich durch maßtheoretische Induktion. Die defi-

nierende Eigenschaft (11.1.1) besagt, dass bedingt aufXn der nächste ZustandXn+1 unabhängig

vonX0, . . . , Xn−1 mit Verteilungpn+1(Xn, •) ist. Eine Markovkette „vergisst“ also den vorheri-

gen Verlauf bis zur Zeitn− 1, und startet in jedem Schritt neu im gegenwärtigen ZustandXn.

Bemerkung. Allgemeiner heißt ein stochastischer Prozess(Xn) Markovkette, falls

P [Xn+1 ∈ A |X0:n] = P [Xn+1 ∈ A |Xn] P -f.s. für alleA ∈ S undn ≥ 0 (11.1.3)

gilt. Die Existenz eines Übergangskerns folgt aus (11.1.3)unter Regularitätsvoraussetzungen an

(S,S), z.B. fallsS ein polnischer (d.h. vollständiger separabler metrischer) Raum ist mit Borel-

scherσ-AlgebraS = B(S).

Beispiel (Diskreter Zustandsraum). Ist S abzählbar, dann können wir einen stochastischen

Kern pn aufS mit der stochastischen Matrixpn(x, y) = pn(x, y) identifizieren. Ein stochasti-

scher Prozess(Xn) ist genau dann eine Markovkette mit Übergangsmatrizenpn(x, y), wenn

P [Xn+1 = xn+1 |X0:n = x0:n] = pn+1(xn, xn+1)

für allex0, . . . , xn+1 ∈ S mit P [X0:n = x0:n] 6= 0 gilt.

Zufällige dynamische Systeme als Markovketten, Beispiele

Markovketten erhält man insbesondere als zufällige Störungen dynamischer Systeme.

Sei(T, T ) ein messbarer Raum. Wir betrachten einen stochastischen Prozess(Xn) mit Zustands-

raumS, der rekursiv durch

Xn+1 = Φn+1(Xn,Wn+1), n = 0, 1, 2, . . . ,

definiert ist, wobeiX0 : Ω → S undW1,W2, . . . ; Ω → T unabhängige Zufallsvariablen auf

einem Wahrscheinlichkeitsraum(Ω,A, P ), undΦ : S × T → S, n ∈ N, messbare Abbildungen

sind. Die AbbildungenΦn beschreiben das Bewegungsgesetz des dynamischen Systems, und die

ZufallsvariablenWn die zufälligen Einflussfaktoren (Rauschen, noise).

Satz 11.1. (1). (Xn) ist eine Markovkette mit Übergangswahrscheinlichkeiten

pn(x,A) = P [Φn(x,Wn) ∈ A], x ∈ S,A ∈ S.

Universität Bonn Wintersemester 2009/2010

Page 356: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

356 KAPITEL 11. MARKOVKETTEN

(2). Hängen die AbbildungenΦn nicht vonn ab, und sind die ZufallsvariablenWn identisch

verteilt, dann ist die Markovkette(Xn) zeitlich homogen.

Beweis. (1). Fürn ≥ 0 istX0:n eine Funktion vonX0,W1,W2, . . . ,Wn. Also istWn+1 unab-

hängig vonX0:n, und fürA ∈ S folgt

P [Xn+1 ∈ A |X0:n](ω) = P [Φn+1(Xn,Wn+1) ∈ A |X0:n](ω)

= P [Φn+1(Xn(ω),Wn+1) ∈ A] = pn+1(Xn(ω), A)

für P -fast alleω ∈ Ω.

(2). HängenΦn und die Verteilung vonWn nicht vonn ab, dann hängt auchpn nicht vonn ab,

d.h. die Markovkette ist zeitlich homogen.

Beispiel. (1). Random Walks aufZd bzw.Rd: Sind die ZufallsvariablenWn unabhängig und

identisch verteilt mit Werten inZd oderRd, dann wird durch

Xn+1 = Xn +Wn+1, X0 = x,

eind-dimensionaler Random Walk definiert.(Xn)n ist eine zeitlich homogene Markovkette

mit Start inx und Übergangskernp(x, •) = µ τ−1x , wobeiµ die Verteilung vonWn und

τx(y) = y + x die Translation umx ist.

(2). Random Walk auf0, 1, 2, . . . mit Reflexion bzw. Absorption bei0: Durch

Xn+1 =

Xn +Wn+1 fallsXn > 0

1 bzw.0 fallsXn = 0

mit unabhängigen, identisch verteilten ZufallsvariablenWn mit P [Wn = 1] = p und

P [Wn = −1] = 1 − p, p ∈ [0, 1], wird ein Random Walk auf0, 1, 2, . . . definiert,

der bei0 reflektiert bzw. absorbiert wird.(Xn) ist eine zeitlich homogene Markovkette mit

Übergangswahrscheinlichkeiten wie in Graphik 11.1 dargestellt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 357: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.1. GRUNDLAGEN 357

1

1− p

p

1− p

p

1− p

p

1− p

p

1− p

p

1− p

p

1− p

0

Random Walk mit Reflexion bei0.

1− p

p

1− p

p

1− p

p

1− p

p

1− p

p

1− p

p

1− p

01 0

Random Walk mit Absorption bei0.

Abbildung 11.1: Darstellung der Übergangswahrscheinlichkeiten von Random Walks auf

0, 1, 2, . . . mit Reflexion bzw. Absorption in0.

(3). Warteschlange mit einem Server:In einer einfachen Warteschlange wird pro Zeiteinheit ein

Kunde bedient, währendAn neue Kunden ankommen. Die AnzahlenAn der Ankünfte in

einer Bedienzeit sind unabhängige Zufallsvariablen mit Werten in0, 1, 2, . . .. Die Zahl

Xn der wartenden Kunden ist dann eine Markovkette mit Übergangsmechanismus

Xn+1 = (Xn − 1 + An+1)+.

(4). Autoregressive Prozesse:Ein AR(p)-Prozess mit Parameternε, α1, . . . , αp ∈ R ist durch

die Rekursionsformel

Xn =

p∑

i=1

αiXn−i + ε ·Wn, n ≥ p,

mit unabhängigen, standardnormalverteilten ZufallsvariablenWn gegeben. Fürp = 1 er-

gibt sich eine zeithomogene Markovkette mit Übergangskern

p(x, ·) = N(α1x, ε2).

Universität Bonn Wintersemester 2009/2010

Page 358: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

358 KAPITEL 11. MARKOVKETTEN

Für p ≥ 2 undαp, ε 6= 0 ist derAR(p)-Prozess dagegen keine Markovkette, da der nächs-

te Zustand nicht nur vom gegenwärtigen Zustand, sondern auch vom vorherigen Verlauf

abhängt. Wir können jedoch eine Markovkette erhalten, indem wir stattXn die aus den

letztenp Zuständen gebildeten Vektoren

Xn = (Xn, Xn−1, . . . , Xn−p+1), n = p− 1, p, p+ 1, . . . ,

betrachten.(Xn) ist eine zeithomogene Markovkette mit ZustandsraumSp, denn fürn ≥ p

gilt

Xn =

α1 α2 α3 · · · αp

1 0 0 · · · 0

0 1 0 · · · 0...

.. ....

0 · · · 0 1 0

Xn−1 + ε ·

Wn

0...

0

.

(5). Galton-Watson-Verzweigungsprozesse:Der Galton-Watson-Prozess ist eine zeithomogene

Markovkette aufS = 0, 1, 2, . . ., denn fürn ≥ 0 gilt

Zn =

Zn−1∑

i=1

Nni

mit unabhängigen, identisch verteilten ZufallsvariablenNni (i, n ∈ N). Als Übergangskern

ergibt sich

p(k, •) = P (

k∑

i=1

Nni

)−1

= ν∗k,

wobeiν∗k diek-fache Faltung der Nachkommensverteilungν = P (Nni )

−1 ist.

(6). Wrightsches Evolutionsmodell:In diesem Modell besteht die Population zu jedem Zeit-

punkt n auf seiner festen Anzahlm von Individuen, von denen jedes genau eines der

Merkmale aus einer endlichen MengeT besitzt. Die Merkmale werden gemäß folgendem

Mechanismus von einer Generation zur nächsten vererbt:

Algorithmus 11.2 (Multinomiales Resampling).

for i := 1, . . . ,m do

erzeugew ∼ Unif1, . . . ,mx(i)n+1 := x

(w)n

end for

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 359: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.1. GRUNDLAGEN 359

Jedes Individuum der Nachkommensgeneration sucht sich also zufällig und unabhängig

voneinander einen Vorfahren in der Elterngeneration, und nimmt dessen Merkmalsausprä-

gungen an. Durch den Algorithmus wird eine Markovkette(Xn) mit ZustandsraumTm

und Übergangskern

p(x, •) =m⊗

i=1

µ(x)

definiert, wobeiµ(x) =1

m

m∑i=1

δx(i) die empirische Verteilung der Merkmalsausprägungen

x = (x(1), . . . , x(m)) in der vorherigen Population ist.

Anstatt die MerkmalsausprägungenX(i)n aller Individuen einer Generation zu betrachten

(„mikroskopische Beschreibung“), genügt es die Häufigkeiten

Hn(a) =∣∣i ∈ 1, . . . ,m : X(i)

n = a∣∣ , a ∈ T,

aller möglichen Merkmalsausprägungena zu notieren („makroskopische Beschreibung“).

Die HistogrammvektorenHn = (Hn(a))a∈T bilden eine zeithomogene Markovkette mit

Werten im Raum Hist(m,T ) der Histogramme vonm Beobachtungswerten ausT . Der

Übergangskern ist durch

p(h, •) = Mult

(h

/∑

a∈Sh(a)

), h ∈ Hist(m,T ),

gegeben, d.h. der Histogrammvektor im nächsten Schritt istmultinomialverteilt mit Ergeb-

niswahrscheinlichkeiten der Merkmalsausprägungena ∈ T proportional zu den Häufig-

keitenh(a) im letzten Schritt. Dies erklärt auch die Bezeichnung „Multinomiales Resamp-

ling.“ Multinomiale Resamplingschritte werden u.a. in genetischen Algorithmen und se-

quentiellen Monte-Carlo Verfahren eingesetzt.

Aus der Darstellung von Markovketten als zufällige dynamische Systeme ergibt sich unmittelbar

ein explizites Konstruktionsverfahren für Markovketten mit ZustandsraumR:

Seienµ eine Wahrscheinlichkeitsverteilung undpn, n ∈ N, stochastische Kerne auf(R,B(R)).Wir betrachten die linksstetigen Inversen

G0(u) = infc ∈ R : F0(c) ≥ u und

Gn(x, u) = infc ∈ R : Fn(x, c) ≥ u

der VerteilungsfunktionenF0(c) = µ[(−∞, c)] undFn(x, c) = pn(x , (−∞, c]) der Wahrschein-

lichkeitsverteilungenµ undpn(x, •). Aus Satz 11.1 und Satz 4.20 folgt unmittelbar:

Universität Bonn Wintersemester 2009/2010

Page 360: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

360 KAPITEL 11. MARKOVKETTEN

Korollar 11.3 (Existenzsatz und Konstruktionsverfahren für Markovketten). SeiU0, U1, U2, . . .

eine Folge von unabhängigen, auf(0, 1) gleichverteilten Zufallsvariablen auf einem Wahrschein-

lichkeitsraum(Ω,A, P ). Dann ist der durch

X0 = G0(U0), Xn+1 = Gn+1(Xn, Un+1)

definierte stochastische Prozess eine Markovkette mit Startverteilungµ und Übergangskernenpn.

Bemerkung. Auch auf anderen Zustandsräumen kann man Markovketten oft auf ähnliche Wei-

se explizit konstruieren, siehe z.B. die Übung für den diskreten Fall. Die Konstruktion liefert

unmittelbar einen Algorithmus zur Simulation der Markovkette:

Algorithmus 11.4 (Simulation einer reellwertigen Markovkette).

erzeugeU0 ∼ Unif(0, 1); y0 := G0(u0)

for n := 1, 2, . . . do

erzeugeun ∼ Unif(0, 1); yn := Gn(yn−1, un)

end for

Endlichdimensionale Randverteilung eine Markovkette

Wir wollen nun Verteilungen von Markovketten berechnen. Sei (Xn) ein auf einem Wahrschein-

lichkeitsraum(Ω,A, P ) definierter stochastischer Prozess mit Zustandsraum(S,S).

Satz 11.5.Es sind äquivalent:

(1). (Xn) ist eine Markovkette mit Übergangswahrscheinlichkeitenpn und Startverteilungµ.

(2). Für jedesn ≥ 0 hat (X0, X1, . . . , Xn) die Verteilung

µ(dx0)p1(x0, dx1)p2(x1, dx2) · . . . · pn(xn−1, dxn),

d.h. für alle messbaren Funktionenf : Sn+1 → R+ gilt

E[f(X0, . . . , Xn)] =

∫µ(dx0)

∫p1(x0, dx1) · · ·

∫pn(xn−1, dxn)f(x0, . . . , xn).

(11.1.4)

Beweis.„(1) ⇒ (2)“ : Ist (Xn) eine Markovkette mit Startverteilungµ und Übergangskernen

pn, dann gilt fürn ∈ N undB0, . . . , Bn ∈ S:

P [X0:n ∈ B0 × . . .×Bn] = E [P [Xn ∈ Bn |X0:n−1] ; X0:n−1 ∈ B0 × . . .×Bn−1]

=

B0×...×Bn−1

p(xn−1, Bn) µX0:n−1(dx0:n−1).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 361: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.1. GRUNDLAGEN 361

Durch Induktion nachn folgt

P [X0:n ∈ B0 × . . .×Bn] =

Bn

· · ·∫

B1

B0

µ(dx0)p1(x0, dx1) · . . . · pn(xn−1, dxn)

für allen ≥ 0 undBi ∈ S. Also giltX0:n ∼ µ⊗ p1 ⊗ . . .⊗ pn, und damit (11.1.4).

„(2) ⇒ (1)“ : Gilt (11.1.4), dann hatX0 die Verteilungµ, und(pn+1f)(Xn) ist für alle messbaren

Funktionenf : S → [0,∞) eine Version der bedingten ErwartungE[f(Xn+1) | X0:n].

Zum Beweis überprüfen wir die definierenden Eigenschaften der bedingten Erwartung:

(pn+1f)(Xn) ist eine Funktion vonX0:n, und es gilt

E[f(Xn+1) · g(X0:n)]

=

∫µ(dx0)

∫p1(x0, dx1) · . . . ·

∫pn(xn−1, dxn)g(x0:n)

∫pn+1(xn, dxn+1)f(xn+1)

=

∫µ(dx0)

∫p1(x0, dx1) · . . . ·

∫pn(xn−1, dxn)g(x0:n)(pn+1f)(xn)

= E[(pn+1f)(Xn) · g(X0:n)]

für alle messbaren Funktioneng : Sn+1 → [0,∞).

Seienµ eine Wahrscheinlichkeitsverteilung,p, q, r stochastische Kerne, undf eine messbare

nicht-negative Funktion auf(S,S). Wir bezeichnen mit

(µp)(dy) =

∫µ(dx)p(x, dy)

die Verteilung der 2. Komponente unter dem Maßµ⊗ p, und mit

(pq)(x, dz) =

∫p(x, dy)q(y, dz)

den stochastischen Kern, der durch Hintereinanderausführen vonp undq entsteht. Aus dem Satz

von Fubini ergeben sich die folgendenRechenregeln für stochastische Kerne:∫f d(µp) =

∫ ∫µ(dx)p(x, dy)f(y) =

∫(pf) dµ (11.1.5)

p(qf) = (pq)f (11.1.6)

(µp)q = µ(pq) (11.1.7)

p(qr) = (pq)r (11.1.8)

Als Verteilung der Markovkette zur Zeitn erhalten wir dementsprechend

P X−1n = µp1p2 · . . . · pn, (11.1.9)

Universität Bonn Wintersemester 2009/2010

Page 362: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

362 KAPITEL 11. MARKOVKETTEN

wobei das Produkt wegen (11.1.7) und (11.1.8) nicht von der Klammerung abhängt.

Ist der ZustandsraumS abzählbar, dann gelten die folgenden Identifikationen:

µ ↔ (µ(x)|x ∈ S) Zeilenvektor

f ↔ (f(x)|x ∈ S) Spaltenvektor

p ↔ (p(x, y)|x, y ∈ S) stochastische Matrix

(µp)(y) =∑x

µ(x)p(x, y) Multiplikation mit Zeilenvektor von links

(pf)(x) =∑y

p(x, y)f(y) Multiplikation mit Spaltenvektor von rechts

(pq)(x, z) =∑y

p(x, y)q(y, z) Matrizenprodukt.

Beispiel (Zeithomogene Markovkette mit endlichem Zustandsraum). Wir betrachten einen

endlichen ZustandsraumS mit k Elementen, und eine stochastische Matrixp, die nicht vonn

abhängt. Die Verteilung zur Zeitn einer zeithomogenen Markovkette mit Startverteilungµ und

Übergangsmatrixp ist dann

P X−1n = µpn.

Um die Verteilung und deren Asymptotik zu berechnen, könnenwir die Spektraldarstellung der

Übergangsmatrix verwenden. Seienλ1, . . . , λk ∈ C die Eigenwerte vonp, d.h. die Nullstellen

des charakteristischen Polynomsχ(λ) = det(p − λI). Da p eine stochastische Matrix ist, gilt

Folgendes:

(1). |λj| ≤ 1 für alle j,

(dies folgt wegen‖pf‖∞ = maxx

∣∣∣∣∑y

p(x, y)f(y)

∣∣∣∣ ≤ ‖f‖∞ für allef ).

(2). λ1 = 1 ist Eigenwert mit Rechtseigenvektorf1 = (1, . . . , 1)T .

(3). Nichtreelle Eigenwerte treten in Paarenλ, λ auf.

Wir nehmen nun der Einfachheit halber an, dass alle Eigenwerte einfach sind, d.h.λi 6= λj für

i 6= j. In diesem Fall existieren Rechts- und Linkseigenvektorenfj, νj (1 ≤ j ≤ k) mit

pfj = λjfj, νjp = λjνj, und 〈νi, fj〉 =∑

x∈Sνi(x)fj(x) = δij .

Mithilfe der aus den Rechts- und Linkseigenvektoren gebildeten Matrizen

U = (f1, . . . , fk), V =

ν1

ν2...

νk

, V · U = I,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 363: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.1. GRUNDLAGEN 363

erhalten wir die Spektraldarstellung

p =k∑

j=1

λjfj ⊗ νj = U

λ1 0 · · · 0

0 λ2.. .

......

. .. .. . 0

0 · · · 0 λk

V,

für die Übergangsmatrixp, und damit auch fürpn:

pn =k∑

j=1

λnj fj ⊗ νj = U

λn1 0 · · · 0

0 λn2. ..

......

. . . . .. 0

0 · · · 0 λnk

V.

Für die Verteilung der Markovkette zur Zeitn ergibt sich

P X−1n =

n∑

j=1

λnj 〈µ, fj〉νj. (11.1.10)

Insbesondere folgt:

Satz 11.6(Exponentielle Konvergenz ins Gleichgewicht). Sind die Eigenwerte einer stochas-

tischen Matrixp ∈ Rk×k einfach, und gilt|λj| < 1 für alle j 6= 1, dann existiert eine Gleichge-

wichtsverteilungν vonp, und für jede Startverteilungµ gilt

µpn = ν +O

(maxj 6=1

|λj|n)

für n→ ∞.

Beweis.Nach (11.1.10) gilt

µpn = 〈µ, f1〉ν1 +k∑

j=2

λnj 〈µ, fj〉νj für allen ≥ 0.

Aus 〈µ, f1〉 = 〈µ, (1, . . . , 1)T 〉 =∑µ(x) = 1 folgt

µpn = ν1 +O

(maxj 6=1

|λj|n)

Insbesondere istν1 = limµpn eine Wahrscheinlichkeitsverteilung mitν1p = ν1, also ein Gleich-

gewicht vonp. Ist umgekehrtµ ein beliebiges Gleichgewicht vonp, dann giltµpn = µ für alle

n ≥ 0, und damit

µ = limn→∞

µpn = ν1.

Universität Bonn Wintersemester 2009/2010

Page 364: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

364 KAPITEL 11. MARKOVKETTEN

Bemerkung. (1). Sind die Eigenwerte nicht einfach, dann folgt eine ähnliche Aussage über die

Jordansche Normalformdarstellung der Übergangsmatrixp. Als Konvergenzgeschwindig-

keit ergibt sich in diesem FallO(nm−1 maxi 6=1

|λi|n), wobeim die größte Multiplizität des

betragsmäßig zweitgrößten Eigenwertes ist (Satz von Perron-Frobenius).

(2). Entscheidend für die exponentielle Konvergenzrate ist die Lücke zwischen dem Eigenwert

1 und dem Rest des Spektrums. Eine entsprechende Aussage kann man auch auf allgemei-

nen Zustandsräumen mithilfe des Spektralsatzes für selbstadjungierte Operatoren zeigen,

falls die Gleichgewichtsverteilung die Detailed Balance Bedingung erfüllt.

Beispiel. (1). Die Übergangsmatrix der Markovkette aus Abbildung 11.2 ist

p =

0 1 0

0 12

12

12

0 12

.

1

1/21/2

1/2

1/2

x1

Abbildung 11.2: Markovkette mit zugehöriger Übergangsmatrix p.

Eigenwerte sindλ1 = 1, λ2 = i/2 undλ3 = −i/2. Es folgt:

pn = A+ B ·(i

2

)n

+ C ·(− i

2

)n

mit MatrizenA,B,C ∈ C3×3. Wegenp0(x1, x1) = 1 und p1(x1, x1) = p2(x1, x1) = 0

folgt

pn(x1, x1) =1

5+

(1

2

)n

·(4

5cos

2− 2

5sin

2

)für allen ≥ 0.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 365: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.1. GRUNDLAGEN 365

Der Wert1/5 ist die erste Komponente des Gleichgewichtsvektorsν1 = (1/5, 2/5, 2/5).

Fürn→ ∞ konvergieren die Übergangswahrscheinlichkeiten mit RateO(2−n) gegenν1.

(2). Die Übergangsmatrix einer deterministischen Rotationauf dem diskreten KreisZ/kZ, k ∈N ist

p =

0 1 0 · · · 0 0

0 0 1 · · · 0 0...

.. . . .....

...

0 0 0 · · · 1 0

0 0 0 · · · 0 1

1 0 0 · · · 0 0

.

Das charakteristische Polynom istχ(λ) = (−1)k · (λk − 1), und die Eigenwerte vonp sind

dementsprechend diek-ten Einheitswurzelnλj = exp(2πi · (j − 1)/k), j = 1, . . . , k. Da

alle Eigenwerte Betrag1 haben, gilt keine exponentielle Konvergenz ins Gleichgewicht.

Tatsächlich ist die Markovkette mit Übergangsmatrixp periodisch:Xn+mk = Xn P -fast

sicher für allen,m ≥ 0.

5

4

3

2

1

1

1

1

1 1

1

1

1

Abbildung 11.3: Darstellung eines gerichteten Graphen einer Markovkette aufZ/mZ.

Verteilung auf dem Pfadraum; kanonisches Modell

In Satz 11.5 haben wir die endlich-dimensionalen VerteilungenP (X0, X1, . . . , Xn)−1 einer

Markovkette(Xn)n≥0 berechnet. Viele relevante Ereignisse hängen aber von unendlich vielen

Universität Bonn Wintersemester 2009/2010

Page 366: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

366 KAPITEL 11. MARKOVKETTEN

der ZufallsvariablenXn ab. Die gemeinsame Verteilung aller dieser Zufallsvariablen ist eine

Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum

S := S0,1,2,... = x = (x0, x1, x2, . . .) | xi ∈ S

aller diskreten Pfade (Folgen) mit Werten inS. Wir versehen die MengeS wie üblich mit der von

den Koordinatenabbildungen

πk : S → S, πk(x) = xk,

erzeugten Produkt-σ-Algebra

F = σ(πk|k ≥ 0) =⊗

k≥0

S.

Einen auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierten stochastischen Prozess(Xn)n≥0

können wir auch als Abbildung

X = (Xn) : Ω → S

auffassen. Die AbbildungX ist eineS-wertige Zufallsvariable, also messbar bzgl. derσ-Algebren

A/F , dennF wird von den Koordinatenabbildungenπk erzeugt, undπk(X) = Xk ist für alle

k ≥ 0 messbar. Wir können daher die Verteilung

µX [A] = P [(Xn) ∈ A], A ∈ F ,

des stochastischen Prozesses(Xn) auf dem Pfadraum(S,F) betrachten.

Wir beschränken uns nun wieder auf Markovketten. Seienp1, p2, . . . stochastische Kerne, undµ

eine Wahrscheinlichkeitsverteilung auf(S,S).

Satz 11.7(Existenz und Eindeutigkeit in Verteilung von Markovketten). (1). Es existiert ge-

nau eine WahrscheinlichkeitsverteilungPµ auf dem unendlichen Produktraum(S,F), bzgl.

der die Folge(πn)n≥0 der Koordinatenabbildungen eine Markovkette mit Startverteilung

µ(dx) und Übergangskernpn(x, dy) ist.

(2). Ist (Xn)n≥0 auf (Ω,A, P ) eine beliebige Markovkette mit Startverteilungµ und Über-

gangswahrscheinlichkeitenpn, dann gilt

P [(Xn) ∈ A] = Pµ[A] für alleA ∈ F ,

d.h.Pµ ist die Verteilung von(Xn) auf (S,F).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 367: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.1. GRUNDLAGEN 367

Bemerkung(Unendliches mehrstufiges Modell). Die VerteilungPµ der Markovkette entspricht

einem mehrstufigen Modell auf dem unendlichen ProduktraumS = S0,1,2,...:

Pµ(dx) = µ(dx0)p1(x0, dx1)p2(x1, dx2) · . . . .

Beweis.Nach Satz 11.5 ist ein stochastischer Prozess(Xn) genau dann eine Markovkette zuµ

undpn, wenn(X0, . . . , Xn) für jedesn ≥ 0 die Verteilung

µ0:n(dx0:n) := µ(dx0)p1(x0, dx1) · . . . · pn(xn−1, dxn)

hat. Zu zeigen ist, dass zu der Familieµ0:n, n ≥ 0, von Wahrscheinlichkeitsverteilungen auf den

endlichdimensionalen ProdukträumenS0,1,...,n eine eindeutige Wahrscheinlichkeitsverteilung

Pµ auf den unendlichen ProduktraumS existiert, bzgl. der die erstenn+1 Koordinatenx0, . . . , xn

für jedesn die Verteilungµ0:n haben. Die Folgeπn(x) = xn der Koordinatenabbildungen ist dann

unterPµ eine Markovkette mit den vorgegebenen Übergangswahrscheinlichkeiten.

Existenz: Die Wahrscheinlichkeitsverteilungenµ0:n auf den endlichdimensionalen Produkträu-

menS0,1,...,n sindkonsistent, d.h. fürm ≤ n stimmt die Verteilung der erstenm+1 Koor-

dinaten unterµ0:n mit µ0:m überein. Aus dem Fortsetzungssatz von Carathéodory folgt nun

allgemein, dass zu einer Familie von konsistenten endlichdimensionalen Verteilungen eine

Wahrscheinlichkeitsverteilung auf dem unendlichen Produktraum mit den entsprechenden

Randverteilungen existiert (Fortsetzungssatz von Kolmogorov). Wir verzichten hier auf den

Beweis dieser maßtheoretischen Aussage, der sich in vielen Lehrbüchern zur Wahrschein-

lichkeitstheorie findet, s. z.B. [Bauer], [Klenke], oder den Anhang in [Durrett: Probability

- Theory and Examples].

Eindeutigkeit: Ein stochastischer Prozess(Xn) auf einem Wahrscheinlichkeitsraum(Ω,A, P )ist genau dann eine Markovkette mit Parameternµ undpn, wenn∫

B0

µ(dx0)

B1

p1(x0, dx1) · · ·∫

Bn

pn(xn−1, dxn) = P [X0 ∈ B0, . . . , Xn ∈ Bn] = P [X ∈ A]

(11.1.11)

für jede Zylindermenge der Form

A = B0 ×B1 × . . .× Bn × S × S × . . . = π0 ∈ B0, . . . , πn ∈ Bn,

mit n ∈ N undB0, . . . , Bn ∈ S gilt. Da die Zylindermengen ein durchschnittsstabiles

Erzeugendensystem der Produkt-σ-AlgebraF bilden, ist die Verteilung vonX auf (S,F)

durch (11.1.11) eindeutig festgelegt.

Universität Bonn Wintersemester 2009/2010

Page 368: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

368 KAPITEL 11. MARKOVKETTEN

IstXn = πn der Koordinatenprozess auf dem Produktraum(Ω,A) = (S,F), dann stimmt

die Verteilung vonX mit dem zugrundeliegenden WahrscheinlichkeitsmaßP überein, d.h.

P ist durch (11.1.11) eindeutig festgelegt.

Bemerkung (Konstruktive Existenzbeweise). Im Fall S = R erhalten wir die Wahrschein-

lichkeitsverteilungPµ auch direkt als Verteilung der im letzten Abschnitt explizit konstruierten

Markovkette(Xn) mit Startverteilungµ und Übergangswahrscheinlichkeitenpn. Auch auf allge-

meineren Zustandsräumen kann man die Existenz vonPµ auf ähnliche Weise aus der Existenz

einer Folge von auf(0, 1) gleichverteilten, unabhängigen Zufallsvariablen herleiten (z.B. durch

eine messbare Transformation des Zustandsraums nachR).

Nach Satz 11.7 können wir eine Markovkette mit beliebigen Übergangswahrscheinlichkeiten

durch die Koordinatenabbildungen auf dem unendlichen ProduktraumS = S0,1,2,... realisie-

ren.

Definition. Der durch die Koordinatenabbildungenπn(x) = xn gegebene stochastische Pro-

zess auf dem Wahrscheinlichkeitsraum(S,F , Pµ) heißt kanonisches Modellder Markovkette

mit Startverteilungµ und Übergangswahrscheinlichkeitenpn.

Allgemein kann man jeden stochastischen Prozess im kanonischen Modell realisieren, indem

man zur Verteilung des Prozesses auf dem Pfadraum übergeht.

11.2 Markoveigenschaft und Differenzengleichungen

In diesem Abschnitt werden wir die wichtige Verbindung von Markovketten und Differenzen-

gleichungen betrachten. Dazu beweisen wir zunächst eine weitergehende Form der definierenden

Eigenschaft einer Markovkette.

Sei(Xn)n≥0 auf (Ω,A, P ) eine Markovkette mit Startverteilungµ und Übergangskernenpn. Ist

(S,S) der Zustandsraum, dann hat(Xn) nach Satz 11.7 die Verteilung

Pµ(dx) = µ(dx0)p1(x0, dx1)p2(x1, dx2) · . . .

auf dem unendlichen ProduktraumS = S0,1,2,.... Wir bezeichnen im Folgenden die Verteilung

Pδx der Markovkette bei Startwertx kurz mitPx. Entsprechend seiP (n)x die Verteilung der Mar-

kovkette mit Start inx und Übergangskernenpn+1, pn+2, . . ..

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 369: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 369

Die Markoveigenschaft

In Erweiterung der definierenden Eigenschaft einer Markovkette können wir sogar die bedingte

Verteilung der umn Schritte verschobenen Kette gegeben den Verlauf bis zur Zeit n identifizie-

ren:

Satz 11.8(Markoveigenschaft). Für alle n ≥ 0 und alleF-messbaren FunktionenF : S →[0,∞) gilt:

E[F (Xn, Xn+1, . . .) |X0:n] = E(n)Xn

[F ] P -fast sicher. (11.2.1)

Bemerkung. (1). Fürzeitlich homogene Markovkettengilt P (n)x = Px für allen.

(2). Für diskrete Zustandsräume ergibt sich, dass(Xn, Xn+1, . . .) unter der bedingten Vertei-

lung gegebeneX0:n = x0:n für jedesn ≥ 0 undx0:n ∈ Sn+1 mit P [X0:n = x0:n] 6= 0 eine

Markovkette mit Start inxn und Übergangskernenpn+1, pn+2, . . . ist.

Beweis.Der Beweis erfolgt in mehreren Schritten:

(1). Wir nehmen zunächst an, dass die FunktionF nur von endlich vielen Variablen abhängt,

d.h.

F (x0, x1, . . .) = f(x0:k) für eink ≥ 0 und eine messbare Funktionf : Sk+1 → R+.

(11.2.2)

In diesem Fall können wir direkt verifizieren, dassE(n)Xn

[F ] eine Version der bedingten

Erwartung in (11.2.1) ist:

(a) Es giltE(n)Xn

[F ] = g(Xn) mit

g(z) = E(n)z [F ] =

∫p1(z, dx1)

∫p2(x1, dx2) · · ·

∫pk(xk−1, dxk)f(x0:k).

Daf : Sk+1 → R+ produktmessbar ist, istg : S → R+ messbar.

(b) Fürn ≥ 0 und eine messbare Funktionh : Sn+1 → R+ gilt

E[F (Xn, Xn+1, . . .)h(X0:n)] = E[f(Xn:n+k)h(X(0:n))]

=

∫µ(dx0)

∫p1(x0, dx1) · · ·

∫pn(xn−1, dxn)h(x0:n)×

×∫pn+1(xn, dxn+1) · · ·

∫pn+k(xn+k−1, dxn+k)f(xn:n+k)

︸ ︷︷ ︸E

(n)Xn

[F ]

= E[E

(n)Xn

[F ] · h(X0:n)].

Universität Bonn Wintersemester 2009/2010

Page 370: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

370 KAPITEL 11. MARKOVKETTEN

(2). Nach (1) gilt (11.2.1) für IndikatorfunktionenF = IA von Zylindermengen der Form

A = x ∈ S : x0 ∈ B0, . . . , xn ∈ Bn mit n ∈ N undB0, . . . , Bn ∈ S. Wir zeigen nun,

dass die Aussage dann auch für Indikatorfunktionen von beliebigen MengenA aus der

Produkt-σ-AlgebraF gilt. Dazu bemerken wir, dass das SystemD aller MengenA ∈ F ,

für die (11.2.1) mitF = IA gilt, ein Dynkinsystem ist. Sind beispielsweiseA1, A2, . . . ∈ Ddisjunkt, dann ist auch

⋃k Ak in D enthalten, denn

E[I⋃Ak(Xn, Xn+1, . . .) |X0:n] =

k

E[IAk(Xn, Xn+1, . . .) |X0:n]

=∑

k

E(n)Xn

[IAk] = E

(n)Xn

[I⋃Ak] P -fast sicher.

Da die Zylindermengen ein durchschnittsstabiles Erzeugendensystem der Produkt-σ-Algebra

bilden, folgtD = F , d.h. (11.2.1) gilt für alleF = IA mit A ∈ F .

(3). Die Aussage (11.2.1) für beliebige nicht-negativeF-messbare FunktionenF folgt nun wie

üblich durch maßtheoretische Induktion.

Bemerkung (Markoveigenschaft im kanonischen Modell). Im kanonischen Modell können

wir die Markoveigenschaft noch etwas kompakter formulieren. Seiθ : S → S die durch

θ(x0, x1, . . .) = (x1, x2 . . .)

definierte Shiftabbildung auf dem PfadraumS, und seienXn : S → S,

Xn(x0, x1, . . .) = xn,

die Koordinatenabbildungen. Dann gilt:

Eµ[F θn |X0:n] = E(n)Xn

[F ] P -fast sicher (11.2.3)

für alle Wahrscheinlichkeitsverteilungenµ auf (S,S) und alle messbaren FunktionenF : S →R+.

Das folgende Korollar liefert eine weitere äquivalente Formulierung der Markoveigenschaft.

Korollar 11.9 (Markoveigenschaft, 2. Version). Ist (Xn) unterP eine Markovkette mit Para-

meternµ undpn, dann ist(Xn, Xn+1, . . .) bedingt unabhängig von(X0, . . . , Xn) gegebenXn

mit bedingter VerteilungP (n)Xn

, d.h.

E[F (Xn, Xn+1, . . .)g(X0, . . . , Xn) |Xn]

= E(n)Xn

[F ] · E[g(X0, . . . , Xn) |Xn]

= E[F (Xn, Xn+1, . . .) |Xn] · E[g(X0, . . . , Xn) |Xn] P -fast sicher

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 371: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 371

für alle messbarenF : S → [0,∞) undg : Sn+1 → [0,∞).

Beweis.Wegen der Projektivität der bedingten Erwartung gilt nach Satz 11.8:

E[F (Xn:∞)g(X0:n) |Xn] = E[E[F (Xn:∞)g(X0:n) |X0:n] |Xn]

= E[E

(n)Xn

[F ]g(X0:n)∣∣∣ Xn

]= E

(n)Xn

[F ] · E[g(X0:n) |Xn].

Das Korollar besagt anschaulich, dass, gegeben den gegenwärtigen ZustandXn, die zukünftige

Entwicklung einer Markovkette bedingt unabhängig von der vorherigen Entwicklung ist:

„Die Zukunft ist bedingt unabhängig von der Vergangenheit gegeben die Gegenwart.“

Beispiel(Das klassische Ruinproblem). Wir wollen nun den Zusammenhang von Markovketten

und Differenzengleichungen zunächst in einem einfachen Beispiel betrachten. In jeder Runde

eines Glücksspiels trete einer der folgenden Fälle ein:

• Mit Wahrscheinlichkeitp ∈ (0, 1) gewinnt der Spieler 1 Euro dazu.

• Mit Wahrscheinlichkeitq = 1− p verliert der Spieler 1 Euro.

Die Entwicklung des KapitalsXn des Spielers kann dann durch einen Random Walk aufZ mit

Übergangswahrscheinlichkeitenp(x, x+1) = p, p(x, x− 1) = q beschrieben werden. Seix ∈ Z

das Startkapital, und seiena, b ∈ Z mit a ≤ x ≤ b. Wir können den Random Walk ohne Be-

schränkung der Allgemeinheit im kanonischen Modell betrachten, d.h.Px ist die Verteilung bei

Startwertx auf dem ProduktraumΩ = Z0,1,2,... undXn(ω) = ωn ist dien-te Koordinatenabbil-

dung.

Das Glücksspiel soll folgende mögliche Ausgänge haben:

• Im FallXn ≤ a ist der Spieler bankrott.

• Im FallXn ≥ b ist der Gegenspieler (bzw. die Spielbank) bankrott.

Die Zeit, zu der eines dieser beiden Ereignisse zum ersten Mal eintritt, wird durch die Zufallsva-

riable

T (ω) := minn ≥ 0 |Xn(ω) ≤ a oder Xn(ω) ≥ b

beschrieben, wobei wirmin ∅ = ∞ setzen. Wegenlim sup |Xn| = +∞ gilt T < ∞ PX-fast

sicher für allex. Also ist der Austrittspunkt

XT (ω) := XT (ω)(ω)

Universität Bonn Wintersemester 2009/2010

Page 372: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

372 KAPITEL 11. MARKOVKETTEN

des Random Walks(Xn) aus dem Intervall(a, b) Px-fast sicher definiert, und mit Wahrschein-

lichkeit 1 gilt XT = a (Spieler bankrott) oderXT = b (Spielbank bankrott). Wegen

XT =∞∑

n=0

Xn · IT=n

ist auchXT eine Zufallsvariable. Uns interessiert dieRuinwahrscheinlichkeit

h(x) := Px[XT = a]

des Spielers bei Startkapitalx. Um diese zu berechnen, bedingen wir auf den ersten Schritt des

Random Walks („first step analysis“). Sei dazu

Xn(ω) := Xn+1(ω) = Xn(θ(ω))

der um einen Schritt verschobene Prozess, und sei

T = minn ≥ 0 | Xn ≤ a oder Xn ≥ b.

Füra < x < b gilt T ≥ 1, also

XT (ω) = XT (ω) = XT (θ(ω)) für alleω ∈ Ω.

Daher folgt mit der Markoveigenschaft:

h(x) = Px[XT = a] = Px[XT θ = a]

= Px[XT θ = a |X1 = x+ 1] · Px[X1 = x+ 1] +

+Px[XT θ = a |X1 = x− 1] · Px[X1 = x− 1](11.2.1)= Px+1[XT = a] · p+ Px−1[XT = a] · q= p · h(x+ 1) + q · h(x− 1).

Die Funktionh hat also diegewichtete Mittelwerteigenschaft

h(x) = p · h(x+ 1) + q · h(x− 1), für allea < x < b.

Diese Eigenschaft ist äquivalent zu den Differenzengleichungen

0 = p · (h(x+ 1)− h(x))− q · (h(x)− h(x− 1)) bzw. (11.2.4)

0 = q((h(x+ 1)− h(x))− (h(x)− h(x− 1))︸ ︷︷ ︸diskrete 2. Ableitung

) + (p− q) (h(x+ 1)− h(x))︸ ︷︷ ︸diskrete 1. Ableitung

.(11.2.5)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 373: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 373

Die gesuchte Ruinwahrscheinlichkeith(x) löst (11.2.3) bzw. (11.2.4) bzw. (11.2.5) mit den Rand-

bedingungen

h(a) = Pa[XT = a] = 1, h(b) = Pb[XT = a] = 0.

Die Lösung der Differenzengleichung können wir leicht berechnen. Dazu verfahren wir ähnlich

wir bei linearen gewöhnlichen Differentialgleichungen. Nach (11.2.4) gilt für die erste Differenz

v(x) := h(x+ 1)− h(x):

v(x) =q

p· v(x− 1) für allea < x < b,

d.h.v(x) = c · (q/p)x für ein c ∈ R. Wir unterscheiden folgende Fälle:

(1). Faire Münzwürfe(p = q = 12): In diesem Fall ist

h(x) = cx+ d mit c, d ∈ R

die allgemeine Lösung von (11.2.4) bzw. (11.2.5). Aus den Randbedingungen folgt:

h(x) =b− x

b− a(a ≤ x ≤ b).

(2). p 6= 12: In diesem Fall erhalten wir

h(x) = c ·(q

p

)x

+ d mit c, d ∈ R

als allgemeine Lösung. Aus den Randbedingungen folgt:

h(x) =

(qp

)b−(

qp

)x

(qp

)b−(

qp

)a =1−

(pq

)b−x

1−(

pq

)b−a.

Wir haben damit die Ruinwahrscheinlichkeit in allen Fällen berechnet. Ist die Erfolgswahrschein-

lichkeit p kleiner als1/2, dann gilt pq< 1 und somith(x) ≥ 1 − (p/q)b−x. Der letzte Ausdruck

hängt nicht von dem Betraga ab, bei dem der Spieler ruiniert ist. Beispielsweise gilt beiRoulette

mit Höchsteinsatz1 stets:

h(x) ≥ 1−(18

19

)b−x

.

Bei genügend kleinem Höchsteinsatz geht also mit an Sicherheit grenzender Wahrscheinlichkeit

der Spieler zuerst bankrott - selbst wenn das Kapital, das ermobilisieren kann, über dem der

Bank liegt!

Universität Bonn Wintersemester 2009/2010

Page 374: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

374 KAPITEL 11. MARKOVKETTEN

Differenzengleichungen für Markovketten

Die beim Ruinproblem verwendete Methode, die Berechnung von Wahrscheinlichkeiten und Er-

wartungswerten von Markovketten durch Konditionieren aufden ersten Schritt auf eine Differen-

zengleichung zurückzuführen, ist viel allgemeiner anwendbar. Wir betrachten im Folgenden eine

beliebige zeithomogene Markovkette(Xn) mit Zustandsraum(S,S) und Übergangskernp(x, dy)

im kanonischen Modell. SeiD ∈ S eine messbare Teilmenge des Zustandsraums, und sei

T (ω) := minn ≥ 0 : Xn(ω) ∈ DC

die erste Trefferzeit vonDC = S \ D, d.h. dieerste Austrittszeit der Markovkette aus dem

GebietD. Hierbei setzen wir wiedermin ∅ = ∞. Wir wollen Erwartungswerte von Typ

u(x) = Ex

[T−1∑

n=0

c(Xn)

]+ Ex [f(XT ) ; T <∞] (11.2.6)

berechnen, wobeic : D → R und f : DC → R gegebene nichtnegative, messbare Funktio-

nen sind. Interpretieren wir beispielsweisec(x) als Kosten, wenn die Markovkette den Punkt

x durchläuft, undf(x) als Zusatzkosten, wenn die Markovkette im Punktx aus der MengeD

austritt, dann gibtu(x) die mittleren Gesamtkosten an, die beim Start inx bis zum Austritt aus

der MengeD anfallen. Man beachte, dass sich eine Reihe wichtiger Wahrscheinlichkeiten und

Erwartungswerte von Markovketten in der Form (11.2.6) darstellen lassen.

Beispiel. (1). c ≡ 0, f ≡ 1: Austrittswahrscheinlichkeit ausD bzw. Trefferwahrscheinlichkeit

vonDC :

u(x) = Px[T <∞].

(2). c ≡ 0, f = IB: Verteilung des AustrittspunktesXT :

u(x) = Px[XT ∈ B ; T <∞].

(3). c ≡ 1, f ≡ 0: Mittlere Austrittszeit ausD:

u(x) = Ex[T ].

(4). c = IB, f ≡ 0: Mittlere Anzahl der Besuche inB vor Austritt ausD:

u(x) = Ex

[T−1∑

n=0

IB(Xn)

]=

∞∑

n=0

Px[Xn ∈ B , n < T ].

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 375: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 375

Satz 11.10(Poissongleichung). u ist die minimale nichtnegative Lösung des Randwertproblems

u(x)− (pu)(x) = c(x) für x ∈ D, (11.2.7)

u(x) = f(x) für x ∈ DC .

Beweis. (1). Wir zeigen zunächst durch Bedingen auf den ersten Schritt, dassu das Randwert-

problem löst. Dazu betrachten wir – wie oben – die verschobene MarkovketteXn = Xn+1

und die entsprechende AustrittszeitT = minn ≥ 0 : Xn ∈ DC. Fürx ∈ D gilt Px-fast

sicherT ≥ 1, also

XT = XT undT−1∑

n=0

c(Xn) = c(X0) +T−1∑

n=0

c(Xn).

Damit erhalten wir unter Verwendung der Markoveigenschaft:

Ex

[T−1∑

n=0

c(Xn) + f(XT ) · IT<∞

∣∣∣∣∣ X1

]

= Ex

c(x) +

T−1∑

n=0

c(Xn) + f(XT ) · IT<∞

∣∣∣∣∣∣X1

= c(x) + EX1

[T−1∑

n=0

c(Xn) + f(XT ) · IT<∞

]

= c(x) + u(X1) P -fast sicher,

wobei wirf(XT ) · IT<∞ := 0 aufT = ∞ setzen. Durch Bilden des Erwartungswertes

bzgl.Px ergibt sich:

u(x) = c(x) + Ex[u(X1)] = c(x) + (pu)(x) für allex ∈ D.

Fürx ∈ DC gilt T = 0 Px-fast sicher, und damit

u(x) = Ex[f(X0)] = f(x) für allex ∈ DC .

Also löstu das Randwertproblem (11.2.7).

(2). Sei nunv ≥ 0 eine beliebige Lösung des Randwertproblems. Wir wollen zeigen, dass

v ≥ u gilt. Dazu betrachten wir fürm ∈ N die Funktion

um(x) := Ex

(T∧m)−1∑

n=0

c(Xn) + f(XT ) · IT≤m

, x ∈ S.

Universität Bonn Wintersemester 2009/2010

Page 376: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

376 KAPITEL 11. MARKOVKETTEN

Nach dem Satz über monotone Konvergenz giltu(x) = supm≥1

um(x). Durch Konditionieren

auf den ersten Schritt erhalten wir ähnlich wie oben:

um+1(x) = c(x) + (p um)(x) für x ∈ D, und (11.2.8)

um+1(x) = f(x) für x ∈ DC .

Wir zeigen nun durch Induktion nachm:

v ≥ um für allem ≥ 0. (11.2.9)

Fürm = 0 ist (11.2.9) erfüllt, denn nach Voraussetzung gilt

v(x) ≥ 0 = u0(x) für allex ∈ D, und v(x) = f(x) = u0(x) für allex ∈ DC .

Gilt (11.2.9) für einm ≥ 0, dann folgt zudem

v = pv + c ≥ pum + c(11.2.8)= um+1 aufD, und

v = f = um+1 aufDC ,

d.h. (11.2.9) gilt auch fürm + 1. Also ist (11.2.9) für allem ≥ 0 erfüllt. Damit folgt aber

auch

v ≥ supum = u,

d.h.u ist tatsächlich dieminimalenichtnegative Lösung von (11.2.7).

Wir wollen uns nun das erhaltene Randwertproblem genauer ansehen. In kompakter Notation

können wir (11.2.7) schreiben als

− L u = c aufD, (11.2.10)

u = f aufDC

mit

(L u)(x) := (pu)(x)− u(x) =

∫p(x, dy)(u(y)− u(x)).

Der lineare OperatorL = p− I heißtGenerator der Markovkette. Auf diskreten Zustandsräu-

men istL ein Differenzenoperator:

(L u)(x) =∑

y∈Sp(x, y)(u(y)− u(x)).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 377: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 377

Beispiel (Random Walk auf Zd, Poissongleichung und Dirichletproblem). Für den klassi-

schend-dimensionalen Random Walk gilt

p(x, y) =

12d

falls |y − x| = 1,

0 sonst.

Damit ergibt sich

(L u)(x) =1

2d

d∑

i=1

(u(x+ ei)− u(x) + u(x− ei)− u(x))

=1

2d

d∑

i=1

((u(x+ ei)− u(x))− (u(x)− u(x− ei))) .

Also ist

L =1

2d∆Zd

der diskrete Laplace-Operator multipliziert mit der Übergangswahrscheinlichkeit. (11.2.10) ist

also ein Randwertproblem für diediskrete Poissongleichung

(∆Zdu)(x) = −2dc(x).

Beispielsweise ist die mittlere Austrittszeitu(x) des Random Walks mit Start inx aus einer

MengeD durch die minimale nichtnegative Lösung des Randwertproblems

∆Zdu = −2d aufD,

u = 0 aufDC ,

gegeben. Wollen wir die Verteilung des AustrittspunktesXT berechnen (wie z.B. beim Ruinpro-

blem), dann müssen wirc ≡ 0 setzen. In diesem Fall ist (11.2.10) eindiskretes Dirichletproblem:

Gesucht ist eine Funktionu : Zd → R mit

∆Zdu = 0 aufD,

u = f aufDC .

Universität Bonn Wintersemester 2009/2010

Page 378: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

378 KAPITEL 11. MARKOVKETTEN

D

DC

Abbildung 11.4: Diskretes Dirichletproblem auf einer MengeD ⊂ Z2.

Dirichletproblem und Austrittsverteilung

Allgemein nennen wir Funktionenh : S → R mit L h = 0 harmonisch.

Definition. Eine nach unten beschränkte, messbare Funktionh : S → R heißtharmonisch auf

der MengeD bzgl. des stochastischen Kernsp, falls

(L h)(x) = (ph)(x)− h(x) = 0 für alle x ∈ D

gilt, d.h. fallsh dieverallgemeinerte Mittelwerteigenschaft∫p(x, dy)h(y) = h(x) für alle x ∈ D (11.2.11)

besitzt.

Als Spezialfall von Satz 11.10 erhalten wir:

Korollar 11.11 (Stochastische Lösung des Dirichletproblems). Die Funktion

u(x) = Ex[f(XT ) ; T <∞]

ist die minimale nichtnegative Lösung des Dirichletproblems

u harmonisch aufD, u = f aufDC . (11.2.12)

Bemerkung (Lokalität ). Ist S abzählbar, dann sind für die Lösung des Dirichletproblems nur

die Werte vonf auf dem äußeren Rand

∂extD = y ∈ DC | p(x, y) > 0 für einx ∈ D

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 379: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 379

relevant. In der Tat gilt füru : S → R undx ∈ D:

(pu)(x) =∑

y∈Sp(x, y)u(y) =

y∈Dp(x, y)u(y) +

y∈∂Dp(x, y)u(y),

d.h.(L u)(x) hängt nicht von den Werten vonu aufDC \ ∂D ab.

Bemerkung (Eindeutigkeit des Dirichletproblems). (1). Im Allgemeinen können mehrere Lö-

sungen des Dirichletproblems (11.2.12) existieren. Ist beispielsweisep der Übergangskern

eines klassischen Random Walks auf0, 1, 2, . . . undD = 1, 2, . . ., dann sind die Funk-

tionenha(x) = ax, a ∈ R, alle harmonisch mit Randwertenha(0) = 0. Ebenso ist die

Lösung nicht eindeutig, falls einz ∈ S mit Pz[T = ∞] 6= 0 existiert, denn in diesem Fall

ist h(x) = Px[T = ∞] eine nichttriviale harmonische Funktion mit Nullrandwerten.

(2). Ist die Funktionf beschränkt, und ist die AustrittszeitT für alle x ∈ S Px-fast sicher

endlich, dann istu die eindeutige beschränkte Lösung von (11.2.12). Dies kannman z.B.

mit dem Stoppsatz für Martingale beweisen.

Satz 11.10 und Korollar 11.11 sind erste Aspekte weitreichender Beziehungen zwischen Wahr-

scheinlichkeitstheorie und Analysis (Potentialtheorie)mit fundamentalen Konsequenzen auch für

andere Gebiete der Mathematik wie z.B. Diskrete Mathematik,Differentialgeometrie, Numerik

und mathematische Physik. Wir erwähnen hier einige wichtige Gesichtspunkte und Konsequen-

zen des gefundenen Zusammenhangs. Dazu setzen wirT < ∞ Px-fast sicher für allex ∈ S

voraus. Unter dieser Annahme ist

u(x) = Ex[f(XT )] (11.2.13)

für eine nichtnegative bzw. beschränkte Funktionf aufDC die minimale nichtnegative, bzw. die

eindeutige beschränkte Lösung des Dirichletproblems.

Monte-Carlo- Methode zur Berechnung harmonischer Funktionen: Nach dem Gesetz der großen

Zahlen gilt

u(x) ≈ 1

k

k∑

i=1

f(X(i)

T (i)) für großek,

wobeiX(1), X(2), . . . unabhängige Markovketten mit Start inx und Übergangskernp sind,

undT (i) die Austrittszeit vonX(i) aus der MengeD bezeichnet. Die Simulation von Mar-

kovketten kann daher in sehr allgemeinem Rahmen zur näherungsweisen Berechnung har-

monischer Funktionen verwendet werden.

Universität Bonn Wintersemester 2009/2010

Page 380: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

380 KAPITEL 11. MARKOVKETTEN

Stochastische Darstellung der Lösung des Dirichletproblems als Pfadintegral: Nach (11.2.13)

können wir die harmonische Funktionu schreiben als Integral

u(x) =

S0,1,2,...

f(XT (ω)) P (dω)

über den Raum aller diskreten Pfade aufS. Ähnliche Pfadintegraldarstellungen spielen in

der Quantenphysik eine wichtige Rolle, siehe z.B. die LectureNotes von R. Feynman.

Integralformel für harmonische Funktionen: Seiµx := Px X−1T die Austrittsverteilung der

Markovkette mit Start inx. Dann gilt:

u(x) =

DC

f(y) µx(dy).

Die Austrittsverteilungµx ist also dasharmonische Maßder Potentialtheorie, das eine

Berechnung harmonischer Funktionen aus den Randwerten ermöglicht.

Beispiele harmonischer Funktionen

Diskrete Zustandsräume

Ist S abzählbar, dann ist

hy(x) := Px[T <∞ und XT = y]

für jedesy ∈ DC eine nichtnegative, beschränkte, harmonische Funktion auf D mit Randwerten

hy(x) = Iy(x) für allex ∈ DC .

Eine Lösungu des Dirichletproblems zu beliebigen Randwertenf : DC → R+ erhält man als

Linearkombination der Funktionenhy: Gilt Px[T = ∞] = 0 für alle x ∈ S, dann gibt es genau

eine beschränkte Lösung des Dirichlet-Problems. Damit folgt, dass die Funktionenhy, y ∈ DC ,

eine Basis des Vektorraums aller beschränkten, harmonischen Funktionen bilden. Wir erhalten

also einen Zusammenhang zwischen beschränkten harmonischen Funktionen und den möglichen

Austrittspunkteny ∈ DC der Markovkette.

Beispiel. (1). Ruinproblem:Für den Random Walk aufa, a + 1, . . . , b ⊂ Z mit Übergangs-

kernp(x, x+ 1) = p, p(x, x− 1) = q = 1− p, gilt

ha(x) = Px[XT = a] =h(b)− h(x)

h(b)− h(a)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 381: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 381

und

hb(x) = Px[XT = b] =h(x)− h(a)

h(b)− h(a)

mit

h(x) :=

x für p = q

(q/p)x für p 6= q.

Die Funktionenha undhb bilden eine Basis des Vektorraumsc · h + d | c, d ∈ R aller

harmonischer Funktionen.

(2). Eine transiente Markovkette aufZ: Sei p ∈ (12, 1) und q = 1 − p. Wir betrachten die

Markovkette(Xn, Px) aufZ mit den folgenden Übergangswahrscheinlichkeiten:

-3 -2 -1 0 1 2 3 4

p

q

p

q

p

q

p

q

1/2

q

1/2

q

p

q

p

q

p

q

p

q

Abbildung 11.5: Übergangswahrscheinlichkeiten der transienten Markovkette(Xn, Px)

Fürx > 0 gilt

p(x, x+ 1) = p > q = p(x, x− 1),

für x < 0 dagegen umgekehrt

p(x, x+ 1) = q < p = p(x, x− 1).

Daher haben die EreignisselimXn = ∞ und limXn = −∞ beide positive Wahr-

scheinlichkeit. Die Funktion

h+(x) :=

1− 1

2

(qp

)xfür x > 0

12

(qp

)−x

für x ≤ 0

ist harmonisch mit Randbedingungen

limx→∞

h+(x) = 1

und

limx→−∞

h+(x) = 0.

Universität Bonn Wintersemester 2009/2010

Page 382: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

382 KAPITEL 11. MARKOVKETTEN

Entsprechend isth−(x) = h+(−x) harmonisch mit

limx→−∞

h−(x) = 1

und

limx→∞

h−(x) = 0,

und jede harmonische Funktion ist eine Linearkombination vonh+ undh−. Durch Bedin-

gen auf den ersten Schritt der Markovkette zeigt man

h+(x) = Px[limXn = ∞]

und

h−(x) = Px[limXn = −∞].

Die harmonischen Funktionenh+ undh− beschreiben in diesem Fall die möglichen Asym-

ptotiken der Markovkette.

Rotationssymmetrischer Fall

Wir betrachten eine Markovkette aufS = Rd, deren Übergangsverteilungenp(x, dy) für jedesx

rotationssymmetrisch mit Zentrumx sind.

Beispielsweise seiXn = x +n∑

i=1

Yi ein Random Walk, dessen InkrementeYi unabhängig mit

identischer rotationssymmetrischer Verteilung sind. Dann ist jede Funktionu ∈ C2(Rd) mit

∆u =d∑

i=1

∂2u

∂x2i= 0

(also jede harmonische Funktion des Laplaceoperators) auch eine harmonische Funktion des

Übergangskernsp, falls u für alle x ∈ Rd bzgl. p(x, dy) integrierbar ist. Aus der Greenschen

Formel folgt nämlich die Mittelwerteigenschaft

u(x) = Mittelwert vonu auf∂Br(x)

für alle Sphären∂Br(x) = y ∈ Rd : |y − x| = r, r > 0, siehe z.B. [Forster, Analysis III]. Da

p(x, dy) rotationssymmetrisch ist, erhalten wir durch Integrationüber den Radius:

u(x) =

∫p(x, dy)u(y),

d.h.u ist in der Tat harmonisch bzgl.p.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 383: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.2. MARKOVEIGENSCHAFT UND DIFFERENZENGLEICHUNGEN 383

Mittlere Aufenthaltszeiten und Greenfunktion

Die mittlere Aufenthaltszeit

u(x) = Ex

[T−1∑

n=0

IB(Xn)

]=

∞∑

n=0

Px[Xn ∈ B , n < T ],

einer Markovkette mit Übergangskernp in einer MengeB ∈ S vor Austritt ausD löst das

Randwertproblem

u− pu = IA aufD

u = 0 aufDC .

Wir betrachten nun den diskreten Fall: SeiS abzählbar,D ⊂ S, und sei

BDy :=

T−1∑

n=0

Iy(Xn), y ∈ S,

die Anzahl der Besuche der Markovkette iny vor Austritt ausD. Für die mittlere Anzahl der

Besuche iny bei Start inx gilt

Ex[BDy ] = Ex

[ ∞∑

n=0

IXn∈B , n<T

]=

∞∑

n=0

pDn (x, y),

wobei

pDn (x, y) = Px[Xn = y , n < T ]

die n-Schritt-Übergangswahrscheinlichkeit der Markovkette mit Absorption bei Austritt ausD

bezeichnet.

Definition. Die durch

GD(x, y) :=∞∑

n=0

pDn (x, y)

definierte FunktionGD : S × S → [0,∞] heißtGreensche Funktionder Markovkette im Gebiet

D.

Korollar 11.12. (1). GD(•, y) ist die minimale Lösung des Randwertproblems

(I − p)GD(•, y) = Iy aufD,

GD(•, y) = 0 aufDC .

Universität Bonn Wintersemester 2009/2010

Page 384: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

384 KAPITEL 11. MARKOVKETTEN

(2). Für alle Funktionenf : S → [0,∞] gilt

Ex

[T−1∑

n=0

f(Xn)

]= (GDf)(y).

Beweis.Die erste Aussage folgt unmittelbar aus Satz 11.10. Für eineFunktionf ≥ 0 gilt:

Ex

[T−1∑

n=0

f(Xn)

]= Ex

[T−1∑

n=0

y∈Sf(y) · Iy(Xn)

]=∑

y∈SGD(x, y)f(y) = (GDf)(y).

Beispiel (Random Walk auf Zd). Die Greensche Funktion des klassischen Random Walks auf

Zd ist die minimale nichtnegative Lösung des Randwertproblems

∆ZdGD(•, y) = −2dIy aufD,

GD(•, y) = 0 aufDC .

Sie ist damit ein diskretes Analogon zur Greenschen Funktion der Analysis, die als Fundamen-

tallösung der Poissongleichung definiert ist. Beispielsweise erhält man für den klassischen eindi-

mensionalen Random Walk als Greensche Funktion eines IntervallsD = a, a+, . . . , b ⊂ Z :

GD(x, y) =

2(b− y)(x− a)

b− afür a ≤ x < y

2(y − a)(b− x)

b− afür y ≤ x ≤ b

.

a y b

GD(•, y)

Abbildung 11.6: Darstellung des Graphen der FunktionGD(•, y).

11.3 Rekurrenz und Transienz

Seip(x, y) (x, y ∈ S) eine stochastische Matrix auf einer abzählbaren MengeS. Wir betrachten

eine zeithomogene Markovkette(Xn, Px) mit Übergangsmatrixp im kanonischen Modell, d.h.

Ω = S0,1,2,..., Xn(ω) = ωn, A = σ(Xn | n ≥ 0),

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 385: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.3. REKURRENZ UND TRANSIENZ 385

undPx ist die Verteilung der Markovkette bei Start inx. Füry ∈ S sei

By(ω) =∞∑

n=0

Iy(Xn(ω))

die Anzahl der Besuche(Aufenthaltszeit) der Markovkette im Punkty. Wir wollen untersuchen,

ob die Markovkette immer wieder zu ihrem Startpunkt zurückkehrt.

Definition. Ein Punktx ∈ S heißt transient, falls Px[Bx = ∞] = 0 gilt, und rekurrent, falls

Px[Bx = ∞] = 1.

Sei nun

G(x, y) = Ex[By] =∞∑

n=0

pn(x, y)

die mittlere Anzahl der Besuche der Markovkette im Punkty bei Start inx. Offensichtlich istx

transient, wenn

G(x, x) = Ex[Bx] < ∞

gilt. Wir werden in Korollar 11.15 zeigen, dass umgekehrtx rekurrent ist, wennG(x, x) = ∞gilt. Insbesondere ergibt sich ein0-1-Gesetz: Jeder Punkt ist entweder transient oder rekurrent.

Allgemeiner werden wir sehen, dass bei irreduziblen Markovketten sogar entweder alle Punkte

transient oder alle Punkte rekurrent sind – wir nennen die Markovkette in diesem Falltransient

bzw. rekurrent.

Intuitiv können wir diese Dichotomie folgendermaßen erklären: Jedes Mal, wenn die Markov-

kette zum Startpunktx zurückkehrt, startet sie aufgrund der Markoveigenschaft wieder neu in

diesem Punkt – unabhängig vom vorherigen Verlauf. Kehrt dieKette also mit Wahrscheinlichkeit

1 wieder zum Startpunkt zurück, dann kehrt sie auch mit Wahrscheinlichkeit1 immer wieder,

also unendlich oft nachx zurück. Ist die Markovkette zudem irreduzibel, dann erreicht sie jeden

festen Punkty auf jeder Exkursion mit einer konstanten strikt positiven Wahrscheinlichkeit –

trifft also insgesamt den Punkty mit Wahrscheinlichkeit1 unendlich oft.

Kehrt die Kette dagegen mit einer strikt positiven Wahrscheinlichkeit ε > 0 nicht zum Startpunkt

x zurück, dann wird sie auch bei jedem weiteren Erreichen vonx mit derselben Wahrschein-

lichkeit ε nicht wieder zurückkehren – unabhängig vom vorherigen Verlauf. Also wird sie mit

Wahrscheinlichkeit1 schließlich nicht mehr nachx zurückkehren – sie durchläuft also jeden

Punkt nur endlich oft.

Um dieseDichotomie von Rekurrenz und Transienzrigoros zu beweisen, benötigen wir eine

Markoveigenschaft für diezufälligen(!) Rückkehrzeiten zum Startpunkt. Bevor wir eine entspre-

chende „starke Markoveigenschaft“ beweisen, betrachten wir schon mal eine Anwendung auf

mehrdimensionale Random Walks.

Universität Bonn Wintersemester 2009/2010

Page 386: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

386 KAPITEL 11. MARKOVKETTEN

Beispiel (Rekurrenz und Transienz von Random Walks inZd). Sei (Xn, Px) der klassische

Random Walk aufZd mit Übergangswahrscheinlichkeitenp(x, y) = 12d

falls |x − y| = 1,

p(x, y) = 0 sonst. Wir untersuchen Rekurrenz und Transienz in Abhängigkeit von der Dimension

d:

d = 1: Im eindimensionalen Fall erhalten wir für die Rückkehrwahrscheinlichkeiten zum Aus-

gangspunktx mithilfe der Stirling-Approximation:

p2n(x, x) =

(2n

n

)· 2−2n =

(2n)!

(n!)22−2n

∼√4πn

2πn

(2n)2n

n2n· 2−2n =

1√πn

.

Also gilt G(x, x) =∞∑n=0

pn(x, x) = ∞, d.h. jeder Punktx ∈ Z ist rekurrent.

d = 2: Beim klassischen Random WalkXn = (X(1)n , X

(2)n ) aufZ2 sind die KomponentenX(1)

n

undX(2)n nicht unabhängig.

1/4

1/4

1/4

1/4

Abbildung 11.7: Übergangswahrscheinlichkeiten des klassischen Random Walks.

Durch eine45 Drehung des Koordinatensystems, können wir den Prozess aber in einen

zweidimensionalen Random Walk

Yn = (X(1)n +X(2)

n , X(1)n −X(2)

n )

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 387: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.3. REKURRENZ UND TRANSIENZ 387

1/4

1/4

1/4

1/4

Abbildung 11.8: Übergangswahrscheinlichkeiten des um45 gedrehten Random Walks.

überführen, dessen KomponentenY (1)n und Y (2)

n unabhängige eindimensionale Random

Walks sind. Offensichtlich gilt:

Xn rekurrent ⇐⇒ Yn transient.

Die Übergangswahrscheinlichkeiten fürYn sind

p2n(x, x) = Px[Y(1)2n = x1, Y

(2)2n = x2] = Px1 [Y

(1)2n = x1] · Px2 [Y

(2)2n = x2]

=

((2n

n

)· 2−2n

)2

∼ 1

πn.

Also gilt erneutG(x, x) = ∞, d.h. jedesx ∈ Z2 ist rekurrent.

d = 3: Betrachten wir einen dreidimensionalen Random Walk

Yn = (X(1)n , X(2)

n , X(3)n ),

dessen KomponentenX(i)n unabhängige klassische Random Walks aufZ1 sind, dann gilt

entsprechend

p2n(x, x) =

((2n

n

)· 2−2n

)3

∼ 1

(πn)3/2,

und damit

G(x, x) =∞∑

n=0

p2n(x, x) < ∞

Universität Bonn Wintersemester 2009/2010

Page 388: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

388 KAPITEL 11. MARKOVKETTEN

Der Prozess ist alsotransient. Auch der klassische Random Walk aufZ3 ist transient – der

Beweis erfordert allerdings etwas mehr Kombinatorik, da sich der Prozess in Dimension

3 nicht durch eine Drehung in einen Prozess mit unabhängigen Komponenten überführen

lässt. Die Details werden in einer Übungsaufgabe ausgeführt. Analog folgt Transienz in

höheren Dimensionen. Zwischen Dimension2 und3 gibt es also einen Übergang von re-

kurrentem zu transientem Verhalten. Anschaulich steht in Dimensiond > 2 soviel Raum

zur Verfügung, dass der Random Walk der Startpunkt schließlich nicht mehr trifft.

Starke Markoveigenschaft

Wir beweisen nun die angekündigte Erweiterung der Markoveigenschaft auf zufällige Zeiten

(Stoppzeiten). Die Information, die über einen stochastischen Prozess(Xn)n≥0 bis zur Zeitn

vorliegt, wird beschrieben durch dieσ-Algebra

Fn = σ(X0, X1, . . . , Xn).

SeiT : Ω → 0, 1, 2, . . . ∪ ∞ eine nichtnegative ganzzahlige Zufallsvariable.T heißt eine

Stoppzeit(bzgl. derσ-AlgebrenFn), falls

T = n ∈ Fn für allen ≥ 0 gilt.

Nach dem Faktorisierungslemma istT genau dann eine Stoppzeit bzgl.(Fn)n, wennIT=n für

jedesn eine Funktion vonX0, . . . , Xn ist. Anschaulich bedeutet dies, dass aufgrund der Infor-

mation, die bis zur Zeitn vorliegt, entscheidbar ist, obT den Wertn annimmt.

Beispiel(Trefferzeiten). (1). Dieerste Treffer- bzw. Rückkehrzeit

TB = minn ≥ 1 |Xn ∈ B (min ∅ := ∞)

einer messbaren TeilmengeB des ZustandsraumesS ist eine Stoppzeit, denn es gilt

TB = n = X1 ∈ BC , . . . , Xn−1 ∈ BC , Xn ∈ B ∈ Fn für allen ≥ 0.

Hat man beispielsweise beschlossen, eine Aktie zu verkaufen, sobald ihr KursXn den Wert

λ überschreitet, dann ist der Verkaufszeitpunkt gleichT(λ,∞), also eine Stoppzeit.

(2). Die letzte Besuchszeit

LB := supn ≥ 0 |Xn ∈ B (sup ∅ := 0)

ist dagegen in der Regel keine Stoppzeit (Übung). Um zu entscheiden, obLB = n gilt,

benötigt man nämlich Informationen über die zukünftige Entwicklung des Prozesses.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 389: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.3. REKURRENZ UND TRANSIENZ 389

Die Information, die bis zu einer Stoppzeit vorliegt, wird beschrieben durch dieσ-Algebra

FT = A ∈ A | A ∩ T = n ∈ Fn für allen ≥ 0 ,

der „bis zur Zeit T beobachtbaren“ Ereignisse. Durch maßtheoretische Induktion zeigt man,

dass eine AbbildungY : Ω → R genau dann bzgl.FT messbar ist, wennY · IT=n für jedes

n ≥ 0 Fn-messbar, also eine Funktion vonX0, . . . , Xn ist. Insbesondere ist die PositionXT des

Prozesses(Xn) zur StoppzeitT eineFT -messbare Zufallsvariable, denn fürn ≥ 0 ist

XT · IT=n = Xn · IT=n Fn-messbar.

Wir setzen nun wieder voraus, dass(Xn, Px) eine zeithomogene Markovkette im kanonischen

Modell ist.

Satz 11.13(Starke Markoveigenschaft). Ist T : Ω → 0, 1, 2, . . . ∪ ∞ eine Stoppzeit bzgl.

derσ-AlgebrenFn = σ(X0, X1, . . . , Xn), dann gilt

Eν [F (XT , XT+1, . . .) | FT ] = EXT[F (X0, X1, . . .)] Pν-fast sicher aufT <∞

für alle Wahrscheinlichkeitsverteilungenν auf(S,S) und alle messbaren FunktionenF : S0,1,2,... →R+, wobeiF (XT , XT+1, . . .) aufT = ∞ willkürlich definiert ist.

Beweis.Sei θ(x0, x1, . . .) = (x1, x2, . . .) der Shiftoperator aufS0,1,2,.... Wir müssen zeigen,

dass

Eν [F θT | FT ] · IT<∞ = EXT[F ] · IT<∞ Pν-fast sicher (11.3.1)

gilt, wobei wir die rechte Seite fürT = ∞ gleich0 setzen. FürA ∈ FT undn ≥ 0 gilt A∩T =

n ∈ Fn, also nach der Markoveigenschaft:

Eν [F θT ; A ∩ T = n] = Eν [F θn ; A ∩ T = n]= Eν [EXn [F ] ; A ∩ T = n]= Eν [EXT

[F ] ; A ∩ T = n]

Durch Summieren übern erhalten wir:

Eν [F θT ; A ∩ T <∞] = Eν [EXT[F ] ; A ∩ T <∞] .

Also stimmen die Integrale beider Seiten von (11.3.1) über eine beliebige MengeA ∈ FT über-

ein. Da beide Seiten in (11.3.1)FT -messbar sind, folgt, dass diesePν-fast sicher übereinstim-

men.

Universität Bonn Wintersemester 2009/2010

Page 390: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

390 KAPITEL 11. MARKOVKETTEN

Anschaulich startet eine zeithomogene Markovkette also auch zu einer StoppzeitT neu im Zu-

standXT , d.h. der weitere Verlauf ist unabhängig vom vorherigen Verlauf gegeben den gegen-

wärtigen ZustandXT .

Rekurrenz und Transienz von einzelnen Zuständen

Mithilfe der starken Markoveigenschaft können wir die Verteilung der AufenthaltszeitBy der

Markovkette in einem Punkty ∈ S aus den Trefferwahrscheinlichkeiten

fx,y := Px[Ty <∞]

berechnen. Hierbei bezeichnen wir mit

Ty = minn ≥ 1 : Xn = y

die erste Trefferzeit des Zustandesy, bzw. die erste Rückkehrzeit nachy, falls die Markovkette

in y startet.

Satz 11.14.Für alle x, y ∈ S gilt

Px[By ≥ n] =

fx,y · fn−1

y,y falls x 6= y

fn−1y,y falls x = y

.

Insbesondere ist jedesy ∈ S entweder rekurrent oder transient, und es gilt:

y rekurrent ⇐⇒ fy,y = 1,

y transient ⇐⇒ fy,y < 1.

Beweis.SeiT (0) := 0, und sei

T (n) := T (n−1) + Ty θT(n−1)

dien-te Besuchszeit (bei Start außerhalb vony) bzw. Rückkehrzeit (bei Start iny) des Zustands

y.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 391: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.3. REKURRENZ UND TRANSIENZ 391

y

T (1) T (2) T (3)T (4) T (5)

Es folgt

Px[T(n) <∞] = Px[T

(n−1) <∞ undTy θT(n−1)

<∞]

= Ex[Px[Ty θT(n−1)

<∞ | FT (n−1) ] ; T (n−1) <∞]

= Ex[PXT (n−1)

[Ty <∞] ; T (n−1) <∞]

= Py[Ty <∞] · Px[T(n−1) <∞],

also durch Induktion nachn:

Px[T(n) <∞] = Px[Ty <∞] · Py[Ty <∞]n−1 = fx,y · fn−1

y,y .

Die Aussage folgt wegen

Px[By ≥ n] =

Px[T

(n) <∞] falls x 6= y,

Px[T(n−1) <∞] falls x = y.

Bemerkung. Die Wahrscheinlichkeitenfx,y (und damit die Verteilungen der Aufenthaltszeiten)

kann man im Prinzip durch Lösen eines Dirichletproblems berechnen: Nach Korollar 11.11 bil-

den die Trefferwahrscheinlichkeiten

h(x) = Px[Ty <∞], Ty := minn ≥ 0 |Xn = y,

die minimale nichtnegative Lösung von

ph = h aufS \ y; h(y) = 1.

WegenTy = Ty Px-fast sicher für allex 6= y folgt fx,y = h(x) für x 6= y, und

fy,y =∑

x∈Sp(y, x)fx,y = (ph)(y).

Universität Bonn Wintersemester 2009/2010

Page 392: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

392 KAPITEL 11. MARKOVKETTEN

Beispiel(Kartenhaus, Maschinenerneuerung). Wir betrachten eine Markovkette mit Zustands-

raumS = 0, 1, 2, . . . und Übergangswahrscheinlichkeiten

p(x, x+ 1) = 1− x, p(x, 0) = x, x ∈ (0, 1).

1− x

x

0 1 2 · · · x x+ 1

Abbildung 11.9: Übergangswahrscheinlichkeiten der durchp gegebenen Markovkette.

Hier gilt

P0[T0 > n] =n−1∏

x=0

(1− x),

also:

0 rekurrent ⇐⇒ P0[T0 = ∞] =∞∏

x=0

(1− x) = 0 ⇐⇒∞∑

x=0

x = ∞

Aus Satz 11.14 folgt unmittelbar die schon oben erwähnte Charakterisierung rekurrenter Zustän-

de über die Greensche Funktion:

Korollar 11.15 (Rekurrenzkriterium ). Für alle x ∈ S gilt

G(x, x) =1

1− fx,x=

1

Px[Tx = ∞]falls Px[Tx = ∞] > 0,

bzw.G(x, x) = ∞ fallsPx[Tx = ∞] = 0. Insbesondere istx genau dann rekurrent, wennG(x, x)

unendlich ist.

Beweis.Fürx ∈ S gilt nach Satz 11.14:

G(x, x) = Ex[Bx] =∞∑

n=1

Px[Bx ≥ n]

=∞∑

n=1

fn−1x,x =

∞∑

n=0

fnx,x.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 393: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.3. REKURRENZ UND TRANSIENZ 393

Leider ist das Kriterium zwar für die Theorie wichtig, aber praktisch nur selten einsetzbar. Leich-

ter verifizierbare hinreichende Bedingungen für Rekurrenz und Transienz basieren auf stochasti-

schen Lyapunovfunktionen und dem Martingalkonvergenzsatz, s. [Stochastische Analysis].

Kommunikationsklassen und globale Rekurrenz

Wir wollen nun untersuchen, wie die Rekurrenz verschiedenerZuständex, y ∈ S miteinander

zusammenhängt.

Definition. Der Zustandy heißterreichbarvonx für die Markovkette(Xn, Px), falls

Px[Ty <∞] > 0

gilt.

Bemerkung. (1). Ein Zustandy ist genau dann erreichbar vonx, wenn einn ∈ Nmit pn(x, y) >

0 existiert. Insbesondere gilt füry 6= x:

y ist erreichbar vonx ⇐⇒ G(x, y) > 0.

(2). Isty erreichbar vonx undz erreichbar vony, dann istz erreichbar vonx.

(3). Ist die Übergangsmatrix irreduzibel, dann ist jeder Zustand von jedem anderen Zustand aus

erreichbar.

Wir wollen zeigen, dass mit einem Zustandx ∈ S auch jeder vonx aus erreichbare Zustandy

rekurrent ist. Dazu bemerken wir zunächst:

Lemma 11.16.Für x, y ∈ S mit y 6= x gilt

G(x, y) = Px[Ty <∞] ·G(y, y).

Beweis.Füry 6= x gilt Px-fast sicherX0 6= y, also

By = By θTy aufTy <∞.

Mit der starken Markoveigenschaft folgt

Ex[By] = Ex[By ; Ty <∞] = Ex[By θTy ; Ty <∞]

= Ey[By] · Px[Ty <∞].

Universität Bonn Wintersemester 2009/2010

Page 394: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

394 KAPITEL 11. MARKOVKETTEN

Satz 11.17.Ist x rekurrent, undy vonx aus erreichbar, dann ist auchx vony aus erreichbar,y

ist rekurrent, und es gilt

By = ∞ Px-fast sicher und Bx = ∞ Py-fast sicher.

Insbesondere gilt also

G(x, y) = G(y, x) = G(y, y) = ∞.

Beweis. (1). y ist rekurrent:Da y von x aus erreichbar ist, existiertm ≥ 0 mit pm(x, y) > 0.

Nach dem Lemma folgt:

G(y, y) ≥ G(x, y) ≥∞∑

n=0

pn+m(x, y)

≥∞∑

n=0

pn(x, x)pm(x, y)

= G(x, x)︸ ︷︷ ︸=∞

· pm(x, y)︸ ︷︷ ︸>0

= ∞.

(2). Wir zeigenPy[Bx = ∞] = 1: Da y vonx aus erreichbar undx rekurrent ist, gilt nach der

starken Markoveigenschaft

0 < Px[Ty <∞]x rek.= Px[Ty <∞, Tx θTy <∞]

SME= Px[Ty <∞] · Py[Tx <∞],

alsofy,x = Py[Tx <∞] = 1. Dax rekurrent ist, gilt zudemfx,x = 1, also nach Satz 11.14

Py[Bx = ∞] = limn→∞

(fy,x · fn−1x,x ) = 1.

Insbesondere istx vony aus erreichbar.

(3). Analog erhalten wirPx[By = ∞] = 1 durch Vertauschen der Rolle vonx undy.

Der Satz zeigt, dass für eine Markovkette mit irreduzibler Übergangsmatrix und einem rekurren-

ten Zustand alle Zustände rekurrent sind, und jeder Zustandbei beliebiger Startverteilung mit

Wahrscheinlichkeit1 unendlich oft durchlaufen wird:

Korollar 11.18 (Dichotomie von Rekurrenz und Transienz). Für eine zeithomogene Markov-

kette mit irreduzibler Übergangsmatrix gilt entweder

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 395: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.3. REKURRENZ UND TRANSIENZ 395

(1). Allex ∈ S sind rekurrent, undPx[By = ∞] = 1 für alle x, y ∈ S, oder

(2). Allex ∈ S sind transient, undEx[By] <∞ für alle x, y ∈ S.

Ist S endlich, dann kann nur der erste Fall eintreten.

Beweis.Existiert ein rekurrenter Zustand, dann sind nach Satz 11.17 alle Zustände rekurrent,

undPx[By = ∞] = 1 für alle x, y ∈ S. Andernfalls sind nach Satz 11.14 allex ∈ S transient,

und nach Korollar 11.15 giltG(x, x) < ∞. Nach Lemma 11.16 folgt dannEx[By] < ∞ für alle

x, y ∈ S. Ist S endlich, dann kann der zweite Fall wegen

y∈SEx[By] = Ex

[∑

y∈SBy

]= ∞

nicht eintreten.

Was können wir aussagen, wenn die Übergangsmatrix nicht irreduzibel ist?

Allgemein ist die Relation

x y „y ist vonx aus erreichbar“

eine Äquivalenzrelation auf der MengeSrek der rekurrenten Zustände inS. Die zugehörigen

ÄquivalenzklassenSi, i ∈ I, heißenRekurrenzklassen. Wir erhalten also eine disjunkte Zerle-

gung

S = Strans∪⋃

i∈ISi

des Zustandsraums in die MengeStrans der transienten Zustände, und die verschiedenen Rekur-

renzklassen

Universität Bonn Wintersemester 2009/2010

Page 396: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

396 KAPITEL 11. MARKOVKETTEN

Strans

Si1

Si2

Abbildung 11.10: Zerlegung der MengeS in die transienten Zustände und die einzelnen Rekur-

renzklassen

Gelangt die Markovkette in eine Rekurrenzklasse, dann bleibt sie dort mit Wahrscheinlichkeit1

und durchläuft alle Zustände der Rekurrenzklasse unendlichoft. Startet die Markovkette in einem

transienten Zustand, dann läuft sie entweder in eine Rekurrenzklasse, oder sie verbleibt im transi-

enten Bereich, verlässt aber jede endliche Teilmenge vonStransschließlich mit Wahrscheinlichkeit

1.

Beispiel. (1). Ehrenfestmodell:Die Markovkette aus dem Ehrenfestmodell (s. Abschnitt 2.2)

ist rekurrent, da der ZustandsraumS = 0, 1, . . . , N endlich, und die Übergangsmatrix

p(k, k − 1) = k/N

p(k, k + 1) = (N − k)/N

irreduzibel ist.

k Moleküle N − k Moleküle

Jeder Zustand wird also unendlich oft durchlaufen, was der thermodynamischen Irrever-

sibilität zunächst zu widersprechen scheint (Einwand von Zermelo, vgl. die Bemerkung

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 397: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.4. STATIONÄRE STOCHASTISCHE PROZESSE 397

unter Satz 7.17). Tatsächlich kann man zeigen, dass die mittlere ZeitE0[TN/2] für den

Übergang vom geordneten Zustandk = 0 in den ungeordneten Zustandk = N/2 von

der GrößenordnungN logN ist, die mittlere ZeitEN/2[T0] für den umgekehrten Übergang

dagegen von der Größenordnung12N

22N . DaN zum Beispiel gleich1023 ist, ist die Rekur-

renz jenseits des ungeordneten Zustandes de facto nicht beobachtbar – im makroskopischen

SkalierungslimesN → ∞ ergibt sich bei geeigneter Zeitreskalierung eine irreversible Dy-

namik.

(2). Kartenhaus/Maschinenerneuerung:Im Fall∞∑x=0

x = ∞ sind alle Zustände der Markovket-

te aus dem Beispiel von oben rekurrent, da0 rekurrent und die Übergangsmatrix irreduzibel

ist. Andernfalls sind alle Zustände transient.

(3). Galton-Watson-Prozess:Für den Galton-Watson-Verzweigungsprozess mit Nachkommens-

verteilungν ist 0 ein absorbierenderZustand, d.h. kein anderer Zustand ist von0 aus er-

reichbar. Insbesondere ist0 eine Rekurrenzklasse. Giltν(0) 6= 0, dann ist umgekehrt0

von jedem Zustandx ∈ N aus erreichbar, also sind allex 6= 0 transient. Es folgt dann:

Px[Zn = 0 schließlich oderZn → ∞] = 1 für allex ≥ 0.

11.4 Stationäre stochastische Prozesse

In vielen Fällen nähert sich die Verteilung eines zeitlich verschobenen stochastischen Prozesses

(Yn, Yn+1, . . .) mit Zustandsraum(S,S) für n → ∞ einer GrenzverteilungP auf dem Produk-

traumΩ = S0,1,2,... mit Produkt-σ-AlgebraA an („asymptotische Stationarität“). Die Grenzver-

teilungP sollte dann selbst invariant unter Verschiebungen sein, d.h. für den Koordinatenprozess

Xn(ω) = ωn sollte gelten:

(Xn, Xn+1, . . .) ∼ (X0, X1, . . .) unterP für allen ≥ 0. (11.4.1)

Wir wollen stochastische Prozesse mit der Eigenschaft (11.4.1) nun genauer untersuchen.

Stationarität und Reversibilität

Definition. (1). Eine WahrscheinlichkeitsverteilungP auf (Ω,A) bzw. ein stochastischer Pro-

zess((Xn), P ) heißtstationär, falls (11.4.1) gilt.

Universität Bonn Wintersemester 2009/2010

Page 398: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

398 KAPITEL 11. MARKOVKETTEN

(2). Der Prozess((Xn), P ) heißtreversibel, falls die endlichdimensionalen Verteilungen inva-

riant unter Zeitumkehr sind, d.h. falls

(X0, X1, . . . , Xn) ∼ (Xn, Xn−1, . . . , X0) unterP für alle n ≥ 0. (11.4.2)

Bemerkung. Eine WahrscheinlichkeitsverteilungP auf (Ω,A) ist genau dann stationär, wenn

die Shiftabbildungθ : Ω → Ω einemaßerhaltendeAbbildung auf dem Wahrscheinlichkeitsraum

(Ω,A, P ) ist, d.h. wennP = P θ−1 gilt.

Beispiel. (1). IID Folgen: Eine Folge(Xn)n≥0 unabhängiger, identisch verteilter Zufallsvaria-

blen ist ein stationärer und reversibler stochastischer Prozess.

(2). Gaußprozesse:Ein Gaußprozess ist ein reellwertiger stochastischer Prozess(Xn), des-

sen Randverteilungen Normalverteilungen sind. Beispielsweise ist einAR(p)-Prozess ein

Gaußprozess, wenn die Startwerte normalverteilt sind. Gaußprozesse sind eindeutig durch

die MittelwerteE[Xn] und die KovarianzenCov[Xn, Xm] festgelegt. Stationarität gilt ge-

nau dann, wennE[Xn] = α nicht vonn abhängt, undCov[Xn, Xm] = cn−m nur von der

Differenzn−m abhängt.

(3). Deterministische Rotationen:IstX0 gleichverteilt auf dem EinheitskreisS1, undXn+1 =

eiφ · Xn mit φ ∈ [0, 2π), dann ist(Xn)n≥0 stets ein stationärer Prozess. Reversibilität gilt

für φ 6= 0 nicht.

Satz 11.19.Ein reversibler Prozess ist stationär.

Beweis.Aus der Reversibilität folgt durch Zeitumkehr auf0, 1, . . . , n+ 1 und0, 1, . . . , n:

P (X1, X2, . . . , Xn+1)−1 = P (Xn, Xn−1, . . . , X0)

−1 = P (X0, . . . , Xn)−1

für allen ≥ 0. Also gilt

P [(X1, X2, . . .) ∈ A] = P [(X0, X1, . . .) ∈ A]

für alle ZylindermengenA ∈ A, und damit für alleA ∈ A.

Stationarität bzw. Reversibilität zeithomogener Markovketten ist durch die Startverteilung und

den Übergangskern charakterisierbar:

Satz 11.20(Stationarität und Reversibilität von Markovketten ). Für eine zeithomogene Mar-

kovkette(Xn, Pµ) im kanonischen Modell gilt:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 399: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.4. STATIONÄRE STOCHASTISCHE PROZESSE 399

(1). Pµ (Xn, Xn+1, . . .)−1 = Pµpn für alle n ≥ 0.

(2). Pµ ist genau dann stationär, wennµ ein Gleichgewicht des Übergangskernsp ist.

(3). Pµ ist genau dann reversibel, wennµ die Detailed-Balance-Bedingung

µ(dx)p(x, dy) = µ(dy)p(y, dx) (11.4.3)

erfüllt, d.h. wenn die Wahrscheinlichkeitsverteilungµ ⊗ p auf S × S invariant unter der

Abbildung(x, y) 7→ (y, x) ist.

Beweis. (1). FürA ∈ A undn ≥ 0 gilt nach der Markoveigenschaft

Pµ[(Xn, Xn+1, . . .) ∈ A] = Eµ[IA θn]= Eµ[PXn [A]]

=

∫Px[A](µp

n)(dx)

= Pµpn [A].

(2). folgt unmittelbar aus (1).

(3). Aus der Reversibilität von(Xn, Pµ) folgt, dass

µ⊗ p = Pµ (X0, X1)−1

invariant unter Koordinatentausch ist.

Umgekehrt folgt aus der Detailed-Balance-Bedingung durch Induktion

µ(dx0)p(x0, dx1) · · · p(xn−1, dxn) = µ(dx1)p(x1, dx2) · · · p(xn−1, dxn)p(x1, dx0)

= . . . = µ(dxn)p(xn, dxn−1) · . . . · p(x1, dx0)

für allen ≥ 0; also

Pµ (X0, . . . , Xn)−1 = Pµ (Xn, . . . , X0)

−1.

Rekurrenz von stationären Prozessen

Stationäre stochastische Prozesse haben starke Rekurrenzeigenschaften. Die folgende Aussage

zeigt unter Anderem, dass die mittlere Rückkehrzeit in eine MengeB endlichen Erwartungswert

hat, wenn der Prozess mit positiver Wahrscheinlichkeit inB startet:

Universität Bonn Wintersemester 2009/2010

Page 400: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

400 KAPITEL 11. MARKOVKETTEN

Satz 11.21(Wiederkehrsatz von Kac). Sei(Xn, P ) ein stationärer stochastischer Prozess mit

Zustandsraum(S,S), und sei

TB = minn ≥ 1 : Xn ∈ B

die erste Eintritts- bzw. Rückkehrzeit in eine MengeB ∈ S. Dann gilt

E[TB ; X0 ∈ B] = P [TB <∞], (11.4.4)

also mit anderen Worten

E[TB |X0 ∈ B] =P [TB <∞]

µ[B]falls µ[B] > 0, und (11.4.5)

P [TB <∞] = 0 falls µ[B] = 0, (11.4.6)

wobeiµ = P X−10 die Startverteilung des Prozesses ist.

Bemerkung. (1). Nach (11.4.5) ist die mittlere Rückkehrzeit in die MengeB der Kehrwert des

QuotientenP [X0∈B]P [TB<∞]

, also des Anteils vonX0 ∈ B an allen Pfaden, dieB treffen.

(2). Allgemeiner gilt für jede messbare TeilmengeA ∈ A des Pfadraumes:

E[τA ; A] = P [τA <∞],

wobeiτA = minn ≥ 1 : (Xn, Xn+1, . . .) ∈ A die erste Zeit ist, zu der der verschobene

Pfad inA liegt.

Beweis.Fürn ∈ N gilt wegen der Stationarität des Prozesses:

E[min(TB, n) ; X0 ∈ B] =n−1∑

k=0

P [TB > k undX0 ∈ B]

=n−1∑

k=0

P [X0 ∈ B,X1 6∈ B, . . . , Xk 6∈ B]

=n−1∑

k=0

P [Xn−k ∈ B,Xn−k+1 6∈ B, . . . , Xn 6∈ B]

= P [TB ≤ n].

Hierbei haben wir verwendet, dassTB ≤ n genau dann gilt, wenn zu einer der Zeitenn −k, k = 0, 1, . . . , n − 1, ein letzter Besuch inB vor der Zeitn stattfindet. Die Aussage folgt für

n→ ∞.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 401: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.4. STATIONÄRE STOCHASTISCHE PROZESSE 401

Nach dem Wiederkehrsatz von Kac kehrt der Prozess(Xn) auf der MengeX0 ∈ B P -fast

sicher nachB zurück. Durch Anwenden dieser Aussage auf die Teilfolgen(Xnk)n≥0, k ∈ N, die

alle wieder stationäre Prozesse unterP sind, erhalten wir sogar:

Korollar 11.22. Jeder stationäre Prozess(Xn, P ) ist rekurrent in folgendem Sinne: Für alle

B ∈ S gilt Xn ∈ B unendlich oftP -fast sicher aufX0 ∈ B.

Bemerkung (Wiederkehrsatz von Poincaré). Allgemeiner gilt fürA ∈ A:

(Xn(ω), Xn+1(ω), . . .) ∈ A unendlich oft fürP -fast alleω ∈ A.

Anwendung auf Markovketten

Wir betrachten nun eine zeithomogene Markovkette(Xn, Px) mit abzählbarem ZustandsraumS

im kanonischen Modell.

Definition. Ein Zustandx ∈ S heißtpositiv rekurrent, falls die mittlere RückkehrzeitEx[Tx]

endlich ist.

Aus dem Wiederkehrsatz von Kac folgt unmittelbar:

Korollar 11.23 (Gleichgewichte und mittlere Rückkehrzeiten). (1). Istµ ein Gleichgewicht

der Markovkette, dann gilt

µ(x) · Ex[Tx] = Pµ[Tx <∞] für alle x ∈ S.

Insbesondere sind alle Zuständex mit µ(x) > 0 positiv rekurrent.

(2). Ist zudem die Übergangsmatrix irreduzibel, dann sind sogar allex ∈ S positiv rekurrent

mit

µ(x) =1

Ex[Tx]. (11.4.7)

Insbesondere ist das Gleichgewicht in diesem Fall eindeutig.

Beweis. (1). Da die Markovkette mit Startverteilungµ stationär ist, gilt nach dem Satz von

Kac:

µ(x) · Ex[Tx] = Eµ[Tx ; X0 = x] = Pµ[Tx <∞] für allex ∈ S.

(2). Bei Irreduzibilität folgt globale Rekurrenz, alsoPy[Tx < ∞] = 1 für alle x, y ∈ S, und

damitµ(x) · Ex[Tx] = 1 für allex.

Universität Bonn Wintersemester 2009/2010

Page 402: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

402 KAPITEL 11. MARKOVKETTEN

Beispiel (Eindimensionale Markovkette, Birth-Death-Process). Wir betrachten eine zeitho-

mogene Markovkette aufS = 0, 1, 2, . . . mit Übergangswahrscheinlichkeiten

p(x, x+ 1) = px, p(x, x− 1) = qx, p(x, x) = rx,

px, qx, rx > 0 mit px + qx + rx = 1, q0 = 0, undpx, qx > 0 für allex ≥ 1.

0 1 2 x− 1 x x+ 1

qx px

rx

Offensichtlich gilt Irreduzibilität. Das Gleichungssystem für eine Gleichgewichtsverteilungµ

lautet

µ(0) · r0 + µ(1) · q1 = µ(0),

µ(x− 1) · px−1 + µ(x) · rx + µ(x+ 1) · qx+1 = µ(x) für x ∈ N.

Da die Lösung sich rekursiv ausµ(0) berechnen lässt, ist der Lösungsvektorraum des linearen

Gleichungssystems eindimensional. Aus der hinreichendenDetailed-Balance-Bedingung

µ(x− 1) · px−1 = µ(x) · qx für allex ∈ N (11.4.8)

erhalten wir daher in diesem Fall bereits die allgemeine Lösung

µ(x) = µ(0) · p0 · p1 · . . . · px−1

q1 · q2 · . . . · qx. (11.4.9)

Sei

Z =∞∑

x=0

p0 · p1 · . . . · px−1

q1 · q2 · . . . · qx.

Gilt Z < ∞, dann ist durch (11.4.9) mitµ(0) = 1/Z das eindeutige Gleichgewicht der Markov-

kette gegeben, und für die mittleren Rückkehrzeiten folgt

Ex[Tx] = 1/µ(x) für allex ≥ 0.

Die BedingungZ < ∞ bedeutet, dass die Wachstumswahrscheinlichkeitenp(x − 1, x) nicht zu

groß im Vergleich zu den Abfallwahrscheinlichkeitenp(x, x − 1) sind. Gilt dagegenZ = ∞,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 403: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.5. ERGODIZITÄT 403

dann existiert keine Gleichgewichtsverteilung. Wir werden in 11.25 sehen, dass in diesem Fall

auch keiner der Zuständex ∈ S positiv rekurrent ist. Durch Lösen des Dirichletproblems kann

man zudem zeigen, dass die Markovkette genau dann rekurrentist, wenn

∞∑

x=0

q1q2 · · · qxp1p2 · · · px

= ∞

gilt (s. Übung).

11.5 Ergodizität

In diesem Abschnitt werden wir ein Gesetz der großen Zahlen für positiv rekurrente Markovket-

ten beweisen. Dabei verwenden wir, dass die Verläufe der Markovkette während verschiedener

Exkursionen von einem Punkt aus unabhängig voneinander undidentisch verteilt sind. Langzeit-

mittelwerte verhalten sich daher asymptotisch wie der Erwartungswert des zeitlichen Mittelwerts

über eine Exkursion. Als Vorbereitung überlegen wir uns, dass der Anteil der mittleren Exkursi-

onszeit, den die Markovkette in bestimmten Bereichen verbringt, eine Gleichgewichtsverteilung

definiert.

Wie zuvor sei(Xn, Px) eine zeithomogene Markovkette mit abzählbarem Zustandsraum S und

Übergangsmatrixp(x, y) im kanonischen Modell. Ferner sei

Tx = minn ≥ 1 : Xn = x

die erste Treffer- bzw. Rückkehrzeit zum Punktx.

Positive Rekurrenz und Gleichgewichte

Für einen Zustandx ∈ S sei

µx[B] := Ex

[Tx−1∑

n=0

IB(Xn)

]=

∞∑

n=0

P [Xn ∈ B ; n < Tx] (11.5.1)

die mittlere Anzahl der Besuche in einer MengeB ⊂ S während einer Exkursion vonx. Ein

positives Maßν aufS heißtinvariant bzgl. der Übergangsmatrixp, falls

x∈Sν(x)p(x, y) = ν(y) für alley ∈ S

gilt. Ein Gleichgewicht ist also eine invariante Wahrscheinlichkeitsverteilung.

Universität Bonn Wintersemester 2009/2010

Page 404: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

404 KAPITEL 11. MARKOVKETTEN

Satz 11.24. (1). Istx ∈ S ein rekurrenter Zustand der Markovkette, dann istµx ein invariantes

Maß mit Gesamtmasseµx[S] = Ex[Tx].

(2). Istx positiv rekurrent, dann ist das normierte Maß

µx[B] =µx[B]

Ex[Tx]

(=

mittlere Aufenthaltszeit inBmittlere Exkursionsdauer

)

ein Gleichgewicht der Markovkette.

Bei positiver Rekurrenz existiert also stets ein Gleichgewicht. Umgekehrt haben wir in Korol-

lar 11.22 bereits gezeigt, dass Gleichgewichtsverteilungen nur positiv rekurrenten Zuständen ei-

ne strikt positive Gesamtmasse zuordnen. Ist die Markovkette zudem irreduzibel, dann ist die

Gleichgewichtsverteilung nach Korollar 11.22 eindeutig,d.h. die Verteilungµx hängt nicht vom

Startpunktx ab.

Beweis. (1). Istx rekurrent, dann giltPx-fast sicherTx < ∞, und damitXTx = x = X0. Für

B ⊆ S folgtTx−1∑

n=0

IB(Xn) =Tx−1∑

n=0

IB(Xn+1).

Mit der Markoveigenschaft erhalten wir damit

µx[B] = Ex

[Tx−1∑

n=0

IB(Xn+1)

]

=∞∑

n=0

Px[Xn+1 ∈ B ; n < Tx]

ME=

∞∑

n=0

Ex [PXn [X1 ∈ B ]; n < Tx]

=∑

z∈S

∞∑

n=0

Px[Xn = z ; n < Tx] · p(z, B)

=∑

z∈Sµx[z] · p(z, B) = (µxp)[B],

d.h.µx ist ein invariantes Maß. Die Gesamtmasse ist

µx[S] = Ex

[Tx−1∑

n=0

IS(Xn)

]= Ex[Tx].

(2). Istx positiv rekurrent, dann hatµx endliche Gesamtmasse, also erhält man durch Normie-

ren ein Gleichgewicht.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 405: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.5. ERGODIZITÄT 405

Ein Gesetz der großen Zahlen für Markovketten

Wir können nun das Hauptresultat dieses Abschnitts formulieren. Fürn ∈ N undy ∈ S sei

By(n) :=n−1∑

i=0

IXi=y

die Anzahl der Besuche der Markovkette im Zustandy vor der Zeitn.

Satz 11.25(Ergodensatz für Markovketten, 1. Version). Sei(Xn, P ) eine irreduzible homo-

gene Markovkette mit abzählbarem ZustandsraumS.

(1). Ist die Markovkette rekurrent, dann gilt

limn→∞

1

By(n)

n−1∑

i=0

f(Xi) = Ey

[Ty−1∑

i=0

f(Xi)

]=

∫f dµy

P -fast sicher für jede Funktionf : S → R+ und alley ∈ S. Hierbei istµy das durch

(11.5.1) definierte invariante Maß.

(2). Existiert eine Gleichgewichtsverteilungµ, dann folgtµy = µ für alle y ∈ S und

limn→∞

1

n

n−1∑

i=0

f(Xi) =

∫f dµ P -fast sicher.

Die letzte Aussage ist ein Gesetz der großen Zahlen für irreduzible, positiv rekurrente Markovket-

ten, und eine erste Version eines Ergodensatzes für Markovketten: Die „zeitlichen“ Mittelwerte1n

n−1∑i=0

f(Xi) konvergieren fast sicher gegen den „räumlichen“ Mittelwert∫f dµ der Funktionf

bzgl. der Gleichgewichtsverteilung. Insbesondere ergibtsich

µ(x) = limn→∞

1

n

n−1∑

i=0

Ix(Xi) P -fast sicher für allex ∈ S,

d.h. die Gewichte der Gleichgewichtsverteilung sind die asymptotischen relativen Häufigkeiten

der Zuständex ∈ S. Dieser Zusammenhang kann in beide Richtungen verwendet werden:

(1). Berechnung der asymptotischen relativen Häufigkeitendurch Lösen des linearen Glei-

chungssystemsµ = µp.

(2). Schätzen der Gleichgewichtsverteilung:

µ ≈ 1

n

n−1∑

i=0

δXifür großen.

Universität Bonn Wintersemester 2009/2010

Page 406: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

406 KAPITEL 11. MARKOVKETTEN

Beweis von Satz 11.25.Da die ZufallsvariablenXi nicht unabhängig sind, können wir nicht wie

im Beweis des klassischen GdgZ verfahren. Stattdessen nutzen wir aus, dass die Markovkette

jedes mal, wenn sie den Punktx trifft, neu startet – unabhängig vom vorherigen Verlauf. Durch

Zerlegen der Summe in Teilsummen über diese verschiedenen Zykel erhalten wir eine Summe

von unabhängigen Zufallsvariablen, auf die sich das klassische GdgZ anwenden lässt:

(1). Wir betrachten die Markovkette o.B.d.A. im kanonischenModell. SeiT (k) die k-te Be-

suchszeit bzw. Rückkehrzeit zu einem festen Zustandy ∈ S, d.h.T (0) = 0, und

T (k+1) = T (k) + Ty θT(k)

für allek ≥ 0.

Da die Kette irreduzibel und rekurrent ist, giltT (k) <∞ P -fast sicher für allek, und damit

T (l)∑

i=1

f(Xi) =l−1∑

k=0

Yk mit Yk :=T (k+1)∑

i=T (k)+1

f(Xi).

y

T (1) T (2) T (3) T (4) T (5) T (6)

Abbildung 11.11: Regenerative Zyklen.

Wir zeigen nun, dass aufgrund der starken Markoveigenschaft die ZufallsvariablenYk (k ≥1) unterP unabhängig und identisch verteilt sind. Es gilt nämlich

Yk =

T (k)+TyθT(k)

i=T (k)+1

f(Xi) =

Ty∑

j=1

f(Xj θT(k)

) = Y0 θT(k)

,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 407: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.5. ERGODIZITÄT 407

also

P [Yk ∈ B | FT (k) ]SME= Py[Y0 ∈ B] für alleB ⊂ S,

d.h.Yk ist unabhängig vonFT (k) mit VerteilungPyY −10 . Da die ZufallsvariablenY0, . . . , Yk−1

FT (k)-messbar sind, folgt die Unabhängigkeit derYk, k ≥ 0, unterP . Zudem erhalten wir

für k ≥ 1 :

E[Yk] = Ey[Y0] = Ey

[Ty∑

i=1

f(Xi)

]=

∫f dµy.

Nach demGesetz der großen Zahlenfolgt dann:

liml→∞

1

l

T (l)∑

i=1

f(Xi) = liml→∞

1

l

l−1∑

k=1

Yk =

∫f dµy P -fast sicher. (11.5.2)

Ist die AnzahlBy(n) der Besuche iny vor der Zeitn gleichl, dann gilt

T (l−1) < n ≤ T (l+1),

also1

l

T (l−1)∑

i=1

f(Xi) ≤ 1

By(n)

n∑

i=1

f(Xi) ≤ 1

l

T (l+1)∑

i=1

f(Xi). (11.5.3)

Für n → ∞ konvergiert auchl = By(n) gegen unendlich, da die Markovkette rekurrent

ist. Da die linke und rechte Seite von (11.5.3) nach (11.5.2)für l → ∞ gegen∫f dµy

konvergieren, folgt

limn→∞

1

By(n)

n−1∑

i=0

f(Xi) = limn→∞

1

By(n)

n∑

i=1

f(Xi) =

∫f dµy P -fast sicher.

(2). Anwenden von Aussage (1) mit der konstanten Funktionf ≡ 1 liefert

n

By(n)

n→∞−→ µy[S] P -fast sicher.

Da eine invariante Verteilung existiert, ist die Kette positiv rekurrent, d.h.µy[S] < ∞.

Daher folgt fürf ≥ 0:

1

n

n−1∑

i=0

f(Xi) =By(n)

n· 1

By(n)

n−1∑

i=0

f(Xi)n→∞−→

∫f dµy

µy[S]=

∫f dµy

P -fast sicher fürn → ∞. Da die Markovkette nach Voraussetzung irreduzibel ist, ist die

Gleichgewichtsverteilung nach Korollar 11.22 eindeutig.Also gilt µy = µ für alley ∈ S.

Universität Bonn Wintersemester 2009/2010

Page 408: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

408 KAPITEL 11. MARKOVKETTEN

Beispiel(Kartenhaus / Maschinenerneuerung). Wir betrachten die Markovkette aus dem Bei-

spiel von oben.

q0 q1 q2 q3 q4 q5

p1p2

p3p4

p5

p0

0 1 2 3 4 5

Abbildung 11.12: Übergangswahrscheinlichkeiten der durch p gegeben Markovkette.

Für Übergangswahrscheinlichkeitenp(i, 0) = pi ∈ (0, 1) undp(i, i + 1) = qi = 1 − pi erhalten

wir

P0[T0 > n] = q0 · q1 · . . . · qn−1, und damit

E0[T0] =∞∑

n=0

n−1∏

i=0

qi.

Gilt E0[T0] <∞, dann ist die Kette irreduzibel und positiv rekurrent. Für die asymptotische rela-

tive Häufigkeit des Zusammenfallens des Kartenhauses folgtdann nach Satz 11.25 und Korollar

11.22:

limn→∞

1

n

n−1∑

i=0

I0(Xi) = µ(0) =1

E0[T0]Px-fast sicher für allex ∈ S.

Beispiel(Markov Chain Monte Carlo Verfahren (MCMC) ). Seiµ eine Wahrscheinlichkeits-

verteilung auf eine abzählbaren MengeS, deren Gewichte wir bis auf eine Normierungskon-

stante kennen bzw. berechnen können. Um Erwartungswerte von Funktionenf : S → R+ bzgl

µ approximativ zu berechnen, können wir dann wie in Kapitel 3 beschrieben eine irreduzible

Übergangsmatrixp mit Gleichgewichtµ bestimmen, und eine Markovkette(Xn, P ) mit dieser

Übergangsmatrix simulieren. Nach Satz 11.26 liefern die empirischen Mittelwerte

θn =1

n

n∑

i=1

f(Xi)

dann eine konsistente Folge von Schätzern für den gesuchtenErwartungswert

θ =

∫f dµ.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 409: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.5. ERGODIZITÄT 409

Für praktische Anwendungen ist es wichtig, den Schätzfehler zu quantifizieren. Eine erste Aus-

sage in diese Richtung liefert ein zentraler Grenzwertsatz für Markovketten, siehe z.B. [T. Ko-

morowski, C. Landim, S. Olla: Fluctuations in Markov Processes].

Allgemeinere Ergodensätze

Die Aussage von Satz 11.25 lässt sich wesentlich allgemeiner formulieren. Wir notieren zunächst

eine elementare, aber wichtige Erweiterung:

Satz 11.26(Ergodensatz für Markovketten, 2. Version). Ist (Xn, P ) eine irreduzible homoge-

ne Markovkette, undµ ein Gleichgewicht des Übergangskernsp, dann gilt

limn→∞

1

n

n−1∑

i=0

f(Xi, Xi+1, . . . , Xi+r) =

∫· · ·∫f(x0, x1, . . . , xr)µ(dx0)p(x0, dx1) · · · p(xr−1, dxr)

P -fast sicher für aller ≥ 0 undf : Sr+1 → R+.

Wir geben nur die Beweisidee an, und überlassen die Ausführung der Details dem Leser als

Übung:

Beweis-Skizze.Der Prozess

Xi := (Xi, Xi+1, . . . , Xi+r)

ist eine Markovkette mit Zustandsraum

S = (x0, . . . , xr) ∈ Sr+1 | p(xi, xi+1) > 0 ∀0 ≤ i < r,

Übergangsmatrix

p((x0, . . . , xr), (y0, . . . , yr)) = δx1(y0)δx2(y1) · · · δxr(yr−1)p(xr, yr),

und Gleichgewichtsverteilung

µ(x0, . . . , xr) = µ(x0) · p(x0, x1) · . . . · p(xr−1, xr).

Ist (Xn) irreduzibel, so auch(Xn). Die Behauptung folgt daher aus Satz 11.25.

Eine wichtige Anwendung von Satz 11.26 ist dasSchätzen der Übergangsmatrixeiner Markov-

kette: Fürx, y ∈ S gilt

p(x, y) = limn→∞

1

n

n−1∑

i=0

IXi=x,Xi+1=y P -fast sicher,

d.h. die Übergangswahrscheinlichkeiten sind die asymptotischen relativen Häufigkeiten der Über-

gänge.

Universität Bonn Wintersemester 2009/2010

Page 410: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

410 KAPITEL 11. MARKOVKETTEN

Beispiel (Neues im I.I.D. Fall). Auch im i.i.d. Fall liefert Satz 11.26 eine neue Aussage: Ist

X0, X1, . . . eine Folge unabhängiger, identisch verteilter Zufallsvariablen („Buchstaben“) mit

Werten in einer endlichen oder abzählbaren MengeS („Alphabet“), dann ergibt sich für die a-

symptotische relative Häufigkeit eines Wortes(a0, a1, . . . , ak) ∈ Sk+1:

limn→∞

1

n

n−1∑

i=0

IXi=a0,Xi+1=a1,...,Xi+k=ak =k∏

j=0

µ(aj) P -fast sicher,

wobeiµ(a) = P [Xi = a] die Wahrscheinlichkeit des Buchstabensa ist.

Mit abstrakteren Argumenten kann man Ergodensätze im allgemeinen Rahmen dynamischer Sys-

teme beweisen. Zum Abschluss dieses Abschnittes geben wir kurz ein entsprechendes zentrales

Resultat ohne Beweis wieder. Sei(Ω,A, P ) ein Wahrscheinlichkeitsraum undθ : Ω → Ω eine

maßerhaltende Abbildung, d.h.P θ−1 = P . Den Raum(Ω,A, P ) zusammen mit der maßerhal-

tenden Abbildungθ nennt man auch eindynamisches System. Beispielsweise ist der Shiftoperator

θ auf dem Pfadraum maßerhaltend bzgl. der VerteilungP eines stationären stochastischen Pro-

zesses. Dieσ-AlgebraJ der θ-invarianten Ereignisseist definiert als

J = A ∈ A | θ−1(A) = A.

Beispielsweise sind die Zufallsvariablenlim inf 1n

n−1∑i=0

F θi undlim sup 1n

n−1∑i=0

F θi für jedeA-

messbare AbbildungF : Ω → R messbar bzgl.J . Allgemein sind alleθ-invarianten Ereignisse

asymptotisch. Das MaßP heißtergodisch, falls P [A] ∈ 0, 1 für alleA ∈ J gilt. In dieser

allgemeinen Situation kann man zeigen:

Satz 11.27(Birkhoffs individueller Ergodensatz). Für jede FunktionF ∈ L1(Ω,A, P ) gilt

limn→∞

1

n

n−1∑

i=0

F (θi(ω)) = E[F | J ](ω) für P -fast alleω ∈ Ω.

Ist P ergodisch, dann folgt

limn→∞

1

n

n−1∑

i=0

F θi = E[F ] P -fast sicher.

Der Beweis findet sich z.B. in den Wahrscheinlichkeitstheorie-Büchern von Breiman oder Dur-

rett. DieL2-Konvergenz lässt sich mit wesentlich einfacheren funktionalanalytischen Methoden

zeigen (Ergodensatz von Neumann, siehe z.B. [Varadhan: Probability Theory])

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 411: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.6. ZEITSTETIGE MARKOVPROZESSE 411

11.6 Zeitstetige Markovprozesse

Für viele Anwendungsprobleme sind Modelle, die auf Markovprozessen in kontinuierlicher Zeit

basieren, natürlicher. Ändert der Prozess nur an abzählbarvielen zufälligen Zeitpunkten seinen

Zustand, dann nennt man ihn eine zeitstetige Markovkette. Ein Markovprozess mit stetigen Pfa-

den heißt dagegen Diffusionsprozess.

Klassische Anwendungsbereiche zeitstetiger Markovketten sind die Modellierung von Warte-

schlangen und chemischen Reaktionen. Wir zeigen hier, wie man zeitstetige aus zeitdiskreten

Markovketten konstruiert und beschreibt. Viele der Aussagen aus den letzten Abschnitten haben

Entsprechungen im zeitstetigen Fall – wir verweisen dazu auf das einführende Lehrbuch [J. Nor-

ris: Markov Chains].

Der wichtigste Diffusionsprozess ist die Brownsche Bewegung, die sich ausgehend vom zentralen

Grenzwertsatz als universeller zeitstetiger Skalierungslimes von Random Walks mit quadratin-

tegrierbaren Inkrementen ergibt. In der stochastischen Analysis konstruiert man andere Diffu-

sionsprozesse über stochastische Differentialgleichungen aus der Brownschen Bewegung – mit

zahlreichen Anwendungen z.B. in der Finanzmathematik, Physik und mathematischen Biologie,

aber auch mit weitreichenden Konsequenzen für viele Bereiche der Mathematik.

Übergangskerne und Markovprozesse

Seienps,t(x, dy), 0 ≤ s ≤ t <∞, stochastische Kerne auf einem messbaren Raum(S,S).

Definition (Markovprozess).

(1). Ein auf einem Wahrscheinlichkeitsraum(Ω,A, P ) definierter zeitstetiger stochastischer

ProzessXt : Ω → S, t ∈ [0,∞), heißtMarkovprozess mit Übergangswahrscheinlich-

keitenps,t(x, dy), falls

P [Xt+h ∈ B | FXt ] = pt,t+h(Xt, B) P -fast sicher

für alleB ∈ S undt, h ≥ 0 gilt, wobei

FXt = σ(Xs | 0 ≤ s ≤ t)

die vom Prozess erzeugtenσ-Algebren sind.

(2). Der Markovprozess heißtzeitlich homogen, falls die Übergangswahrscheinlichkeitenpt,t+h

nur vonh abhängen:

pt,t+h(x, dy) = ph(x, dy) für alle t, h ≥ 0.

Universität Bonn Wintersemester 2009/2010

Page 412: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

412 KAPITEL 11. MARKOVKETTEN

Bemerkung. Einen Markovprozess mit stetigen Pfadent 7→ Xt(ω) nennt man einenDiffusions-

prozess. Einezeitstetige Markovketteist ein Markovprozess, dessen Pfade stückweise konstant

sind, und nur an abzählbar vielen (vonω abhängigen) Zeitpunkten springen. Allgemeine Mar-

kovprozesse können sowohl stetige als auch Sprunganteile haben – es ist auch möglich, das sich

die Sprünge häufen.

Die zeithomogenen reellwertigen Markovprozesse mit räumlich homogenen Übergangswahr-

scheinlichkeiten sind gerade die Lévy-Prozesse:

Satz 11.28(Lévy-Prozesse als Markovprozesse). EinRd-wertiger stochastischer Prozess(Xt, P )

mit stationären unabhängigen InkrementenXt0 , Xt1 − Xt0 , . . . , Xtn − Xtn−1 (0 ≤ t0 < t1 <

. . . < tn) ist ein zeithomogener Markovprozess mit translationsinvarianten Übergangswahr-

scheinlichkeiten

ph(x,B) = P [Xt+h −Xt ∈ B − x], t, h ≥ 0, B ∈ B(Rd).

Beweis.Für jede Partition0 = t0 < t1 < . . . < tn = t eines Intervalls[0, t] sind die Inkremente

Xt+h −Xt für h ≥ 0 unabhängig vonσ(Xt0 , Xt1 −Xt0 , . . . , Xtn −Xtn−1). Wegen

Xtk = Xt0 +k∑

i=1

(Xti −Xti−1)

erzeugen die ZufallsvariablenXt0 , Xt1 , . . . , Xtn dieselbeσ-Algebra. Also istXt+h − Xt auch

unabhängig von derσ-Algebra

FXt = σ(Xs | 0 ≤ s ≤ t) = σ

(⋃

0=t0<t1<...<tn

σ(Xt0 , Xt1 , . . . , Xtn)

).

Damit folgt

P [Xt+h ∈ B | FXt ](ω) = P [Xt + (Xt+h −Xt) ∈ B | FX

t ](ω)

= P [Xt+h −Xt ∈ B −Xt(ω)] = ph(Xt(ω), B)

für P -fast alleω.

Beispiel. (1). Poissonprozess:Ein Poissonprozess mit Parameterλ > 0 ist eine zeitstetige Mar-

kovkette mit ZustandsraumS = 0, 1, 2, . . . und Übergangswahrscheinlichkeiten

pt(x, y) = e−λt (λt)y−x

(y − x)!für y ≥ x, bzw.pt(x, y) = 0 für y < x.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 413: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.6. ZEITSTETIGE MARKOVPROZESSE 413

(2). Brownsche Bewegung:Eined-dimensionale Brownsche Bewegung ist ein zeitlich homo-

gener Diffusionsprozess mit ZustandsraumS = Rd und absolutstetigen Übergangswahr-

scheinlichkeitenpt(x, dy) mit Dichte

pt(x, y) = (2πt)−d/2 · exp(−‖x− y‖2

2t

), t > 0, x, y ∈ Rd.

Damit die Übergangswahrscheinlichkeiten eines Markovprozesses für verschiedene Zeitinterval-

le konsistent sind, muss

ps,u = ps,tpt,u für alle0 ≤ s ≤ t ≤ u, (11.6.1)

bzw., im zeithomogenen Fall,

ps+t = pspt = ptps für alles, t ≥ 0 (11.6.2)

gelten. (11.6.1) und (11.6.2) werden auch alsChapman-Kolmogorov-Gleichungenbezeichnet.

Im zeithomogenen Fall besagt die Chapman-Kolmogorov-Gleichung (11.6.2), dass die Über-

gangskernept, t ≥ 0, eineHalbgruppe bilden.

Ist (Xt)t∈[0,∞) bzgl.P ein zeitstetiger Markovprozess und(tn) eine aufsteigende Folge inR+,

dann ist(Xtn) eine zeitdiskrete Markovkette mit Übergangskernenptn−1,tn . Insbesondere erhal-

ten wir mit Satz 11.5:

Korollar 11.29 (Endlichdimensionale Randverteilungen). Für jedesn ≥ 0 und0 = t0 < t1 <

. . . < tn hat (Xt0 , Xt1 , . . . , Xtn) die Verteilung

µ(dx0)pt0,t1(x0, dx1)pt1,t2(x1, dx2) · · · ptn−1,tn(xn−1, dxn),

wobeiµ = P X−10 die Startverteilung des Markovprozesses ist.

Beispiel(Brownsche Bewegung). Für eined-dimensionale Brownsche Bewegung(Bt) mit Start

in x0 sind die Verteilungen von(Bt1 , . . . , Btn) für 0 = t0 < t1 < . . . < tn absolutstetig mit

Dichten

fBt1 ,...,Btn(x1, . . . , xn) =

n∏

i=1

pti−ti−1(xi−1, xi) =

n∏

i=1

(2π(ti−ti−1))−d/2 exp

(−‖xi − xi−1‖2

2(ti − ti−1)

).

Insbesondere ist eine Brownsche Bewegung einGaußprozess, d.h. alle endlichdimensionalen

Randverteilungen sind multivariate Normalverteilungen.

Universität Bonn Wintersemester 2009/2010

Page 414: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

414 KAPITEL 11. MARKOVKETTEN

Bemerkung (Eindeutigkeit in Verteilung, Modifikationen ). Nach dem Korollar ist die Vertei-

lung eines Markovprozesses((Xt)t≥0, P ) auf dem ProduktraumS[0,∞) mit Produkt-σ-Algebra

eindeutig durch die Startverteilung und die Übergangswahrscheinlichkeiten festgelegt. Da es

überabzählbar viele Zeitpunktet ∈ R+ gibt, ist die Situation allerdings etwas subtiler als im

zeitdiskreten Fall. Beispielsweise ist das Ereignis, dass die Pfadet 7→ Xt(ω) des Prozesses ste-

tig bzw. rechtsstetig sind,nicht messbarbzgl. der Produkt-σ-Algebra. Tatsächlich kann man zu

einem Markovprozess(Xt) mit (rechts-)stetigen Pfaden in der Regel einen modifizierten Prozess

(Xt) mit

P [Xt = Xt] = 1 für jedest ∈ R+

finden, der keine (rechts-)stetigen Pfade hat. Der Prozess(Xt) hat dann dieselben endlichdimen-

sionalen Randverteilungen wie(Xt), und ist daher ein Markovprozess mit derselben Startvertei-

lung und denselben Übergangswahrscheinlichkeiten!

Zeitstetige Markovketten

Wir wollen nun (umgekehrt wie oben) aus einer zeitdiskretenMarkovkette einen zeitstetigen

Markovprozess konstruieren, der dieselben Zustände durchläuft, aber zu zufälligen kontinuierli-

chen Zeitpunkten von einem Zustand zum nächsten springt. Dazu betrachten wir der Übersicht-

lichkeit halber nur den Fall eines abzählbaren ZustandsraumesS. Einen zeitstetigen Markovpro-

zess aufS charakterisieren wir dann durch die infinitesimalen Übergangsraten

Lt(x, y) = limhց0

pt,t+h(x, y)− δ(x, y)

h, t ≥ 0. (11.6.3)

Wir beschränken uns im Folgenden auf den zeithomogenen Fall. Hier hängen die Übergangs-

wahrscheinlichkeiten nicht vont ab, und es gilt

Lt(x, y) = L (x, y) = limhց0

ph(x, y)− δ(x, y)

hfür alle t ≥ 0. (11.6.4)

Wegen

ph(x, y) = h · L (x, y) + o(h) für x 6= y, und

ph(x, x) = 1 + h · L (x, x) + o(h),

ist L (x, y) für x 6= y die Sprungrate vonx nachy, undL (x, x) ist die negative Wegsprungrate

von x. Erfüllen die Übergangswahrscheinlichkeiten eines zeithomogenen Markovprozesses auf

S die Bedingung (11.6.4) bzgl. eines zu spezifizierenden Konvergenzbegriffes, dann heißt die

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 415: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.6. ZEITSTETIGE MARKOVPROZESSE 415

Matrix L (x, y) (x, y ∈ S) infinitesimaler Generator des Markovprozesses. Daph(x, •) für

alleh ≥ 0 eine Wahrscheinlichkeitsverteilung ist, sollte in diesemFall gelten:

L (x, x) = −∑

y∈SL (x, y) für allex ∈ S. (11.6.5)

Sei nunL (x, y) (x, y ∈ S) eine gegebene Matrix mitL (x, y) ≥ 0 für allex, y ∈ S und (11.6.5).

Wir setzen zudem voraus, dass die WegsprungratenL (x, x) beschränkt sind:

Annahme: Es existiertλ > 0 mit

y∈SL (x, y) = −L (x, x) ≤ λ für allex ∈ S. (11.6.6)

Um einen Markovprozess mit SprungratenL (x, y) zu konstruieren, betrachten wir unabhängi-

ge,Exp(λ)-verteilte ZufallsvariablenT1, T2, . . . auf einem Wahrscheinlichkeitsraum(Ω,A, P ),die die zeitlichen Abstände zwischen möglichen Sprüngen des Prozesses beschreiben. Sei fer-

ner(Yn)n=0,1,2,... eine vonσ(T1, T2, . . .) unabhängige Markovkette auf(Ω,A, P ) mit Übergangs-

wahrscheinlichkeiten

π(x, y) =1

λL (x, y) für y 6= x,

π(x, x) = 1−∑

y 6=x

π(x, y).

Die Kette (Yn) beschreibt die Zustände, die der zu konstruierende zeitstetige Sprungprozess

durchläuft. Mit

Nt = #n ∈ N|T1 + T2 + . . .+ Tn ≤ t

erhalten wir:

Satz 11.30(Konstruktion von zeitstetigen Markovketten). Der ProzessXt := YNt ist ein

zeitstetiger Markovprozess mit ZustandsraumS, Übergangswahrscheinlichkeiten

pt(x, y) = e−λt

∞∑

n=0

(λt)n

n!πn(x, y), x, y ∈ S, (11.6.7)

und GeneratorL (x, y). Genauer gilt

limhց0

supx∈S

y∈S

∣∣∣∣ph(x, y)− δ(x, y)

h− L (x, y)

∣∣∣∣ = 0. (11.6.8)

Universität Bonn Wintersemester 2009/2010

Page 416: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

416 KAPITEL 11. MARKOVKETTEN

Bemerkung. (1). Matrixexponentialfunktion:Die Übergangswahrscheinlichkeiten haben die

Form

pt = e−λteλtπ = eλt(π−I), (11.6.9)

wobei

(eq)(x, y) =∞∑

n=0

1

n!qn(x, y)

die Matrixexponentialfunktion ist. Hierbei isteλtπ auch im abzählbar unendlichen Fall de-

finiert, da die Matrizen(λtπ)n für allen ≥ 0 nichtnegativ sind. Die Reiheeλt(π−I) konver-

giert bzgl. der multiplikativen Matrixnorm

‖q‖ := supx∈S

y∈S|q(x, y)|, (11.6.10)

da ‖λntn(π − I)n‖ ≤ (2λt)n für alle n ≥ 0 gilt, und die Identität (11.6.9) folgt wegen

eλt(π−I) = e−λtIeλtπ = e−λteλtπ.

(2). Konvergenzbegriff:Die Aussage (11.6.8) besagt, dass

limhց0

ph − I

h= L

bzgl. der durch (11.6.10) definierten Matrixnorm gilt. Die Voraussetzung (11.6.6) gewähr-

leistet gerade, dass die Norm vonL endlich ist. In anderer Form ausgedrückt bedeutet

(11.6.8), dass die signierten Maße1h(ph(x, •) − δ(x, •)) für h ց 0 gleichmäßig in Varia-

tionsnorm (ℓ1-Norm) gegenL (x, •) konvergieren. Eine entsprechende Aussage gilt auch

(mit analogem Beweis), wenn der ZustandsraumS nicht abzählbar ist.

Beweis.Seient, h ≥ 0 undy ∈ S. Um die Markoveigenschaft

P [Xt+h = y | FXt ] = ph(Xt, Y ) P -fast sicher (11.6.11)

zu zeigen, verfahren wir ähnlich wie für Poisson-Prozesse in Satz 10.12. Seien zunächstk, l ∈0, 1, 2, . . . fest, und sei

Gk = σ(T1, . . . , Tk, Y0, Y1, . . . , Yk)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 417: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.6. ZEITSTETIGE MARKOVPROZESSE 417

dieσ-Algebra, die den Verlauf des Prozesses bis zumk-ten Sprung beschreibt. Da die Wartezei-

tenTi (i ∈ N) und die Markovkette(Yn) unabhängig voneinander sind, undNt messbar bzgl.

σ(Ti | i ∈ N) ist, erhalten wir nach (10.4.3):

P [Nt = k,Nt+h = k + l, Yk+l = y | Gk]

= P [Nt = k,Nt+h = k + l | T1, . . . , Tk] · P [Yk+l = y | Y0, Y1, . . . , Yk](10.4.3)= P [Nt = k | T1, . . . , Tk] · P [Nh = l] · πl(Yk, y)

= P [Nt = k | Gk] · e−λh (λh)l

l!πl(Yk, y) P -fast sicher.

Durch Summieren überl folgt:

P [Nt = k,Xt+h = y | Gk] = P [Nt = k | Gk] · e−λh

∞∑

l=0

(λh)l

l!πl(Yk, y) P -f.s. (11.6.12)

Sei nunA ∈ FXt . Ähnlich wie im Beweis von Satz 10.12 (3) zeigt man, dass dann ein Ereignis

Ak ∈ Gk existiert mit

A ∩ Nt = k = Ak ∩ Nt = k,

d.h. fürNt = k hängt der Verlauf vonXs für 0 ≤ s ≤ t nur von den ZufallsvariablenT1, . . . , Tk

undY0, . . . , Yk ab. Nach (11.6.12) folgt dann

P [Nt = k ∩ Xt+h = y ∩ A]= E[P [Nt = k,Xt+h = y | Gk] ; Ak]

= E[P [Nt = k | Gk] · ph(Yk, y) ; Ak]

= E[ph(Xt, y) ; A ∩ Nt = k],

wobeiph wie in (11.6.7) definiert ist. Hierbei haben wir im letzten Schritt benutzt, dassXt = Yk

aufNt = k gilt. Durch Summieren überk erhalten wir schließlich

P [Xt+h = y ∩ A] = E[ph(Xt, y) ; A] für alleA ∈ FXt ,

und damit (11.6.11).

Um den Generator zu identifizieren, bemerken wir, dass füry 6= x aus (11.6.7) wegenL (x, y) =

λπ(x, y) folgt:

ph(x, y)− hL (x, y) = (e−λh − 1)λhπ(x, y) + eλh∞∑

n=2

(λh)n

n!πn(x, y).

Universität Bonn Wintersemester 2009/2010

Page 418: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

418 KAPITEL 11. MARKOVKETTEN

Wegen∑y∈S

πn(x, y) = 1 für allen ≥ 0 erhalten wir dann die Abschätzung

supx∈S

y 6=x

|ph(x, y)− hL (x, y)| = O(h2).

Die Aussage (11.6.8) folgt hieraus, da

ph(x, x)− δ(x, x)− hL (x, x) = −∑

y 6=x

(ph(x, y)− hL (x, y))

für allex ∈ S gilt.

Vorwärts- und Rückwärtsgleichungen für Markovketten

Wir leiten nun Gleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten von

Markovketten her.

Zeitdiskreter Fall. Für dien-Schritt Übergangswahrscheinlichkeiten einer zeitdiskreten Mar-

kovkette mit Übergangskernπ gilt

πn+1 − πn = (π − I)πn = πn(π − I) für allen ≥ 0. (11.6.13)

Hierbei istπ − I der Generator der Markovkette.

Zeitstetiger Fall. Im zeitstetigen Fall erhalten wir als infinitesimale Versionen von (11.6.13)

Differentialgleichungen für die Zeitentwicklung der Übergangswahrscheinlichkeiten. Aus (11.6.8)

und der Chapman-Kolmogorov-Gleichung (11.6.1) folgt:

Satz 11.31(Kolmogorovsche Vorwärts- und Rückwärtsgleichung). Für die Übergangsmatri-

zenpt(x, y) des in Satz 11.30 konstruierten Markovprozesses gilt

limh→0

pt+h − pth

= ptL = L pt für alle t ≥ 0

mit Konvergenz bzgl. der in 11.6.10 definierten Matrixnorm‖ • ‖. Insbesondere erfüllen die

Übergangswahrscheinlichkeiten dieKolmogorovsche Vorwärtsgleichung (Mastergleichung)

d

dtpt(x, y) =

z∈Spt(x, z)L (z, y), t ≥ 0, (11.6.14)

sowie dieKolmogorovsche Rückwärtsgleichung

d

dtpt(x, y) =

z∈SL (x, z)pt(z, y), t ≥ 0. (11.6.15)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 419: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.6. ZEITSTETIGE MARKOVPROZESSE 419

Beweis.Nach (11.6.8) giltlimhց0

h−1(ph − I) = L bzgl. der Matrixnorm‖ • ‖. Da die Norm

multiplikativ mit ‖pt‖ ≤ 1 ist, folgt für t, h > 0 nach der Chapman-Kolmogorov-Gleichung∥∥∥∥pt+h − pt

h− ptL

∥∥∥∥ =

∥∥∥∥pt(ph − I

h− L

)∥∥∥∥ ≤ ‖pt‖ ·∥∥∥∥ph − I

h− L

∥∥∥∥

≤∥∥∥∥ph − I

h− L

∥∥∥∥hց0−→ 0.

Entsprechend konvergiert auch∥∥∥∥pt−h − pt

−h − ptL

∥∥∥∥ =

∥∥∥∥pt−h

(ph − I

h− phL

)∥∥∥∥ ≤ ‖pt−h‖ ·∥∥∥∥ph − I

h− phL

∥∥∥∥

≤∥∥∥∥ph − I

h− L

∥∥∥∥+ ‖I − ph‖ · ‖L ‖

für hց 0 gegen0. Damit haben wir die Vorwärtsgleichung

limh→0

h−1(pt+h − pt) = ptL

für t > 0 gezeigt. Der Beweis der Rückwärtsgleichung verläuft ähnlich.

Anschaulich können wir dieVorwärtsgleichungfolgendermaßen interpretieren: Seix ∈ S ein

fester Zustand. Dann beschreibt die Funktion

u(t, y) = pt(x, y) = P [Xt = y |X0 = x], t ≥ 0, y ∈ S,

die Zeitentwicklung der Aufenthaltswahrscheinlichkeiten der Markovkette in Zuständeny ∈ S.

Die Vorwärtsgleichung besagt, dassu das Anfangswertproblem

∂u

∂t(t, y) =

z∈Su(t, z)L (z, y) für t ≥ 0,

u(0, y) = δx(y)

löst. Die Wahrscheinlichkeitsmasse im Punkty ändert sich also dadurch, dass Übergänge von

anderen Zuständenz nachy mit den RatenL (z, y), bzw. Übergänge vony in andere Zustände

mit der negativen RateL (y, y) stattfinden. Bei der Analyse chemischer Reaktionen spielt die

Vorwärtsgleichung eine wichtige Rolle – sie wird in den Naturwissenschaften meist als Master-

gleichung bezeichnet.

Für die Rückwärtsgleichungergibt sich eine ähnliche, aber andere Interpretation: Seien hier

y ∈ S undt ≥ 0 fest, und

v(s, x) = pt−s(x, y) = P [Xt = y |Xs = x], s ∈ [0, t], x ∈ S.

Universität Bonn Wintersemester 2009/2010

Page 420: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

420 KAPITEL 11. MARKOVKETTEN

Die Funktionv beschreibt die Abhängigkeit der Aufenthaltswahrscheinlichkeiten von dem zu-

rückliegenden Startzeitpunkt und Anfangszustand des Markovprozesses. Die Rückwärtsgleichung

besagt dann, dassv das „Endwertproblem“

∂v

∂s(s, x) =

z∈SL (x, z)v(s, z), s ∈ [0, t],

v(t, x) = δy(x)

löst.

Allgemeiner ergeben sich aus der Vorwärtsgleichung Zeitentwicklungsgleichungen für die Ver-

teilungenµpt des Markovprozesses mit beliebiger Startverteilungµ, und aus der Rückwärtsglei-

chung Zeitentwicklungsgleichungen für die ErwartungswerteE[f(Xt) |Xs = x] von Funktionen

f : S → R. Die Rückwärtsgleichung liefert auch eine infinitesimale Charakterisierung von

Gleichgewichtsverteilungen zeitstetiger Markovketten:

Korollar 11.32 (Gleichgewichte zeitstetiger Markovketten). Ist die Annahme (11.6.6) erfüllt,

dann sind für eine Wahrscheinlichkeitsverteilungµ aufS die folgenden Aussagen äquivalent:

(1). µ ist ein Gleichgewicht der Übergangshalbgruppe(pt)t≥0 aus (11.6.7), d.h.

µpt = µ für alle t ≥ 0.

(2). µL = 0, d.h. ∑

x∈Sµ(x)L (x, y) = 0 für alle y ∈ S.

Hierbei gewährleistet die Annahme (11.6.6) unter anderem,dassµL auch im abzählbar unend-

lichen Fall definiert ist.

Beweis.Anschaulich folgt aus der Rückwärtsgleichung

d

dtµpt = µL pt für t ≥ 0, µp0 = µ, (11.6.16)

und damit die Aussage. Um dies auch im abzählbar unendlichenFall zu rechtfertigen, verwenden

wir die Variationsnorm (ℓ1-Norm) ‖ν‖TV =∑x∈S

|ν(x)| von signierten Maßen. Für eine Matrix

q(x, y) (x, y ∈ S) und eine Wahrscheinlichkeitsverteilungµ gilt:

‖µq‖TV ≤ ‖µ‖TV · ‖q‖ = ‖q‖.

Nach Satz 11.30 erhalten wir

limhց0

∥∥∥∥µpt+h − µpt

h− µL pt

∥∥∥∥TV

≤ ‖µ‖TV · limhց0

∥∥∥∥pt+h − pt

h− L pt

∥∥∥∥ = 0,

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 421: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.6. ZEITSTETIGE MARKOVPROZESSE 421

und somit (11.6.16), wobei die Ableitung als Grenzwert der Differenzenquotienten in Variations-

norm definiert ist.

Aufbauend auf den obigen Resultaten kann man nun, ähnlich wieim zeitdiskreten Fall, die Re-

kurrenz und Transienz von zeitstetigen Markovketten untersuchen, mittlere Rückkehrzeiten und

Trefferwahrscheinlichkeiten berechnen, und einen Ergodensatz beweisen. Unter der Annahme

(11.6.6) können Rekurrenz und Transienz vollständig auf denzeitdiskreten Fall zurückgeführt

werden, da der zeitstetige ProzessXt = YNt dieselben Zustände durchläuft wie die zeitdiskrete

Markovkette(Yn)n=0,1,2,.... Für die Herleitung von Differenzengleichungen für mittlere Rück-

kehrzeiten, Trefferwahrscheinlichkeiten usw., sowie denBeweis des Gesetzes der großen Zahlen

im zeitstetigen Fall verweisen wir aus das Buch ’Markov Chains’ von J. R. Norris. Wir sehen uns

hier noch ein Beispiel an, das einen wichtigen Anwendungsbereich zeitstetiger Markovketten

kurz anreißt:

Beispiel (M/M/1-Warteschlangenmodell). Im einfachsten Modell einer Warteschlange gibt es

nur einen Server. Die Aufträge kommen jeweils nach unabhängigen, mit einem Parameterλ > 0

exponentialverteilten Wartezeiten beim Server an, und dieAbstände zwischen den Bearbeitungs-

zeiten zweier Aufträge sind ebenfalls unabhängig, und mit einem Parameterν exponentialverteilt.

Die beiden „M“s in M/M/1 stehen für gedächtnislose (engl. memoryless) Ankunfts- und Bear-

beitungszeiten, die „1“ für die Anzahl der Server.

Unter diesen (sehr restriktiven) Annahmen wird die Warteschlange durch eine zeitstetige Mar-

kovkette mit ZustandsraumS = 0, 1, 2, . . . und Übergangsraten

L (x, x+ 1) = λ, L (x, x− 1) = ν,

beschrieben, d.h. durch einen zeitstetigen Birth-Death-Process.

0 1 2 3 4

λ

ν

λ

ν

λ

ν

λ

ν

Abbildung 11.13: Übergangsraten einer M/M/1-Warteschlange.

Universität Bonn Wintersemester 2009/2010

Page 422: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

422 KAPITEL 11. MARKOVKETTEN

Die Wegsprungraten−L (x, x) sind durchλ + ν beschränkt, und die Sprungkette(Yn) hat die

Übergangswahrscheinlichkeiten

π(x, x+ 1) =λ

λ+ ν, π(x, x− 1) =

ν

λ+ νfür x > 0,

undπ(0, 0) =ν

λ+ ν. Insbesondere sind die Sprungkette, und damit auch die zeitstetige Markov-

kette, genau dann rekurrent, wennλ ≤ ν gilt. Die GleichgewichtsbedingungµL = 0 für den

zeitstetigen Prozess lautet

−µ(0) · λ+ µ(1) · ν = 0,

µ(x− 1) · λ− µ(x)(λ+ ν) + µ(x+ 1) · ν = 0 für x ∈ N.

Fürλ ≥ ν existiert keine Gleichgewichsverteilung, fürλ < ν ist die geometrische Verteilung

µ(x) =

(1− λ

ν

)·(λ

ν

)x

, x = 0, 1, 2, . . . ,

das eindeutige Gleichgewicht. Aus dem Ergodensatz folgt dann beispielsweise, dass die mitt-

lere Länge1t

t∫0

Xs ds der Warteschlange sich asymptotisch wie der Erwartungswertλ

ν − λder

Gleichgewichtsverteilung verhält.

Vorwärts- und Rückwärtsgleichung für die Brownsche Bewegung

Für allgemeine Markovprozesse ist die Herleitung von Vorwärts- und Rückwärtsgleichungen

technisch häufig deutlich aufwändiger, da der infinitesimale GeneratorL im Allgemeinen ein

unbeschränkter linearer Operator ist. Dies ist bereits beizeitstetigen Markovketten der Fall, wenn

die Wegsprungraten nicht beschränkt sind. Für die BrownscheBewegung erhalten wir die Kol-

mogorovschen Gleichungen unmittelbar aus der expliziten Form der Übergangsdichten

pt(x, y) = (2πt)−d/2 · exp(−‖x− y‖2

2t

).

Als infinitesimaler Generator ergibt sich der Laplaceoperator:

Satz 11.33(Brownsche Bewegung und Wärmeleitungsgleichung). Die Übergangsdichtenpt(x, y)

der Brownschen Bewegung bilden die Fundamentallösung der Wärmeleitungsgleichung, d.h. es

gilt∂

∂tpt(x, y) =

1

2∆xpt(x, y) =

1

2∆ypt(x, y) (11.6.17)

mit Anfangsbedingung

limtց0

∫pt(x, y)f(y) dy = f(x) für alle f ∈ Cb(R

d) undx ∈ Rd, (11.6.18)

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 423: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

11.6. ZEITSTETIGE MARKOVPROZESSE 423

bzw.

limtց0

∫g(x)pt(x, y) dy = g(y) für alle g ∈ Cb(R

d) undy ∈ Rd. (11.6.19)

Hierbei ist∆x =d∑

i=1

∂2

∂x2i

der Laplace-Operator in derx-Variable.

Beweis.Die Gleichung (11.6.17) verifiziert man durch Nachrechnen.Für x ∈ Rd ist pt(x, y)dy

eine Normalverteilung mit Mittelwertvektorx und Kovarianzmatrixt ·Id. Hieraus folgt (11.6.18),

da diese Wahrscheinlichkeitsverteilung fürt ց 0 analog zu Beispiel 2 in Abschnitt 8.3 schwach

gegen das Diracmaßδx konvergiert. Die Identität (11.6.19) folgt aus (11.6.18) wegenpt(x, y) =

pt(y, x).

Die Gleichung∂

∂tpt(x, y) =

1

2∆ypt(x, y)

ist dieVorwärtsgleichung, und die Gleichung

∂tpt(x, y) =

1

2∆xpt(x, y)

die Rückwärtsgleichungder Brownschen Bewegung. Anschaulich können wir die Vorwärtsglei-

chung auch folgendermaßen interpretieren: Für jedes Gebiet D ⊂ Rd mit glattem Rand gilt:

∂tpt(x,D) =

D

∂tpt(x, y)dy

=1

2

D

∆ypt(x, y)dy

=1

2

∂D

n(y) · ∇ypt(x, y)ν(dy),

wobein der äußere Normalenvektor undν das Oberflächenmaß auf∂D ist.

n(y)y

D

Abbildung 11.14: Äußerer Normalenvektor der MengeD im Punkty.

Universität Bonn Wintersemester 2009/2010

Page 424: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

424 KAPITEL 11. MARKOVKETTEN

Also beschreibt12n · ∇ypt(x, y) den Nettozufluss von Wahrscheinlichkeitsmasse pro Flächenein-

heit durch ein infinitesimales Flächenstück mit Ausrichtung n am Punkty.

Für Funktionenf ∈ C2b (R

d) ergeben sich aus (11.6.17) die Zeitentwicklungsgleichungen

∂tptf =

1

2∆ptf =

1

2pt∆f

für die Erwartungswerte

(ptf)(x) =

Rd

pt(x, y)f(y) dy = Ex[f(Bt)].

Dx y

pt(x, y)

Abbildung 11.15: Nettoabfluss

∣∣∣∣1

2

∂ypt(x, y)

∣∣∣∣.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 425: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Kapitel 12

Importance Sampling und große

Abweichungen

Um Wahrscheinlichkeiten seltener Ereignisse zu untersuchen, geht man häufig zu einer neuen

absolutstetigen Wahrscheinlichkeitsverteilung über, bzgl. der das relevante Ereignis nicht mehr

selten ist. Der Maßwechsel geschieht dabei typischerweisemit einer exponentiellen Dichte. Auf

diese Weise erhält man unter Anderem asymptotische Aussagen über die Wahrscheinlichkeiten

großer Abweichungen. Eine zentrale Rolle spielt dabei der Begriff der relativen Entropie, die

die statistische Unterscheidbarkeit zweier Wahrscheinlichkeitsverteilungen misst. Anwendungen

liegen in der Asymptotik von Likelihood basierten Schätz und Testverfahren, und der asymptoti-

schen Effizienz von Importance Sampling Schätzern.

12.1 Relative Dichten und Importance Sampling

Oft ist es günstig, Wahrscheinlichkeitsverteilungen mit einer relativen Dichte bzgl. leichter hand-

habbarer Verteilungen darzustellen. Die relative Dichte ist dabei häufig nur bis auf eine multi-

plikative Konstante explizit bekannt. Wir stellen hier zunächst einige Grundlagen über relative

Dichten zusammen, und betrachten dann Monte-Carlo Verfahren in diesem Kontext.

Relative Dichten

Seienµ undν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum(S,S). Das Maßµ

heißtabsolutstetigbzgl. ν (µ ≪ ν), falls jedeν-Nullmenge auch eineµ-Nullmenge ist. Der

425

Page 426: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

426 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Satz von Radon-Nikodym besagt, dassµ genau dann absolutstetig bzgl.ν ist, wenn eine relative

Dichtedµ/dν ∈ L1(S,S, ν) existiert mitµ[B] =∫B

dµdν(x)ν(dx) für alleB ∈ S, bzw.

∫f dµ =

∫f · dµ

dνdν für alle messbarenf : S → R+. (12.1.1)

Die relative Dichte istν-fast sicher eindeutig festgelegt. Ein stochastischer Beweis des Sat-

zes von Radon-Nikodym basierend auf dem Martingal-Konvergenzsatz findet sich z.B. in [Wil-

liams: Prob. with martingales]. Die folgenden elementarenAussagen ergeben sich unmittelbar

aus (12.1.1):

Satz 12.1. (1). Ist µ absolutstetig bzgl.ν mit ν-fast überall strikt positiver relativer Dichte,

dann ist auchν absolutstetig bzgl.µ und

dµ(x) =

(dµ

dν(x)

)−1

für µ-fast allex ∈ S.

(2). Sindµ undν beide absolutstetig bzgl. eines Referenzmaßesλ mit Dichtenf undg, und gilt

g > 0 λ-fast überall, dann istµ absolutstetig bzgl.ν mit relativer Dichte

dν(x) =

f(x)

g(x)für ν-fast allex ∈ S.

(3). Sindµ1, . . . , µn und ν1, . . . , νn Wahrscheinlichkeitsverteilungen auf messbaren Räumen

(S1,S1), . . . , (Sn,Sn) mit µi ≪ νi für alle 1 ≤ i ≤ n, dann ist auchµ1 ⊗ µ2 ⊗ . . . ⊗ µn

absolutstetig bzgl.ν1 ⊗ ν2 ⊗ . . .⊗ νn mit relativer Dichte

d(µ1 ⊗ . . . µn)

d(ν1 ⊗ . . .⊗ νn)(x1, . . . , xn) =

n∏

i=1

dµi

dνi(xi).

Die letzte Aussage gilt nicht für unendliche Produkte.

Beispiel (Singularität von unendlichen Produktmaßen). Sindµ undν zwei unterschiedliche

Wahrscheinlichkeitsverteilungen auf einem messbaren Raum(S,S), dann ist das unendliche Pro-

duktµ∞ :=⊗i∈N

µ nicht absolutstetig bzgl.ν∞ :=⊗i∈N

ν. In der Tat gilt nämlich nach dem Gesetz

der großen Zahlen:

µ∞

[(x1, x2, . . .) ∈ S∞ : lim

n→∞

1

n

n∑

i=1

IB(xi) = µ[B]

]= 1

ν∞

[(x1, x2, . . .) ∈ S∞ : lim

n→∞

1

n

n∑

i=1

IB(xi) = ν[B]

]= 1

für alleB ∈ S. Ist µ 6= ν, dann existiert eine MengeB ∈ S mit µ[B] 6= ν[B]. Also sind die

Wahrscheinlichkeitsverteilungenµ∞ undν∞ in diesem Fall singulär.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 427: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 427

In Satz 12.10 werden wir sehen, dass die relativen Dichtendµn/dνn der endlichen Produktmaße

für µ 6= ν undn→ ∞ exponentiell schnell anwachsen.

Sindµ undν Wahrscheinlichkeitsverteilungen auf einem messbaren Raum(S,S) mit beschränk-

ter relativer Dichte, dann können wir ein Acceptance-Rejection Verfahren verwenden, um Stich-

proben von der Verteilungµ aus Stichproben der Verteilungν zu erzeugen.

In vielen praktischen Anwendungen ist die Dichte nur bis aufeine Normierungskonstante explizit

bekannt. Wir nehmen daher an, dass eine beschränkte Funktion : S → R+ und Konstanten

Z,C ∈ (0,∞) gegeben sind mit

dν(x) =

1

Z· (x), (x) ≤ C für allex ∈ S. (12.1.2)

Dies ist beispielsweise der Fall, wennµ und ν absolutstetige Verteilungen aufRd mit Dichten

proportional zuf(x) bzw.g(x) sind, und

f(x) ≤ C · g(x) für allex ∈ Rd

gilt. In diesem Fall können wir = f/g wählen. Die KonstanteC sollte explizit bekannt sein

– die NormierungskonstanteZ =∫ dν kennt man dagegen meistens nicht. Gilt (12.1.2), dann

können wirµ folgendermaßen als bedingte Verteilung darstellen:

Lemma 12.2.SeiX eine Zufallsvariable mit Verteilungν, und seiU eine unabhängige, auf(0, 1)

gleichverteilte Zufallsvariable. Dann gilt:

µ[B] = P

[X ∈ B

∣∣∣∣U ≤ (X)

C

]für alleB ∈ S.

Beweis.Die gemeinsame Verteilung vonX undU ist ν ⊗ U(0,1). Also gilt nach dem Satz von

Fubini:

P

[X ∈ B,U ≤ (X)

C

]=

B

(0,(x)C

)

λ(du)ν(dx)

=1

C·∫

B

(x)ν(dx)

=Z

C· µ[B],

und insbesondere

P

[U ≤ (X)

C

]=

Z

C· µ[S] =

Z

C.

Die bedingte Wahrscheinlichkeit ist der Quotient der beiden Ausdrücke.

Universität Bonn Wintersemester 2009/2010

Page 428: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

428 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Das Lemma motiviert das folgende Verwerfungsverfahren zurSimulation von Stichproben von

der Wahrscheinlichkeitsverteilungµ:

Algorithmus 12.3 (Acceptance-Rejection-Verfahren). repeat

erzeuge unabhängige Stichprobenx ∼ ν undu ∼ U(0,1)

until u ≤ (x)C

return x

Der folgende Satz zeigt, dass der Algorithmus im Mittel nachC/Z Schritten eine Stichprobe von

µ liefert:

Satz 12.4.SeienX1, X2, . . . : Ω → S und U1, U2, . . . : Ω → (0, 1) unter P unabhängige

Zufallsvariablen mit Verteilungenν bzw.U(0,1). Dann ist die erste Akzeptanzzeit

T (ω) := min

k ∈ N

∣∣∣∣Uk(ω) ≤(Xk(ω))

C

geometrisch verteilt mit ParameterZ/C, und die (fast überall definierte) Zufallsvariable

Y (ω) := XT (ω)(ω)

hat die Verteilungµ.

Beweis.Da die EreignisseEk := Uk ≤ (Xk)C

unabhängig sind, ist die ZufallsvariableT (ω) =

mink ∈ N | ω ∈ Ek geometrisch verteilt mit Parameter

p = P [Ek] = P

[Uk ≤

(Xk)

C

]Lemma 12.2

=Z

C.

Weiterhin folgt nach Lemma 12.2:

P [Y ∈ B] =∞∑

k=1

P [XT ∈ B, T = k] =∞∑

k=1

P [Xk ∈ B ∩ EC1 ∩ . . . ∩ EC

k−1 ∩ Ek]

=∞∑

k=1

P [Xk ∈ B ∩ Ek]k−1∏

i=1

P [ECi ] =

∞∑

k=1

P [Xk ∈ B | Ek] · p · (1− p)k−1

= µ[B].

Bemerkung. (1). Im Algorithmus kommt nur das Verhältnis(x)/C vor, und die Konstan-

te C kann frei gewählt werden, solangeC ≥ sup gilt. Um das Acceptance-Rejection-

Verfahren einzusetzen, benötigen wir daher lediglich eineobere Schranke für dieunnor-

mierteDichte.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 429: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 429

(2). Die mittlere Anzahl von Versuchen bis zur Akzeptanz beträgtE[T ] = C/Z. Der Algorith-

mus ist also umso effizienter, je kleinerC gewählt wird.

Die letzte Bemerkung zeigt auch eine Schwäche des AR-Verfahrens: Damit die Methode prakti-

kabel ist, muss die relative Dichtegleichmäßigdurch eine Konstante beschränkt sein, die nicht zu

groß ist. Dies ist besonders in hohen Dimensionen häufig nicht der Fall. Ist man nur an Schätzern

von Erwartungswerten, und nicht an der Simulation einzelner Stichproben interessiert, dann bie-

tet es sich an, Importance Sampling anstelle eines AR-Verfahrens zu verwenden. In diesem Fall

wird zumindest keine gleichmäßige Schranke für die relative Dichte benötigt, s.u. Alternative

Verfahren, um Stichproben zu generieren sind Markov Chain Monte Carlo (MCMC) Methoden.

Beispiel(Abgeschnittene Normalverteilungen). Füra > 0 sei

µ := N(0, 1)[ • | (a,∞) ]

die auf Werte größer alsa konditionierte Standardnormalverteilung. Die Dichte istproportional

zu

f(x) = e−x2/2I(a,∞)(x).

Eine naive Methode zur Simulation einer Stichprobe vonµ ist, solange Stichproben vonN(0, 1)

zu erzeugen, bis ein Wert größer alsa auftritt. Für großea ist dieses Verfahren jedoch extrem

ineffizient, da die AkzeptanzwahrscheinlichkeitN(0, 1)[(a,∞)] sehr klein ist. Besser geht man

wie folgt vor: Fürx > a gilt

f(x) = e−(a+(x−a))2/2 = e−a2/2 · e−a(x−a)−(x−a)2/2.

Wir schätzen diese Dichte durch die Dichte

gλ(x) = λ · e−λ(x−a) · I(a,∞)(x)

einer verschobenen Exponentialverteilung mit Parameterλ ≥ a ab.

Universität Bonn Wintersemester 2009/2010

Page 430: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

430 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

a

νλµ(0, 1)

Abbildung 12.1: Dichten der Normalverteilung und der Sampling-Verteilung für die abgeschnit-

tene Normalverteilung (hier die Dichte der Exponentialverteilung).

Maximieren von λ = f/gλ liefert:

C(λ) := supx≥a

λ(x) =1

λexp((λ− a)2/2).

Diese Funktion ist fürλ = (a+√a2 + 1)/2 minimal. Damit bietet sich der folgende Algorithmus

zum Simulieren einer Stichprobe vonµ an:

Setzeλ := (a+√a2 + 1)/2

repeat

erzeuge unabhängige Stichprobenu1, u2 vonU(0,1)

setzex := a− 1

λlog u1 (simuliert Stichprobe vonνλ)

until u2 ≤ λ(x)C(λ)

(= f(x)

gλ(x)·C(λ)

)

return x

Seltene Ereignisse und Importance Sampling

Seiµ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S,S). Angenommen, wir

wollen die Wahrscheinlichkeit

θ = µ[A] =

∫IA dµ

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 431: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 431

eines EreignissesA ∈ S mit einem Monte-Carlo-Verfahren näherungsweise berechnen. Der klas-

sische Monte-Carlo-Schätzer

θk =1

k

k∑

i=1

IA(Yi), Yi unabhängig mit Verteilungµ,

ist erwartungstreu mit Varianz

Var[θk] =1

kVarµ[IA] =

θ · (1− θ)

k

und relativem Fehler

E[|θk − θ|2]1/2/θ = σ(θk)/θ =

(1− θ

k · θ

)1/2

.

Für seltene Ereignisse ist der relative Fehler hoch, und dasSchätzverfahren ineffizient. Istν eine

andere Wahrscheinlichkeitsverteilung mitµ ≪ ν, dann können wir alternativ den Importance

Sampling Schätzer

θk =1

k

k∑

i=1

IA(Xi)dµ

dν(Xi), Xi unabhängig mit Verteilungν,

verwenden. Auchθk ist erwartungstreu, denn

θ = µ[A] =

∫IAdµ

dνdν = E[θk].

Zudem gilt

Var[θk] =1

kVarν

[IA · dµ

]. (12.1.3)

Es stellt sich die Frage, wie wir eine Wahrscheinlichkeitsverteilungν finden, von der wir Stich-

proben simulieren können, und für die die Varianz in (12.1.3) möglichst klein ist. Wir betrachten

zunächst ein Beispiel:

Beispiel (Berechnung Gaußscher Wahrscheinlichkeiten). Sei C eine strikt positiv definite

symmetrisched × d-Matrix, und seiµ = N(0, C) die multivariate Normalverteilung imRd

mit Dichte

f(x) =1√

(2π)d(detC)exp

(−1

2x · C−1x

).

Angenommen, wir wollen die Wahrscheinlichkeitθ = µ[A] einer offenen MengeA ⊆ Rd mit

einem Monte-Carlo Verfahren berechnen. Ist der Nullpunkt inder MengeA enthalten, dann ist

A ein „typisches“ Ereignis bzgl.µ, und wir können in der Regel den klassischen Monte-Carlo

Universität Bonn Wintersemester 2009/2010

Page 432: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

432 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Schätzerθk verwenden.

Hier interessiert uns der Fall0 6∈ A. In diesem Fall ist die Wahrscheinlichkeitθ evtl. sehr klein –

wir wenden daher ein Importance Sampling Verfahren an. Um eine geeignete Referenzverteilung

ν zu erhalten, wählen wir einen Punktx∗ aus dem AbschlussA mit

f(x∗) = supx∈A

f(x), d.h. x∗ · C−1x∗ = infx∈A

x · C−1x, (12.1.4)

und setzen

ν := N(x∗, C).

Wir verschieben die Verteilung also so, dass sie in der Umgebung des „wahrscheinlichsten“ Punk-

tesx∗ ∈ A bzgl.µ, d.h. des Punktes mit maximaler Dichte, konzentriert ist. Die Verteilungν ist

absolutstetig mit Dichte

g(x) =1√

(2π)d detCexp

(−1

2(x− x∗) · C−1(x− x∗)

).

Damit erhalten wir

dν(x) =

f(x)

g(x)= exp

(−x∗ · C−1x+

1

2x∗ · C−1x∗

).

Ist die MengeA konvex, dann gilt

x∗ · C−1(x− x∗) ≥ 0 für allex ∈ A,

dax∗ der Minimierer der quadratischen Formx 7→ x · C−1x in A ist. Damit erhalten wir

supx∈A

dν(x) = exp

(−1

2x∗ · C−1x∗

),

und somit nach (12.1.3)

Var[θk] ≤ 1

k

A

(dµ

)2

dν =1

k

A

dνdµ

≤ θ

k· exp

(−1

2x∗ · C−1x∗

).

Offensichtlich ist dieser Wert in vielen Fällen deutlich kleiner als die Varianzθ(1 − θ)/k des

klassischen Monte-Carlo Schätzers.

Wir wollen nun Importance Sampling Schätzer systematischer untersuchen. Sei allgemein

θ =

∫φ dµ mit φ ∈ L1(µ),

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 433: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 433

und seiν eine zuµ absolutstetige Verteilung mit relativer Dichte

w =dν

dµ> 0 µ-fast überall.

Dann ist auchµ absolutstetig bzgl.ν mit relativer Dichte1/w, und es giltφ/w ∈ L1(ν). Wegen

θ =

∫φ dµ =

∫φ

wdν

ist der Importance Sampling Schätzer

θk =1

k

k∑

i=1

φ(Xi)/w(Xi), Xi unabhängig mit Verteilungν,

erwartungstreu, und nach dem Gesetz der großen Zahlen konsistent, d.h.θk → θ P -fast sicher

für k → ∞. Für den mittleren quadratischen Fehler ergibt sich:

Satz 12.5(MSE von Importance Sampling). (1). Es giltE[|θk − θ|2] = σ2ν/k mit

σ2ν = Varν

w

]=

(∫φ2(x)

w(x)µ(dx)

)− θ2.

(2). Der mittlere quadratische Fehler ist minimal, fallsw proportional zu|φ| ist.

Beweis. (1). Die Aussage folgt, daθk erwartungstreu ist mit

k · Var[θk] = Varν [φ/w] =

∫ (φ(x)

w(x)− θ

)2

w(x)µ(dx).

(2). Aus der Cauchy-Schwarz Ungleichung ergibt sich

(∫|φ| dµ

)2

=

(∫ |φ|√w

√w dµ

)2

≤∫φ2

wdµ ·

∫w dµ = σ2

ν + θ2

Dies liefert eine untere Schranke für den mittleren quadratischen Fehler. Zudem gilt Gleich-

heit in der Cauchy-Schwarz Ungleichung genau dann, wenn√w proportional zu|φ|/√w

ist, also, wennw ∝ |φ| ist.

Das Optimalitätsresultat aus Satz 12.5 ist eher von theoretischer als von praktischer Bedeutung,

wie das folgende Beispiel zeigt:

Universität Bonn Wintersemester 2009/2010

Page 434: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

434 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Beispiel(Seltene Ereignisse). Ist θ = µ[A] für eine MengeA ∈ S, alsoφ = IA, dann ist

w =IAµ[A]

, d.h.ν = µ[• | A],

die Importance Sampling Verteilung mit minimalem quadratischen Fehler. Die Simulation von

Stichproben von der bedingten Verteilung ist jedoch für EreignisseA mit kleiner Wahrschein-

lichkeit oft nicht praktikabel. Das AR-Verfahren ist in diesem Fall ineffizient, da die mittlere

Akzeptanzzeit mindestens1/µ[A] beträgt.

Zumindest liefert Satz 12.5 eine gewisse Rechtfertigung fürdie Faustregel, dass man bei der Aus-

wahl einer IS Verteilungν darauf achten sollte, die relative Dichtew von ν bzgl.µ dort groß zu

wählen, wo auch der Integrandφ betragsmäßig große Werte annimmt.

Da die optimale Importance Sampling Verteilung gewöhnlichnicht realisierbar ist, betrachtet

man stattdessen üblicherweise nur Verteilungen aus einer ein- oder mehrparametrigen Familie

(νt)t∈Θ von Wahrscheinlichkeitsverteilungen, und versuchtσ2ν innerhalb dieser Familie zu mini-

mieren. Am wichtigsten sind dabei die im nächsten Abschnittbetrachteten exponentiellen Fami-

lien, da diese eine Minimierungseigenschaft bzgl. der relativen Entropie besitzen, s. Satz 12.13

unten.

Bemerkung. (1). Asymptotische Normalität:Ist φ/w ∈ L2(ν), dann folgt aus dem zentralen

Grenzwertsatz die asymptotische Normalität des Importance Sampling Schätzers:

√k(θk − θ)

D−→ N(0, σ2ν) für k → ∞.

Für praktische Anwendungen ist der nicht-asymptotische mittlere quadratische Fehler al-

lerdings wichtiger.

(2). Importance Sampling mit unnormierten Dichten:In Anwendungen ist die relative Dichte

oft nur bis auf eine Normierungskonstante bekannt, d.h. es gilt

dν(x) =

1

w(x)∝ (x)

mit einer explizit bekannten Funktion(x), aber einem unbekannten Proportionalitätsfak-

tor. In diesem Fall können wir die Darstellung

θ =

∫φ dµ =

∫φdµ

dνdν =

∫φ dν∫ dν

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 435: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.1. RELATIVE DICHTEN UND IMPORTANCE SAMPLING 435

nutzen, undθ durch den Schätzer

θk =

1k

k∑i=1

φ(Xi)(Xi)

1k

k∑i=1

(Xi)

=

k∑i=1

φ(Xi)(Xi)

k∑i=1

(Xi)

, Xi i.i.d. ∼ ν, (12.1.5)

approximieren. Nach dem Gesetz der großen Zahlen istθk konsistent, d.h.θk → θ fast

sicher fürk → ∞. Ein zentraler Grenzwertsatz gilt ebenfalls. Allerdings ist θk i. A. nicht

erwartungstreu, und der nicht-asymptotische mittlere quadratische Fehler ist nicht so leicht

zu kontrollieren, da der Nenner in (12.1.5) degenerieren kann.

(3). Schätzen der Varianz:Ein weiteres zentrales Problem in Anwendungen ist, dass dieVarianz

σ2ν in der Regel nicht bekannt ist, und häufig auch keine guten Abschätzungen fürσ2

ν vor-

liegen. Daher behilft man sich in der Praxis oft damit, die Varianz empirisch zu schätzen,

z.B. durch

s2k =1

k − 1

k∑

i=1

(φ(Xi)

w(Xi)− θk

)2

.

Die empirische Schätzung kann jedoch irreführend sein, wiedas folgende warnende Bei-

spiel zeigt:

Beispiel. Seiµ das Lebesguemaß aufR,

φ(x) = (2π)−1/2 exp(−|x−m|2/2)

die Dichte der Normalverteilung mit Varianz1 und Mittelwertm ∈ R, undν die Standardnor-

malverteilung. In diesem Fall gilt

θ =

∫φ dµ = 1.

Obwohlµ keine Wahrscheinlichkeitsverteilung ist, können wir wie oben Importance Sampling

mit Referenzverteilungν durchführen. Es gilt dannw(x) = (2π)−1/2 exp(−x2/2) und

σ2ν =

∫φ(x)2

w(x)dx− 1 = (2π)−1/2

∫em

2−(x−2m)2/2 dx− 1 = em2 − 1.

Hieraus folgt, dass schon fürm = 5 mindestensk ≥ 6.5 · 1015 Stichproben benötigt werden,

damit für den mittleren quadratischen Fehler

E[|θk − θ|2]1/2 = σν · k−1/2 <1

3

Universität Bonn Wintersemester 2009/2010

Page 436: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

436 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

gilt. Empirisches Schätzen der Varianz in Simulationsläufen liefert ganz andere Ergebnisse. Bei-

spielsweise erhielten wir fürk = 106 Stichproben in einem typischen Simulationslauf

s2k = 6816, d.h.sk · k−1/2 ≈ 0.08 < 1/3.

Die empirische Varianzschätzung suggeriert hier also die falsche Aussage, dass der Schätzwert

bereits fürk = 106 genau genug ist!

Die Ursache ist in diesem Fall, dass praktisch keine Stichproben im relevanten Bereichx ≈ m

landen. Daher ist nicht nur der Schätzwert fürθ, sondern auch die empirische Varianz sehr klein.

Tatsächlich rechnet man in dem Beispiel leicht nach, dass

Var[s2k] =1

k − 1Varν [φ/w] ≤ 1

k − 1(e6m

2 − 1)

gilt – der Schätzers2k für die Varianz ist also völlig unbrauchbar. Das Problem ist, dass in vielen

Anwendungen ähnliche Effekte auftreten können, aber nichtso leicht zu erkennen sind.

12.2 Exponentielle Familien und große Abweichungen

In diesem Abschnitt wollen wir uns überlegen, wie die Wahrscheinlichkeiten großer Abweichun-

gen vom Gesetz der großen Zahlen sowohl asymptotisch als auch numerisch berechnet werden

können. In beiden Fällen hilft uns dasselbe Prinzip weiter:Ein Maßwechsel zu einer Verteilung

aus einer exponentiellen Familie.

Exponentielle Familien

Seiµ ein positives Maß auf(S,S), U : S → Rd eine messbare Funktion, und

Z(t) =

∫et·U dµ, t ∈ Rd,

die momentenerzeugende Funktion vonU mit Definitionsbereich

Θ = t ∈ Rd | Z(t) <∞.

Für t ∈ Θ sei

Λ(t) = logZ(t)

die kumulantenerzeugende Funktion.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 437: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 437

Definition. Die Familie der Wahrscheinlichkeitsverteilungen

νt(dx) :=1

Z(t)et·U(x)µ(dx) = et·U(x)−Λ(t)µ(dx), t ∈ Θ,

heißtexponentielle Familie zuµ undU .

Bemerkung (Boltzmannverteilung). In der statistischen Physik treten exponentielle Famili-

en als Gleichgewichsverteilungen auf. Beispielsweise ist die Verteilung im thermodynamischen

Gleichgewicht in einem abgeschlossenen System bei inverser Temperaturβ = 1/T gleich νβ,

wobeiµ die Gleichverteilung bzw. das Lebesguemaß auf dem Zustandsraum undU(x) = −H(x)

die negative Energie des Zustandesx ist. Die NormierungskonstanteZ(β) heißt in der statisti-

schen PhysikPartitionsfunktion.

Wir betrachten nun einige elementare Beispiele von exponentiellen Familien:

Beispiel. (1). Exponential und Gammaverteilungen.Ist µ die Exponentialverteilung mit Pa-

rameterλ > 0, undU(x) = −x, dann istM(t) für t > −λ endlich, und es gilt

νt = Exp(λ+ t) für alle t > −λ.

Die exponentielle Familie besteht also aus allen Exponentialverteilungen.

Ist µ = Γ(α, λ) eine Gammaverteilung, dann gilt entsprechendνt = Γ(α, λ+ t).

(2). Bernoulli-, Binomial- und PoissonverteilungenIst µ die Bernoulliverteilung mit Para-

meterp undU(k) = k, dann giltνt(1) = pt mit

pt =etp

etp+ 1− p=

p

p+ (1− p)e−t,

d.h.νt ist die Bernoulliverteilung mit Parameterpt. Entsprechend gilt fürU(k) = k:

µ = Bin(n, p) ⇒ νt = Bin(n, pt), und

µ = Poisson(λ) ⇒ νt = Poisson(λet).

Die exponentielle Familie besteht also jeweils aus allen Bernoulliverteilungen, Binomial-

verteilungen mit festemn, bzw. Poissonverteilungen.

(3). Normalverteilungen. Istµ = N(m,C) eined-dimensionale Normalverteilung, undU(x) =

x, dann gilt νt = N(m + Ct, C) für t ∈ Rd. Im nichtdegenerierten Fall enthält die

exponentielle Familie also alle Normalverteilungen mit fester KovarianzmatrixC. Für

d = 1, µ = N(m,σ2), und

U(x) = −(x−m)2

2

Universität Bonn Wintersemester 2009/2010

Page 438: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

438 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

erhält man

νt = N

(m,

(1

σ2+

1

t

)−1)

für t > 0,

d.h. die exponentielle Familie besteht aus Normalverteilungen mit festem Mittelwertm.

Entsprechend kann man die Familie der eindimensionalen Normalverteilungen als zweipa-

rametrige exponentielle Familie bzgl. einer Referenz-Normalverteilung interpretieren.

Wir beschränken uns nun auf den Falld = 1. Sei (νt)t∈Θ eine einparametrige exponentielle

Familie zuµ undU , und seiΘ = Θ \ ∂Θ der offene Kern des Definitionsbereichs.

Lemma 12.6(Eigenschaften exponentieller Familien).

(1). Es giltZ ∈ C∞(Θ). Für t ∈

Θ existieren die Erwartungswerte und Varianzen

m(t) =

∫U dνt bzw. v(t) = Varνt [U ],

und es gilt

m(t) = Λ′(t) und v(t) = Λ′′(t).

(2). Die Funktionm ist aufΘ beliebig oft differenzierbar und monoton wachsend. IstU nicht

ν-fast überall konstant, dann istm sogar strikt monoton wachsend. Im FallΘ = R gilt

zudem

limt→∞

m(t) = esssupU = infa ∈ R : µ[U > a] = 0, und (12.2.1)

limt→−∞

m(t) = essinf U = supa ∈ R : µ[U < a] = 0, (12.2.2)

d.h.m : R → (essinf U, esssupU) ist bijektiv.

Beweis. (1). Seit ∈Θ. Wir betrachten die momentenerzeugende Funktion

M(s) =

∫esU dνt

der Verteilungνt. Wegent ∈Θ gilt

M(s) =

∫1

Z(t)e(s+t)U dµ = Z(s+ t)/Z(t) < ∞ (12.2.3)

für alle s in einer Umgebung(−ε, ε) der 0, alsoM ∈ C∞(−ε, ε). Wegen (12.2.3) folgt

Z ∈ C∞(t− ε, t+ ε),∫U dνt = M ′(0) =

Z ′(t)

Z(t)= Λ′(t), und

Varνt [U ] = (logM)′′(0) = Λ′′(t).

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 439: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 439

(2). Aus (1) folgtm = Λ′ ∈ C∞(Θ) undm′ = v. Also istm monoton wachsend, und strikt

monoton wachsend, fallsVarνt [U ] > 0. Füra ∈ (essinf U, esssupU) folgt mit monotoner

Konvergenz

νt[U ≤ a]

νt[U > a]=

∫etU · IU≤a dµ∫etU · IU>a dµ

=

∫et(U−a) · IU≤a dµ∫et(U−a) · IU>a dµ

→ 0

für t→ ∞, also limt→∞

νt[U > a] = 1. Hieraus folgt

lim inft→∞

m(t) ≥ a · lim inft→∞

νt[U > a] = a für allea < esssupU,

also (12.2.1). Die Aussage (12.2.2) zeigt man analog.

Beispiel(Isingmodell). Das Isingmodell wurde 1925 in der Dissertation von Ernst Ising mit der

Absicht eingeführt, Phasenübergänge von ferromagnetischen Materialien in einem vereinfachten

mathematischen Modell nachzuweisen. Heute spielt das Isingmodell eine wichtige Rolle als ein-

fach zu formulierendes, aber schwer zu analysierendes grundlegendes mathematisches Modell,

das auch in unterschiedlichen Anwendungsbereichen wie z.B.der Bildverarbeitung eingesetzt

wird.

SeiS = −1, 1V , wobeiV die Knotenmenge eines endlichen Graphen(V,E) ist, z.B.

V = −k,−k + 1, . . . , k − 1, kd ⊆ Zd, d, k ∈ N.

Ein Elementσ = (σi|i ∈ V ) ausS interpretieren wir physikalisch als Konfiguration von Spins

σi ∈ −1, 1 an dem Knoteni ∈ V , wobeiσi = +1 für einen Spin in Aufwärtsrichtung und

σi = −1 für einen Spin in Abwärtsrichtung steht. Da benachbarte Spins sich vorzugsweise gleich

ausrichten, ist die Energie einer Konfigurationσ durch

H(σ) =∑

(i,j)∈E|σi − σj|2 + h ·

i∈Vσi

gegeben, wobei die erste Summe über alle Kanten des Graphen läuft, und der zweite Term die

Wechselwirkung mit einem äußeren Magnetfeld mit Stärkeh ∈ R beschreibt. Als Gleichge-

wichtsverteilung bei inverser Temperaturβ = 1/T ergibt sich die Verteilungµβ,h auf S mit

Gewichten

µβ,h(σ) ∝ exp(−β∑

(i,j)∈E|σi − σj|2 − βh ·

i∈Vσi).

Die folgende Grafik zeigt Stichproben von der Verteilungµβ,h auf einem ?×? GitterV für ver-

schiedene Werte vonβ und h. Für β = 0 (d.h. bei unendlicher Temperatur) ergibt sich eine

Universität Bonn Wintersemester 2009/2010

Page 440: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

440 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Gleichverteilung. Fürβ → ∞ (Temperatur→ 0) konzentriert sich die Verteilung dagegen auf

den energieminimierenden Konfigurationen. Dieses sind fürh = 0 die beiden konstanten Kon-

figurationenσi ≡ +1 und σi ≡ −1, für h 6= 0 hat dagegen nur eine dieser Konfigurationen

minimale Energie.

Der Satz von Cramér

Seiµ eine Wahrscheinlichkeitsverteilung auf einem messbaren Raum (S,S), U : S → R eine

messbare Funktion, und sei(Xi)i∈N eine Folge unabhängiger Zufallsvariablen auf einem Wahr-

scheinlichkeitsraum(Ω,A, P ) mit Verteilungµ. Wir setzen voraus:

Annahmen:

(1). Alle exponentiellen Momente der ZufallsvariablenU(Xi) existieren, d.h.

Λ(t) = log

∫etUdµ < ∞ für alle t ∈ R.

(2). U ist nichtµ-fast sicher konstant.

Seia ∈ R fest. Wir möchten nun die Asymptotik der Wahrscheinlichkeiten

θn = P [Sn ≥ an], Sn =n∑

i=1

U(Xi),

für n→ ∞ genauer untersuchen. Nach dem Gesetz der großen Zahlen gilt:

Sn/n −→ m =

∫U dµ P -fast sicher.

Füra > m ist das EreignisSn ≥ an also eine große Abweichung vom typischen Verhalten. Der

Satz von Chernoff liefert eine obere Schranke der Wahrscheinlichkeitenθn. Um die Asymptotik

genauer zu verstehen, führen wir eine Maßtransformation durch. Es gilt

θn = µn[An] mit An =

x ∈ Sn :

n∑

i=1

U(xi) ≥ an

. (12.2.4)

Wir wollen zu einer Verteilung übergehen, bzgl. der das EreignisAn nicht mehr selten, sondern

typisch ist. Dazu betrachten wir die Produktmaßeνnt , t ∈ R, wobeiνt absolutstetig bzgl.µ ist mit

Dichtedνtdµ

(x) = exp (tU(x)− Λ(t)) .

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 441: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 441

Die relative Dichte vonνnt bzgl.µn ist dann

wnt (x1, . . . , xn) =

n∏

i=1

dνtdµ

(xi) = exp

(t

n∑

i=1

U(xi)− nΛ(t)

). (12.2.5)

Man beachte, dass(νnt )t∈R wieder eine exponentielle Familie ist. Es gilt

wnt (X1, . . . , Xn) = exp(tSn − nΛ(t)).

Bemerkung. Der stochastische ProzessMn = exp(tSn − nΛ(t)), n = 0, 1, 2, . . . , ist ein expo-

nentielles Martingal. Exponentielle Martingale spielen in der stochastischen Analysis eine wich-

tige Rolle, s. [Introduction to Stochastical Analysis].

Wir wollen uns nun überlegen, wie wirden Parametert in angemessener Weise wählen können.

Wenn wirt zu klein wählen, dann hat das EreignisAn für großen nur eine geringe Wahrschein-

lichkeit bzgl.νnt . Wählen wir umgekehrtt sehr groß, dann liegt die Wahrscheinlichkeitνnt [An]

für großen nahe bei1. In beiden Fällen sind Abschätzungen fürνnt [An] daher nur bedingt aussa-

gekräftig. Um eine präzisere Aussage zu erhalten, sollten wir t so groß wählen, dass das Ereignis

An „gerade typisch wird.“ Der Erwartungswert

m(t) =

∫U dνt, t ∈ R,

ist nach Lemma 12.6 strikt monoton wachsend. Wählen wirt∗ mit

m(t∗) = a,

dann gilt nach dem Gesetz der großen Zahlen

limn→∞

νnt∗

[x ∈ Sn :

1

n

n∑

i=1

U(xi) ∈ (a− ε, a+ ε)

]= 1 für alleε > 0,

und nach dem zentralen Grenzwertsatz

limn→∞

νnt∗

[x ∈ Rn :

1

n

n∑

i=1

U(xi) ≥ a

]=

1

2,

d.h.t∗ ist gerade der gesuchte „Schwellenwert.“

Die Umsetzung unserer Überlegungen führt zu einer ersten Aussage über die Asymptotik der

Wahrscheinlichkeiten großer Abweichungen vom Gesetz der großen Zahlen auf der exponentiel-

len Skala:

Universität Bonn Wintersemester 2009/2010

Page 442: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

442 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Satz 12.7(Cramér). Unter den Annahmen von oben gilt

limn→∞

1

nlogP

[Sn

n≥ a

]= −I(a) für alle a ∈ (m, esssupU),

wobei die Ratenfunktion

I(a) = supt∈R

(ta− Λ(t))

die Legendretransformation vonΛ ist.

Bemerkung. Der Satz von Cramér besagt, dass sich die Wahrscheinlichkeitenθn = P [Sn/n ≥a] asymptotisch wieexp(−n · I(a)) verhalten, wenn man subexponentiell wachsende Faktoren

vernachlässigt. Er besagtnicht, dass die Folgen(θn) und(exp(−n·I(a))) asymptotisch äquivalent

sind!

Beweis.Der Beweis setzt sich zusammen aus einer nicht-asymptotischen Abschätzung der Wahr-

scheinlichkeiten

θn = P [Sn ≥ an] = µn[An], An = x ∈ Sn :n∑

i=1

U(xi) ≥ an,

nach oben, und einer asymptotischen Abschätzung der Wahrscheinlichkeit nach unten.

(1). Obere Schranke.Die nicht-asymptotische obere Schranke

1

nlog θn ≤ −I(a) für allen ∈ N

liefert der Satz von Chernoff (Satz 8.3). Zur Illustration schreiben wir das Hauptargument

aus dem Beweis von oben noch einmal so auf, dass der Zusammenhang mit einer Maß-

transformation verdeutlicht wird: Fürt > 0 gilt nach (12.2.5):

θn = µn[An] =

An

1

wnt

dνnt

=

An

exp

(−t

n∑

i=1

U(xi) + Λ(t)n

)dνnt

≤ e−(ta−Λ(t))n · νnt [An]

≤ e−(ta−Λ(t))n.

Hieraus folgt die Behauptung wie im Beweis von Satz 8.3 durch Optimieren der Abschät-

zung int.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 443: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 443

(2). Untere Schranke.Wir zeigen nun die asymptotische untere Schranke

lim infn→∞

1

nlog µn[An] ≥ −I(a). (12.2.6)

Zusammen mit der oberen Schranke folgt dann

limn→∞

1

nlog µn[An] = −I(a),

d.h. die obere Schranke ist asymptotisch „scharf“. Zum Beweis von (12.2.6) gehen wir zu

der Verteilungνnt∗ zum Schwellenwertt∗ = m−1(a) über. Nach Lemma 12.6 istm : R →(essinf U, esssupU) bijektiv, also existiertm−1(a) > 0 für a ∈ (m, esssupU). Für ε > 0

sei

An,ε =

x ∈ Sn : a ≤ 1

n

n∑

i=1

U(xi) ≤ a+ ε

.

Ähnlich wie bei der oberen Schranke erhalten wir

µn[An] ≥ µn[An,ε] =

An,ε

exp

(−t∗

n∑

i=1

U(xi) + Λ(t)n

)dνnt∗

≥ e−(t∗(a+ε)−Λ(t∗))nνnt∗ [An,ε]

≥ e−I(a)·ne−t∗εn · νnt∗ [An,ε] (12.2.7)

Wegen∫U dνt∗ = m(t∗) = a gilt nach dem zentralen Grenzwertsatz:

νnt∗ [An,ε] = νnt∗

[0 ≤ 1√

n

n∑

i=1

(U(xi)− a) ≤ ε√n

]

n→∞−→ N(0,Var[U ])[[0,∞)] =1

2, (12.2.8)

d.h. die große Abweichung ist typisch unterνnt∗.

Für die Wahrscheinlichkeiten bzgl.µn ergibt sich dann nach (12.2.7):

lim inf1

nlog µn[An] ≥ −I(a)− t∗ε.

Die Behauptung folgt fürεց 0.

Bemerkung. Ähnliche Aussagen über die Asymptotik von Wahrscheinlichkeiten großer Abwei-

chungen wurden auch in vielen Modellen mit Abhängigkeit bewiesen. Sie spielen unter anderem

in der mathematischen statistischen Mechanik eine wichtige Rolle.

Universität Bonn Wintersemester 2009/2010

Page 444: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

444 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Asymptotische Effizienz von IS Schätzern

Der beschriebene Maßwechsel ermöglicht nicht nur die asymptotische Berechnung der Wahr-

scheinlichkeiten

θn = P [Sn ≥ an] = µn[An].

Wir können den Maßwechsel auch praktisch verwenden, um die Wahrscheinlichkeitenθn nume-

risch mithilfe von Importance Sampling zu berechnen. Wählenwir νnt als Referenzmaß, dann

erhalten wir nach (12.2.5) die Importance Sampling Schätzer

θ(k)n =1

k

k∑

j=1

(IAn

wnt

)(X

(j)1 , . . . , X(j)

n )

=1

k

k∑

j=1

IS(j)n ≥an · exp

(−tS(j)

n + Λ(t) · n)

mit unabhängigen ZufallsvariablenX(j)i mit Verteilungνt undS(j)

n =n∑

i=1

X(j)i . Wir können ver-

muten, dass auch diese Schätzer für großen nur für t nahet∗ effizient sind, da ansonsten das

EreignisAn eine Wahrscheinlichkeit nahe0 oder1 bzgl. νnt hat, und daher die überwiegende

Mehrheit der StichprobenS(j)n außerhalb bzw. inAn liegt. Diese Vermutung lässt sich bestätigen.

Auf ähnliche Weise wie beim Beweis des Satzes von Cramér erhalten wir:

Lemma 12.8.Der Schätzerθ(k)n ist für jedest ∈ R undk, n ∈ N erwartungstreu. Für die Varianz

gelten folgende Abschätzungen:

Var[θ(k)n ] ≤ 1

ke−2n·(at−Λ(t)), (12.2.9)

lim infn→∞

log Var[θ(k)n ]

log θ2n≥ at− Λ(t)

I(a). (12.2.10)

Bemerkung. Die zweite Aussage sieht auf den ersten Blick wie eine untere Schranke aus. Tat-

sächlich handelt es sich aber um eine Abschätzung der Varianz nach oben, da der Nennerlog θ2n

negativ ist.

Beweis.Für die Varianz erhalten wir ähnlich wie beim Beweis der oberen Schranke im Satz von

Cramér:

k · Var[θ(k)n ] = Varνn [IAn/wnt ] ≤

An

(wnt )

−2 dνnt

=

An

exp

(−2t

n∑

i=1

U(xi) + 2Λ(t) · n)νnt (dx)

≤ exp(−2 · (ta− Λ(t))n),

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 445: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.2. EXPONENTIELLE FAMILIEN UND GROSSE ABWEICHUNGEN 445

wobeiwnt = dνnt /dµ

n die relative Dichte ist. In Kombination mit der unteren Schranke aus dem

Satz von Cramér folgt

lim infn→∞

log Var[θ(k)n ]

log θ2n=

1

2lim infn→∞

−n−1 log Var[θ(k)n ]

−n−1 log θn

≥ 1

2· − lim supn−1 log Var[θ

(k)n ]

− lim inf n−1 log θn

≥ at− Λ(t)

I(a).

Hierbei haben wir die Vorzeichen eingefügt, dalog θn negativ ist.

Aus dem Lemma ergibt sich:

Satz 12.9(Logarithmische Effizienz). Gilt t = t∗, dann ist die Folge(θ(k)n )n∈N von Schätzern

für die Wahrscheinlichkeitenθn für jedesk ∈ N logarithmisch effizient, d.h. für jedesε > 0 gilt

lim supn→∞

E[|θ(k)n − θn|2]θ2−εn

< ∞.

Beweis.Die Funktionf(t) = ta−Λ(t) hat ein globales Maximum beit∗ = m−1(a), denn es gilt

f ′(t) = a− Λ′(t) = a−m(t) = 0 für t = t∗, und

f ′′(t) = −Λ′′(t) = −Varνt [U ] < 0 für alle t ∈ R.

Also gilt

I(a) = supt∈R

(ta− Λ(t)) = t∗a− Λ(t∗).

Für t = t∗ folgt dann aus Lemma 12.8

lim supk→∞

log Var[θ(n)k ]

− log θ2k≤ −1,

d.h. zu jedemε > 0 existiert einn0 ∈ N mit

log Var[θ(k)n ] ≤ −(−1 + ε) log θ2n,

bzw.

Var[θ(k)n ] ≤ θ2+2εn für allen ≥ n0.

Umgekehrt kann man zeigen, dass bei anderer Wahl vont keine logarithmische Effizienz vorliegt.

Dies rechtfertigt die zunächst anschaulich motivierte Wahl von t als Schwellenwertt∗ = m−1(a).

Universität Bonn Wintersemester 2009/2010

Page 446: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

446 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

12.3 Relative Entropie und statistische Unterscheidbarkeit

In diesem Abschnitt werden wir den Wechsel des zugrundeliegenden Wahrscheinlichkeitsmaßes

systematischer untersuchen. Dabei spielt der Begriff der relativen Entropie eine zentrale Rolle.

Relative Entropie

Seienµ und ν Wahrscheinlichkeitsverteilungen aufS = Rd oder einem diskreten Raums mit

Dichten (bzw. Massenfunktionen)f, g > 0. Die relative Dichtew vonν bzgl.µ ist

w(x) :=dν

dµ(x) =

g(x)

f(x)für µ-fast allex ∈ S.

Die Dichte bzw. Massenfunktion

Ln(µ; x1, . . . , xn) =n∏

i=1

f(xi)

der Verteilungn unabhängiger StichprobenX1, . . . , Xn von µ bezeichnet man auch alsLike-

lihood der Verteilungµ bzgl. der Daten(x1, . . . , xn).

Wie kann man anhand von unabhängigen Stichproben erkennen,welche der beiden Verteilungen

µ undν in einem Zufallsexperiment vorliegt? Dazu betrachten wir denLikelihoodquotienten

wn(x1, . . . , xn) :=Ln(ν; x1, . . . , xn)

Ln(µ; x1, . . . , xn)=

n∏i=1

g(xi)

n∏i=1

f(xi)=

n∏

i=1

w(xi).

Definition. Die durch

H(ν | µ) =

∫logw dν =

∫w logw dµ falls ν ≪ µ mit Dichtew,

H(ν | µ) = ∞ sonst,

definierte GrößeH(ν | µ) ∈ [0,∞] heißtrelative Entropie(oderKullback-Leibler Information)

vonν bzgl.µ.

Um eine anschauliche Interpretation der relativen Entropie zu geben, bemerken wie, dass

H(ν | µ) =

∫log

g

fdν =

∫(− log f(x)− (− log g(x))) ν(dx)

gilt. Wir können− log f(x) und− log g(x) als Maß für die Überraschung (den Informationsge-

winn) bei Eintreten vonx interpretieren, fallsµ bzw. ν das zugrundeliegende Modell ist. Wenn

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 447: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 447

wir alsoµ als Modell annehmen, aber tatsächlichν die zugrundeliegende Verteilung ist, dann er-

höht sich die Überraschung (der Informationszuwachs) bei Ziehen einer Stichprobe im Vergleich

zum korrekten Modell im Mittel umH(ν | µ).

Satz 12.10(Shannon-Mac Millan). SeienX1, X2, . . . : Ω → S unabhängige Zufallsvariablen

unterPµ bzw.Pν mit Verteilungµ bzw.ν. Dann gilt fürn→ ∞:

(1).1

nlogwn(X1, . . . , Xn) −→ H(ν | µ) Pν-fast sicher.

(2).1

nlogwn(X1, . . . , Xn) −→ −H(µ | ν) Pµ-fast sicher.

Beweis. (1). Fürn→ ∞ gilt nach dem Gesetz der großen Zahlen

1

nlogwn(X1, . . . , Xn) =

1

n

n∑

i=1

logw(Xi) −→∫

logw dν Pν-fast sicher.

Das Gesetz der großen Zahlen ist anwendbar, da∫(logw)− dν =

∫(w logw)− dµ ≤ 1

e< ∞.

(2). Daµ absolutstetig bzgl.ν mit Dichte1/w ist, gilt entsprechend

1

nlogwn(X1, . . . , Xn) = − 1

n

n∑

i=1

log1

w(Xi)

GdgZ−→ −∫

log1

wdµ = −H(µ | ν) Pµ-fast sicher.

Der Satz zeigt, dass sich die Produktdichte (der Likelihoodquotient) asymptotisch auf der expo-

nentiellen Skala (d.h. unter Vernachlässigung subexponentiell wachsender Faktoren) folgender-

maßen verhält:

wn(X1, . . . , Xn) ≃

enH(ν | µ) Pν-fast sicher

e−nH(µ | ν) Pµ-fast sicher.

Das folgende Lemma fasst einige elementare Eigenschaften der relativen Entropie zusammen:

Lemma 12.11(Eigenschaften der relativen Entropie).

Universität Bonn Wintersemester 2009/2010

Page 448: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

448 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

(1). Es giltH(ν | µ) ≥ 0 mit Gleichheit genau dann, wennν = µ.

(2). Istµ die Gleichverteilung auf einer endlichen MengeS, dann gilt

H(ν | µ) = log |S| −H(ν). (12.3.1)

(3). H(ν1 ⊗ . . .⊗ νn | µ1 ⊗ . . .⊗ µn) =n∑

i=1

H(νi | µi).

Beweis. (1). Aus der Jensenschen Ungleichung folgt

H(ν | µ) =

∫w logw dµ ≥

∫w dµ · log

∫w dµ = 0.

Gleichheit gilt genau dann, wennw µ-fast sicher konstant, alsoν = µ ist.

(2). In diesem Fall giltw(x) = ν(x) · |S|, also

H(ν | µ) =∑

x∈Sν(x) log(ν(x) · |S|) = log |S| −H(ν).

(3). Übung.

Nach (12.3.1) liefern Aussagen über die relative Entropie als Spezialfall entsprechende Aussagen

für die Entropie.

Beispiel. (1). Bernoulliverteilungen: Für die Bernoulliverteilungenµp mit µp(1) = p undµp(0) =

1− p gilt:

H(µa | µp) = a log

(a

p

)+ (1− a) log

(1− a

1− p

)für allea, p ∈ (0, 1).

(2). Normalverteilungen: Fürm, m ∈ R undv, v > 0 gilt:

H(N(m, v) |N(m, v)) =1

2

(log(vv

)+v

v− 1 +

(m−m)2

v

), also insbesondere

H(N(m, v) |N(m, v)) =(m−m)2

2v.

Die relative Entropie ist ein im Allgemeinennichtsymmetrischer Abstandsbegrifffür Wahrschein-

lichkeitsverteilungen. Ihre statistische Interpretation werden wir im nächsten Abschnitt noch wei-

ter präzisieren. Zuvor bemerken wir, dass die relative Entropie Aussagen über die Größe wesent-

licher Mengen bei Wechsel der zugrundeliegenden Wahrscheinlichkeitsverteilung ermöglicht:

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 449: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 449

Maßwechsel und untere Schranken für große Abweichungen

SeienX1, X2, . . . unterPµ bzw.Pν unabhängige Zufallsvariablen mit Verteilungµ bzw. ν. Wie

in Abschnitt 7.4 nennen wir eine FolgeBn von messbaren Teilmengen der ProdukträumeSn

wesentlich bzgl.ν, falls

Pν [(X1, . . . , Xn) ∈ Bn] = νn[Bn] −→ 1 für n→ ∞.

Die folgende Aussage verallgemeinert den Maßkonzentrationssatz von MacMillan und den Quel-

lenkodierungssatz von Shannon aus Abschnitt 7.4.

Korollar 12.12. (1). Für jedesε > 0 ist die Folge

Bn,ε := (x1, . . . , xn) | en(H(ν | µ)−ε) ≤ wn(x1, . . . , xn) ≤ en(H(ν | µ)+ε) ⊆ Sn

wesentlich bzgl.ν, und

µn[Bn,ε] ≤ e−n(H(ν | µ)−ε) für alle n ∈ N. (12.3.2)

(2). Für beliebige messbare MengenAn ⊆ Sn mit

lim inf νn[An] > 0 (12.3.3)

gilt

lim inf1

nlog µn[An] ≥ −H(ν | µ). (12.3.4)

Bemerkung. Der Maßkonzentrationssatz von MacMillan und der Quellenkodierungssatz von

Shannon ergeben sich als Spezialfall von (1) bzw. (2), wennS endlich undν die Gleichverteilung

ist.

Wir beweisen nun das Korollar.

Beweis. (1). Die MengenBn,ε, n ∈ N, sind wesentlich bzgl.ν nach Satz 12.10. Zudem gilt:

1 ≥ νn[Bn,ε] =

Bn,ε

wn dµn ≥ µn[Bn,ε] · en(H(ν | µ)−ε).

(2). beweist man analog zum Quellenkodierungssatz (Satz 7.17): Aus

µn[An] =

An

1

wn

dνn ≥ e−n(H(ν | µ)+ε)νn[An ∩ Bn,ε]

Universität Bonn Wintersemester 2009/2010

Page 450: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

450 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

folgt

lim inf1

nlog µn[An] ≥ −(H(ν | µ) + ε) + lim inf

1

nlog νn[An ∩ Bn,ε]

= −(H(ν | µ) + ε),

da lim inf νn[An ∩ Bn,ε] = lim inf νn[An] > 0 nach (1) gilt. Die Behauptung folgt für

ε→ 0.

Die zweite Aussage der Korollars können wir als eine allgemeine untere Schranke für große

Abweichungen interpretieren: IstAn ⊆ Sn eine Folge von Ereignissen, deren Wahrscheinlichkeit

bzgl. µn gegen0 geht, dann liefert uns (12.3.4) für jede Wahrscheinlichkeitsverteilungν mit

(12.3.3) eine asymptotische Schranke für die Wahrscheinlichkeiten

Pµ[(X1, . . . , Xn) ∈ An] = µn[An]

auf der exponentiellen Skala.

Als erste Anwendung betrachten wir nochmal die Situation aus dem Satz von Cramér: SeiU :

S → R eine messbare Funktion mit∫etU dµ <∞ für alle t ∈ R, und sei

a > m =

∫U dµ.

Um aus (12.3.4) eine bestmögliche asymptotische untere Schranke für die Wahrscheinlichkeiten

µn[An] der großen Abweichungen

An =

(x1, . . . , xn) ∈ Sn :

1

n

n∑

i=1

U(xi) ≥ a

zu erhalten, müssen wir eine Wahrscheinlichkeitsverteilung ν finden, die die relative Entropie

H(ν | µ) unter allen Wahrscheinlichkeitsverteilungenν mit (12.3.3) minimiert. Die Bedingung

(12.3.3) ist aber genau dann erfüllt, wenn∫U dν ≥ a gilt, denn aus dem Gesetz der großen

Zahlen und dem zentralen Grenzwertsatz folgt:

limn→∞

νn

[1

n

n∑

i=1

U(xi) ≥ a

]=

1 für a <∫U dν

1/2 für a =∫U dν

0 für a >∫U dν

. (12.3.5)

Das sich ergebende Variationsproblem

H(ν | µ) =

∫w logw dµ

!= min

unter der Nebenbedingung∫U dν =

∫Uw dµ ≥ a

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 451: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 451

kann man formal durch Variationsrechnung lösen. Als eindeutige Lösung erhält man gerade die

Verteilungνt∗ aus der exponentiellen Familie

νt(dx) =1

Z(t)exp (tU(x))µ(dx), Z(t) =

∫etU dµ,

zum eindeutigen Schwellenwertt∗ mit∫U dνt∗ = a:

Satz 12.13(Variationsprinzip für die relative Entropie ). Seit ≥ 0 undm(t) =∫U dνt. Dann

minimiert das Maßνt die relative Entropie bzgl.µ unter allen Wahrscheinlichkeitsverteilungenν

mit∫U dν ≥ m(t):

H(νt | µ) = t ·m(t)− logZ(t)

= minH(ν | µ) : ν Wahrscheinlichkeitsmaß mit∫U dν ≥ m(t).(12.3.6)

Beweis.Seiν eine Wahrscheinlichkeitsverteilung mitH(ν | µ) < ∞ und∫U dν ≥ m(t). Dann

gilt ν ≪ µ und

H(ν | µ) =

∫log

dµdν =

∫log

dνtdν +

∫log

dνtdµ

= H(ν | νt) +(t

∫U dν − logZ(t)

)

≥ tm(t)− logZ(t).

Fürν = νt ergibt sich Gleichheit.

Wir beweisen nun die untere Schranke aus dem Satz von Cramér zur Illustration noch einmal

mithilfe von Korollar 12.12:

Fürν = νt∗ gilt∫U dν = m(t∗) = a, also nach 12.3.5lim νn[An] =

12. Damit erhalten wir nach

Korollar 12.12(2) und (12.3.6) die untere Schranke

lim inf1

nlog µn[An] ≥ −H(ν | µ) = t∗ ·m(t∗)− logZ(t∗) ≥ −I(a),

wobeiI die Ratenfunktion aus Satz 12.7 ist.

Das beschriebene Vorgehen ergibt nicht nur die untere Schranke. Es demonstriert auch, dass der

Maßwechsel über die exponentielle Familie sinnvoll ist, daer asymptotisch die bestmöglichen

Abschätzungen liefert.

Universität Bonn Wintersemester 2009/2010

Page 452: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

452 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Große Abweichungen für empirische Verteilungen

Mithilfe von Korollar 12.12 können wir noch eine stärkere Form der unteren Schranke für große

Abweichungen vom Gesetz der großen Zahlen herleiten. Seiendazu

Ln(ω) =1

n

n∑

i=1

δXi(ω), n ∈ N,

die empirischen Verteilungen einer Folge(Xi)i∈N unabhängiger Zufallsvariablen mit Verteilung

µ bzgl.Pµ. Aus dem Gesetz der großen Zahlen folgt die fast sichere schwache Konvergenz der

empirischen Verteilungen

Ln(ω)ω−→ µ für Pµ-fast alleω. (12.3.7)

Insbesondere konvergiert die WahrscheinlichkeitPµ[Ln 6∈ U ] für jede UmgebungU der Wahr-

scheinlichkeitsverteilungµ bzgl. der Topologie der schwachen Konvergenz gegen0. Die Kon-

vergenzgeschwindigkeit auf der exponentiellen Skala lässt sich durch ein Prinzip der großen

Abweichungen auf dem Raum WV(S) der Wahrscheinlichkeitsverteilungen auf(S,S) mit der

Topologie der schwachen Konvergenz beschreiben:

Satz 12.14(Sanov). Die empirischen VerteilungenLn = 1n

n∑i=1

δXierfüllen das folgende Prinzip

der großen Abweichungen:

(1). Obere Schranke: Für jede abgeschlossene MengeA ⊆WV(S) gilt:

lim supn→∞

1

nlogPµ[Ln ∈ A] ≤ − inf

ν∈AH(ν | µ).

(2). Untere Schranke: Für jede offene MengeO ⊆WV(S) gilt:

lim infn→∞

1

nlogPµ[Ln ∈ O] ≥ − inf

ν∈OH(ν | µ).

Beweis. (2). Zum Beweis der unteren Schranke wechseln wir wieder das zugrundeliegende

Maß, und wenden Korollar 12.12 an. SeiO ⊆ WV(S) offen undν ∈ O. Nach (12.3.7) ist

dann die Folge

An = (x1, . . . , xn) ∈ Sn | 1n

n∑

i=1

δxi∈ O

wesentlich bzgl.ν, denn

νn[An] = Pν [Ln ∈ O] −→ 1

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 453: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.3. RELATIVE ENTROPIE UND STATISTISCHE UNTERSCHEIDBARKEIT 453

für n→ ∞. Daher folgt nach Korollar 12.12(2):

lim infn→∞

1

nlogPµ[Ln ∈ O] = lim inf

n→∞

1

nlog µn[An] ≥ −H(ν | µ).

Die Behauptung ergibt sich, da dies für alleν ∈ O gilt.

(1). Die obere Schranke beweisen wir hier nur für endliche ZustandsräumeS, s. z.B. [Dembo

und Zeitouni: Large Deviations] für den Beweis im allgemeinen Fall. IstS endlich, undν

eine bzgl.µ absolutstetige Wahrscheinlichkeitsverteilung mit Dichtew = dν/dµ, dann gilt

für alle (x1, . . . , xn) ∈ Sn mit empirischer Verteilung1n

n∑i=1

δxi= ν:

dνn

dµn(x1, . . . , xn) =

n∏

i=1

dµ(xi) = exp

(n∑

i=1

log

(dν

dµ(xi)

))

= exp

(n

∫log

(dν

)dν

)= exp(n ·H(ν | µ)).

Damit folgt

Pµ[Ln = ν] = µn

[(x1, . . . , xn)

∣∣∣∣∣1

n

n∑

i=1

δxi= ν

]

= e−nH(ν | µ) · νn[

(x1, . . . , xn)

∣∣∣∣∣1

n

n∑

i=1

δxi= ν

](12.3.8)

≤ e−nH(ν | µ).

Jeder empirischen Verteilung vonn Elementenx1, . . . , xn ∈ S entspricht ein Histogramm~h = (ha)a∈S ∈ 0, 1, . . . , nS. Für die Anzahl der möglichen empirischen Verteilungen

gilt daher ∣∣∣∣∣

1

n

n∑

i=1

δxi

∣∣∣∣∣ (x1, . . . , xn) ∈ Sn

∣∣∣∣∣ ≤ (n+ 1)|S|.

Nach (12.3.8) erhalten wir nun für eine beliebige MengeA ⊆ WV(S) die (nicht-asympto-

tische) Abschätzung

Pµ[Ln ∈ A] =∑

ν∈APµ[Ln = ν] ≤ (n+ 1)|S| · e−n inf

ν∈AH(ν | µ)

,

aus der die asymptotische obere Schranke wegen|S| <∞ folgt.

Bemerkung. Wie der Beweis schon andeutet, gilt auch die obere Schranke indiesem Fall nur

noch asymptotisch und modulo subexponentiell wachsender Faktoren. Der Übergang von endli-

chen zu allgemeinen Zustandsräumen ist bei der oberen Schranke nicht trivial, s. [Dembo/Zei-

touni].

Universität Bonn Wintersemester 2009/2010

Page 454: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

454 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Den Satz von Sanov bezeichnet man gelegentlich auch als ein „Prinzip der großen Abweichungen

auf Level II“, d.h. für die empirischen Verteilungen. Wir bemerken abschließend, dass sich eine

Version des Satzes von Cramér, d.h. ein „Prinzip der großen Abweichungen auf Level I“ als

Spezialfall ergibt:

FürU : S → R und eine offene MengeB ⊆ R gilt nach dem Satz von Sanov:

lim infn→∞

1

nlogPµ

[1

n

n∑

i=1

U(Xi) ∈ B

]= lim inf

n→∞

1

nlogPµ[Ln ∈ O] ≥ − inf

ν∈OH(ν | µ)

mit O = ν ∈ WV(S) |∫U dν ∈ B. Entsprechend ergibt sich eine analoge obere Schranke,

fallsB abgeschlossen ist.

12.4 Likelihood

Praktisch unterscheidet man Wahrscheinlichkeitsverteilungen in der Schätz- und Testtheorie durch

Likelihood-basierte statistische Verfahren. Der Zusammenhang von relativer Entropie und statis-

tischer Unterscheidbarkeit kann genutzt werden, um die Qualität dieser Verfahren asymptotisch

zu beurteilen.

Konsistenz von Maximum-Likelihood-Schätzern

Sei(µθ)θ∈Θ eine Familie von Wahrscheinlichkeitsverteilungen aufS = Rd (oder einem diskreten

Raum) mit Dichten (bzw. Massenfunktionen)fθ wobeiθ ein unbekannter Parameter ist. Ferner

sei

Ln(θ; x1, ..., xn) =n∏

i=1

fθ(xi), θ ∈ Θ,

die Likelihoodfunktion zun unabhängigen Stichprobenx1, ..., xn vonµθ. Ein wichtiges Ad-hoc-

Verfahren zur Konstruktion eines Schätzers fürθ ist das

Maximum-Likelihood-Prinzip : Wähleθ(x1, ..., xn) als den Parameterwertθ, für den die Like-

lihood der beobachteten Wertex1, . . . , xn maximal ist.

Definition. (1). Eine Zufallsvariable vom Typθ(X1, . . . , Xn), θ : Sn → Θ messbar, heißt

Statistik der DatenX1, . . . , Xn.

(2). Die Statistik heißtMaximum-Likelihood-Schätzer (MLE)für den Parameterθ, falls

Ln(θ(x1, ..., xn); x1, ..., xn) = maxθ∈Θ

Ln(θ; x1, ..., xn) für alle x1, . . . , xn ∈ S gilt.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 455: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.4. LIKELIHOOD 455

Um einen Maximum-Likelihood-Schätzer zu berechnen, ist esoft günstig, dielog-Likelihood

θ 7→ logLn(θ; x1, ..., xn) =n∑

i=1

log fθ(xi) zu maximieren.

Beispiel. (1). Gaußmodell: Θ = (m, v) |m ∈ R, v > 0, µm,v = N(m, v).

Ln(m, v;X1, ..., Xn) =n∏

i=1

1√2πv

e−(Xi−m)2

2v

ist maximal fürm(X) = Xn, v(X) = 1n

∑ni=1 (Xi −Xn)

2. Dieser Maximum-Likelihood-

Schätzer istnicht erwartungstreu, da die Stichprobenvarianz mit dem Faktor1n

statt 1n−1

gebildet wird.

(2). Doppelexponentialverteilung: Θ = R, fθ(Xi) =12e−|Xi−θ|.

logLn(θ;X1, ..., Xn) = −n log 2−n∑

i=1

|Xi − θ|

ist maximal, fallsθ ein Median vonX1, ..., Xn ist.

(3). Zufallszahlenaus[0, θ], θ > 0 unbekannt.

fθ(Xi) =1

θI[0,θ](Xi),

Ln(θ;X1, ..., Xn) =1

θnI[0,θ](max

1≤i≤nXi).

Der Maximum-Likelihood-Schätzer istθ(X1, ..., Xn) = max1≤i≤nXi. Dieser Schätzer ist

sicher nicht optimal, da mit Wahrscheinlichkeit 1θ > θ(X1, . . . , Xn) gilt !

Wie das letzte Beispiel zeigt, sind Maximum-Likelihood-Schätzer für ein festesn nicht immer

optimal. Unter bestimmten Voraussetzungen haben sie aber gute asymptotische Eigenschaften

für n→ ∞. Sei etwaµθ (θ ∈ Θ) eine einparametrige (d.h.Θ ⊆ R) Familie von Wahrscheinlich-

keitsverteilungen mit Dichten bzw. Massenfunktionenfθ. Es gelte:

Annahme (Unimodalität): Für allen ∈ N undx ∈ Sn existiert einθn(x1, ..., xn), sodass

θ 7→ Ln(θ; x1, ..., xn)

ist monoton wachsend fürθ ≤ θn(x1, ..., xn).

ist monoton fallend fürθ ≥ θn(x1, ..., xn).

Bemerkung. (1). Die Annahme ist z.B. erfüllt, fallsθ 7→ log fθ(x) für jedesx konkav ist -

denn dann ist auchlogLn(θ, x1, ..., xn) =∑n

i=1 log fθ(xi) konkav inθ.

Universität Bonn Wintersemester 2009/2010

Page 456: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

456 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

(2). θn(X1, ..., Xn) ist im unimodalen Fall eindeutiger Maximum-Likelihood-Schätzer fürθ.

Satz 12.15.Es gelte die Annahme, sowieµθ 6= µθ für θ 6= θ. Dann istθn(X1, . . . , Xn) (n ∈ N)

einekonsistenteFolge von Schätzern fürθ, d.h. für jedesε > 0 gilt:

Pθ[|θn(X1, ..., Xn)− θ| < ε] → 1 für n→ ∞.

Beweis.Wegen der Unimodalität giltθn(x1, ..., xn) ∈ (θ − ε, θ + ε) falls

Ln(θ; x1, ..., xn) > Ln(θ ± ε; x1, ..., xn).

Also:

Pθ[|θn(X1, ..., Xn)− θ| < ε] ≥ Pθ

[Ln(θ;X1, ..., Xn)

Ln(θ ± ε;X1, ..., Xn)> 1

].

Die rechte Seite konvergiert aber fürn→ ∞ nach Satz 12.10 für jedesθ gegen1.

Bemerkung(Asymptotische Normalität von Maximum-Likelihood-Schätzern). Unter geeig-

neten Regularitätsvoraussetzungen an die Dichtenfθ gilt für die Maximum-Likelihood-Schätzer

neben der Konsistenz (also dem Gesetz der großen Zahlen) auch ein zentraler Grenzwertsatz:

Satz (Fisher, Wilkes, Wold). Unter geeigneten Voraussetzungen gilt:

√n(θn(X1, ..., Xn)− θ)

D−→ N

(0,

1

I(θ)

),

wobei

I(θ) =

∫ ∣∣∣∣∂

∂θlog fθ(x)

∣∣∣∣2

µθ(dx) = limε→0

2

ε2H(µθ+ε| µθ)

dieFisher-Information des statistischen Modells ist.

Da man andererseits unter geeigneten Regularitätsbedingungen zeigen kann, daß die Varianz

eines erwartungstreuen Schätzers fürθ basierend aufn unabhängigen Stichproben stets größer als1

nI(θ)ist (Informationsungleichung von Cramér-Rao), folgt, daß Maximum-Likelihood-Schätzer

in gewisser Hinsicht asymptotisch optimal sind.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 457: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.4. LIKELIHOOD 457

Asymptotische Macht von Likelihoodquotiententests

Angenommen, wir habenn unabhängige StichprobenX1, ..., Xn von einer unbekannten Vertei-

lung vorliegen und wir gehen davon aus, daß die zugrundeliegende Verteilung aus einer Familie

µθ (θ ∈ Θ) von Wahrscheinlichkeitsverteilungen kommt. SeiΘ0 eine Teilmenge des Parameter-

bereichs. Wir wollen entscheiden zwischen der

NullhypotheseH0: »θ ∈ Θ0«

und der

AlternativeH1: »θ 6∈ Θ0«

Ein Hypothesentestfür ein solches Problem ist bestimmt durch eine messbare TeilmengeC ⊆Sn (denVerwerfungsbereich) mit zugehöriger Entscheidungsregel:

akzeptiereH0 ⇐⇒ (X1, ..., Xn) /∈ C.

Beispiel (t-Test). SeienX1, X2, . . . , Xn unabhängige Stichproben von einer Normalverteilung

mit unbekanntem Parameter(m, v) ∈ Θ = R × R+. Wir wollen testen, ob der Mittelwert der

Verteilung einen bestimmten Wertm0 hat:

NullhypotheseH0: »m = m0« , Θ0 = m0 × R+ .

Ein solches Problem tritt z.B.in der Qualitätskontrolle auf, wenn man überprüfen möchte, ob

ein Sollwertm0 angenommen wird. Eine andere Anwendung ist der Vergleich zweier Verfahren,

wobeiXi die Differenz der mit beiden Verfahren erhaltenen Messwerte ist. Die Nullhypothese

mit m0 = 0 besagt hier, daß kein signifikanter Unterschied zwischen den Verfahren besteht.

Im t–Testfür obiges Testproblem wird die Nullhypothese akzeptiert,falls der Betrag derStudent-

schen t-Statistikunterhalb einer angemessen zu wählenden Konstantenc liegt, bzw. verworfen,

falls

|Tn−1| =

∣∣∣∣√n · (Xn −m0)√

Vn

∣∣∣∣ > c

gilt.

Seien nun allgemeinX1, X2, . . . unterPθ unabhängige Zufallsvariablen mit Verteilungµθ. Bei

einem Hypothesentest können zwei Arten von Fehlern auftreten:

Fehler 1. Art: H0 wird verworfen, obwohl wahr. Wahrscheinlichkeit:

Pθ[(X1, ..., Xn) ∈ C] = νnθ (C) , θ ∈ Θ0.

Universität Bonn Wintersemester 2009/2010

Page 458: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

458 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Fehler 2. Art: H0 wird akzeptiert, obwohl falsch. Wahrscheinlichkeit:

Pθ[(X1, ..., Xn) /∈ C] = µnθ (C

C) , θ ∈ Θ \Θ0.

Obwohl das allgemeine Testproblem im Prinzip symmetrisch inH0 undH1 ist, interpretiert man

beide Fehler i.a. unterschiedlich. Die Nullhypothese beschreibt in der Regel den Normalfall, die

Alternative eine Abweichung oder einen zu beobachtenden Effekt. Da ein Test Kritiker überzeu-

gen soll, sollte die Wahrscheinlichkeit für den Fehler 1. Art (Effekt prognostiziert, obgleich nicht

vorhanden) unterhalb einer vorgegebenen (kleinen) Schrankeα liegen. Die Wahrscheinlichkeit

µnθ (C) , θ ∈ Θ \Θ0 ,

daß kein Fehler 2. Art auftritt, sollte unter dieser Voraussetzung möglichst groß sein.

Definition. Die Funktion

G(θ) = Pθ[(X1, ..., Xn) ∈ C] = µnθ (C)

heißtGütefunktiondes Tests. Der Test hatNiveauα, falls

G(θ) ≤ α für alle θ ∈ Θ0

gilt. Die FunktionG(θ) mit θ ∈ Θ1 heißtMacht des Tests.

Beispiel. Der Studentsche t-Test hat Niveauα falls c ein (1 − α2)-Quantil der Studentschen t-

Verteilung mitn− 1 Freiheitsgraden ist.

Ein Ziel bei der Konstruktion eines Testverfahrens sollte es sein, die Machtfunktion bei vor-

gegebenem Niveau zu maximieren. Dies ist im Allgemeinen nicht simultan für alle Parameter

θ ∈ Θ \Θ0 möglich. Eine Ausnahme bildet der Fall einer einfachen Hypothese und Alternative,

in dem ein optimaler Test existiert:

a) Einfache Hypothese und Alternative

Angenommen, wir wissen, daß die Stichproben von einer der beiden Verteilungenµ0 := ν und

µ1 := µ stammen und wir wollen entscheiden zwischen der

NullhypotheseH0: »Xi ∼ ν«

und der

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 459: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.4. LIKELIHOOD 459

AlternativeH1: »Xi ∼ µ«.

Ein solches Problem tritt in Anwendungen zwar selten auf, bildet aber einen ersten Schritt zum

Verständnis allgemeinerer Testprobleme. Sei

n(x1, . . . , xn) =Ln(µ; x1, ..., xn)

Ln(ν; x1, ..., xn)=

n∏

i=1

f(xi)

g(xi)

der Quotient der Likelihoods der Stichprobenx1, . . . , xn im Produktmodell. Hierbei sindf und

g die Dichte bzw. Massenfunktion der Verteilungenµ undν.

Definition. Ein Test mit Entscheidungsregel

AkzeptiereH0 ⇐⇒ n(X1, ..., Xn) ≤ c,

c ∈ (0,∞), heißtLikelihoodquotiententest.

Der Verwerfungsbereich eines Likelihoodquotiententestsist alsoC = n > c, die Wahrschein-

lichkeit für den Fehler 1. Art beträgt

α := νn(n > c).

Satz 12.16(Neyman-Pearson-Lemma). Der Likelihoodquotiententest mit Parameterc ist der

beste Test zum Niveauα, d.h. jeder Test mit

Wahrscheinlichkeit (Fehler 1.Art)≤ α

hat eine kleinere Macht (d.h. eine höhere Wahrscheinlichkeit für den Fehler 2. Art).

Beweis.SeiA ⊆ Sn der Verwerfungsbereich eines Tests mitνn(A) ≤ α, und sei

χ = IC − IA = IAC − ICC .

Zu zeigen ist:

0 ≤ µn(AC)− µn(CC) =

∫χ dµn.

Offensichtlich giltχ ≥ 0 aufC = n > c undχ ≤ 0 aufCC = n ≤ c, alsoχ ·(n−c) ≥ 0.

Durch Integration erhalten wir:

0 ≤∫χ · (n − c) dνn =

∫χ dµn − c ·

∫χ dνn ≤

∫χ dµn,

da∫χ dνn = νn(C)− νn(A) ≥ 0.

Universität Bonn Wintersemester 2009/2010

Page 460: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

460 KAPITEL 12. IMPORTANCE SAMPLING UND GROSSE ABWEICHUNGEN

Wie gut ist der Likelihoodquotiententest (also der beste Test zur Unterscheidung vonν und

µ) asymptotisch für großen? Wir betrachten ein festes Niveauα ∈ (0, 1), und wählencn ∈(0,∞) (n ∈ N) mit

νn(n > cn) ≤ α ≤ νn(n ≥ cn) (12.4.1)

Satz 12.17(Asymptotische Macht des Likelihoodquotiententests). Es gilt:

(i)1

nlog cn −→ −H(ν|µ) für n→ ∞.

(ii)1

nlog µn(n ≤ cn) −→ −H(ν|µ) für n→ ∞,

d.h. die Wahrscheinlichkeit für den Fehler 2. Art fällt exponentiell mit RateH(ν|µ).

Beweis. (i) Sei ε > 0. Für großen gilt nach dem Satz von Shannon-McMillan:

νn(n > e−n(H(ν|µ)+ε)

)> α

12.4.1≥ νn(n > cn).

Es folgt e−n(H(ν|µ)+ε) < cn. Analog zeigt mane−n(H(ν|µ)−ε) > cn. Die Behauptung folgt

dann fürε→ 0.

(ii) a) Untere Schranke:Wegen

νn(n ≤ cn) ≥ 1− α > 0 ∀ n ∈ N

folgt nach Korollar 12.12:

lim1

nlog µn(n ≤ cn) ≥ −H(ν|µ).

Obere Schranke:Wegen

µn(n ≤ cn) =

n≤cn

n dνn ≤ cn

folgt nach (i)

lim1

nlog µn(n ≤ cn) ≤ lim

1

nlog cn = −H(ν|µ).

Der Satz demonstriert erneut, daß die relative Entropie eingutes Maß für die Unterscheidbarkeit

zweier Wahrscheinlichkeitsverteilungen ist.

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 461: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

12.5. BAYESSCHE MODELLE UND MCMC VERFAHREN 461

b) Zusammengesetzte Hypothesen und/oder Alternativen

WennΘ0 und/oderΘ1 aus mehr als einem Element bestehen, kann man denverallgemeinerten

Likelihoodquotienten

¯n(x1, . . . , xn) =supθ∈Θ1

Ln(θ; x1, ..., xn)

supθ∈Θ0Ln(θ; x1, ..., xn)

=max. Lik. vonx, fallsH1 wahrmax. Lik. vonx, fallsH0 wahr

betrachten. Der entsprechende Likelihoodquotiententestist ähnlich wie der Maximum-Likelihood-

Schätzer ein häufig verwendetes ad hoc Verfahren. Im Gegensatz zum Fall einer einfachen Hy-

pothese und Alternative ist der verallgemeinerte Likelihoodquotiententest allerdings nicht immer

optimal.

Beispiel. Im Beispiel von oben ist dert-Test der Likelihoodquotiententest. Mit einem Neyman-

Pearson-Argument kann man zeigen, daß er im Gaußschen Produktmodell der beste unverfälschte

Test zu einem vorgegebenen Niveauα ist, d.h. der mächtigste Test mit

G(θ) ≤ α ∀ θ ∈ Θ0 und G(θ) ≥ α ∀ θ ∈ Θ1.

Auch in nicht-Gaußschen Modellen wird häufig dert-Test eingesetzt – eine partielle Rechtferti-

gung dafür liefert der zentrale Grenzwertsatz.

12.5 Bayessche Modelle und MCMC Verfahren

Universität Bonn Wintersemester 2009/2010

Page 462: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

Stichwortverzeichnis

0-1 Gesetz von Kolmogorov, 182

0-1-Experimente

abhängige, 41

unabhängige, 41, 51

σ-Additivität, 13

σ-Algebra, 12

a posteriori degree of belief, 47

a priori degree of belief, 47

abhängige 0-1-Experimente, 41

absolutstetig, 203

Acceptance-Rejection-Verfahren, 74, 428

Additivität, endliche, 13

Akzeptanzwahrscheinlichkeit, 73

Akzeptanzzeit, 74

Algebra, 115

arithmetisches Mittel, 194

asymptotisch

-e Zufallsvariable, 185

asymptotische Äquivalenz von Folgen, 68

Atome, 129

Bayessche Regel, 47

Bayessche Statistik, 47

Bedingte Erwartung, 330

Definition

Diskrete -, 314

bedingte Erwartung, 44

bedingte Verteilung, 44

bedingte Wahrscheinlichkeit, 44

Benfordsches Gesetz, 21

Bernoulli-Verteilung, 41

n-dimensionale, 51

Bernstein-Ungleichung, 59

Bias, 208

Bildmaß, 122

Binomialverteilung, 26

Poissonapproximation, 27

Varianz, 81

Birth-Death-Process, 421

Brown’sche Bewegung, 305

Brownsche

- Bewegung, 345

Brownsche Bewegung, 113, 305

Cauchy-Schwarz-Ungleichung inL2, 78

Cebyšev-Ungleichung, 83

Chapman-Kolmogorov-Gleichungen, 413

Charakteristische Funktion

Ableitungen der -, 253

Lévys Inversionsformel, 254

charakteristische Funktion, 250

Cramér-Wold Device, 304

degree of belief

a posteriori, 47

a priori, 47

Detailed Balance-Bedingung, 90

462

Page 463: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

STICHWORTVERZEICHNIS 463

Dichte

bedingte -, 294

Wahrscheinlichkeits-, 129, 199

Diffusionsprozess, 412

diskrete Zufallsvariable, 23

gemeinsame Verteilung, 64

Unabhängigkeit, 64

diskretes Modell, 12

mehrstufiges, 48

durchschnittsstabil, 115, 116

Dynkinsystem, 118

das vonJ erzeugte -, 118

Ehrenfest-Modell, 54, 91

Ehrenfestmodell, 396

Einschluss-/Ausschlussprinzip, 15

Elementarereignis, 9

empirische Mittel, 205

empirische Varianz, 205

empirische Verteilung, 19, 237

empirische Verteilungsfunktion, 237

empirisches Mittel, 235

Entropie, 242

relative -, 446

Ereignis, 9

Verteilungen für unabhängige Ereignisse, 58

asymptotisches -, 181

Elementar-, 9

Ereignisse und ihre Wahrscheinlichkeit, 11

Indikatorfunktion, 37

Unabhängigkeit, 56

Erfolgswahrscheinlichkeit, 25

Ergodensatz, 101

Erneuerungsgleichung, 326

Erneuerungsprozess

stationärer -, 327

Erwartung, bedingte, 44

Erwartungswert, 37

- elementarer ZVn, 188

der Poissonverteilung, 38

Linearität, 40

Monotonie, 40

Erzeugende Funktion, 320

erzeugende Funktion, 346

Euler’sche Beta-Funktion, 309

Exponentielle Familie, 437

Faltung von W’Verteilungen, 297

Faltungshalbgruppe, 298

Fehler

1. und 2. Art, 311, 457

Fisher-Information, 456

Fluss in Markovketten, 90

Fouriertransformation, 251

gemeinsame Verteilung, 64, 167

Generator, 415

- einer Markovkette, 376

geometrische Verteilung, 58

Gesetz der großen Zahlen, 59

für Markov-Ketten, 101

schwaches, 83

starkes, 83

Gesetz großer Zahlen

- für Bernoulli-Experimente, 107

Starkes -

- ohne Integrierbarkeit, 235

Kolmogorovs -, 231

gewichtetes Mittel, 39

Gewichtung der möglichen Fälle, 15

Gibbs-Sampler, 94

Universität Bonn Wintersemester 2009/2010

Page 464: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

464 STICHWORTVERZEICHNIS

Gleichgewichte von Markov-Ketten, 89

Gleichgewichtsverteilung, 90

Konvergenz, 98

Gleichverteilung, 18

reellwertiger Zufallsvariablen, 72

Simulation, 29

Greensche Funktion, 383

Häufigkeitsverteilung der Anfangsziffern von Zah-

len, 22

harmonische Funktion, 378

harmonisches Maß, 380

Histogramm, 239

hypergeometrische Verteilung, 29, 50

Hypothese

Alternativ-, 310, 457

Null-, 310, 457

Hypothesen, 45

Hypothesentest, 311, 457

Importance Sampling, 86

Indikatorfunktion, 121

Indikatorfunktion einer Ereignisses, 37

Inverse

linksstetige verallgemeinerte -, 138

irreduzible stochastische Matrix, 99

kanonisches Modell, 180, 368

Kern, stochastischer, 52

Kolmogorov

-sche Rückwärtsgleichung, 418

-sche Vorwärtsgleichung, 418

Konfidenzintervall, 161, 307, 312

Konfidenzniveau, 161

Kongruenzgenerator, linearer, 30

konsistente Schätzfolge, 84

Konvergenz

- in Verteilung, 263

fast sicher -, 218

schnelle stochastische -, 220

schwache -, 263

stochastische -, 218

Konvergenz ins Gleichgewicht, 97, 98

Konvergenz, stochastische, 83

Konvergenzsatz für endliche Markov-Ketten, 101

Korrelationskoeffizient, 79

Korrelationskoeffizienten, 209

Kovarianz, 79, 209

Kullback-Leibler Information, 446

Kumulantenerzeugende Funktion, 259

kumulative Verteilungsfunktion, 72

L2-Raum von diskreten Zufallsvariablen, 78

L2-Skalarprodukt, 78

Lévy

-Prozess, 344

Lévys Inversionsformel, 254

Laplace-Modell, 18

Laplacetransformation, 251

Legendre-Fenchel-Transformation, 259

Lemma

- von Borel-Cantelli

1.Teil, 105

2.Teil, 106

- von Fatou, 194

Neyman-Pearson-, 459

Likelihood

Maximum-L.-Schätzer, 454

likelihood, 47

linearer Kongruenzgenerator, 30

Lyapunovbedingung, 284

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 465: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

STICHWORTVERZEICHNIS 465

Münzwurf, 10

abhängige Münzwürfe, 53

endlich viele faire Münzwürfe, 18

Markov-Kette, 91

zwei faire Münzwürfe, 57

Maß

harmonisches -, 380

invariantes -, 403

Markov

-prozess, 411

Markov-Kette, 52

bei einem Münzwurf, 91

Bewegungsgesetz, 52

Fluss, 90

Gesetz der großen Zahlen, 101

Gleichgewicht, 89

Konstruktion mit vorgegebenen Gleichge-

wichtsverteilungen, 93

Konvergenzsatz für endliche Markov-Ketten,

101

Metropolis-Kette, 94

Monte Carlo-Verfahren, 101

Simulation mit vorgegebenem Gleichgewicht,

96

Stationarität, 90

zeitlich homogene, 89

Markovprozess

Generator e. -, 415

Massenfunktion, 15, 123

einer diskreten Zufallsvariable, 23

eines mehrstufigen diskreten Modells, 48

Mastergleichung, 418

Matrix

stochastische / Übergangs-, 89

irreduzible stochastische, 99

stochastische, 52

Stochastische -, 289

Median, 137

mehrstufiges diskretes Modell, 48

Markov-Kette,sieheMarkov-Kette

Produktmodell, 51

Wahrscheinlichkeitsverteilung, 48

Menge aller möglichen Fälle, 9

messbar

-e Abbildung, 120

messbarer Raum, 115

Messraum, 115

Metropolis-Algorithmus, 96

Metropolis-Kette, 94

Konvergenz, 101

Minorisierungsbedingung, 98

Mischung, 290

Mittel

arithmetisches, 39

gewichtetes, 39

Mittelwerteigenschaft

verallgemeinerte -, 378

Modell

Bayes’sches -, 295

Ehrenfest-, 263

kanonisches -, 368

Moment

p-te -, 199

Momentenerzeugende Funktion

logarithmische -, 259

Reihenentwicklung der -, 253

momentenerzeugende Funktionen, 250

Monte Carlo-Schätzer, 76, 84

Universität Bonn Wintersemester 2009/2010

Page 466: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

466 STICHWORTVERZEICHNIS

Approximationsfehler, 76

eines mehrdimensionalen Integrals, 85

erwartungstreuer, 76

für Wahrscheinlichkeiten, 85

mittlere quadratische Fehler, 76

Monte Carlo-Verfahren, 76

für Markov-Ketten, 101

Monte-Carlo

-Approximation, 268

Multinomialkoeffizient, 241

Nullmenge, 102

Ordnungsstatistik, 161, 173

P -fast sicher, 102

Paradoxon

Sankt-Petersburg-, 39

Simpson-, 46

Periode eines Zustands, 99

Periodizität, 327

Perkolation, 184

Permutationen

zufällige,sieheZufallspermutationen

Poisson

-prozess, 345

Poissonapproximation der Binomialverteilung,

27

Poissonverteilung, 28

Erwartungswert, 38

Produkt

- von Wahrscheinlichkeitsverteilungen, 179

Produkt von Wahrscheinlichkeitsverteilungen, 51

Produktmaß

endliches -, 163

Produktmodell, 51

Prozess

Autoregressiver -, 292

autoregressiver -, 215

Compound-Poisson-, 345

Diffusions-, 412

Lévy-, 344

Ornstein-Uhlenbeck-, 292

Poisson-, 301

Punkt-, 345

reversibler -, 398

stationärer -, 397

Pseudo-Zufallszahlengenerator, 29

QQ-Plot, 238

Quantil, 137

Stichproben-, 137

Quantil-Quantil-Plot, 238

Rückkehrzeit, 68

Rückwärtsgleichung, 418

Random Walk, 68, 229, 305

auf den ganzen Zahlen, 65

auf einem Gitter, 53

auf Graphen, 92

Bewegungsverlauf, 68

Rekurrenz, 183

Rekurrenz von -s, 182

symmetrischer, 68

Trefferzeit, 68

unbeschränkte Oszillation von -s, 183

Verteilung der Positionen zur Zeit n, 67

zyklischer, 91

Randverteilung, 163

reellwertige Zufallsvariable, 72

gleichverteilt, 72

Unabhängigkeit, 72

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 467: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

STICHWORTVERZEICHNIS 467

Reflektionsprinzip, 69

Rekurrenz

- eines Punktes, 385

Rekurrenzklassen, 395

relative Entropie, 446

Relative Kompaktheit, 275

renormierte Stichprobenvarianz, 236

Rucksackproblem, 95

Sankt-Petersburg-Paradoxon, 39

Satz

- vom iterierten Logarithmus, 230

- von Berry-Esséen, 281

- von Bochner, 254

- von Chernoff, 258

- von Fisher, Wilkes, Wold, 456

- von Fubini, 289

- von Helly-Bray, 273

- von Lebesgue, 195

- von Prohorov, 273

- von de Moivre/Laplace, 145

- von der majorisierten Konvergenz, 195

- von der monotonen Konvergenz, 193

0-1 - von Kolmogorov, 182

Eindeutigkeits-, 116

Formel von der totalen Wahrscheinlichkeit,

45

Fortsetzungs- von Carathéodory, 116

Konvergenz- von Lévy, 274

Lévys Inversionsformel, 254

Lemma von Fatou, 194

Neyman-Pearson-Lemma, 459

Quellenkodierungs- von Shannon, 248

Skorokhod - Darstellung, 269

Stetigkeits-, 274

Transformations-, 196

Eindimensionaler Dichte-, 134

Mehrdimensionaler Dichte-, 301

Zentraler Grenzwert-

L2-Version, 277

- von Lindeberg-Feller, 284

Multivariater -, 304

Schätzer, 161, 306

erwartungstreuer -, 307

konsistenter -, 307, 456

Maximum-Likelihood-, 454

Schätzfolge

konsistente, 84

Schwaches Gesetz der großen Zahlen, 83

Selbstbefruchtung von Pflanzen, 53

Shift-Register-Generatoren, 35

σ

-Additivität, 104

-Stetigkeit, 104

-Subadditivität, 105

σ-Additivität von Wahrscheinlichkeitsverteilun-

gen, 13

σ-Algebra

asymptotische -, 181

Borel’sche -, 114

die vonJ erzeugte -, 114

Produkt-, 115

σ-endlich, 203

Signalverarbeitung, 295

Simpson-Paradoxon, 46

Simulated Annealing, 96

Algorithmus, 97

Simulation

- exponentialverteilter ZVn, 125

Universität Bonn Wintersemester 2009/2010

Page 468: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

468 STICHWORTVERZEICHNIS

Simulation einer diskreten Verteilung

direkt, 73

Simulation einer Markov-Kette mit vorgegebe-

nem Gleichgewicht, 96

Simulation von Gleichverteilungen, 29

Simulationsverfahren, 72

Acceptance-Rejection-Verfahren, 73

direktes Verfahren, 72

Standardabweichung, 77

starkes Gesetz der großen Zahlen, 83

Stationarität von Markov-Ketten, 90

Statistik, 161, 454

Stichprobe

-nquantil, 137

empirische Verteilung der -, 137

Stirlingsche Formel, 67, 144

stochastische Konvergenz, 83

stochastische Matrix, 52, 89

irreduzibel, 99

Stochastischer Kern, 288

stochastischer Kern, 52

Stoppzeit, 388

symmetrischer Random Walk, 68

Tail

event, 181

field, 181

Test

Gütefunktion eines -s, 312, 458

Hypothesen-, 312

Likelihood-Quotienten-, 459, 460

Macht eines -s, 312, 458

Niveau eines -s, 312, 458

t-, 311, 457

Transformationssatz, 38

Transienz

- eines Punktes, 385

Trefferzeit, 68, 388

Verteilung, 69

Übergangsmatrix, 89

unabhängige 0-1-Experimente, 41, 51

Unabhängige Zufallsvariablen, 64

Unabhängigkeit, 44

- von Mengensystemen, 153

- von Zufallsvariablen, 156

Ereignis

Verteilung, 58

reellwertiger Zufallsvariablen, 72

von Ereignissen, 56

Unabhängigkeit von diskreten Zufallsvariablen,

64, 65

Unabhängigkeit von Ereignissen, 26, 57

Ungleichung

Cebyšev-, 222

Cauchy-Schwarz-, 207, 210

Cebyšev-, 83, 221

ExponentielleCebyšev-Markov-, 222

Jensen’sche -, 223

Markov-, 221

Unimodalität, 455

Unkorreliertheit, 80

Vandermonde-Identität, 298

Varianz, 77

Definition, 204

der Binomialverteilung, 81

Reduktion durch Importance Sampling, 86

Stichproben-, 308

von Summen, 81

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle

Page 469: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

STICHWORTVERZEICHNIS 469

Variationsdistanz von Wahrscheinlichkeitsver-

teilungen, 97

Verteilung

α-stabile -, 283

- einer Zufallsvariablen, 122

-sfunktion, 123

bedingte, 44

bedingte -, 294

Beta-, 174

Cauchy-, 136

direkte Simulation einer diskreten Vertei-

lung, 73

empirische -, 237, 268

Exponential-, 124, 130, 206

für unabhängige Ereignisse, 58

Gamma-, 300

Gleich-, 130

invariante -, 292

Multinomial-, 241

Normal-, 131

Rand-, 163

Standardnormal-

mehrdimensionale -, 166

stationäre -, 292

stetige -, 129

Students-t-, 309

Uniforme -, 130

χ2-, 306

Verteilungsfunktion, kumulative, 72

Verwerfungsbereich, 311, 457

Vorwärtsgleichung, 418

Würfelwurf, 24

Wahrscheinlichkeit, 9

Akzeptanz-„ 73

bedingte, 44

Erfolgs-, 25

Wahrscheinlichkeits

-maß

Faltung von -en, 297

straffe Folge von -en, 272

Wahrscheinlichkeitsraum, 13

Wahrscheinlichkeitsverteilung, 13, 15, 122

einer diskreten Zufallsvariable, 23

der Anfangsziffern von Zahlen, 22

der Trefferzeiten, 69

des Maximums, 71

diskrete, 15

eines mehrstufigen diskreten Modells, 48

endliche Additivität, 13

gemeinsame, 64

geometrische, 58

Gleichverteilung / Laplace-Modell, 18

Produkt, 51

Variationsdistanz, 97

Warteschlange, 27

Wartezeit, 299

wesentlich, 246

Ziehen mit Zurücklegen,sieheBinomialvertei-

lung

Ziehen ohne Zurücklegen,siehehypergeome-

trische Verteilung

Zufallspermutationen, 36

Zufallsvariable, 10, 23, 120

asymptotische -, 185

austauschbare -n, 319

diskrete, 23

Elementare -n, 187

reellwertige, 38, 72

Universität Bonn Wintersemester 2009/2010

Page 470: Einführung in die Wahrscheinlichkeitstheorie - wt.iam.uni ... · PDF file12 Importance Sampling und große Abweichungen 425 12.1 Relative Dichten und Importance Sampling . . . . .

470 STICHWORTVERZEICHNIS

Standardabweichung, 77

unabhängige, 64

Varianz, 77

Zufallsvorgang, 9

diskreter, 11

Zufallszahlen aus [0,1), 36

Zufallszahlengenerator, 29, 72

Kombinationen, 36

zyklischer Random Walk, 91

Zylindermenge, 115

Einführung in die Wahrscheinlichkeitstheorie Prof. Andreas Eberle