Seminar Stochastik _ Bayes-Statistik (Sommer)

24
Bayes-Statistik Marian Sommer - 28. September 2012 Seminar zur Stochastik WS 2012 - Institut für Statistik und Wirtschaftsmathematik - RWTH Aachen www.isw.rwth-aachen.de Inhaltsverzeichnis 1 Grundlagen 1 2 Bayes-Schätzfunktion 3 3 Beispiele 5 4 Das IMDb-Top250-Bewertungssystem 18 5 Zusammenfassung und Ausblick 21 Literaturverzeichnis 23

Transcript of Seminar Stochastik _ Bayes-Statistik (Sommer)

Page 1: Seminar Stochastik _ Bayes-Statistik (Sommer)

Bayes-StatistikMarian Sommer - 28. September 2012

Seminar zur StochastikWS 2012 - Institut für Statistik und Wirtschaftsmathematik - RWTH Aachen

www.isw.rwth-aachen.de

Inhaltsverzeichnis1 Grundlagen 1

2 Bayes-Schätzfunktion 3

3 Beispiele 5

4 Das IMDb-Top250-Bewertungssystem 18

5 Zusammenfassung und Ausblick 21

Literaturverzeichnis 23

Page 2: Seminar Stochastik _ Bayes-Statistik (Sommer)

1 GrundlagenDiese Ausarbeitung knüpft an die Grundlagen über Schätzfunktionen in der Statistikan. Es werden einige Definitionen benötigt, die fortlaufend verwendet werden.

Definition 1.1 (statistischer Raum) Sei (X , B) ein Messraum, Ω = ∅ eine Men-ge und P = Pϑ|ϑ ∈ Ω eine Familie von Wahrscheinlichkeitsverteilungen auf B mitPϑ = Pϑ′ falls ϑ = ϑ′. Dann heißt (X , B, P) statistischer Raum, X Stichprobenraum,P Verteilungsannahme, Ω Parameterraum.

Definition 1.2 (Statistik) Sei (X , B, P) ein statistischer Raum und (V, V) einMessraum. Eine messbare Abbildung T : (X , B) → (V, V) heißt Statistik. (V, V , PT )mit PT := P T |P ∈ P heißt wieder statistischer Raum.

Definition 1.3 (Nichtrandomisierte statistische Entscheidungsfunktion, Ent-scheidungsraum) Sei (X , B, P) ein statistischer Raum und (D, D) ein Messraum.Eine messbare Abbildung δ : (X , B) → (D, D) heißt nichtrandomisierte statistischeEntscheidungsfunktion oder Schätzfunktion und (D, D) heißt Entscheidungsraum.

Definition 1.4 (Verlustfunktion) Es sei (X , B, P) ein statistischer Raum, P =Pϑ|ϑ ∈ Ω, Ω = ∅ eine Menge, und (D, D) ein Messraum. Eine Funktion

L : Ω × D → [0, ∞], (ϑ, d) 7→ L(ϑ, d)

heißt Verlustfunktion, wenn L(ϑ, ·) D − (B1 ∩ [0, ∞]) messbar ist ∀ϑ ∈ Ω, wobei B1

die Borelsche σ-Algebra auf R = R ∪ ∞, −∞ ist.

Eine bekannte und häufig benutzte Verlustfunktion ist die Gauss’sche Verlustfunk-tion.

Definition 1.5 (Gauss’sche Verlustfunktion) Es sei D ⊆ Ω ⊆ R, P = Pϑ|ϑ ∈Ω, g : (Ω, D) → (R1,B1) messbar. Dann heißt

L : Ω × D → [0, ∞], (ϑ, d) 7→ (g(ϑ) − d)2

Gauss’sche Verlustfunktion. Für g(ϑ) = ϑ wird L auch quadratischer Verlustfunktiongenannt.

Definition 1.6 (statistisches Entscheidungsproblem) Sei (X , B, P) ein statis-tischer Raum, P = Pϑ|ϑ ∈ Ω, Ω = ∅ eine Menge, (D, D) ein Entscheidungsraumund L : Ω × D → [0, ∞] eine Verlustfunktion. Dann heißt

E = ((X , B, P), (D, D), L)

statistisches Entscheidungsproblem

Definition 1.7 (Risikofunktion) Gegeben sei ein statistisches Entscheidungspro-blem E = ((X , B, P), (D, D), L) und sei die Menge aller nichtrandomisierten Ent-scheidungsfunktionen. Die Funkrion

R : Ω × → [0, ∞], (ϑ, δ) 7→∫X

L(ϑ, δ(x))dPϑ(x)

heißt Risikofunktion.

1

Page 3: Seminar Stochastik _ Bayes-Statistik (Sommer)

Definition 1.8 (UMP-Schäzer) Es sei E = ((X , B, P), (D, D), L) ein statisti-sches Entscheidungsproblem. Eine nichtrandomisierte Entscheidungsfunktion δ heißtgleichmäßig optimal oder UMP-Schätzer (Uniformly most powerful) genau dann,wenn

R(ϑ, δ) ≤ R(ϑ, δ′) , ∀ϑ ∈ Ω , ∀δ′ ∈

wobei die Menge aller nichtrandomisierten Entscheidungsfunktionen sei.

Definition 1.9 (UMVU-Schätzer, Erwartungstreue) Es sei E = ((X , B, P), (D, D), L)ein statistisches Entscheidungsproblem, wobei L durch die Gauss’sche Verlustfunk-tion gegeben ist. Jede Schätzfunktion δ für die Eϑ(δ(X)) = g(ϑ) (Erwartungs-treue Schätzfunktion für g(ϑ)) gilt und die gleichmäßig optimal, ist heißt UMVU-Schätzer(Uniformly minimum variance unbiased estimator).

Eine Identitätsaussage hat C.R.Rao(1973) entdeckt.

Satz 1.1 Es sei X : (Ω′,A′, P ) → (X , B, Pϑ) eine von ϑ ∈ Ω abhängige Zu-fallsvariable und δ∗ : X → G ⊆ R1 erwartungstreue Schätzfunktion für g(ϑ) mitV arϑδ∗(X) < ∞, ∀ϑ ∈ Ω. δ∗ ist UMVU-Schätzer genau dann, wenn

∀ϕ : X → R1 B − B1-messbar mit Eϑϕ(X) = 0 , ∀ϑ ∈ Ω :

Cov(δ∗(X), ϕ(X)) = 0 , ∀ϑ′ ∈ Ω mit V arϑ′ϕ(X) < ∞

Für einen Beweis siehe C.R.Rao(1973). Anwendung findet dieser Satz in der Bestim-mung des UMVU-Schätzers bei binomialverteilter Zufallsvariable.

Beispiel 1.1 (Binomialer UMVU-Schätzer) Es sei X eine binomialverteilte Zu-fallsvariable, X ∼ bin(n, p) , n ∈ N, p ∈ (0, 1) = Ω, X = 0, . . . , n. Wegen

E(X) = np ⇔ E(

X

n

)= p

ist δ(x) = xn, x ∈ 0, . . . , n erwartungstreue Schätzfunktion für p.

ϕ : R → R erwatungstreue Schätzfunktion für 0

⇔ ∀p ∈ [0, 1] : Ep(ϕ(X)) =n∑

j=0ϕ(j)pj(1 − p)(n−j) = 0

ist ein Polynom in p mit überabzählbar vielen Nullstellen.

⇒ ϕ(j) = 0 , j ∈ 0, . . . , n

So erhält man

Covp(δ(X), ϕ(X)) = Ep(δ(X)ϕ(X)) − Ep(δ(X)) Ep(δ(X))︸ ︷︷ ︸=0

=n∑

j=0

jn

ϕ(j)︸ ︷︷ ︸=0

pj(1 − p)n−j = 0, ∀p ∈ (0, 1)

2

Page 4: Seminar Stochastik _ Bayes-Statistik (Sommer)

Mit Satz1.1 folgt, dass δ(X) = X/n UMVU-Schätzer ist für p ist .

Definition 1.10 (Absolute Stetigkeit von Maßen) Seien µ, ν Maße auf einerσ-Algebra A. µ heißt absolut stetig bzgl. ν, wenn für alle A ∈ A gilt:

ν(A) = 0 ⇒ µ(A) = 0

Kurz: µ << ν oder ν dominiert µ

Satz 1.2 (Satz von Radon-Nikodym) Seien µ, ν Maße auf einem Messraum(Ω, A′) mit ν << µ, µ σ-endlich.⇒ ∃ Funtion f : (Ω, A) → ([0, ∞],B1 ∩ [0, ∞]) messbar mit

ν(A) =∫A

f(x)dµ(x) , ∀A ∈ A .

f heißt Radon-Nikodym-Ableitung von ν bzgl. µ.

Einen Beweis findet man in Shervish (1995), S.597.Es folgt der Satz, der diesem Teilgebiet der Statistik seinen Namen gegeben hat.

Satz 1.3 (Satz von Bayes) Sei (Ω′,A′, P ) ein Wahrscheinlichkeitsraum. Für zweiEreignisse A, B ∈ A mit P (B) > 0 und P (A) > 0 gilt

P (A|B) = P (B|A) · P (A)P (B)

Beweis von Satz1.3

P (A|B) Def.= P (A ∩ B)P (B)

= P (A ∩ B)P (A)

· P (A)P (B)

Def.= P (B|A) · P (A)P (B)

2 Bayes-SchätzfunktionGrundlage dieses Seminars ist das Kapitel über Bayes-Schätzung (Bayes-Estimation)aus dem Buch von Keener(2010) [1].Der Vergleich zweier Schätzfunktionen bzgl. deren Risikofunktion führt zu keinemzufriedenstellenden Ergebnis, falls sich diese schneiden (Vergleichkriterium aus derMathematischen Statistik: UMP-Schätzer). Betrachtet man die Risikofunktion ei-ner Schätzfunktion (im folgenden ’Schätzer’ genannt) über einen ’gewichteten Mit-telwert’ (bzw. gewichtetes Mittelintegral) der Risikofunktion, so erhält man denBayes’schen Ansatz. Das Bayes-Risiko sei wie folgt definiert:

Definition 2.1 (Bayes-Risiko, a-priori-Verteilung) Gegeben sei ein statistischesEntscheidungsproblem E = ((X , B, P), (D, D), L) mit Risikofunktion R(·, δ) : Ω →[0, ∞] und δ eine nichtrandomisierte Entscheidungsfunktion. Es sei zusätzlich I eineσ-Algebra über Ω mit

1) ϑ → Pϑ(B) ist I-(B1 ∩ [0, 1])-messbar ∀B ∈ B

3

Page 5: Seminar Stochastik _ Bayes-Statistik (Sommer)

2) (ϑ, d) → L(ϑ, d) ist (I ⊗ D)-(B1 ∩ [0, 1])-messbar

und Π sei die Menge aller Wahrscheinlichkeitsverteilungen auf (Ω, I). Jedes Λ ∈ Πheißt a-priori-Verteilung.Für Λ ∈ Π heißt

(1) r(Λ, δ) :=∫

R(ϑ, δ)dΛ(ϑ)

Bayes-Risiko von δ bzgl. Λ.

Das Ziel der Bayes-Statistik ist eine Schätzfunktion zu finden, die das Bayes-Risikobzgl. einer a-priori-Verteilung Λ minimiert.

Definition 2.2 (Bayes-Schätzer) Es gelten die Voraussetzungen aus Definition2.1.Λ ∈ Π sei fest gewählt. Eine nichtrandomisierte Entscheidungsfunktion δ, die (1) mi-nimiert wird Bayes-Schätzfunktion für ϑ bzgl. Λ genannt.Ist die a-priori-Verteilung aus dem Kontext bekannt, so bezeichnet man δ auch ab-kürzend als Bayes-Schätzer für ϑ.

Im Bayes’schen Wahrscheinlichkeitsmodell geht man nun davon aus, dass der unbe-kannte Parameter ϑ sowie die Stichprobe x zufällig sind. Sei (Ω′, A′, P ) ein Wahr-scheinlichkeitsraum, dann definiert man die Zufallsvariablen

X|Θ = ϑ : (Ω′, A′, P ) → (X , B, Pϑ) , ϑ ∈ Ω

Θ : (Ω′, A′, P ) → (Ω, I, Λ) ,wobei alle Bezeichnungen denen aus Definition2.1 entsprechen. Abkürzend schreibtman dafür

Θ ∼ Λ und X|Θ = ϑ ∼ Pϑ .Mit diesen Zufallsvariablen erhält man eine alternative Darstellung der Risikofunk-tion:

R(ϑ, δ) =∫X

L(ϑ, δ(x))dPϑ(x) = E[L(ϑ, δ(X))|Θ = ϑ] = E[L(Θ, δ(X))|Θ = ϑ]

Daraus folgt ebenso eine alternative Darstellung des Bayes-Risikos:

r(Λ, δ) =∫Ω

R(ϑ, δ)dΛ(ϑ)

= E(R(Θ, δ))= E(E(L(Θ, δ(X))|Θ))= E(L(Θ, δ(X)))= E(E(L(Θ, δ(X))|X))

Ein Ansatz zur Minimierung des Bayes-Risikos von δ bzgl. Λ, die Minimierung derRisikofunktion, ist bereits bekannt. Falls δ gleichmäßig optimal ist, dann ist insbe-sondere das Bayes-Risiko minimal, also ist jeder UMP-Schätzer auch Bayes-Schätzervon ϑ. Der zweite Ansatz ist, den sogenannten a-posteriori-Erwartungswert vonL(Θ, δ(X)), E(L(Θ, δ(X))|X = x), zu minimieren. Die Verteilung für dessen Be-rechnung erhält man über den Satz von Bayes.

4

Page 6: Seminar Stochastik _ Bayes-Statistik (Sommer)

Theorem 2.1 Sei E = ((X , B, P), (D, D), L), Θ ∼ Λ ein statistisches Entschei-dungsproblem und X|Θ = ϑ ∼ Pϑ. Falls

a) EL(Θ, δ0(X)) < ∞ für eine Entscheidungsfunktion δ0und

b) für P X-f.a. x existiert ein Wert δΛ(x), der

E[L(Θ, d)|X = x]

bzgl. d minimiert.

Dann ist δΛ ein Bayes-Schätzer.

Beweis: Sei δ eine beliebige Schätzfunktion. Dann gilt für P X-f.a. x:

E[L(Θ, δ(X))|X = x] = E[L(Θ, δ(x))|X = x]≥ E[L(Θ, δΛ(x))|X = x]= E[L(Θ, δΛ(X))|X = x] .

Daraus folgtE[L(Θ, δ(X))|X] ≥ E[L(Θ, δΛ(X))|X]

und zusätzliche Erwartungswertbildung über X ergibt dann

EL(Θ, δ(X)) = E[E(L(Θ, δ(X))|X)]≥ E[E(L(Θ, δΛ(X))|X)]= EL(Θ, δΛ(X)) .

Folglich ist δΛ Bayes-Schätzer von ϑ.

Bedingung (a) könnte man auch weglassen, allerdings wäre dann jede Schätzfunktionδ ein Bayes-Schätzer von ϑ, da das Bayes-Risiko für alle Schätzfunktionen unendlichist.

3 BeispieleEs folgen Beispiele für die Berechnung von Bayes-Schätzern unter einfachen undbekannten Verlustfunktionen.

Beispiel 3.1 (gewichtete quadratische Verlustfunktion) Gegeben sei die ge-wichtete quadratische Verlustfunktion

L(ϑ, d) = w(ϑ)(d − g(ϑ))2 ,

wobei g : (Ω, I) → (R,B1) und w : (Ω, I) → ([0, ∞),B1∩[0, ∞)). Nach Theorem(2.1)minimiert δΛ den Ausdruck

5

Page 7: Seminar Stochastik _ Bayes-Statistik (Sommer)

E[w(Θ)(d − g(Θ))2|X = x] = d2E[w(Θ)|X = x]−2dE[w(Θ)g(Θ)|X = x]+E[w(Θ)g2(Θ)|X = x] .

Falls E(w(Θ)|X = x) = 0 gilt, dann ist

E[w(Θ)(d − g(Θ))2|X = x] = −2dE[w(Θ)g(Θ)|X = x]+E[w(Θ)g2(Θ)|X = x]

eine lineare Funktion in d. Damit Bedingung (b) erfüllt ist muss also E[w(Θ)g(Θ)|X =x] = 0 gelten. Der a-posteriori-Erwartungswert ist dann konstant in d, also sind alleEntscheidungsfunktionen δ nach Theorem2.1 Bayes-Schätzer.Falls E(w(Θ)|X = x) > 0 kann man einen P X-f.s. Bayes-Schätzer bestimmen. Dera-posteriori-Erwartungswert von L(Θ, d) ist eine quadratische Funktion in d. Setzealso die Ableitung

2dE[w(Θ)|X = x] − 2E[w(Θ)g(Θ)|X = x]

gleich Null und erhalte

d · E(w(Θ)|X = x) − E(w(Θ)g(Θ)|X = x)

> 0 für d > δΛ(x)= 0 für d = δΛ(x)< 0 für d < δΛ(x)

,

wobei

(2) δΛ(x) = E[w(Θ)g(Θ)|X = x]E[w(Θ)|X = x]

.

Folglich ist δΛ P X-f.s. eindeutiger Bayes-Schätzer für g(ϑ).Ist die Gewichtungsfunktion w ≡ 1, so entspricht die Verlustfunktion der quadrati-schen Verlustfunktion. Dann ist

δΛ(X) = E[g(Θ)|X]

der a-posteriori-Erwartungswert von g(Θ).Falls P = Pϑ|ϑ ∈ Ω eine dominierte Familie von Verteilungen ist mit Dichte pϑ undfalls Λ << λλ, wobei λλ das Lebesgue-Maß sei. Mit dem Satz von Radon-Nikodymfolgt, dass eine Dichte bzgl. λλ existiert, welche durch λ(ϑ) bezeichnet werde. Dannist die gemeinsame Dichte von X und Θ

pϑ(x)λ(ϑ) .

Die Randdichte von X ist dann gegeben durch

q(x) =∫Ω

pϑ(x)λ(ϑ)dλλ(ϑ)

und die bedingte Dichte von Θ bei gegebenem X = x ist mit dem Satz von Bayes

λ(ϑ|x) = pϑ(x)λ(ϑ)q(x)

.

6

Page 8: Seminar Stochastik _ Bayes-Statistik (Sommer)

Benutzt man diese bedingte Dichte, wird (2) zu

(3) δΛ(x) =

∫Ω

w(ϑ)g(ϑ)pϑ(x)λ(ϑ)dλλ(ϑ)∫Ω

w(ϑ)pϑ(x)λ(ϑ)dλλ(ϑ).

Der Faktor 1/q(x) kürzt sich dabei.

Beispiel 3.2 (Binomial-Verteilung) Sei Pϑ = bin(n, ϑ) wobei n ∈ N und ϑ ∈(0, 1) die Erfolgswahrscheinlichkeit ist. Eine übliche Wahl für die a-piori-Verteilungvon Θ ist die Beta(α, β)-Verteilung mit der zugehörigen Dichte

λ(ϑ) =

Γ(α+β)

Γ(α)Γ(β)ϑα−1(1 − ϑ)β−1 , ϑ ∈ [0, 1]

0 , sonst,

wobei α > 0, β > 0 fest. Da sich die Dichte zu 1 integriert, folgt

(4)1∫

0

ϑα−1(1 − ϑ)β−1dϑ = Γ(α)Γ(β)Γ(α + β)

.

Mit (4) kann man den Erwartungswert von Θ leicht berechnen:

EΘ = Γ(α+β)Γ(α)Γ(β)

1∫0

ϑ1+α−1(1 − ϑ)β−1dϑ

(4)= Γ(α+β)Γ(α)Γ(β)

Γ(α+1)Γ(β)Γ(α+β+1)

= αα+β

Die Randdichte von X im Bayes’schen Modell ist

q(x) =∫

pϑ(x)λ(ϑ)dϑ

=1∫0

(nx

)Γ(α+β)

Γ(α)Γ(β)ϑx+α−1(1 − ϑ)n−x+β−1dϑ

=(

nx

)Γ(α+β)

Γ(α)Γ(β)Γ(x+α)Γ(n−x+β)

Γ(n+α+β) , x ∈ 0, . . . , n .

q(x) ist offensichtlich die Zähldichte einer Beta-Binomial-Verteilung. Teilt man diegemeinsame Dichte pϑ(x)λ(ϑ) durch die eben berechnete Zähldichte q(x), so erhältman die bedingte Dichte

λ(ϑ|x) = Γ(n + α + β)Γ(α + x)Γ(β + n − x)

ϑx+α−1(1 − ϑ)n−x+β−1 , x ∈ 0, . . . , n , ϑ ∈ (0, 1) .

Die bedingte Zähldichte λ(ϑ|x) impliziert

Θ|X = x ∼ Beta(x + α, n − x + β) .

Die a-posteriori-Verteilung aus der a-priori-Verteilung und der beobachteten Stich-probe zu berechnen ist hier einfach:man erhöht α um die Anzahl der Erfolge x und β um die Anzahl der Misserfolge n−x.Falls, wie in diesem Fall, die Klasse der a-priori-, sowie der a-posteriori-Verteilung

7

Page 9: Seminar Stochastik _ Bayes-Statistik (Sommer)

übereinstimmt, so nennt man diese Verteilungsklasse konjugiert. Letzteres wird inBeispiel(3.7) ausführlicher behandelt.Unter Gauss’scher Verlustfunktion mit g(ϑ) = ϑ ergibt sich somit

δΛ(X) = E[Θ|X] = X + α

n + α + β

als Bayes-Schätzer für ϑ. Elementares Umformen ergibt dann

δΛ(X) =[

n

n + α + β

]X

n+[1 − n

n + α + β

α + β

was zeigt, dass der Bayes-Schätzer ein gewichteter Mittelwert aus dem UMVUE-Schätzer X/n und dem a-priori-Erwartungswert EΘ = α/(α + β) ist.

Die Beta-verteilung ist eine beliebte Wahl für die a-priori-Dichte, da die Dichte,abhängig von den Parametern α und β unterschiedliche Darstellungen annehmenkann, wie man in folgender Abbildung erkennen kann.

Dichte einer Beta(α, β)-Verteilung 1

Notation [Proportionalität ∝] Seien h, g : X → R Funktionen. h heißt porpor-tional zu g in (x), wenn ein a ∈ R\0 existiert mit h(x) = a · g(x), ∀x ∈ X .Kurz schreibt man h(x) ∝x g(x). Insbesondere gilt h(x) ∝x b · g(x) ∀b ∈ R\0.Da für Dichten h

∫h = 1 gilt, folgt, dass a = (

∫g)−1. a ist somit eine Normierungs-

konstante, sofern 0 <∫

g < ∞.

Beispiel 3.3 (Negative Binomial-Verteilung) Es sei (Xi)i∈N ein Bernoulli-Prozessmit Erfolgswahrscheinlichkeit ϑ und X die Anzahl der Fehlversuche vor dem zweitenErfolg, dann ist die Dichte von X|Θ = ϑ gegeben durch

pϑ(x) = Pϑ(X = x) = (x + 1)ϑ2(1 − ϑ)x , x = 0, 1, 2, . . .

1 http://de.wikipedia.org/wiki/Betaverteilung

8

Page 10: Seminar Stochastik _ Bayes-Statistik (Sommer)

Erklärung der Dichte: (x + 1

1

)(1 − ϑ)xϑ︸ ︷︷ ︸(I)

· ϑ︸︷︷︸(II)

(I) Wahrscheinlichkeit, dass ein Erfolg in x+1 Bernoulli-Versuchen, mit Erfolgswahr-schienlichkeit ϑ, auftritt(II) Wahrscheinlichkeit für zweiten Erfolg im x+2’ten VersuchBetrachtet man die Schätzung von g(Θ) = 1/Θ in einem Bayes’sches Modell, in

dem Θ gleichverteilt auf (0, 1) sei (also Θ ∼ U(0, 1) ). Dann ist

λ(ϑ|x) ∝ϑ pϑ(x)λ(ϑ) ∝ϑ ϑ2(1 − ϑ)x .

Diese Dichte ist offensichtlich in ϑ proportional zur Beta(3, x + 1)-Verteilung. Diesimpliziert

Θ|X = x ∼ Beta(3, x + 1) .

Der a-posteriori-Erwartungswert von 1/Θ ist dann

δ0(x) = E[Θ−1|X = x] = Γ(x+4)Γ(3)Γ(x+1)

1∫0

ϑ(1 − ϑ)xdϑ

(4)= Γ(x+4)Γ(2)Γ(x+1)Γ(3)Γ(x+1)Γ(x+3)

= x+32 .

Der UMVU-Schätzer für 1/ϑ (siehe Keener, Beispiel(5.3)) ist

δ1(x) = x + 22

,

der im Zusammenhang mit dem eben berechneten δ0 steht

δ0(X) = δ1(X) + 12

.

Also hat der Schätzer δ0 die konstante Verzerrung

Bias(ϑ, δ0) = Eϑδ0(X) − 1ϑ

= Eϑδ1(X) + 12 − 1

ϑ

= 1ϑ

+ 12 − 1

ϑ= 1

2 .

Mit quadratischer Verlustfunktion ist die Risikofunktion die Varianz des Schätzersaddiert mit der quadratischen Verzerrung. Da δ0 und δ1 sich nur bis auf eine Kon-stante unterscheiden, haben sie dieselbe Varianz und somit ist

R(ϑ, δ0) = V arϑ(δ0) + 14

= V arϑ(δ1) + 14

= R(ϑ, δ1) + 14

.

Daraus folgt, dass die Risikofunktion des UMVU-Schätzers δ1 echt kleiner ist, alsdie Risikofunktion vom Bayes-Schätzer δ0.Zur Erinnerung: ein Schätzer heißt unzulässig, wenn es einen Schätzer δ0 gibt, der

9

Page 11: Seminar Stochastik _ Bayes-Statistik (Sommer)

δ dominiert ( δ ≺ δ0, d.h. R(ϑ, δ0) ≤ R(ϑ, δ)∀ϑ ∈ Ω und ∃ϑ0 ∈ Ω : R(ϑ0, δ0) <R(ϑ0, δ)).Ein unzulässiger Schätzer ist grunsätzlich kein Bayes-Schätzer, da ein Schätzer mitniedrigerer Risikofunktion, über Integration in ϑ, dann auch ein niedrigeres Bayes-Risiko besitzt. Theorem (2.1) greift hier nicht, da Bedingung (a) nicht erfüllt ist:

(5) EL(Θ, δ(X)) =∞∑

x=0

∫(0,1)

(δ(x) − 1

ϑ

)2(x + 1)ϑ2(1 − ϑ)xdϑ

=∞∑

x=0(x + 1)

δ(x)2 − 2δ(x)∫

(0,1)

ϑ(1 − ϑ)xdϑ +∫

(0,1)

(1 − ϑ)xdϑ

Die Integrale berechnen sich wie folgt:∫

(0,1)(1 − ϑ)xdϑ = − 1

x+1∫

(0,1)−(x + 1)(1 − ϑ)xdϑ

= − 1x+1 · [(1 − ϑ)x]ϑ=1

ϑ=0= − 1

x+1(0 − 1) = 1x+1

∫(0,1)

ϑ(1 − ϑ)xdϑP.I.=

[ϑ ·(− 1

x+1(1 − ϑ)x+1)]ϑ=1

ϑ=0−

∫(0,1)

− 1x+1(1 − ϑ)x+1dϑ

= 0 + −1(x+1)(x+2) [(1 − ϑ)x+2]ϑ=1

ϑ=0= 1

(x+1)(x+2)

Angenommen es existiert eine Schätzfunktion δ∗ mit E(L(Θ, δ∗(X))) < ∞. MitTheorem2.1 folgt dann, dass δ0 das Bayes-Risiko P X-f.s. eindeutig minimiert.Setzt man δ0 = x+3

2 und die berechneten Integrale in (5) ein:

∞∑x=0

((x + 1)(x + 3)2

4− x + 3

x + 2+ 1

)

=∞∑

x=0

(x + 2)(x + 1)(x + 3)2 − 4(x + 3) + 4(x + 2)4(x + 2)︸ ︷︷ ︸

ax:=

Wegenax > 1 ⇔ x4︸︷︷︸

≥0

+ 9x3︸︷︷︸≥0

+ 29x2︸ ︷︷ ︸≥0

+ 35x︸︷︷︸≥0

+ 6︸︷︷︸>0

> 0

für x ∈ N folgt, dass∞∑

x=0ax = ∞ und somit E(L(Θ, δ0(X))) = ∞, was ein Wider-

spruch zur Annahme ist. In diesem Fall minimiert jeder Schätzer (1).

Beispiel 3.4 Gegeben sei ein Bayes’sches Modell mit exponentialverteilter Zufalls-variable Θ mit Ausfallrate µ > 0, d.h. die Dichte von Θ ist gegeben durch

λ(ϑ) = µ exp(−µϑ), ∀ϑ > 0 .

10

Page 12: Seminar Stochastik _ Bayes-Statistik (Sommer)

Für gegebenes Θ = ϑ, seien X1, . . . , Xni.i.d.∼ po(ϑ) mit Dichte

pϑ(xi) = ϑxi

xi!exp(−ϑ) , i = 1, . . . , n

und X := (X1, . . . , Xn). Die Verlustfunktion sei wie folgt definiert:

L(ϑ, d) = ϑp(d − ϑ)2 ,

wobei p > 0 eine feste Konstante sei.Die Dichte von X bei gegebenem Θ = ϑ ist dann

pϑ(x) =n∏

i=1pϑ(xi) =

n∏i=1

ϑxi

xi! exp(−ϑ)

= ϑT (x) exp(−nϑ)∏n

i=1 xi!, x ∈ Nn

0 ,

wobei T (x) = ∑ni=1 xi .

Mit Beispiel (3.1) hat der Bayes-Schätzer für ϑ folgende Form

δΛ(x) =∫∞

0 ϑp+1pϑ(x)λ(ϑ)dϑ∫∞0 ϑppϑ(x)λ(ϑ)dϑ

=∫∞

0 ϑT (x)+p+1 exp(−(n+µ)ϑ)dϑ∫∞0 ϑT (x)+p exp(−(n+µ)

P.I.= [ϑT (x)+p+1·(− 1n+µ

exp(−(n+µ)ϑ))]ϑ=∞

ϑ=0−∫∞

0 (T (x)+p+1)·ϑT (x)+p·(− 1n+µ

exp(−(n+µ)ϑ))dϑ∫∞0 ϑT (x)+p exp(−(n+µ))dϑ

(∗)= T (x)+p+1n+µ

∫∞0 ϑT (x)+p exp(−(n+µ)ϑ)dϑ∫∞0 ϑT (x)+p exp(−(n+µ))dϑ

= T (x)+p+1n+µ

, x ∈ Nn0 .

Wobei in der Umformung (*) folgende Grenzwerte eingehen:

limϑ→0

ϑT (x)+p+1︸ ︷︷ ︸→0

(− 1

n + µexp(−(n + µ)ϑ)

)︸ ︷︷ ︸

→1

= 0

limϑ→∞

ϑT (x)+p+1

exp((n + µ)ϑ)︸ ︷︷ ︸→0

·(

− 1n + µ

)= 0

da jede Exponentialfunktion schneller gegen unendlich läuft als jedes Polynom.

Beispiel 3.5 Sei ein Bayes’sches Modell gegeben, in dem die a-priori-Verteilungabsolut stetig sei mit Dichte

λ(ϑ) = 1(1 + ϑ)2 , ϑ > 0 .

Für gegebenes Θ = ϑ, sei die Variable X gleichverteilt auf (0, ϑ) (X ∼ U(0, ϑ)).Dann ist die Randverteilung von X gegeben durch

11

Page 13: Seminar Stochastik _ Bayes-Statistik (Sommer)

q(x) =∫

pϑ(x)λ(ϑ)dϑ=∫∞

x1

(1+ϑ)2 · 1ϑdϑ [ da pϑ(x) = 1

ϑ· 1(0,ϑ)(x) = 1

ϑ· 1(x,∞)(ϑ) ]

=∫∞

x

[1ϑ

− 11+ϑ

− 1(1+ϑ)2

]dϑ

=[log(ϑ) − log(ϑ + 1) + 1

ϑ+1

]ϑ=∞

ϑ=x

=[log( ϑ

1+ϑ) + 1

ϑ+1

]ϑ=∞

ϑ=x

= limϑ→∞

log(1 − 11+ϑ

) + limϑ→∞

11+ϑ

− limϑ→x

(log(1 − 1

ϑ+1 + 11+ϑ

))

= 0 + 0 − log(

1+xx

)− 1

x+1

= log(

1+xx

)− 1

x+1 , x > 0 .

Also gilt mit dem Satz von Bayes

p(ϑ|x) = pϑ(x) · λ(ϑ)q(x)

= 1ϑ(1 + ϑ)2q(x)

, ϑ > x > 0

und somit

E[|Θ − d||X = x] =∫∞

x|ϑ−d|

ϑ(1+ϑ)2q(x)dϑ

=∫ d

x

d − ϑ

ϑ(1 + ϑ)2q(x)dϑ︸ ︷︷ ︸

1⃝

+∫ ∞

d

ϑ − d

ϑ(1 + ϑ)2q(x)dϑ︸ ︷︷ ︸

2⃝

.

Zu 1⃝:

1⃝ = dq(x)

∫ dx

1ϑ(1+ϑ)2 dϑ + 1

q(x)∫ d

x − 1(1+ϑ)2 dϑ

= d(q(x)−q(d))q(x) + 1

q(x)

(1

d+1 − 1x+1

)= d − d·q(d)

q(x) + 1q(x)(d+1) − 1

(1+x)q(x)

Zu 2⃝:

2⃝ = − 1q(x)

∫∞d − 1

(1+ϑ)2 dϑ − dq(x)

∫∞d

1ϑ(1+ϑ)2 dϑ

= − 1q(x) ·

[1

1+ϑ

]ϑ=∞

ϑ=d− d·q(d)

q(x)

= 1q(x)(d+1) − d·q(d)

q(x)

Also insgesamt:

1⃝ + 2⃝ = d − 2d · q(d)q(x)

− 1(1 + x)q(x)

+ 2(1 + d)q(x)

Da∂∂d

q(d) = ∂∂d

(log

(1+d

d

)− 1

d+1

)= d

d+1 · − 1d2 + 1

(d+1)2

= −(d+1)+d(d+1)2d

= − 1d(1+d)2 ,

ist die Ableitung nach d des Ausdrucks 1⃝ + 2⃝ gegeben durch

12

Page 14: Seminar Stochastik _ Bayes-Statistik (Sommer)

∂∂d

1⃝ + 2⃝ = ∂∂d

(d − 2dq(d)

q(x) − 1(1+x)q(x) + 2

(1+d)q(x)

)= 1 − 2

q(x) (q(d) + dq′(d)) − 2q(x)(1+d)2

(3.5)= 1 − 2q(x)

(q(d) + d ·

(− 1

d(1+d)2

))− 2

q(x)(1+d)2

= 1 − 2q(d)q(x) + 2

q(x)(1+d)2 − 2q(x)(1+d)2

= 1 − 2q(d)q(x) .

Offensichtlich ist q(d) streng monoton fallend für d > x, da

(6) ∂

∂dq(d) = − 1

d(1 + d)2 < 0 , ∀d > x(> 0) .

Zudem gilt für A(d) := 1 − 2q(d)q(x) :

A(x) = −1

limd→∞

A(d) = 1

Mit (6) ist A streng monoton steigend mit Werten zwischen -1 und 1 und somitexistiert eine eindeutige Nullstelle in der gilt:

q(δΛ(X)) = q(X)2

dessen Gleichung dann den Bayes-Schätzer beschreibt. Mit dieser Gleichung erhältman zudem

(7) P (δΛ(X) < Θ|X = x) =∫ ∞

δΛ(x)

1ϑ(1 + ϑ)2q(x)

dϑ = q(ϑΛ(x))q(x)

= 12

.

Lehmann und Casella(1998) fanden heraus, dass jeder Median von Θ|X = x Bayes-Schätzer von ϑ ist. Da hier mit einer stetigen Verteilung gearbeitet wird, ist dasErgebnis aus (7) klar.

Beispiel 3.6 Für die Bayes-Schätzung einer linearen Regression werde angenom-men, dass die additive Konstante Θ1 und die Steigung Θ2 unabhängig a-priori-verteilt sind mit Θ1 ∼ N (0, τ 2

1 ) und Θ2 ∼ N (0, τ 22 ). Für gegebenes Θ1 = ϑ1 und

Θ2 = ϑ2 seien die unabhängigen Daten Y1, . . . , Yn jeweils Yi ∼ N (ϑ1 + ϑ2xi, σ2)verteilt für i = 1, . . . , n, wobei die Varianz σ2 > 0 bekannt sei und x1, . . . , xn Kon-stanten sind, die sich zu 0 aufsummieren (∑n

i=1 xi = 0). Die zugehörigen Dichtensind dann

λ(ϑ) = λ(ϑ1, ϑ2)s.u.= λ(ϑ1)λ(ϑ2)

= 1√2πτ2

1exp

(−1

2ϑ2

1τ2

1

)· 1√

2πτ22

exp(−1

2ϑ2

2τ2

2

)und

13

Page 15: Seminar Stochastik _ Bayes-Statistik (Sommer)

pϑ(y) =n∏

i=1pϑ(yi)

=n∏

i=1

1√2πσ2 exp

(−1

2(yi−(ϑ1+ϑ2xi))2

σ2

)=(

1√2πσ2

)nexp

(− 1

2σ2

n∑i=1

(yi − (ϑ1 + ϑ2xi))2)

=(

1√2πσ2

)nexp

(− 1

2σ2

(n∑

i=1y2

i − 2n∑

i=1(ϑ1 + ϑ2xi)yi +

n∑i=1

(ϑ1 + ϑ2xi)2))

=(

1√2πσ2

)nexp

(− 1

2σ2

(n∑

i=1y2

i − 2ϑ1n∑

i=1yi − 2ϑ2

n∑i=1

yixi

+n∑

i=1ϑ2

1 + 2ϑ1ϑ2n∑

i=1xi +

n∑i=1

ϑ22x

2i

))=(

1√2πσ2

)nexp

(− 1

2σ2

(n∑

i=1y2

i − 2ϑ1n∑

i=1yi − 2ϑ2

n∑i=1

yixi + nϑ21 +

n∑i=1

ϑ22x

2i

))Die Dichte von (Θ1, Θ2)|Y ist proportional zu

λ(ϑ)pϑ(y) ∝ϑ exp[− ϑ2

12τ2

1− ϑ2

22τ2

2− nϑ2

12σ2 − ϑ2

12σ2

∑ni=1 x2

i + ϑ1σ2∑n

i=1 yi + ϑ2σ2∑n

i=1 xiyi

]

∝ϑ exp

ϑ21−2

n∑i=1

yiϑ21

n+ σ2τ2

1

+

(n∑

i=1yi

)2

n+ σ2τ2

1

·(

nσ2 + 1

τ21

)2

ϑ22−2ϑ2

n∑i=1

yixi

n∑i=1

x2i

+ σ2τ2

2

+

n∑

i=1xiyi

n∑i=1

x2i

+ σ2τ2

2

2·(

n∑i=1

x2i

σ2 + 1τ2

2

)2

∝ϑ exp

[ϑ1−

∑n

i=1 yi

n+σ2/τ21

]2

2(n/σ2+1/τ21 )−1 −

[ϑ2−

∑n

i=1 xiyi∑n

i=1 x2i

+σ2/τ22

]2

2(∑n

i=1 x2i /σ2+1/τ2

2 )−1

Bei gegebenen Stichproben-Daten sind also Θ1 und Θ2 unabhängige normalver-teilte Zufallsvariablen. Die jeweiligen Bayes-Schätzer sind dann die a-posteriori-Erwarungswerte:

E[Θ1|X, Y ] =∑n

i=1 Yi

n + σ2/τ 21

und E[Θ2|X, Y ] =∑n

i=1 xiYi∑ni=1 x2

i + σ2/τ 22

.

Beispiel 3.7 (konjugierte a-priori-Verteilungsklassen) Sei P = Pϑ, ϑ ∈ Ωeine einparametrische Exponentialfamilie in Normalform, dessen Dichte gegeben istdurch:

pϑ(x) = h(x) exp(ϑT (x) − A(ϑ)) , x ∈ X .

14

Page 16: Seminar Stochastik _ Bayes-Statistik (Sommer)

Sei der Parameterraum Ω ein Intervall und Λ = Λα,β eine absolut stetige a-priori-Verteilung mit Dichte

λ(ϑ) =

exp(α · ϑ − βA(ϑ) − B(α, β)), ϑ ∈ Ω0, sonst

,

wobeiB(α, β) = log

∫Ω

exp(α · ϑ − βA(ϑ))dϑ .

Die Dichten von Λα,β bilden eine zweiparametrische Exponentialfamilie. Sei Ω∗ =(α, β) : B(α, β) < ∞ der Parameterraum. Für λ gelte zusätzlich, dass λ(ϑ) → 0,falls ϑ gegen die Ränder von Ω läuft, unabhängig von den Werten (α, β) ∈ E. Mitdieser Annahme gilt für λ:∫

Ω

λ′(ϑ)dϑ = limϑ→supΩ

λ(ϑ) − limϑ→infΩ

λ(ϑ) = 0 .

Wegen λ′(ϑ) = [α − βA′(ϑ)]λ(ϑ) folgt, dass

E[α − βA′(Θ)] =∫Ω

λ′(ϑ)dϑ!= 0

und damit

(8) EA′(Θ) = α

β.

Nehme das Bayes’sche Modell mit Ω ∼ Λα,β, X1, . . . , Xn seien bei gegebenemΘ = ϑ Pϑ-verteilt und stochastisch unabhängig. pϑ(x) ist dann proportional zuexp(ϑnT (x)−nA(ϑ)), wobei T (X) := [T (X1)+ · · ·+T (Xn)]/n. Die bedingte Dichtevon Θ unter X = x ist proportional zu

pϑ(x)λ(ϑ) ∝ exp((α + nT (x))ϑ − (β + n)A(ϑ)) ∝ϑ λα+nT (x),β+n .

Also ist Θ|X = x ∼ Λα+nT (x),β+n. mit diesem Ergebnis kann man den Bayes-Schätzervon A′(Θ) berechnen:

E[A′(Θ)|X] = α + nT (X)β + n

= β

β + n

α

β+ n

n + βT (X) ,

wobei der letzte Ausdruck offensichtlich ein gewichtetes arithmetisches Mittel vonEA′(Θ) = α

βund T (X) ist.

Betrachtet man nun den Fall, dass Pϑ die Exponentialverteilung mit Ausfallrate ϑund Erwartungswert 1/ϑ ist. Da pϑ(x) = ϑ exp(−ϑx) = exp(−ϑx + log(ϑ)) wähltman T (x) = −x und A(ϑ) = − log(ϑ). Dann ist

λα,β(ϑ) ∝ϑ exp(αϑ + β log(ϑ)) = ϑβ exp(αϑ) , ϑ > 0 .

α muss negativ sein, da sonst die obige Konvergenzbedingung für λ nicht erfüllt ist.Die λ-Dichte ist offensichtlich proportional zu einer Gamma-Dichte und deswegenist Λα,β die Gamma-Verteilung mit Γ(β + 1, −α). Da 1/ϑ = −A′(ϑ), ist der Bayes-Schätzer von 1/ϑ gegeben durch

−E[A′(Θ)|X] = −α + nT

β + n= |α| + nX

β + n.

15

Page 17: Seminar Stochastik _ Bayes-Statistik (Sommer)

Beispiel 3.8 Gegeben sei ein Bayes’sches Modell mit zufälligem Parameter Θ, derBernoulli-verteilt sei mit Erfolgswarscheinlichkeit 1/2, also P (Θ = 1) = P (Θ = 0) =1/2. Für gegebenes Θ = 0 habe X die Dichte f0 und für gegebenes Θ = 1 habe Xdie Dichte f1. Man bestimme nun den Bayes-Schätzer von Θ bei

(i) Gauss’scher Verlustfunktion mit g(ϑ) = ϑ

(ii) Verlustfunktion L(ϑ, d) = 1ϑ =d [0-1-Verlustfunktion] .

Zu (i):Die gemeinsame Dichte ist λ(ϑ)pϑ(x) = fϑ(x)/2, x ∈ X , ϑ ∈ 0, 1. Durch Summa-tion erhält man die Randdichte von X:

q(x) =1∑

ϑ=0λ(ϑ)pϑ(x) =

1∑ϑ=0

fϑ(x)2

= f1(x) + f0(x)2

, x ∈ X .

Die bedingte Dichte von Θ bei gegebenem X = x ist dann gegeben durch

λ(ϑ|x) = λ(ϑ)pϑ(x)q(x)

= fϑ(x)f0(x) + f1(x)

, ϑ ∈ 0, 1 , x ∈ X .

λ(ϑ|x) ist die Wahrscheinlichkeitsfunktion einer Bernoulli-Verteilung mit Erfolgs-wahrscheinlichkeit p = p(x) = f1(x)

f0(x)+f1(x) , x ∈ X . Der Bayes-Schätzer von ϑ unterquadratischer Verlustfunktion ist dann der Erwartungswert dieser bedingten Vertei-lung:

E(Θ|X) =1∑

ϑ=0ϑ

fϑ(X)f0(X) + f1(X)

= f1(X)f0(X) + f1(X)

.

Zu (ii):Theorem (2.1) zufolge sollte der Bayes-Scätzer das a-posteriori-Risiko minimieren.Die a-posteriori-Verteilung kann (i) entnommen werden.

E(1Θ =d|X) = ∑1ϑ=0 1ϑ=d

fϑ(X)f0(X)+f1(X)

= 1d =0f0(X)

f0(X) + f1(X)︸ ︷︷ ︸=(1−p(X))

+1d =1f1(X)

f0(X) + f1(X)︸ ︷︷ ︸=p(X)

(**) = 1d=1(1 − p(X)) + 1d=0p(X)

Mann muss nun eine Fallunterscheidung zur Minimierung des a-posteriori-Erwartungswertsvon L in d betrachten:1. falls p(X) > 1

2 ⇔ f1(X) > f0(X) ist (**) minimal für d = 12. falls p(X) < 1

2 ⇔ f1(X) < f0(X) ist (**) minimal für d = 03. falls p(X) = 1

2 ist (**) für d = 0 oder d = 1 minimal

Durch den 3. Fall, p(X) = 12 , folgt die die Nicht-Eindeutigkeit des Bayes-Schätzers.

Die beiden resultierenden Bayes-Schätzer sind

δ1(X) =

1 , fallsp(X) ≥ 12

0 , sonst

16

Page 18: Seminar Stochastik _ Bayes-Statistik (Sommer)

und 1 , fallsp(X) > 12

0 , sonst.

Beispiel 3.9 Θ sei Standard-Exponentialverteilt, d.h. mit Dichte λ(ϑ) = exp(−ϑ),ϑ > 0, und für gegebenes Θ = ϑ, seien X1, . . . , Xn

i.i.d.∼ exp(ϑ), d.h. mit Dichte

pϑ(x) =

ϑ exp(−ϑx) , x ≥ 00 , sonst

.

Die Verlustfunktion sei durch L(ϑ, d) = (d − ϑ)2/d definiert. Nach Theorem(2.1) istder Bayes-Schätzer δ(x) das d, welches den a-posteriori-Erwartungswert minimiert:

E

[(d − Θ)2

d

∣∣∣∣∣X = x

]= d − 2E[Θ|X = x] + E[Θ2|X = x]

d.

Setze die Ableitung dieses Ausdrucks gleich Null und erhalte δ(x) =√

E[Θ2|X = x].Es sei T (X) := X1 + · · · + Xn, X = (X1, . . . , Xn). Wegen λ(ϑ|x) ∝ϑ pϑ(x)λ(ϑ) ∝ϑ

ϑn exp(−[1 + T (x)]ϑ) ist

E[Θ2|X = x] (3)=

∞∫0

ϑn+2 exp(−(1+T (x))ϑ)dϑ

∞∫0

ϑn exp(−(1 + T )ϑ)dϑ

︸ ︷︷ ︸A:=

P.I.= 1A

[ϑn+2 ·

(− 1

1 + T (x)

)exp(−(1 + T (x))ϑ)

]ϑ=infty

ϑ=0︸ ︷︷ ︸=0

−∞∫0

(n + 2)ϑn+1(− 1

1+T (x)

)exp(−(1 + T (x))ϑ)dϑ

)

= 1A

(n+2

T (x)+1

∞∫0

ϑn+1 exp(−(1 + T (x))ϑ)dϑ

)

P.I.= n+2A(T (x)+1)

[ϑn+1 ·

(− 1

1 + T (x)

)exp(−(1 + T (x))ϑ)

]ϑ=infty

ϑ=0︸ ︷︷ ︸=0

−∞∫0

(n + 1)ϑn(− 1

1+T (x)

)exp(−(1 + T (x))ϑ)dϑ

)= (n+2)(n+1)

(T (x)+1)2·A · A

= (n+1)(n+2)(1+T )2 .

Also ist der Bayes-Schätzer:

δΛ(X) =√

n2 + 3n + 21 + T (X)

.

17

Page 19: Seminar Stochastik _ Bayes-Statistik (Sommer)

4 Das IMDb-Top250-BewertungssystemDie IMDb (Internet-Movie-Database) bestimmt ihre TOP250 mit einem Bewer-tungssystem, dessen Formel sie als ”echte Bayes’sche Schätzung” bezeichnen:

(9) Gewichtete Wertung(WR) = C · m + R · v

m + v

wobei C die Durchschnittsbewertung aller Filme ist (derzeit 7,1), v die Anzahl ab-gegebener Stimmen für den Film, R der Durchschnitt der Bewertung für den Filmund m das erforderliche Minimum an Stimmen, um in den 250 besten Filmen auf-gelistet zu sein (derzeit 25000).2 Man bewertet einen Film mit einer Note von 1 bis10, wobei 1 einer niedrigen und 10 einer hohen Bewertung entspricht.Schreibt man die gewichtete Wertung (9) ein wenig um, versteht man auch die Plau-sibilität des Schätzers:

WR = m

m + vC + v

m + vR

Auf die Gewichtete Wertung(WR) des Films gehen, unabhängig von der Anzahl derfür den Film abgegebenen Bewertungen v, immer zusätzliche m Stimmen mit derDurchschnittsbewertung aller Filme C ein. Je größer die Anzahl der Bewertungenfür einen Film v ∈ N ist, desto schwächer ist der Einfluss des Durchschnittswertsaller Filme C auf die gewichtete Wertung des Films. Dieses System ist hilfreich,um hohen Bewertungen von neuen Filmen entgegen zu wirken, die nur eine geringeAnzahl an Bewertungen haben.Doch wie kommt IMDb nun darauf, dass gerade dieser Schätzer ein Bayes-Schätzerist? Eine Theorie ist die folgende:3Nehme an, dass die abgegebenen Bewertungen für einen Film Xi, i = 1, . . . , n, i.i.d.normalverteilt mit unbekanntem Erwartungswert ϑ und Varianz 1 seien. Die a-priori-Verteilung sei normalverteilt mit bekanntem Erwartungswert µ0 und bekannter Ge-nauigkeit τ0, wobei die Genauigkeit definiert ist durch den Kehrwert der Varianz.Die a-posteriori-Verteilung einer N(ϑ, τ)-Verteilung, wobei die a-priori-VerteilungN(µ0, τ0)-verteilt ist, ist wiederum eine Normalverteilung4 mit Erwartungswert (al-so Bayes-Schätzer für ϑ unter Gauss’scher Verlustfunktion mit g(ϑ) = ϑ):

τ0µ0 + τ∑n

i=1 Xi

τ0 + nτ

Mit τ = 1, wie oben beschrieben, ergibt sich dann:

τ0µ0 +∑ni=1 Xi

τ0 + n

Ein direkter Vergleich mit der Formel (9) von IMDb lässt auf folgende Identitätenschließen:

v ≡ n

2 http://www.imdb.de/chart/top3 http://masanjin.net/blog/bayesian-average4 http://en.wikipedia.org/wiki/Conjugate_prior

18

Page 20: Seminar Stochastik _ Bayes-Statistik (Sommer)

Ist klar, denn die Anzahl der Bewertungen für den Film oben war so definiert.

C ≡ µ0

µ0 kann man hier als Expertenwissen interpretieren. Die Durchschnittsbewertungaller Filme C ist IMDb bekannt, also gehen sie davon aus, dass der Film ebenso eineBewertung um C annehmen wird.

m ≡ τ0

m wurde hier von IMDB ebenfalls als Expertenwissen eingebracht. 1/m beschreibt indiesem Modell dann die Varianz der a-priori-Verteilung. Je größer m gewählt wird,desto mehr konzentriert sich die Wahrscheinlichkeit der a-priori-Verteilung um dieDurchschnittsbewertung aller Filme C ( = µ0).

R · v = 1v

(v∑

i=1Xi

)· v =

v∑i=1

Xi

R · v beschreibt die kumulierten Bewertungen für den Film.

Die Annahme der Normalverteilung einer Stimme kann sich allerdings als proble-matisch erweisen, da zum Träger der Normalverteilung alle Werte unter 1 und über10 gehören.Das Argument des zu großen Trägers lässt sich leicht durch Betrachtung der Vertei-lungsfunktion von (WR) entkräften.Da X1, . . . , Xvn

i.i.d.∼ N (ϑ, 1) folgt, dass Y := 1n

∑ni=1 ∼ N (ϑ, 1/n). Die Randvertei-

lung von Y ist dann proportional zu

19

Page 21: Seminar Stochastik _ Bayes-Statistik (Sommer)

p(y) ∝y

∞∫−∞

exp(−n(y−ϑ)2

2

)exp

(− (ϑ−µ0)

2σ20

)dϑ

∝y

∞∫−∞

exp(−ny2

2 + nyϑ − nϑ2

2 − ϑ2σ2

0+ µ0ϑ

σ20

− µ20

2σ20

)dϑ

∝y exp(−ny2

2

∞∫−∞

exp

−12

(

n + 1σ2

0

)︸ ︷︷ ︸

S:=

ϑ2 − 2(

ny + µ0

σ20

)︸ ︷︷ ︸

T :=

ϑ

∝y exp(−ny2

2

)· exp

(12

(T ·S−1)2

S−1

∞∫−∞

exp(−1

2

(ϑ2−2T S−1+(T S−1)2

S−1

))dϑ

∝y exp(−ny2

2

)· exp

(12 · T 2

S

∞∫−∞

exp

−12

(ϑ − TS−1)2(√S−1

)2

︸ ︷︷ ︸=1, da proportial in ϑ zu N (T S−1,S−1)-Dichte

∝y exp

−ny2

2 + 12 ·

(ny+ µ0

σ20

)2

S

∝y exp

(−ny2

2 + 12 · n2y2

S+ nµ0

σ20S

y + 12

(µ0σ2

0

)2· S−1

)

∝y exp

−12

n − n2

S︸ ︷︷ ︸U :=

y2 − 2 nµ0σ2

0Sy

∝y exp

−12

y2−2 nµ0σ2

0SU−1y+

(nµ0σ2

0SU−1

)2

U−1

∝y exp

−12

(y2− nµ0

σ20S

U−1)2

(√U−1)2

Diese Dichte ist proportional zu einer Normalverteilung mit Erwartungswert

µ⋆ := nµ0σ2

0SU−1 = nµ0

σ20n+1

(n − n2

n+ 1σ2

0

)−1

= nµ0σ2

0n+1

(n(σ2

0n+1)−n2σ20

σ20n+1

)−1= nµ0

σ20n+1 · sigma2

0n+1n

= µ0

und Varianz

σ2⋆ := U−1 =

(n − n2

S

)−1=(

n − n2

n+ 1σ2

0

)−1

= σ20n+1

n= σ2

0 + 1n

.

Berechne durch Standardisierung von Y die Verteilungsfunktion von

δ(Y ) = m

m + v· C + v

m + v· Y .

20

Page 22: Seminar Stochastik _ Bayes-Statistik (Sommer)

F δ(Y )(a) = P (δ(Y ) ≤ a)= P

(m

m+v· C + v

m+v· Y ≤ a

)= P

(v

m+v· Y ≤ a − m

m+v· C)

= P(Y ≤ (m+v)a−mC

v

)

= P

X−C√

1m

+ 1v

≤(m+v)a−mC

v− C√

1m

+ 1v︸ ︷︷ ︸

Aa:=

= Φ(Aa),

dabei ist

Aa = (m+v)(a−C)√

mv

v√

m+v

=√

m(a−C)√

m+v√v

=√

m(a − C)√

mv

+ 1.

Falls a > C ist Aa streng monoton fallend in v, für v ∈ N, d.h. maximal in v = 1und minimal für v → ∞. Falls a < C ist Aa streng monoton steigend in v, für v ∈ N,d.h. minimal in v = 1 und maximal für v → ∞.

Betrachte Φ(A10) minimal und Φ(A1) maximal in v ∈ N, d.h. v → ∞

Φ(A10) = Φ(√

25000(10 − 7, 1)) ≈ Φ(458, 53) ≈ 1

Φ(A1) = Φ(√

25000(1 − 7, 1)) ≈ Φ(−964, 49) ≈ 0 .

Damit kann man die Wahrscheinlichkeit dafür berechnen, dass die Bayes-Schätzungsich im gewünschten Bewertungsbereich bewegt

P (1 ≤ δ(Y ) ≤ 10) stetig= P (δ(Y ) ≤ 10) − P (δ(Y ) ≤ 1) = Φ(A10) − Φ(A1) ≈ 1

Da der Träger des Modells ganz R ist, ist es möglich, dass Werte unter 1 und über 10angenommen werden, aber wie gerade gezeigt ist dies ein höchst unwahrscheinlichesEreignis. Probleme könnten weiterhin auftreten, da die Durchschnittsbewertung nurmit einer Nachkommastelle ausgegeben wird. Die Rechnung auf Rundungsfehler zuuntersuchen ist wohl eher eine Aufgabenstellung der Numerik.

5 Zusammenfassung und AusblickNach einer Einführung in das Grundmodell der Bayes-Statistik ist nun verständlichgeworden, wie man einfache Bayes-Schätzer unter verschiedenen Verlustfunktionenbestimmt. Zur Motivation wurde das IMDb-Bayes-Modell aufgeführt.Durch eine Modifizierung des Bayes-Modells erhält man einen weiteren interessan-ten Schätzer. Ist ein Parameter der a-priori-Verteilung zusätzlich unbekannt, dann

21

Page 23: Seminar Stochastik _ Bayes-Statistik (Sommer)

muss man diesen ebenso schätzen. Üblicherweise benutzt man dafür den Maximum-Likelihood-Schätzer der a-priori-Verteilung. Man substituiert nun den unbekanntenParameter durch den Maximum-Likelihood-Schätzer und fährt wie gewohnt mit derBestimmung des Bayes-Schätzers fort. Für diese Methode benötigt man also min-destens zwei Stichprobenentnahmen. Der resultierende Schätzer wird empirischerBayes-Schätzer genannt. Eine intensivere Behandlung von Bayes-Schätzern findetman in Lehmann und Casella (1998).

22

Page 24: Seminar Stochastik _ Bayes-Statistik (Sommer)

Literatur[1] Keener, R.W. (2010), Theoretical Statistics - Topics for a Core Course, Sprin-

ger, New York.

[2] Lehmann, E.L., und Casella, G. (1998), Theory of Point-Estimation, 2nd Ed.,Springer, New York.

[3] Rao, C.R. (1973), Lineare statistische Methoden und ihre Anwendungen,Akademie-Verlag, Berlin.

[4] Schervish, M.J. (1995), Theory of Statistics, Springer, New York.

23