Die klassische Bayessche Methode - Springer978-3-662-25934-4/1.pdf · Die klassische Bayessche...

16
Anhang Die klassische Bayessche Methode 1. Einführung. Wir haben in den vorhergehenden Kapiteln, ins- besondere im 111.-V. Kapitel stets die Anschauung vertreten, daß die Stichprobenvariablen nach einer Verteilung verteilt sind, die von einem unbekannten Parameter abhängt. Der Parameter ist in dieser Auf- fassung eine unbekannte Größe, aber natürlich keine zufällige Variable. Wenn wir z. B. die Konstruktion eines Konfidenzintervalles für einen eindimensionalen Parameter ins Auge fassen, dann sind die Endpunkte des Konfidenzintervalles zufällige Variable. aber nicht der unbekannte Parameter, der mit vorgegebener Konfidenzwahrscheinlichkeit über- deckt wird. Dieser Auffassung steht ein anderer Vorgang gegenüber, der historisch der frühere ist und oft als Bayessche Schlußregel 1 be- zeichnet wird. Hier wird der Parameter der Verteilung der Stichproben- variablen nicht mehr als unbekannte Größe, sondern als zufällige Variable betrachtet, deren Randverteilung gegeben ist. Sie wird in diesem Zusammenhang oft als a priari Verteilung bezeichnet. Wir werden hier diese Sprechweise ebenfalls manchmal gebrauchen. Überdies wird angenommen, daß die bedingte Verteilung von n Stichproben- variablen für jede Hypothese über den Parameter bekannt ist. Daraus bestimmt man auf Grund einer Stichprobenrealisation die bedingte Verteilung des Parameters und bezeichnet diese auch oft als a posteriori- V erteilung. Wir beschreiben als Beispiel zwei wichtige Fälle genauer: Es seien !I• ... , ! 11 , t n + 1 zufällige Variable irgendwelcher Dimen- sion. Wir sehen sie als stetig verteilt an. Die zufällige Variable t fassen wir als "Parameter" auf. Die Randverteilungsdichte von t bezeichnen wir mit <p(t). Die Dichte vori (! 1 , ... , !n) unter der Hypothese { t = t} bezeichnen wir mit /(!I• ... , !n I t). Dann ist g(t I ! 1 , ... , ! 11 ), die Dichte von t unter der Hypothese {! 1 = ... , !n = !,.} nach I. (53) durch g(t •. .. ., l,.) = (I) f <p(t) /(!;., ... , !'n I t) d t gegeben. -oo 1 Tll. Bayes in R. Price, Phi!. Trans. Roy. Soc. 5:-l (1763), 370.

Transcript of Die klassische Bayessche Methode - Springer978-3-662-25934-4/1.pdf · Die klassische Bayessche...

Anhang

Die klassische Bayessche Methode

1. Einführung. Wir haben in den vorhergehenden Kapiteln, ins­besondere im 111.-V. Kapitel stets die Anschauung vertreten, daß die Stichprobenvariablen nach einer Verteilung verteilt sind, die von einem unbekannten Parameter abhängt. Der Parameter ist in dieser Auf­fassung eine unbekannte Größe, aber natürlich keine zufällige Variable. Wenn wir z. B. die Konstruktion eines Konfidenzintervalles für einen eindimensionalen Parameter ins Auge fassen, dann sind die Endpunkte des Konfidenzintervalles zufällige Variable. aber nicht der unbekannte Parameter, der mit vorgegebener Konfidenzwahrscheinlichkeit über­deckt wird. Dieser Auffassung steht ein anderer Vorgang gegenüber, der historisch der frühere ist und oft als Bayessche Schlußregel1 be­zeichnet wird. Hier wird der Parameter der Verteilung der Stichproben­variablen nicht mehr als unbekannte Größe, sondern als zufällige Variable betrachtet, deren Randverteilung gegeben ist. Sie wird in diesem Zusammenhang oft als a priari Verteilung bezeichnet. Wir werden hier diese Sprechweise ebenfalls manchmal gebrauchen. Überdies wird angenommen, daß die bedingte Verteilung von n Stichproben­variablen für jede Hypothese über den Parameter bekannt ist. Daraus bestimmt man auf Grund einer Stichprobenrealisation die bedingte Verteilung des Parameters und bezeichnet diese auch oft als a posteriori­V erteilung. Wir beschreiben als Beispiel zwei wichtige Fälle genauer :

Es seien !I• ... , ! 11, t n + 1 zufällige Variable irgendwelcher Dimen­sion. Wir sehen sie als stetig verteilt an. Die zufällige Variable t fassen wir als "Parameter" auf. Die Randverteilungsdichte von t bezeichnen wir mit <p(t). Die Dichte vori (!1, ... , !n) unter der Hypothese { t = t} bezeichnen wir mit /(!I• ... , !n I t). Dann ist g(t I ! 1, ... , ! 11 ), die Dichte von t unter der Hypothese {!1 = ~u ... , !n = !,.} nach I. (53) durch

g(t 1~: •. .. . , l,.) = +-;;!_~~lj_(_~·:_ : _:_~:-~_i_~- - (I)

f <p(t) /(!;., ... , !'n I t) d t gegeben. -oo

1 Tll. Bayes in R. Price, Phi!. Trans. Roy. Soc. 5:-l (1763), 370.

Die klassische Bayessche Methode 391

Ein anderer wichtiger Fall ist der, daß die zufälligen Variablen (!1, ... , !n) diskret und t stetig verteilt sind. Wir bezeichnen die Dichte von t wieder mit qJ(t). Die diskreten Massenpunkte der zufälligen Va­riablen (~1, ... , !n) bezeichnen wir mit (~~·>, ... , ~~n>) wobei die ii endlich oder unendlich viele Indizes durchlaufen. Es möge nun für die bedingte Verteilung von (!1, ..• , !n) unter der Hypothese { t = t} gelten W({!1=!11J, ... , !n=~~n>} I t) = Pi, ... i,. (t). Dann hat. man für

die bedingte Dichte von t q>(t) P;, . .. in (t)

g( t I f~, = ~li,), · • •' !n = ~~")}) = _+_oo ____ __.::__ __ (2)

f q>(t) P;, .. . in(t) d t -oo

In der klassischen Terminologie können wir sagen, daß (l) oder (2) die a posteriori-Verteilung des "Parameters" t darstellen, wenn eine Stich­probe bekannt ist. Die Kenntnis der a posteriori-Verteilung gestattet es, zu vorgegebenem Sicherheitsgrad a SicherheitsintervaUe für die zufällige Variable t zu konstruieren. Wir legen etwadieDichte (l) zu Grundeund nehmen an, daß der "Parameter" t eine eindimensionale zufällige Varia­hle ist. a(~1 , .•. , ~n)=a und b(~1 , ... , ~,.)=b mögen so gewählt werden, daß

p:ilt. Dann ist also

b(!, .. ·ln> f g(t I ~1 , ••• ~n) dt = a

a(r, .. ·ln>

W({a:::; t::; b}) = a (3)

und das Intervall [ a(~1 , ••• , !n), b(~1 , •.. , ~n)] bezeichnen wir als Sicherheitsintervall für t. Die Grenzen hängen von der jeweiligen Stichprobenrealisation ab. a und b werden in (3) nicht als zufällige Variable aufgefaßt. In gewissem Sinne ist also diese Auffassung der Theorie der Konfidenzintervalle gerade entgegengesetzt.

Praktisch ist die Hauptschwierigkeit die Wahl der a priori-Ver­teilung des "Parameters" t. Hingegen kann die Form der bedingten Verteilung von (!1, ... , !n) unter der Hypothese { t = t} praktisch meist als bekannt angesehen werden. Erinnern wir uns daran, daß die Kenntni:-: der Form der Verteilung der Stichprobenvariablen im Sinne der dortigen Auffassung auch in allen vorhergehenden Kapiteln- im VII. in verall­gemeinertem Sinne - den Untersuchm1gen zu Grunde lag.

Die Wahl der a priori-Verteilung war längere Zeit Gegenstand von Kontroversen. Insbesondere die sogenannte Gleichverteilungshypothese (s. u.) wurde vielfach angegriffen. Gerade dieser Umstand hat die Unter­suchungen von N eymg,n hervorgerufen, welche, wie wir in den früheren

:192 Die klassische Bayessche Methode

Kapiteln dargelegt haben, viele Probleme in theoretisch und praktisch befriedigender Weise erledigen.

2. Der Spezialfall der Bernoullischen Verteilung2• Ein besonders wichtiges Beispiel für die allgemeinen Darlegungen von 1. ist folgender Fall: x1, ... , Xn, p seien n+ 1 eindimensionale ~ufällige Variable. Die Dichte des "Parameters" p sei durch

{~<~ p>1 O<p<l p<O

(4)

gegeben. Die bedingte Verteilung der Stichprobenvariablen x1, ••• , X11

unter der Hypothese {p = p} sei diskret und durch eine Bernoulli-Ver­teilung gegeben, d. h. die x, seien unter der Hypothese {p = p} un­abhängig und alternativ verteilt, etwa

W( {x, = 0} I p = p) = p

W({x, = 1} I p = p) = 1-p i = 1, ... , n

Liegt nun eine Stichprobe vor, derart, daß für genau k zufällige Variable das Ereignis { x, = 0} und für die restlichen das Ereignis { x, = 1} realisiert ist, dann haben wir für die Dichte g(p I k) der bedingten Ver­teilung von p

{

~(~) pk(1-p)n-i: g(p I k) = _,1,--'-.:.:...:...-=--:-~-

J ~(:) p1:(1-p)n-k dp

p<O

0<p<1 (5)

p>l wegen (4).

Auf Grund der gegebenen Stichprobe läßt sich dann unter Benützung von (5) nach dem Muster von (3) ein Sicherheitsintervall von p zum Sicherheitsgrad a konstruieren, indem man a(k, a) und b(k, a) so be­stimmt, daß

und also auch

b(k,a) f g(p, k) dp = a

a(l·,a)

W({a(k, a) :::;; p s b(k, a)} I k) = a gilt.

Um der Schwierigkeit der Wahl von 91(p) auszuweichen, geht man vielfach von der Voraussetzung aus, daß die zufällige Variable p in (0,1) gleichverteilt ist.

Dann haben. wir also

1 Eine zusammenfassende Darstellung mit vielen Literaturhinweisen bei M. P. Geppert, Deutsche Mathematik 7 (1942), 1-22.

Die klassische Bayessche Methode

F(n+2) lc n-l: g(p I k) = F(k+l) F(n-k+l) P (l-p) ' 0 < P < 1 (6)

d. h. die a priori-Verteilung von p ist eine B(k+1, n-k+1). Diese Ver­teilung ist vielfach untersucht worden. Die Annahme der Gleichver­teilung bringt also für die a posteriori-Verteilung von p besonders ein­fache Verhältnisse mit sich. Allerdings gestattet die Annahme der Gleichverteilung von p in keiner Weise eventuelle schon vor der Stich­probenentnahme gewonnene Kenntnisse über die "wahrscheinlichste Lage" von p zu verwerten. Nun gelangt man aber auch dann zu einer Beta-Verteilung für die a posteriori-Verteilung von p, wenn man statt einer Gleichverteilung von der Annahme ausgeht3, daß die a priori­Verteilung von p selbst eine Beta-Verteilung ist. Es sei nämlich in (4)

F(a+{J) a-1 rJ-1 ß <p(p) = F(a) F({J) P (1-p) , 0 < p < 1, a > 0, > 0.

Dann erhält man statt (6)

( I k) _ F(a+{J+n) a+l:-l(l- )tHn-k-1 g P - F(a+k) F({J+n-k) P P

d. h. eine B(a+k, n-k+ß). Die oben gemachte Bemerkung kann man nun in folgendem Sinne deuten. Es sei bekannt, daß die a priori-Ver­teilung von p einen eindeutig bestimmten Modalwert p0 mit 0 < p0 < 1 besitze. Dann kann man durch passendeWahlvon a und ß stets erreichen, daß die B(a, ß) den Modalwert p0 besitzt. Für beliebige a, ß > 1 besitzt die B(a, ß) genau einen Modalwert, der durch

a- 1 a + ß- 2 =Po

gegeben ist, wie man durch Differentiation der Dichte der B( a, ß) sofort erkennt.

Man wird vielleicht in Analogie zu I., Satz 30 vermuten, daß für n ---+ oo die Dichte (5) von der Randverteilungsdichte cp (p) nicht mehr abhängt. Tatsächlich hat 1'. Mises im Falle der Stetigkeit von cp (p) einen diesbezüglichen Satz bewiesen4•

Genauer gilt der Satz, daß die durch (5) gegebene a posteriori-Ver­uv

teilung von p gegen eine N(u, -) strebt, wobei u = kfn und t' = 1 - u n

ist und k und n so gegen oo gehen, daß u in 0 < u < 1, fest bleibt. und cp(p) eine in 0 < p < 1 durchwegs stetige Funktion ist. Die Ge­schwindigkeit der Annäherung an die Normalverteilung hängt von

s Vgl. L. Schmetterer, Stat. Vierteljahresschrift 5 (1952), 174-178. • R. v. Mises, I. c. I., Fußnote 7 (c).

394 Die klassische Bayessche Methode

g;(p) ab, was die praktische Verwendbarkeit dieses Satzes für Stich­proben von großem Umfang beeinträchtigt. Wir geben keinen Beweis, hehandeln jedoch einen Sonderfall, indem wir von (6) ausgehen. Wir beweisen den

Satz 1:6 Es sei 0 < p1 < 1 und n-k = l. Dann gilt:

F(n+2) p, 1: I 1 "' -1'/2 D -'1 Q' -'1 l(p.l=r(k+ 1)F(l+1)fp(1-p)dp=_,-fe dt-_,-e 1 +c(n)n 1

o v2n:Q v2n (7)

Hiebei ist

Q = (k-p1 n) V :Z und

1 13 n l-k (l-k)2

D = 3(12 n - 12 kl ) (Qa + 3 Q) + 3 v kln (Q' + 2) - 18 kln Q•

Wenn es eine positive Konstante A. < 1 gibt, so daß fiir n --+ oo stets Ä < kil < 1/Ä (8)

uilt, dann bleibt c(n) für n --+ oo beschränkt. k

Beweis: Setzt man B = pl:(l-p)1 und p = --x, dann wird n

k l kl:zl nx ( nx) log B = klog(--x) +llog(-+x) = log-+k log(1--k )+llog 1+-z .

n n nn

Entwickelt man nach der Taylorschen Formel bis zum Restglied 6. Ord­nung, dann ergibt sich

kkzl x2 n8 x• na x• n4 x5 n• log B = log -n - 2 kl + 3 k2P (k2-lt)- 4 kaza (ks+P) + 5 k• z• (k•-l•) -

n x•n• k l

- -6- ( (k-t?xn)• + (l+t'Jxn)•)

mit 1 ff 1 < 1. Setzt man dies ein, führt gleichzeitig in das Integral die neue Inte­

grationsveränderliche

xn VB =t

ein und entwickelt ( n+ 1)!, l! und k! nach der Stirlingschen Formel6,

dann erhält man R k-l k1-lk+l1 k'-k'l+kl'-1' t'(kl)' k I

J(p1 ) = P f e -Y,t'+ aVklnt'---wn-~'+ 5({·lnli.--''-6n.-((k-.9-xn)'+<t+~:m)•) dt (9) Q

5 B. L. van der Waerden, Ber. Akad. Leipzig, Math.-Phys. Klasse, 87 (1935), 353-364.

1 e, 6 Statt I. (188) muß man n! = nn e-n "/2 ;r n e 12n +n- mit beschränktem

el benützen.

Die klassische Bayessche Methode 395

mit 1 1 1 1 1 1

p = v2n (1 + n + 12 n- 12 k- 12l + 01 n•) 7 (10)

und

Q = (k-p1 n) v:z und R = k v~. Das Argument der Exponentialfunktion unter dem Integralzeichen nimmt bei wachsendem I t I stets ab, da der Integrand die Funktion

( 1 - -vtn VJ )k ( 1 + ;n V} r rlarstellt, welche ihr einziges Maximum an der Stelle t == 0 besitzt. Man beachte nun, daß R wegen (8) von der Größenordnungvfn, aber I Q I für n--+ oo höchstens von dieser Größenordnung ist, jedoch auch kleinere Werte > 0 annehmen kann. Nun ist selbstverständlich das Integral auf der rechten Seite von (9) im Nullpunkt konvergent. Durchläuft daher t das Intervall 0 < t < n13 (<5 > 0), dann kann man wegen der Monotonie des Integranden diesen bei hinreichend kleiner Wahl von <5 in der Gestalt - ~{.t'+~~~·-k'-lk+l't•+O,n-•j, _!_ k-l 1&-l k+l'

e - 3 V kln 4kln = e 2 ( 1 + 3 V kln t• - 4 kln t• + (k-Z)• -•J, + % 9kln te + Ca n )

darstellen. Im Intervall nlJ > t ist aber der Integrand auf der rechten Seite von (9) von der Größenordnung e- Yzn2ö, geht also rascher gegen 0 als jede Potenz von n, z. B. n-2• Somit wird

R ( u0 Il ) n° -~ ( k - l l2 - Tel + k2

J(pl) = p J = p J + J = p f e 2 1 + 3 vlkn - t•-~ln - t• + Q Q "ö Q

(Z-k) 2 '/ ) '/ + lf ---- ts + C n- • dt + C n-' 2 9 kln 3 • •

Dabei kann im letzten Integral die obere Grenze, wegen der Konvergenz des Integrals durch oo ersetzt werden. Der dabei gemachte Fehler ist höchstens von der Größenordnung e-c, n26•

Wir erhalten durch partielle Integration die Formeln -1'/2 -11/2 f e t• dt = - (fl + 2) e

f e -l'/2 t• dt = - (t3 + 3 t) e -l'/2 + 3 f e -l'/2 dt -t'/2 -1'/2 -t'/2 f e t• dt = - (t5 + 5 t3 + 15 t) e + 15 f e dt

7 Alle auftretenden Konstanten Ot> ... , 0 5 bleiben für n -+ oo beschränkt.

396 Die klassische Bayessche Methode

und es ergibt sich, wenn wir die Grenzen Q und oo einsetzen, P durch die rechte Seite von (10) ausdrücken und ausmultiplizieren

1 oo -t'/2 D -Q'/2 -'/, l(p1) = ...;- f e dt - ...;- e + c(n) n

2n Q 2n

mit den angegebenen Werten von Q und D. Für den hier betrachteten Bernoullischen Fall wurde in neuerer Zeit

eine Methode entwickelt, welche auch bei kleinem Stichprobenumfang die Gewinnung von Sicherheitsintervallen für einen vorgegebenen Sicher­heitsgrad, der nahe an 1 liegt, gestattet, die unabhängig von der Rand­verteilung des Parameters p sind8•

{}sei eine reelle Zahl mit 0 < {} < 1. /(p) sei eine feste in (0,1) definierte positive und integrierbare Funk­

tion. Wir betrachten die Gesamtheit aller Dichten (4) des Parameters p, welche die Bedingung erfüllen

p p f qJ(p) dp 5 J /(p) dp < 1 (11) 0 • 0

für alle 0 < p < {}, Wir behaupten dann die Existenz von Sicherheitsintervallen für p,

die nicht von cp(p) abhängen. Seiader vorgegebene Sicherheitsgrad und 1 - a 5 {}, (12)

Wir betrachten zunächst den Fall einer Stichprobe vom Umfang 1 und nehmen an, daß x1 eine alternativ verteilte Stichprobenvariable ist und folgende bedingte Verteilung besitzt:

W({X1 = 0} I p = p) = p, W({xl = 1} I P = p) = 1-p.

Wir nehmen an, daß { x1 = 0} realisiert sei und behaupten, daß un­abhängig von cp(p)

W({1-a ;5; p 51} I X1 = 0) :2: a

gilt. Für die bedingte Dichte von p haben wir

g(p I O) = 1 tp(p) P

ftp(p) pdp 0

Also ist die linke Seite von (13) durch 1 1-a f 9'(P) P dp J p q>(p) dp

1-a 0 ---=--1 '----- = 1 - --'-,:--1 --

f qJ(p) p dp J q>(p) p dp gegeben. 0 0

p

Nun ist einerseits mit J 97(x) dx = fP(p) 0

8 M. Frkhet, Ann. Soc. Pol. Math. 21 (1948), 20i -213.

(13)

(14)

Die klassische Bayessche Methode 397

1 1 1 1

J q>(p) pdp 2 J P q>(p) dp = P 4>(p) I~- f 4>(p) dp = 1- o 4>(0) - f 4>(p) dp ;:::: u 9 8 •

{f 2 -6-(1 - 4>(0))

und dies wegen (11) > if(1- J f(p) dp). 0

Anderseits ist 1-a 1-a 1-u f P q>(p) dp:::;; (1-a) f !p(p) dp :::;; (1-a) f f(p) dp 0 0 0

wegen (11) und (12). Wählt man jedoch a hinreichend nahe bei I , dann wird wegen der

1-a

Integrierbarkeit von f(p) J f(p) dp beliebig klein, also sicher 0

Somit wird

und nach (14)

1-« • J f(p) dp :::;; -&(1 - f f(p) dp). 0 0

1-a 1-a J p tp(p) dp J f(p) dp 0 0

--c1o----- :::;; l f (1 - a) :::;; 1 - a

J tp(p) p dp 0(1 - J f(p) dp) 0 0

1 J tp(p) p dp

1-a 1 J ptp(p) dp 0

- 2 a

unabhängig von q;(p) und das war zu beweisen. Nun läßt sich unmittelbar der Fall behandeln, daßnunabhängige alter­

nativ verteilte Stichprobenvariable der genannten Art vorliegen, so daß gilt

W( {nx = k} 1 p = p) = (~) p.t(I- p)"-k.

Führt man nun die zufällige Variable P = <Z> p.t(l-p)"-.t als Funktion

der zufälligen Variablen p ein, so ziehen wir wieder nur solche Dichten

von P in Betracht, welche eine zu (11) analoge Bedingung erfüllen. Be­

zeichnen wir die Dichte von P, soferne sie$ 0 ist mit 1p(p), dann fordern

wir für gegebene~ k(p) p p

1 > J k(p) dp 2:: f !p(p) dp, 0 < p < o, (15) 0 0

wobei k(p) denselben Bedingungen wie f(p) genügt. Dann erhält man

wieder für einen Sicherheitsgrad a hinreichend nahe an 1 W({1- a:::;; P:::;; 1} In i = k) 2:: a.

Wir interessieren uns noch dafür, was der Bedingung (15) für die Dichte

cp(p) von p entspricht.

398 Die klassische Bayessche Methode

Hiezu beachten wir, daß (~) 1l(1-pt-" genau ein Maximum an der

Stelle p = ! besitzt. Den Wert des Maximums bezeichnen wir mit

M~:. Es istalso W({P>M~:})=O, W({P<O})=O. Für O<x<M~:gilt:

W( {P > x}) = W( {p1(x) < p < p2(x)} ),

wobei die pk~;) (i = 1, 2) eindeutig festgelegt sind. Also hat man

W({l-a ::=:; P < 1}) = W({p1(l- a) ::=:; p .$ p 2(1- a)})

Die Bedingung (15) erhält die Gestalt p p

I k(y) dy ~ I tp(y) dy = W({O:; p ::=:; p,'(P)}) + W({p.'(P) :; p .$ 1}). 0 0

wobei p~{P) und p;{P) wiederum eindeutig bestimmt sind.

Daraus folgt aber mit P = (~;) pk(1- p)"-1: für p ::::;;; p~(P) bzw. p :2: p~(P)

p

Ik(y)dy ~ W({O ::; p .S p}) bzw. ~ W({p :=:;p ::=:; 1}). 0

Schreibt man nun p . p f k(y) dy = g(p) und f k(y) dy = 1-h(p), 0 0

k k dann gilt für p < - bzw. >-

n n g(p), h(p) ;::::: 0, lim g(p) = 0 und lim h (p) = 1

p+O P+l

und g(p) und h(p) sind monoton nicht abnehmend. Somit kann man aber sagen, daß (15) gilt, wenn für passendes '!?~ > 0

p p p .$ p 1'(#1' ), f tp(p) dp .$ g(p) und für p ~ p 2(#1' ), I ip(p)dp ~ h(p)

0 0

erfüllt ist, wobei g(p) und h(p) den angegebenen Bedingungen genügen. 3. Die Analoga zu den erschöpfenden Schätzfunktionen und dem

Maximum Likelihoodprinzip in der Bayesschen Auffassung. ! sei eine n­

dimensionale zufällige Variable und t der "Parameter" der Verteilung von~· Die Verteilungsdichte von{!, t) sei durch k(h(!), t) H("'§) gegeben, wobei H("'§) von t nicht abhängen soll (vgl. IV. S. 217). Dann ist die be­dingte Dichte von t unter der Hypothese{!=!} durch

I k(h(~). t) g(t ~) = -,+-.,.,~'-"'--·

f k(h(~). t) dt

(16)

-oo

gegeben, wie man sofort nachrechnet. (16) ist aber unabhängig von H("'§) und hängt nur mehr von den

Werten ab, die h(~) annimmt.

Die klassische Bayessche Methode 399

Dies ist z. B. in dem wichtigen Fall erfüllt, wenn die a prJOrt­Verteilung des Parameters, den wir jetzt mit a bezeichnen durch eine N(O,l} gegeben ist und n Stichprobenvariable vorliegen, die voneinander unabhängig sind und deren Verteilung unter der Hypothese { a=a} durch eine N(a, l} gegeben ist. Dann haben wir für die Dichte von (x1, ... , x ... , a)

n a' n 9 ( n+ 1 -) 1 - ~ (xi-a)'/~ -- 1 - 2 :r:/2 - - a•-anx --=-- e i=l e 2 = e i=l •· e 2 (v'2n)n+l (v'2n)n+l

Die Dichte von a unter der Hypothese { X1 = x1, ... , x,. = x ... } hängt nur von x ab. Sie ist, wie man sofort sieht, durch

v' n+T _ <n+t> (a- nx )' --=:- e 2 (n+l)

v'2n

gegeben. Die a posteriori-Verteilung hängt also nicht von den einzelnen Stichprobenwerten, sondern ausschließlich von deren Durchschnitt ab.

Wir legen nun die durch (1) gegebene a posteriori-Verteilung des Parameters zu Grunde, beschränken uns jedoch auf einen eindimen­sionalen Parameter t. Wir setzen überdies voraus, daß die a priori-Ver­teilungsdichte cp(t) und /('~1 , ... , ~n I t) als Funktion von t überall diffe­renzierbar sind, diese für alle ~1 , . .. , ~ ... Dann erhalten wir, falls Lö­sungen vorhanden Rind, durch

og(t I~ •..... ~nl ---0-t -- = 0 (17)

die Modalwerte der a posteriori-Dichte. Wir betrachten nun eine ein­deutig umkehrbare und differenzierbare Funktion T = h(t) und defi­nieren vermöge t1 =h(t) die zufällige Variable t1. Die Umkehrfunktion von h(t) bezeichnen wir mit '1/'(T) und erhalten für die Dichte von t1

9'(~1(T)) I d ;~T) I Schreiben wir nun cp(t) /(~1 , ... , ~ ... I t) = s(~<n>, t), dann erhalten w1r mit ~(n) = (!1, .. • , !.,) für die Dichte von (~<n>, t1):

I d 'lp(T) J

s(~(n), 'I{J(T)) (JT I und daher für die bedingte Dichte y( T ! !rn) = ~(n)) von t1 unter der Hypothese { tn> = {n>}.

s(~(n), tp(T)) I d d~T) I / :J: s({n>, tp(T)) I d ;~)I d T

Die Modalwerte von y( T I !(n) = tn>) werden dann gegebenenfalls durch die Lösung der Gleichung

400 Die klassische Ba.yessche Methode

0 I d !p{"t) I' a a(~(n), !p('t')) I d 'P(T) 12 d I d !p(T) I "iJ-:j; a(~(n>_ !p(T)) ---;r:r = 0 t ---;r:r +a({n>, !p(T)) d T """'ifr =0 (18)

gegeben. (18) zeigt, daß (17) im allgemeinen nicht invariant gegenüber einer

Transformation der zufälligen Variablen t ist. Nur dann, wenn h(t) linear ist, verschwindet

_!___I d 'P(T) I d't' d't'

und (18) und (17) sind dann wegen

I d:~·) I * 0

identisch. Kehren wir nun zur Auffassung des IV. Kapitels zurück und fassen wir s('rn>, t) als Dichte der zufälligen Variablen tn> mit dem Parameter t auf, der also jetzt keine zufällige Variable darstellt, so können wir die Maximum-Likelihoodgleichung

a log 8 <{n>, t) at =0 (19)

betrachten, wobei natürlich die entsprechenden Differenzierbarkeits­eigenschaften vorausgesetzt sind. Machen wir nun die umkehrbar ein­deutige und differenzierbare Parametertransformation t = tp(t'}, dann erhalten wir für die Maximum-Likelihoodgleichung

0 log 8(~(n), !p(T)) d !p(T) at -i-:r-= 0

Nun ist

~'P<:L * o d't'

und somit nachgewiesen, daß (19) gegenüber allen Parametertransforma­tionen der beschriebenen Art invariant ist. Dies demonstriert in gewissem Sinne wiederum die Überlegenheit der neueren Auffassung über die Bayessche Auffassung.

Schließlich machen wir darauf aufmerksam, daß es zuerst Wald gelungen ist, durch seine Theorie der Statistischen Entscheidungs­funktionen und der Risikofunktion eine fruchtbare Synthese zwischen diesen Auffassungen herbeizuführen, welche anscheinend dazu bestimmt ist, der mathematischen Statistik ein neues Gesicht zu geben. Ein Eingehen auf diese aktuellen und hochwichtigen Untersuchungen liegt außerhalb des Rahmens dieses Buches9•

9 Wir verweisen auf A. Wald, Statistica.l Decision Functions, John Wiley & Sons-Cha.pman & Hall, New York-London, 1950, und D. BlackweU und M. A. Girahick, Theory of Games and Sta.tistica.l Decisions im selben Verlag, 1954.

Namenverzeichnis

Aitken, A. C. 288 D'Alembert 10 Anderson, T. W. 301 Armitage, P. 159 Ba.hadur, R. R. 217 Barankin, E. W. 204, 239 Bartlett, S. 325 Bayes, Th. 12, 390 Bernoulli, D. 95, 109 Birnbaum, Z. W. 63 Blackwell, D 218, 400 Blanc-Lapierre, A. 9 Blum, J. R. 389 Boltzmann, L. 1 Borel, E. 10, 21 Bowker, A. H. 281 Cantelli, P. 6 Carleman, T. 115 Chanda., K. C. 223 Chapman, D. C. 211 Chernoff, H. 187 Chincin, A. 8, 224 Chung, K . L. 8 Cochran, W. G. 125, 280 Cramer, H. 8, 54, 55, 117, 205, 207,

223, 279 Czuber, F. 175 Da.ntzig, D. van 342, 268, 370 Dixon, W. J. 384 Dodge, H. F . 150 Donsker, M. D . 355 Elteren, Ph. van 366 Esseen, C. G. 78 Feiler, W. 6, 140, 272, 355, 360 FinkeHtein, B. W. 351 Fisher, R. A. 82, 84, 87, 134, 137,

222, 280, 312, 336, 341 Fisz, M. 112 Fortet, R. 9 Fraser, D. A. S. 211 Frechet, M. 6, 8, 396 Gauß, F. K. 222, 286 Geppert, M. P. 392 Gibbs, W. 1

;:<chmetterer, Mathematische Statl•tik

Girshick, M. A. 301, 400 Gnedenko, B. V. 8, 356 Gosset, W. S. 82 Gröbner, W. 338 Gurland, J. 239 Guttman, I. 211 Hajos, G. 349 Halmos, ·P. R: 14, 217, 344 Hamburger, H . L. 115 Hansen, M. H. 164 Helmert, F. R. 79, 81, 83, 134 Hemelrijk, J . 342, 343, 366, 377,

383,384 Hlawka, E. 78 Hoeffding, W. 377 Hoel, P. 274 Hofreiter, N. 338 Hornich, H. 63, 229 Hotelling, H. 309, 315 Hsu, P. L. 301 Hurwitz, W. N. 164 Huzurbazar, V. S. 232 ljzeren, J. van 285 Isaacson, St. L. 256 James, A. T. 341 James, G. S. 125 Kallianpur, G. 389 Kamke, E. 8 Kawata, T. 131 Kempthorne, 0. 289 Kendall, M. 117, 384 Kiefer, J . 211 Kolmogoroff, A. N. 6, 8, 9, 14, 67,

215, 218, 289, 355 Landau, E. 98 Laplace, P. S. 95, ll5 Lebesgue, H. 20, 21 Lehmann, E. L. 218, 281, 282, 370,

375, 384 Levy,P.8,54,55, 78 Linder, A. 117, 285 Ljapunoff, A. M. 51 Lösch-Schoblik 86 Loeve, M. 77

26

402 Namenverzeichnis

Mahalanobis, P. C. 312, 316 Mann, H. B. 367 Massey, F. J. 357 Maxwell, J. C. 1 Mejzler, D. G. 351 Meyer, A. 175 Midzuno, H. 164 Mises, R. von 5, 6, 8, 393 Monro, S. 385 Mood, A. M. 384 Munroe, M. E. 8 Nandi, H . K . 256 Neyman, J. 156, 169, 182, 185, 186,

187' 199, 240, 255, 256, 259, 272, 279, 391

Pearson, E. S. 169, 187, 199, 240, 255, 256, 259, 272

Pearson, K . 79, 81, 83, 89, 134, 279, 332

Petroff, W. W. 289 Price, R. 390 Radon, J . 22 Rao, C. R. 205, 212, 307, 312, 316 Renyi, A. 349, 350 Ricker, E. 176 Riemann, B. 21, 22 Robbins, H . 211, 385 Romanovsky, V. 332 Romig, H. G. 150

Ruist, E. 384 Sakamoto, H. 131 Savage, J. R. 217, 384 Scheffe, H. 187, 218 Schmetterer, L. 115, 386, 389, 393 Seth, G. R. 205 Shohat, J. A. 114 Smirnow, N. W. 351, 356 Snedecor 86 Steffensen, J. F. 6 Stein, C. 282, 384 Stieltjes, Th. J. 22, 69 Student 82 Tamarkin, J . D. 114 Terpstra, T. J. 367 Tocher, K. D. 187, 243 Uspensky, V. 8, 51 Waerden, B. L. van der 96, 366, 394 Wald, A. 6, 187, 223, 264, 280, 281,

283, 284, 363, 400 Whitney, D. R. 367 Wilcoxon, F . 366 Wilks, S. S. 117, 357 Winkler, W. 1, 120 Wintner, A. 55 Wishart, J. 301, 305 Wolfowitz, J. 6, 223, 281, 284, 363,

384,386 Zuckermann, H. S. 63

Sachverzeichnis

Additionsgesetz der Wahrscheinlich­keitsrechnung 11

Asymptotische Verteilung der Maxi­mum Likelihood Schätzfunktion 234

Bernoulliverteilung 92 Binomialverteilung 91 Bore1-meßbare Funktion 39, 171 Boreische Menge 18 Cauchysche Verteilung 84 Charakteristische Funktion 51 - -der Normalverteilung 72 - - einer Summe unabhängiger

zufälliger Variabler 61 Chiquadratverfahren von Pearson 379 Chiquadratverteilung 79 x2- Verteilung von Helmert-Pearson

81 -, nicht zentrale 249 Dichte bedingter Verteilung 31 Diskreter Typ 19, 26 Diskriminatorische Funktion 312 Distanz von Mahalanobis 312 Dupinsche Indikatrix 256 Elliptischer Punkt 256 Ereignisse, äquivalente 9 - , unabhängige 11 Erwartungswert 42, 43 -, bedingter 64 Erweiterungen der Testtheorie 281 Erzeugende Funktion 59 Eulerache Formel 52 Exzeß 49 -der Normalverteilung 72 Fehler erster Art 247 -zweiter Art 247 Fundamentallemma von Neyman

und Pearson 187 Funktional 344 Funktionen zufälliger Variabler 38 F-Verteilung 86 Gaußsehe Totalkrümmung 256 Geodätische Linie 317 Gleichverteilung 36

Gramsehe Determinante 215 Grundgesamtheit 118 -, endliche 142 Gütefunktion 243 Häufigkeit, absolute 3 -, relative 3 Hauptkrümmungsradius 256 Hotelling-Verteilung 311 Hyperfläche 26 Hypergeometrische Verteilung 143 Hypothese, einfache 241, 246 -,zulässige 241 -,zusammengesetzte 241, 256 Integralgleichung 215 Iteration 358 Kennfunktion 180 Kollektiv 6 Komplexwertige Funktion 51 Konfidenzbereich 177, 178 -, lokal-regulärer 181 -, lokal-trennscharfer 181 -, regulärer 180, 181 -, trennscharfer 180, 181 - vom Typ A 182 -vom Typ A1 185 Konfidenzintervalll69 - für die Binomialverteilung 175 Konfidenzkoeffizient 169 Konsistente Folge von Testen 281 Konsumentenrisiko 247 Konvergent, asymptotisch 202 -, stochastisch 202 Korrelationskoeffizient 4 7 -, multipler 320 -, partieller 322 Kovarianz 46 Kovarianzmatrix 104 Kumulanten 113 Laplacesche Definition der Wahr-

scheinlichkeit 115 Lebesgue-Stieltjes Integral 22 Likelihood-Funktion 222 Linearkombination normal verteilter

zufälliger Variabler 106

404 Sachverzeichnis

Linearoperation 215

Massenbelegung 29 Maximum Likelihood-Gleichung 223 Maximum Likelihood-Prinzip 221 Maximum Likelihood- Quotiententest

272 Mecime 351 Methode der kleinsten Quadrate 286 Mittelwert 45 -der Normalverteilung 71 MLQT 272 Modalwert 21 Moment 45 -, absolutes 50 Momentenproblem 114 Multinomialverteilung 108

Nabelpunkt 256 N ormalverteilung, eindimensiona.le

68 -, mehrdimensionale 102 N(a, a 2 ) 71 Nullhypothese 241

Parameter, einer Verteilungsfunktion 241

-, richtiger 167 Parameterfreie Methoden 342 Parameterfreier Konfidenz hereich - - für Regressionsflächen 343 - - für Verteilungen 342, 355 Poissonver~eilung 101, 112 Prinzip von d 'Alembert-Borel 10 Produzentenrisiko 247 Problem der zwei Stichproben 344,

357 Prüfen des Unterschiedes der Mittel­

werte zweier unabhängiger Nor­malverteilungen bei bekannter Streuung 133

- - - der Mittelwerte zweier unabhängiger Normalverteilungen bei unbekannter, aber gleicher Streuung 133

- - - der Streuungen zweier unabhängiger Normalverteilungen bei bekanntem Mittelwert 137

- - - der Streuungen zweier unabhängiger Normalverteilungen bei unbekanntem Mittelwert 138 Prüfung einer Hypothese über den Mittelwert einer Normalverteilung bei bekannter Streuung 120

- - - über den Mittelwert einer Normalverteilung bei unbekannter Streuung 125

- - - über die Streuung einer Normalverteilung bei bekanntem Mittelwert 136

- - - über den Mittelwert einer Normalverteilung bei unbekann­tem Mittelwert 136

Qualitätskontrolle 147, 215

Randverteilung 28 Ranginvarianter Test 366 Realisation einer zufälligen Variablen

119 Regellosi5keitsaxiom 6 Region, ähnliche 243 -, kritische 243 -, gleichmäßig be3sere kritische 243 -, kritische vom Typ B1 256 -, - vom Typ B 256 Regressionsfläche 64 Regressionskoeffizient 319 Regressionstheorie 258, 318 Reproduktionseigenschaft der x2-

Verteilung 82 -der Normalverteilung 75 -der Poissonverteilung 102 - der Wishartverteilung 305 Residualterm 289, 320 Riemann - Stieltjes Integral 22

Satz von Laplace 95 Schätzfunktion 200, 201 -, asymptotisch wirksame 238 -, erschöpfende 217 -, erwartungstraue 202, 203 -, geordnete 345 -,konsistente 201 -, mit lokaler Minimalstreuung 204 -, mit Minimalstreuung 204 -,wirksame 207, 211 Schiefe 48 ~der Normalverteilung 72 Semünvarianten 113 Seqentialtest 282 Sicherheitsgrad 391 Sicherheitsintervall 391 Sicherheitskoeffizient 357 ~icherheitsschranke 123 Sicherheitswahrscheinlichkeit 123,

242 Spannweite 348

Sachverzeichnis 405

Stetiger Typ 20, 26 Stichprobe 118 -, geschichtete 151 - , -für endliche Grundgesamthei-

ten 157 - , mehrstufige 160 -, - mit profOrtionaler Auswahl

164 - - , optimale 156 -,proportionale 154 Stichprobe, die einer nach F('l) ver­

teilten Grundgesamtheit entnom­men ist 119

Stichprobenfunktion 171, 200 Stichprobenkorrelationskoeffizient,

multipler 324 -, partieller 330, 335 Stichprobenregressionskoeffizient

324 Stichprobentheorie endlicher Grund­

gesamtheiten 140 - mehrdimensional normal verteilter

Grundgesamtheiten 300 Stirlingsche Formel 86 Streuung 45, 46 -der Normalverteilung 71 Student-Vert eilung 82 Summenfunktion 14 Summen zufälliger Variabler 57 Symmetrietest von Hemelrijk 377 Test, asymptotisch strenger 271 -, Definition 242 -, lokal-trennscharfer 246

-, strenger 264 -, trennscharfer 244 -, unverfälschter 24:5 - vom Typ A 246 - vom Typ A1 246 - vom Typ C 255 - vorn Typ D 256 - von Wilcoxon 366 - von Wald und Wolfowitz 367 Theorem von Bernoulli 94 Toleranzbereich 357 Toleranzgrenzen 357 Totaladditivität der Wahrscheinlich-

keit 11 Tschebyscheffsche Ungleichung 55 t-Verteilung 82 -, nicht zentrale 257 Ueberdeckungskoeffizient 357 Unabhängige zufällige Variable 27 U r nenschema 115, 117 Varianzanalyse 274 Verteilungsdichte 18, 19 Verteilungsfunktion 14, 23 Vf. 14 -bedingter Verteilung 31 Wahrscheinlichkeit, bedingte 11, 12 -, empirische 3 Wishart-Verteilung 301 Zeichentest 383 Zentraler Grenzwertsatz 77, 107 Zufällige Variable, eindimensionale

13, 14 -, -, mehrdimensionale 22