A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte...

58
A Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨ uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei an die Bed¨ urfnisse des Buches angelehnt und beschr¨ ankt sich auf die Darstellung der wesentlichen Definitionen und S¨ atze ohne jedoch genauer auf Beispiele und Beweise einzugehen. Eine detailliertere Behandlung, die auch Beispiele beinhaltet, ist ¨ uber die Internetseite des Buchs zu erreichen. Eine leicht lesbare Einf¨ uhrung mit sehr vielen Beispielen bietet die Einf¨ uhrung in die Moderne Matrix- Algebra“ von Schmidt & Trenkler (2006). A.1 Definition und elementare Operationen Definition A.1 Reelle Matrix Ein nach n Zeilen und p Spalten geordnetes Schema A von n · p Elementen a ij R A = a 11 a 12 ··· a 1p a 21 . . . . . . . . . . . . . . . a n1 a n2 ··· a np heißt reelle Matrix der Ordnung n × p, der Dimension n × p oder kurz n × p Matrix. Kurzschreibweise: A =(a ij ), i =1,...,n,j =1,...,p. Die Zeilen von A onnen als Vektoren des R p (sog. Zeilenvektoren) und die Spalten als Vektoren des R n (sog. Spaltenvektoren) angesehen werden. Definition A.2 Transponierte Matrix Sei A =(a ij ) eine n × p Matrix. Dann ist die transponierte Matrix A definiert als diejenige Matrix, die man durch das Vertauschen der Zeilen und Spalten von A erh¨ alt: A = a 11 a 21 ··· a n1 a 12 . . . . . . . . . . . . . . . a 1p a 2p ··· a np Die Matrix A ist von der Ordnung p × n. Definition A.3 Quadratische Matrix Eine Matrix A heißt quadratisch, falls sie von der Ordnung n × n ist. Die Diagonale, welche aus den Elementen a 11 ,...,a nn besteht, heißt Hauptdiagonale.

Transcript of A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte...

Page 1: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

A Matrix-Algebra

In diesem Anhang geben wir eine kompakte Einfuhrung in die Matrizenrechnung bzw.Matrix-Algebra. Die Darstellung ist dabei an die Bedurfnisse des Buches angelehnt undbeschrankt sich auf die Darstellung der wesentlichen Definitionen und Satze ohne jedochgenauer auf Beispiele und Beweise einzugehen. Eine detailliertere Behandlung, die auchBeispiele beinhaltet, ist uber die Internetseite des Buchs zu erreichen. Eine leicht lesbareEinfuhrung mit sehr vielen Beispielen bietet die ”Einfuhrung in die Moderne Matrix-Algebra“ von Schmidt & Trenkler (2006).

A.1 Definition und elementare Operationen

Definition A.1 Reelle Matrix

Ein nach n Zeilen und p Spalten geordnetes Schema A von n · p Elementen aij ∈ R

A =

⎛⎜⎜⎜⎜⎝a11 a12 · · · a1p

a21. . .

......

. . ....

an1 an2 · · · anp

⎞⎟⎟⎟⎟⎠heißt reelle Matrix der Ordnung n × p, der Dimension n × p oder kurz n × p Matrix.Kurzschreibweise: A = (aij), i = 1, . . . , n, j = 1, . . . , p.Die Zeilen von A konnen als Vektoren des Rp (sog. Zeilenvektoren) und die Spalten alsVektoren des Rn (sog. Spaltenvektoren) angesehen werden.

Definition A.2 Transponierte Matrix

Sei A = (aij) eine n × p Matrix. Dann ist die transponierte Matrix A′ definiert alsdiejenige Matrix, die man durch das Vertauschen der Zeilen und Spalten von A erhalt:

A′ =

⎛⎜⎜⎜⎜⎝a11 a21 · · · an1

a12. . .

......

. . ....

a1p a2p · · · anp

⎞⎟⎟⎟⎟⎠Die Matrix A′ ist von der Ordnung p× n.

Definition A.3 Quadratische Matrix

Eine Matrix A heißt quadratisch, falls sie von der Ordnung n × n ist. Die Diagonale,welche aus den Elementen a11, . . . , ann besteht, heißt Hauptdiagonale.

Page 2: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

446 Anhang A. Matrix-Algebra

Definition A.4 Diagonalmatrix

Eine quadratische Matrix D heißt Diagonalmatrix, wenn ihre Eintrage unter- und ober-halb der Hauptdiagonalen Null sind, d.h. D besitzt folgende Gestalt:

D =

⎛⎜⎜⎜⎜⎝d1 0 . . . 0...

. . ....

.... . .

...0 . . . . . . dn

⎞⎟⎟⎟⎟⎠Schreibweise: D = diag(d1, . . . , dn).

Definition A.5 Einheitsmatrix

Die Diagonalmatrix

In = diag(1, . . . , 1) =

⎛⎜⎜⎜⎜⎝1 0 . . . 0...

. . ....

.... . .

...0 . . . . . . 1

⎞⎟⎟⎟⎟⎠heißt Einheitsmatrix.

Definition A.6 Symmetrische Matrix

Eine quadratische Matrix A heißt symmetrisch, wenn A = A′ gilt.

Definition A.7 Summe und skalare Multiplikation von Matrizen

Die Summe A+B zweier n× p Matrizen A = (aij) und B = (bij) ist definiert als:

A+B = (aij + bij).

Die Multiplikation von A mit einem Skalar λ ∈ R ist definiert als

λA = (λaij).

Satz A.1 Rechenregeln

Fur beliebige n× p Matrizen A,B,C und beliebige Skalare r, k ∈ R gilt:

1. Assoziativgesetz fur die Addition: A+ (B +C) = (A+B) +C.

2. Kommutativgesetz: A+B = B +A.

3. Distributivgesetze fur die skalare Multiplikation: (k + r)A = kA + rA bzw. k(A +B) = kA+ kB.

4. Assoziativgesetz fur die skalare Multiplikation: (kr)A = k(rA).

5. (kA)′ = kA′.

6. (A+B)′ = A′ +B′.

Page 3: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

A.1. Definition und elementare Operationen 447

Definition A.8 Matrixmultiplikation

Das Produkt der n× p Matrix A = (aij) mit der p×m Matrix B = (bij) ist die n×mMatrix

AB = C = (cik) mit cik =p∑j=1

aijbjk.

Ausfuhrlich erhalten wir demnach

A ·B =

⎛⎜⎝∑j a1jbj1 · · ·

∑j a1jbjm

.... . .

...∑j anjbj1 · · ·

∑j anjbjm

⎞⎟⎠ .

Man beachte, dass zwei Matrizen A und B nur dann multiplizierbar sind, wenn dieAnzahl der Spalten von A gleich der Anzahl der Zeilen von B ist. Im Allgemeinen istdie Matrixmultiplikation daruberhinaus nicht kommutativ, d.h. es gilt B ·A �= A ·B.

Satz A.2 Darstellung von Summen als Matrixprodukte

Seien x,y ∈ Rn und 1 der n× 1 Vektor, dessen Eintrage samtlich aus Einsen bestehen.Dann gilt:

1.n∑i=1

xi = 1′x = x′1.

2.n∑i=1

xiyi = x′y = y′x.

3.n∑i=1

x2i = x′x.

Satz A.3 Rechenregeln fur die Matrixmultiplikation

Fur Matrizen A, B und C passender Ordnungen gilt:

1. A(B +C) = AB +AC.

2. (AB)C = A(BC).

3. (AB)′ = B′A′.

4. AIn = A bzw. InA = A.

Definition A.9 Kroneckerprodukt

Seien A und B Matrizen der Ordnungen n×p und r×q. Dann ist das Kroneckerproduktvon A und B definiert als diejenige Matrix C der Ordnung nr × pq mit

C = A⊗B =

⎛⎜⎝a11B a12B · · · a1pB...

......

an1B an2B · · · anpB

⎞⎟⎠ .

Page 4: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

448 Anhang A. Matrix-Algebra

Satz A.4 Rechenregeln fur das Kroneckerprodukt

Seien A, B, C und D Matrizen passender Ordnungen sowie k ein Skalar. Dann geltendie folgenden Rechenregeln:

1. k(A⊗B) = (kA)⊗B = A⊗ (kB).

2. A⊗ (B ⊗C) = (A⊗B)⊗C.

3. A⊗ (B +C) = (A⊗B) + (A⊗C).

4. (A⊗B)′ = A′ ⊗B′.5. (AB)⊗ (CD) = (A⊗C)(B ⊗D).

Definition A.10 Orthogonale Matrix

Eine quadratische Matrix A heißt orthogonal, wenn AA′ = A′A = I gilt.

Satz A.5 Eigenschaften orthogonaler Matrizen

Sei A eine orthogonale Matrix. Dann gilt:

1. Die Zeilenvektoren bzw. die Spaltenvektoren bilden ein Orthonormalsystem, d.h. dieVektoren besitzen Lange Eins und sind paarweise orthogonal.

2. AB ist orthogonal, wenn A und B orthogonal sind.

Definition A.11 Idempotente Matrix

Eine quadratische Matrix A heißt idempotent, wenn gilt: AA = A2 = A.Eine spezielle, in der Statistik wichtige idempotente Matrix ist die n× n Matrix

C := In − 1n

11′.

Es gelten die folgenden Aussagen:

1. Multiplikation von C mit einem beliebigen n× 1 Vektor a ergibt

Ca =

⎛⎜⎝ a1 − a...

an − a

⎞⎟⎠ ,

d.h. man erhalt den mittelwertszentrierten Vektor.

2. Multiplikation von C mit einer n×m Matrix A liefert

CA =

⎛⎜⎝ a11 − a1 · · · a1m − am...

...an1 − a1 · · · anm − am

⎞⎟⎠ ,

wobei a1, . . . , am die Mittelwerte der Spalten von A sind.

3. C1 = 0.

Page 5: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

A.2. Der Rang einer Matrix 449

4. 1′C = 0′.

5. 11′C = C11′ = 0.

6.n∑i=1

(xi − x)2 = x′Cx wobei x = (x1, . . . , xn)′.

Satz A.6 Eigenschaften idempotenter Matrizen

Fur idempotente Matrizen A und B gilt:

1. AB = BA, also AB idempotent.

2. I −A ist idempotent.

3. A(I −A) = (I −A)A = 0.

A.2 Der Rang einer Matrix

Definition A.12 Zeilenrang, Spaltenrang

Sei A eine n× p Matrix. Die Maximalzahl linear unabhangiger Spaltenvektoren des Rn

heißt Spaltenrang von A, geschrieben rgs(A). Entsprechend erhalt man den Zeilenrangrgz(A) von A als die Maximalzahl linear unabhangiger Zeilen von A.

Satz A.7 Spaltenrang = Zeilenrang

Spaltenrang und Zeilenrang einer n× p Matrix A sind gleich, d.h.

rgs(A) = rgz(A).

Definition A.13 Rang einer Matrix

Der Rang rg(A) einer n× p Matrix A ist definiert als

rg(A) := rgs(A) = rgz(A) ≤ min{n, p}

Gilt rg(A) = min{n, p}, so besitzt A vollen Rang und wird als regular bezeichnet. Furrg(A) = n (rg(A) = p) heißt A zeilenregular (spaltenregular).

Satz A.8 Allgemeine Rangbeziehungen

Fur Matrizen A, B und C passender Ordnungen gilt:

1. rg(A) = rg(−A).

2. rg(A′) = rg(A).

3. rg(A+B) ≤ rg(A) + rg(B).

4. rg(AB) ≤ min {rg(A), rg(B)}.5. rg(In) = n.

Page 6: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

450 Anhang A. Matrix-Algebra

Definition A.14 Nullraum

Der Nullraum N(A) einer n× p Matrix A ist definiert als die Menge

N(A) := {x ∈ Rp : Ax = 0}.

Definition A.15 Zeilenraum, Spaltenraum

Der Zeilenraum Z(A) einer n× p Matrix A ist der durch die Zeilen von A aufgespannteUnterraum des Rn:

Z(A) := {x ∈ Rn : x = Ay fur ein y ∈ Rp}.Analog lasst sich der Spaltenraum (als Teilraum des Rp) definieren.

Satz A.9 Eigenschaften des Nullraums

Sei A eine n× p Matrix. Dann gilt:

1. Der Nullraum ist ein Unterraum des Rp.

2. rg(A)+dim(N(A)) = p bzw. dim(N(A)) = p−rg(A). Die Dimension des NullraumsN(A) wird als Defekt von A bezeichnet.

3. Der Nullraum N(A) ist das orthogonale Komplement des Zeilenraums Z(A) von A.

4. N(A′A) = N(A).

Definition A.16 Inverse einer Matrix

Sei A eine quadratische Matrix. Eine Matrix A−1 heißt Inverse zur Matrix A, falls gilt:

AA−1 = A−1A = I

Satz A.10 Existenz und Eindeutigkeit der Inversen

Die Inverse einer quadratischen n × n Matrix A existiert genau dann, wenn rg(A) = ngilt, also wenn A regular ist. Die Inverse ist dann eindeutig bestimmt und die Matrix Aheißt invertierbar.

Satz A.11 Rechenregeln fur Inverse

Seien A, B und C invertierbare Matrizen gleicher Ordnung und k �= 0 ein Skalar. Danngilt

1. (A−1)−1 = A.

2. (kA)−1 = k−1A−1 =1kA−1.

3. (A′)−1 = (A−1)′.

4. (AB)−1 = B−1A−1.

5. (ABC)−1 = C−1B−1A−1.

Page 7: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

A.3. Determinante und Spur einer Matrix 451

6. A symmetrisch ⇒ A−1 symmetrisch.

7. Fur eine Diagonalmatrix A = diag(a1, . . . , an) gilt

A−1 = diag(a−11 , . . . , a−1

n ).

8. Falls A orthogonal ist, gilt A−1 = A′.

9. Sei A partitioniert in

A =(A11 A12

A21 A22

)und seien die Submatrizen A11 und A22 quadratisch und invertierbar. Dann gilt

A−1 =(

B−1 −B−1A12A−122

−A−122 A21B

−1 A−122 +A−1

22 A21B−1A12A

−122

)mit B = A11 −A12A

−122 A21,

und A−1 =(A−1

11 +A11A12C−1A21A

−111 −A−1

11 A12C−1

−C−1A21A−111 C−1

)mit C = A22 −A21A

−111 A12.

A.3 Determinante und Spur einer Matrix

Definition A.17 Determinante

Die Determinante einer quadratischen Matrix A der Ordnung n× n ist definiert als

|A| =n∑i=1

(−1)i+jaij |A−ij |,

wobei A−ij die n − 1 × n − 1 dimensionale Matrix bezeichnet, die durch Streichungder i-ten Zeile und der j-ten Spalte aus A entsteht. Fur skalare Matrizen A = (a11)der Ordnung 1 × 1 gilt |A| = a11. Fur eine 2 × 2 Matrix erhalt man |A| = a11a22 −a12a21. In diesem Fall lasst sich die Determinante auch geometrisch interpretieren. DieDeterminante von A entspricht dem Flacheninhalt des von den beiden Spaltenvektorengebildeten Parallelogramms. Fur 3× 3 Matrizen entspricht die Determinante von A demVolumen des von den drei Spaltenvektoren aufgespannten Korpers. Fur n > 3 ergebensich analoge Interpretationen.

Satz A.12 Determinante der Transponierten

Fur eine quadratische Matrix A gilt |A′| = |A|.

Satz A.13 Determinanten einiger bestimmter Matrizen

Sei A eine quadratische Matrix. Dann gilt:

Page 8: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

452 Anhang A. Matrix-Algebra

1. Wenn eine Zeile (Spalte) von A aus Nullen besteht, dann gilt |A| = 0.

2. Wenn A zwei identische Zeilen (Spalten) besitzt, dann gilt |A| = 0.

3. Die Determinante einer Matrix in Dreiecksform ist das Produkt der Diagonalelemen-te. Eine Matrix besitzt Dreiecksform, wenn alle Elemente ober bzw. unterhalb derHauptdiagonalen gleich Null sind.

4. |I| = 1

Satz A.14 Eigenschaften von Determinanten

Fur die Determinante einer n× n Matrix A gilt:

1. |kA| = kn|A|.2. |A| �= 0⇐⇒ rg(A) = n.

3. |AB| = |A| · |B|.4. |A−1| = 1

|A| .

5. A orthogonal ⇒ |A| = ±1.

Definition A.18 Spur einer Matrix

Sei A = (aij) eine quadratische n × n Matrix. Dann heißt die Summe der Diagonalele-mente Spur von A, in Zeichen

sp(A) =n∑i=1

aii.

Satz A.15 Eigenschaften der Spur

Fur die Spur der n× n Matrizen A und B gilt:

1. sp(A+B) = sp(A) + sp(B).

2. sp(A) = sp(A′).

3. sp(kA) = k · sp(A).

4. sp(AB) = sp(BA). Dies bleibt auch fur den Fall gultig, dass A eine n × p und Beine p× n Matrix ist.

5. Seien x,y ∈ Rn. Dann gilt sp(xy′) = sp(yx′) = sp(x′y) = x′y.

A.4 Verallgemeinerte Inverse

Definition A.19 Verallgemeinerte Inverse

Sei A eine beliebige n× p Matrix mit n ≤ p. Dann heißt die p× n Matrix A− verallge-meinerte Inverse oder g-Inverse (generalized Inverse) von A falls gilt

AA−A = A.

Page 9: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

A.5. Eigenwerte und Eigenvektoren 453

Satz A.16 Existenz der verallgemeinerten Inversen

Zu jeder Matrix A existiert eine verallgemeinerte Inverse, die aber im Allgemeinen nichteindeutig ist.

Satz A.17 Eigenschaften der verallgemeinerten Inversen

Sei A− eine verallgemeinerte Inverse der Matrix A. Dann gilt:

1. rg(A) = rg(AA−) = rg(A−A).

2. rg(A) ≤ rg(A−).

3. A regular⇒ A− = A−1. Insbesondere ist in diesem Fall die verallgemeinerte Inverseeindeutig.

4. A−A und AA− sind idempotent.

A.5 Eigenwerte und Eigenvektoren

Definition A.20 Eigenwert und Eigenvektor

Sei A eine quadratische n × n Matrix. Dann heißt (die im Allgemeinen komplexe Zahl)λ ∈ C Eigenwert von A, wenn ein (im Allgemeinen komplexer) Vektor x ∈ Cn mit x �= 0existiert, so dass gilt:

Ax = λx bzw. (A− λI)x = 0.

Der Vektor x heißt dann Eigenvektor zum Eigenwert λ.

Definition A.21 Charakteristisches Polynom

Sei A eine quadratische n× n Matrix. Dann heißt

q(λ) := |A− λI|charakteristisches Polynom von A.Aus der Definition der Determinante (siehe Definition A.17), ergibt sich, dass q(λ) tat-sachlich ein Polynom vom Grad n ist, so dass sich q(λ) aquivalent darstellen lasst als

q(λ) = (−λ)n + αm−1(−λ)m−1 + · · ·+ α1(−λ) + α0, (A.1)

wobei die Skalare α0, . . . , αm−1 zunachst unspezifiziert sind.Das Polynom q(λ) lasst sich stets auch in die Gestalt

q(λ) = |A− λI| =n∏i=1

(λi − λ) (A.2)

bringen, wobei λ1, . . . , λn die Nullstellen des Polynoms sind. Nach dem Fundamentalsatzder Algebra hat dieses Polynom genau n nicht notwendig verschiedene und auch nichtnotwendig reellwertige Nullstellen.

Page 10: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

454 Anhang A. Matrix-Algebra

Satz A.18 Berechnung der Eigenwerte uber das charakteristische Polynom

Die Eigenwerte einer quadratischen Matrix A sind die Nullstellen des charakteristischenPolynoms, also die Losungen von

|A− λI| = 0.

Satz A.19 Eigenschaften von Eigenwerten

Fur die Eigenwerte λi einer n× n Matrix gelten folgende Eigenschaften:

1. |A| =n∏i=1

λi.

2. sp(A) =n∑i=1

λi.

3. A ist genau dann regular, wenn alle Eigenwerte ungleich Null sind.

4. Die Matrizen A und A′ besitzen dasselbe charakteristische Polynom und damit die-selben Eigenwerte.

5. Ist λ ein Eigenwert einer regularen Matrix A, dann ist1λ

ein Eigenwert von A−1.

6. Die Eigenwerte einer Diagonalmatrix D sind gerade die Hauptdiagonalelemente.

7. Fur die Eigenwerte λi einer orthogonalen Matrix A gilt λi = ±1.

8. Die Eigenwerte einer idempotenten Matrix A sind 1 oder 0.

Definition A.22 Eigenraum

Sei A eine quadratische Matrix und λ ein Eigenwert von A. Die Menge

Aλ := {x ∈ Cn|x Eigenvektor zu λ} ∪ {0}

heißt Eigenraum zum Eigenwert λ.

Definition A.23 Ahnliche Matrizen

Zwei Matrizen A und B heißen ahnlich (in Zeichen A ∼ B), wenn eine regulare MatrixC existiert, so dass B = CAC−1 gilt.

Satz A.20 Eigenwerte ahnlicher Matrizen

Fur ahnliche Matrizen A und B gilt:

1. A und B haben dasselbe charakteristische Polynom und damit dieselben Eigenwerte.

2. Ist x Eigenvektor zum Eigenwert λ, so ist Cx Eigenvektor der Matrix B = CAC−1.

Satz A.21 Eigenwerte und Eigenvektoren symmetrischer Matrizen

Sei A eine symmetrische n× n Matrix. Dann gilt:

Page 11: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

A.6. Quadratische Formen 455

1. Alle Eigenwerte sind reell.

2. Die zu verschiedenen Eigenwerten gehorenden Eigenvektoren sind paarweise ortho-gonal.

Satz A.22 Spektralzerlegung

Sei A eine symmetrische n× n Matrix mit rg(A) = r. Dann existiert eine n× r MatrixP , so dass gilt:

P ′AP = diag(λ1, . . . , λr) bzw. A = Pdiag(λ1, . . . , λr)P ′.

Dabei sind die λi die von Null verschiedenen Eigenwerte von A (Insbesondere entsprichtder Rang vonA der Anzahl der von Null verschiedenen Eigenwerte). Die Spaltenvektorenvon P entsprechen den (paarweise orthonormalen) zugehorigen Eigenvektoren.

Satz A.23 Spektralzerlegung einer idempotenten Matrix

Sei A eine symmetrische und idempotente n × n Matrix mit rg(A) = r. Dann existierteine orthogonale Matrix A so dass gilt

P ′AP = Ir

Außerdem ergibt sichrg(A) = sp(A).

A.6 Quadratische Formen

Definition A.24 Quadratische Form

Sei A eine symmetrische n×n Matrix. Eine quadratische Form in einem Vektor x ∈ Rn

ist definiert durch:

Q(x) = x′Ax =n∑i=1

n∑j=1

aijxixj =n∑i=1

aiix2i + 2

n∑i=1

∑j>i

aijxixj .

Definition A.25 Definite Matrizen

Die quadratische Form x′Ax und die Matrix A heißen

1. positiv definit, falls x′Ax > 0 fur alle x �= 0. Schreibweise: A > 0.

2. positiv semidefinit, falls x′Ax ≥ 0 und x′Ax = 0 fur mindestens ein x �= 0.

3. nichtnegativ definit, falls x′Ax bzw. A entweder positiv oder positiv semidefinit ist.Schreibweise: A ≥ 0.

4. negativ definit, wenn −A positiv definit ist.

5. negativ semidefinit, wenn −A positiv semidefinit ist.

6. indefinit in allen anderen Fallen.

Page 12: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

456 Anhang A. Matrix-Algebra

Satz A.24 Kriterium fur die Definitheit einer Matrix

Sei A eine symmetrische Matrix mit den (reellen) Eigenwerten λ1, . . . , λn. Dann ist Agenau dann

1. positiv definit, wenn λi > 0 fur i = 1, . . . , n,

2. positiv semidefinit, wenn λi ≥ 0 fur i = 1, . . . , n und mindestens ein λi = 0,

3. negativ definit, wenn λi < 0 fur alle i = 1 . . . , n,

4. negativ semidefinit, wenn λi ≤ 0 fur i = 1, . . . , n und mindestens ein λi = 0,

5. indefinit, wenn A mindestens einen positiven und einen negativen Eigenwert besitzt.

Satz A.25 Eigenschaften positiv definiter Matrizen

Sei A positiv definit. Dann gilt:

1. A ist regular (und damit invertierbar).

2. A−1 ist positiv definit.

3. Fur die Diagonalelemente aii, i = 1, . . . , n gilt: aii > 0.

4. sp(A) > 0.

5. Sei B positiv semidefinit. Dann ist A+B positiv definit.

Satz A.26

Seien A eine n× n und Q eine n×m Matrix. Dann gilt:

1. Ist A nichtnegativ definit, so ist auch Q′AQ nichtnegativ definit.

2. Ist A positiv definit und Q spaltenregular, so ist auch Q′AQ positiv definit.

Satz A.27

Sei B eine n × p Matrix. Dann ist die Matrix B′B symmetrisch und nicht negativdefinit. Sie ist positiv definit, wenn B spaltenregular ist. Neben B′B ist dann auch BB′

nichtnegativ definit.

Satz A.28 Eigenwerte von B′B und BB′

Sei B eine n× p Matrix mit rg(B) = r. Dann gilt:

1. Sowohl BB′ als auch B′B besitzen r von Null verschiedene Eigenwerte λj , j =1, . . . , r. Diese sind positiv und identisch fur BB′ und B′B.

2. Falls v ein Eigenvektor von B′B zum Eigenwert λ ist, dann ist

u :=1√λBv

ein Eigenvektor von BB′ zum Eigenwert λ.

Page 13: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

A.7. Differentiation von Matrixfunktionen 457

Satz A.29 Cholesky-Zerlegung

Jede symmetrische und positiv definite n×n Matrix A lasst sich eindeutig darstellen als

A = LL′,

wobei L die Gestalt einer unteren Dreiecksmatrix mit positiven Diagonalelementen be-sitzt. L heißt Cholesky-Faktor von A.

A.7 Differentiation von Matrixfunktionen

Definition A.26 Differentiation nach einem Skalar

Sei A = (aij) eine n× p Matrix, deren Elemente differenzierbare Funktionen der reellenVariablen t seien. Dann heißt die Matrix

∂A

∂t=(∂aij∂t

)Ableitung von A nach t.

Satz A.30 Rechenregeln

Sei A und B Matrizen passender Ordnungen. Dann gilt:

1.∂A

∂aij= eie

′j , wobei ei = (0, . . . , 1︸︷︷︸

i

, . . . , 0)′.

2.∂A′

∂aij= eje

′i.

3.∂AB

∂t=∂A

∂tB +A

∂B

∂t(Produktregel).

Satz A.31 Differentiation von Funktionalen einer Matrix

Sei A eine quadratische Matrix, deren Elemente differenzierbare Funktionen der reellenVariablen t seien. Dann gilt:

1. Die Ableitung der Spur ist die Spur der Ableitung:

∂sp(A)∂t

= sp(∂A

∂t

).

2. Ist A invertierbar, so ergibt sich die Ableitung der Inversen als

∂A−1

∂t= −A−1 ∂A

∂tA−1.

3. Ist A invertierbar, so ergibt sich die Ableitung der logarithmierten Determinante als

∂ log(|A|)∂t

= sp(A−1 ∂A

∂t

).

Page 14: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

458 Anhang A. Matrix-Algebra

Definition A.27 Differentiation nach einer Matrix

Sei A = (aij) eine n× p Matrix und f(A) eine differenzierbare reellwertige Funktion dernp Elemente aij . Dann heißt die n× p Matrix

∂f

∂A=(∂f

∂aij

)Ableitung von f nach A.

Satz A.32 Rechenregeln

Seien A und B Matrizen, f und g Funktionen von Matrizen sowie x und y Vektoren. Beiden folgenden Großen wird angenommen, dass sie existieren und von passender Ordnungsind. Dann gelten folgende Rechenregeln:

1.∂fg

∂A=

∂f

∂Ag + f

∂g

∂A.

2.∂sp(A)∂A

= I.

3.∂sp(BA)

∂A= B′.

4.∂sp(A′BA)

∂A= (B +B′)A.

5.∂sp(ABA′)

∂A= A′(B +B′).

6.∂sp(ABA)

∂A= A′B′ +B′A′.

7.∂y′x∂x

= y.

8.∂x′Ay∂A

= xy′.

9.∂x′Ax∂x

= (A+A′)x.

10. Fur symmetrisches A gilt

∂x′Ax∂x

= 2Ax = 2A′x.

Page 15: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B Wahrscheinlichkeitsrechnung und induktive Statistik

Dieser Anhang enthalt in knapper Form Teile der Stochastik und der induktiven Stati-stik, die im Rahmen des Buchs verwendet werden, jedoch teilweise uber Grundkenntnis-se, wie sie in Einfuhrungen zur Statistik vermittelt werden, hinaus gehen. Dies betrifftneben einigen eindimensionalen Verteilungen insbesondere mehrdimensionale Zufallsva-riablen sowie die Likelihood- und Bayes-Inferenz bei mehrdimensionalen Parametern.Einfuhrungen zur Statistik findet man etwa in den Lehrbuchern Fahrmeir et al. (2007),Mosler & Schmid (2005), Schira (2005) oder Bortz (2004). Mehrdimensionale Zufallsva-riablen und multivariate Likelihood-Inferenz sind ausfuhrlich in Fahrmeir et al. (1996)beschrieben. Die Homepage des Buches enthalt eine ausfuhrlichere Version dieses An-hangs.

B.1 Einige eindimensionale Verteilungen

Definition B.1 Normalverteilung und trunkierte Normalverteilung

Eine stetige Zufallsvariable X heißt normalverteilt, in Zeichen X ∼ N(μ, σ2), wenn siedie Dichte

f(x) =1

σ√

2πexp

(− (x− μ)2

2σ2

)besitzt. Fur den Erwartungswert und die Varianz gilt E(X) = μ und Var(X) = σ2. Diespezielle Verteilung mit μ = 0 und σ2 = 1 heißt Standardnormalverteilung.Die Verteilung von X unter der Bedingung a ≤ X ≤ b heißt trunkierte Normalverteilung,in Zeichen X ∼ TNa,b(μ, σ2). Die Dichte ist gegeben durch

g(x) =

⎧⎨⎩f(x)

P(a ≤ X ≤ b) , a ≤ x ≤ b0 sonst.

Durch die Bedingung wird X also auf den Wertebereich [a, b] eingeschrankt und dieDichte entsprechend renormiert. Fur a = −∞ bzw. b = ∞ spricht auch von der linksbzw. rechts trunkierten Normalverteilung.

Definition B.2 Lognormalverteilung

Eine stetige, nicht-negative Zufallsvariable X heißt logarithmisch normalverteilt, in Zei-chen X ∼ LN(μ, σ2), falls die transformierte Zufallsvariable Y = log(X) N(μ, σ2)-verteiltist. Die Dichte von X ist gegeben durch

f(x) =1√2πσ

1x

exp(−(log(x)− μ)2/2σ2

), x > 0.

Page 16: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

460 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

Fur Erwartungswert und Varianz gilt

E(X) = exp(μ+ σ2/2),Var(X) = exp(2μ+ σ2) · (exp(σ2)− 1).

Definition B.3 Gammaverteilung

Eine stetige, nicht-negative Zufallsvariable X heißt gammaverteilt mit Parametern a > 0und b > 0, in Zeichen X ∼ G(a, b), wenn sie die Dichte

f(x) =ba

Γ (a)xa−1 exp (−bx) , x > 0,

besitzt. Erwartungswert und Varianz sind gegeben durch E(X) = a/b und Var(X) =a/b2. Der Modus liegt bei (a− 1)/b (falls a > 1).Gelegentlich wird die Gammaverteilung in einer alternativen Parametrisierung definiert.In Abhangigkeit vom Erwartungswert μ und dem Skalenparameter ν ist die Dichte ge-geben durch

f(x) =1

Γ (ν)

μ

)νexp

(−νμx

), x > 0.

Eine Verwendung dieser alternativen Parametrisierung findet man in Kapitel 4 im Zu-sammenhang mit der Gamma-Regression, vergleiche Seite 217.

Definition B.4 Exponentialverteilung

Eine stetige, nicht-negative Zufallsvariable X heißt exponentialverteilt mit Parameterλ > 0, in Zeichen X ∼ Expo(λ), wenn sie folgende Dichte besitzt:

f(x) = λ exp(−λx), x > 0.

Fur den Erwartungswert und die Varianz erhalt man E(X) = 1/λ und Var(X) = 1/λ2.Die Exponentialverteilung ist eine spezielle Gammaverteilung mit a = 1 und b = λ.

Definition B.5 χ2-Verteilung

Eine stetige, nicht-negative Zufallsvariable X mit Dichte

f(x) =1

2n2 Γ (n2 )

xn2−1 exp

(−1

2x

), x > 0,

heißt χ2-verteilt mit n Freiheitsgraden, in Zeichen X ∼ χ2n. Der Erwartungswert ist

gegeben durch E(X) = n und die Varianz durch Var(X) = 2n. Die χ2-Verteilung ist einespezielle Gammaverteilung mit a = n/2 und b = 1/2.Sind X1, . . . , Xn unabhangig und identisch standardnormalverteilt, so ist

Yn =n∑i=1

X2i

χ2-verteilt mit n Freiheitsgraden. Aus dieser Darstellung folgt auch (mit Hilfe des Ge-setzes der großen Zahlen), die (fast sichere) Konvergenz Yn/n→ 1 fur n→∞.

Page 17: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.2. Zufallsvektoren 461

Definition B.6 Inverse Gammaverteilung

Gilt Y ∼ G(a, b), so heißt X = 1/Y invers gammaverteilt, in Zeichen X ∼ IG(a, b). DieDichte von X besitzt folgende Gestalt:

f(x) =ba

Γ (a)x−(a+1) exp (−b/x) , x > 0.

Man erhalt E(X) = b/(a− 1) und Var(X) = b/((a− 1)2(a− 2)).

Definition B.7 t-Verteilung

Eine stetige Zufallsvariable X heißt t-verteilt mit n Freiheitsgraden, in Zeichen X ∼ tn,wenn Sie folgende Dichte besitzt:

f(x) =Γ (n+ 1)/2√

nπΓ (n/2)(1 + x2/n)(n+1)/2.

Erwartungswert und Varianz sind gegeben durch E(X) = 0 (fur n > 1) und Var(X) =n/(n− 2) (fur n > 2). Die t1-Verteilung wird auch als Cauchy-Verteilung bezeichnet.Sind X und Y unabhangig standardnormal- bzw. χ2

n-verteilt, so gilt

T =X√Yn

∼ tn.

Sind X1, . . . , Xn unabhangig N(μ, σ2)-verteilt, so gilt

X − μS

√n ∼ tn−1

mit

S =1

n− 1

n∑i=1

(Xi − X)2 und X =n∑i=1

Xi.

Definition B.8 F-Verteilung

Sind X1 und X2 unabhangig χ2n- bzw. χ2

m-verteilt, so heißt

F =X1/n

X2/m

F-verteilt mit n und m Freiheitsgraden, in Zeichen F ∼ Fn,m.

B.2 Zufallsvektoren

Definition B.9 Zufallsvektor

Der p-dimensionale Vektor X = (X1, . . . , Xp)′ heißt Zufallsvektor oder p-dimensionaleZufallsvariable, wenn die Komponenten X1, . . . , Xp eindimensionale Zufallsvariablen

Page 18: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

462 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

sind. Der Zufallsvektor X heißt stetig, wenn es eine Funktion f(x) = f(x1, . . . , xp) ≥ 0gibt, so dass gilt

P (a1 ≤ X1 ≤ b1, . . . , ap ≤ Xp ≤ bp) =∫ bp

ap

. . .

∫ b1

a1

f(x1, . . . , xp) dx1 . . . dxp.

Die Funktion f heißt (gemeinsame) Dichte von X.Der Zufallsvektor X heißt diskret, wenn X nur Werte aus einer hochstens abzahlbarenMenge {x1,x2, . . .} ⊂ Rp annimmt. Die Funktion f mit

f(x) ={P (X = x) x ∈ {x1,x2, . . .}0 sonst

heißt Wahrscheinlichkeitsfunktion oder diskrete Dichte von X.

Definition B.10 Randverteilungen und bedingte Verteilungen

Gegeben sei der p-dimensionale Zufallsvektor X = (X1, . . . , Xp)′ und eine Partitionvon X in den p1-dimensionalen Vektor X1 und den p2-dimensionalen Vektor X2, d.h.X = (X ′1,X

′2)′. Dann heißt die p1-dimensionale Dichte bzw. Wahrscheinlichkeitsfunk-

tion fX1(x1) von X1 Randdichte bzw. Randwahrscheinlichkeitsfunktion von X. DieRanddichte bzw. Randwahrscheinlichkeitsfunktion ist gegeben durch

fX1(x1) =∫ ∞−∞

. . .

∫ ∞−∞

f(x1,x2) dxp1+1 . . . dxp

bei stetigen Zufallsvektoren bzw.

fX1(x1) =∑x2f(x1,x2)

bei diskreten Zufallsvektoren. Die bedingte Dichte bzw. Wahrscheinlichkeitsfunktion vonX1 bei fest vorgegebenem Wert x2 von X2 ist gegeben durch

f(x1|x2) =

⎧⎪⎨⎪⎩f(x1,x2)fX2(x2)

fur fX2(x2) > 0

0 sonst

und einen analogen Ausdruck fur die bedingte Dichte bzw. Wahrscheinlichkeitsfunktionvon X2 gegeben x1.

Definition B.11 Erwartungswertvektor

Sei X = (X1, . . . , Xp)′ ein p-dimensionaler Zufallsvektor. Dann heißt

E(X) = μ = (μ1, . . . , μp)′ = (E(X1), . . . ,E(Xp))′

Erwartungswertvektor von X.

Definition B.12 Kovarianzmatrix, Korrelationsmatrix und Prazisionsmatrix

Die Kovarianzmatrix Cov(X) = Σ eines p-dimensionalen Zufallsvektors X ist definiertdurch

Page 19: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.2. Zufallsvektoren 463

Cov(X) = Σ = E(X − μ)(X − μ)′ =

⎛⎜⎝σ11 . . . σ1p

......

σp1 . . . σpp

⎞⎟⎠ ,

wobei σij = Cov(Xi, Xj), i �= j, die Kovarianz zwischen Xi und Xj ist und σii = σ2i =

Var(Xi) die Varianz von Xi.Ausgehend von der Kovarianzmatrix Σ ergibt sich die Korrelationsmatrix R als:

R =

⎛⎜⎝ 1 ρ12 . . . ρ1p

......

ρp1 ρp2 . . . 1

⎞⎟⎠mit

ρij =Cov(Xi, Xj)√

Var(Xi) ·Var(Xj).

Sowohl Σ als auch R sind symmetrisch und positiv semidefinit. Ist Σ sogar positivdefinit, so heißt die Inverse P = Σ−1 Prazisionsmatrix.

Satz B.1 Rechenregeln fur Erwartungswertvektoren und Kovarianzmatrizen

Seien X und Y Zufallsvektoren, A,B,a, b geeignet dimensionierte Matrizen bzw. Vek-toren sowie E(X) = μ und Cov(X) = Σ. Dann gilt:

1. E(X + Y ) = E(X) + E(Y ).

2. E(AX + b) = A · E(X) + b.

3. Cov(X) = E(XX ′)− E(X)E(X)′.

4. Var(a′X) = a′Cov(X)a =p∑i=1

p∑j=1

aiajσij .

5. Cov(AX + b) = ACov(X)A′.

6. E(X ′AX) = sp(AΣ) + μ′Aμ.

Definition B.13 Empirische Mittelwerte, Kovarianzmatrix und Korrelationsmatrix

Sei x1, . . .xn eine i.i.d. Stichprobe aus der Verteilung von X. Dann lasst sich der Erwar-tungswertvektor durch die empirischen Mittelwerte schatzen:

μ = (μ1, . . . , μp)′ = (x1, . . . , xp)′ = x

mit

μj =1n

n∑i=1

xij = xj .

Fur die Kovarianzmatrix erhalt man als Schatzung die empirische Kovarianzmatrix Σdurch die empirischen Varianzen

σ2j =

1n− 1

n∑i=1

(xij − xj)2

Page 20: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

464 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

und die empirischen Kovarianzen

σjk =1

n− 1

n∑i=1

(xij − xj)(xik − xk).

Die empirische Korrelationsmatrix R ergibt sich analog durch die empirischen Korrela-tionskoeffizienten.

B.3 Die multivariate Normalverteilung

B.3.1 Definition und Eigenschaften

Definition B.14 Multivariate Normalverteilung

Ein p-dimensionaler Zufallsvektor X = (X1, X2, . . . , Xp)′ heißt multivariat normalver-teilt, wenn X die Dichte

f(x) = (2π)−p2 |Σ|− 1

2 exp[− 1

2 (x− μ)′Σ−1(x− μ)]

(B.1)

mit μ ∈ Rp und positiv semidefiniter p× p Matrix Σ besitzt.Fur die Herleitung von Posteriori-Verteilungen in Bayesianischen Modellen erweist es sichals zweckmaßig die Dichte der multivariaten Normalverteilung in etwas anderer Formdarzustellen. Unter Vernachlassigung aller Faktoren in (B.1), die nicht von x abhangen,erhalt man die Darstellung

f(x) ∝ exp(−1

2 (x− μ)′Σ−1(x− μ))

= exp(−1

2x′Σ−1x+ x′Σ−1μ− 1

2μ′Σ−1μ

)∝ exp

(− 12x′Σ−1x+ x′Σ−1μ

).

(B.2)

Fur multivariat normalverteiltes X ist die Dichte also stets proportional zu (B.2).

Satz B.2 Erwartungswert und Kovarianzmatrix

Fur den Erwartungswert und die Kovarianzmatrix von X gilt E(X) = μ und Cov(X) =Σ. Wir verwenden daher die Bezeichnung

X ∼ Np(μ,Σ),

die bereits fur die eindimensionale Normalverteilung gelaufig ist. Haufig wird der Indexp unterdruckt, wenn sich die Dimension aus dem Zusammenhang erschließen lasst. Furμ = 0 und Σ = I spricht man von der (multivariaten) Standardnormalverteilung.

Satz B.3 Lineare Transformationen

Sei X ∼ Np(μ,Σ), d ∈ Rq und D eine q × p Matrix. Dann gilt fur Y = d+DX:

Y ∼ Nq(d+Dμ,DΣD′).

Page 21: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.3. Die multivariate Normalverteilung 465

Im Folgenden stellen wir wichtige Eigenschaften der multivariaten Normalverteilung zu-sammen. Dabei werden wir die zwei Falle rg(Σ) = p und rg(Σ) < p unterscheiden.Im Fall rg(Σ) < p spricht man von einer uneigentlichen, singularen oder entartetenNormalverteilung. Diesen Fall wollen wir zunachst außer Acht lassen und nehmen an,dass rg(Σ) = p, d.h. die Kovarianzmatrix ist positiv definit und invertierbar. Auf densingularen Fall gehen wir dann im Anschluss ein.

Satz B.4 Randverteilungen und bedingte Verteilungen

Sei X ∼ N(μ,Σ) multivariat normalverteilt. Betrachte die Partition vonX in die beidenSubvektoren Y = (X1, . . . , Xr)′ und Z = (Xr+1, . . . , Xp)′, d.h.

X =(YZ

), μ =

(μYμZ

), Σ =

(ΣY ΣY Z

ΣZY ΣZ

).

Dann ist der Subvektor Y wieder r-dimensional normalverteilt mit Y ∼ N(μY ,ΣY ).Die bedingte Verteilung von Y gegeben Z ist ebenfalls eine multivariate Normalvertei-lung mit Erwartungswert

μY |Z = μY +ΣY Z ·Σ−1Z (Z − μZ)

und KovarianzmatrixΣY |Z = ΣY −ΣY ZΣ

−1Z ΣZY .

Daruberhinaus gilt bei normalverteilten Zufallsvariablen die Aquivalenz zwischen Un-abhangigkeit und Unkorreliertheit. Y und Z sind genau dann unabhangig, wenn Y undZ unkorreliert sind, d.h.ΣY Z = ΣZY = 0 gilt. Fur nicht normalverteilte Zufallsvektorengilt die Aquivalenz zwischen Unabhangigkeit und Unkorreliertheit im Allgemeinen nicht.Hier folgt lediglich aus der Unabhangigkeit die Unkorreliertheit.

B.3.2 Die singulare Normalverteilung

Definition B.15 Singulare Normalverteilung

Sei X ∼ Np(μ,Σ). Die Verteilung von X heißt singular, wenn rg(Σ) < p gilt. In diesemFall wird die Verteilung haufig auch durch die Prazisionsmatrix P (mit rg(P ) < p)anstelle der Kovarianzmatrix charakterisiert. Der ZufallsvektorX besitzt dann die Dichte

f(x) ∝ exp[−1

2(x− μ)′P (x− μ)

]die nur bis auf Proportionalitat definiert ist. Diese Form der singularen Normalverteilungverwenden wir insbesondere in den Kapiteln 7 und 8.

Satz B.5 Charakterisierung der singularen Normalverteilung

Sei der p-dimensionale Zufallsvektor X singular normalverteilt, d.h. X ∼ N(μ,Σ), mitrg(Σ) = r < p. Sei (G H) eine orthogonale Matrix, wobei die Spalten der p× r MatrixG eine Basis des Spaltenraums von Σ und die Spalten von H eine Basis des Nullraumsvon Σ bilden. Betrachte die Transformation

Page 22: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

466 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik(Y 1

Y 2

)=(G H

)′X =

(G′XH ′X

)Dann ist Y 1 der stochastische Anteil von X und nicht singular mit

Y 1 ∼ N(G′μ,G′ΣG).

Y 2 ist der deterministische Anteil von X mit

E(Y 2) = H ′μ und Var(Y 2) = 0

Die Dichte f des stochastischen Anteils Y 1 = G′X hat die Gestalt

f(y1) =1

(2π)r2 (∏ri=1 λi)

12

exp[−1

2(y1 −G′μ)′(G′ΣG)−1(y1 −G′μ)

](B.3)

Dabei sind λi die r von Null verschiedenen Eigenwerte und Σ− eine g-Inverse von Σ.

B.3.3 Verteilungen quadratischer Formen

Verteilungen quadratischer Formen normalverteilter Zufallsvektoren spielen beim Testenlinearer Hypothesen eine Rolle, vergleiche insbesondere Abschnitt 3.3 in Kapitel 3.

Satz B.6 Verteilungen quadratischer Formen

1. Sei X ∼ Np(μ,Σ) mit Σ > 0. Dann gilt:

Y = (X − μ)′Σ−1(X − μ) ∼ χ2p.

2. SeiX ∼ Np(0, I),B eine n×p (n ≤ p) Matrix undR eine symmetrische, idempotentep× p Matrix mit rg(R) = r. Dann gilt:

• X ′RX ∼ χ2r.

• Aus BR = 0 folgt die Unabhangigkeit der quadratischen Form X ′RX von derLinearform BX.

3. Seien X1, . . . , Xn unabhangige Zufallsvariablen mit Xi ∼ N(μ, σ2) und

S2 =1

n− 1

n∑i=1

(Xi − X)2.

Dann gilt:

•n− 1σ2

S2 ∼ χ2n−1.

• S2 und X sind unabhangig.

4. Seien X ∼ Nn(0, I), R und S symmetrische und idempotente n × n Matrizen mitrg(R) = r und rg(S) = s und RS = 0. Dann gilt:

• X ′RX und X ′SX sind unabhangig.

•s

r

X ′RXX ′SX

∼ Fr,s.

Page 23: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.4. Likelihood-Inferenz 467

B.3.4 Multivariate t-Verteilung

Ein p-dimensionaler Zufallsvektor X = (X1, . . . , Xp)′ heißt multivariat t-verteilt mit νFreiheitgraden, Lokationsparameter μ und (positiv definiter) DispersionsmatrixΣ, wenner die Dichte

f(x) = |Σ|− 12 (νπ)−

p2Γ ((ν + p)/2)Γ (ν/2)

(1 +

(x− μ)′Σ−1(x− μ)ν

)−(ν+p)/2

besitzt. Jeder Teilvektor von X ist wieder t-verteilt mit ν Freiheitsgraden sowie denentsprechenden Subvektoren bzw. -matrizen von μ und Σ als Lokations- bzw. Dispersi-onsparameter.In Definition B.7 wurde eine konstruktive Definition der t-Verteilung basierend auf ei-ner standardnormalverteilten und einer χ2-verteilten Zufallsvariablen angegeben. Analoglasst sich die multivariate t-Verteilung basierend auf einer multivariat normalverteiltenund einer χ2-verteilten Zufallsvariablen definieren.

B.4 Likelihood-Inferenz

In diesem Abschnitt beschreiben wir die Maximum-Likelihood (ML)-Methode zur Schat-zung unbekannter Parameter in statistischen Modellen und darauf beruhende Tests zuHypothesen uber diese Parameter.

B.4.1 Maximum-Likelihood-Schatzung

Gegeben sei eine Stichprobe Y1, . . . , Yn mit realisierten Werten y1, . . . , yn. Die gemeinsa-me Wahrscheinlichkeit (fur diskrete Y1, . . . , Yn)

P (Y1 = y1, . . . , Yn = yn |θ)

bzw. der Wert der gemeinsamen Dichte (fur stetige Y1, . . . , Yn)

f(Y1 = y1, . . . , Yn = yn |θ)

der realisierten Werte hange von einem unbekannten, zu schatzenden Parametervektorθ = (θ1, . . . , θp)′ ∈ Θ ab. Diese Wahrscheinlichkeit bzw. dieser Wert der Dichte aufge-fasst als Funktion des unbekannten Parameters θ heißt Likelihood und wird mit L(θ)bezeichnet:

L(θ) = P (Y1 = y1, . . . , Yn = yn |θ)

bzw.L(θ) = f(Y1 = y1, . . . , Yn = yn |θ).

Gemaß dem Maximum-Likelihood-Prinzip wird der Maximum-Likelihood-(ML-) Schatzerθ fur θ so bestimmt, dass θ die Likelihood maximiert.Im diskreten Fall besagt das ML-Prinzip also: Bestimme den ML-Schatzer θ so, dass dieWahrscheinlichkeit fur das Auftreten der beobachteten Stichprobe y1, . . . , yn maximal

Page 24: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

468 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

wird und somit diese Stichprobe moglichst plausibel (likely) ist. Im stetigen Fall soll inanaloger Weise die Dichte maximal und damit die Stichprobe moglichst plausibel werden.In der Regel, insbesondere fur alle Modelle dieses Buches, ist die Likelihood L(θ) diffe-renzierbar bzgl. θ und das Maximum kann durch differenzieren, Null setzen und anschlie-ßendes Auflosen des resultierenden Gleichungssystems bezuglich θ bestimmt werden. Austechnischen Grunden wird ublicherweise nicht die Likelihood maximiert, sondern die so-genannte Log-Likelihood l(θ) = log(L(θ)), die man durch Logarithmieren der Likelihooderhalt. Da der Logarithmus eine streng monotone Funktion ist, besitzt l(θ) das selbeMaximum wie L(θ).Die einfachste Situation der ML-Schatzung liegt vor, wenn Y eine Zufallsvariable mitWahrscheinlichkeitsfunktion bzw. Dichte f(y | θ) ist, die einen unbekannten Parameter-vektor θ enthalt. Zur ML-Schatzung wird eine i.i.d. Stichprobe Y1, . . . , Yn aus f(y |θ)gezogen. Dann ist die gemeinsame Dichte wegen der Unabhangigkeit der Y1, . . . , Yn dasProdukt der einzelnen Dichten f(yi | θ). Somit ist die Likelihood durch

L(θ) = f(y1 |θ) · . . . · f(yn |θ)

und die Log-Likelihood durch die Summe

l(θ) = log f(y1 |θ) + . . .+ log f(yn |θ) =n∑i=1

li(θ)

mit den Log-Likelihood-Beitragen li(θ) = log f(yi |θ) gegeben. Diese Situation liegt ineinfacher Form im folgenden Beispiel vor.

Beispiel B.1 Poisson-Verteilung – ML-Schatzer

Gegeben sei eine Poisson-verteilte Zufallsvariable Y ∼ Po(λ) mit unbekanntem Parame-ter λ. Zur Schatzung von λ ziehen wir eine i.i.d. Stichprobe Y1, . . . , Yn mit Yi ∼ Po(λ)und realisierten Werten y1, . . . , yn. Den ML-Schatzer fur λ erhalt man in vier Schritten:

1. Schritt: Bestimmung der Likelihood. Da es sich um eine i.i.d. Stichprobe handelt,ist die gemeinsame Wahrscheinlichkeit fur die realisierte Stichprobe das Produktder einzelnen Wahrscheinlichkeiten und wir erhalten fur die Likelihood

L(λ) = P (Y1 = y1, . . . , Yn = yn |λ)

= P (Y1 = y1 |λ) · . . . · P (Yn = yn |λ)

=λy1

y1!exp(−λ) · . . . · λ

yn

yn!exp(−λ)

Da die Faktoren 1/y1!, . . . , 1/yn! nicht von λ abhangen, konnen wir sie bei derMaximierung vernachlassigen und erhalten

L(λ) ∝ exp(−nλ) · λy1 · . . . · λyn .Oft bezeichnet man auch bereits die rechte Seite unter Vernachlassigung konstanterFaktoren als Likelihood und schreibt einfach

L(λ) = exp(−nλ) · λy1 · . . . · λyn .

2. Schritt: Bestimmung der Log-Likelihood. Durch Logarithmieren erhalt man

l(λ) = −nλ+

n∑i=1

yi log(λ).

Page 25: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.4. Likelihood-Inferenz 469

3. Schritt: Differenzieren und Nullsetzen.

∂ l(λ)

∂λ= −n+

n∑i=1

yi1

λ= 0

Die erste Ableitung s(λ) = ∂ l(λ)/∂ λ nennt man Score-Funktion.

4. Schritt: Auflosen nach dem unbekannten Parameter liefert den ML-Schatzer

λ =1

n

n∑i=1

yi = y.

5. Schritt: Zweite Ableitung zur Uberprufung des Maximums. Die zweite Ableitungder Log-Likelihood ist gegeben durch

∂2 l(λ)

∂λ2= −

n∑i=1

yi1

λ2< 0,

d.h. bei dem im 4. Schritt gefundenen Schatzer handelt es sich tatsachlich um einMaximum der Log-Likelihood bzw. der Likelihood. Die negative zweite Ableitung−∂2 l(λ)/∂ λ2 heißt beobachtete Fisher-Information.

Die im vorausgegangenen Beispiel erwahnte Score-Funktion und Fisher-Information spie-len in der Likelihood-Theorie eine wichtige Rolle. Die Score-Funktion ist allgemein defi-niert als der Vektor der partiellen Ableitungen der Log-Likelihood

s(θ) =∂l(θ)∂θ

=(∂l(θ)∂θ1

, . . . ,∂l(θ)∂θp

)′.

Die beobachtete Fisher-Information ist definiert durch

H(θ) = −∂2l(θ)∂θ∂θ′

= −

⎛⎜⎜⎝∂2l(θ)∂θ1∂θ1

· · · ∂2l(θ)∂θ1∂θp

......

∂2l(θ)∂θp∂θ1

· · · ∂2l(θ)∂θp∂θp

⎞⎟⎟⎠ .

Die beobachtete Fisher-Informationsmatrix kann, wie der Name bereits andeutet, als(lokales) Maß fur die Information, welche die Likelihood uber den unbekannten Parame-ter liefert, betrachtet werden. Die zweite Ableitung einer Funktion ist ein Maß fur dieKrummung an der Stelle θ. Je starker die Krummung der Log-Likelihood in der Nahedes Maximums, desto mehr Information uber den unbekannten Parameter enthalt dieLog-Likelihood. Da die Krummung in der Regel negativ ist, wird die Fisher-Informationals die negative Krummung definiert.Da die Likelihood bzw. die Log-Likelihood von den Werten der StichprobenvariablenY1, . . . , Yn abhangt, wird die Likelihoodfunktion bei wiederholter Stichprobenziehung je-weils eine andere Gestalt annehmen. Likelihood, Log-Likelihood und deren Ableitungenkonnen also auch als Zufallsvariablen aufgefasst werden, die insbesondere auch Erwar-tungswert und Varianz besitzen. Der Erwartungswert der Score-Funktion ist stets gleich0, d.h.

E(s(θ)) = 0.

Page 26: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

470 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

Der Erwartungswert wird dabei bezuglich der Stichprobenvariablen Y1, . . . , Yn gebildet.Von besonderem Interesse ist der Erwartungswert der Fisher-Information:

F (θ) = E(−∂

2l(θ)∂θ∂θ′

)= Cov(s(θ)) = E(s(θ)s(θ)′).

Die Matrix F (θ) wird als erwartete Fisher-Information bezeichnet und kann als globalesInformationsmaß angesehen werden, da sie unabhangig von der Stichprobe ist.Fur unabhangige Stichproben ist die Information additiv: Seien HYi(θ) und F Yi(θ) be-obachtete und erwartete Fisherinformation bezuglich der i-ten Stichprobenvariablen, d.h.die Information, wenn nur die i-te Ziehung berucksichtigt wird. Dann ist die Informationbezuglich der gesamten Stichprobe Y = (Y1, . . . , Yn)′ gegeben durch

HY (θ) =n∑i=1

HYi(θ) bzw. FY (θ) =n∑i=1

FYi(θ).

Beispiel B.2 Poisson-Verteilung – Score-Funktion und Fisher-Information

Gegeben sei eine i.i.d. Stichprobe Y1, . . . , Yn einer Poisson-verteilten ZufallsvariablenY ∼ Po(λ) mit unbekannten Parameter λ. Log-Likelihood und Score-Funktion der i-ten Beobachtung sind gegeben durch (vergleiche Beispiel B.1)

li(λ) = yi log(λ)− log(yi!)− λ und si(λ) =yiλ− 1.

Anhand des Beispiels verifizieren wir, dass E(s(λ)) = 0 gilt. Wir erhalten

E(s(λ)) = E

(n∑i=1

(Yiλ− 1

))=

1

λ

n∑i=1

E(Yi)− n =1

λnλ− n = 0.

Als beobachtete Fisherinformation fur die i-te Beobachtung berechnen wir

Hyi(λ) = −∂2li(λ)

∂2λ= −∂si(λ)

∂λ= −

(− yiλ2

)=yiλ2.

Aufgrund der Additivitat der Information erhalten wir dann fur die gesamte Stichprobe

HY (λ) =1

λ2

n∑i=1

yi.

Fur die i-te Stichprobenvariable ergibt sich mit E(Yi) = λ

FYi(λ) = E

(Yiλ2

)=

λ

λ2=

1

λ.

und wiederum aufgrund der Additivitat der Information

FY (λ) =n

λ.

Die erwartete Information wachst also linear mit dem Stichprobenumfang n. Daruberhinaus ist die erwartete Information umso kleiner, je großer der unbekannte Parameterλ ist. Intuitiv ist das klar, denn die Varianz des ML-Schatzers Y fur λ ist Var(Y ) =1nλ, d.h. die Variabilitat der Schatzung nimmt mit wachsendem λ zu und damit die

Information ab.�

Page 27: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.4. Likelihood-Inferenz 471

In diesem Buch liegt meistens eine Regressionssituation mit Zielvariablen Y1, . . . , Yn vor,zu denen Werte y1, . . . , yn und zusatzliche Kovariablen x1, . . . ,xn als Stichprobe ge-geben sind. Der Parametervektor θ ist dann oft der Vektor β der Kovariableneffekte.Die Y1, . . . , Yn sind (bei gegebenen x1, . . . ,xn) nun nicht mehr identisch verteilt, werdenaber weiterhin als unabhangig angenommen. Die Wahrscheinlichkeitsfunktion bzw. Dich-ten der Yi hangen uber xi von i ab, d.h. es ist Yi ∼ fi(yi |θ) = f(yi |xi;β) mit θ = β.Die Likelihood ist dann weiter das Produkt

L(θ) = f1(y1 |θ) · · · . . . · fn(yn |θ)

der einzelnen Dichten und die Log-Likelihood

l(θ) =n∑i=1

li(θ) =n∑i=1

log fi(yi |θ)

die Summe der Log-Likelihood-Beitrage li(θ) = log fi(yi |θ).

Beispiel B.3 Poisson-Regression

Wir betrachten das folgende Poisson-Regressionsmodell:

yi ∼ Po(λi) i = 1, . . . , n,

λi = exp(β0 + β1xi) = exp(ηi),

ηi = β0 + β1xi.

Unser Ziel ist die Bestimmung des ML-Schatzers fur β0 und β1. Dabei wird sich her-ausstellen, dass eine analytische Losung, wie im vorausgegangenen Beispiel B.1, nichtexistiert. Vielmehr sind wir auf numerische Verfahren zur Optimierung angewiesen, diewir im nachsten Abschnitt besprechen. Die Bestimmung des Schatzers erfolgt durchfolgende Schritte:

1. Schritt: Bestimmung der Likelihood. Die Likelihood der i-ten Beobachtung ist unterVernachlassigung von Faktoren, die nicht von β0 und β1 abhangen, gegeben durch

Li(β0, β1) = λyii exp(−λi).Die Likelihood fur die Stichprobe ist das Produkt der individuellen Likelihoods:

L(β0, β1) =

n∏i=1

Li(β0, β1).

2. Schritt: Bestimmung der Log-Likelihood. Durch Logarithmieren der individuellenLikelihood erhalten wir

li(β0, β1) = yi log(λi)− λi = yi(β0 + β1xi)− exp(β0 + β1xi)

und damit

l(β0, β1) =n∑i=1

(yi(β0 + β1xi)− exp(β0 + β1xi)).

3. Schritt: Bestimmung der Score-Funktion. Die partiellen Ableitungen der individu-ellen Log-Likelihood bezuglich β0 und β1 sind gegeben durch

∂ li(β0, β1)

∂β0= yi − exp(β0 + β1xi) = yi − λi,

Page 28: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

472 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

∂ li(β0, β1)

∂β1= yixi − exp(β0 + β1xi) · xi = xi(yi − λi).

Unter Verwendung der Vektoren y = (y1, . . . , yn)′, x = (x1, . . . , xn)′, λ =(λ1, . . . , λn)′ und 1 = (1, . . . , 1)′ erhalten wir damit fur die Score-Funktion

s(β0, β1) =

⎛⎜⎜⎜⎝n∑i=1

(yi − λi)n∑i=1

xi(yi − λi)

⎞⎟⎟⎟⎠ =

(1′(y − λ)x′(y − λ)

).

Schließlich ergibt sich mit der Designmatrix X = (1 x) fur die Score-Funktion

s(β0, β1) = X ′(y − λ).

Wenn wir die Score-Funktion Null setzen erhalten wir ein nichtlineares Gleichungs-system, das mit numerischen Verfahren gelost werden muss, vergleiche hierzuden nachsten Abschnitt. Ein Baustein des numerischen Verfahrens ist die Fisher-Information, die deshalb im nachsten Schritt berechnet wird.

4. Schritt: Bestimmung der (beobachteten) Fisher-Informationsmatrix. Die zweitenpartiellen Ableitungen der individuellen Log-Likelihood sind gegeben durch

∂2 li(β0, β1)

∂β20

= − exp(β0 + β1xi) = −λi,

∂2 li(β0, β1)

∂β21

= − exp(β0 + β1xi)x2i = −λix2

i ,

∂2 li(β0, β1)

∂β0∂β1= − exp(β0 + β1xi)xi = −λixi.

Damit erhalten wir die beobachtete Informationsmatrix

H(β) = −∂2 l(β0, β1)

∂ β∂ β′= −

n∑i=1

∂2 li(β0, β1)

∂ β∂ β′=

⎛⎜⎜⎜⎝n∑i=1

λi

n∑i=1

λixi

n∑i=1

λixi

n∑i=1

λix2i

⎞⎟⎟⎟⎠als die mit −1 multiplizierte Matrix der zweiten partiellen Ableitungen. Mit derMatrix W = diag(λ1, . . . , λn) erhalten wir kompakter

H(β) = X ′WX .

Da die beobachtete Informationsmatrix H(β) nicht mehr von y abhangt ist sie indiesem Beispiel gleich der erwarteten Informationsmatrix

F (β) = Ey(H(β)) = H(β).

Allgemein gilt jedoch F (β) �= H(β).

5. Schritt: Iterative numerische Bestimmung des ML-Schatzers β als Nullstelle derScore-Funktion s(β), d.h. als Losung des nichtlinearen Gleichungssystems

s(β)!= 0.

Die iterative Bestimmung erfolgt mit dem im nachsten Abschnitt skizziertenNewton- oder Fisher-Scoring-Algorithmus. �

Page 29: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.4. Likelihood-Inferenz 473

Abschließend bemerken wir, dass das Likelihood-Prinzip auch allgemein fur abhangigeVariablen Y1, . . . , Yn anwendbar ist. Eine solche Situation liegt beispielsweise in Kapitel6.1 (Seite 254) vor. Dort ist Y = (Y1, . . . , Yn)′ multivariat normalverteilt

Y ∼ N(μ(β),Σ(α))

mit einem von β abhangigen Erwartungswertvektor μ(β) und einer von α abhangigen,nicht diagonalen Kovarianzmatrix Σ(α). Die Likelihood L(β,α) = L(θ), θ = (α,β) istdann durch die Dichte der multivariaten Normalverteilung fur Y gegeben. Diese zerfalltnun nicht mehr in das Produkt separater Dichten fur die einzelnen Variablen Y1, . . . , Yn.

B.4.2 Numerische Berechnung des ML-Schatzers

In den meisten Anwendungsfallen kann der Maximum-Likelihood-Schatzer nicht analy-tisch berechnet werden, da das nach dem Differenzieren der Score-Funktion resultierendenichtlineare Gleichungssystem nicht nach den unbekannten Parametern aufgelost werdenkann. Vergleiche hierzu etwa das vorangegangene Beispiel B.3. In diesen Fallen ist manauf numerische Verfahren zur Bestimmung der Nullstellen der Score-Funktion angewie-sen. In der Literatur existieren eine Vielzahl von Verfahren, vergleiche z.B. Lange (2000)fur einen Uberblick. Wir wollen hier lediglich die beiden nach wie vor gangigsten Verfah-ren, das Newton- (bzw. Newton-Raphson-) Verfahren und das sogenannte Fisher-Scoring,behandeln.Wir illustrieren das Newton-Raphson-Verfahren zunachst fur eindimensionale Parameter.Ziel ist die (numerische) Bestimmung der Nullstelle der Score-Funktion, d.h. die Losungder im Allgemeinen nichtlinearen Gleichung

s(θ) = 0.

Das Newton-Raphson-Verfahren bestimmt ausgehend von einer Startlosung θ(0) iterativdie Nullstelle der Score-Funktion. Dabei wird wie folgt vorgegangen (vergleiche auchAbbildung B.1): An der Stelle θ(0) wird eine Tangente an die Score-Funktion gelegtund man erhalt eine verbesserte Losung θ(1) als Nullstelle der angelegten Tangente. DieTangente ist gegeben durch

g(θ) = s(θ(0)

)+ s′

(θ(0)

)·(θ − θ(0)

).

Es handelt sich dabei um die Taylorreihenentwicklung erster Ordnung von s(θ) im Ent-wicklungspunkt θ(0). Die Nullstelle der Tangente liefert dazu die verbesserte Losung

θ(1) = θ(0) − 1s′(θ(0)

) · s(θ(0)).

Da −s′(θ) die beobachtete Fisher-Information H(θ) ist, konnen wir auch

θ(1) = θ(0) +H(θ(0)

)−1

s(θ(0)

)schreiben.Ausgehend von θ(1) erhalten wir dazu eine weiter verbesserte Losung θ(2), indem beiθ(1) erneut eine Tangente an s(θ) angelegt wird und die Nullstelle bestimmt wird. DasVerfahren wird so lange iterativ fortgesetzt, bis sich die Losungen nicht mehr andern.

Page 30: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

474 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

−.5

0.5

11.

5S

core

−F

unct

ion

.5 1 1.5 2 2.5 3 3.5 4theta

Score−Funktion

−1

01

2

.5 1 1.5 2 2.5 3 3.5 4theta

Score−FunktionTangente bei theta0=2

Tangente bei 2, Schnittpunkt mit theta−Achse bei 0.613

−2

02

46

.5 1 1.5 2 2.5 3 3.5 4theta

Score−FunktionTangente bei theta1=0.613

Tangente bei 0.613, Schnittpunkt mit theta−Achse bei 0.912

−1

01

23

4

.5 1 1.5 2 2.5 3 3.5 4theta

Score−FunktionTangente bei theta2=0.912

Tangente bei 0.912, Schnittpunkt mit theta−Achse bei 0.996

Abb. B.1. Illustration des Newton-Verfahrens.

Der beschriebene Algorithmus lasst sich auch auf mehrdimensionale Parameter θ =(θ1, . . . , θp)′ ubertragen. Ausgehend von einer aktuellen Losung θ(k) erhalt man eineverbesserte Losung fur s(θ) = 0 durch

θ(k+1) = θ(k) −(∂s(θ(k)

)∂θ′

)−1

s(θ(k)

)= θ(k) +H

(θ(k)

)−1

s(θ(k)

).

Ersetzt man die beobachtete Informationsmatrix durch die erwartete InformationsmatrixF (θ(k)), so erhalt man das Fisher-Scoring-Verfahren. Der Vorteil des modifizierten Al-gorithmus besteht darin, dass in vielen Fallen die Formel fur die erwartete Informations-matrix einfacher sind und damit weniger Rechenzeit zur Bestimmung des ML-Schatzersbenotigt wird.

Beispiel B.4 Poisson-Regression

Wir setzen unser Beispiel B.3 zur Poisson-Regression fort. Gemaß dem Newton-Raphson-Verfahren lassen sich die Parameterschatzungen β = (β0, β1)′ durch folgendesVerfahren bestimmen:

1. Setze Startwerte β(0), z.B. β(0) = (0, 0)′. Setze k = 1.

2. Erhalte verbesserte Schatzungen β(k) durch

β(k) = β(k−1) +H(βk−1

)−1

s(βk−1

)= β(k−1) + (X ′WX)−1X ′(y − λ)

Page 31: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.4. Likelihood-Inferenz 475

wobei die Gewichtsmatrix W und der Erwartungswertvektor λ von den aktuel-

len Parameterschatzungen β(k−1) abhangen, d.h. W = W(β(k−1)

)und λ =

λ(β(k−1)

).

3. Falls fur einen sehr kleinen Wert ε > 0

||β(k) − β(k−1)||||β(k−1)|| ≤ ε

beende das Verfahren. Andernfalls setze k = k + 1 und fahre fort mit 2.�

B.4.3 Asymptotische Eigenschaften des ML-Schatzers

Unter schwachen Regularitatsvoraussetzungen (die im Detail vom zugrunde liegendenModell f(y1, . . . , yn |θ) abhangen), gelten folgende asymptotischen Eigenschaften: Furn→∞ bzw. fur großen Stichprobenumfang ist der ML-Schatzer konsistent, asymptotisch(bzw. approximativ) erwartungstreu und asymptotisch bzw. approximativ multivariatnormalverteilt

θa∼ N(θ, V )

mit (geschatzter) Kovarianzmatrix Cov(θ) = V . Diese erhalt man als Inverse der beob-achteten oder erwarteten Informationsmatrix, d.h.

V = H−1(θ) bzw. V = F−1(θ),

ausgewertet an der Stelle θ = θ des ML-Schatzers. Beim Newton- bzw. Fisher-Scoring-Algorithmus werden diese Inversen im Schlussschritt berechnet. Die Diagonalelementevjj von V sind dann die geschatzten Varianzen Var(θj) der j-ten Komponente von θ,und

√vjj ist der geschatzte Standardfehler: sej =

√vjj .

Schließlich sind ML-Schatzer auch noch asymptotisch effizient, d.h. zumindest fur sehrgroßen Stichprobenumfang besitzen sie kleinere Varianz als alle alternativen Schatzer.Die Frage nach dem Stichprobenumfang n ab dem diese asymptotischen Eigenschaftenhinreichend gut erfullt sind, lasst sich nicht allgemein beantworten. Dieser hangt davonab, wie gut die gemeinsame Dichte bzw. die Log-Likelihood an der Stelle θ des ML-Schatzers durch eine Normalverteilung bzw. durch eine quadratische Funktion approxi-miert werden kann. Der Stichprobenumfang n muss in jeden Fall ein Vielfaches (etwa 10– 20-faches) der Anzahl p sein. Im Zweifelsfall sind Simulationsstudien notwendig.

B.4.4 Likelihood-basierte Tests fur lineare Hypothesen

Wir beschranken uns auf das Testen linearer Hypothesen uber θ = (θ1, . . . , θp)′ ∈ ΘH0 : Cθ = d gegen H1 : Cθ �= d,

wobei die (r × p)-Matrix C vollen Zeilenrang r ≤ p besitzt. In diesem Buch ist θ meistder Parametervektor β linearer Effekte in Regressionsmodellen. Ein wichtiger Spezialfallsind Hypothesen uber einen r-dimensionalen Teilvektor θr von θ von der Form

H0 : θr = d gegen H1 : θr �= d.

Page 32: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

476 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

Wenn θr = βr ein Teilvektor von linearen Effekten in einem Regressionsmodell und d = 0ist, dann testet man damit auf Signifikanz der zugehorigen Kovariablen. Zum Testenkonnen die Likelihood-Quotienten-, Wald- und die Score-Statistik verwendet werden.Die Idee fur die Likelihood-Quotienten-Statistik beruht auf dem Likelihood-Quotienten

LQ =L(θ)L(θ)

,

wobei θ der ML-Schatzer unter H1, also ohne die lineare Restriktion der Nullhypothese,und θ der ML-Schatzer unter der Gleichungsrestriktion Cθ = d von H0 ist. Der QuotientLQ vergleicht somit das Maximum L(θ) der Likelihood unter H0 mit dem MaximumL(θ) ohne diese Einschrankung auf H0. Damit gilt in jedem Fall LQ ≥ 1 und fur Wertenahe bei 1 ist die Einschrankung von θ auf H0 nahezu ohne Auswirkungen. Somit wirdman intuitiv H0 nicht ablehnen. Großere Werte von LQ sprechen dagegen gegen dieNullhypothese.Ahnlich wie beim ML-Schatzer geht man noch durch Logarithmieren uber zur Log-Likelihood-Quotienten-Statistik

lq = 2{l(θ)− l(θ)} = −2{l(θ)− l(θ)}wodurch die Log-Likelihoodwerte l(θ) und l(θ) verglichen werden. Falls das unrestrin-gierte Maximum l(θ) deutlich großer als l(θ) ist, wird lq groß und H0 zugunsten von H1

abgelehnt.Zur Berechnung von θ muss die Maximierung von l(θ) unter Beachtung der linearenNebenbedingung Cθ = d durchgefuhrt werden. Dieser rechentechnische Nachteil lasstsich mit der Wald-Statistik

w = (Cθ − d)′(CV C ′)−1(Cθ − d)

vermeiden. Dabei ist V die (geschatzte) Kovarianzmatrix von θ und somit CV C ′ die(geschatzte) Kovarianzmatrix von Cθ − d. Die Wald-Statistik misst die durch die in-verse Kovarianzmatrix gewichtete Differenz zwischen Cθ und d. Falls H0 zutrifft, solltedieser Wert klein sein. Große Werte von w sprechen fur H1 : Cθ �= d. Fur die spezielleHypothese H0 : θr = d ist

w = (θr − d)′V−1

r (θr − d)

mit V r = Cov(θr) als (geschatzter) Kovarianzmatrix von θr.Die Score-Statistik

u = s′(θ)F−1(θ)s(θ)

misst die gewichtete Distanz zwischen dem Wert 0 = s(θ) der Score-Funktion an derStelle θ und dem Wert s(θ) ausgewertet am restringierten ML-Schatzer θ.Wald-Tests sind dann rechnerisch vorteilhaft, wenn zu einem bereits geschatzten Mo-dell ein Teilmodell getestet werden soll. Dann braucht das Teilmodell nicht zusatzlichgeschatzt werden. Umgekehrt sind Score-Tests gunstig, wenn ein geschatztes Modell ge-gen ein Obermodell getestet werden soll. Mit Wald- und Score-Tests konnen deshalbRuckwarts- bzw. Vorwartsselektionen von Variablen numerisch effizient durchgefuhrtwerden.

Page 33: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.4. Likelihood-Inferenz 477

Unter ahnlich schwachen Voraussetzungen wie fur die asymptotische Normalitat des ML-Schatzers sind die drei Teststatistiken unter H0 asymptotisch aquivalent und asympto-tisch bzw. approximativ χ2-verteilt mit r Freiheitsgraden:

lq, w, ua∼ χ2

r.

Kritische Werte oder p-Werte werden uber diese asymptotische Verteilung berechnet.Fur mittleren Stichprobenumfang ist die Approximation durch die χ2-Grenzverteilungin der Regel ausreichend. Fur kleinere Stichprobenumfange konnen sich die Werte derTeststatistiken jedoch deutlich unterscheiden.

B.4.5 Modellwahl

Will man zwischen mehreren konkurrierenden statistischen Modellen mit verschiedenenPradiktoren und Parametern auswahlen, muss ein Kompromiss zwischen moglichst guterDatenanpassung und zu großer Modellkomplexitat, d.h. einer hohen effektiven Anzahlvon Parametern getroffen werden. So wird etwa in linearen Regressionsmodellen dasBestimmtheitsmaß R2 durch Einbeziehen zusatzlicher Kovariablen, Interaktionen etc.immer weiter erhoht, jedoch ist dies meist mit einer Uberanpassung (overfitting) anden vorliegenden (Lern-) Datensatz verbunden und geht mit einem Verlust an Progno-sefahigkeit und der Generalisierbarkeit fur neue Daten einher. Deshalb mussen Kriterienzur reinen Modellanpassung, wie R2 bzw. in der Likelihood-Inferenz die Devianz oder dieLog-Likelihood, so modifiziert werden, dass eine Uberanpassung an den Datensatz durchBestrafung zu hoher Komplexitat, d.h. einer zu hohen (effektiven) Anzahl von Para-metern, vermieden wird. Im Rahmen der parametrischen Likelihood-Inferenz mit einemp-dimensionalen Parametervektor θ = (θ1, . . . , θp)′ ist das AIC (Akaike’s InformationCriterion) gegeben durch

AIC = −2 l(θ) + 2 p,

wobei der Term 2 p ein uberparametrisiertes Modell bestraft. Bei der Wahl zwischenverschiedenen Modellen wird das Modell mit dem kleinsten AIC-Wert (und nicht mitder großten Log-Likelihood l(θ)!) bevorzugt. Statt des AIC wird oft auch der mit demStichprobenumfang n dividierte Wert AIC/n verwendet.Fur non- und semiparametrische Modelle, wie fur Glattungsverfahren in Kapitel 7, wirddie fixe Dimension p durch die ,,effektive” Dimension

df = sp(S),

(also die Spur der Glattungsmatrix) ersetzt (vgl. Abschnitt 7.1.8, Seite 345). Zudemexistieren alternative Strafterme, wie zum Beispiel beim korrigierten AICcorr

AICcorr = −2 l(θ) +2n(df + 1)n− df − 2

.

Das AIC besitzt eine informationstheoretische Rechtfertigung, die sehr schon in demBuch von Burnham & Anderson (2002) beschrieben ist.

Page 34: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

478 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

B.5 Bayes-Inferenz

Mit der Entwicklung von computerintensiven, simulationsbasierten Markov-Chain-Monte-Carlo (MCMC) Methoden seit Anfang der 1990er Jahre kann die Bayes-Inferenz fur sta-tistische Modelle von realitatsnaher Komplexitat eingesetzt werden. Wir stellen zunachstdas Konzept der Bayes-Inferenz und anschließend MCMC-Verfahren vor.

B.5.1 Grundlagen der Bayes-Inferenz

Der fundamentale Unterschied zur Likelihood-basierten Inferenz besteht darin, dass dieunbekannten Parameter θ = (θ1, . . . , θp)′ keine festen deterministischen Großen sind,sondern als zufallig angenommen werden und eine Priori-Verteilung besitzen. Ein Baye-sianisches Modell besteht daher aus zwei Teilen:

• Priori-Verteilung: Das (subjektive) Vorwissen uber die unbekannten Parameter wirddurch die Spezifikation einer Wahrscheinlichkeitsverteilung fur den unbekannten Para-meter θ ausgedruckt. Diese Verteilung wird als Priori-Verteilung von θ bezeichnet. DieSpezifikation einer Priori-Verteilung fur θ bedeutet nicht notwendigerweise, dass dieunbekannten Parameter θ tatsachlich stochastisch sind. Vielmehr drucken wir durchdie Priori-Verteilung den Grad der Unsicherheit uber den unbekannten Parameter vorDurchfuhrung der statistischen Analyse aus. Die Dichte bzw. Wahrscheinlichkeitsfunk-tion der Priori-Verteilung bezeichnen wir im Folgenden mit p(θ).

• Beobachtungsmodell: Im sogenannten Beobachtungsmodell wird die bedingte Vertei-lung der beobachtbaren Großen, also der Stichprobenvariablen Y = (Y1, . . . , Yn)′, beigegebenem unbekanntem Parameter spezifiziert. Die Dichte dieser Verteilung ist pro-portional zur Likelihood L(θ) und wird im Folgenden mit p(y |θ) bezeichnet.

Basierend auf der Priori-Verteilung und dem Beobachtungsmodell konnen wir unter Zu-hilfenahme des Satzes von Bayes die Verteilung von θ nach Durchfuhrung des Experi-ments, also die bedingte Verteilung von θ bei gegebenen Beobachtungen y = (y1, . . . , yn)′,bestimmen. Wir erhalten

p(θ |y) =p(y |θ) p(θ)∫p(y |θ) p(θ) dθ

= c · p(y |θ) p(θ),

mit der Normierungskonstanten c = [∫p(y |θ)p(θ) dθ]−1. Diese Verteilung wird als

Posteriori-Verteilung bezeichnet.

Beispiel B.5 Poisson-Verteilung

Wir betrachten eine Poisson-verteilte i.i.d. Stichprobe Y1, . . . , Yn, d.h. Yi ∼ Po(λ). DerParameter λ ist unbekannt und soll mit Bayesianischer Inferenz geschatzt werden. Diegemeinsame Wahrscheinlichkeit der beobachteten Stichprobe y = (y1, . . . , yn)′ ist wiein Beispiel B.1 gegeben durch

p(y |λ) =1

y1! · · · yn!λ∑ni=1 yi exp(−nλ).

Als Priori-Verteilung fur λ verwenden wir eine Gammaverteilung mit Parametern a undb, also λ ∼ G(a, b). Eine Begrundung fur die spezielle Wahl der Priori-Verteilung gebenwir weiter unten. Damit hat λ die Dichte

Page 35: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.5. Bayes-Inferenz 479

p(λ) = k λa−1 exp(−bλ)

mit k = ba

Γ (a). Als Posteriori-Verteilung erhalt man

p(λ |y) =p(y |λ) p(λ)∫p(y |λ) p(λ) dλ

= c1

y1! · · · yn!λ∑ni=1 yi exp(−nλ) kλa−1 exp(−bλ).

Bei der Bestimmung des Verteilungstyps konnen wir samtliche Faktoren in der Poste-riori-Dichte, die nicht von λ abhangen, ignorieren. Wir erhalten

p(λ |y) ∝ λ∑ni=1 yi exp(−nλ)λa−1 exp(−bλ) = λa+

∑ni=1 yi − 1 exp(−(b+ n)λ).

Damit besitzt die Posteriori-Dichte die Gestalt einer Gammaverteilung mit Parameterna′ = a+

∑ni=1 yi und b′ = b+ n, d.h.

λ |y ∼ G(a+

n∑i=1

yi, b+ n

).

Als Posteriori-Verteilung erhalten wir also denselben Verteilungstyp wie die Priori-Verteilung. Dieser wunschenswerte Fall kann in vielen (einfacheren) Bayesianischen Mo-dellen erreicht werden. Wir sprechen in diesem Zusammenhang von der Priori-Verteilungals der zum Poisson-Stichprobenmodell konjugierten Verteilung, weil die Posteriori den-selben Verteilungstyp besitzt wie die Priori-Verteilung.

Beispiel B.6 Bayesianisches Logit-Modell

Wir betrachten ein Logit-Modell mit einer Kovariablen x:

yi = B(1, πi), πi =exp(ηi)

1 + exp(ηi), ηi = β0 + β1xi, i = 1, . . . , n.

Mit diesen Spezifikationen ist das Beobachtungsmodell gegeben durch

p(y|β) ∝ L(β) =

n∏i=1

πyii (1− πi)1−yi ,

wobei β = (β0, β1)′ der Vektor der Regressionskoeffizienten ist. Zur vollstandigen Spezi-fikation eines Bayesianischen Modells benotigen wir eine Priori-Verteilung fur β0 und β1.Da die geschatzten Regressionskoeffizienten in Regressionsmodellen haufig zumindestasymptotisch normalverteilt sind, liegt es nahe eine zweidimensionale Normalverteilungals Priori anzunehmen. Wir spezifizieren also fur β = (β0, β1)′ die Priori-Verteilung

p(β) ∼ N(m,M )

mit Priori-Erwartungswert m und Priori-Kovarianzmatrix M . Wenn beispielsweiseErgebnisse einer vorangegangenen Untersuchung vorliegen, kann der dort erhaltenePunktschatzer fur m und die geschatzte Kovarianzmatrix fur M eingesetzt werden.Je nachdem wie weit die Ergebnisse zuruckliegen, konnte man auch die Kovarianzma-trix mit einem Faktor c > 1 multiplizieren um die Varianzen in M zu vergroßern unddamit die Priori-Information abzuschwachen.

In vielen Fallen stehen wir aber vor der Situation, dass keinerlei Vorwissen uber dieRegressionskoeffizienten vorliegt. Wenn wir die Varianzen in M immer mehr aufblahen,d.h. c immer weiter vergroßern, wird die Priori-Normalverteilungsdichte immer flacher

Page 36: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

480 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

und nahert sich einer Gleichverteilung an. Fur c→∞ ist die Priori-Dichte proportionalzu einer Konstanten, d.h.

p(β) ∝ const.

Das Integral dieser Verteilung uber R ist unendlich, so dass es sich bei p(β) nicht umdie Dichte einer Verteilung im eigentlichen Sinne handelt. Wir sprechen auch von eineruneigentlichen oder diffusen Verteilung. Trotzdem sind diffuse Verteilungen als Priori-Verteilungen in vielen Fallen zulassig, und zwar immer dann, wenn die gemaß dem Satzvon Bayes resultierende Posteriori-Verteilung eine im Sinne der Wahrscheinlichkeits-rechnung eigentliche Verteilung ist. In einem Bayesianischen Logit-Modell ist dies derFall falls der ML-Schatzer fur β existiert. Als Posteriori Verteilung erhalten wir miteiner diffusen Priori-Verteilung die Dichte

p(β |y) =p(β)p(y|β)∫p(β)p(y|β)dβ

∝ p(y|β) =

n∏i=1

πyii (1− πi)1−yi .

Obwohl die Posteriori-Verteilung eine eigentliche Verteilung ist, kann uber den Vertei-lungstyp keine Aussage getroffen werden. Diese Beobachtung hat erhebliche Auswirkun-gen auf die statistische Inferenz, da Charakteristika der Posteriori-Verteilung analytischnur schwer zuganglich sind. Ein auf der Ziehung von Zufallszahlen basierender Zuganguber MCMC-Methoden ist hingegen moglich, siehe Abschnitt B.5.3 und insbesondereBeispiel B.8

Von der Posteriori-Verteilung gehen im Bayes-Ansatz samtliche Inferenzschlusse bezuglichder unbekannten Parameter θ aus. Im folgenden Abschnitt beschreiben wir sowohl Baye-sianische Punkt- als auch Intervallschatzer.

B.5.2 Punkt- und Intervallschatzer

Punktschatzer

Die ublichen Punktschatzer der Bayesianischen Inferenz sind Posteriori-Erwartungswert,Posteriori-Median und Posteriori-Modus. Alle drei Punktschatzer konnen unter entschei-dungstheoretischen Gesichtspunkten diskutiert und gerechtfertigt werden, wir gehen dar-auf jedoch nicht genauer ein und stellen lediglich die Schatzer vor.Der Posteriori-Erwartungswert als Punktschatzer ist gegeben durch

θ = E(θ |y) =∫θ p(θ |y) dθ = c ·

∫θ p(y |θ) p(θ) dθ.

Bei der analytischen oder numerischen Bestimmung des Posteriori-Erwartungswerts sindsomit (unter Umstanden hochdimensionale) Integrale zu berechnen. Die damit verbunde-nen Schwierigkeiten waren lange Zeit ein Hauptgrund fur die geringe Akzeptanz Bayesia-nischer Methoden in der Praxis. Mit Hilfe simulationsbasierter Methoden insbesondereMCMC-Verfahren, halten sich die Schwierigkeiten aber mittlerweile in Grenzen. Hierzumehr in Abschnitt B.5.3.Als weiterer Punktschatzer θ fur θ kommt der Posteriori-Modus, also das globale Maxi-mum der Posteriori-Verteilung in Frage:

θ = arg maxθ

p(θ |y) = arg maxθ

p(y |θ)p(θ).

Page 37: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.5. Bayes-Inferenz 481

Der Vorteil des Posteriori-Modus im Vergleich zum Posteriori-Erwartungswert bestehtdarin, dass die Normierungskonstante zur Berechnung nicht benotigt wird.Da der Median robust gegenuber Ausreißern ist, wird er haufig gegenuber dem Erwar-tungswert als Punktschatzer fur θ bevorzugt.

Beispiel B.7 Poisson-Verteilung

In Beispiel B.5 haben wir als Posteriori-Verteilung fur λ eine Gammaverteilung mitParametern a′ = a +

∑ni=1 xi und b′ = b + n erhalten. Als Posteriori-Erwartungswert

ergibt sich

E(λ |x) =a+

∑ni=1 xi

b+ n.

Je kleiner a (im Vergleich zu∑xi) und b (im Vergleich zu n), desto mehr stimmt der

Posteriori-Erwartungswert als Punktschatzer mit dem ublichen Maximum-Likelihood-Schatzer λ = x fur λ uberein. Je starker die Priori-Information, d.h. je großer a und b,desto mehr weichen Posteriori-Erwartungswert und der ML-Schatzer voneinander ab.

Intervallschatzung

Punktschatzer reduzieren die Information in der Posteriori-Verteilung auf eine einzigeGroße. Insbesondere die Genauigkeit der Schatzungen wird damit aber nicht erfasst.Naturliche Maße fur die Genauigkeit sind die ublichen Kennzahlen fur die Variabilitatvon Zufallsvariablen. Wird der Posteriori-Erwartungswert als Punktschatzer verwendet,so bietet sich die Posteriori-Varianz an. Im Falle des Medians als Punktschatzer kannder Interquartilsabstand als Maß fur die Variabilitat der Schatzung verwendet werden.Schließlich kann bei Verwendung des Posteriori-Modus die Krummung der Posteriori-Dichte beim Modus, also die beobachtete Fisher-Information, herangezogen werden.Neben den genannten Maßzahlen finden vor allem sogenannte Vertrauensintervalle oderBayesianische Konfidenzintervalle als Analoga zu den frequentistischen Konfidenzinter-vallen zur Beurteilung der Variabilitat Anwendung. Vertrauensintervalle bzw. allgemeinerVertrauensbereiche sind wie folgt definiert:Eine Teilmenge C ⊂ Θ des Parameterraums heißt (1− α)-Vertrauensbereich oder Baye-sianisches Konfidenzintervall fur θ, wenn

P (θ ∈ C |y) ≥ 1− αist. Ein Vertrauensbereich fur θ ist also so definiert, dass er (mindestens) die vorgegebe-ne Wahrscheinlichkeitsmasse 1− α der Posteriori-Verteilung enthalt. Man beachte, dassVertrauensbereiche eine vollig andere Interpretation als klassische Konfidenzbereiche be-sitzen. Beim klassischen Konfidenzbereich wird keine Wahrscheinlichkeitsaussage uberden unbekannten Parameter θ getroffen. Dieser ist ja im klassischen Inferenz-Konzeptkeine zufallige Große. Vielmehr wird eine Wahrscheinlichkeitsaussage uber die Stichprobey = (y1, . . . , yn)′ getroffen. Der Konfidenzbereich C(y) enthalt den unbekannten, wah-ren Parameter θ mit Wahrscheinlichkeit 1 − α. Wird also das Schatzverfahren haufigwiederholt, so enthalt der konstruierte Konfidenzbereich den unbekannten Parameter inungefahr (1−α) ·100 Prozent der Falle. Beim Bayesianischen Vertrauensbereich hingegenwird tatsachlich eine Wahrscheinlichkeitsaussage uber den als zufallig angesehenen Para-meter θ getroffen. Der Vertrauensbereich umfasst (1−α) · 100 Prozent der Wahrschein-lichkeitsmasse der Posteriori-Verteilung, d.h. eine aus der Posteriori gezogene Zufallszahlθ ist mit Wahrscheinlichkeit 1− α im Vertrauensbereich enthalten.

Page 38: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

482 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

Bayesianische Vertrauensbereiche sind mit analytischen Methoden oft schwer zu berech-nen. Sie lassen sich aber leicht mit den im folgenden Abschnitt beschriebenen MCMC-Methoden zur Ziehung von Zufallszahlen aus der Posteriori-Verteilung bestimmen.

B.5.3 MCMC-Methoden

Die Hauptschwierigkeit bei der Anwendung Bayesianischer Methoden bestand langeZeit darin, dass die Posteriori-Verteilung in vielen Fallen analytisch und numerischunzuganglich war. Mit dem Aufkommen moderner sogenannter Markov-Chain-Monte-Carlo- (MCMC-) Methoden Anfang der 1990er Jahre konnten die Schwierigkeiten groß-tenteils gelost werden. Heute sind nun selbst solche Probleme zuganglich, die mitStandardverfahren der Statistik bisher nicht gelost werden konnten. Obwohl MCMC-Methoden bereits in den 1950er Jahren (Metropolis, Rosenbluth, Rosenbluth, Teller &Teller 1953) vor allem unter Physikern bekannt waren, dauerte es bis Anfang der 1990erJahre (Gelfand & Smith 1990), bis die Nutzlichkeit und enorme Vielseitigkeit dieser Me-thoden insbesondere im Zusammenhang mit Bayesianischer Inferenz unter StatistikernBeachtung fand. Eine gute Einfuhrung in die Methodik findet man etwa in Gilks, Ri-chardson & Spiegelhalter (1996) und Green (2001). Hier beschranken wir uns lediglichauf die Darstellung der Grundidee und die Beschreibung der wichtigsten Algorithmen.MCMC-Methoden erlauben das Ziehen von Zufallszahlen aus einer in der Regel analytischunzuganglichen Posteriori-Verteilung (und prinzipiell auch aus jeder anderen Verteilung).Auf diesem Wege kann eine beliebig genaue Schatzung von Charakteristika der Posteriori-Verteilung wie Erwartungswert, Varianz oder Quantile bis hin zur Schatzung der Dichteder Verteilung vorgenommen werden. Der wichtigste Vorteil der MCMC-Methoden imVergleich zu alternativen Methoden der Zufallszahlenziehung, gedacht sei hier z.B. andas Importance- oder Rejection-Sampling, besteht darin, dass man nicht auf Posteriori-Dichten niedriger Dimension beschrankt ist, sondern vielmehr hochkomplexe Dichten mitDimension 1000 oder hoher bewaltigen kann. Ein weiterer Vorteil von MCMC-Methodenberuht auf der Tatsache, dass die Normierungskonstante der Posteriori-Verteilung, einin der Regel hochdimensionales und damit auch numerisch unlosbares Integral, nichtbekannt sein muss.Die Grundidee bei MCMC-Verfahren ist relativ einfach. Sei θ der unbekannte Parameter-vektor in einem Bayesianischen Modell und p(θ |y) die Dichte die Posteriori-Verteilung.Wir beschranken uns in diesem Kapitel auf stetige Verteilungen. Anstelle aus der Dichtep(θ |y) direkt eine unabhangige Stichprobe zu ziehen, wird statt dessen eine Markov-kette erzeugt, deren Iterationen des Ubergangskerns gegen die interessierende Posteriori-Verteilung konvergieren. Auf diese Weise erhalt man dann eine Stichprobe, die nach ei-ner gewissen Konvergenzzeit, auch ”Burn In“-Phase genannt, als (allerdings abhangige)Stichprobe aus der Posteriori-Verteilung angesehen werden kann. Bevor wir die dazubenotigten Algorithmen genauer besprechen, wollen wir noch einmal darauf hinweisen,dass MCMC-Verfahren nicht nur zur Simulation aus Posteriori-Verteilungen in der Bayes-Inferenz, sondern allgemein zur Simulation von Zufallszahlen aus komplexen Verteilungenverwendet werden konnen. Dazu ist in den folgenden Abschnitten lediglich die Posteriori-Verteilung p(θ |y) durch die entsprechende Dichte zu ersetzen.

Page 39: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.5. Bayes-Inferenz 483

Metropolis-Hastings-Algorithmus

Der Basis-Algorithmus, von dem dann alle weiteren Algorithmen abgeleitet sind, ist wiefolgt konstruiert: Zunachst wird ein Startwert θ(0) festgelegt. Anstatt aus der interessie-renden Posteriori-Dichte p(θ |y) direkt zu ziehen, wird in jeder Iteration des Algorithmuseine neue Zufallszahl θ∗ aus einer sogenannten Vorschlagsdichte q gezogen. In der Re-gel hangt die Vorschlagsdichte vom aktuellen Zustand θ(t−1) ab, d.h. q = q(θ∗ |θ(t−1)).Die Wahl der Vorschlagsdichte ist dabei prinzipiell beliebig, jedoch sollte es sich um ei-ne Verteilung handeln, aus der relativ leicht Zufallszahlen gezogen werden konnen. Dadie Vorschlagsdichte nicht mit der Posteriori-Verteilung ubereinstimmt, konnen nicht al-le vorgeschlagenen Zufallszahlen θ∗ als neuer aktueller Zustand θ(t) akzeptiert werden,sondern nur mit einer gewissen Wahrscheinlichkeit α. Dabei handelt es sich im Wesentli-chen um den Quotienten der Posteriori-Dichte und der Vorschlagsdichte ausgewertet amaktuellen Zustand θ(t−1) und dem vorgeschlagenen Wert θ∗. Genauer gilt

α(θ∗ |θ(t−1)) = min{

p(θ∗ |y) q(θ(t−1) |θ∗)p(θ(t−1) |y) q(θ∗ |θ(t−1))

, 1}.

Wird der vorgeschlagene Parametervektor θ∗ nicht akzeptiert, so setzt man θ(t) = θ(t−1).Die Dichte p(θ |y) geht in α(θ∗ |θ(t−1)) lediglich im Verhaltnis p(θ∗ |y)/p(θ(t−1) |y) ein,so dass alle konstanten Ausdrucke in p(θ |y) nicht berucksichtigt werden mussen. Ins-besondere bedeutet dies, dass die Normierungskonstante der Posteriori-Verteilung nichtbekannt sein muss. Dies ist einer großen Vorteile von MCMC Methoden im Vergleich zuherkommlichen Verfahren zur Zufallszahlenziehung.Der Metropolis-Hastings-Algorithmus vereinfacht sich nochmals, wenn eine symmetrischeVorschlagsdichte mit q(θ∗ |θ(t−1)) = q(θ(t−1) |θ∗) verwendet wird. In diesem Fall erhaltman als Akzeptanzwahrscheinlichkeit

α(θ∗|θ(t−1)) = min{

p(θ∗ |y)p(θ(t−1) |y)

, 1}.

Es handelt sich hier um den 1953 veroffentlichten, ursprunglichen Metropolis-Algorithmus,der dann von Hastings (1970) auf den allgemeineren Fall nicht symmetrischer Dichtenerweitert wurde.Die Kunst bei der Verwendung des Metropolis-Hastings-Algorithmus besteht darin einegeeignete Vorschlagsdichte zu wahlen. Die Vorschlagsdichte muss garantieren, dass dieAkzeptanzwahrscheinlichkeiten groß genug sind und die hintereinander gezogenen Zu-fallszahlen eine moglichst geringe Abhangigkeit aufweisen. Je geringer die Abhangigkeit,desto geringer ist der erforderliche Stichprobenumfang an Zufallszahlen zur Schatzungvon Charakteristika der Posteriori-Verteilung. Wir illustrieren die Konstruktion einesMetropolis-Hastings-Algorithmus am Beispiel eines Bayesianischen Logit-Modells:

Beispiel B.8 Bayesianisches Logit-Modell

Wir betrachten das folgende simulierte Logit-Modell mit zwei Kovariablen x1 und x2:

yi = B(1, πi) i = 1, . . . , 500,

πi =exp(ηi)

1 + exp(ηi),

ηi = −0.5 + 0.6xi1 − 0.3xi2.

Page 40: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

484 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

Metropolis-Hastings-Algorithmus

Sei p(θ |y) die Dichte der Verteilung, aus der Zufallszahlen gezogen werden sol-len. Gemaß dem Metropolis-Hastings-Algorithmus werden Zufallszahlen wie folgtgezogen:

1. Wahle einen Startwert θ(0) und die Anzahl der Iterationen T . Setze t = 1.2. Ziehe eine Zufallszahl θ∗ aus der Vorschlagsdichte q(θ∗ |θ(t−1)) und akzeptiere

diese als neuen Zustand θ(t) mit Wahrscheinlichkeit α(θ∗ |θ(t−1)), andernfallssetze θ(t) = θ(t−1).

3. Falls t = T beende den Algorithmus, ansonsten setze t = t+ 1 und fahre fortmit 2.

Nach einer gewissen Konvergenzphase t0 konnen die Zufallszahlen θ(t0+1), . . . ,θ(T )

als (abhangige) Stichprobe aus der Dichte p(θ |y) angesehen werden.

Die Kovariablen x1 und x2 wurden jeweils gemaß einer Standardnormalverteilung simu-liert. Wir stellen uns die Aufgabe fur die simulierten Daten einen Metropolis-Hastings-Algorithmus zur Schatzung der Parameter β = (−0.5, 0.6,−0.3)′ zu konstruieren.

Als Priori-Verteilung verwenden wir unabhangige diffuse Verteilungen p(βj) ∝ const.Mit diesen Spezifikationen ist die Posteriori-Verteilung proportional zur Likelihood:

p(β |y) ∝500∏i=1

πyii (1− πi)1−yi .

Zur Implementation eines Metropolis-Hastings-Algorithmus verwenden wir als Vor-schlagsdichte eine dreidimensionale Normalverteilung mit dem aktuellen Zustand βt−1

der Kette als Erwartungswert. Als Kovarianzmatrix fungiert zunachst die Diagonalma-trix Σ = diag(0.42, 0.42, 0.42). Abbildung B.2 (erste Zeile) zeigt die ersten 2000 der mitdieser Vorschlagsdichte gezogenen Zufallszahlen fur die Parameter β0 und β1. Da wir dif-fuse Verteilungen als Priori verwendet haben, mussen die Bayes-Schatzer fur die Regres-sionskoeffizienten ungefahr mit den Maximum-Likelihood Schatzern ubereinstimmen. Inden Grafiken sind daher die ML-Schatzer in Form von horizontalen Geraden eingezeich-net. Offenbar werden mit diesem ersten Algorithmus nur wenige neu vorgeschlageneZufallszahlen akzeptiert, teilweise bleibt der Zustand fur mehr als 100 Iterationen un-verandert. Die Akzeptanzwahrscheinlichkeiten sind also viel zu klein. Hohere Akzeptanz-wahrscheinlichkeiten erhalten wir, indem die Varianzen in der Vorschlagsdichte verklei-nert werden. Wir initialisieren also einen weiteren MH-Algorithmus mit Kovarianzma-trix Σ = diag(0.12, 0.12, 0.12) fur die Vorschlagsdichte. Die zweite Reihe in AbbildungB.2 zeigt die resultierenden ersten 2000 Zufallszahlen fur β0 und β1. Wir konnen deut-lich die kurze Konvergenzzeit von circa 50 Iterationen erkennen. Anschließend erhaltenwir einen zufrieden stellenden Algorithmus mit relativ hohen Akzeptanzraten. Wenn wirdie Varianzen in Kovarianzmatrix weiter verkleinern mit Σ = diag(0.022, 0.022, 0.022)(dritte Zeile in Abbildung B.2) erhohen sich zwar die Akzeptanzraten weiter, jedochverharren hintereinander gezogene Parameter fast im gleichen Zustand.

Ein nutzliches und wichtiges Hilfsmittel bei der Beurteilung von MCMC-Algorithmenist die Autokorrelationsfunktion der gezogenen Parameter, vergleiche zur Autokorrela-tionsfunktion auch Abschnitt 3.4.4 (Seite 137). Idealerweise sollten die Autokorrelatio-nen moglichst rasch gegen Null abfallen. Je geringer die Abhangigkeiten hintereinander

Page 41: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.5. Bayes-Inferenz 485

−.8

−.6

−.4

−.2

0

0 500 1000 1500 2000t

Samplingpfad b_0

−.6

−.4

−.2

0

0 500 1000 1500 2000t

Samplingpfad b_2

−0.

500.

000.

501.

00em

piris

che

AC

F

1 5 9 13 17 21 25 29 33 37 40Verzögerung

Bartlett’s formula for MA(q) 95% confidence bands

(a) Sampler mit Varianz 0.4^2

−1

−.8

−.6

−.4

−.2

0

0 500 1000 1500 2000t

Samplingpfad b_0

−.6

−.4

−.2

0

0 500 1000 1500 2000t

Samplingpfad b_2

−0.

500.

000.

501.

00em

piris

che

AC

F

1 5 9 13 17 21 25 29 33 37 40Verzögerung

Bartlett’s formula for MA(q) 95% confidence bands

(a) Sampler mit Varianz 0.1^2

−1

−.8

−.6

−.4

−.2

0

0 500 1000 1500 2000t

Samplingpfad b_0

−.6

−.4

−.2

0

0 500 1000 1500 2000t

Samplingpfad b_2

−0.

500.

000.

501.

00em

piris

che

AC

F

1 5 9 13 17 21 25 29 33 37 40Verzögerung

Bartlett’s formula for MA(q) 95% confidence bands

(a) Sampler mit Varianz 0.02^2

−1

−.8

−.6

−.4

−.2

0 500 1000 1500 2000t

Samplingpfad b_0

−.6

−.5

−.4

−.3

−.2

0 500 1000 1500 2000t

Samplingpfad b_2

−0.

500.

000.

501.

00em

piris

che

AC

F

1 5 9 13 17 21 25 29 33 37 40Verzögerung

Bartlett’s formula for MA(q) 95% confidence bands

(a) Sampler mit IWLS Proposals

Abb. B.2. Samplingpfade fur β0 und β1 fur die verschiedenen MH-Algorithmen. Die rechteSpalte zeigt die jeweiligen Autokorrelationsfunktionen fur β1.

gezogener Parameter, desto genauer konnen Charakteristika der Posteriori-Verteilungabgeschatzt werden bei gleicher Stichprobenlange T der Kette. Die rechte Spalte vonAbbildung B.2 zeigt exemplarisch fur die drei bisher konstruierten MH-Algorithmendie jeweiligen Autokorrelationsfunktionen fur β1. Offenbar sind die Autokorrelationenim ersten und dritten Algorithmus auch bei einer Verzogerung von 40 noch extremhoch, wahrend beim zweiten Algorithmus die Autokorrelationen fur Verzogerungen abcirca 20 nahezu verschwinden. In der Praxis werden haufig die gezogenen Zufallszah-len

”ausgedunnt“, d.h. es wird nur jede k-te gezogene Zufallszahl gespeichert, so dass

die verbleibenden Zufallszahlen annahernd unkorreliert sind. Auf diese Art und Wei-se wird angesichts oft hochdimensionaler Modelle Speicherplatz gespart ohne dass dieSchatzgenauigkeit wesentlich beeinflusst wird. Wollte man im vorliegenden Beispiel ei-ne annahernd unabhangige Stichprobe vom Umfang 1000 speichern, so mussten beimzweiten Algorithmus nach der kurzen Burn-in Phase insgesamt circa 20000 Zufallszahlengezogen und anschließend jede 20. gespeichert werden.

Page 42: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

486 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

Wir konnen also festhalten: Kleine Varianzen der Vorschlagsdichte bewirken große Ak-zeptanzraten. Große Varianzen bewirken den gegenteiligen Effekt, die Akzeptanzratensind eher klein. In beiden Extremfallen sehr großer bzw. kleiner Varianzen sind die Auto-korrelationen hintereinander gezogener Parameter hoch. Die Kunst bei der Konstruktionvon MH-Algorithmen besteht also darin, durch geeignete Wahl der Vorschlagsdichteneinen Algorithmus zu konstruieren, der hohe Akzeptanzraten verbunden mit niedrigenAutokorrelationen aufweist. Daruber hinaus ist ein moglichst automatisiertes Verfahrenwunschenswert, bei dem die Feineinstellung der Parameter der Vorschlagsdichte nichtvon Hand vorgenommen werden muss.

Ein Verfahren, das die genannten wunschenswerten Eigenschaften besitzt ist der in Ka-pitel 4.6 (Seite 228) ausfuhrlich beschriebene MH-Algorithmus. Dieser benotigt keineAdjustierung per Hand und liefert hohe Akzeptanzraten und geringe Autokorrelatio-nen. Die letzte Reihe von Abbildung B.2 zeigt die zu den Daten des Beispiels passendenSamplingpfade fur die Parameter β0 und β1 und die Autokorrelationsfunktion fur β1.Offenbar besitzt der Algorithmus die besten Eigenschaften von allen bisher getestetenAlgorithmen. Die Autokorrelationen verschwinden bereits ab einer Verzogerung von cir-ca 13. Neben der automatisierten optimalen Wahl der Varianzen in der Vorschlagsdichteberucksichtigt dieser Algorithmus auch Korrelationen zwischen den Parametern.

Basierend auf dem automatisierten Algorithmus aus Kapitel 4.6 wurde eine Markov-Kette erzeugt und nach der Burn-In-Phase 20000 Zufallszahlen gezogen, wovon je-de 20. gespeichert wurde. Mit den gespeicherten Zufallszahlen konnen wir samtlicheCharakteristika der Posteriori-Verteilung abschatzen. Als Schatzung fur den Posteriori-Erwartungswert verwenden wir die jeweiligen arithmetischen Mittel der gezogenen Zu-fallszahlen und erhalten β = (−0.64, 0.65,−0.38)′. Diese Schatzung stimmt praktischmit den ML-Schatzungen uberein. Schatzungen fur Bayesianische Vertrauensintervallekonnen wir auf den Quantilen der gezogenen Zufallszahlen aufbauen. Beispielsweise er-halten wir 95% Vertrauensintervalle durch die 2.5% Quantile als untere Grenze und die97.5% Quantile als obere Grenze. Konkret ergeben sich aus der gezogenen Stichprobedie Intervalle [−0.87,−0.42], [0.52 − 0.78] und [−0.52,−0.26] fur die Regressionsko-effizienten. Auch diese stimmen gut mit den aus der Likelihood-Theorie gewonnenenIntervallen uberein (mussen aber anders interpretiert werden).

Der große Vorteil von Inferenzvefahren basierend auf Zufallszahlen besteht darin, dasssehr leicht Inferenzschlusse auch fur komplizierte (nichtlineare) Transformationen derParameter bestimmt werden konnen. Sind wir beispielsweise an einem Vertrauensbe-reich fur exp(β0 + β1 + β2) interessiert, so konnen wir einfach fur jede Ziehung dietransformierte Große berechnen und anschließend auf Basis der gewonnen Zufallszah-len den Vertrauensbereich bestehend aus dem 2.5% und 97.5% Quantil bestimmen.Damit ist keinesfalls ausgeschlossen, dass mit anderen Inferenzverfahren ahnliche In-ferenzschlusse moglich sind. In der Regel ist jedoch die dahinter stehende Methodikdeutlich komplexer.

Gibbs-Sampler und Hybrid-Algorithmen

In vielen praktischen Anwendungen ist der Parametervektor hochdimensional. So sindProbleme mit 1000 und mehr Parametern keine Seltenheit. In diesen Fallen sind die Ak-zeptanzraten auch bei sorgfaltig konstruierten MH-Algorithmen zu klein, weil gleichzeitigeine hochdimensionale Zufallszahl akzeptiert oder verworfen werden muss. Hier schaffenauf dem MH-Algorithmus aufbauende sogenannte Hybrid-Algorithmen Abhilfe. Grund-lage ist eine Art ”Teile und Herrsche“-Strategie. Der hochdimensionale Parametervektor

Page 43: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.5. Bayes-Inferenz 487

θ wird zunachst in kleinere Blocke θ1,θ2, . . . ,θS zerlegt. Anschließend werden separateMH-Schritte fur die entstandenen Teilvektoren konstruiert.Den einfachsten Spezialfall dieser Strategie stellt der sogenannte Gibbs-Sampler dar. Mei-stens existieren zwar keine (einfachen) Verfahren zur direkten Ziehung von Zufallszah-len aus der Dichte p(θ |y) des gesamten Parametervektors. Haufig konnen jedoch ausden bedingten Dichten p(θ1 | ·), p(θ2 | ·), . . . , p(θS | ·) direkt Zufallszahlen gezogen wer-den. Die Notation p(θs | ·) ist dabei eine Abkurzung fur die bedingte Dichte von θjgegeben alle anderen Blocke θ1, . . . ,θs−1,θs+1, . . . ,θS und die Daten y. Diese Dichtenwerden auch als vollstandig bedingte Dichten (full conditionals) bezeichnet. Beim Gibbs-Sampler zieht man in jeder Iteration des Samplers hintereinander Zufallszahlen aus denvollstandig bedingten Dichten und akzeptiert diese in jedem Fall, d.h. mit Wahrschein-lichkeit Eins, als aktuellen Zustand der Markovkette. Nach einer gewissen Konvergenz-zeit konnen die gezogenen Zufallszahlen als Realisationen aus den Marginalverteilungenp(θ1 |y), p(θ2 |y), . . . , p(θS |y) angesehen werden. Details zum Gibbs-Sampler entnimmtman dem nachfolgenden Kasten.

Gibbs-Sampler

Sei p(θ |y) die Dichte der Posteriori-Verteilung, aus der Zufallszahlen gezogen wer-den sollen. Sei weiterhin der Parametervektor θ in S Blocke θ1, . . . ,θS aufgeteilt.Gemaß dem Gibbs-Sampler werden Zufallszahlen wie folgt gezogen:

1. Wahle Startwerte θ(0)1 , . . . ,θ

(0)S und die Anzahl der Iterationen T . Setze t = 1.

2. Fur s = 1, . . . , S: Ziehe Zufallszahlen θ(t)s aus der vollstandig bedingten Dichte

p(θs |θ(t)1 , . . . ,θ

(t)s−1,θ

(t−1)s+1 , . . . ,θ

(t−1)S ,y).

Man beachte dass in der Bedingung jeweils die momentan aktuellen Zustandeverwendet werden.

3. Falls t = T beende den Algorithmus, ansonsten setze t = t+ 1 und fahre fortmit 2.

Nach einer gewissen Konvergenzphase t0 konnen die Zufallszahlen θ(t0+1)s ,. . . ,θ(T )

s

als Ziehungen aus den Marginalverteilungen von θs |y angesehen werden.

Sollte aus Teilen der vollstandig bedingten Dichten keine direkte Zufallszahlenziehungmoglich sein, so bedient man sich wieder der im vorangegangenen Abschnitt beschriebe-nen MH-Algorithmen zur Ziehung. Dabei wird fur den entsprechenden Teilvektor θs eineVorschlagsdichte

qs(θ∗s|θ(t)1 , . . . ,θ

(t)s−1,θ

(t−1)s , . . . ,θ

(t−1)S )

verwendet, aus der Zufallszahlen θ∗s als Vorschlage gezogen werden. Diese werden alsneue Zustande der Markov-Kette mit Wahrscheinlichkeit

α(θ∗s|θ(t−1)s ) = min

{p(θ∗s |θ(t−1)

−s )qs(θ(t−1)s |θ(t)

1 , . . . ,θ(t)s−1,θ

∗s, . . . ,θ

(t−1)S )

p(θ(t−1)s |θ(t−1)

−s )qs(θ∗s|θ(t)1 , . . . ,θ

(t)s−1,θ

(t−1)s , . . . ,θ

(t−1)S )

, 1

}

akzeptiert, wobei p(θs |θ(t−1)−s ) = p(θs |θ(t)

1 , . . . ,θ(t)s−1,θ

(t−1)s+1 , . . . ,θ

(t−1)S ,y) die vollstandig

bedingte Dichte von θs bezeichnet. Andernfalls setzt man wie im MH-Algorithmus

Page 44: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

488 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

θ(t)s = θ

(t−1)s . Zusammengefasst wird Schritt 2 aus dem Gibbs-Sampler-Algorithmus also

ersetzt durch

2.∗ Fur s = 1, . . . , S: Ziehe Zufallszahlen θ∗s aus den Vorschlagsdichten qs(θ∗s|·) und ak-zeptiere diese mit Wahrscheinlichkeit α(θ∗s|θ(t−1)

s ) als neue Zustande θ(t)s , andernfalls

setze θ(t)s = θ

(t−1)s .

Man beachte jedoch, dass durchaus MH- und Gibbs-Sampling-Schritte in 2.∗ kombinierteingesetzt werden konnen. Dazu wird formal die entsprechende Vorschlagsdichte direktmit der vollstandig bedingten Dichte gleichgesetzt. In diesem Fall ergibt sich die Akzep-tanzwahrscheinlichkeit unmittelbar als α(θ∗s|θ(t−1)

s ) = 1, so dass jeder vorgeschlageneWert akzeptiert wird.

B.5.4 Modellwahl

Die klassische Herangehensweise zur Modellwahl in Bayes-Ansatzen ist der Vergleich kon-kurrierender Modelle anhand der Posteriori-Wahrscheinlichkeiten der Modelle. Gegebenseien zunachst zwei konkurrierende Modelle M1 und M2 mit Parametern θ1 und θ2.Dann sind die Posteriori-Wahrscheinlichkeiten fur die beiden Modelle gegeben durch

p(Mj |y) ∝ p(Mj) p(y|Mj) ∝ p(Mj)∫p(y|θj ,Mj) p(θj |Mj) dθj j = 1, 2, (B.4)

wobei p(Mj) die Priori-Wahrscheinlichkeit fur Modell Mj ist, p(θj |Mj) die Priori-Verteilung fur den Parameter θj in Modell Mj und p(y|θj ,Mj) das jeweilige Beob-achtungsmodell darstellt. Die beiden Modelle konnen verglichen werden, indem dasPosteriori-Verhaltnis

p(M1|y)p(M2|y)

=p(M1)p(M2)

p(y|M1)p(y|M2)

gebildet wird. Ist dieses Verhaltnis großer als Eins entscheidet man sich fur Modell 1,andernfalls fur Modell 2. Bei a priori gleichen Wahrscheinlichkeiten fur Modell 1 und 2,d.h. p(M1) = p(M2) = 1/2 vereinfacht sich das Posteriori-Verhaltnis der Wahrscheinlich-keiten zum sogenannten Bayes-Faktor

BF (y) =p(y|M1)p(y|M2)

.

Da wir in den meisten Fallen a priori keines der zur Auswahl stehenden Modelle bevorzu-gen, d.h. alle Modelle a priori gleich wahrscheinlich sind, werden konkurrierende Modellein Bayes-Ansatzen haufig anhand der Bayes-Faktoren verglichen.In vielen praktisch relevanten Fragestellungen ist die exakte Berechnung des Bayes-Faktors nicht leicht moglich, da p(y|Mj) schwer berechenbar ist. Eine Approximationfur die mit −2 multiplizierte Wahrscheinlichkeit p(y|Mj) ist gegeben durch

−2p(y|Mj) = −2 · log(p(y|θj ,Mj)) + log(n) pj ,

wobei pj die Dimension des Parametervektors θj ist und θj der Posteriori-Modus-Schatzer. Diese Formel beruht auf einer Laplace-Approximation des Integrals in (B.4).

Page 45: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

B.5. Bayes-Inferenz 489

Insgesamt fuhrt dies zum sogenannten Bayesian Information Criterion (BIC), das all-gemein fur ein Modell mit Parametervektor θ, Log-Likelihood l(θ) und ML-Schatzer θdefiniert ist durch

BIC = −2l(θ) + log(n) p.

Wir konnen damit unter einer Menge konkurrierender Modelle das Modell mit dem klein-sten BIC auswahlen. Die Minimierung von BIC bedeutet dann gleichzeitig, dass wir (ap-proximativ) das Modell mit der großten Posteriori-Wahrscheinlichkeit auswahlen. Formalbesitzt das BIC eine große Ahnlichkeit mit dem AIC. Lediglich der Faktor 2, mit dembeim AIC die Parameterzahl multipliziert wird, wird durch log(n) ersetzt. Man beach-te jedoch, dass beide Informationskriterien vollig unterschiedlich motiviert sind. In derPraxis werden bei Verwendung des BIC in der Regel weniger komplexe Modelle (d.h.Modelle mit weniger Parametern) selektiert als mit dem AIC, da die Bestrafung beimBIC deutlich starker ist.Tatsachlich wird das BIC in Bayesianischen Analysen relativ selten eingesetzt. Dies hatim Wesentlichen die folgenden Grunde: Zum Einen sind die der approximativen Herlei-tung des BIC zu Grunde liegenden Voraussetzungen insbesondere in komplexeren Model-len nicht oder nur schlecht erfullt. In diesem Zusammenhang ist auch zu beachten, dassin dem Faktor log(n) die Variable n nicht in jedem Fall den Gesamt-Stichprobenumfangdes Datensatzes zu bezeichnen hat. In gemischten Modellen fur Longitudinaldaten waren gegeben durch die Anzahl der Individuen. Zum Anderen werden komplexere Bayesiani-sche Modelle typischerweise mit Hilfe von MCMC-Verfahren geschatzt, so dass das BICohnehin nicht direkt anwendbar ist.Im Zusammenhang mit MCMC-Methoden existiert seit kurzem ein weiteres Kriteriumzur Beurteilung der Gute von Modellen, das sogenannte Deviance Information Criterion(DIC), vergleiche Spiegelhalter, Best, Carlin & van der Linde (2002). Das DIC ist imRahmen eines MCMC-Algorithmus besonders einfach und schnell, quasi nebenbei bere-chenbar und findet daher breite Anwendung. Gegeben sei eine durch MCMC gewonneneStichprobe θ(1), . . . ,θ(T ) von Zufallszahlen aus der Posteriori-Verteilung des Modells. DieBerechnung des DIC beruht dann auf zwei Großen. Zum Einen ist dies die sogenannteunstandardisierte Devianz

D(θ) = −2 log(p(y|θ))

und zum Anderen die sogenannte effektive Zahl an Parametern pD im Modell. Die effek-tive Anzahl an Parametern kann geschatzt werden durch

pD = D(θ)−D(θ),

wobei

D(θ) =1T

T∑t=1

D(θ(t))

die durchschnittliche Posteriori-Devianz ist und D(θ) die Devianz ausgewertet am Mit-telwert θ = 1

T

∑Tt=1 θ

(t) der gezogenen Zufallszahlen. Das DIC lasst sich dann berechnendurch

DIC = D(θ) + pD = 2D(θ)−D(θ).

Ein Nachteil des DIC ist, dass der Wert in verschiedenen MCMC-Durchlaufen schwankt,da das DIC basierend auf einer Stichprobe aus der Posteriori berechnet wird. Es kann also

Page 46: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

490 Anhang B. Wahrscheinlichkeitsrechnung und induktive Statistik

passieren, dass der Vergleich zweier Modelle anhand des DIC in verschiedenen MCMC-Laufen unterschiedlich ausfallt. Dies wird aber in der Regel nur dann der Fall sein, wenndie beiden DIC-Werte nahe beieinander liegen.

Beispiel B.9 Bayesianisches Logit-Modell – DIC

Wir illustrieren die Verwendung des DIC mit den simulierten Daten aus Beispiel B.8.Wenn wir x2 falschlicherweise nicht berucksichtigen und ein Logit-Modell mit nur einerKovariablen x1 schatzen, erhalten wir als effektive Anzahl an Parametern den WertpD = 1.99 und als DIC den Wert 571.6. Die effektive Anzahl an Parametern von un-gefahr zwei ist plausibel, da wir ja genau zwei Parameter β0 und β1 geschatzt haben. Beikorrekt spezifiziertem Modell erhalten wir stattdessen pD = 2.93 und DIC = 540.3. Dieeffektive Anzahl an Parametern erhoht sich also, wie zu erwarten, ungefahr um Eins.Das DIC ist deutlich kleiner als im fehlspezifizierten Modell, so dass das komplexereModell deutlich zu bevorzugen ist.

Zur Illustration starten wir funf weitere MCMC-Laufe, wobei wir uns auf das kor-rekt spezifizierte Modell beschranken. Wir erhalten fur pD die Werte 3.05, 2.99, 3.15,2.87 und 3.23. Fur das DIC ergeben sich die Werte 540.56, 540.42, 540.73, 540.19 und540.91. Damit wird nochmal deutlich, dass das DIC in unterschiedlichen MCMC-Laufenschwankt. Jedoch ist die Variabilitat in aller Regel sehr gering.

Page 47: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

Literaturverzeichnis

Agresti, A. (2002). Categorical Data Analysis (2. Auflage), Wiley, New York.Albert, J. & Chib, S. (1993). Bayesian analysis of binary and polychotomous response data,

Journal of the American Statistical Association 88: 669–679.Anselin, L. (1988). Spatial Econometrics: Methods and Models, Kluwer Academic Publishers,

Boston.Augustin, N. H., Lang, S., Musio, M. & von Wilpert, K. (2007). A spatial model for the

needle losses of pine-trees in the forests of Baden-Wurttemberg: an application of Bayesianstructured additive regression, Applied Statistics 56: 29–50.

Banerjee, S., Carlin, B. P. & Gelfand, A. E. (2003). Hierarchical Modelling and Analysis forSpatial Data, Chapman & Hall / CRC, Boca Raton, FL.

Belsley, D. A., Kuh, E. & Welsch, R. E. (2003). Regression Diagnostics: Identifying InfluentialData and Sources of Collinearity, Wiley, Hoboken, NJ.

Biller, C. (2000). Adaptive Bayesian regression splines in semiparametric generalized linearmodels, Journal of Computational and Graphical Statistics 9: 122–140.

Biller, C. & Fahrmeir, L. (2001). Bayesian varying-coefficient models using adaptive regressionsplines, Statistical Modelling 1: 195–211.

Blossfeld, H.-P., Hamerle, A. & Mayer, K. U. (1986). Ereignisanalyse, Campus Verlag, Frankfurtam Main.

Blossfeld, H.-P. & Rohwer, G. (2001). Techniques of Event History Modeling (2. Auflage),Erlbaum, Mahwah, NJ.

Bortz, J. (2004). Statistik (6. Auflage), Springer, Berlin.Breiman, L. (1996). Bagging predictors, Machine Learning 24: 123–140.Breiman, L. (2001). Random forests, Machine Learning 45: 5–32.Breiman, L., Friedman, J., Stone, C. J. & Olshen, R. A. (1984). Classification and Regression

Trees, Chapman & Hall/CRC, Boca Raton, FL.Breslow, N. E. & Clayton, D. G. (1993). Approximate inference in generalized linear mixed

models, Journal of the American Statistical Association 88: 9–25.Brezger, A. & Lang, S. (2006). Generalized additive regression based on Bayesian P-splines,

Computational Statistics and Data Analysis 50: 967–991.Brockwell, P. J. & Davis, R. A. (2002). Introduction to Time Series and Forecasting (2. Auflage),

Springer, New York.Buhlmann, P. (2006). Boosting for high-dimensional linear models, Annals of Statistics 34: 559–

583.Buhlmann, P. & Yu, B. (2003). Boosting with the L2 loss: regression and classification, Journal

of the American Statistical Association 98: 324–339.Buhlmann, P. & Yu, B. (2006). Sparse boosting, Journal of Machine Learning Research 7: 1001–

1024.Buja, A., Hastie, T. & Tibshirani, R. (1989). Linear smoothers and additive models, Annals of

Statistics 17: 453–510.Burnham, K. P. & Anderson, D. R. (2002). Model Selection and Multimodal Inference (2.

Auflage), Springer, New York.Cameron, A. C. & Trivedi, P. K. (1998). Regression Analysis of Count Data, Cambridge Uni-

versity Press, Cambridge.Carroll, R. J., Ruppert, D., Stefanski, L. A. & Crainiceanu, C. M. (2006). Measurement Error

in Nonlinear Models (2. Auflage), Chapman & Hall / CRC, Boca Raton, FL.

Page 48: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

492 Literaturverzeichnis

Chen, M. H. & Dey, D. K. (2000). Bayesian analysis for correlated ordinal data models, in D. K.Dey, S. K. Ghosh & B. K. Mallick (eds), Generalized linear models: A Bayesian perspective,Marcel Dekker, New York, pp. 133–159.

Chiles, J.-P. & Delfiner, P. (1999). Geostatistics: Modeling Spatial Uncertainty, Wiley, NewYork.

Cleveland, W. S. (1979). Robust locally weighted regression and smoothing scatterplots, Journalof the American Statistical Association 74: 829–836.

Collett, D. (1991). Modelling Binary Data, Chapman & Hall, London.Collett, D. (2003). Modelling Survival Data in Medical Research (2. Auflage), Chapman & Hall

/ CRC, Boca Raton, FL.Cowles, M. & Carlin, B. (1996). Markov chain monte carlo convergence diagnostics: A compa-

rative review, Journal of the American Statistical Association 91: 883–904.Crainiceanu, C. M. & Ruppert, D. (2004). Likelihood ratio tests in linear mixed models with

one variance component, Journal of the Royal Statistical Society B 66: 165–185.Crainiceanu, C., Ruppert, D., Claeskens, G. & Wand, M. (2005). Exact likelihood ratio tests

for penalised splines, Biomtrika 92: 91–103.De Boor, C. (2001). A practical Guide to Splines, Springer, New York.Dellaportas, P. & Smith, A. F. M. (1993). Bayesian inference for generalized linear and propor-

tional hazards models via gibbs sampling, Applied Statistics 42: 443–459.Denison, D. G. T., Mallick, B. K. & Smith, A. F. M. (1998). Automatic Bayesian curve fitting,

Journal of the Royal Statistical Society B 60: 333–350.Denison, D., Holmes, C., Mallick, B. & Smith, A. (2002). Bayesian Methods for Nonlinear

Classification and Regression, Wiley, Chichester.Denuit, M. & Lang, S. (2005). Nonlife ratemaking with bayesian gam’s., Insurance: Mathematics

and Economics 35: 627–647.Dey, D., Gosh, S. K. & Mallick, B. K. (2000). Generalized Linear Models: A Bayesian Perspective,

Dekker, New York.Dierckx, P. (1993). Curve and Surface Fitting with Splines, Clarendon Press, Oxford.Diggle, P. J., Heagerty, P., Liang, K.-L. & Zeger, S. L. (2002). Analysis of Longitudinal Data

(2. Auflage), Oxford University Press, Oxford.DiMatteo, I., Genovese, C. R. & Kass, R. E. (2001). Bayesian curve-fitting with free-knot splines,

Biometrika 88: 1055–1071.Ecker, M. D. & Gelfand, A. E. (2003). Spatial modelling and prediction under stationary non-

geometric range anisotropy, Environmental and Ecological Statistics 10: 165–178.Efron, B., Hastie, T., Johnstone, I. & Tibshirani, R. (2004). Least angle regression, Annals of

Statistics 32: 407–451.Eilers, P. H. C. & Marx, B. D. (2003). Multidimensional calibration with temperature interaction

using two-dimensional penalized signal regression, Chemometrics and Intelligent LaboratorySystems 66: 159–174.

Fahrmeir, L., Hamerle, A. & Tutz, G. (1996). Multivariate Statistische Verfahren (2. Auflage),De Gruyter, Berlin.

Fahrmeir, L. & Kaufmann, H. (1985). Consistency and asymptotic normality of the maximumlikelihood estimator in generalized linear models, The Annals of Statistics 13: 342–368.

Fahrmeir, L., Kneib, T. & Lang, S. (2004). Penalized structured additive regression for space-time data: a Bayesian perspective, Statistica Sinica 14: 731–761.

Fahrmeir, L., Kunstler, R., Pigeot, I. & Tutz, G. (2007). Statistik: Der Weg zur Datenanalyse(6. Auflage), Springer, Berlin.

Fahrmeir, L. & Lang, S. (2001a). Bayesian inference for generalized additive mixed models basedon Markov random field priors, Applied Statistics 50: 201–220.

Fahrmeir, L. & Lang, S. (2001b). Bayesian semiparametric regression analysis of multicategoricaltime-space data, Annals of the Institute of Statistical Mathematics 53: 11–30.

Fahrmeir, L. & Tutz, G. (2001). Multivariate Statistical Modelling Based on Generalized LinearModels (2. Auflage), Springer, New York.

Page 49: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

Literaturverzeichnis 493

Fan, J. & Gijbels, I. (1996). Local Polynomial Modelling and Its Applications, Chapman & Hall,London.

Faraway, J. J. (2004). Linear Models with R, Chapman & Hall / CRC, Boca Raton, FL.Forthofer, R. N. & Lehnen, R. G. (1981). Public Program Analysis: A New Categorical Data

Approach, Lifetime Learning Publications, Belmont, Calif.Fotheringham, A., Brunsdon, C. & Charlton, M. (2002). Geographically Weighted Regression:

The Analysis of Spatially Varying Relationships, Wiley, Chichester.Friedman, J. H. (1991). Multivariate adaptive regression splines, The Annals of Statistics 19: 1–

141.Furnival, G. M. & Wilson, R. W. (1974). Regression by leaps and bounds, Technometrics

16: 499–511.Galton, F. (1889). Natural Inheritance, Macmillan, London.Gamerman, D. (1997). Efficient sampling from the posterior distribution in generalized linear

mixed models, Statistics and Computing 7: 57–68.Gelfand, A. E. & Smith, A. F. M. (1990). Sampling-based approaches to calculating marginal

densities, Journal of the American Statistical Association 85: 398–409.Gencay, R., Selcuk, F. & Whitcher, B. (2002). An Introduction to Wavelets and Other Filtering

Methods in Finance and Economics, Academic Press, San Diego.George, A. & Liu, J. W. (1981). Computer Solution of Large Sparse Positive Definite Systems,

Prentice-Hall, Englewood Cliffs, NJ.Geweke, J. (1991). Efficient Simulation From the Multivariate Normal and Student-t Distri-

bution Subject to Linear Constraints, Computer Science and Statistics: Proceedings of theTwenty-Third Symposium on the Interface, Alexandria, pp. 571–578.

Gilks, W. R., Richardson, S. & Spiegelhalter, D. J. (eds) (1996). Markov Chain Monte Carlo inPractice, Chapman & Hall, London.

Green, P. J. (1995). Reversible jump Markov chain Monte Carlo computation and Bayesianmodel determination, Biometrika 82: 711–732.

Green, P. J. (2001). A primer on Markov chain Monte Carlo, in O. Barndorff-Nielsen, D. Cox &C. Kluppelberg (eds), Complex Stochastic Systems, Chapman & Hall / CRC, Boca Raton,FL, pp. 1–51.

Greene, W. H. (2000). Econometric Analysis (4. Auflage), Prentice Hall, Upper Saddle River,NJ.

Gu, C. (2002). Smoothing Spline ANOVA Models, Springer, New York.Hamilton, J. D. (1994). Time Series Analysis, Princeton University Press.Hammerlin, G. & Hoffmann, K.-H. (1994). Numerische Mathematik (4. Auflage), Springer,

Berlin.Hansen, M. H. & Kooperberg, C. (2002). Spline adaptation in extended linear models, Statistical

Science 17: 2–51.Hardle, W. (1990). Smoothing Techniques, Springer, New York.Hardle, W., Muller, M., Sperlich, S. & Werwatz, A. (2004). Nonparametric and Semiparametric

Models, Springer, Berlin.Hastie, T. J. & Tibshirani, R. J. (1990). Generalized Additive Models, Chapman & Hall / CRC,

London.Hastie, T. J., Tibshirani, R. J. & Friedman, J. (2003). The Elements of Statistical Learning,

Springer, New York.Hastings, W. K. (1970). Monte-carlo sampling methods using Markov chains and their applica-

tions, Biometrika 57: 97–109.Hodrick, R. J. & Prescott, E. C. (1997). Postwar U.S. business cycles: An empirical investigation,

Journal of Money, Credit, and Banking 29: 1–16.Holmes, C. C. & Held, L. (2006). Bayesian auxiliary variable models for binary and multinomial

regression, Bayesian Analysis 1: 145–168.Joe, H. (1997). Multivariate Models and Dependence Concepts, Chapman & Hall, London.

Page 50: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

494 Literaturverzeichnis

Johnson, M. E., Moore, L. M. & Ylvisaker, D. (1990). Minimax and maximin distance designs,Journal of Statistical Planning and Inference 26: 131–148.

Jorgensen, B. (1982). Statistical Properties of the Generalized Inverse Gaussian Distribution,Springer, New York.

Judge, G. G., Griffith, W. E., Hill, R. C., Lutkepohl, H. & Lee, T.-C. (1980). The Theory andPractice of Econometrics, Wiley, New York.

Kauermann, G. (2006). Nonparametric models and their estimation, Allgemeines StatistischesArchiv 90: 135–150.

Kauermann, G. & Khomski, P. (2007). Additive two way hazards model with varying coefficients,Erscheint in Computational Statistics and Data Analysis .

Kauermann, G. & Opsomer, J. (2004). Generalized cross-validation for bandwidth selection ofbackfitting estimates in generalized additive models, Journal of Computational and Graphi-cal Statistics 13: 66–89.

Klein, J. P. & Moeschberger, M. L. (2005). Survival Analysis (2. Auflage), Springer, New York.Kneib, T. (2005). Mixed model based inference in structured additive regression, Dr. Hut-Verlag,

Munchen, erhaltlich unter http://edoc.ub.uni-muenchen.de/archive/00005011/.Kneib, T. & Fahrmeir, L. (2006). Structured additive regression for multicategorical space-time

data: A mixed model approach, Biometrics 62: 109–118.Kneib, T. & Fahrmeir, L. (2007). A mixed model approach for geoadditive hazard regression,

Erscheint im Scandinavian Journal of Statistics .Koenker, R. (2005). Quantile Regression, Cambridge University Press, New York.Lang, S. (2004). Vorlesungsskript Computerintensive Verfahren. Erhatlich auf der Internetseite

des Buchs.Lang, S. & Brezger, A. (2004). Bayesian P-splines, Journal of Computational and Graphical

Statistics 13: 183–212.Lange, K. (2000). Numerical Analysis for Statisticians, Springer, New York.Leeflang, P. S. H., Wittink, D. R., Wedel, M. & Naert, P. A. (2000). Building Models for

Marketing Decisions, Kluwer, Boston.Loader, C. (1999). Local Regression and Likelihood, Springer, New York.McCullagh, P. & Nelder, J. A. (1989). Generalized Linear Models (2. Auflage), Chapman &

Hall / CRC, London.McCulloch, C. E. & Searle, S. R. (2001). Generalized, Linear, and Mixed Models, John Wiley.McFadden, D. (1973). Conditional logit analysis of qualitative choice behaviour, in P. Zarembka

(ed.), Frontiers in Econometrics, Academic Press, New York.McFadden, D. (1984). Econometric analysis of qualitative response models, in Z. Griliches &

M. Intriligator (eds), Handbook of Econometrics, North Holland, Amsterdam, pp. 1395–1457.

Mengersen, K. L., Robert, C. & Guihenneuc-Jouyaux, C. (1999). Mcmc convergence diagnostics:a

”reviewww“, in B. et al. (ed.), Bayesian Statistics 6, Oxford University Press.

Metropolis, N., Rosenbluth, A. W., Rosenbluth, M. N., Teller, A. H. & Teller, E. (1953). Equati-ons of state calculations by fast computing machines, Journal of Chemical Physics 21: 1087–1091.

Miller, A. (2002). Subset Selection in Regression, Chapman & Hall / CRC, Boca Raton, FL.Mosler, K. & Schmid, F. (2005). Wahrscheinlichkeitsrechnung und schließende Statistik (2.

Auflage), Springer, Berlin.Nelder, J. A. & Wedderburn, R. W. M. (1972). Generalized linear models, Journal of the Royal

Statistical Society A 135: 370–384.Nychka, D. (2000). Spatial-process estimates as smoothers, in M. Schimek (ed.), Smoothing and

Regression: Approaches, Computation and Application, Wiley, New York, pp. 393–424.Nychka, D. & Saltzman, N. (1998). Design of air quality monitoring networks, in D. Nychka,

W. W. Piegorsch & L. H. Cox (eds), Case Studies in Environmental Statistics, Springer,New York, pp. 51–76.

Page 51: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

Literaturverzeichnis 495

Ogden, R. T. (1997). Essential Wavelets for Statistical Applications and Data Analysis,Birkhauser, Boston.

O’Hagan, A. (1994). Kendall’s Advanced Theory of Statistics Vol. 2B: Bayesian Inference,Arnold, London.

Ramsay, J. O. & Silverman, B. W. (2002). Applied Functional Data Analysis: Methods and CaseStudies, Springer, New York.

Ramsay, J. O. & Silverman, B. W. (2005). Functional Data Analysis (2. Auflage), Springer,New York.

Rawlings, J. O., Pantula, S. G. & Dickey, A. D. (2001). Applied Regression Analysis (2. Auflage),Springer, New York.

Rigby, R. A. & Stasinopoulos, D. M. (2005). Generalized additive models for location, scale andshape, Applied Statistics 54: 507–554.

Robert, C. P. (1995). Simulation of truncated normal variables, Statistics and Computing 5: 121–125.

Rousseeuw, P. J. & Leroy, A. M. (2003). Robust Regression and Outlier Detection, Wiley,Hoboken, NJ.

Rue, H. (2001). Fast sampling of Gaussian Markov random fields with applications, Journal ofthe Royal Statistical Society B 63: 325–338.

Rue, H. & Held, L. (2005). Gaussian Markov Random Fields, Chapman & Hall / CRC, BocaRaton, FL.

Ruppert, D., Wand, M. P. & Carroll, R. J. (2003). Semiparametric Regression, CambridgeUniversity Press, Cambridge.

Schabenberger, O. & Gotway, C. (2005). Statistical Methods for Spatial Data Analysis, Chapman& Hall / CRC, Boca Raton, FL.

Schira, J. (2005). Statistische Methoden der VWL und BWL. Theorie und Praxis (2. Auflage),Pearson Studium, Munchen.

Schlittgen, R. & Streitberg, B. (2001). Zeitreihenanalyse (9. Auflage), Oldenbourg Verlag,Munchen.

Schmidt, K. & Trenkler, G. (2006). Einfuhrung in die Moderne Matrix-Algebra (2. Auflage),Springer, Berlin.

Schneeweiß, H. (1990). Okonometrie, Physika Verlag, Heidelberg.Skrondal, A. & Rabe-Hesketh, S. (2004). Generalized Latent Variable Modelling, Chapman &

Hall / CRC, Boca Raton, FL.Smith, M. & Kohn, R. (1996). Nonparametric regression using Bayesian variable selection,

Journal of Econometrics 75: 317–343.Spiegelhalter, D. J., Best, N. G., Carlin, B. P. & van der Linde, A. (2002). Bayesian measures

of model complexity and fit., Journal of the Royal Statistical Society B 65: 583–639.Stein, M. L. (1999). Interpolation of Spatial Data: Some Theory for Kriging, Springer, New

York.Stone, C. J., Hansen, M. H., Kooperberg, C. & Truong, Y. K. (1997). Polynomial splines and

their tensor products in extended linear modeling, Annals of Statistics 25: 1371–1470.Toutenburg, H. (2003). Lineare Modelle, Physica-Verlag, Heidelberg.Train, K. E. (2003). Discrete Choice Methods with Simulation, University Press, Cambridge.Tutz, G. (2000). Die Analyse kategorialer Daten, Oldenbourg, Munchen.Tutz, G. & Binder, H. (2006). Generalized additive modelling with implicit variable selection

by likelihood based boosting, Biometrics 62: 961–971.Verbeke, G. & Molenberghs, G. (2000). Linear Mixed Models for Longitudinal Data, Springer,

New York.von Auer, L. (2005). Okonometrie (3. Auflage), Springer, Berlin.Wand, M. P. (2000). A comparison of regression spline smoothing procedures, Computational

Statistics 15: 443–462.Wand, M. P. (2003). Smoothing and mixed models, Computational Statistics 18: 223–249.Weisberg, S. (2005). Applied Linear Regression (3. Auflage), Wiley, New York.

Page 52: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

496 Literaturverzeichnis

White, H. (1980). A heteroscedasticity-consistent covariance matrix estimator and a direct testfor heteroscedasticity, Econometrica 48: 817–838.

Whittaker, E. T. (1922/23). On a new method of graduation, Proceedings of the EdinburghMathematical Society 41: 63–75.

Winkelmann, R. (1997). Econometric Analysis of Count Data (2. Auflage), Springer, Berlin.Wood, S. (2000). Modelling and smoothing parameter estimation with multiple quadratic pen-

alties, Journal of the Royal Statistical Society B 62: 413–428.Wood, S. N. (2006). Generalized Additive Models: An Introduction with R, Chapman & Hall /

CRC, Boca Raton, FL.Wooldridge, J. M. (2006). Introductory Econometrics (3. Auflage), Thomson, Mason, Ohio.Yatchew, A. (2003). Semiparametric Regression for the Applied Econometrician, Cambridge

University Press.Yau, P., Kohn, R. & Wood, S. (2003). Bayesian variable selection and model averaging in high

dimensional multinomial nonparametric regression, Journal of Computational and GraphicalStatistics 12: 23–54.

Zimmermann, D. L. (1993). Another look at anisotropy in geostatistics, Mathematical Geology25: 453–470.

Page 53: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

Index

χ2-Verteilung, 460

Abhangige Variable, 1, 19Adaptive Verfahren, 359, 394Ahnliche Matrizen, 454AIC, 477– Korrigiertes, 477– Lineare Modelle, 161– Nichtparametrische Regression, 352– Strukturiert additive Regression, 422Aitken-Schatzer, 126All-Subset-Selection, 164Allgemeine Streudiagramm-Glatter, 340Allgemeines lineares Modell, 125Anisotropie, 382Aquivalente Freiheitsgrade, 345Autokorrelation, 67, 136– Erster Ordnung, 67, 137– Partielle, 138Autokorrelationsfunktion, 137– Partielle, 138Autoregressive Modelle, 290

B-Splines, 303Backfitting, 420Backward-Selection, 164Basic-Splines, 303Basisfunktionen, 298Bayes-Faktor, 488Bayes-Inferenz, 478– Intervallschatzer, 481– Punktschatzer, 480Bayesianische P-Splines, 316Bayesianischer Vertrauensbereich, 481Bayesianisches Konfidenzintervall, 481Bayesianisches lineares Modell, 151Bedingte Verteilung, 462Beobachtete Informationsmatrix, 470Beobachtungsmodell, 478Bester linearer Pradiktor, 262Bester linearer unverzerrter Pradiktor, 262,

383Bestimmtheitsmaß, 99Bestimmtheitsmaß, 98– Korrigiertes, 160

Bias-Varianz-Trade Off, 348BIC, 162, 488Binare Regressionsmodelle, 192Bivariate Polynom-Splines, 372BLUP, 262, 383Bonferroni-Korrektur, 175, 343Boxplot, 11Breusch-Pagan-Test, 131

Charakteristisches Polynom, 453, 454Cholesky-Zerlegung, 457Clusterspezifische Effekte, 35, 38, 254Cook-Distanz, 178CV, 351

Defekt einer Matrix, 450Degrees of freedom, 345Dehnungsmatrix, 382Designmatrix, 61Determinante, 451Devianz, 205Diagonalmatrix, 446Differentiation von Matrixfunktionen, 457Differenzen k-ter Ordnung, 310Differenzenmatrix, 312diffuse Verteilung, 480Diskreter Zufallsvektor, 461Dummy-Kodierung, 80Dummy-Variablen, 81Durbin-Watson-Test, 141

Effekt-Kodierung, 82Effektmodifizierer, 408Eigenraum, 454Eigenvektor, 453Eigenwert, 453Eigenwerte– Symmetrischer Matrizen, 454Einflussanalyse, 177Einheitsmatrix, 446Empirisch beste lineare Schatzer, 265Empirische Bayes-Schatzung, 273, 284, 357Empirische Korrelationsmatrix, 463Empirische Kovarianzmatrix, 463Epanechnikov-Kern, 337

Page 54: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

498 Index

Equivalent degrees of freedom, 345Erklarende Variable, 1, 19Erwartete Informationsmatrix, 469Erwarteter quadrierter Prognosefehler, 158Erwartungswertvektor, 462Exponential-Korrelationsfunktion, 328Exponentialfamilie, 218Exponentialverteilung, 460

F-Test, 113F-Verteilung, 461Fehlerterm, 19Fisher-Information, 469Fisher-Informationsmatrix, 469Fisher-Matrix, 469Fisher-Scoring, 202, 249, 264, 473Fluch der Dimension, 396Forward-Selection, 164Freiheitsgrade, 345

G-Inverse, 452Gammaverteilung, 460Gauß-Kern, 337Gauß-Markov-Theorem, 104Gauß-Felder, 381Gauß-Korrelationsfunktion, 328Gauß-Markov-Theorem, 103Gauß-Markov-Zufallsfelder, 390GCV, 352, 423Generalisierte Schatzfunktion, 226Generalisierte Schatzgleichung, 226Generalisiertes Kreuzvalidierungskriterium,

352, 423Generalized Estimating Equations, 226, 290Geoadditive Modelle, 51, 404Geometrische Eigenschaften des KQ-

Schatzers, 97Geostatistik, 382Gewichtete KQ-Schatzung, 126Gewichteter KQ-Schatzer, 127Gibbs-Sampler, 487Glattungsmatrix, 341, 422Glattungsparameter, 308, 319, 345, 350, 422Glattungsparameterwahl, 350, 422Glattungsverfahren, 291Glattunssplines, 323Gleichverteilungs-Kern, 337Gleitende Durchschnitte, 333GMZF, 390Gram-Schmidt-Orthogonalisierung, 97Gruppierte Daten, 127, 195, 237Gruppiertes Cox-Modell, 244

Hat-Matrix, 93Hauptdiagonale, 445Hauptkomponentenregression, 172Hazardrate, 53Hazardratenmodelle, 53Hebelwerte, 177Heteroskedastische Fehler, 61, 64, 124– Diagnose, 129– Variablentransformation, 132– White-Schatzer, 135– Zweistufige Schatzung, 133Histogramm, 11Hodrick-Prescott-Filter, 326Homoskedastische Fehler, 61, 64

Idempotente Matrix, 448Identifikationsproblem additiver Modelle, 400IGMZF, 390Indefinit, 455Individuenspezifische Effekte, 35, 38, 254Informationsmatrix, 469– Beobachtete, 470– Erwartete, 469Interaktionen zwischen Kovariablen, 83, 407Interaktionsvariable, 408Intrinsische Gauß-Markov-Zufallsfelder, 390Inverse Gammaverteilung, 461Inverse Matrix, 450Irreduzibler Prognosefehler, 159Irrfahrten, 326– k-ter Ordnung, 316Isotrop, 381Iterativ Gewichtete KQ-Schatzung, 222, 249

Kanonische Linkfunktion, 220Kanonischer Parameter, 218Kerndichteschatzer, 11Kernfunktionen, 337Klassische Normalregression, 62Klassisches lineares Regressionsmodell, 62Knoten, 295– Aquidistante Knoten, 301– Quantilbasierte Knoten, 302Kodierung– Effekt-, 82Kollinearitat, 170Kollinearitatsanalyse, 170Komplementares log-log-Modell, 192Konditionale Modelle, 290Konfidenzbander, 119, 342Konfidenzintervalle, 119, 342Korrelationsfunktion, 327

Page 55: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

Index 499

– Exponential-, 328– Gauß-, 328– Isotrope, 381– Matern, 330– Potenz-, 328– Range, 328– Spharische, 328– Stationare, 328Korrelationsmatrix, 462– Empirische, 463Korrigiertes Bestimmtheitsmaß, 160Kovariable, 1, 19Kovarianzmatrix, 462– Empirische, 463KQ-Methode, 90KQ-Schatzer– Asymptotische Eigenschaften, 105– Eigenschaften, 104– Erwartungswert, 101– Gewichteter, 127– Kovarianzmatrix, 101, 104KQ-Schatzung– Geometrische Eigenschaften, 97– Gewichtete, 126– Penalisierte, 262, 311Kreuzvalidierungskriterium, 161, 351, 423Kriging, 327, 381– Gewohnliches, 383– Universelles, 383Kroneckerprodukt, 447Kumulative Modelle, 244Kumulatives Extremwertmodell, 244

Laplace-Approximation, 284Lebensdaueranalyse, 52Likelihood-Quotienten-Test, 476Lineare gemischte Modelle fur Longitudinal-

und Clusterdaten, 38, 259Lineare Glattungsverfahren, 340Lineare Schatzer, 102Linearer Pradiktor, 190Lineares Wahrscheinlichkeitsmodell, 190Linkfunktion, 190, 217– Kanonische, 220– Naturliche, 220Locally weighted Regression, 339Loess, 339, 394Log-lineares Poisson-Modell, 210Log-lineares Poisson-Normal-Modell, 281Logistisches sequentielles Modell, 246Logit-Modell, 32, 192Lognormalverteilung, 72, 459

Lokal polynomiale Regression, 335Lokale Glattungsverfahren, 333, 394

Mallows’ Cp, 161Markov-Chain-Monte-Carlo-Methoden, 482Markov-Eigenschaft, 316, 376Markov-Zufallsfelder, 387MARS, 359, 395Matern Korrelationsfunktionen, 330Matern-Splines, 384Matrix, 445– Ahnlich, 454– Definite, 455– Diagonal-, 446– Idempotente, 448– Inverse, 450– Orthogonale, 448– Quadratische, 445– Spur, 452– Symmetrische, 446– Transponiert, 445Matrizenmultiplikation, 447Maximum-Likelihood Schatzung, 467– Asymptotische Eigenschaften, 475MCMC, 482Median-Regression, 90Mehrkategoriales Logit-Modell, 239Metropolis-Hastings-Algorithmus, 483Mietspiegel, 5Mischverteilung, 255Mixed Model Equations, 262Mixed Models, 35ML-Gleichung, 199, 222, 247ML-Schatzung, 467– Asymptotische Eigenschaften, 475Model Averaging, 364Modell der proportionalen kumulativen

Chancen, 244Modelle mit zufalligen Effekten, 35Modellwahlkriterien, 159, 477, 488Multikategoriales Logit-Modell, 239Multinomialverteilung, 236Multivariate adaptive Regressions-Splines,

359, 395Multivariate Normalverteilung, 464– Bedingte Verteilungen, 465– Erwartungswert, 464– Kovarianzmatrix, 464– Lineare Transformationen, 464– Marginalverteilungen, 465Multivariate t-Verteilung, 467MZF, 387

Page 56: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

500 Index

Nachste-Nachbarn-Schatzer, 41, 333, 394Nachbarschaften, 387Nachbarschaftsmatrix, 389Nadaraya-Watson-Schatzer, 335, 394Naturliche kubische Splines, 323Naturliche Linkfunktion, 220Naturlicher Parameter, 218Negativ definit, 455Newton-Raphson-Algorithmus, 264, 473Newton-Verfahren, 473Nichtlineare Zusammenhange durch Polyno-

me, 80Nichtlineare Zusammenhange durch Varia-

blentransformation, 80Nichtparametrische Regression, 291Nominal skalierte Zielvariable, 235Nonparametrische Regression, 291Normal-inverse Gammaverteilung, 147Normalverteilung– Multivariate, 464– Singulare, 465– Trunkierte, 459– Univariate, 459Nullraum einer Matrix, 450

Ordinal skalierte Zielvariable, 235Ordnung einer Matrix, 445Orthogonale Matrix, 448Orthogonale Polynome, 78Overdispersion, 197, 210

P-Splines, 42, 306– Bayesianische, 316Partiell lineares Modell, 401Partielle Autokorrelationsfunktion, 138Partielle Residuen, 63, 110, 424Penalisierte KQ-Schatzung, 308, 311Penalisierte Log-Likelihood, 229, 285, 322Penalisierte Residuenquadratsumme, 308Penalisierte Splines, 306– Bayesianische, 316Penalisierter KQ-Schatzer, 311Penalisierter ML-Schatzer, 229Penalisiertes KQ-Kriterium, 262Penalisierungsansatze, 306PKQ-Schatzung, 311Polynom-Splines, 42, 293, 295– Bivariate, 372Polynomiale Regression, 75Populationseffekte, 35, 38, 254Positiv definit, 455Posteriori-Modus-Schatzer, 480

Posteriori-Verteilung, 478Potenz-Exponential Korrelationsfunktionen,

328Pradiktionsmatrix, 93, 341, 345Prazisionsmatrix, 462Priori-Verteilung, 478Probit-Modell, 192Probit-Normal-Modell, 282Prognosefehler– Erwarteter quadrierter, 158– Irreduzibler, 159Prognoseintervalle, 121Proportional Odds Model, 244

Quadratische Form, 455Quadratische Matrix, 445Quantil-Regression, 91Quasi-Likelihood-Modelle, 226, 290Quasi-Score-Funktion, 226

Raumlich Autoregressive Prozesse, 393Ruckwarts-Selektion, 164Radiale Basisfunktionen, 379, 384, 395Random Walk, 326– k-ter Ordnung, 316Randverteilung, 462Rang einer Matrix, 449Range, 328Regressions-Splines, 293Regressionsbaume, 361, 395Regressor, 1, 19Regular, 449Regulare Inverse, 450REML, 94Residualplots, 129Residuen, 63– Ubersicht, 110– Matrixnotation, 93– Partielle, 63, 110, 424– Standardisierte, 108, 110, 424– Studentisierte, 109, 110Responsefunktion, 190, 217, 220Restringierte Log-Likelihood, 263Restringierte Maximum-Likelihood-

Schatzung, 94Reversible Jump MCMC, 366Ridge-Regression, 171Rotationsmatrix, 382Running Line, 334Running Mean, 334Running Median, 334

Sandwich-Matrix, 136, 266, 313, 357

Page 57: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

Index 501

SAR, 393Scatterplot-Smoother, 292Schrittweise-Selektion, 164Schwellenwertmechanismus, 193, 242, 427Score-Funktion, 469Score-Test, 476Semidefinit, 455Semiparametrisches Modell, 401Sequentielles Modell, 246– Extremwertmodell, 246– Logistisches, 246Singulare Normalverteilung, 465Smoother-Matrix, 341, 422Smoothing Splines, 323SMSE, 158Spaltenraum einer Matrix, 450Spaltenregular, 449Spaltenvektor, 445Spatially Autoregressive, 393Spektralzerlegung, 455Spharische Korrelationsfunktionen, 328Splines, 293, 295Spur einer Matrix, 452Storgroße, 2, 19, 60Standardisierte Residuen, 108, 110, 424Standardnormalverteilung, 459Stationare Gauß-Felder, 381Stationarer Gauß-Prozess, 327Stepwise-Selection, 164Stetiger Zufallsvektor, 461Stochastische Komponente, 19Strafterm, 308Streudiagramm-Glatter, 292, 340Streuungszerlegung, 98Strukturiert-additive Regression, 413Studentisierte Residuen, 109, 110Symmetrische Matrix, 446Systematische Komponente, 19, 60

t-Test, 116t-Verteilung, 461– Multivariate, 467

Tensorprodukt-Basen, 371Tensorprodukt-P-Splines, 377Tensorprodukt-Splines, 371Tests linearer Hypothesen, 112, 120, 249Teststichprobe, 159Thin-Plate-Spline, 380TP-Splines, 296Transponierte Matrix, 445Truncated Power Series, 296Trunkierte Normalverteilung, 459Trunkierte Potenzen, 296

Uberdispersion, 197, 210Unbeobachtete Heterogenitat, 197Univariate Normalverteilung, 459Unterernahrung in Sambia, 5

Validierungsstichprobe, 159, 161Variablentransformation, 73Varianzinflationsfaktor, 171Varianzkomponentenmodell, 253, 258, 266,

424Variierende Koeffizienten, 408Verallgemeinerte Inverse, 452Vollstandig bedingte Dichten, 487Vorwarts-Selektion, 164

Wald-Test, 476White-Schatzer, 135

Zeilenraum einer Matrix, 450Zeilenregular, 449Zeilenvektor, 445Zentrierung, 78, 400, 411, 425Zielvariable, 1, 19Zufallsvariable, 459– Mehrdimensionale, 461Zufallsvektor, 461– Bedingte Verteilung, 462– Diskret, 461– Randverteilung, 462– Stetig, 461

Page 58: A Matrix-Algebra978-3-642-01837-4/1.pdfA Matrix-Algebra In diesem Anhang geben wir eine kompakte Einf¨uhrung in die Matrizenrechnung bzw. Matrix-Algebra. Die Darstellung ist dabei

Die Autoren

Ludwig Fahrmeir war wissenschaftlicher Assistent an der Technischen UniversitatMunchen (1970 – 1977), danach Professor fur Statistik an der Universitat Regensburg(1978 – 1991). Seit 1991 ist er Professor fur Statistik an der LMU Munchen und warvon 1995 – 2006 Sprecher des Sonderforschungsbereichs “Statistische Analyse diskre-ter Strukturen (mit Anwendungen in Biometrie und Okonometrie)”. Derzeit koordinierter das LMUinnovativ Projekt “Analysis and Modelling of Complex Systems in Biolo-gy and Medicine (BioMed-S)”. Seine Forschungsinteressen sind die statistische Analyseund Modellierung in Wirtschafts-, Sozial und Lebenswissenschaften, Bayesianische semi-parametrische Regression, die Analyse von zeitlich-raumlich strukturierten Daten undBioImaging.Thomas Kneib studierte von 1998 bis 2003 Statistik in Munchen und promovierte dort2006. Im Sommersemester 2007 war er Gastprofessor fur Angewandte Statistik an derUniversitat Ulm. Im Wintersemester 2008/09 vertrat er den Lehrstuhl fur Statistik an derUniversitat Gottingen. 2009 habilitierte er sich und ist seit April 2009 Professor fur Ange-wandte Statistik an der Universitat Oldenburg. Seine aktuellen Forschungsschwerpunktesind semiparametrische geoadditive Regressionsmodelle, Bayesianische Regularisierungund Boosting-Verfahren.Stefan Lang studierte von 1991 bis 1997 Statistik in Munchen. Von 1997 bis 2005 war erwissenschaftlicher Mitarbeiter bzw. Assistent am Institut fur Statistik in Munchen. SeinePromotion schloss er 2001 ab, 2004 folgte die Habilitation. Von April 2005 bis September2006 war er Professor fur Statistik in Leipzig, seit Oktober 2006 hat er die Professor furAngewandte Statistik an der Universitat Innsbruck inne. Seine Forschungsinteressen sindBayesianische semiparametrische Regression, raumliche Statistik, hierarchische Modelleund Multilevel-Modelle, sowie simulationsbasierte Inferenz.