Der Bootstrap Maximilian Rauter - fam.tuwien.ac.atsgerhold/pub_files/sem18/s_rauter.pdf · sche...

Technische Universitat Wien

Der Bootstrap

Maximilian Rauter

betreut vonStefan Gerhold

Wintersemester 2018/19

Inhaltsverzeichnis

Vorwort 2

1 Einleitung 31.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Der Bootstrap 52.1 Chain ladder Methode . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52.2 ODP Bootstrap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.3 Prozess Varianz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

3 Probleme des Bootstraps 123.1 Negative Werte wahrend der Simulation . . . . . . . . . . . . . . . . . . 123.2 Nicht-Null Summer der Residuen . . . . . . . . . . . . . . . . . . . . . . 133.3 Betrachtung der letzten N-Jahre . . . . . . . . . . . . . . . . . . . . . . . 133.4 Fehlende Werte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133.5 Ausreißer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

4 Ein anschauliches Beispiel 154.1 Vorbereitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154.2 Simulation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174.3 Ergebnisse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

5 Quellenverzeichnis 21

1

Vorwort

Die Idee des Bootstraps besteht prinzipiell darin einen Prozess, ohne zusatzliche Daten,zu reproduzieren. Diese Methode wird in unterschiedlichen Bereichen der Wissenschaft,wie der Physik, Biologie oder Statistik angewendet um zahlreiche Prozesse zu analysie-ren. Beispielsweise wird in der Statistik mit anhand der beobachteten Daten viele neueDatensatze kreiert um so mehr Information zu erhalten.

Es gibt sehr viele verschiedene Variationen des Bootstraps, wobei alle versuchen den bes-ten Schatzwert oder auch best estimate zu ermitteln. In einfachen Modellen wird dieserdurch den point estimate, also einen Wert, dargestellt. Bei komplexeren und inzwischenmehr etablierten Ausfuhrungen, wird eine Verteilung von Schatzwerten ausgegeben, wo-mit man deutlich mehr Aussage und Prazision erhalt. Allerdings muss man immer darandenken, dass es kein perfektes Modell gibt und wir nur Schatzungen des tatsachlichenWertes approximieren konnen.

Ich habe mich gerade fur dieses Thema entschlossen, da ich mich im Rahmen eines Prakti-kums bei UNIQA genauer mit Bootstraps befasst habe. Insbesondere durfte ich, mit Hilfevon Kollegen, ein R Programm schreiben, welches diverse Bootstrap Modelle durchfuhrtund auch verschiedene Einstellungen erlaubt. So konnte ich mir, nicht nur mit Literatur,sondern auch durch das Wissen meiner Kollegen, einen guten Eindruck der Komplexitatund vor allem Diversitat des Bootstraps machen.

In der Schadenreservierung wird allgemein mit zwei Arten von Schadendaten gerechnet.Den paid claims (Versicherungszahlungen) und dem incurred claims (Versicherungsleis-tungen). Dabei handelt es sich bei Versicherungsleistungen um die Summe der Versiche-rungszahlungen und der gebildeten Einzelfallreserven. In folgender Arbeit werden wir nurmit paid claims Rechnen, aber alle Formeln und Methoden gelten analog auch fur incur-red claims.

Zwecks der Lesbarkeit verwende ich in dieser Arbeit nur die mannliche Form, naturlichist die weibliche Form genauso zutreffend.

2

1. Einleitung

Der Begriff Bootstrap ist durch eine bunte Vergangenheit gepragt, welche zuruck in dieZeit der deutschen Volkslegenden des 18. Jahrhunderts geht. Um den damaligen deut-sche Baron Hieronymus Carl Friedrich von Munchhausen, auch bekannt als Lugenbaron,ranken sich unzahlige Geschichten deren Wahrheitsgehalt jedoch fragwurdig zu seienscheint. In einer dieser zieht sich der Baron selbst am eigenen Schopf aus dem Sumpf,was im englischen sinngemaß ubersetzt wird als: ”Pull yourself up by your bootstraps”.Was ein physikalisches Paradoxon und naturlich unmoglich ist. Beim Bootstrap wirdjedoch genau dies getan, aus einer vergangenen Beobachtung, viele neue bereits ”vergan-gene”Beobachtungen zu erzeugen.

Meistens wird Bradley Efron (1979), Vorsitzender der des Abteilung Statistik an derUniversitat Stanford, als Erfinder des Bootstraps betitelt. Er war auch der Erste mitVeroffentlichungen uber dieses Thema, im statistischen Bereich. Seitdem hat, im Gebietder Versicherungsmathematik, das Prinzip des Bootstraps, besonders in der Schadenre-servierung, viel an Popularitat dazugewonnen. Die an haufigsten zitierten Beispiele sindEngland und Verrall (1999; 2002), Pinheiro, u. a. (2003), und Kirschner, u. a. (2008),welche das Konzept des Bootstraps mit dem basic chain ladder model verbinden. Die-se Arbeiten beschaftigen sich mit einer Form des Models, welche den inkrementellenVerlust als zufallige over-dispersed Poission Variable modellieren. Dieses Modell heißtover-dispersed Poisson Bootstrap, oder ODP Bootstrap. Das Ziel dieses Modells ist, eineVerteilung von moglichen Resultaten zu generieren, im Gegensatz zu, wie z.B beim chainladder Verfahren, einem einzige Ergebniswert, wodurch mehr Informationen uber das po-tentielle Resultat erhalten werden.

Die Aufgabenstellung in der Schadenreservierung lasst sich wie folgt beschreiben: Wiekann man mit den vorhanden Daten der Vergangenheit, eine Schatzung uber die zukunftigenZahlungen (oder gegebenenfalls die Anzahl der gemeldeten Schaden) geben? Weiter musseine aufsichtsrechtliche Marge errechnet werden, bei dieser ein oberes Limit fur die Re-serve, mit einem adaquaten Polster geschatzt wird. Dabei hat der Bootstrap den Vorteil,dass er sehr simpel und unkompliziert ist. Des weiteren lassen sich Quantile, Verhaltnisseund Korrelationseffekte gut zeigen, was ihn zu einem weit verbreitetem Schatztool furSchadenreserven macht.

3

1.1 Notation

Da die Notationen meist uberall verschieden sind, will ich hier kurz festhalten fur welcheNotation ich mich entschieden habe.

Die Schadendaten werden als zweidimensionalen Array, (w, d) mit Schadenjahr w (when)und Entwicklungsjahr d (delay) gegeben. Wir nehmen außerdem an, dass die Scha-dendaten in Form einer obere Dreiecksmatrix vorhanden sind, also w = 1, 2, .., n undd = 1, 2, .., n − w + 1. Die Diagonale, fur welche w + d = n + 1 gilt, reprasentiert dieSchadendaten fur jedes Schadenjahr zum Zeitpunkt der Abrechnungsperiode.

c(w, d) : ... Kumulierter Verlust vom Schadenjahr w bis zum Zeitpunkt d.c(w, d) : ... Inkrementeller Verlust fur Schadenjahr w von d− 1 bis d.F (d) : ... Faktor fur c(w, d) um c(w, d + 1) zu erhalten oder genereller Faktor zum Zeit-punkt d.m(w, d) : ... Kumuliertes backwards fitted Triangle fur Zeitpunkte d = 1, ..., n− w + 1.m(w, d) : ... Inkrementelles bbackwards fitted Triangle fur Zeitpunkte d = 1, ..., n−w+ 1.r(w, n) : ... Unskalierte Pearson Residuen vom Schadenjahr w fur Zeitpunkte d = 1, ..., n−w + 1.rDof (w, n) : ... Degree of freedom skalierte Residuen fur Zeitpunkte d = 1, ..., n− w + 1.rHat(w, n) : ... Hat Matrix skalierte Residuen fur Zeitpunkte d = 1, ..., n− w + 1.fDof : ... Degree of freedom Skalierungsfaktor fur alle Schadenjahre und Zeitpunkte.fHat(w, n) : ... Hat Matrix Skalierungsfaktor fur Zeitpunkte d = 1, ..., n− w + 1.rs(w, n) : ... Zufallig, mit zurucklegen, gezogene Residuen fur Zeitpunkte d = 1, ..., n −w + 1. Teil der Simulation.cs(w, n) : ... Zuruckgerechneter inkrementeller Verlust fur Zeitpunkte d = 1, ..., n−w+ 1d. Teil der Simulation.cs(w, n) : ... Zuruckgerechneter kumulierter Verlust fur Zeitpunkte d = 1, ..., n − w + 1.Teil der Simulation.F s(d) : ... Faktor fur cs(w, d) um cs(w, d + 1) zu erhalten oder genereller Faktor zumZeitpunkt d. Teil der Simulation.ps(w, d) : ... Kumulierter zukunftiger Verlust fur Schadenjahr w von d = n−w+ 2 bis n.ˆs(w, d) : ... Inkrementeller zukunftiger Verlust fur Schadenjahr w von d = n − w + 2 bisn.Ul(w) : ... Ultimativer Verlust, Summe aller zukunftigen Verluste im Schadenjahr w. Teilder Simulation.U : ... Ultimativer Verlust, Summe aller zukunftigen Verluste in allen Schadenjahren. Teilder Simulation.

4

2. Der Bootstrap

Wie bereits erwahnt dient als Ausgangspunkt immer ein Schadendreieck beliebiger Große.Was wir beim Bootstap, oder allgemein in der Schadenreservierung, versuchen, ist dasDreieck zu ”vervollstandigen”. Dabei kann lediglich auf die bestehenden Daten des Aus-gangsdreiecks zuruckgegriffen werden. Nun gibt es viele Methoden dies zu simulieren. Diewahrscheinlich simpelste und zugleich grundlegende fur alle Anderen, ist die chain ladderMehtode.

2.1 Chain ladder Methode

Dieses Verfahren basiert auf dem grundlegenden Gedanken, dass aus der Schadenabwick-lung der Vergangenheit, auf jene der Zukunft zu schließen ist. Des weiteres wird bei diesemVerfahren angenommen, dass die Ergebnisse am genauesten sind, wenn alle zu Grundeliegenden Daten verwendet werden. Eine weitere Voraussetzung ist, dass die Daten genauund vor allem Fehlerfrei sind. Zusatzlich gilt es folgende Faktoren, warum Verlustmustersich geandert haben konnten, zu beachten:

• Anderungen im Produktdesign und -Bedingungen.

• Anderungen in der Berichterstattung und Dokumentation.

• Anderungen rechtlichen belangens.

• Anormal große oder kleine Schadenreservierungen.

Beim chain ladder Verfahren wird, wie bei allen Modellen, mit einem Schadendreieckgestartet. Solch eines ist gegeben in Form von (Tabelle 2.1).

Nun werden die Entwicklungsfaktoren berechnet. Diese geben einen Eindruck wie sichdie kumulierten Verluste von einem Entwicklungsjahr zum Nachsten Verhalten. Umdiese zu Berechnen, muss man die Summe aller Schadenjahre des spaterenEntwicklungsjahres, durch die Summe der selben Schadenjahre des Entwicklungsjahreszuvor dividieren. Sprich:

F (d) =

∑n−d+1w=1 c(w, d)∑n−d+1

w=1 c(w, d− 1)(2.1)

5

c d

1 2 3 · · · n-1 nw 1 c(1,1) c(1,2) c(1,3) · · · c(1,n-1) c(1,n)

2 c(2,1) c(2,2) c(2,3) · · · c(2,n-1)

3 c(3,1) c(3,2) c(3,3) . ..

......

... . ..

n-1 c(n-1,1) c(n-1,2)n c(n,1)

Tabelle 2.1: Kumuliertes Schadendreieck w in Form einer oberen Dreiecksmatrix

Dieser Faktor hat logischer Weise nur n− 1 Eintrage bei n Entwicklungsjahren.Außerdem setzt er voraus, dass der Entwicklungsfaktor eines Entwicklungsjahres fur alleSchadenjahre gleich ist. Mit Hilfe dieses Faktors kann man die kumulierten zukunftigenVerluste schatzen:

p d

1 2 3 4 5w 1 352 783 1045 1183 1295

2 255 572 710 750 750*1,093 279 638 767 767*1,104 311 717 717*1,275 308 308*2,26

F 2,26 1,27 1,10 1,09 -

Tabelle 2.2: Unvollstandiges kumulierte Verluste p mit Veranschaulichung von (2.2)

Oder formell:

p(w, d) =

{c(w, d) ,falls w+d < n+2

p(w, d− 1) ∗ F (d) ,sonst(2.2)

Fur jedes Schadenjahr wird der letzte beobachte Wert (Diagonale) mit dem passendenEntwicklungsfaktor multipliziert, um den kumulierten Verlust des nachstenEntwicklungsjahren zu schatzen (Tabelle 2.3).

Nun fallt es nicht mehr schwer die kumulierten Verluste in inkrementelle umzuformen.Hierzu muss lediglich dem zu errechnenden Wert, der des vergangenenEntwicklungsjahres abgezogen werden. Dies ist offensichtlich nur fur dieEntwicklungsjahre 2,..,n moglich. Formell betrachtet folgt:

p(w, d) =

{p(w, d)− p(w, d− 1) ,falls d > 1

p(w, d) ,falls d=1(2.3)

6

p d

1 2 3 4 5w 1 352 783 1045 1183 1295

2 255 572 710 750 7503 279 638 767 845 9254 311 717 907 999 10945 308 697 882 972 1064

F 2,26 1,27 1,10 1,09 -

Tabelle 2.3: Kumuliertes Schadendreieck p mit zukunftigen Verlusten

Zu guter Letzt haben wir die inkrementellen Verluste und konnen diesezusammenfassen. Allerdings sind hier nur die Werte der unteren Dreiecksmatrix vonBedeutung, da alles, bis einschließlich der Diagonale, der Vergangenheit angehort.Nehmen wir nun diese Werte und summieren sie pro Reihe auf, erhalten wir denSchatzwert der pro Schadenjahr anfallenden zukunftigen inkrementellen Verluste.Werden nun wiederum diese aufsummiert erhalten wir den geschatzten ultimate loss :

p d ultimate

1 2 3 4 5w 1

2 71 713 78 80 1584 190 92 95 3775 389 185 89 92 756

1362

Tabelle 2.4: Inkrementelle zukunftige Verluste mit ultimate loss

Dieses Verfahren gehort zu den simpelsten seiner Art, ist aber dennoch uberaus nutzlich.Allerdings wird es in der Realitat selten verwendet, da es kaum Spezialfalle deckt undstark von der perfekten Dokumentation und Aussagekraft der Vergangenheit abhangt.

7

2.2 ODP Bootstrap

Auf dieses Verfahren mochte ich genauer eingehen. Beim over dispersed PoissonBootstrap kommt es, wie der Name schon sagt zu einer uberstreuung der PiossionsFehlerverteilung. Des weiteres setzt dieses Verfahren voraus, dass die Residuenunabhangig und identisch verteilt sind. In diesem Modell kann man außerdem dassogenannte fitting der Daten anstatt mit einem komplexen und rechenaufwendigenGLM (generalized linear model) mit Hilfe des Entwicklungsfaktors direkt und schnellvornehmen. Naturlich ist das Ziel dieses Bootstrap auch das Dreieck zu”vervollstandigen” und die zukunftigen inkrementellen Verluste zu schatzen. Allerdingswird hierbei kein point estimate verwendet, sonder es wird eine Verteilung erzeugt undsomit eine bessere Kontrolle des Risikos erlaubt.

Wie gehabt dient ein Schadendreieck als Ausgangslage und es wird derEntwicklungsfaktor nach (2.1)berechnet.. Als nachstes werden die Daten dem uberauswichtigen fitting unterzogen, welches wie bereits erwahnt, durch den Entwicklungsfaktorzustande kommt. Dafur wird nur die Diagonale benotigt. Man dividiert fur jedesSchadenjahr den letzten Eintrag, mit dem dazu passenden Entwicklungsfaktor.

m(w, d) =

{m(w,d+1)

F (d),falls w+d < n+1

c(w, d) ,falls w+d = n+1(2.4)

Bevor die Berechnung der Residuen moglich ist, mussen das kumulierte Schadendreieckund das backwarts fitted Triangle zunachst in inkrementelle Form gebracht werden. Dieserfolgt analog zu (2.3) fur alle Dreiecke.

Dieses Verfahren beinhalten mischen und ziehen, mit zurucklegen, der Residuen. Umdiese zu berechnen gibt es verschiedene Methoden. Deviance, Pearson oder AnscombeResiduen konnten alle verwendet werden, wobei Pearson Residuen die angenehmsten zurechnen sind, da sie immer mit dem Skalierungsparameter berechnet werden. Dieunskalierten Pearson Residuen r und der Skalierungsparameter Φ werden wie folgtberechnet:

r(w, d) =c(w, d)− m(w, d)√

|m(w, d)|(2.5)

Φ =

∑r2w,d

N − p(2.6)

Wobei N gleich der Anzahl an Beobachtungen ist, und p der Anzahl an Parameternentstricht, mit:

N =n ∗ (n+ 1)

2p = 2 ∗ n− 1 (2.7)

fDof =

√N

N − p(2.8)

8

rDof = r ∗ fDof (2.9)

Jedoch ist mit Anpassung der Residuen mit dem degree of freedom Faktor(2.8) dieStandardisierung der Residuen verloren gegangen. Da dies jedoch ein wichtiger Schrittist, um sicher zu gehen, dass alle Residuen die selbe Varianz haben, muss einealternative gefunden werden. Um eben diese standardisierten Pearson Residuen zubekommen, braucht es einen weiteren Anpassungsfaktor. Dem des hat Matrix Faktors,fur welchen man zunachst die hat Matrix berechnen muss:

H = X(XTWX)−1XTW. (2.10)

Zunachst wird die Formel mit Matrixmultiplikation der Design Matrix X und derGewichtsmatrix W berechnet:

X d

1 2 3 4 5 6 7 8 9

w 1 1 0 0 0 0 0 0 0 02 0 1 0 0 0 0 0 0 03 0 0 1 0 0 0 0 0 04 0 0 0 1 0 0 0 0 05 0 0 0 0 1 0 0 0 0

6 1 0 0 0 0 1 0 0 07 0 1 0 0 0 1 0 0 08 0 0 1 0 0 1 0 0 09 0 0 0 1 0 1 0 0 0

10 1 0 0 0 0 0 1 0 011 0 1 0 0 0 0 1 0 012 0 0 1 0 0 0 1 0 0

13 1 0 0 0 0 0 0 1 014 0 1 0 0 0 0 0 1 0

15 1 0 0 0 0 0 0 0 1

Tabelle 2.5: Designmatrix X, mit n = 5

9

Tabelle 2.6: Gewichtsmatrix W

W d

1 2 · · · · · · n-1 nw 1 m(1,1) 0 · · · · · · · · · 0

2 0 m(2,2). . .

......

.... . .

. . .. . .

......

.... . .

. . .. . .

...

n-1...

. . .. . . 0

n 0 · · · · · · · · · 0 m(n,n)

Anschließend werden nur die diagonalen Eintrage der hat Matrix Hi,i (2.10) verwendet,um den hat Matrix Faktor zu errechnen. Beim ziehen der Residuen, darf kein Eintrag,der Null enthalt, verwendet werden. Dies tritt normaler weise in den Ecken (1, n) und(n, 1) auf, wobei das bei den mit hat Matrix Faktoren angepassten Pearson Residuennicht der Fall sein kann. Unter anderem deswegen, wird der hat MatrixAnpassungsfaktor dem des degree of freedoms vorgezogen.

fHat =

√1

1−Hi,i

(2.11)

rHat = r ∗ fHat (2.12)

Mit diesen Residuen konnen wir nun unsere Simulation starten und eine Verteilungaufbauen. Hierzu wird zufallig, mit zurucklegen, aus den Residuen gezogen. Aus dengezogenen Werten wird eine obere Dreiecksmatrix gebildet. Da diese Simulationen10.000 Mal oder ofter durchlaufen wird, empfiehlt sich, bei der Programmierung aufEffizienz zu achten. Der erste Schritt besteht, wie gesagt darin, eine obereDreiecksmatrix rs ,aus zufallig, mit zurucklegen, gezogenen korrekt angepassten PearsonResiduen, zu erstellen.

Danach wird wieder zuruck auf inkrementelle Verluste umgerechnet. Dies erfolgt durchsimples umformen von (2.5).

cs = rs ∗√m+ m (2.13)

Anschließen werden die Werte aufsummiert und somit kumuliert. Also werden proSchadenjahr alle Eintrage, bis inklusive zum gesuchten Entwicklungsjahr, zusammenaddiert. Klarer Weise ist das genau die Gegenoperation zu (2.3)

c(w, d) =

{cs(w, d) ,falls d=1

cs(w, d) + cs(w, d− 1) ,falls d > 1 und w+d < n+2(2.14)

Um tatsachlich das Dreieck zu fullen und die geschatzten zukunftigen inkrementellenVerluste zu erhalten, werden wie in (2.1) die Entwicklungsfaktoren F s berechnet.

10

Daraufhin wird analog zu (2.2) das Dreieck ausgefullt und nach (2.3) wieder dieinkrementelle Form errechnet. So wie beim chain ladder Verfahren wird jetzt derultimate loss pro Schadenjahr herausgeschrieben. Anschließend wird neu gezogen unddie ganze Simulation wiederholt. Nach 10-20 Tausend Wiederholungen sollte eineausreichend stabile Verteilungsfunktion herauskommen.

2.3 Prozess Varianz

Um noch mehr Zufall hinzuzufugen, kann man die geschatzten zukunftigeninkrementellen Werte noch durch eine Gammaverteilung schicken. Diese zusatzlicheVerteilung wird angewendet, bevor der ultimate loss errechnet wird, also mit denSchatzwerten des zukunftigen inkrementellen Verlusts .Um diese extra Varianzhinzuzufugen, muss davon ausgegangen werden, dass die Schatzung des zukunftigeninkrementellen Wertes ps der Mittelwert ist und der Mittelwert mal demSkalierungsfaktor Φ (2.6) die Varianz beschriebt. Formell sieht das ganze so aus:

E[X] = ps V [X] = E[X]Φ = psΦ (2.15)

Fur die Gammaverteilung wird einen Formparameter k > 0 und eineSkalierungsparameter θ > 0 berechnet:

E[X] = kθ V [X] = kθ2

ps = kθ psΦ = kθ2

⇒ k =ps

θ

⇒ psΦ =ps

θθ2

⇒ Φ = θ

⇒ ps = kΦ

⇒ k =ps

Φ

pspv(w, d) = γ(x, k, θ) = γ(x,ps

Φ,Φ) (2.16)

Wobei 0 < x < 1 eine Zufallszahl ist. Aus diesen Werten wird nun wie gehabt derultimate loss berechnet und es werden weitere Simulationen durchgefuhrt.

11

3. Probleme des Bootstraps

Da nun der ODP Bootstrap erklart ist, mochte ich auf die Voraussetzungen undauftretenden Probleme eingehen.

3.1 Negative Werte wahrend der Simulation

Wenn jeder zukunftige inkrementeller Wert (mit psw,d als Mittelwert und Mittelwert maldem Skalierungsfaktor Φpsw,d als Varianz) aus einer Gammaverteilung gezogen wird, umProzessvarianz hinzuzufugen, mussen die Parameter der Gammaverteilung positiv sein.Fur den Fall, dass einer dieser Parameter negativ ist, existieren zwei Moglichkeiten ummit negativen inkrementellen Werten psw,d zu simulieren.

− γ(x,|psw,d|

Φ,Φ) (3.1)

γ(x,|psw,d|

Φ,Φ) + 2psw,d (3.2)

Mit Formel (4.1) erfolgt die intuitive Variante, wofur die Gammaverteilung mitabsoluten Werten gespeist und anschließen schlicht das Vorzeichen gewechselt wird.Jedoch ist, da die Gammaverteilung rechtsschief ist, die daraus resultierende Verteilunglinksschief. Formel (4.2) scheint weniger intuitiv, aber logisch, da hierbei der MittelwertΦpsw,d zweifach addiert wird. Das Resultat ist eine rechtsschiefe Verteilung, mitMittelwert Φpsw,d. Es wird quasi ein additiver Shift mit die-ser Verteilung durchgefuhrt und da Φpsw,d negativ ist, auch auf die Linke Seite verschoben.

Negative inkrementelle Werte konnen außerdem extreme Ergebnisse verursachen. Diemeisten Probleme treten dabei beim neu Ziehen der Residuen und den anschließendresultierenden negativen inkrementellen Werten (2.13) auf. Wenn solche, in den erstenEntwicklungsjahren, auftreten, kann dies dazu fuhren, dass die Summe einer Spaltegegen Null geht. Dies wiederum hat zur Folge, dass der Entwicklungsfaktor (2.1) extremgroß wird. So konnen einige Iterationen in der Simulation Werte 1.000 mal hoher alsdem des eigentlichen Schatzwertes annehmen. Solche Iterationen konnen nicht einfachignoriert werden, da diese den Mittelwert der Verteilung enorm verzerren konnen. Umdem entgegenzuwirken, gibt es drei Optionen: Diese Iterationen werden entfernt unddurch neue ersetzt, das Modell wird angepasst oder es wird ein Minimum furinkrementelle Werte gesetzt, z.B Null. Die erste Option beinhaltet entfernen dieser

12

enormen Werte. Hierbei ist jedoch Achtung geboten, da nur extreme Werte durch exaktdiesen Grund herausgenommen werden durfen und nicht die tatsachlicheWahrscheinlichkeit solcher Werte außer Acht gelassen wird. Die zweite Moglichkeitbesteht darin, das Modell zu rekalibrieren, um das Problem aus dem Verfahren zunehmen. Hierfur muss zuerst die Ursache der negativen inkrementellen Werte gefundenwerden. Beispielsweise konnte es von der ersten Reihe im Schadendreieck, was das ersteProduktionsjahr sein konnte, kommen. Hier ist vielleicht die Dokumentation nichtrichtig verlaufen oder ahnliches. Um dem zuvorzukommen, kann man die erste Reihekomplett weglassen und so einfach ein kleineres Schadendreieck betrachten. Die dritteOption beschrankt die Ergebnisse durch Limitierung der inkrementellen Werte auf einMinimum von Null. Dabei wird einfach jeder auftretender negativer Wert auf Nullgesetzt. Bei allen Optionen sollte man sich bewusst sein, dass es sich hierbei um eineAnalyse des Modells durch Uberprufung der simulierten Resultate handelt und manLosungen suchen sollte bevor man das Modell verwirft. Andererseits ist es ratsam beizunehmend auftretenden Problemen (in diesem Fall negative inkrementelle Werte) sichandere Modelle anzuschauen, welche die Daten eventuell besser fitten.

3.2 Nicht-Null Summer der Residuen

Die standardisierten Residuen, welche beim ODP Bootstrap berechnet werden, sindprinzipiell Fehlerterme. Diese sollten laut Theorie unabhangig und identisch verteilt,mit Mittelwert Null, sein. Allerdings sind Residuen zufallige Beobachtungen der echtenResiduen Verteilung, also ist deren Durchschnitt normalerweise nicht Null. Wenn sichdiese signifikant von Null unterscheiden, sollte man den fit des Modells hinterfragen. Ister nahe Null, so bleibt die Frage offen, ob er nicht adjustiert werden sollte. Man kannargumentieren, dass der nicht Null Durchschnitt der Residuen eine Charakteristik desDatensets ist und somit nicht verandert werden sollte. Wenn man sich fur eineAdjustierung entscheiden will, ist eine Moglichkeit die Addition aller Werte durch eineKonstante.

3.3 Betrachtung der letzten N-Jahre

In der Schadenreservierung ist es weit verbreitet nur die letzten N Jahr zu betrachten,anstatt alle Daten zu verwenden. Dabei werden nur die letzten L+1 Diagonalenverwendet. Die Form der zu modellierenden Daten wird dabei zu einem Trapez statteinem Dreieck. Beim berechnen der Residuen werden auch lediglich die Letzten L+1Diagonalen berechnet. Allerdings wird beim simulieren wieder ein ganzes Dreieckerzeugt, um korrekte kumulierte Werte zu generieren.

3.4 Fehlende Werte

Manchmal fehlen im Schadendreieck Eintrage. Beispielsweise sind in der Mitte derDreiecks Lucken oder es fehlt eine ganze Diagonale, da die Dokumentation in derVergangenheit luckenhaft war. Diese fehlenden Werte konnen Auswirkungen haben auf:

13

• die Entwicklungsfaktoren

• das backwards fitted Triangle, falls die Werte in der aktuellen Diagonale liegen

• die Residuen

• den degree of freedom Faktor

Es gibt verschiedene Moglichkeiten mit diesem Problem umzugehen. Die fehlendenWerte konnen durch ihre Umgebung geschatzt werden, oder der Entwicklungsfaktorkann so angepasst werden, dass er die fehlenden Werte exkludiert. Im letzteren Fallwerden auch keine korrespondierenden Residuen erzeugt. Wie vorhin schon erwahntsollte allerdings wahrend der Simulation ein ganzes Dreieck generiert werden, umkorrekt kumulieren zu konnen.

Wenn die fehlenden Werte auf der aktuellen Diagonale liegen, kann das backwards fittedTriangle nicht erzeugt werden. Eine Losung ist, diese Werte zu schatzen oder die nachstaktuelle Diagonale zu nehmen. Da diese Losungen mathematisch nicht korrekt sind, giltes diese mit Bedacht anzuwenden.

3.5 Ausreißer

Es konnen einige Werte im Datensatz auftreten, welche inkorrekt oder extrem sind,welche man als Ausreißer betiteln konnte. Diese konnten nicht reprasentativ fur dieVariabilitat der Daten fur die Zukunft sein und falls dem so sei, konnte deren Effektentfernt werden.

Es gibt mehrere Moglichkeiten dieses Problem anzugehen. Diese Datenpunkte konntenentfernt und gleich wie fehlende Werte behandelt werden. Alternativ dazu, kann derAusreißer identifiziert und bei Berechnung der Entwicklungsfaktoren und Residuengleich einem fehlenden Wert behandelt werden. Trotzdem kann dessenkorrespondierender inkrementeller Verlust beim Simulieren miteinbezogen werden.

Wenn es eine signifikante Anzahl an Ausreißern gibt, ist dies meinst ein Indikator dafur,dass das Modell nicht zu den Daten passt. Es konnte nur die letzten L-Jahre verwendetwerden, was vielleicht zu einem besser fit fuhren konnte. Allerdings ist eine Besonderheitdes ODP Bootstraps, dass die Schiefe der Residuen auf den Simulationsprozessgespiegelt wird. Somit sollte man immer Vorsichtig sein und erst nachdem man dieDaten wirklich verstanden hat uber eine Entfernung solcher Werte nachdenken.

14

4. Ein anschauliches Beispiel

4.1 Vorbereitung

Wir starten, wie gehabt, mit einem kumulierten Schadendreieck in Form einer oberenDreiecksmatrix:

c d

1 2 3 4 5w 1 352 783 1045 1183 1295

2 255 572 710 7503 279 638 7674 311 7175 308

Tabelle 4.1: Beispiel fur ein Schadendreieck

Nun berechnen wir uns den Entwicklungsfaktor mit(2.1):

F (d) = (2, 263993317 1, 265429002 1, 101424501 1, 094674556)

Jetzt berechnen wir uns das backwards fitted Triangle mit (2.4):

m d

1 2 3 4 5w 1 374,90 848,77 1074,06 1183 1295

2 237,68 538,10 680,93 7503 267,72 606,11 7674 316,69 7175 308

Tabelle 4.2: Kumulatives backwards fitted Triangle

15

Fur den nachsten Schritt, brauchen wir nun zuerst die inkrementellen Werte desbackwards fitted Triangles und des kumulierten Schadendreiecks c. Um von kumuliertauf inkrementell zu kommen, mussen wir nur jedem Datenpunkt, den des vorherigenEntwicklungsjahr abziehen(2.3). Selbiges gilt naturlich auch fur unser c(w, d).

Jetzt konnen wir die unskalierten Pearson Residuen berechnen(2.5):

r d

1 2 3 4 5w 1 -1,18 -1,97 2,45 2,78 0

2 1,12 0,96 -0,40 -3,503 0,69 1,12 -2,514 -0,32 0,285 0

Tabelle 4.3: Unskalierte Pearson Residuen

Mit den Pearson Residuen haben wir zwei Moglichkeiten fortzufahren. Entweder mitdem degree of freedom Faktor oder mit der hat Matrix zu skalieren. In diesem Beispielwerden wir Beides machen und nachher die Resultate vergleichen.

Wir starten mit dem degree of freedom Faktor (2.8). Um uns diesen zu errechnenbenotigen wir jedoch N, die Anzahl an Beobachtungen und p, die Anzahl anParametern (2.7).

fDof =

√15

15− 9= 1, 46

Daraus folgen mit (2.9) die dof skalierten Residuen:

rDof d

1 2 3 4 5w 1 -1,73 -2,88 3,58 4,08 0

2 1,64 1,40 -0,59 -5,123 1,01 1,64 -3,684 -0,47 0,425 0

Tabelle 4.4: Degree of freedom Residuen

16

Im Gegensatz dazu ist die Berechnung der hat Matrix und dessen Skalierungsfaktoreneiniges aufwandiger. Hierfur brauchen wir die weight Matrix W (Tabelle 2.6) und dieDesign Matrix X (Tabelle 2.5).Die hat Matrix H lasst sich nun mit (2.10) berechnen. Die mit der hat Matrix skaliertenResiduen schlussendlich mit (2.11/2.12):

rHat d

1 2 3 4 5w 1 -1,76 -3,17 3,60 4,69 0

2 1,54 1,40 -0,53 -4,693 0,98 1,72 -3,394 -0,50 0,505 0

Tabelle 4.5: Hat Matrix Residuen

Nun haben wir alles und konnen zur Simulation uber gehen. Alle Schritte die ab hierfolgen, werden pro Simulation neu ausgefuhrt. Es folgt die Berechnung einesvollstandigen Simulationsdurchlaufs. Es werden die hat Matrix skalierten Residuenverwenden, allerdings gilt dies genauso mit denen des dof Faktors. Am Ende werdenbeide Verteilungen gegenubergestellt zum Ansehen und Vergleichen. Wir starten nunindem ein ”neues Beispiel” generiert wird.

4.2 Simulation

Hierfur muss aus den Residuen zufallig, mit zurucklegen, gezogen werden.

rs d

1 2 3 4 5w 1 0,98 4,69 1,72 -1,76 1,40

2 0,50 1,72 -1,76 -0,503 -4,69 -1,76 -3,174 -0,53 0,505 0,98

Tabelle 4.6: Neu gezogene, zufallige Residuen

Nun wird von den Residuen zuruck auf die kumulierten Verluste gerechnet. Zunachsterhalt man jedoch mit (2.13) nur die inkrementellen Verluste:

17

cs d

1 2 3 4 5w 1 393,82 576,00 251,09 90,52 126,85

2 245,38 330,22 121,74 64,913 190,96 305,93 120,694 307,32 410,305 325,14

Tabelle 4.7: Simulierte inkrementelle Verluste

Als nachstes werden die Werte kumuliert (2.14):

cs d

1 2 3 4 5w 1 393,82 969,82 1220,91 1311,43 1438,28

2 245,38 575,61 697,34 762,263 190,96 496,89 617,584 307,32 717,625 325,14

Tabelle 4.8: Simulierte kumulierte Verluste

Dann wird wie anfangs der Entwicklungsfaktor berechnet (2.1):

F s(d) = (2, 426361764 1, 241648282 1, 081025054 1, 096726663)

Danach werden diese verwendet um die zukunftigen kumulierten Verluste zuberechnen(2.2):

ps d

1 2 3 4 5w 1 393,82 969,82 1220,91 1311,43 1438,28

2 245,38 575,61 697,34 762,26 835,993 190,96 496,89 617,58 667,62 732,194 307,32 717,62 891,04 963,23 1056,405 325,14 788,92 979,56 1058,93 1161,36

Tabelle 4.9: Simulierte zukunftige kumulierte Verluste

Zu guter Letzt werden die inkrementellen zukunftigen Verluste und der damitberechneten ultimate loss betrachtet (4.10).Nun ist ein kompletter Simulationsdurchlauf (ohne Prozessvarianz) durchgefuhrt und eskann das Er-gebnis von 1363,34 notiert und mit neuen zufallig gezogenen Residuen wiederholt werden.

18

ps d ultimate

1 2 3 4 5w 1

2 73,73 73,733 50,04 64,58 114,624 173,41 72,20 93,17 338,785 463,77 190,64 79,37 102,43 836,21

1363,34

Tabelle 4.10: Simulierte zukunftige inkrementelle Verluste

Will man doch Prozessvarianz miteinbeziehen, muss man lediglich ps durch eineGammaverteilung schicken (2.16). Hierbei wird fur jeden Wert des zukunftigeninkrementellen Verlustes eine neue Zufallszahl gezogen. Anschließend wird genau gleichvorgegangen wie zuvor, aufsummieren und ultimate loss notieren.

Berechnen muss man hierfur jedoch auch noch den Skalierungsfaktor (2.6):

N =5 ∗ (5 + 1)

2= 15 p = 2 ∗ 5− 1 = 9

Φ =

∑r2w,d

15− 9= 6, 96

Der erste Eintrag der zukunftigen inkrementellen Verluste, mit Zufallszahl x = 0, 6355berechnet sich durch:

pspv(2, 5) = γ(0, 6355,73, 73

6, 96, 6, 96) = 79, 41

pspv d ultimate

1 2 3 4 5w 1

2 79,41 79,413 57,09 59,95 117,044 195,97 117,19 79,56 392,725 446,69 204,95 66,29 118,20 836,13

1425,30

Tabelle 4.11: Simulierte zukunftige inkrementelle Verluste mit Prozessvarianz

19

4.3 Ergebnisse

Ich habe nun das angefuhrte Beispiel fur Vier Falle berechnet. Einmal mit den hatMatrix Residuen und das andere mit jenen des degree of freedoms und Beide jeweils mitund ohne Prozessvarianz. In meiner Berechnung werden auftretende negative zukunftigeVerluste mit (3.2) umgangen. Die Iterationsanzahl liegt bei 10.000.

Hat o/Pv Hat m/Pv DoF o/Pv DoF m/PvMean 1372.87 1364.84 1374.10 1368.17

St. dev. 183.66 197.98 208.73 222.67CoV 0.13 0.15 0.15 0.1695% 1690.89 1703.27 1734.21 1740.32

97,5% 1752.26 1774.71 1812.53 1813.1799% 1819.57 1839.70 1894.16 1907.12

99,5% 1861.85 1887.43 1954.57 1971.12

Tabelle 4.12: Ergebnisse der ODP Bootstraps

Abbildung 4.1: Verteilungen der verschiedenen ODP Bootstraps

Als erstes fallt auf, dass die Verteilungen der Bootstraps ohne Prozessvarianz hohereMaximalwerte der Dichte als jene mit haben. In Tabelle (4.12) sind außerdem dieQuantile ohne Prozessvarianz immer niedriger als jene mit, was naturlich durch dieStandardabweichung bestatigt wird. Dies bewahrheitet nur den logischen Entschluss,dass mit mehr Zufall auch ein breitere und dadurch flachere Verteilung auftritt. DieMittelwerte liegen bei allen Varianten im selben Bereich, was bei der kleinen Anzahl anDaten auch zu erwarten war.

20

5. Quellenverzeichnis

• Using the ODP Bootstrap model: a Practitioner’s Guide von Mark R. Shapland

• Bootstrap Methodology in Claim Reserving von Pinheiro, Paulo J. R., Andrade eSilva, Joao M. und Centeno, Maria de Lourdes

• A practical guide to the use of the chain-ladder method for determining technicalprovisions for outstanding reported claims in non-life insurance von BjornWeindorfer

• Bootstrap Estimation of the Predictive Distributions of Reserves Using Paid andIncurred Claims von Huijuan Liu und Richard Verrall

21

Der Bootstrap Maximilian Rauter - fam.tuwien.ac.atsgerhold/pub_files/sem18/s_rauter.pdf · sche...

Documents

Transcript of Der Bootstrap Maximilian Rauter - fam.tuwien.ac.atsgerhold/pub_files/sem18/s_rauter.pdf · sche...