Modeling different dependence structures involving count Modeling different dependence structures...
date post
23-Jan-2021Category
Documents
view
0download
0
Embed Size (px)
Transcript of Modeling different dependence structures involving count Modeling different dependence structures...
Technische Universität München
Zentrum Mathematik
Lehrstuhl für Mathematische Statistik
Modeling different dependence structures involving
count data with applications to insurance, economics
and genetics
Vinzenz Martin Erhardt
Vollständiger Abdruck der von der Fakultät für Mathematik der Technischen Universität München
zur Erlangung des akademischen Grades eines
Doktors der Naturwissenschaften (Dr. rer. nat.)
genehmigten Dissertation.
Vorsitzender: Univ.-Prof. Dr. Rudi Zagst
Prüfer der Dissertation: 1. Univ.-Prof. Claudia Czado, Ph.D.
2. Univ.-Prof. Dr. Ludwig Fahrmeir
Ludwig-Maximilians-Universität München
3. Prof. Arnoldo Frigessi
University of Oslo, Norwegen
(nur schriftliche Beurteilung)
Die Dissertation wurde am 01.04.2010 bei der Technischen Universität München eingereicht und
durch die Fakultät für Mathematik am 14.06.2010 angenommen.
Zusammenfassung
In dieser Arbeit werden etliche Abhängigkeitsstrukturen für Zählvariablen, aber auch stetige
Zielvariablen, untersucht. Diese Zählvariablen weisen typischerweise nicht nur Überdispersion
auf, sondern haben auch einen hohen Anteil an Nullen; zwei Eigenschaften, die kaum von klas-
sischen Verteilungen erklärt werden können. Regressionsmodelle für abhängige beschreibende
Variablen werden ebenfalls untersucht. In einer Anwendung aus der Genetik werden verschiedene
Ansätze verglichen, um mittels ”QTL mapping” auf dem Genom nach signifikanten Regionen
zu suchen, die ursächlich für bestimmte Phänotypen sind. Dabei werden überraschende Ein-
blicke in die Ursachen von Überdispersion präsentiert. Zeitliche Abhängigkeit wird im Kon-
text von ”generalized estimating equations” für verallgemeinerte Poisson Zielvariablen betra-
chtet. Damit soll das Outsourcingverhalten von Patentanmeldungen von 107 Firmen über
acht Jahre beschrieben werden. Für die Jahresgesamtschäden in der Versicherung wird ein
Abhängigkeitsmodell basierend auf Pair-Copula-Konstruktionen entwickelt. Die Herausforderung
bei diesem Problem liegt darin, daß die Versicherungsschäden aus einigen der abhängigen Margi-
nalien Null sein können, die marginalen Schadenhöhenverteilungen daher nicht in das klassische
Copula-Konzept passen. Pair-Copula-Konstruktionen sind deshalb sehr attraktiv, da sie er-
lauben, eine hochdimensionale Dichtefunktion als Produkt bivariater Copulas und marginaler
Dichten zu definieren. Zuletzt wird ein Verfahren zur Erzeugung hochdimensionaler Zählvariablen
mit vorab spezifizierter Pearson-Korrelation entwickelt. Dieser neue Ansatz basiert ebenfalls
auf Pair-Copula-Konstruktionen und hat eine höhere Genauigkeit als ein bekannter Vergleichs-
Ansatz.
Abstract
In this thesis, several dependence structures for dependent count responses and continuous
responses will be investigated. These count variables are typically not only overdispersed but
also show a large share of zero observations which cannot be described by classical distributions.
Therefore, zero-inflated generalized Poisson count regression and other regression models will be
considered. Dependence in the responses as well as in the describing variables will be considered.
In an application to genetics several methods of searching for causal genome regions for a certain
trait will be compared. Surprising insights on another source of overdispersion will be presented.
Temporal dependence will be addressed in the context of generalized estimating equations for
generalized Poisson responses. We apply this approach to fit models for the outsourcing behavior
of patent applications processes of 107 companies over eight years. In the field of dependent
insurance claim totals, a dependence model based on pair-copula constructions will be developed.
The challenge of this problem is that the insurance claims of some of the dependent margins may
be zero, and a marginal claim size distribution will therefore not fit in the general framework
of copula modeling. Pair-copula applications are especially appealing since they allow to define
a high dimensional density function by a product of bivariate copulas and marginal densities.
Finally this thesis will deal with an input modeling problem: a method for sampling from
high-dimensional count random vectors with a specified Pearson correlation will be developed.
For this challenging problem a novel approach also based on pair-copula constructions will be
developed and prove to outperform a well-known benchmark approach. Software packages for
R related to many of the topics have been developed.
Acknowledgment
I am greatly indebted to Prof. Claudia Czado for the perpetual and intensive supervision.
This thesis has gained a lot from many fruitful discussions, her astute analysis and ongoing advice
over the past four years. Likewise, I am very grateful for her encouragement to participate in
many scientific conferences and to exchange with esteemed scientists.
It is a particular pleasure for me to thank Prof. Ma lgorzata Bogdan for the very fruitful
collaboration and the many valuable debates. Also I would like to thank Prof. Ludwig Fahrmeir
and Prof. Arnoldo Frigessi for acting as referees of this thesis. I would like to thank my colleagues
at the Technische Universität München for a pleasant time during the last years.
Moreover, I want to express my explicit gratitude to Allianz Deutschland AG for the financial
support. I would also like to thank my former supervisor at Allianz, Pierre Joos, both for giving
me credit and for supporting me in the first year of the thesis. I am grateful to Dr. Beate Elfinger
for helpful discussions and to Dr. Florian Beigel and his colleagues for giving me valuable advice.
Last but not least I am very grateful for the love of my family and especially of my wife
Christine, and their support and patience throughout the years.
Contents
Introduction 1
1 QTL mapping for ZIGP regression 7
1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Zero-inflated generalized Poisson regression . . . . . . . . . . . . . . . . . . . . . 9
1.3 mBIC and EBIC for ZIGPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4 Simulation study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Real data analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2 Sampling high-dimensional count variables 22
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2 Copulas and multivariate Distributions . . . . . . . . . . . . . . . . . . . . . . . . 24
2.3 Sampling in dimension 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.3.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3.2 Derivation of the sampling algorithm for T = 3 . . . . . . . . . . . . . . . 29
2.4 Sampling in dimension T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.4.1 Sampling algorithm in dimension T . . . . . . . . . . . . . . . . . . . . . 33
2.5 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.6 Simulation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.7 Summary and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3 GEE for longitudinal generalized Poisson 40
3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.2 A GEE setup for longitudinal count data . . . . . . . . . . . . . . . . . . . . . . 41
3.3 A GEE approach for GPR(µit, ϕit,R1(λ1)) . . . . . . . . . . . . . . . . . . . . . 44
3.4 Small sample properties of the GEE estimates . . . . . . . . . . . . . . . . . . . . 46
3.5 Variable selection and model comparison . . . . . . . . . . . . . . . . . . . . . . . 48
3.5.1 A variable selection criterion for nested models . . . . . . . . . . . . . . . 48
3.5.2 Assessing model fit for nonnested models . . . . . . . . . . . . . . . . . . 49
3.6 Application: Outsourcing of patent applications . . . . . . . . . . . . . . . . . . . 50
3.6.1 Data description and model comparison . . . . . . . . . . . . . . . . . . . 50
3.6.2 Model interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.7 Conclusions and Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
i
4 Model selection for spatial count regression 58
4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2 Spatial count regression models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.1 Spatial effects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.2.2 Count regression models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
4.3 MCMC includi