Modeling different dependence structures involving count Modeling different dependence structures...

Click here to load reader

  • date post

    23-Jan-2021
  • Category

    Documents

  • view

    0
  • download

    0

Embed Size (px)

Transcript of Modeling different dependence structures involving count Modeling different dependence structures...

  • Technische Universität München

    Zentrum Mathematik

    Lehrstuhl für Mathematische Statistik

    Modeling different dependence structures involving

    count data with applications to insurance, economics

    and genetics

    Vinzenz Martin Erhardt

    Vollständiger Abdruck der von der Fakultät für Mathematik der Technischen Universität München

    zur Erlangung des akademischen Grades eines

    Doktors der Naturwissenschaften (Dr. rer. nat.)

    genehmigten Dissertation.

    Vorsitzender: Univ.-Prof. Dr. Rudi Zagst

    Prüfer der Dissertation: 1. Univ.-Prof. Claudia Czado, Ph.D.

    2. Univ.-Prof. Dr. Ludwig Fahrmeir

    Ludwig-Maximilians-Universität München

    3. Prof. Arnoldo Frigessi

    University of Oslo, Norwegen

    (nur schriftliche Beurteilung)

    Die Dissertation wurde am 01.04.2010 bei der Technischen Universität München eingereicht und

    durch die Fakultät für Mathematik am 14.06.2010 angenommen.

  • Zusammenfassung

    In dieser Arbeit werden etliche Abhängigkeitsstrukturen für Zählvariablen, aber auch stetige

    Zielvariablen, untersucht. Diese Zählvariablen weisen typischerweise nicht nur Überdispersion

    auf, sondern haben auch einen hohen Anteil an Nullen; zwei Eigenschaften, die kaum von klas-

    sischen Verteilungen erklärt werden können. Regressionsmodelle für abhängige beschreibende

    Variablen werden ebenfalls untersucht. In einer Anwendung aus der Genetik werden verschiedene

    Ansätze verglichen, um mittels ”QTL mapping” auf dem Genom nach signifikanten Regionen

    zu suchen, die ursächlich für bestimmte Phänotypen sind. Dabei werden überraschende Ein-

    blicke in die Ursachen von Überdispersion präsentiert. Zeitliche Abhängigkeit wird im Kon-

    text von ”generalized estimating equations” für verallgemeinerte Poisson Zielvariablen betra-

    chtet. Damit soll das Outsourcingverhalten von Patentanmeldungen von 107 Firmen über

    acht Jahre beschrieben werden. Für die Jahresgesamtschäden in der Versicherung wird ein

    Abhängigkeitsmodell basierend auf Pair-Copula-Konstruktionen entwickelt. Die Herausforderung

    bei diesem Problem liegt darin, daß die Versicherungsschäden aus einigen der abhängigen Margi-

    nalien Null sein können, die marginalen Schadenhöhenverteilungen daher nicht in das klassische

    Copula-Konzept passen. Pair-Copula-Konstruktionen sind deshalb sehr attraktiv, da sie er-

    lauben, eine hochdimensionale Dichtefunktion als Produkt bivariater Copulas und marginaler

    Dichten zu definieren. Zuletzt wird ein Verfahren zur Erzeugung hochdimensionaler Zählvariablen

    mit vorab spezifizierter Pearson-Korrelation entwickelt. Dieser neue Ansatz basiert ebenfalls

    auf Pair-Copula-Konstruktionen und hat eine höhere Genauigkeit als ein bekannter Vergleichs-

    Ansatz.

  • Abstract

    In this thesis, several dependence structures for dependent count responses and continuous

    responses will be investigated. These count variables are typically not only overdispersed but

    also show a large share of zero observations which cannot be described by classical distributions.

    Therefore, zero-inflated generalized Poisson count regression and other regression models will be

    considered. Dependence in the responses as well as in the describing variables will be considered.

    In an application to genetics several methods of searching for causal genome regions for a certain

    trait will be compared. Surprising insights on another source of overdispersion will be presented.

    Temporal dependence will be addressed in the context of generalized estimating equations for

    generalized Poisson responses. We apply this approach to fit models for the outsourcing behavior

    of patent applications processes of 107 companies over eight years. In the field of dependent

    insurance claim totals, a dependence model based on pair-copula constructions will be developed.

    The challenge of this problem is that the insurance claims of some of the dependent margins may

    be zero, and a marginal claim size distribution will therefore not fit in the general framework

    of copula modeling. Pair-copula applications are especially appealing since they allow to define

    a high dimensional density function by a product of bivariate copulas and marginal densities.

    Finally this thesis will deal with an input modeling problem: a method for sampling from

    high-dimensional count random vectors with a specified Pearson correlation will be developed.

    For this challenging problem a novel approach also based on pair-copula constructions will be

    developed and prove to outperform a well-known benchmark approach. Software packages for

    R related to many of the topics have been developed.

  • Acknowledgment

    I am greatly indebted to Prof. Claudia Czado for the perpetual and intensive supervision.

    This thesis has gained a lot from many fruitful discussions, her astute analysis and ongoing advice

    over the past four years. Likewise, I am very grateful for her encouragement to participate in

    many scientific conferences and to exchange with esteemed scientists.

    It is a particular pleasure for me to thank Prof. Ma lgorzata Bogdan for the very fruitful

    collaboration and the many valuable debates. Also I would like to thank Prof. Ludwig Fahrmeir

    and Prof. Arnoldo Frigessi for acting as referees of this thesis. I would like to thank my colleagues

    at the Technische Universität München for a pleasant time during the last years.

    Moreover, I want to express my explicit gratitude to Allianz Deutschland AG for the financial

    support. I would also like to thank my former supervisor at Allianz, Pierre Joos, both for giving

    me credit and for supporting me in the first year of the thesis. I am grateful to Dr. Beate Elfinger

    for helpful discussions and to Dr. Florian Beigel and his colleagues for giving me valuable advice.

    Last but not least I am very grateful for the love of my family and especially of my wife

    Christine, and their support and patience throughout the years.

  • Contents

    Introduction 1

    1 QTL mapping for ZIGP regression 7

    1.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

    1.2 Zero-inflated generalized Poisson regression . . . . . . . . . . . . . . . . . . . . . 9

    1.3 mBIC and EBIC for ZIGPR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

    1.4 Simulation study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

    1.5 Real data analysis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

    1.6 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

    2 Sampling high-dimensional count variables 22

    2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

    2.2 Copulas and multivariate Distributions . . . . . . . . . . . . . . . . . . . . . . . . 24

    2.3 Sampling in dimension 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    2.3.1 Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    2.3.2 Derivation of the sampling algorithm for T = 3 . . . . . . . . . . . . . . . 29

    2.4 Sampling in dimension T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

    2.4.1 Sampling algorithm in dimension T . . . . . . . . . . . . . . . . . . . . . 33

    2.5 Illustration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    2.6 Simulation Study . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    2.7 Summary and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

    3 GEE for longitudinal generalized Poisson 40

    3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    3.2 A GEE setup for longitudinal count data . . . . . . . . . . . . . . . . . . . . . . 41

    3.3 A GEE approach for GPR(µit, ϕit,R1(λ1)) . . . . . . . . . . . . . . . . . . . . . 44

    3.4 Small sample properties of the GEE estimates . . . . . . . . . . . . . . . . . . . . 46

    3.5 Variable selection and model comparison . . . . . . . . . . . . . . . . . . . . . . . 48

    3.5.1 A variable selection criterion for nested models . . . . . . . . . . . . . . . 48

    3.5.2 Assessing model fit for nonnested models . . . . . . . . . . . . . . . . . . 49

    3.6 Application: Outsourcing of patent applications . . . . . . . . . . . . . . . . . . . 50

    3.6.1 Data description and model comparison . . . . . . . . . . . . . . . . . . . 50

    3.6.2 Model interpretation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

    3.7 Conclusions and Discussions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

    i

  • 4 Model selection for spatial count regression 58

    4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58

    4.2 Spatial count regression models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    4.2.1 Spatial effects . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59

    4.2.2 Count regression models . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    4.3 MCMC includi