Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1...

Post on 25-Aug-2019

218 views 0 download

Transcript of Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1...

1G.Hammer Workshop StatMethEpi

19.11.2009

Eine Methode zum Umgang mit fehlenden

Todesursachen in Kohortenstudien

Gaël P. Hammer, Jochem König,

Ingo Langner, Hajo Zeeb

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

2G.Hammer Workshop StatMethEpi

19.11.2009

Hintergrund

Probleme historischer Kohortenstudien Verluste beim Follow up

fehlende Todesursachen

Anwendungsbeispiel: Deutsche Flugpersonal-Kohorte Einschluss: 1960-1997 aktive Personen

Hohe Mobilität

Mortalitäts-Follow up bis 2003

883 Krebsfälle

Anteil fehlender Todesursachen 25,8 % (1960-1974) bis 8,7 % (1990-2003)

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

3G.Hammer Workshop StatMethEpi

19.11.2009

Methoden

Rittgen W, Becker N

Biometrics. 2000 Dec;56(4):1164-9

Idee

3 Lösungsansätze

Probleme

Alternative Vorschläge

Multiple Imputation

wir stellen und dumm

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

4G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Idee

Notation

Z: # Todesursachen insgesamt

M: # Krebs-Todesursachen

N: # Nicht-Krebs-Krebs-Todesursachen

U: # unbekannter Todesursachen

Z = M + N + U

Idee

Anteil bekannter Ursachen: p = (M + N) / (M + N + U)

Korrigierte Anzahl: K = M / p

Problem: Konfidenzintervall für K ?

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

5G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Idee

Gesucht werden die Parameter der echten Anzahlen:

Z = K + L

Statt M: K ~ Poisson(κ) „Krebstodesursachen“

Statt N: L ~ Poisson(λ) „andere Ursachen“

M ~ Poisson(µ); M | K ~ Binom(k; p = µ/κ)

N ~ Poisson(ν); N | L ~ Binom(l; p = ν/λ)

p ~ Binomial()

Max.Likelihood-Schätzer:

z

nmp̂

p

m

ˆˆ

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

6G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Lösungen

1) Konservative Lösung

α1+ α2 = α

(1-α1)%-Konfidenzintervall für µ: [µL ; µU]

(1-α2)%-Konfidenzintervall für p: [pL ; pU]

Setze κL := µL / pU und κU := µU / pL

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

7G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Lösungen

2) Asymptotischer Lösung

auf Grundlage der Informationsmatrix der Maximum-

Likelihood-Schätzung von p, κ und λ

asymptotische Varianz für κ berechnen als:

Var(κ) = κ[1+N/(M+N)·(1-p)/p].

(1- α)%-Konfidenzintervallgrenzen:

κ ± z1-a/2·√Var(κ).

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

8G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Lösungen

3) Exakte Lösung

Iteratives Verfahren

in APL/2 implementiert

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

9G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Probleme

Zentrale Annahme: Die Verteilung der unbekannten Todesursachen gleicht derjenigen der beobachteten.

fast immer verletzt

Flugzeugabsturz im Ausland keine Todesursache (ein schlechtes Beispiel)

In der jüngsten Vergangenheit weniger fehlende Werte als vorher

Teillösung: Anwendung in Strata

Aber: Korrektur in kleinen Strata schlecht zu kommunizieren

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

10G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Probleme

Jahre Todesursache Fälle p korr. Fälle

1960-74 Alle 13

Krebs 1 0,62 1,63

Andere 7 =(13-5)/13

Unbekannt 5

1975-89 Alle 66

Krebs 10 0,85 11,79

Andere 46

Unbekannt 10

1990-03 Alle 153

Krebs 34 0,90 37,70

Andere 104

Unbekannt 15

1960-2003 Krebs 45 0,87 51,12 ≠ 51,68

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

11G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Multiple Imputation

Es ist einfach

Es gibt Software dafür

Für die Verteilung der unbekannten

Todesursachen kann angenommen werden

die Verteilung der beobachteten Todesursachen

die Verteilung der Todesursachen in der

Referenzbevölkerung (= anderes Extrem)

Hoffnung: Es ist präzise

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

12G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Multiple Imputation

Hier: „von Hand“:

1. Erzeuge i Datensätze mit imputierten Werten für die Fehlenden Todesursachen Erzeuge pi: Die Bayesianische Posterior-Verteilung von p ist

Beta(M; N).

Erzeuge U'i: U'i ~ Binomial(U, pi)

Berechne Ki =M + Ui

Var(Ki) = Ki, da Poisson-verteilt.

2. Auswertung: Entweder direkt anhand der Formeln von Rubin (2002) oder mit der Auswertungs-Prozedur1. Within-simulation variance

2. Between-simulation variance

3. Zusammen: Schätzer K mit seiner Varianz V > K.

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

13G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Multiple Imputation

Offene Frage: K ~ Poisson mit Überdispersion

Lehrbuch: K ~ t()

Mein Vorschlag: K ~ Negativ-Binomial

Alternativ: Verwende Log-Transformation von K

(Log(Ki), Var(Ki) = 1/Ki)

Besser? K ~ Gamma mit entsprechenden

Momenten?

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

14G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Naives Verfahren

Wir nehmen p als fest an.

[κL ; κU] := [µL/p ; µU/p]

Aber: Überdeckungswahrscheinlichkeit?

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

15G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse

95%

CI (r

ela

tive to

corr

ecte

d n

o. o

f o

bserv

ed d

eath

s)

( 50%) 0.0% 50%

100% 150% 200% 250% 300% 350% 400% 450% 500% 550%

Total deaths

10 100 1000

Correction method

Rittgen & Becker 'exact'Rittgen & Becker asymptotic

10%

20%

30%40%80%10%20%80%

95%-Konfidenzintervall relativ zum korrigierten Schätzer

bei unterschiedlichen Anteilen bekannter Todesursachen

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

16G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse95%

CI

(re

lative

to c

orr

ecte

d n

o. o

f ob

serv

ed d

ea

ths)

0.0%

20%

40%

60%

80%

100%

120%

140%

160%

180%

200%

220%

Proportion of observed deaths from sample cause

10%20%

30%40%

50%60%

70%80%

90% / 10%

20%30%

40%50%

60%70%

80%90%

Correction method

NaiveRittgen & Becker approximateRittgen & Becker asymptoticMultiple Imputation

5% missing causes 25% missing causes

Breite des 95%-Konfidenzintervalls

relativ zum korrigierten Schätzer

am Beispiel 100 Todesfälle

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

17G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse95%

CI

(re

lative

to c

orr

ecte

d n

o. o

f ob

serv

ed d

ea

ths)

0.0%

20%

40%

60%

80%

100%

120%

140%

160%

180%

200%

220%

Proportion of observed deaths from sample cause

10%20%

30%40%

50%60%

70%80%

90% / 10%

20%30%

40%50%

60%70%

80%90%

Correction method

NaiveRittgen & Becker approximateRittgen & Becker asymptoticMultiple Imputation

5% missing causes 25% missing causes

Breite des 95%-Konfidenzintervalls

relativ zum korrigierten Schätzer

am Beispiel 100 Todesfälle

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

18G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse

Jahre Todesurs. Fälle korr.

Fälle

95%-Konfidenzintervalle für korrigierte Krebsfälle

1960-74 Alle 33 0,9 - 12,1 naiv

Krebs 3 4,1 0,7 - 16,9 approximativ

Andere 21 -0,5 - 8,7 asymptotisch

Unbekannt 9 0,0 - 10,0 multiple Imputation

1975-89 Alle 100 22,9 - 46,8 naiv

Krebs 33 33,3 22,7 - 49,4 approximativ

Andere 66 22,0 - 44,7 asymptotisch

Unbekannt 1 22,0 - 45,0 multiple Imputation

1990-03 Alle 252 77,6 - 118,3 naiv

Krebs 91 96,4 75,4 - 123,7 approximativ

Andere 147 76,8 - 115,9 asymptotisch

Unbekannt 14 77,0 - 116,0 multiple Imputation

{

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

19G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse

Coverage, MI

90%

91%

92%

93%

94%

95%

96%

97%

98%

99%

100%

TruePropCancer

10% 20% 30% 40% 50% 60% 70% 80% 90%

TruePropUnknown 5% 10% 15% 20% 25%

Überdeckungswahrscheinlichkeit des MI-Verfahrens

für den Extremfall 20 Todesfälle insgesamt

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

20G.Hammer Workshop StatMethEpi

19.11.2009

Diskussion

Die Korrektur der SMR + KI ist wichtig

Das approximative Verfahren von Rittgen und

Becker liefert sehr konservative Konfidenzintervall-

grenzen

Überdeckungswahrscheinlichkeit der Konfidenz-

intervalle mit den verschiedenen Ansätzen fast

immer über 95% (Ausnahme: sehr kleine

Fallzahlen: ≤ 20 Tote insgesamt, davon 2-4 Krebs)

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

21G.Hammer Workshop StatMethEpi

19.11.2009

Diskussion

Multiple Imputation

einfach zu implementieren

liefert genaue Konfidenzintervalle

erlaubt es, von der Annahme abzuweichen, dass

die Verteilung der unbekannten Todesursachen

derjenigen der beobachteten gleicht

Verhindert unter Umständen Überkorrektur

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

22G.Hammer Workshop StatMethEpi

19.11.2009

Offene Punkte

Implementierung: PROC FCMP

Anzahl nötiger MI-Datensätze

Wie werden die Konfidenzintervallgrenzen für die

korrigierte Anzahl Krebstodesfälle K technisch

„richtigt“ berechnet?