Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1...

22
1 G.Hammer Workshop StatMethEpi 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël P. Hammer, Jochem König, Ingo Langner, Hajo Zeeb

Transcript of Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1...

Page 1: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

1G.Hammer Workshop StatMethEpi

19.11.2009

Eine Methode zum Umgang mit fehlenden

Todesursachen in Kohortenstudien

Gaël P. Hammer, Jochem König,

Ingo Langner, Hajo Zeeb

Page 2: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

2G.Hammer Workshop StatMethEpi

19.11.2009

Hintergrund

Probleme historischer Kohortenstudien Verluste beim Follow up

fehlende Todesursachen

Anwendungsbeispiel: Deutsche Flugpersonal-Kohorte Einschluss: 1960-1997 aktive Personen

Hohe Mobilität

Mortalitäts-Follow up bis 2003

883 Krebsfälle

Anteil fehlender Todesursachen 25,8 % (1960-1974) bis 8,7 % (1990-2003)

Page 3: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

3G.Hammer Workshop StatMethEpi

19.11.2009

Methoden

Rittgen W, Becker N

Biometrics. 2000 Dec;56(4):1164-9

Idee

3 Lösungsansätze

Probleme

Alternative Vorschläge

Multiple Imputation

wir stellen und dumm

Page 4: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

4G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Idee

Notation

Z: # Todesursachen insgesamt

M: # Krebs-Todesursachen

N: # Nicht-Krebs-Krebs-Todesursachen

U: # unbekannter Todesursachen

Z = M + N + U

Idee

Anteil bekannter Ursachen: p = (M + N) / (M + N + U)

Korrigierte Anzahl: K = M / p

Problem: Konfidenzintervall für K ?

Page 5: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

5G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Idee

Gesucht werden die Parameter der echten Anzahlen:

Z = K + L

Statt M: K ~ Poisson(κ) „Krebstodesursachen“

Statt N: L ~ Poisson(λ) „andere Ursachen“

M ~ Poisson(µ); M | K ~ Binom(k; p = µ/κ)

N ~ Poisson(ν); N | L ~ Binom(l; p = ν/λ)

p ~ Binomial()

Max.Likelihood-Schätzer:

z

nmp̂

p

m

ˆˆ

Page 6: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

6G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Lösungen

1) Konservative Lösung

α1+ α2 = α

(1-α1)%-Konfidenzintervall für µ: [µL ; µU]

(1-α2)%-Konfidenzintervall für p: [pL ; pU]

Setze κL := µL / pU und κU := µU / pL

Page 7: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

7G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Lösungen

2) Asymptotischer Lösung

auf Grundlage der Informationsmatrix der Maximum-

Likelihood-Schätzung von p, κ und λ

asymptotische Varianz für κ berechnen als:

Var(κ) = κ[1+N/(M+N)·(1-p)/p].

(1- α)%-Konfidenzintervallgrenzen:

κ ± z1-a/2·√Var(κ).

Page 8: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

8G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Lösungen

3) Exakte Lösung

Iteratives Verfahren

in APL/2 implementiert

Page 9: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

9G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Probleme

Zentrale Annahme: Die Verteilung der unbekannten Todesursachen gleicht derjenigen der beobachteten.

fast immer verletzt

Flugzeugabsturz im Ausland keine Todesursache (ein schlechtes Beispiel)

In der jüngsten Vergangenheit weniger fehlende Werte als vorher

Teillösung: Anwendung in Strata

Aber: Korrektur in kleinen Strata schlecht zu kommunizieren

Page 10: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

10G.Hammer Workshop StatMethEpi

19.11.2009

Rittgen & Becker – Probleme

Jahre Todesursache Fälle p korr. Fälle

1960-74 Alle 13

Krebs 1 0,62 1,63

Andere 7 =(13-5)/13

Unbekannt 5

1975-89 Alle 66

Krebs 10 0,85 11,79

Andere 46

Unbekannt 10

1990-03 Alle 153

Krebs 34 0,90 37,70

Andere 104

Unbekannt 15

1960-2003 Krebs 45 0,87 51,12 ≠ 51,68

Page 11: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

11G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Multiple Imputation

Es ist einfach

Es gibt Software dafür

Für die Verteilung der unbekannten

Todesursachen kann angenommen werden

die Verteilung der beobachteten Todesursachen

die Verteilung der Todesursachen in der

Referenzbevölkerung (= anderes Extrem)

Hoffnung: Es ist präzise

Page 12: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

12G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Multiple Imputation

Hier: „von Hand“:

1. Erzeuge i Datensätze mit imputierten Werten für die Fehlenden Todesursachen Erzeuge pi: Die Bayesianische Posterior-Verteilung von p ist

Beta(M; N).

Erzeuge U'i: U'i ~ Binomial(U, pi)

Berechne Ki =M + Ui

Var(Ki) = Ki, da Poisson-verteilt.

2. Auswertung: Entweder direkt anhand der Formeln von Rubin (2002) oder mit der Auswertungs-Prozedur1. Within-simulation variance

2. Between-simulation variance

3. Zusammen: Schätzer K mit seiner Varianz V > K.

Page 13: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

13G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Multiple Imputation

Offene Frage: K ~ Poisson mit Überdispersion

Lehrbuch: K ~ t()

Mein Vorschlag: K ~ Negativ-Binomial

Alternativ: Verwende Log-Transformation von K

(Log(Ki), Var(Ki) = 1/Ki)

Besser? K ~ Gamma mit entsprechenden

Momenten?

Page 14: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

14G.Hammer Workshop StatMethEpi

19.11.2009

Alternative: Naives Verfahren

Wir nehmen p als fest an.

[κL ; κU] := [µL/p ; µU/p]

Aber: Überdeckungswahrscheinlichkeit?

Page 15: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

15G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse

95%

CI (r

ela

tive to

corr

ecte

d n

o. o

f o

bserv

ed d

eath

s)

( 50%) 0.0% 50%

100% 150% 200% 250% 300% 350% 400% 450% 500% 550%

Total deaths

10 100 1000

Correction method

Rittgen & Becker 'exact'Rittgen & Becker asymptotic

10%

20%

30%40%80%10%20%80%

95%-Konfidenzintervall relativ zum korrigierten Schätzer

bei unterschiedlichen Anteilen bekannter Todesursachen

Page 16: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

16G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse95%

CI

(re

lative

to c

orr

ecte

d n

o. o

f ob

serv

ed d

ea

ths)

0.0%

20%

40%

60%

80%

100%

120%

140%

160%

180%

200%

220%

Proportion of observed deaths from sample cause

10%20%

30%40%

50%60%

70%80%

90% / 10%

20%30%

40%50%

60%70%

80%90%

Correction method

NaiveRittgen & Becker approximateRittgen & Becker asymptoticMultiple Imputation

5% missing causes 25% missing causes

Breite des 95%-Konfidenzintervalls

relativ zum korrigierten Schätzer

am Beispiel 100 Todesfälle

Page 17: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

17G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse95%

CI

(re

lative

to c

orr

ecte

d n

o. o

f ob

serv

ed d

ea

ths)

0.0%

20%

40%

60%

80%

100%

120%

140%

160%

180%

200%

220%

Proportion of observed deaths from sample cause

10%20%

30%40%

50%60%

70%80%

90% / 10%

20%30%

40%50%

60%70%

80%90%

Correction method

NaiveRittgen & Becker approximateRittgen & Becker asymptoticMultiple Imputation

5% missing causes 25% missing causes

Breite des 95%-Konfidenzintervalls

relativ zum korrigierten Schätzer

am Beispiel 100 Todesfälle

Page 18: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

18G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse

Jahre Todesurs. Fälle korr.

Fälle

95%-Konfidenzintervalle für korrigierte Krebsfälle

1960-74 Alle 33 0,9 - 12,1 naiv

Krebs 3 4,1 0,7 - 16,9 approximativ

Andere 21 -0,5 - 8,7 asymptotisch

Unbekannt 9 0,0 - 10,0 multiple Imputation

1975-89 Alle 100 22,9 - 46,8 naiv

Krebs 33 33,3 22,7 - 49,4 approximativ

Andere 66 22,0 - 44,7 asymptotisch

Unbekannt 1 22,0 - 45,0 multiple Imputation

1990-03 Alle 252 77,6 - 118,3 naiv

Krebs 91 96,4 75,4 - 123,7 approximativ

Andere 147 76,8 - 115,9 asymptotisch

Unbekannt 14 77,0 - 116,0 multiple Imputation

{

Page 19: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

19G.Hammer Workshop StatMethEpi

19.11.2009

Ergebnisse

Coverage, MI

90%

91%

92%

93%

94%

95%

96%

97%

98%

99%

100%

TruePropCancer

10% 20% 30% 40% 50% 60% 70% 80% 90%

TruePropUnknown 5% 10% 15% 20% 25%

Überdeckungswahrscheinlichkeit des MI-Verfahrens

für den Extremfall 20 Todesfälle insgesamt

Page 20: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

20G.Hammer Workshop StatMethEpi

19.11.2009

Diskussion

Die Korrektur der SMR + KI ist wichtig

Das approximative Verfahren von Rittgen und

Becker liefert sehr konservative Konfidenzintervall-

grenzen

Überdeckungswahrscheinlichkeit der Konfidenz-

intervalle mit den verschiedenen Ansätzen fast

immer über 95% (Ausnahme: sehr kleine

Fallzahlen: ≤ 20 Tote insgesamt, davon 2-4 Krebs)

Page 21: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

21G.Hammer Workshop StatMethEpi

19.11.2009

Diskussion

Multiple Imputation

einfach zu implementieren

liefert genaue Konfidenzintervalle

erlaubt es, von der Annahme abzuweichen, dass

die Verteilung der unbekannten Todesursachen

derjenigen der beobachteten gleicht

Verhindert unter Umständen Überkorrektur

Page 22: Eine Methode zum Umgang mit fehlenden Todesursachen in ... · G.Hammer Workshop StatMethEpi 1 19.11.2009 Eine Methode zum Umgang mit fehlenden Todesursachen in Kohortenstudien Gaël

Institut für Biometrie, Epidemiologie

und Medizinische Informatik

22G.Hammer Workshop StatMethEpi

19.11.2009

Offene Punkte

Implementierung: PROC FCMP

Anzahl nötiger MI-Datensätze

Wie werden die Konfidenzintervallgrenzen für die

korrigierte Anzahl Krebstodesfälle K technisch

„richtigt“ berechnet?