Fehlende Daten - Seminarvortrag im Rahmen des Seminars...

44
Grundlegende Begriffe Methoden mit beob. Werten Imputationsmethoden Fehlende Daten Seminarvortrag im Rahmen des Seminars: Statistische Herausforderungen sozialwissenschaftlicher Studien Julia Schiele Betreuer: Professor Augustin Institut f¨ ur Statistik LMU 22. Dezember 2010 1 / 44

Transcript of Fehlende Daten - Seminarvortrag im Rahmen des Seminars...

Page 1: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Fehlende DatenSeminarvortrag im Rahmen des Seminars:

Statistische Herausforderungen sozialwissenschaftlicher Studien

Julia Schiele

Betreuer: Professor AugustinInstitut fur Statistik LMU

22. Dezember 2010

1 / 44

Page 2: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

2 / 44

Page 3: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Was sind fehlende Daten?

Werte die als existierend angenommen, aber als Reaktion auf einen(unbekannten) Reiz nicht beobachtet wurden. (auch: Nonresponse)

Item-Nonresponse:Einzelne Werte bei sonst beobachteten Einheiten fehlen

Unit-Nonresponse:Ganze Einheiten nicht beobachtet(Extremfall von Item-Nonresponse)

Beispiel: Personen verweigern jede Auskunft zum ThemaEinkommen

3 / 44

Page 4: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

4 / 44

Page 5: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MCAR:”missing completely at random“

Fehlende Werte unabhangig von beobachteten und fehlendenVariablenwerten

g(r | uobs , umis ; γ) = g(r ; γ) (mit r = Fehlmuster)

Beispiel:Fehlende Werte in Einkommen unabhangig von (beob.) Alter undEinkommen selbst

⇒ entspricht einfacher Zufallsstichprobe⇒ relativ unproblematisch, da fehlende Werte einfach zu ignorieren

(spater mehr)

5 / 44

Page 6: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MCAR: keine Verzerrungen (Grafik aus *)

6 / 44

Page 7: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MAR:”missing at random“

Fehlende Werte unabhangig von fehlenden, aber abhangig vonbeobachteten Variablenwerten

g(r | uobs , umis ; γ) = g(r | uobs ; γ)

Beispiel:Fehlende Werte in Einkommen unabhangig von Hohe desEinkommens, aber abhangig von (beob.) Alter

⇒ ignoriert man fehlende Werte: ⇒ Verzerrung⇒ Aber: Regressionsbeziehung unverzerrt! (Nutzt man bei

Multipler Imputation)

7 / 44

Page 8: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MAR: Verzerrungen (Grafik aus *)

8 / 44

Page 9: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

NMAR:”not missing at random“

Fehlende Werte abhangig von beobachteten und fehlendenVariablenwerten

g(r | uobs , umis ; γ) keine Vereinfachung

Beispiel:Fehlende Werte in Einkommen abhangig von (beob.) Alter undHohe des Einkommens

⇒ ignoriert man fehlende Werte⇒ Verzerrung (starker als bei MAR) - auch bei Reg.beziehung

⇒ notwendige Information nur durch externes Wissen

9 / 44

Page 10: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

NMAR: Verzerrungen (Grafik aus *)

10 / 44

Page 11: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

11 / 44

Page 12: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Ignorierbarkeit

Ignorieren des Missingmechanismus moglich, wenn (gunstige)Inferenz-Eigenschaften erhalten bleiben.

Klassenzugehorigkeit nach Rubin (MCAR, MAR, NMAR)

Distinktheit von Parametern: sie stehen nicht funktionalmiteinander in Beziehung⇒ mit Parameter als ZV: Distinktheit = stoch.Unabhangigkeit

I Bei Analyse mit Likelihood-Konzept:

MCAR-Missingmechanismus ignorierbar

MAR-Missingmechanismus ignorierbar wenn distinkt

NMAR-Missingmechanismus nicht ignorierbar

12 / 44

Page 13: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Ignorierbarkeit bei MAR

Fur ML-Schatzung: f (uobs ,umis ; Θ)(Verteilung der Variablen, unabh. davon ob beobachtet oder nicht)

⇒ Fehlmuster r zu berucksichtigen:

Gemeinsame Verteilung: (mit Annahme Θ, γ distinkt)

h (u,r ; Θ,γ) = f (uobs ,umis ; Θ) · g (r | uobs ,umis ; γ)MAR= f (uobs ,umis ; Θ) · g (r | uobs ; γ)

Likelihood: f (uobs ; Θ) · g (r | uobs ; γ) =

wobei: f (uobs ; Θ) =∫f (uobs , umis ; Θ)dumis (stetiger Fall)

logLikelihood: l (Θ,γ) = ln f (uobs ; Θ) + ln g (r | uobs ; γ)

⇒ Da Θ und γ distinkt: 2. Summand keine Info uber Θ

13 / 44

Page 14: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

14 / 44

Page 15: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Probleme mit fehlenden Daten

Ignorieren abhangig von Art der Analyse sowie dem zugrundeliegenden statistischen Ansatz

Unterscheidung zwischen MAR und NMAR auf Basis derStichproben-Information fast unmoglich

Missingmechanismus nicht fur alle Einheiten identisch(Ubersehen (MCAR) vs. nicht ausfullen wollen (NMAR))

Selbst wenn MCAR (und ignorierbar): Probleme mit Softwaremoglich (teilweise Verlust ganzer Einheiten)

15 / 44

Page 16: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

16 / 44

Page 17: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

Complete Case Analyse

Nur komplette Einheiten werden zur Analyse verwendet.

Einfache Analyse mit Standard-Software moglich

Gleichbleibender StiPro-Umfang bei verschiedenen Analysen

Problem des Informationsverlusts

Verzerrung wenn nicht MCAR

Bei Regression: Fehlende Werte abhangig von Zielgroßeproblematisch (keine erw.treue Schatzung)

17 / 44

Page 18: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

18 / 44

Page 19: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

Available Case Analyse

Alle Einheiten, die bei der betrachteten also interessierendenVariable vollstandig sind, werden verwendet.

Maximale Information wird genutzt

Unterschiedliche Fallzahlen bei den Variablen

⇒ Problem der Vergleichbarkeit schon bei deskriptivenStatistiken, wenn nicht MCAR

19 / 44

Page 20: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

20 / 44

Page 21: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Allgemeines zur Imputation

Ziel ist es, fehlende Werte moglichst passend zu ersetzen.

Vielzahl von Verfahren und Strategien

Unterscheidung: Einfache (single) vs. Multiple Imputation:

⇒ einfach: fur jeden fehlenden Wert wird ein Wert generiert

⇒ multiple: fur jeden fehlenden Wert werden mehrere Wertegeneriert

21 / 44

Page 22: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

22 / 44

Page 23: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Mean-Imputation

Fehlende Werte einer Variable werden durch arithmetisches Mittelder beobachteten Werte fur diese Variable ersetzt (gruppen- &klassenspezifisch).

Bei nicht-metrischen Daten: Median oder Modus verwenden

Problem: empirische Verteilung verzerrt (keine konsistente(Varianz-)Schatzung moglich)

23 / 44

Page 24: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Regression-Imputation

Fehlender Wert wird durch vorhergesagten Wert einesRegressionsmodells auf Basis der beobachteten Werte ersetzt.

Residuum zu den Einflussgroßen moglich, das Unsicherheit desvorhergesagten Werts ausdruckt

Struktur innerhalb der Variablen wird ausgenutzt und damitbleibt Korrelationsstruktur erhalten

Gute und Validitat der Reg.-Imp. durch Ursache des Fehlensbeeinflusst

24 / 44

Page 25: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Hot-Deck-Imputation

Fehlende Werte werden durch beobachtete Werte der betreffendenVariable ersetzt, die aus

”ahnlichen“ vollstandig beobachteten

Einheiten gezogen werden.

Ahnlichkeit durch verschiedene Abstandsmaße definiert

Vorteil: empirische Verteilung im MCAR-Fall nicht verzerrt

⇒ Schatzer unverzerrt (MCAR)

25 / 44

Page 26: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Cold-Deck-Imputation

Fehlende Werte werden durch konstanten Wert aus externer Quelleersetzt.

Zum Beispiel Erfahrungswert aus fruherer Studie

Problem: Welche Quelle ist geeignet?

Qualitat der Imputation stark abhangig von Wahl der Quelle

26 / 44

Page 27: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Imputation durch Ziehen gemaß Randverteilung

Fehlende Werte werden durch Werte ersetzt, die gemaßRandverteilung der beobachteten Werte gezogen werden.

Variablenbezogene Methode

Jede Variable wird einzeln betrachtet⇒ Abhangigkeitsstruktur der Daten nicht berucksichtigt

Randverteilung bleibt gleich, Korrelationsstruktur kannzerstort werden

27 / 44

Page 28: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Probleme bei einfacher Imputation

Unsicherheit nicht berucksichtigt (außer beiRegression-Imputation mit Residuum)

Mit Standardformeln: Varianz des Schatzers systematischunterschatzt

Korrelationsstruktur kann zerstort werden

Falschlicherweise signifikante Ergebnisse moglich

⇒ Erfordert Anpassung von Standardanalysen & -software

28 / 44

Page 29: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

29 / 44

Page 30: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Imputationsvergleich durch Simulationsstudie (aus *)

Lineare Regression mit 2 (metrischen) Kovariablen:

(Y = β0 + β1X1 + β2X2 + ε)

500 Simulationen mit X1 ∼ N(2, 6.76) ; X2 ∼ N(−5, 25) ;rX1,X2 ≈ 0.42 ; ε ∼ N(0, 1)

Missingmechanismus: MCAR (Anteil fehlend in X2: 0.3)

Wahre Werte: β0 = 1 ; β1 = −1.5 ; β2 = 1

30 / 44

Page 31: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Imputationsvergleich durch Simulationsstudie (aus *)

All MeanImp RegImp HotDeck

m(β1) -1.4998 -1.2115 -1.5109 -1.0306

sd(β1) 0.0180 0.0538 0.0219 0.0614

sd(β1) 0.0186 0.0542 0.0157 0.0662Ablehn 0.05 1 0.22 1

m(β2) 0.9999 0.9412 1.0126 0.6351

sd(β2) 0.0091 0.0134 0.0111 0.0423

sd(β2) 0.0092 0.0323 0.0078 0.0329Ablehn 0.048 0.368 0.416 1

m(β) = Mittelwerte v. β ; sd(β) = Standardabw. v. β ;sd(β) = mittlere geschatzte Standardabw. v. β ;

Ablehn = Ablehnanteil H0: β = wahrer Wert (mit α = 0.05)

31 / 44

Page 32: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Ergebnisse des Imputationsvergleichs

Ablehnanteil nur bei All um 0.05, Schatzer gut, Standardabw.sehr ahnlich

MeanImp und HotDeck: Schatzer verzerrt, Ablehnanteilunakzeptabel hoch

RegImp: weitgehend unverzerrte Schatzer, Standardabw. abersystematisch unterschatzt⇒ uberhohter Ablehnanteil

32 / 44

Page 33: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

33 / 44

Page 34: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Multiple Imputation (Rubin (70er))

Jeder fehlende Wert wird durch Vektor ersetzt (mit m ≥ 2 Werte)

⇒ m vervollstandigte Datensatze mit gleichen beobachtetenWerten und unterschiedlichen imputierten Werten(1.Datensatz mit 1.Element des Vektors,...)

34 / 44

Page 35: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Multiple Imputation - Vorteile

Jeder Datensatz mit beliebiger Standardmethode zuanalysieren, ohne Berucksichtigung der Imputation⇒ m Schatzungen aus m Datensatzen

StiPro-Variabilitat (auf Grund der fehlenden Werte) wirdberucksichtigt⇒ Unsicherheit durch Variabilitat der m Schatzwerte⇒ keine Varianzunterschatzung

Pro Datensatz nur einmal imputieren, da alle Variablen imDatensatz vorhanden⇒ fur mehrere Analysen geeignet

Verwendung der maximalen Information (beobachtete Daten)

35 / 44

Page 36: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Multiple Imputation

Nachteil:großerer Aufwand fur multiple Imputation (im Vergleich zureinfachen)⇒ im Zeitalter leistungsstarker Rechner zu vernachlassigen

Beispiel: Lineare oder logistische Regression

Regressionsmodell m mal fitten, also fur jeden Datensatz extra⇒ Ergebnisse variieren je nach Datensatz⇒ Unsicherheit bei Schatzung der fehlenden Werte

Insgesamt gultige Regressionskoeffizienten als Kombinationaus den m Koeffizientenschatzern

36 / 44

Page 37: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Regeln zur Kombination der Schatzer

Q : Schatzung interessierender ParameterU : Schatzung der VarianzQ1,...,Qm : Schatzungen aus m DatensatzeU1,...,Um : zugehorige geschatze Varianzen

MI-Schatzer: Q = 1m

m∑i=1

Qi

Gesamt-Varianz: T = U + (1+ 1m ) B

mit Varianz innerhalb der Datensatze: U = 1m

m∑i=1

Ui

& Varianz zwischen den Datensatzen: B = 1m−1

m∑i=1

(Qi - Q)2

( = StiPro-Varianz des Schatzers)

37 / 44

Page 38: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Regeln zur Kombination der Schatzer

Standardabweichung:√T

Grobes 95%-KI: Q ± 2√T

approx. 95%-KI: Q ± tdf√T

mit tdf : Quantil der Student’s t-Verteilung

mit df : (m-1)(1+ mU(m+1)B )2

38 / 44

Page 39: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

39 / 44

Page 40: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II - von Honaker, King & Blackwell

geeignet fur Datensatz mit vielen Variablen

Input: Unvollstandiger Datensatz, gewunschte Anzahl (m)

Modellannahme: Daten ∼ MNV(µ,Σ) (passt oft!)

Was macht der Algorithmus?

Mit Bootstrap-Verfahren: m StiPro-Datensatze gleicher Dim.

Mit EM-Algorithmus: suffiziente Schatzer fur µ,Σ

Imputation der fehlenden Werte im ursprunglichen Datensatz

⇒ m-malige Wiederholung ⇒ m vervollstandigte Datensatze(beobachtete Werte gleich, imputierte Werte unterschiedlich)

40 / 44

Page 41: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II - EM-Algorithmus

E(xpectation)-Schritt:(Start-) Schatzer liefert (durch Modellannahme)vorhergesagte Werte, um fehlende Werte zu ersetzen.

M(aximization)-Schritt:Berechnet (durch ML-Schatzung) besseren neuen Schatzer

E-Schritt:Neuer Schatzer liefert neue vorhergesagte Werte, die die altenersetzen.

M-Schritt: .....

⇒ je mehr fehlende Werte desto mehr Iterationen bis Konvergenz

41 / 44

Page 42: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II - Schema

Mit kombiniertem Schatzwert:

⇒ Imputation der fehlenden Werte im ursprunglichen Datensatz

42 / 44

Page 43: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II R-Code

⇒ siehe auch AMELIA-Hilfe in R

43 / 44

Page 44: Fehlende Daten - Seminarvortrag im Rahmen des Seminars ...thomas.userweb.mwn.de/Lehre/wise1011/SeminarSozi/JuliaSchiele.pdf · R Paket AMELIA II 2/44. Grundlegende Begri e Methoden

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Literatur

Honaker, J. und King, G. und Blackwell, M. (2010). AMELIAII: A Program for Missing Data - Version 1.5

Little, R. J. A und Rubin, D. B. (1986). Statistical Analysiswit Missing Data. John Wiley & Sons, New York.

Schafer, J. und Olsen, M. (1998). Multiple Imputation forMultivariate Missing-Data Problems: A Data Analyst’sPerspective. Multivariate Behavioral Research, 33(4), 545-571.

(*) Spieß, M. (2008). Missing-Data Techniken: Analyse vonDaten mit fehlenden Werten. LIT Verlag, Hamburg.

44 / 44