Fehlende Daten - Seminarvortrag im Rahmen des Seminars...
Transcript of Fehlende Daten - Seminarvortrag im Rahmen des Seminars...
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Fehlende DatenSeminarvortrag im Rahmen des Seminars:
Statistische Herausforderungen sozialwissenschaftlicher Studien
Julia Schiele
Betreuer: Professor AugustinInstitut fur Statistik LMU
22. Dezember 2010
1 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
2 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
Was sind fehlende Daten?
Werte die als existierend angenommen, aber als Reaktion auf einen(unbekannten) Reiz nicht beobachtet wurden. (auch: Nonresponse)
Item-Nonresponse:Einzelne Werte bei sonst beobachteten Einheiten fehlen
Unit-Nonresponse:Ganze Einheiten nicht beobachtet(Extremfall von Item-Nonresponse)
Beispiel: Personen verweigern jede Auskunft zum ThemaEinkommen
3 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
4 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
MCAR:”missing completely at random“
Fehlende Werte unabhangig von beobachteten und fehlendenVariablenwerten
g(r | uobs , umis ; γ) = g(r ; γ) (mit r = Fehlmuster)
Beispiel:Fehlende Werte in Einkommen unabhangig von (beob.) Alter undEinkommen selbst
⇒ entspricht einfacher Zufallsstichprobe⇒ relativ unproblematisch, da fehlende Werte einfach zu ignorieren
(spater mehr)
5 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
MCAR: keine Verzerrungen (Grafik aus *)
6 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
MAR:”missing at random“
Fehlende Werte unabhangig von fehlenden, aber abhangig vonbeobachteten Variablenwerten
g(r | uobs , umis ; γ) = g(r | uobs ; γ)
Beispiel:Fehlende Werte in Einkommen unabhangig von Hohe desEinkommens, aber abhangig von (beob.) Alter
⇒ ignoriert man fehlende Werte: ⇒ Verzerrung⇒ Aber: Regressionsbeziehung unverzerrt! (Nutzt man bei
Multipler Imputation)
7 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
MAR: Verzerrungen (Grafik aus *)
8 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
NMAR:”not missing at random“
Fehlende Werte abhangig von beobachteten und fehlendenVariablenwerten
g(r | uobs , umis ; γ) keine Vereinfachung
Beispiel:Fehlende Werte in Einkommen abhangig von (beob.) Alter undHohe des Einkommens
⇒ ignoriert man fehlende Werte⇒ Verzerrung (starker als bei MAR) - auch bei Reg.beziehung
⇒ notwendige Information nur durch externes Wissen
9 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
NMAR: Verzerrungen (Grafik aus *)
10 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
11 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
Ignorierbarkeit
Ignorieren des Missingmechanismus moglich, wenn (gunstige)Inferenz-Eigenschaften erhalten bleiben.
Klassenzugehorigkeit nach Rubin (MCAR, MAR, NMAR)
Distinktheit von Parametern: sie stehen nicht funktionalmiteinander in Beziehung⇒ mit Parameter als ZV: Distinktheit = stoch.Unabhangigkeit
I Bei Analyse mit Likelihood-Konzept:
MCAR-Missingmechanismus ignorierbar
MAR-Missingmechanismus ignorierbar wenn distinkt
NMAR-Missingmechanismus nicht ignorierbar
12 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
Ignorierbarkeit bei MAR
Fur ML-Schatzung: f (uobs ,umis ; Θ)(Verteilung der Variablen, unabh. davon ob beobachtet oder nicht)
⇒ Fehlmuster r zu berucksichtigen:
Gemeinsame Verteilung: (mit Annahme Θ, γ distinkt)
h (u,r ; Θ,γ) = f (uobs ,umis ; Θ) · g (r | uobs ,umis ; γ)MAR= f (uobs ,umis ; Θ) · g (r | uobs ; γ)
Likelihood: f (uobs ; Θ) · g (r | uobs ; γ) =
wobei: f (uobs ; Θ) =∫f (uobs , umis ; Θ)dumis (stetiger Fall)
logLikelihood: l (Θ,γ) = ln f (uobs ; Θ) + ln g (r | uobs ; γ)
⇒ Da Θ und γ distinkt: 2. Summand keine Info uber Θ
13 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
14 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
Probleme mit fehlenden Daten
Ignorieren abhangig von Art der Analyse sowie dem zugrundeliegenden statistischen Ansatz
Unterscheidung zwischen MAR und NMAR auf Basis derStichproben-Information fast unmoglich
Missingmechanismus nicht fur alle Einheiten identisch(Ubersehen (MCAR) vs. nicht ausfullen wollen (NMAR))
Selbst wenn MCAR (und ignorierbar): Probleme mit Softwaremoglich (teilweise Verlust ganzer Einheiten)
15 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Complete Case AnalyseAvailable Case Analyse
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
16 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Complete Case AnalyseAvailable Case Analyse
Complete Case Analyse
Nur komplette Einheiten werden zur Analyse verwendet.
Einfache Analyse mit Standard-Software moglich
Gleichbleibender StiPro-Umfang bei verschiedenen Analysen
Problem des Informationsverlusts
Verzerrung wenn nicht MCAR
Bei Regression: Fehlende Werte abhangig von Zielgroßeproblematisch (keine erw.treue Schatzung)
17 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Complete Case AnalyseAvailable Case Analyse
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
18 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Complete Case AnalyseAvailable Case Analyse
Available Case Analyse
Alle Einheiten, die bei der betrachteten also interessierendenVariable vollstandig sind, werden verwendet.
Maximale Information wird genutzt
Unterschiedliche Fallzahlen bei den Variablen
⇒ Problem der Vergleichbarkeit schon bei deskriptivenStatistiken, wenn nicht MCAR
19 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
20 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Allgemeines zur Imputation
Ziel ist es, fehlende Werte moglichst passend zu ersetzen.
Vielzahl von Verfahren und Strategien
Unterscheidung: Einfache (single) vs. Multiple Imputation:
⇒ einfach: fur jeden fehlenden Wert wird ein Wert generiert
⇒ multiple: fur jeden fehlenden Wert werden mehrere Wertegeneriert
21 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
22 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Mean-Imputation
Fehlende Werte einer Variable werden durch arithmetisches Mittelder beobachteten Werte fur diese Variable ersetzt (gruppen- &klassenspezifisch).
Bei nicht-metrischen Daten: Median oder Modus verwenden
Problem: empirische Verteilung verzerrt (keine konsistente(Varianz-)Schatzung moglich)
23 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Regression-Imputation
Fehlender Wert wird durch vorhergesagten Wert einesRegressionsmodells auf Basis der beobachteten Werte ersetzt.
Residuum zu den Einflussgroßen moglich, das Unsicherheit desvorhergesagten Werts ausdruckt
Struktur innerhalb der Variablen wird ausgenutzt und damitbleibt Korrelationsstruktur erhalten
Gute und Validitat der Reg.-Imp. durch Ursache des Fehlensbeeinflusst
24 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Hot-Deck-Imputation
Fehlende Werte werden durch beobachtete Werte der betreffendenVariable ersetzt, die aus
”ahnlichen“ vollstandig beobachteten
Einheiten gezogen werden.
Ahnlichkeit durch verschiedene Abstandsmaße definiert
Vorteil: empirische Verteilung im MCAR-Fall nicht verzerrt
⇒ Schatzer unverzerrt (MCAR)
25 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Cold-Deck-Imputation
Fehlende Werte werden durch konstanten Wert aus externer Quelleersetzt.
Zum Beispiel Erfahrungswert aus fruherer Studie
Problem: Welche Quelle ist geeignet?
Qualitat der Imputation stark abhangig von Wahl der Quelle
26 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Imputation durch Ziehen gemaß Randverteilung
Fehlende Werte werden durch Werte ersetzt, die gemaßRandverteilung der beobachteten Werte gezogen werden.
Variablenbezogene Methode
Jede Variable wird einzeln betrachtet⇒ Abhangigkeitsstruktur der Daten nicht berucksichtigt
Randverteilung bleibt gleich, Korrelationsstruktur kannzerstort werden
27 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Probleme bei einfacher Imputation
Unsicherheit nicht berucksichtigt (außer beiRegression-Imputation mit Residuum)
Mit Standardformeln: Varianz des Schatzers systematischunterschatzt
Korrelationsstruktur kann zerstort werden
Falschlicherweise signifikante Ergebnisse moglich
⇒ Erfordert Anpassung von Standardanalysen & -software
28 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
29 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Imputationsvergleich durch Simulationsstudie (aus *)
Lineare Regression mit 2 (metrischen) Kovariablen:
(Y = β0 + β1X1 + β2X2 + ε)
500 Simulationen mit X1 ∼ N(2, 6.76) ; X2 ∼ N(−5, 25) ;rX1,X2 ≈ 0.42 ; ε ∼ N(0, 1)
Missingmechanismus: MCAR (Anteil fehlend in X2: 0.3)
Wahre Werte: β0 = 1 ; β1 = −1.5 ; β2 = 1
30 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Imputationsvergleich durch Simulationsstudie (aus *)
All MeanImp RegImp HotDeck
m(β1) -1.4998 -1.2115 -1.5109 -1.0306
sd(β1) 0.0180 0.0538 0.0219 0.0614
sd(β1) 0.0186 0.0542 0.0157 0.0662Ablehn 0.05 1 0.22 1
m(β2) 0.9999 0.9412 1.0126 0.6351
sd(β2) 0.0091 0.0134 0.0111 0.0423
sd(β2) 0.0092 0.0323 0.0078 0.0329Ablehn 0.048 0.368 0.416 1
m(β) = Mittelwerte v. β ; sd(β) = Standardabw. v. β ;sd(β) = mittlere geschatzte Standardabw. v. β ;
Ablehn = Ablehnanteil H0: β = wahrer Wert (mit α = 0.05)
31 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Ergebnisse des Imputationsvergleichs
Ablehnanteil nur bei All um 0.05, Schatzer gut, Standardabw.sehr ahnlich
MeanImp und HotDeck: Schatzer verzerrt, Ablehnanteilunakzeptabel hoch
RegImp: weitgehend unverzerrte Schatzer, Standardabw. abersystematisch unterschatzt⇒ uberhohter Ablehnanteil
32 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
33 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Multiple Imputation (Rubin (70er))
Jeder fehlende Wert wird durch Vektor ersetzt (mit m ≥ 2 Werte)
⇒ m vervollstandigte Datensatze mit gleichen beobachtetenWerten und unterschiedlichen imputierten Werten(1.Datensatz mit 1.Element des Vektors,...)
34 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Multiple Imputation - Vorteile
Jeder Datensatz mit beliebiger Standardmethode zuanalysieren, ohne Berucksichtigung der Imputation⇒ m Schatzungen aus m Datensatzen
StiPro-Variabilitat (auf Grund der fehlenden Werte) wirdberucksichtigt⇒ Unsicherheit durch Variabilitat der m Schatzwerte⇒ keine Varianzunterschatzung
Pro Datensatz nur einmal imputieren, da alle Variablen imDatensatz vorhanden⇒ fur mehrere Analysen geeignet
Verwendung der maximalen Information (beobachtete Daten)
35 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Multiple Imputation
Nachteil:großerer Aufwand fur multiple Imputation (im Vergleich zureinfachen)⇒ im Zeitalter leistungsstarker Rechner zu vernachlassigen
Beispiel: Lineare oder logistische Regression
Regressionsmodell m mal fitten, also fur jeden Datensatz extra⇒ Ergebnisse variieren je nach Datensatz⇒ Unsicherheit bei Schatzung der fehlenden Werte
Insgesamt gultige Regressionskoeffizienten als Kombinationaus den m Koeffizientenschatzern
36 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Regeln zur Kombination der Schatzer
Q : Schatzung interessierender ParameterU : Schatzung der VarianzQ1,...,Qm : Schatzungen aus m DatensatzeU1,...,Um : zugehorige geschatze Varianzen
MI-Schatzer: Q = 1m
m∑i=1
Qi
Gesamt-Varianz: T = U + (1+ 1m ) B
mit Varianz innerhalb der Datensatze: U = 1m
m∑i=1
Ui
& Varianz zwischen den Datensatzen: B = 1m−1
m∑i=1
(Qi - Q)2
( = StiPro-Varianz des Schatzers)
37 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Regeln zur Kombination der Schatzer
Standardabweichung:√T
Grobes 95%-KI: Q ± 2√T
approx. 95%-KI: Q ± tdf√T
mit tdf : Quantil der Student’s t-Verteilung
mit df : (m-1)(1+ mU(m+1)B )2
38 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme
2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse
3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
39 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
AMELIA II - von Honaker, King & Blackwell
geeignet fur Datensatz mit vielen Variablen
Input: Unvollstandiger Datensatz, gewunschte Anzahl (m)
Modellannahme: Daten ∼ MNV(µ,Σ) (passt oft!)
Was macht der Algorithmus?
Mit Bootstrap-Verfahren: m StiPro-Datensatze gleicher Dim.
Mit EM-Algorithmus: suffiziente Schatzer fur µ,Σ
Imputation der fehlenden Werte im ursprunglichen Datensatz
⇒ m-malige Wiederholung ⇒ m vervollstandigte Datensatze(beobachtete Werte gleich, imputierte Werte unterschiedlich)
40 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
AMELIA II - EM-Algorithmus
E(xpectation)-Schritt:(Start-) Schatzer liefert (durch Modellannahme)vorhergesagte Werte, um fehlende Werte zu ersetzen.
M(aximization)-Schritt:Berechnet (durch ML-Schatzung) besseren neuen Schatzer
E-Schritt:Neuer Schatzer liefert neue vorhergesagte Werte, die die altenersetzen.
M-Schritt: .....
⇒ je mehr fehlende Werte desto mehr Iterationen bis Konvergenz
41 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
AMELIA II - Schema
Mit kombiniertem Schatzwert:
⇒ Imputation der fehlenden Werte im ursprunglichen Datensatz
42 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
AMELIA II R-Code
⇒ siehe auch AMELIA-Hilfe in R
43 / 44
Grundlegende BegriffeMethoden mit beob. Werten
Imputationsmethoden
Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II
Literatur
Honaker, J. und King, G. und Blackwell, M. (2010). AMELIAII: A Program for Missing Data - Version 1.5
Little, R. J. A und Rubin, D. B. (1986). Statistical Analysiswit Missing Data. John Wiley & Sons, New York.
Schafer, J. und Olsen, M. (1998). Multiple Imputation forMultivariate Missing-Data Problems: A Data Analyst’sPerspective. Multivariate Behavioral Research, 33(4), 545-571.
(*) Spieß, M. (2008). Missing-Data Techniken: Analyse vonDaten mit fehlenden Werten. LIT Verlag, Hamburg.
44 / 44