Fehlende Daten - Seminarvortrag im Rahmen des Seminars...

Post on 05-Mar-2018

216 views 3 download

Transcript of Fehlende Daten - Seminarvortrag im Rahmen des Seminars...

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Fehlende DatenSeminarvortrag im Rahmen des Seminars:

Statistische Herausforderungen sozialwissenschaftlicher Studien

Julia Schiele

Betreuer: Professor AugustinInstitut fur Statistik LMU

22. Dezember 2010

1 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

2 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Was sind fehlende Daten?

Werte die als existierend angenommen, aber als Reaktion auf einen(unbekannten) Reiz nicht beobachtet wurden. (auch: Nonresponse)

Item-Nonresponse:Einzelne Werte bei sonst beobachteten Einheiten fehlen

Unit-Nonresponse:Ganze Einheiten nicht beobachtet(Extremfall von Item-Nonresponse)

Beispiel: Personen verweigern jede Auskunft zum ThemaEinkommen

3 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

4 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MCAR:”missing completely at random“

Fehlende Werte unabhangig von beobachteten und fehlendenVariablenwerten

g(r | uobs , umis ; γ) = g(r ; γ) (mit r = Fehlmuster)

Beispiel:Fehlende Werte in Einkommen unabhangig von (beob.) Alter undEinkommen selbst

⇒ entspricht einfacher Zufallsstichprobe⇒ relativ unproblematisch, da fehlende Werte einfach zu ignorieren

(spater mehr)

5 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MCAR: keine Verzerrungen (Grafik aus *)

6 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MAR:”missing at random“

Fehlende Werte unabhangig von fehlenden, aber abhangig vonbeobachteten Variablenwerten

g(r | uobs , umis ; γ) = g(r | uobs ; γ)

Beispiel:Fehlende Werte in Einkommen unabhangig von Hohe desEinkommens, aber abhangig von (beob.) Alter

⇒ ignoriert man fehlende Werte: ⇒ Verzerrung⇒ Aber: Regressionsbeziehung unverzerrt! (Nutzt man bei

Multipler Imputation)

7 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

MAR: Verzerrungen (Grafik aus *)

8 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

NMAR:”not missing at random“

Fehlende Werte abhangig von beobachteten und fehlendenVariablenwerten

g(r | uobs , umis ; γ) keine Vereinfachung

Beispiel:Fehlende Werte in Einkommen abhangig von (beob.) Alter undHohe des Einkommens

⇒ ignoriert man fehlende Werte⇒ Verzerrung (starker als bei MAR) - auch bei Reg.beziehung

⇒ notwendige Information nur durch externes Wissen

9 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

NMAR: Verzerrungen (Grafik aus *)

10 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

11 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Ignorierbarkeit

Ignorieren des Missingmechanismus moglich, wenn (gunstige)Inferenz-Eigenschaften erhalten bleiben.

Klassenzugehorigkeit nach Rubin (MCAR, MAR, NMAR)

Distinktheit von Parametern: sie stehen nicht funktionalmiteinander in Beziehung⇒ mit Parameter als ZV: Distinktheit = stoch.Unabhangigkeit

I Bei Analyse mit Likelihood-Konzept:

MCAR-Missingmechanismus ignorierbar

MAR-Missingmechanismus ignorierbar wenn distinkt

NMAR-Missingmechanismus nicht ignorierbar

12 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Ignorierbarkeit bei MAR

Fur ML-Schatzung: f (uobs ,umis ; Θ)(Verteilung der Variablen, unabh. davon ob beobachtet oder nicht)

⇒ Fehlmuster r zu berucksichtigen:

Gemeinsame Verteilung: (mit Annahme Θ, γ distinkt)

h (u,r ; Θ,γ) = f (uobs ,umis ; Θ) · g (r | uobs ,umis ; γ)MAR= f (uobs ,umis ; Θ) · g (r | uobs ; γ)

Likelihood: f (uobs ; Θ) · g (r | uobs ; γ) =

wobei: f (uobs ; Θ) =∫f (uobs , umis ; Θ)dumis (stetiger Fall)

logLikelihood: l (Θ,γ) = ln f (uobs ; Θ) + ln g (r | uobs ; γ)

⇒ Da Θ und γ distinkt: 2. Summand keine Info uber Θ

13 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

14 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Probleme mit fehlenden Daten

Ignorieren abhangig von Art der Analyse sowie dem zugrundeliegenden statistischen Ansatz

Unterscheidung zwischen MAR und NMAR auf Basis derStichproben-Information fast unmoglich

Missingmechanismus nicht fur alle Einheiten identisch(Ubersehen (MCAR) vs. nicht ausfullen wollen (NMAR))

Selbst wenn MCAR (und ignorierbar): Probleme mit Softwaremoglich (teilweise Verlust ganzer Einheiten)

15 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

16 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

Complete Case Analyse

Nur komplette Einheiten werden zur Analyse verwendet.

Einfache Analyse mit Standard-Software moglich

Gleichbleibender StiPro-Umfang bei verschiedenen Analysen

Problem des Informationsverlusts

Verzerrung wenn nicht MCAR

Bei Regression: Fehlende Werte abhangig von Zielgroßeproblematisch (keine erw.treue Schatzung)

17 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

18 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse

Available Case Analyse

Alle Einheiten, die bei der betrachteten also interessierendenVariable vollstandig sind, werden verwendet.

Maximale Information wird genutzt

Unterschiedliche Fallzahlen bei den Variablen

⇒ Problem der Vergleichbarkeit schon bei deskriptivenStatistiken, wenn nicht MCAR

19 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

20 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Allgemeines zur Imputation

Ziel ist es, fehlende Werte moglichst passend zu ersetzen.

Vielzahl von Verfahren und Strategien

Unterscheidung: Einfache (single) vs. Multiple Imputation:

⇒ einfach: fur jeden fehlenden Wert wird ein Wert generiert

⇒ multiple: fur jeden fehlenden Wert werden mehrere Wertegeneriert

21 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

22 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Mean-Imputation

Fehlende Werte einer Variable werden durch arithmetisches Mittelder beobachteten Werte fur diese Variable ersetzt (gruppen- &klassenspezifisch).

Bei nicht-metrischen Daten: Median oder Modus verwenden

Problem: empirische Verteilung verzerrt (keine konsistente(Varianz-)Schatzung moglich)

23 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Regression-Imputation

Fehlender Wert wird durch vorhergesagten Wert einesRegressionsmodells auf Basis der beobachteten Werte ersetzt.

Residuum zu den Einflussgroßen moglich, das Unsicherheit desvorhergesagten Werts ausdruckt

Struktur innerhalb der Variablen wird ausgenutzt und damitbleibt Korrelationsstruktur erhalten

Gute und Validitat der Reg.-Imp. durch Ursache des Fehlensbeeinflusst

24 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Hot-Deck-Imputation

Fehlende Werte werden durch beobachtete Werte der betreffendenVariable ersetzt, die aus

”ahnlichen“ vollstandig beobachteten

Einheiten gezogen werden.

Ahnlichkeit durch verschiedene Abstandsmaße definiert

Vorteil: empirische Verteilung im MCAR-Fall nicht verzerrt

⇒ Schatzer unverzerrt (MCAR)

25 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Cold-Deck-Imputation

Fehlende Werte werden durch konstanten Wert aus externer Quelleersetzt.

Zum Beispiel Erfahrungswert aus fruherer Studie

Problem: Welche Quelle ist geeignet?

Qualitat der Imputation stark abhangig von Wahl der Quelle

26 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Imputation durch Ziehen gemaß Randverteilung

Fehlende Werte werden durch Werte ersetzt, die gemaßRandverteilung der beobachteten Werte gezogen werden.

Variablenbezogene Methode

Jede Variable wird einzeln betrachtet⇒ Abhangigkeitsstruktur der Daten nicht berucksichtigt

Randverteilung bleibt gleich, Korrelationsstruktur kannzerstort werden

27 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Probleme bei einfacher Imputation

Unsicherheit nicht berucksichtigt (außer beiRegression-Imputation mit Residuum)

Mit Standardformeln: Varianz des Schatzers systematischunterschatzt

Korrelationsstruktur kann zerstort werden

Falschlicherweise signifikante Ergebnisse moglich

⇒ Erfordert Anpassung von Standardanalysen & -software

28 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

29 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Imputationsvergleich durch Simulationsstudie (aus *)

Lineare Regression mit 2 (metrischen) Kovariablen:

(Y = β0 + β1X1 + β2X2 + ε)

500 Simulationen mit X1 ∼ N(2, 6.76) ; X2 ∼ N(−5, 25) ;rX1,X2 ≈ 0.42 ; ε ∼ N(0, 1)

Missingmechanismus: MCAR (Anteil fehlend in X2: 0.3)

Wahre Werte: β0 = 1 ; β1 = −1.5 ; β2 = 1

30 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Imputationsvergleich durch Simulationsstudie (aus *)

All MeanImp RegImp HotDeck

m(β1) -1.4998 -1.2115 -1.5109 -1.0306

sd(β1) 0.0180 0.0538 0.0219 0.0614

sd(β1) 0.0186 0.0542 0.0157 0.0662Ablehn 0.05 1 0.22 1

m(β2) 0.9999 0.9412 1.0126 0.6351

sd(β2) 0.0091 0.0134 0.0111 0.0423

sd(β2) 0.0092 0.0323 0.0078 0.0329Ablehn 0.048 0.368 0.416 1

m(β) = Mittelwerte v. β ; sd(β) = Standardabw. v. β ;sd(β) = mittlere geschatzte Standardabw. v. β ;

Ablehn = Ablehnanteil H0: β = wahrer Wert (mit α = 0.05)

31 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Ergebnisse des Imputationsvergleichs

Ablehnanteil nur bei All um 0.05, Schatzer gut, Standardabw.sehr ahnlich

MeanImp und HotDeck: Schatzer verzerrt, Ablehnanteilunakzeptabel hoch

RegImp: weitgehend unverzerrte Schatzer, Standardabw. abersystematisch unterschatzt⇒ uberhohter Ablehnanteil

32 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

33 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Multiple Imputation (Rubin (70er))

Jeder fehlende Wert wird durch Vektor ersetzt (mit m ≥ 2 Werte)

⇒ m vervollstandigte Datensatze mit gleichen beobachtetenWerten und unterschiedlichen imputierten Werten(1.Datensatz mit 1.Element des Vektors,...)

34 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Multiple Imputation - Vorteile

Jeder Datensatz mit beliebiger Standardmethode zuanalysieren, ohne Berucksichtigung der Imputation⇒ m Schatzungen aus m Datensatzen

StiPro-Variabilitat (auf Grund der fehlenden Werte) wirdberucksichtigt⇒ Unsicherheit durch Variabilitat der m Schatzwerte⇒ keine Varianzunterschatzung

Pro Datensatz nur einmal imputieren, da alle Variablen imDatensatz vorhanden⇒ fur mehrere Analysen geeignet

Verwendung der maximalen Information (beobachtete Daten)

35 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Multiple Imputation

Nachteil:großerer Aufwand fur multiple Imputation (im Vergleich zureinfachen)⇒ im Zeitalter leistungsstarker Rechner zu vernachlassigen

Beispiel: Lineare oder logistische Regression

Regressionsmodell m mal fitten, also fur jeden Datensatz extra⇒ Ergebnisse variieren je nach Datensatz⇒ Unsicherheit bei Schatzung der fehlenden Werte

Insgesamt gultige Regressionskoeffizienten als Kombinationaus den m Koeffizientenschatzern

36 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Regeln zur Kombination der Schatzer

Q : Schatzung interessierender ParameterU : Schatzung der VarianzQ1,...,Qm : Schatzungen aus m DatensatzeU1,...,Um : zugehorige geschatze Varianzen

MI-Schatzer: Q = 1m

m∑i=1

Qi

Gesamt-Varianz: T = U + (1+ 1m ) B

mit Varianz innerhalb der Datensatze: U = 1m

m∑i=1

Ui

& Varianz zwischen den Datensatzen: B = 1m−1

m∑i=1

(Qi - Q)2

( = StiPro-Varianz des Schatzers)

37 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Regeln zur Kombination der Schatzer

Standardabweichung:√T

Grobes 95%-KI: Q ± 2√T

approx. 95%-KI: Q ± tdf√T

mit tdf : Quantil der Student’s t-Verteilung

mit df : (m-1)(1+ mU(m+1)B )2

38 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

39 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II - von Honaker, King & Blackwell

geeignet fur Datensatz mit vielen Variablen

Input: Unvollstandiger Datensatz, gewunschte Anzahl (m)

Modellannahme: Daten ∼ MNV(µ,Σ) (passt oft!)

Was macht der Algorithmus?

Mit Bootstrap-Verfahren: m StiPro-Datensatze gleicher Dim.

Mit EM-Algorithmus: suffiziente Schatzer fur µ,Σ

Imputation der fehlenden Werte im ursprunglichen Datensatz

⇒ m-malige Wiederholung ⇒ m vervollstandigte Datensatze(beobachtete Werte gleich, imputierte Werte unterschiedlich)

40 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II - EM-Algorithmus

E(xpectation)-Schritt:(Start-) Schatzer liefert (durch Modellannahme)vorhergesagte Werte, um fehlende Werte zu ersetzen.

M(aximization)-Schritt:Berechnet (durch ML-Schatzung) besseren neuen Schatzer

E-Schritt:Neuer Schatzer liefert neue vorhergesagte Werte, die die altenersetzen.

M-Schritt: .....

⇒ je mehr fehlende Werte desto mehr Iterationen bis Konvergenz

41 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II - Schema

Mit kombiniertem Schatzwert:

⇒ Imputation der fehlenden Werte im ursprunglichen Datensatz

42 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

AMELIA II R-Code

⇒ siehe auch AMELIA-Hilfe in R

43 / 44

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

Literatur

Honaker, J. und King, G. und Blackwell, M. (2010). AMELIAII: A Program for Missing Data - Version 1.5

Little, R. J. A und Rubin, D. B. (1986). Statistical Analysiswit Missing Data. John Wiley & Sons, New York.

Schafer, J. und Olsen, M. (1998). Multiple Imputation forMultivariate Missing-Data Problems: A Data Analyst’sPerspective. Multivariate Behavioral Research, 33(4), 545-571.

(*) Spieß, M. (2008). Missing-Data Techniken: Analyse vonDaten mit fehlenden Werten. LIT Verlag, Hamburg.

44 / 44