Fehlende Daten - Seminarvortrag im Rahmen des Seminars...

Grundlegende BegriffeMethoden mit beob. Werten

Imputationsmethoden

Fehlende DatenSeminarvortrag im Rahmen des Seminars:

Statistische Herausforderungen sozialwissenschaftlicher Studien

Julia Schiele

Betreuer: Professor AugustinInstitut fur Statistik LMU

22. Dezember 2010

1 / 44


Imputationsmethoden

1 Grundlegende BegriffeEinteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

2 Methoden mit beob. WertenComplete Case AnalyseAvailable Case Analyse

3 ImputationsmethodenEinfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II

2 / 44


Imputationsmethoden

Einteilung von fehlenden Werten nach RubinIgnorierbarkeitProbleme

Was sind fehlende Daten?

Werte die als existierend angenommen, aber als Reaktion auf einen(unbekannten) Reiz nicht beobachtet wurden. (auch: Nonresponse)

Item-Nonresponse:Einzelne Werte bei sonst beobachteten Einheiten fehlen

Unit-Nonresponse:Ganze Einheiten nicht beobachtet(Extremfall von Item-Nonresponse)

Beispiel: Personen verweigern jede Auskunft zum ThemaEinkommen

3 / 44


Imputationsmethoden





4 / 44


Imputationsmethoden


MCAR:”missing completely at random“

Fehlende Werte unabhangig von beobachteten und fehlendenVariablenwerten

g(r | uobs , umis ; γ) = g(r ; γ) (mit r = Fehlmuster)

Beispiel:Fehlende Werte in Einkommen unabhangig von (beob.) Alter undEinkommen selbst

⇒ entspricht einfacher Zufallsstichprobe⇒ relativ unproblematisch, da fehlende Werte einfach zu ignorieren

(spater mehr)

5 / 44


Imputationsmethoden


MCAR: keine Verzerrungen (Grafik aus *)

6 / 44


Imputationsmethoden


MAR:”missing at random“

Fehlende Werte unabhangig von fehlenden, aber abhangig vonbeobachteten Variablenwerten

g(r | uobs , umis ; γ) = g(r | uobs ; γ)

Beispiel:Fehlende Werte in Einkommen unabhangig von Hohe desEinkommens, aber abhangig von (beob.) Alter

⇒ ignoriert man fehlende Werte: ⇒ Verzerrung⇒ Aber: Regressionsbeziehung unverzerrt! (Nutzt man bei

Multipler Imputation)

7 / 44


Imputationsmethoden


MAR: Verzerrungen (Grafik aus *)

8 / 44


Imputationsmethoden


NMAR:”not missing at random“

Fehlende Werte abhangig von beobachteten und fehlendenVariablenwerten

g(r | uobs , umis ; γ) keine Vereinfachung

Beispiel:Fehlende Werte in Einkommen abhangig von (beob.) Alter undHohe des Einkommens

⇒ ignoriert man fehlende Werte⇒ Verzerrung (starker als bei MAR) - auch bei Reg.beziehung

⇒ notwendige Information nur durch externes Wissen

9 / 44


Imputationsmethoden


NMAR: Verzerrungen (Grafik aus *)

10 / 44


Imputationsmethoden





11 / 44


Imputationsmethoden


Ignorierbarkeit

Ignorieren des Missingmechanismus moglich, wenn (gunstige)Inferenz-Eigenschaften erhalten bleiben.

Klassenzugehorigkeit nach Rubin (MCAR, MAR, NMAR)

Distinktheit von Parametern: sie stehen nicht funktionalmiteinander in Beziehung⇒ mit Parameter als ZV: Distinktheit = stoch.Unabhangigkeit

I Bei Analyse mit Likelihood-Konzept:

MCAR-Missingmechanismus ignorierbar

MAR-Missingmechanismus ignorierbar wenn distinkt

NMAR-Missingmechanismus nicht ignorierbar

12 / 44


Imputationsmethoden


Ignorierbarkeit bei MAR

Fur ML-Schatzung: f (uobs ,umis ; Θ)(Verteilung der Variablen, unabh. davon ob beobachtet oder nicht)

⇒ Fehlmuster r zu berucksichtigen:

Gemeinsame Verteilung: (mit Annahme Θ, γ distinkt)

h (u,r ; Θ,γ) = f (uobs ,umis ; Θ) · g (r | uobs ,umis ; γ)MAR= f (uobs ,umis ; Θ) · g (r | uobs ; γ)

Likelihood: f (uobs ; Θ) · g (r | uobs ; γ) =

wobei: f (uobs ; Θ) =∫f (uobs , umis ; Θ)dumis (stetiger Fall)

logLikelihood: l (Θ,γ) = ln f (uobs ; Θ) + ln g (r | uobs ; γ)

⇒ Da Θ und γ distinkt: 2. Summand keine Info uber Θ

13 / 44


Imputationsmethoden





14 / 44


Imputationsmethoden


Probleme mit fehlenden Daten

Ignorieren abhangig von Art der Analyse sowie dem zugrundeliegenden statistischen Ansatz

Unterscheidung zwischen MAR und NMAR auf Basis derStichproben-Information fast unmoglich

Missingmechanismus nicht fur alle Einheiten identisch(Ubersehen (MCAR) vs. nicht ausfullen wollen (NMAR))

Selbst wenn MCAR (und ignorierbar): Probleme mit Softwaremoglich (teilweise Verlust ganzer Einheiten)

15 / 44


Imputationsmethoden

Complete Case AnalyseAvailable Case Analyse




16 / 44


Imputationsmethoden


Complete Case Analyse

Nur komplette Einheiten werden zur Analyse verwendet.

Einfache Analyse mit Standard-Software moglich

Gleichbleibender StiPro-Umfang bei verschiedenen Analysen

Problem des Informationsverlusts

Verzerrung wenn nicht MCAR

Bei Regression: Fehlende Werte abhangig von Zielgroßeproblematisch (keine erw.treue Schatzung)

17 / 44


Imputationsmethoden





18 / 44


Imputationsmethoden


Available Case Analyse

Alle Einheiten, die bei der betrachteten also interessierendenVariable vollstandig sind, werden verwendet.

Maximale Information wird genutzt

Unterschiedliche Fallzahlen bei den Variablen

⇒ Problem der Vergleichbarkeit schon bei deskriptivenStatistiken, wenn nicht MCAR

19 / 44


Imputationsmethoden

Einfache ImputationsmethodenVergleich einfacher ImputationsmethodenMultiple ImputationsmethodenR Paket AMELIA II




20 / 44


Imputationsmethoden


Allgemeines zur Imputation

Ziel ist es, fehlende Werte moglichst passend zu ersetzen.

Vielzahl von Verfahren und Strategien

Unterscheidung: Einfache (single) vs. Multiple Imputation:

⇒ einfach: fur jeden fehlenden Wert wird ein Wert generiert

⇒ multiple: fur jeden fehlenden Wert werden mehrere Wertegeneriert

21 / 44


Imputationsmethoden





22 / 44


Imputationsmethoden


Mean-Imputation

Fehlende Werte einer Variable werden durch arithmetisches Mittelder beobachteten Werte fur diese Variable ersetzt (gruppen- &klassenspezifisch).

Bei nicht-metrischen Daten: Median oder Modus verwenden

Problem: empirische Verteilung verzerrt (keine konsistente(Varianz-)Schatzung moglich)

23 / 44


Imputationsmethoden


Regression-Imputation

Fehlender Wert wird durch vorhergesagten Wert einesRegressionsmodells auf Basis der beobachteten Werte ersetzt.

Residuum zu den Einflussgroßen moglich, das Unsicherheit desvorhergesagten Werts ausdruckt

Struktur innerhalb der Variablen wird ausgenutzt und damitbleibt Korrelationsstruktur erhalten

Gute und Validitat der Reg.-Imp. durch Ursache des Fehlensbeeinflusst

24 / 44


Imputationsmethoden


Hot-Deck-Imputation

Fehlende Werte werden durch beobachtete Werte der betreffendenVariable ersetzt, die aus

”ahnlichen“ vollstandig beobachteten

Einheiten gezogen werden.

Ahnlichkeit durch verschiedene Abstandsmaße definiert

Vorteil: empirische Verteilung im MCAR-Fall nicht verzerrt

⇒ Schatzer unverzerrt (MCAR)

25 / 44


Imputationsmethoden


Cold-Deck-Imputation

Fehlende Werte werden durch konstanten Wert aus externer Quelleersetzt.

Zum Beispiel Erfahrungswert aus fruherer Studie

Problem: Welche Quelle ist geeignet?

Qualitat der Imputation stark abhangig von Wahl der Quelle

26 / 44


Imputationsmethoden


Imputation durch Ziehen gemaß Randverteilung

Fehlende Werte werden durch Werte ersetzt, die gemaßRandverteilung der beobachteten Werte gezogen werden.

Variablenbezogene Methode

Jede Variable wird einzeln betrachtet⇒ Abhangigkeitsstruktur der Daten nicht berucksichtigt

Randverteilung bleibt gleich, Korrelationsstruktur kannzerstort werden

27 / 44


Imputationsmethoden


Probleme bei einfacher Imputation

Unsicherheit nicht berucksichtigt (außer beiRegression-Imputation mit Residuum)

Mit Standardformeln: Varianz des Schatzers systematischunterschatzt

Korrelationsstruktur kann zerstort werden

Falschlicherweise signifikante Ergebnisse moglich

⇒ Erfordert Anpassung von Standardanalysen & -software

28 / 44


Imputationsmethoden





29 / 44


Imputationsmethoden


Imputationsvergleich durch Simulationsstudie (aus *)

Lineare Regression mit 2 (metrischen) Kovariablen:

(Y = β0 + β1X1 + β2X2 + ε)

500 Simulationen mit X1 ∼ N(2, 6.76) ; X2 ∼ N(−5, 25) ;rX1,X2 ≈ 0.42 ; ε ∼ N(0, 1)

Missingmechanismus: MCAR (Anteil fehlend in X2: 0.3)

Wahre Werte: β0 = 1 ; β1 = −1.5 ; β2 = 1

30 / 44


Imputationsmethoden


Imputationsvergleich durch Simulationsstudie (aus *)

All MeanImp RegImp HotDeck

m(β1) -1.4998 -1.2115 -1.5109 -1.0306

sd(β1) 0.0180 0.0538 0.0219 0.0614

sd(β1) 0.0186 0.0542 0.0157 0.0662Ablehn 0.05 1 0.22 1

m(β2) 0.9999 0.9412 1.0126 0.6351

sd(β2) 0.0091 0.0134 0.0111 0.0423

sd(β2) 0.0092 0.0323 0.0078 0.0329Ablehn 0.048 0.368 0.416 1

m(β) = Mittelwerte v. β ; sd(β) = Standardabw. v. β ;sd(β) = mittlere geschatzte Standardabw. v. β ;

Ablehn = Ablehnanteil H0: β = wahrer Wert (mit α = 0.05)

31 / 44


Imputationsmethoden


Ergebnisse des Imputationsvergleichs

Ablehnanteil nur bei All um 0.05, Schatzer gut, Standardabw.sehr ahnlich

MeanImp und HotDeck: Schatzer verzerrt, Ablehnanteilunakzeptabel hoch

RegImp: weitgehend unverzerrte Schatzer, Standardabw. abersystematisch unterschatzt⇒ uberhohter Ablehnanteil

32 / 44


Imputationsmethoden





33 / 44


Imputationsmethoden


Multiple Imputation (Rubin (70er))

Jeder fehlende Wert wird durch Vektor ersetzt (mit m ≥ 2 Werte)

⇒ m vervollstandigte Datensatze mit gleichen beobachtetenWerten und unterschiedlichen imputierten Werten(1.Datensatz mit 1.Element des Vektors,...)

34 / 44


Imputationsmethoden


Multiple Imputation - Vorteile

Jeder Datensatz mit beliebiger Standardmethode zuanalysieren, ohne Berucksichtigung der Imputation⇒ m Schatzungen aus m Datensatzen

StiPro-Variabilitat (auf Grund der fehlenden Werte) wirdberucksichtigt⇒ Unsicherheit durch Variabilitat der m Schatzwerte⇒ keine Varianzunterschatzung

Pro Datensatz nur einmal imputieren, da alle Variablen imDatensatz vorhanden⇒ fur mehrere Analysen geeignet

Verwendung der maximalen Information (beobachtete Daten)

35 / 44


Imputationsmethoden


Multiple Imputation

Nachteil:großerer Aufwand fur multiple Imputation (im Vergleich zureinfachen)⇒ im Zeitalter leistungsstarker Rechner zu vernachlassigen

Beispiel: Lineare oder logistische Regression

Regressionsmodell m mal fitten, also fur jeden Datensatz extra⇒ Ergebnisse variieren je nach Datensatz⇒ Unsicherheit bei Schatzung der fehlenden Werte

Insgesamt gultige Regressionskoeffizienten als Kombinationaus den m Koeffizientenschatzern

36 / 44


Imputationsmethoden


Regeln zur Kombination der Schatzer

Q : Schatzung interessierender ParameterU : Schatzung der VarianzQ1,...,Qm : Schatzungen aus m DatensatzeU1,...,Um : zugehorige geschatze Varianzen

MI-Schatzer: Q = 1m

m∑i=1

Qi

Gesamt-Varianz: T = U + (1+ 1m ) B

mit Varianz innerhalb der Datensatze: U = 1m

m∑i=1

Ui

& Varianz zwischen den Datensatzen: B = 1m−1

m∑i=1

(Qi - Q)2

( = StiPro-Varianz des Schatzers)

37 / 44


Imputationsmethoden


Regeln zur Kombination der Schatzer

Standardabweichung:√T

Grobes 95%-KI: Q ± 2√T

approx. 95%-KI: Q ± tdf√T

mit tdf : Quantil der Student’s t-Verteilung

mit df : (m-1)(1+ mU(m+1)B )2

38 / 44


Imputationsmethoden





39 / 44


Imputationsmethoden


AMELIA II - von Honaker, King & Blackwell

geeignet fur Datensatz mit vielen Variablen

Input: Unvollstandiger Datensatz, gewunschte Anzahl (m)

Modellannahme: Daten ∼ MNV(µ,Σ) (passt oft!)

Was macht der Algorithmus?

Mit Bootstrap-Verfahren: m StiPro-Datensatze gleicher Dim.

Mit EM-Algorithmus: suffiziente Schatzer fur µ,Σ

Imputation der fehlenden Werte im ursprunglichen Datensatz

⇒ m-malige Wiederholung ⇒ m vervollstandigte Datensatze(beobachtete Werte gleich, imputierte Werte unterschiedlich)

40 / 44


Imputationsmethoden


AMELIA II - EM-Algorithmus

E(xpectation)-Schritt:(Start-) Schatzer liefert (durch Modellannahme)vorhergesagte Werte, um fehlende Werte zu ersetzen.

M(aximization)-Schritt:Berechnet (durch ML-Schatzung) besseren neuen Schatzer

E-Schritt:Neuer Schatzer liefert neue vorhergesagte Werte, die die altenersetzen.

M-Schritt: .....

⇒ je mehr fehlende Werte desto mehr Iterationen bis Konvergenz

41 / 44


Imputationsmethoden


AMELIA II - Schema

Mit kombiniertem Schatzwert:

⇒ Imputation der fehlenden Werte im ursprunglichen Datensatz

42 / 44


Imputationsmethoden


AMELIA II R-Code

⇒ siehe auch AMELIA-Hilfe in R

43 / 44


Imputationsmethoden


Literatur

Honaker, J. und King, G. und Blackwell, M. (2010). AMELIAII: A Program for Missing Data - Version 1.5

Little, R. J. A und Rubin, D. B. (1986). Statistical Analysiswit Missing Data. John Wiley & Sons, New York.

Schafer, J. und Olsen, M. (1998). Multiple Imputation forMultivariate Missing-Data Problems: A Data Analyst’sPerspective. Multivariate Behavioral Research, 33(4), 545-571.

(*) Spieß, M. (2008). Missing-Data Techniken: Analyse vonDaten mit fehlenden Werten. LIT Verlag, Hamburg.

44 / 44

Fehlende Daten - Seminarvortrag im Rahmen des Seminars...

Documents

Transcript of Fehlende Daten - Seminarvortrag im Rahmen des Seminars...