modelle (SEM) mit Mplus - Weingarten...Kaplan, D. (2000). Structural Equation Modeling: Foundations...

Bad Herrenalb, den 19. & 20.2.2019 Folie 1Balingen, 12.11.2007 Folie 1

Workshop bei der Winterakademie der

Graduiertenakademie Pädagogische

Hochschulen BW am 19./20.2.2019 in

Bad Herrenalb

Prof. Dr. Stefan König

„Strukturgleichungs-

modelle (SEM) mit

Mplus“

Prof. Dr. S. König

Teil 1:

Einführung in den Kurs und die Thematik

Bad Herrenalb, den 19. & 20.2.2019 Prof. Dr. S. König Folie 2

Kleine Informationsrunde zu Beginn


Überblick über die Gesamtthematik


Datum & Zeit Themen Materialien

1 19.02., 14:00 – 16:00 Einführung in die Thematik

und den Kurs

Präsentation

2 19.02., 16:30 – 18:30 Einführung in den SPSS-

Datensatz; Explorative

Faktorenanalyse

Healthworkers.sav

Syntax_1 + _2.sps

Arbeitsblätter_1 bis 2

3 20.02., 08:30 – 10:30 CFA/SEM mit Mplus

4 20.02., 11:00 – 13:00 Übungen Übungsdatensatz_1

Übungsdatensatz_2

5 20.02., 14:30 – 16:00 Weitere Modellansätze (1):

Multilevel Modeling

Companydata_emp-

level.dat

6 20.02., 16:30 – 18:00 Weitere Modellansätze (2)

Diskussion & Summary

Support_emplevel.dat

1.1 Einleitende Überlegungen


Einführung in Strukturgleichungsmodelle (1)

„Structural equation modeling (SEM) can perhaps best be

defined as a class of methodologies that seeks to represent

hypotheses about the means, variances and co-variances

of observed data in terms of a smaller number of

structural parameters defined by a hypothesized model.“

Kaplan, D. (2000). Structural Equation Modeling: Foundations and

Extensions.



„SEM takes into account the modeling of … multiple latent

independents each measured by multiple indicators, and

one or more latent dependents each with multiple

indicators.

SEM may be used as a more powerful alternative to

multiple regression, path analysis, factor analysis, and time

series analysis.“

From: http://www.statisticalassociates.com



Die genannten latenten Variablen (auch als Konstrukte

oder Faktoren bezeichnet) sind nicht beobachtbare und

oft auch nicht messbare Variablen, welche durch

beobachtbare, sprich messbare, Variablen (auch als

Indikatoren bezeichnet) gemessen werden.

Beispiel:

Arbeitsplatzzufriedenheit oder Lehrergesundheit sind

(derzeit) als Konstrukt nicht wirklich messbar.

Messbar hingegen sind Items, wie z. B. Zufriedenheit

mit der Unterstützung durch Kollegen oder mit der

kollegialen Zusammenarbeit, etc. über Ratingskalen.



Structural Equation Modeling is often defined as a type of

Path Analysis; the latter definition encompassing any

regression technique which enables the simultaneous

modeling of several related regression relationships.

SEM family:

a priori

differentiating between observed and latent variables

ability to analyze co-variances as well as means

requires large samples


1.2 EFA CFA SEM


1.2.1 Begrifflichkeiten


Explorative Faktorenanalyse (EFA)

In einer EFA versucht man herauszufinden, welche

Variablen ‚tiefer liegende‘ Faktoren oder latente

Variablen beschreiben, und die Bedeutung dieser

Faktoren zu interpretieren.

Eine EFA ist ein exploratives Verfahren, um Modelle zu

entwickeln und die Beziehungen zwischen den Variablen

zu beschreiben; diese Beziehungen werden als Faktor-

ladungen bezeichnet.

Normalerweise wird eine EFA durchgeführt, um die oder

mehrere ‘best’-Lösungen für die Beziehung der

beobachteten und tiefer liegenden Variablen zu finden.

‘Best’ meint inhaltliche Sinnhaftigkeit (‚qualitizing‘).


EFA: Grundidee

FaktorItem 1

Item 2

Item 3

…

Item n


EFA: Beispiel (Gageur, i. Vb.)


Schularten: Grundschule: 859

Hauptschule: 282

Realschule: 322

Gemeinschaftsschule:

295

Gymnasium: 448

Sonderpädagogische

Zentren: 271

Online-Befragung im

Raum Baden-

Württemberg mittels

Fragebogen, der aus

verschiedenen Skalen

besteht.

EFA: Beispiel (Gageur, i. Vb.)


Konfirmatorische Faktorenanalyse (CFA)

CFA gelten als Messmodelle; d. h., sie legen dar, wie

Indikatoren (beobachtete Variablen) tiefer liegende

Konstrukte messen.

Eine CFA wird verwendet, um zu testen, wie gut ein

solches Messmodell ist, d. h. wie gut ein Modell zu den

Daten passt.

In einer CFA wird ein Modell zu Beginn des

Analyseprozesses definiert („Theories first“); d. h., es gibt

ein Modell, das bspw. aus einer Kombination einer

vorher durchgeführten EFA, einer Literaturrecherche

und eigenen theoretischen Analysen entwickelt wurde.

Dieses Modell soll ‘bestätigt’ werden.


Konfirmatorische Faktorenanalyse (CFA)

Hierbei ist die Anzahl der Variablen und Faktoren sowie

deren Beziehung festgelegt. Bestimmte Variablen stehen

mit bestimmten Faktoren in Zusammenhang.

Beispiel: Messmodell ‚kognitive Fähigkeiten‘


Aus: Geiser (2011, S. 56)

0,48

Strukturgleichungsmodelle (SEM)

Das Prüfen eines Messmodells mittels CFA ist der erste

Schritt, ein SEM zu modellieren; in anderen Worten: Eine

CFA sollte einem SEM stets vorausgehen.

Ein SEM ‘erweitert’ eine CFA, indem Kausalitäten

(Pfade) zwischen den Faktoren ergänzt werden.

ACHTUNG: Falls schon das Messmodell eine eher

schlechte Passung mit den Daten hat (d. h., die Variablen

sind keine wirklich guten Messungen der tiefer liegenden

Faktoren), dann ist es unwahrscheinlich, dass irgendeine

Erweiterung um kausale Abhängigkeiten von Faktoren

das Modell besser macht.


Messmodelle und Strukturmodelle


Y = β0 + β1x + e

β0 = Intercept

β1 = Slope

e = Residuum

η2 = β0 + β1η1 + ζ

1.2.2 Beispiel



Begriffsklärung: Messmodell, Strukturmodell und

Strukturgleichungsmodell am Beispiel einer fiktiven Evaluation (schriftliche

Befragung, Rating-Skalen) einer Lehrveranstaltung zu statistischen

Themen

Lehrqualität

Lernzuwachs

bei Teilnehmern

Zufriedenheit

der Teilnehmer

mit Seminar

Motivation zur

eigenständigen Be-

schäftigung mit

Statistik

Zufriedenheit mit

Studium

Einschätzung

PH Weingarten

gute Wahl

Weiter-

empfehlung

PH Weingarten

Gute Berufs-

vorbereitung

Messmodell 1 Messmodell 2


Begriffsklärung: Messmodell, Strukturmodell und Strukturgleichungsmodell

Lehrqualität Zufriedenheit mit

Studium

Strukturmodell

Lernzuwachs

bei Teilnehmern

Zufriedenheit

der Teilnehmer

mit Seminar

Motivation zur

eigenständigen

Beschäftigung

mit Statistik

Einschätzung

PH Weingarten

gute Wahl

Weiter-

empfehlung

PH Weingarten

Gute Berufs-

vorbereitung


Begriffsklärung: Messmodell, Strukturmodell und Strukturgleichungsmodell

Lehrqualität Zufriedenheit mit

Studium

Messmodell 1 Messmodell 2

Strukturgleichungsmodell

Lernzuwachs

bei Teilnehmern

Zufriedenheit

der Teilnehmer

mit Seminar

Motivation zur

eigenständigen

Beschäftigung

mit Statistik

Einschätzung

PH Weingarten

gute Wahl

Weiter-

empfehlung

PH Weingarten

Gute Berufs-

vorbereitung

UV AV

1.2.3 Modelldarstellung


Grundsätzliches

Bei der Konstruktion bzw. beim Prüfen von

Pfadanalysen, wie z. B. CFA, SEM oder auch einer

einfachen Regression mit beobachteten Daten,

empfiehlt es sich, ein Modell sowohl grafisch als auch in

Form von Gleichungen darzustellen.

“Literature … recommends an initial examination of empirical …

plots of the whole sample or a randomly selected subsample of

individuals …, because this conveys a first exploratory impression

of change over time” (Singer & Willett, 2003, p. 24).

Bei der grafischen Darstellung einer Pfadanalyse gibt es

weitverbreitete Bezeichnungen und Definitionen.


Gleichungen

Zur Darstellung in Form von Gleichungen nehmen wir an,

dass wir sechs Variablen, V1 bis V6, haben. Eine

durchgeführte EFA hat vorgeschlagen, dass diese sechs

Variablen auf zwei Faktoren laden.

Formale Schreibweise:

– V1 to V3 on F1

– V4 to V6 on F2

Gleichungen (drei ausgewählt):

(1) V1 = β01 + β11*F1 + errV1

(2) V2 = β02 + β12*F1 + errV2

(3) V3 = β03 + β13*F1 + errV3


Pfaddiagramme (1)


F1

F2

V2

ErrV1 V1

V3

ErrV2

ErrV3

V1

V1

V1

ErrV4

ErrV6

ErrV5

β1

β4

β3

β2

β5

β6

r

Pfaddiagramme (2)

• Rechtecke stellen ‘beobachtete Variablen’ dar.

• Ovale stellen latente Konstrukte dar, d. h. Faktoren und

Varianzen.

• Einfache Pfeile zeigen kausale Beziehungen

zwischen Variablen (UV AV).

• Doppelpfeile stehen für Korrelationen

zwischen Variablen.

• Abhängige Variablen, d. h. Variablen, auf die wenigstens

ein Pfeil zeigt, werden als endogen definiert. Solche, auf

die kein Pfeil zeigt, als exogen.


Zusammenfassung

Während ein Messmodell, das einen oder mehrere

Faktoren beschreibt, die durch ein Set an beobachteten

Variablen gemessen werden, einen Teil eines SEM

bildet, enthält ein SEM Kausalitäten (Pfade) zwischen

den Faktoren und/oder beobachteten Variablen.

Dementsprechend können SEM als Anpassungen bzw.

Erweiterungen von CFA konzipiert werden, die anstatt

reinen Korrelationen kausale Beziehungen zwischen den

Faktoren festlegen.


1.3 Überlegungen und Parameter zur

Modellgüte


Test Parameter und Model Fits

Für ein Pfadmodell liefert der Output des ausgewählten

Softwarepakets Schätzer von allen Parametern des

Modells, die frei geschätzt werden können.

Beispiel: Mplus liefert für die geschätzten Parameter in

der CFA (path coefficients β1 to β6, intercepts α1 to α6,

variance of err Y1 to errY6, correlation ρ) folgende

zusätzlichen Koeffizienten:

– Standardfehler für die Schätzung

– Ein Verhältnis dieser Schätzung, d. h. der Quotient aus

“‚standardized estimation‘/‚standard error’”, der sich einer Z-

Statistik annähert

– Einen p-Wert, bezogen auf die Testung der Nullhypothese, dass

die Schätzung “0” beträgt

– Vertrauensintervalle (wenn angefordert)


Beispiel Mplus


Konfidenzintervalle fehlen hier, sie sind durch einen

spezifischen Unterbefehl (CINTERVAL) anzufordern.

Beispiel Mplus – Erläuterungen


σ𝑖=1𝑖=𝑛 𝑥𝑖 − 𝑥 2

𝑛 − 1s2 =

S.E. = s/ 𝑛

Die Streuung der

Stichprobenkennwerte-

verteilung heißt

Standardfehler des

Mittelwerts. Trägt man den

Standardfehler zu beiden

Seiten des Mittelwerts auf,

liegt mit etwa 67 %

Wahrscheinlichkeit der

Mittelwert der

Grundgesamtheit in

diesem Intervall.

R2-Statistik

Für jede der abhängigen Variablen (in unserem Beispiel

V1 bis V6) wird ebenfalls die R2-Statistik ausgegeben.

R2 als Quotient von durch die Regression erklärter

Varianz und Gesamtvarianz. Wert R2 < 1.

Beispiel aus Mplus:


Frage nach der Modellgüte

Eine wichtige Frage ist, wie wir bewerten können, wie gut

unser Modell zu den Daten passt. Prinzipiell ist das die

Priorität in der CFA.

Wir prüfen, wie gut die gemessene (beobachtete)

Kovarianz-Matrix der Variablen des Modells mit dem

zusammenpasst, was wir unter der Annahme, dass das

Modell eine perfekte Abbildung der Daten ist, erwarten.


Chi-Quadrat-Statistik (1)

Die grundlegendste Fit-Statistik für jegliche Pfadanalyse

ist die Chi-Quadrat-Statistik (χ2).

Sie wird in einem großen Bereich von statistischen

Testszenarien angewendet (z. B. auch Mplus, HLM), um

zu prüfen, ob die “beobachteten Daten" (d. h. unser

Datensatz) von dem abweicht, was unter dem

vorgeschlagenen Modell erwartet wird.




𝑍𝑒𝑖𝑙𝑒𝑛𝑠𝑢𝑚𝑚𝑒 ∗ 𝑆𝑝𝑎𝑙𝑡𝑒𝑛𝑠𝑢𝑚𝑚𝑒

𝐺𝑒𝑠𝑎𝑚𝑡𝑠𝑢𝑚𝑚𝑒 𝑑𝑒𝑟 𝐻ä𝑢𝑓𝑖𝑔𝑘𝑒𝑖𝑡Erwartete Anzahl =


Falls die Chi-Quadrat-Statistik signifikant sein sollte (p <

.05), dann bedeutet dies, dass sich die Zusammenhänge

zwischen den Variablen im Modell signifikant von den

Werten unterscheiden, die wir erwartet hätten, falls das

Modell eine wahre Abbildung wäre.

Bitte beachten: Selbst im Falle einer mäßig großen

Stichprobe können Unterschiede zwischen den

beobachteten und erwarteten Kovarianz-Matrixen, die

eigentlich als trivial betrachtet werden könnten,

signifikante Chi-Quadrat-Statistiken verursachen.

Folglich sind weitere Indizes entwickelt worden, um den

Fit unseres Modells beurteilen zu können.


Model Fits (1)

Solche Model Fits verwenden eine ganze Reihe an

Methoden, zum Beispiel Vergleich gegen das Null-Modell

oder Beurteilung von Residuen und Fehlertermen.

Sie können in zwei Gruppen unterteilt werden:

– Absolute Fit Indizes

– Inkrementelle Fit Indizes


Model Fits (2)

Absolute FI Inkrementelle FI

Definition Absolute fit indices are

simply derived from the fit

of the observed and

expected covariance and

the ML minimization

function.

Incremental fit indices compare a

chi-square for the model tested with

the chi-square from a so-called null

model (also called a "baseline"

model or "independence" model).

The null model generally specifies

that all observed variables are

uncorrelated (there are no latent

variables).

Value: 0 – 1.

Beispiele AGFI, Hoelter‘s CN, AIC,

BIC, ECVI, RMR, SRMR,

RMSEA

IFI, CFI, TLI, NFI.

Relevant

für uns

AIC, BIC, RSMEA CFI, TLI


Model Fits (3)

In der statistischen Forschung wurden relativ viele

Analysen durchgeführt, um herauszufinden, …

– … welche Model Fits aus der vorhandenen Vielzahl

am besten verwendet werden sollen und

– … welche angemessenen Grenz-Werte für jeden

Index festgelegt werden sollen, die einen

hinreichenden Model Fit garantieren.

Hu und Bentler (1999) haben verschiedene Cut-offs für

viele dieser Koeffizienten unter verschiedensten

Bedingungen untersucht (veränderte Stichprobengrößen,

Modellkomplexität, etc.). Sie schlagen eine Kombination

vor, um α- und β-Fehler zu vermeiden.


Model Fits (4)

Gruppe Model Fit Cut-off Mplus

Chi-Quadrat-

Statistik

Chi-Quadrat-Test P < .05 bedeutet,

dass das Modell

nicht zur

Population passt

Absolute Fit

Indizes

SRMR < 0.08

RMSEA < 0.06

Inkrementelle Fit

Indizes

CFI > 0.95 (0.97)

TLI > 0.95 (0.97)


Weitere Model Fits finden sich bei Geiser (2010); vgl. auch

Arbeitsblatt 1.

Zusammenfassung und Fragerunde

Grundidee und zentrale Merkmale von

Strukturgleichungsmodellen

Vergleich, Abgrenzung und Zusammenhänge von EFA,

CFA und SEM

Überlegungen und Parameter zur Modellgüte

------------------------------------------------------------------

Fragen

Anmerkungen

Wie geht es weiter?


Teil 2 (1):

Einführung & Vorbereitung

SPSS-Datensatz


Schritt 1:

Informationen über den Datensatz


Informationen zum Datensatz

Der Datensatz liegt als SPSS-Datei vor (healthworkers.sav).

Der Datensatz besteht aus 49 Variablen.

Diese entsprechen Antworten, die von 600 Beschäftigten im Rahmen

einer schriftlichen Befragung zum betrieblichen Gesundheitswesen

gegeben wurden (verschiedene Skalen).

Die Variablen setzen sich zusammen aus …

– … verschiedenen Demografischen Messungen bzw.

Hintergrundinformationen,

– … 7 Skalen mit Items zu „Arbeitsmessungen“ (z. B. Teamwork,

Feedback, etc.) sowie

– … 2 Skalen zum Wohlbefinden.

Ein Ausschnitt des Datensatzes befindet sich in der nächsten

Abbildung.


Ausschnitt aus SPSS Datensatz


Überblick über den Datensatz

Ziel: Informationen über den Datensatz erhalten („getting

familiar with“), da Mplus einen Nachteil hat: Die Software

ist bezüglich eines Überblicks über die vorhandenen

Daten eher ungeeignet!

Vorgehen

– Datensatz öffnen

• Menügesteuert

• Syntax: get file = `Pfad´.

– Häufigkeiten berechnen

– Deskriptive Statistiken berechnen

Bitte einlesen!


Schritt 2:

Aufbereitung des Datensatzes


Datensatz kennenlernen & vorbereiten

Die folgenden Arbeitsschritte sind drei Gründen

geschuldet:

– Bereinigung des Datensatzes

– Vorbereitung des Datensatzes für mögliche Analysen

– Besonderheiten von Mplus mitdenken

Bitte Datensatz „healthworkers_0.sav“ laden [Syntax_1]:

– Bitte genau anschauen

– Schwächen des Datensatzes?

– Mögliche Zusatzvariablen?

– Formatierungen?


Aufbereitung des Datensatzes (vgl. AB_1)

Datensatz in zwei Hälften teilen: EFA vs. CFA [Syntax_2; Syntax_3]

Neue Variablen generieren

Datensatz vervollständigen

Variablen umbenennen (Mplusakzeptiert nur Variablen mit 8 Zeichen)

Fehlende Werte eintragen


Aufgaben

Bitte die Syntax_1 über den Datensatz

„healthworkers.sav“ laufen lassen.

Abspeichern der neuen Datei unter „healthworkers2-sav“.

Vergleich => Welche Unterschiede lassen sich

feststellen?

Öffnen der Datei „healthworkers_0.dat“ mit dem

Texteditor. Vergleichen Sie den SPSS-Datensatz mit

dem Texteditor

Besprechen der Besonderheiten von Mplus.

Nächster Schritt: Berechnen einer explorativen

Faktorenanalyse in SPSS.


Teil 2 (2):

Explorative Faktorenanalyse


Exploratory Factor Analysis (1)

In einer EFA wird versucht zu identifizieren, welche

Variablen am besten eine „Tiefenstruktur“ an latenten

Variablen (Faktoren) messen.

Die Bedeutung dieser Faktoren muss interpretiert werden

(„Qualitizing“ – vgl. Kuckartz, 2014).

EFA gilt als exploratives Verfahren, das Modelle

entwickelt („model building“) und Beziehungen zwischen

Variablen beschreibt.

Ziel einer EFA ist, ein sogenanntes „best“-Modell für das

Verhältnis der beobachteten Variablen und der ihnen

zugrunde liegenden Faktoren abzuleiten.


Explorative Faktorenanalyse (vgl. AB_2)

Vorüberlegung??

Analysieren

Datenreduktion

Faktorenanalyse

Variablen auswählen: Item 1 bis Item 18

Deskriptive Statistik

Ausgangslösung

Extraktion

Screeplot

Rotation

Varimax

Scores

Als Variable speichern

Optionen

Kleine Koeffizienten unterdrücken (vgl. nächste Seite)


Vorüberlegungen

Wenn in der Planungsphase dafür gesorgt wurde, dass auf jeden zu

erwartenden Faktor zehn oder mehr Variablen entfallen, ist ein

Stichprobenumfang von n = 150 ausreichend.

Wenn auf jeden bedeutsamen Faktor mindestens vier Variablen

Ladungen über 0,60 aufweisen, kann die Faktorenstruktur

ungeachtet der Stichprobengröße generalisierend interpretiert

werden.

Das Gleiche gilt für Strukturen mit Faktoren, auf die jeweils zehn bis

zwölf Variablen mit Ladungen um 0,40 oder darüber laden.

Faktorenstrukturen, auf denen nur wenige Variablen geringfügig

laden, sollten nur interpretiert werden, wenn n ≥ 300 ist. Für n ˂ 300

ist die Interpretation der Faktorenstruktur von den Ergebnissen einer

Replikation abhängig zu machen.


Schritt 3:

Theorieentwicklung mittels EFA in SPSS


Modellentwicklung und Modellprüfung

Ziel unseres Vorgehens ist, ein Modell mittels einer

explorativen Faktorenanalyse zu entwickeln und dieses

Modell mit einer konfirmatorischen Faktorenanalyse zu

prüfen.

Beide Schritte können nicht mit demselben Datensatz

durchgeführt werden!

In anderen Worten: Wir brauchen einen anderen

Datensatz.

Lösungsmöglichkeit: Teilen des Datensatzes in zwei

Hälften.


Analysieren: Variablen auswählen


Deskriptive Statistik


Extraktion


Kaiser-Guttman-Kriterium

Eigenwerte = Summe der

quadrierten Faktorladungen eines

Faktors über alle Variablen, d. h.

EW = σ𝑗 𝑎 2𝑗𝑞

(wird von SPSS

automatisch berechnet).

Rotation


Optionen


Wie handeln wir „missing

values“?

Kleine Koeffizienten (vgl.

Folie 58)

Exkurs: Fehlende Werte (FW)

„The only really good solution to the missing data problem is

not to have any“ (Allison, 2001)

Klassische Verfahren (SPSS):

– Listenweiser Fallausschluss: Person fällt bei der Berechnung

aller Koeffizienten heraus.

– Paarweiser Fallausschluss: Person fällt bei der Berechnung des

entsprechenden Kennwertes heraus.

– Mittelwertersetzung (=> Varianzvernichtung)

Imputationsverfahren:

– Regression (=> Überschätzung des Zusammenhangs)

– LOCF

– (Multiple) Imputationen

Grenzwert: < 5 %


FW: Ersetzung durch Mittelwert


FW: Ersetzung durch Regressionsgerade


1. Voreinstellung: „x“ Faktoren


Ergebnisse EFA_1: Screeplot


Berechnen einer EFA mit drei Faktoren

Bitte Syntax_2 laden

Hinweise auf Änderung

Berechnen

Ergebnisse


EFA (1)

Modellentwicklung

– Aufgrund der von uns durchgeführten explorativen

Faktorenanalyse haben wir ein Modell zur

„Arbeitsplatzzufriedenheit“ entwickelt, welches aus

drei Faktoren besteht.

Modellvalidierung bzw. -testung

– Die von uns als

• „Faktor 1“,

• „Faktor 2“ und

• „Faktor 3“

bezeichneten Faktoren sind nun mittels CFA zu

prüfen. Dieser Schritt erfolgt mit Mplus.


EFA (2)


Vgl. Arbeitsblatt 3

Interpretation der Faktoren (Qualitizing)???

– F 1:

– F 2:

– F 3:

Wichtig: Widerspruch zu Döring und Bortz

(2010).

Interpretation & Ergebnisse der EFA

Eigene Zusammenfassung bzw. Interpretation der

Ergebnisse mit Blick auf:

– Kommunalitäten

– Screeplot

– Rotierte Komponentenmatrix

– Inhaltliche Benennung der Faktoren

Entscheidung für ein Modell mit drei Faktoren, die

folgende Bezeichnungen haben und aus folgenden

Variablen bestehen:

– Faktor 1:

– Faktor 2:

– Faktor 3:


Teil 3:

Konfirmatorische Faktorenanalyse

- Theorie & Empirie -


Confirmatory Factor Analysis (1)

Eine CFA wird verwendet, um zu prüfen, wie gut die

explorativen Modelle tatsächlich sind.

In einer CFA wird zuerst das Modell definiert, das von

einer EFA, eigenen theoretischen Annahmen und einer

Literaturanalyse abgeleitet wurde.

Die Anzahl der Variablen und Faktoren sowie deren

Beziehungen sind festgelegt.

ACHTUNG: Eine CFA kann nicht mit denselben Daten

erfolgen wie die EFA => Random50 = 0

Eine CFA ist der erste Schritt bei der Entwicklung eines

Strukturgleichungsmodells, d. h., ein SEM hat noch

etwas „mehr“ als eine CFA.


Confirmatory Factor Analysis (3)


Unser Modell

F 1 „Teamwork“

Item 1_1 (TEAMWORK1)

Item 1_2 (TEAMWORK2)

F 2 „Soziale Unterstützung“

Item 2_1 (SOCSUP1)

Item 2_2 (SOCSUP2)

F 3 „Jobzufriedenheit“

Item 3_1 (JOBSAT1)

Item 3_2 (JOBSAT2)


Vorgehen

CFA/SEM-Wiederholung

Kennenlernen von Mplus

Schreiben einer ersten Syntax

Syntax für CFA

Ergebnisinterpretation


CFA/SEM-Wiederholung

In einer CFA wird zuerst ein Modell definiert, das von

einer EFA, eigenen theoretischen Annahmen und einer

Literaturanalyse abgeleitet wurde.

Im Idealfall wird das Modell gegenüber Alternativ-

Modellen getestet. Ziel ist herauszufinden, welches

Modell das Beste ist.

Verfahren: Goodness-of-fit Tests (fit indices)

– AIC/BIC

– CFI/TLI

– RMSEA [Root Mean Square Error of Approximation]

SEM: Erweiterung einer CFA, indem Kausalitätspfade

eingebaut werden (Pfadanalyse!). Effektprüfung!


Eigene theoretische Vorüberlegungen

Faktor 1 Faktor 2 Faktor 3

Item 1_1 0,912

Item 1_2 0,891

Item 2_1 0,904

Item 2_2 0,767

Item 3_1 0,894

Item 3_2 0,744

Bezeichnung Soziale

Unterstützung

Teamwork Jobzufriedenheit


Softwarepaket Mplus 8.1 Demo

Es gibt kein spezifisches Mplus Datenformat, so wie etwa

bei SPSS (*.sav).

Mplus kann aber mit Datensätzen aus SPSS und Stata

arbeiten, allerdings kann es diese nicht direkt laden.

Wir benötigen Datensätze in ASCII-Format (American

Standard Code for Information Interchange) als externen

Datensatz.

Dies und anderer Besonderheiten erfordern eine

entsprechende Vorbereitung des Datensatzes.

Datensatz „coaching.dat“ wird verwendet.


Softwarepaket Mplus 8.1 Demo

Die von uns benutzte Demoversion kann

– 6 abhängige Variablen

– 2 unabhängige Variablen und

– 2 „between variables“ für eine 2-Ebenen-Analyse

bearbeiten.

Allerdings kann Mplus wesentlich mehr Variablen

einlesen, sodass wir einen umfangreicheren SPSS-

Datensatz vorbereiten können.

Variablennamen in Mplus sollten nur 8 Zeichen haben;

bitte Umlaute vermeiden.


Syntax: Befehle und Unterbefehle

TITLE:

DATA:

VARIABLE:

DEFINE:

ANALYSIS:

MODEL:

OUTPUT:

SAVEDATA:

PLOT:

MONTECARLO:

-----------------------------

Diese Befehle werden in den Mplus Editor geschrieben und durch

einen Doppelpunkt beendet; dann erscheinen sie in blauer Schrift!


!! Von diesen 6 Befehlen sind

die fettgedruckten diejenigen,

die am häufigsten verwendet

werden !!

Weiteres Vorgehen

CFA unseres Modells

Programmschritte

– Daten einlesen (Syntax 1)

• Deskriptive Statistik

– Modellprüfung

• Der ANALYSIS Befehl

• Der MODEL Befehl

Analyse und Bewertung des Modells

Erweiterung des Modells zu einem SEM


Schritt 4:

Theorieprüfung mittels CFA in Mplus


Mptext1: Daten einlesen und prüfen


Bitte genau prüfen!!!

Mptext2: „Analysis“ & „Model“-Befehl


Einige Unterbefehle für

„Model“:

by = defining a factor

on = regressed upon

with = correlate with

Grafische Darstellung der CFA


Erläuterungen Doppelpfeile zwischen den

Faktoren: Korrelationen

(SE)

Werte links von Faktoren:

Varianzen (SE)

Werte bei einfachen

Pfeilen links:

Faktorladungen (SE)

Werte bei einfachen

Pfeilen rechts:

Residualvarianzen (SE)

Interpretation des Messmodells (CFA)

Bitte formulieren Sie Ihre eigene Interpretation hier:


Teil 4:

Strukturgleichungsmodelle mit Mplus

– Theorie & Empirie –


Structural Equation Model (1)

Eine CFA sollte einem SEM immer vorausgehen, aber

ein SEM erweitert ein Messmodell, indem Kausalitäten

zwischen den Faktoren hinzugefügt werden.

Ein SEM wird auch als Pfadmodell bezeichnet und ist

deshalb an weithin akzeptierte Definitionen und

Notationen gebunden.

– Rechtecke repräsentieren beobachtete Daten.

– Ovale repräsentieren latente Konstrukte, also z. B.

Faktoren.

– Einfache Pfeile stehen für kausale Zusammenhänge.

– Bipolare Pfeile stehen für Korrelationen zwischen

Variablen.


SEM (2): Erweiterung des Modells CFA

Herstellen von Kausalität mit dem Ziel einer

konsistenteren Theorie

Grundidee:


Faktor 1 Faktor 2

Item 1 Item 2 Item 3 Item 4

Effekt

SEM (3): Unser Modell


Item 1_2

Item 1_1

Item 2_1

Item 2_2

Item 3_2

Item 3_1

F1

F2

F3a

b

C‘

Testing for mediation: Total effect c = a*b + c‘

Error terms missing!!!

Zwischenfazit

Strukturgleichungsmodelle …

– … werden als eine Klasse von Methodologien

definiert, die versuchen, Hypothesen über Mittelwerte,

Varianzen und Kovarianzen von beobachteten Daten

in Bezug auf eine geringere Anzahl an Parametern

darzustellen,

– … beschreiben und erklären Kausalitäten,

– … gelten deshalb als Erweiterung von

konfirmatorischen Faktorenanalysen und

– … werden als deutlich stärkere Alternative zu

multiplen Regressionen gesehen.

Sie erfordern den Einsatz spezieller Software!


Schritt 5:

Kausalität mittels SEM in Mplus


Vorüberlegungen

Direkte und indirekte Effekte:

Faktoren (latente Konstrukte)

– Faktor 1:

– Faktor 2:

– Faktor 3:


Faktor 1 Faktor 2

Faktor 3a b

C´

Vorüberlegungen

Direkte und indirekte Effekte:

Syntax

– Model constraint:

– New(c);

– c = a*b;


Faktor 1 Faktor 2

Faktor 3a b

C´

Hypothesen



Mptext3 input

Messmodell durch konfirmatorische

Faktorenanalyse

Strukturgleichungsmodell durch

Einbau von Kausalitäten

Mptext3 output graph


Interpretation des Modells

Bitte formulieren Sie Ihre eigene Interpretation hier:


Modifikation des Modells

Welche Modellalternativen sind theoretisch denkbar?

Berechnen Sie ein solches Modell.

Vergleichen Sie die Modellgüte anhand der Fit Indizes.

-------------------------------------------------------------------------------


Zusammenfassung & Interpretation

Ziel war die Entwicklung und Prüfung einer

konsistenteren Theorie.

Was wissen wir nach der Entwicklung eines

SEM mehr – im Vergleich zu einem reinen

ANOVA-Ansatz?

– Ziele des ANOVA-Ansatzes?

– Ziele des SEM-Ansatzes?

– Inhaltliche Verbesserung unseres Modells?

– Mögliche weitere Steigerung?


Teil 5:

Übungen


Übungsdatensatz „Lehrergesundheit“

SPSS

• Schreiben Sie eine kurze Syntax für Ihr Vorhaben

• Verschaffen Sie sich einen Überblick über den Datensatz

• Erstellen Sie einen Datensatz im free format

• Berechnen Sie eine EFA

Mplus

• Vergleichen Sie die deskriptiven Koeffizienten

• Berechnen Sie eine CFA

• Entwickeln Sie ein SEM (theoriegeleitet)

• Berechnen Sie ein SEM

• Was sind Modellalternativen?


Teil 6:

Weitere Modellansätze


SEM

Mehrebenen-Ansätze

KMFA

Veränderungs-messungen

Analyse von Variabilität

Messung von Trait-

Veränderungen


Untersuchungsdesigns

Kohorte

1920 20 40 60 80

1940 0 20 40 60 80

1960 0 20 40 60 80

1980 0 20 40 60

2000 0 20 40

Testzeit 1940 1960 1980 2000 2020 2040

Bad Herrenalb, den 19. & 20.2.2019 Prof. Dr. S. König 110

Querschnitt

Längsschnitt

„Nested data“ – Mehrebenen-Ansätze


Ein fiktives Beispiel

Prof. Dr. S. König Folie 112Bad Herrenalb, den 19. & 20.2.2019

Das Ein-Ebenenmodell

Alter in Jahren

W_SpU

4

3

2

1

0


Das Zwei-Ebenenmodell

Alter in Jahren

Nicht_Gym

GymW_SpU


Die inhaltliche

Perspektive


Datenstruktur in den Sozialwissenschaften

Daten aus Studien in den Verhaltens-, Sozial-

oder Wirtschaftswissenschaften zeigen sehr

häufig hierarchische Strukturen, weil Individuen

in größeren Einheiten bzw. Gruppen

zusammengefasst sind.

Beispiele (vgl. Luke, 2004)


„Nested data structure“

Studien zur Unterrichtsforschung haben häufig den Nachteil, dass

die Stichproben nicht repräsentativ oder/und zufällig sind. Vielmehr

werden ganze Klassen herangezogen, die wiederum

Organisationseinheiten bestimmter Schulen sind.

„Nested data structure“ (Singer & Willett, 2003; Luke, 2004; Snijders

& Bosker, 2012).

“Intact subgroups” (Campbell & Stanley, 1963; Newman, Newman &

Salzman, 2010; Schoonenboom, 2016).


Mögliche konzeptuelle Probleme

Gemessene Werte von Individuen werden

letztendlich auch durch die aggregierte Einheit

beeinflusst, z. B. das Lernklima (Helmke, 2007) in

einer Klasse oder die Sozialstruktur einer

Wohngegend (Onwuegbuzie & Hitchcock, 2015).

Die Missachtung einer hierarchischen Datenstruktur

führt zu konzeptuellen Problemen (Hox, 2010, S. 3f),

wie etwa

– einem ökologischen Fehlschluss oder

– einem atomistischen Fehlschluss bzw. Simpson‘s

Paradox


Mögliche konzeptuelle Probleme

Gemessene Werte von Individuen werden

letztendlich auch durch die aggregierte Einheit

beeinflusst, z. B. das Lernklima (Helmke, 2007) in

einer Klasse oder die Sozialstruktur einer

Wohngegend (Onwuegbuzie & Hitchcock, 2015).

Die Missachtung einer hierarchischen Datenstruktur

führt zu konzeptuellen Problemen (Hox, 2010, S. 3f),

wie etwa

– einem ökologischen Fehlschluss oder

– einem atomistischen Fehlschluss bzw. Simpson‘s

Paradox.


Inhaltliche Zielsetzung eines MLM

Grundidee MLM ist, den Einfluss einer jeweils

höheren Ebene auf die darunter liegende Ebene zu

modellieren bzw. zu schätzen.

In anderen Worten: Ziel von Mehrebenen-

Modellierungen ist, die abhängige Variable, die sich

auf der untersten Ebene befindet, durch Prädiktoren

auf verschiedenen Ebenen zu schätzen.

Solche Schätzungen sind statistisch durch

verschiedene Verfahren möglich, wobei

Regressionsmodelle und Kovarianz-Modelle zentral

sind.

Bad Herrenalb, den 19. & 20.2.2019Prof. Dr. S. König Folie 120

Die statistische

Perspektive


Statistische Argumente

Traditionelle Methoden, wie z. B. Regressions-

oder Varianzanalyse, sind sogenannte

Ein-Ebenen-Methoden; das heißt, sie nehmen

an, dass Werte von Individuen unabhängig sind.


Verletzung dieser Annahme

Verzerrungen bei statistischen Schätzungen

Zweifelhafte Signifikanzen

Hauptfehler: Aggregation & Disaggregation

Variablenverschiebung

Aggregation

Die Daten der Ebene 1

werden zusammengefasst

und auf der Ebene 2

betrachtet.

Konsequenzen:

– ‚Bedeutungsveränderung‘

– ‚Inhaltliche Fehlschlüsse‘

– „Cross-level interaction“ wird

ausgeschlossen

Disaggregation

Die Daten der Ebene 2

werden nicht betrachtet,

lediglich Ebene 1 wird

ausgewertet.

Konsequenzen:

– Stichprobeneffekt wird

künstlich erhöht, was zu

Verzerrungen führt.

– ‚Vernichtung‘ der

Zusammenhänge


Grundprinzip der MLMs


Es ist zu prüfen, ob die Varianz zwischen den Gruppen

(„between“) größer ist als die Varianz innerhalb der Gruppen

(„within“). Ist dies der Fall, ist ein MLM angezeigt. Prüfung

durch …

… grafische Datenanalyse oder/und

… Berechnung des ICC.

Grafische

Datenanalyse


Der Intraclass Correlation Coefficient (ICC)


Zwischenfazit

In den Sozialwissenschaften und Fachdidaktiken

liegen häufig geschachtelte Datensätze vor;

d. h., die Probanden sind auf einer „höheren“

Ebene aggregiert.

Das ist nicht bedeutungslos, da etwa Klassen-

oder Schulkontext Einstellungen auf

Individualebene beeinflussen können.

MLMs modellieren den Kontexteinfluss, der

durch die Gruppe, der ein Individuum angehört,

erzeugt wird.


Transfer auf

„healthworkers“


Transfer „healthworkers“ (1)

Unsere Analysen haben ein drei-faktorielles SEM

ergeben, das „Jobzufriedenheit“ über „Teamwork“ und

„social support“ und auf der Basis von n = 600 erklärt.

Analog zu den einleitenden Überlegungen haben wir die

jeweilige Firma nicht berücksichtigt; dies kann zu

Verzerrungen („bias“) führen.

Lösung: Modell, welches Zusammenhänge und

Kausalitäten auf zwei, die, … Ebenen abbildet und

zusätzlich deren Zusammenhang modelliert.

Dieser Ansatz funktioniert für verschiedene Verfahren

und kann mit unterschiedlicher Software durchgeführt

werden.


Transfer „healthworkers“ (2)

Neuer Datensatz: „companydata_emplevel.dat“

Merkmale:

– N Employees = 841

– N Companies = 44

Geschlecht:

– Weiblich (0) = 127

– Männlich (1) = 714

Weitere Variablen: cf. Arbeitsblatt 4


Transfer (3)


Firmen werden dummy-kodiert, wobei die beiden Dummies folgende

Kategorisierung vornehmen:

C_TPDUM1 = company training provider outsourced vs. inhouse

C_TPDUM2 = company training provider mixed vs. inhouse

TENURE = length of time employed at this company (years)

JOBSAT = Mean Score – Job Satisfaction (high score = high

satisfaction)

Effects modelled as random: intercept

Modellbildung

Bei unseren bisherigen Analysen haben wir eine

Strategie statistischer Modellbildung noch nicht

betrachtet: Die „Suche“ nach einem ‚best model‘; d. h. es

werden mehrere theoretisch hergeleitete Modelle

(„Theories first“) verglichen.

Diese „model testing strategy“ funktioniert „bottom up“.

Dies erfolgt aufgrund der eingangs besprochenen fit

indizes sowie einem Vergleich einzelner Modelle mittels

chi2-Test (=> Excel-Datei!).

Vergleich lineare Regression: „R2“

Ziel: Das Modell zu finden, dass am besten zu den

beobachteten Daten passt.


Multilevel Models


Model Testing Strategy

Unconditional model [4_1]

Adding potentially confounding variables [4_2]

Adding the main effect of amount of training [4_3]

Adding the main effect of quality of training [4_4]

Allowing the amount of training to become random [4_5]


Modell 1: „unconditional model“ [4_1]


Modell 2: Hintergrundfaktoren [4_2]


Modell 3: + Fortbildungshäufigkeit (W) [4_3]


Modell 4: + Fortbildungsqualität (B) [4_4]


Modell 5: „Slopes at random“ [4_5]


Zusammenfassung MLM

Vorgehen nach einer „bottom up testing strategy“.

ABER: Modelle müssen theoretisch begründet bzw.

abgeleitet sein („theories first“).

Vergleich der Modelle mittels verschiedener Koeffizienten

und chi2-testing.

Ziel: „best model“, aber vermeiden von sog. „model

overloading“ => Sparsamkeit!

Wichtige Mplus Befehle (zusätzlich zu den bisherigen):

within, between, center.

Derzeit keine grafischen Möglichkeiten bei Mplus!


Multilevel CFA


Datensatz „Support_emplevel.dat“


Modell 1: Nullmodell, ICC [5_0]


Datenimport und ICC (1)

Variable Residual

variance

Between

Department

Variance

ICC (1) Variable Residual

variance

Between

Department

Variance

ICC (1)

JOBSAT1 Support1

JOBSAT2 Support2

JOBSAT3 Support3

TMWork1 Support4

TMWork2 Support5

TMWork3 Support6


For further details see:

http://www.statmodel.com/Download/ICC.pdf

http://www.statmodel.com/Download/ICC.pdf

Modell 2: Messmodell „4F“ auf Level 1


Modell 3: Messmodell „3F“ auf Level 1


Modell 4: Messmodell auf W & B

Hox (2010) empfiehlt, zuerst zwei Benchmark Modelle zu rechnen,

und zwar das einfachste und das beste Modell.

Als einfachstes Modell gilt das Modell, welches als „independence

model“ bezeichnet wird, d. h. es gibt keine Bezüge zwischen den

Variablen.

– Sollte dieses Modell zutreffen, würde das bedeuten, dass es auf

der Ebene „department“ kein schlüssiges Konzept gibt.

Als bestes Modell wird das „saturated model“ bezeichnet, welches

unabhängige Korrelationen zwischen jedem einzelnen Variablenpaar

spezifiziert (relativ komplex).

Sollte dieses Modell zutreffen, würde das bedeuten, dass jede

beobachtete Variable mit jeder zusammenhängt.

Diese beiden Modelle stellen den unteren bzw. oberen Richtwert für

ein realistischeres, sprich einfacheres Modell dar.



Model Chi-sq,

df

Chi-sq

change, df

change

CFI RMSEA SRMR

a) Four factor model at the

employee level,

independence model at

the department level

b) Four factor model at the

employee level, three

factor model at the

department level

c) Four factor model at the

employee level, four

factor model at the

department level

d) Four factor model at the

employee level,

saturated model at the

department level

Modell 5_4a


Modell 5-4d


Modell 5_4b


Modell 5_4c


Zusammenfassung MCFA

MCFA ist eine Verknüpfung der Ansätze MLM und CFA,

die ebenfalls nach einer „bottom up“-Strategie vorgeht.

Entscheidend ist auch hier der Ansatz „theories first“, der

sich auf Faktorenstrukturen auf beiden Ebenen bezieht.

Üblicherweise wird zuerst die untere Ebene modelliert,

danach wird mit dem besten level 1 Modell die höhere

Ebene modelliert. Hierbei stellen Nullmodell und

saturiertes Modell die beiden benchmarks dar.

Folglich können auf den beiden Ebenen unterschiedliche

Mediatoren und Faktorenstrukturen angenommen

werden.


Teil 7:

Zusammenfassung & Diskussion


SEM

– gelten als eine “class of methodologies that seeks to

represent hypotheses about the means, variances and

co-variances of observed data in terms of a smaller

number of structural parameters defined by a

hypothesized model”

– take into account the modeling of … multiple latent

independents (factors) each measured by multiple

indicators, and one or more latent dependents each

with multiple indicators.

Als übliches Procedere gelten EFA CFA SEM


Grundprinzip: Suche eines “best model” nach dem

“bottom up” Prinzip

SEM werden theoretisch begründet und empirisch mittels

verschiedener „fit indices“ verglichen.

SEM existieren in verschiedenen Varianten

– Cross-sectional models

– Multilevel models

– Longitudinal models


Teil 8:

Literaturvorschläge


Quellen & Hinweise

Backhaus, K., Erichson, B., Plinke, W. & Weiber, R. (2006). Multivariate

Analysemethoden. Eine anwendungsorientierte Einführung (11. Aufl.). Berlin,

Heidelberg, New York: Springer.

Bortz, J. & Schuster, C. (2010). Statistik für Human- und

Sozialwissenschaftler (7. Aufl.). Berlin, Heidelberg: Springer.

Bühl, A. (2012). SPSS 20. Einführung in die moderne Datenanalyse (13.,

aktualisierte Aufl.). München: Pearson.

Geiser, C. (2011). Datenanalyse mit Mplus. Eine anwendungsorientierte

Einführung (2. Aufl.). Wiesbaden: VS Verlag.

Hox, J. J. (2010). Multilevel Analysis: Techniques and Applications. Oxford:

Routledge Academic.

Kline, R. B. (2005). Principles of Practice of Structural Equation Modeling

(2nd ed.). New York/London: Guilford Press.

Lüdtke, O., Trautwein, U., Schnyder, I. & Niggli, A. (2007). Simultane

Analysen auf Schüler- und Klassenebene. Zeitschrift für

Entwicklungspsychologie und Pädagogische Psychologie, 39(1), 1–11.


Folie 160Weingarten, den 07. JUli 2009 Folie 160

Herzlichen Dank für

Ihre Aufmerksamkeit.

www.ph-weingarten.de

Bad Herrenalb, den 19. & 20.2.2019 Folie 160Prof. Dr. S. König

modelle (SEM) mit Mplus - Weingarten...Kaplan, D. (2000). Structural Equation Modeling: Foundations...

Documents

Transcript of modelle (SEM) mit Mplus - Weingarten...Kaplan, D. (2000). Structural Equation Modeling: Foundations...