Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen...

48
Einführung in die Datenanalyse mit SPSS - Allgemeines - Dateneingabe - Datenbereinigung/ Auswahl - Datenbeschreibung und –exploration - Statistische Tests

Transcript of Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen...

Page 1: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Einführung in die Datenanalyse mit SPSS

- Allgemeines

- Dateneingabe

- Datenbereinigung/ Auswahl

- Datenbeschreibung und –exploration

- Statistische Tests

Page 2: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Allgemeines

• Geschichtliches

• Lizenzen

• Installation

• Versionen

• Benutzeroberfläche Daten-Editor Viewer

Page 3: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe vor. Frage 1: Einfachantwort, man braucht eine Zeile in SPSS. Messung kategorisch, also Kategorie 1-5 möglich. Frage 2: Mehrfachantwort möglich, man braucht also pro Abfrage (hier: Stadt) eine Spalte in SPSS (hier 7). Antwortmöglichkeiten sind nein (=0) und ja (=1). Frage 3: beinhaltet 6 Abfragen mit jeweils 5 Antwortkategorien, es werden also 6 Zeilen in SPSS benötigt. Hier auch als Kodierung „1= trifft voll zu“ bis „5=trifft überhaupt nicht zu“. Frage 4: offene Antwort, Angabe ist metrisch, also Skalenniveau. Hiermit kann man am meisten rechnen, also Informationsgehalt am höchsten.

Page 4: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Dateneingabe in SPSS

Frage 5: auch offene Antwort, aber nominal. Schwierig auszuwerten!

Daten von 20 befragten Personen stehen in einer Excel-Datei zur Verfügung. Eine Möglichkeit der Dateneingabe in SPSS ist, in ein bestehendes Tabellenblatt per copy/ paste Daten aus Excel einzufügen. Aufgabe: Kopieren Sie die Daten der Excel Datei „Fragebogen_Daten.xlsx“ (Tabelle 1) in das bereits vorbereitete Datenblatt von SPSS.

Page 5: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Struktur der Datensätze

• In den Spalten stehen die einzelnen gemessenen Merkmale (Variablen), d.h. alle Messungen für das Gewicht stehen in einer Spalte

• In einer Zeile stehen alle stehen alle Messungen einer Beobachtungseinheit (z.B. Patient, Pflanze)

• Keine freien Zeilen zur besseren Übersichtlichkeit

• Werteeingaben immer einheitlich, also entweder nur Text oder nur Zahl (Empfehlung: immer als Zahl kodieren)

• Bei fehlenden Werten Zellen frei lassen

• Variablenname muss mit Buchstaben beginnen, keine Leer- und Sonderzeichen

• SPSS ist nicht „case-sensitiv“, d.h. Alter = alter = ALTER

Page 6: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Struktur der Datensätze

Geschlecht Größe Gewicht

m 180 78

m 166 86

m 186 80

m 191 88

m 179 85

m 188 95

m 175 70

m 186 77

m 180 86

m 190 90

w 161 53

w 161 58

w 157 59

w 170 75

w 166 57

w 168

w 166 65

w 175 61

w 168 62

w 170 61

falsch richtig

Männer Frauen

Größe Gewicht Größe Gewicht

1 180 78 161 53

2 166 86 161 58

3 186 80 157 59

4 191 88 170 75

5 179 85 166 57

6 188 95 168 k.A.

7 175 70 166 65

8 186 77 175 61

9 180 86 168 62

10 190 90 170 61

Page 7: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenerzeugung in SPSS

Beispiel anhand des Datensatzes atemwege.xls (Quelle: Open Data LMU München https://doi.org/10.5282/ubm/data.13 )

• Laden einer Excel-Datei in SPSS: Datei Öffnen Daten Auswahl des Dateityps, hier .xls die gewünschte Datei kann ausgewählt werden. Dann Abfrage, ob in erster Zeile die Variablennamen stehen (in unserem Fall ist das so). Empfehlung: kurz visuell überprüfen, ob Daten sinnig sind.

• Angabe der Variablenlabels und Wertelabels Aufgabe: Vervollständigen Sie die Variablen- und Wertelabels gemäß den Angaben. Beachten: fehlende Werte! Tipp: gleiche Wertelabels können über copy & paste schneller eingegeben werden!

Page 8: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenbereinigung

Menüpunkt Transformieren : Variable berechnen: Man möchte eine Variable erhalten, die über die Anzahl der Vorerkrankungen (Allergie, Kehlkopfentzündung, Schnupfen, Husten) Auskunft gibt.

Oder: s. nächste Seite

Verwendung der Tastatur zur Berechnung, hier Addition durch „+“ Zeichen

Page 9: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenbereinigung: Transformieren Variable berechnen, auch Anzahl an Vorerkrankungen

Verwendung einer Funktion (hier SUM)

Page 10: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Immer noch Anzahl an Vorerkrankungen, aber über: Werte in Fällen zählen

Unter dem Punkt „Werte definieren“ muss man dann noch den zu zählenden Wert „1“ eingeben. Mit dieser Funktion kann man sich zeilenweise fehlende Werte oder jeden gewünschten Wert, auch Bereiche, durchzählen lassen!

Datenbereinigung: Transformieren

Page 11: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Klassifizieren von Werten in Gruppen geht über

Umcodieren in dieselben Variablen (Ursprungsvariable wird

überschrieben!)

Umcodieren in andere Variablen (neue umkodierte Variable wird erzeugt)

Automatisch Umcodieren (SPSS teilt Daten automatisch in Gruppen ein)

Visuelles Klassieren (vorab Übersicht über Werte, Festlegung Anzahl

Klassen, Auswahl, ob gleiche Wertintervalle oder ein balanciertes Design

(gleiche Gruppengröße) gewünscht sind)

Optimales Klassieren (metrische Variablen werden unter

Berücksichtigung einer nominalen Optimierungsvariable klassifiziert)

Datenbereinigung: Transformieren

Page 12: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Beispiel: Man möchte ausgehend vom Geburtsjahrgang (gebja) Analysen für zwei Altersklassen (alt(1) und jung(2)) durchführen: 1: Jahrgänge 73 – 77; 2: Jahrgänge 78 – 82

Umcodieren in andere Variablen, Name der neuen Variable: gebja_klass Automatisch Umcodieren, macht hier automatisch 5 Klassen Umcodieren in dieselben Variablen würde die Variable gebja überschreiben! Aber gut zu verwenden bei einfachem Umbenennen, z.B. kann man hiermit die mit „-1“ kodierten, fehlenden Werte in „SYSMIS“ umwandeln.

Visuelles Klassieren, bei „Intervalle mit gleicher Breite“ als Trennwert 77 und Anzahl der Trennwerte 1 eingeben

Optimales Klassieren, hier nicht geeignet

Datenbereinigung: Transformieren

Page 13: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Umcodieren in andere Variablen Berücksichtigung mehrerer Variablen/ Bedingungen:

Einteilung in drei Größengruppen, die Grenzwerte setzt man aber je nach Geschlecht unterschiedlich an.

1 = „klein“ = Größe unterhalb des 25% Quartils

2 = „mittel“ = Größe zwischen 25% und 75% Quartil

3= „groß“ = Größe oberhalb des 75% Quartils

Die Quartile für die Größe der Mädchen sind 25: 128,00 75: 151,00 für die der Jungen 25: 131,25 75: 153,00

Datenbereinigung: Transformieren

Page 14: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Schaltfläche „Alte und neue Werte“, zuerst Eingabe der Werte für die Mädchen.

Durch Klicken von „Weiter“ kehrt man wieder zu dem vorherigen Fenster zurück.

Hier nacheinander die Werte 1, 2 und 3 eingeben, jeweils „Hinzufügen“ klicken

Hier nacheinander die jeweiligen Bereiche der Körpergröße angeben

Datenbereinigung: Transformieren

Page 15: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Schaltfläche „Falls…“ und Eintragen der Bedingung „sex=2“, damit die vorher festgelegten Werte nur für die Mädchen angewendet werden.

Aufgabe: Führen Sie die Einteilung für die Jungen durch

Datenbereinigung: Transformieren

Page 16: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Exkurs Syntax

Man möchte eine Variable über die örtliche Belastung des Kindes einführen, dabei wird berücksichtigt

– der Wohnort des Kindes (Variable zone)

– ob die Mutter raucht (raumu)

– ob der Vater raucht (rauva)

Die neue Variable soll „belast“ heißen und soll folgende Werte annehmen können:

1: geringe Belastung (bei zone 2 raumu 0 rauva 0, 2 0 1, 2 1 0, 1 0 0, 3 0 0)

2: hohe Belastung (bei 2 1 1, 1 0 1, 1 1 0, 1 1 1, 3 0 1, 3 1 0, 3 1 1)

Page 17: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Exkurs Syntax Es besteht die Möglichkeit, diese Variable über das Menü zu erzeugen (Transformieren Variable berechnen), dies ist allerdings etwas umständlich! Empfehlenswert ist der Weg über den Syntax (Datei Neu Syntax):

IF (zone = 2 & raumu = 0 & rauva = 0)|(zone = 2 & raumu = 0 & rauva = 1)| (zone = 2 & raumu = 1 & rauva = 0)|(zone = 1 & raumu = 0 & rauva = 0)| (zone = 3 & raumu = 0 & rauva = 0) belast=1.

IF (zone = 2 & raumu = 1 & rauva = 1)|(zone = 1 & raumu = 0 & rauva = 1)| (zone = 1 & raumu = 1 & rauva = 0)|(zone = 1 & raumu = 1 & rauva=1)| (zone = 3 & raumu = 1 & rauva = 0)|(zone = 3 & raumu = 0 & rauva = 1)| (zone = 3 & raumu = 1 & rauva = 1) belast=2.

EXECUTE.

Page 18: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Exkurs Syntax

Vorteile • zur Dokumentation der Analysen, z.B. bei

Abschlussarbeiten

• Bei sich regelmäßig wiederholenden Analysen (Empfehlung: Kommentare schreiben)

Nachteil • es hat den Charakter einer Programmiersprache

Öffnen des Syntax-Editors über Datei Neu „Syntax“

Bei Prozeduren Drücken der Schaltfläche „Einfügen“

Kommentare werden mit einem * gekennzeichnet.

Page 19: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenauswahl: Daten

Menüpunkt Daten:

• Man möchte in einer Analyse nur die Kinder früherer Jahrgänge untersuchen. Von der selbst erstellten Variable gebja_klass sollen daher nur die Fälle „1“ ausgewählt werden. Daten Fälle auswählen

Beachten: dieser „Filter“ bleibt auch nach Deaktivierung als eigene Variable erhalten

• Zur besseren Übersichtlichkeit sollen die Daten dann nach der Variable gebja_klass aufsteigend sortiert werden. Daten Fälle sortieren

Page 20: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Übung • Sortieren Sie die Fälle zurück in die alte Ordnung.

• Setzen Sie einen Filter: wählen Sie die Fälle von männlichen Kindern aus, die als Anzahl an Vorerkrankungen (Anz_Vorerkr) mindestens 2 haben

• Erzeugen Sie eine Variable, die die Differenz zwischen fef50 und fef75 angibt, Name: diff_fef, Berechnung: fef50 – fef75

• Erzeugen Sie eine Variable geb_jz (Jahreszeit Geburt) ausgehend von der Variable gebmo: 12, 1, 2 Winter 3-5 Frühjahr 6-8 Sommer 9-11 Herbst

Page 21: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Hilfe • Öffnen des Lernprogramms beim Start von SPSS • Menüpunkt Hilfe

Themen öffnet online-Hilfe sortiert nach Themen

SPSS Support verbindet zu IBM support Seite

SPSS Foren verbindet zu IBM Seite mit verschiedenen Foren

Dokumentation im PDF Format

Befehlssyntaxreferenz Beschreibung der Syntaxsprache (PDF)

Kompatibilitätsberichtstool IBM Seite mit Produktsuche

• Hilfe zu Prozeduren: im Fenster findet sich eine Schaltfläche „Hilfe“, es öffnet sich online eine Beschreibung mit Beispielen.

• Benutzerhandbücher von SPSS beim Installationsmedium bei gelegt

Page 22: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenbeschreibung: Explorative Datenanalyse

Menüpunkt Analysieren Deskriptive Statistik

In einem vorherigen Beispiel wurden die Quartile (25%, 75%) der Körpergröße von Mädchen und Jungen benötigt. Wie erhält man diese? Analysieren Deskriptive Statistik Explorative Datenanalyse Variable „gross“ als abhängige Variable, Variable „sex“ in Faktorenliste. Im Fenster „Statistiken“ Häkchen bei den Perzentilen setzen:

Page 23: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenbeschreibung: Pivot-Tabellen

Pivot-Tabellen

• Die Formatvorlage kann verändert werden unter Bearbeiten

Optionen „Pivot-Tabellen“.

• Die Pivot-Tabelle an sich kann durch Doppelklicken im Pivot-Tabellen-Editor bearbeitet werden, z.B. kann die eben gezeigte Tabelle noch etwas reduziert werden:

Page 24: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenbeschreibung: Kreuztabellen Beispiel: Besteht ein Einfluss der Umweltbelastung am Wohnort auf die Anzahl an Vorerkrankungen?

Erstellen einer Kreuztabelle mit den Variablen zone und Anz_Vorerkr. Analysieren Deskriptive Statistik Kreuztabellen

Bei der Schaltfläche „Zellen“ bei Häufigkeiten „Beobachtet“ und „Erwartet“ auswählen, bei den Prozentwerten „Gesamtsumme“.

Page 25: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenbeschreibung: Kreuztabellen Chi-Quadrat-Test: bei der Schaltfläche „Statistiken“ ein Häkchen bei „Chi-Quadrat“ setzen.

Der p-Wert ist 0,04, also <0,05, d.h. es besteht ein signifikanter Einfluss der Umweltbelastung am Wohnort auf die Anzahl der Vorerkrankungen.

Zu beachten ist aber die untere Meldung, dass 20% der Zellen eine erwartete Häufigkeit <5 haben. Dieses kann (muss aber nicht) zu Verfälschungen führen und sollte vermieden werden, z.B. durch Zusammenfassen von Gruppen (hier Gruppe 3 und 4).

Page 26: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Datenbeschreibung: Untersuchung der Normalverteilung

Analysieren Deskriptive Statistik Explorative Datenanalyse

Macht nur für metrische Variablen Sinn!

Schaltfläche „Diagramme“, Häkchen setzen bei gewünschten Diagrammen (Boxplots, Stem and Leaf-Plot oder Histogramm) und bei „Normalverteilungsdiagramm mit Test“.

Visuelle Beurteilung der Diagramme auf NV

Hinzuziehen des Testergebnisses (Kolmogorov-Smirnov bzw. Shapiro-Wilk)

Ggf. noch den Levene-Test mit auswählen, wenn man die Varianzhomogenität zwischen Gruppen untersuchen möchte.

Page 27: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Diagrammerstellung Grafik Diagrammerstellung. Die Anzahl an Vorerkrankungen mit Balkendiagramm darstellen. Per Drag and Drop gewünschte Diagrammart und die Variable (Anz_Vorerkr1 auf die x-Achse ) in das Vorschaufeld ziehen.

Zum Bearbeiten des Diagramms doppelt klicken, es öffnet sich der Diagrammeditor. Durch Doppelklicken auf das zu ändernde Element (z.B. Balken) öffnet sich das jeweilige Eigenschaften-Fenster

Page 28: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Diagrammerstellung Aufgaben: - Ändern der Dicke der Balken - Ändern der Balken in 3D - Ändern der Hintergrundfarbe - Ändern der Schriftgröße der Achsenbeschriftungen - Verkleinern des y-Achsenabschnitts auf 0 bis 1050 - Fügen Sie eine Anmerkung ein

Page 29: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Grafik Auswahl der Diagrammtafelvorlage,

Zuerst Auswahl der Variable(n), SPSS zeigt die möglichen Diagramme an.

Hier besteht die Möglichkeit, Daten etwas anders darzustellen, z.B. die Datendichte darzustellen.

Beispiel: Das Gewicht (gewi) und den fef50 als Liniendiagramm darstellen, unter Schaltfläche „Detailliert“ bei Transparenz „Anzahl“ auswählen.

Diagrammerstellung

Page 30: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Einfache Testverfahren

Auswahl eines geeigneten Tests zum Vergleich von Daten: - welcher Art sind die Daten (nominal, ordinal, metrisch,…) Nominal: geeignete Tests bei nominalen Daten sind z.B. der Chi-Quadrat-Test (vgl. Kreuztabellen im Kapitel Datenbeschreibung),

Ordinal: die Tests von den nominalen Daten dürfen auch verwendet werden, man verzichtet aber auf Informationen, die die Daten hergeben. Empfehlenswert sind i.d.R. sog. nicht-parametrische Tests, die meist auf Rängen beruhen.

Metrisch: sind die Daten normalverteilt (und varianzhomogen), dürfen sog. parametrische Tests verwendet werden; sind sie dies nicht, verwendet man nicht-parametrische Verfahren.

Page 31: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Dann besteht auch die Frage nach dem geeigneten Testverfahren für den Vergleich:

• Hat man eine Datenreihe, bei der man untersuchen möchte, ob sie von einem bekannten Wert abweicht Einstichproben-Test (T-Test bei NV, sonst Mann-Whitney-U Test (entspricht Wilcoxon-Test))

• Hat man eine gepaarte Stichprobe (z.B. vorher/ nachher Messungen, wiederholte Messung an einer Versuchseinheit) Test für gepaarte Stichproben(T-Test bei NV, sonst MWU/ Wilcoxon Test)

• Hat man zwei Stichproben (ordinal oder metrisch), zwischen denen man einen Zusammenhang vermutet Korrelationsanalyse

• Hat man einen Wert in unterschiedlichen Gruppen gemessen und möchte Gruppenunterschiede aufzeigen Test für unabhängige Stichproben (bei 2 Gruppen: T-Test bei NV, sonst MWU- Test; bei >2 Gruppen ANOVA bei NV, sonst Kruskal-Wallis-Test)

Einfache Testverfahren

Page 32: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Einfache Testverfahren Beispiel: Es soll festgestellt werden, ob sich Jungen und Mädchen hinsichtlich des Ausatemstroms nach 75%iger Ausatmung (fef75) unterscheiden. Der fef75 ist metrisch, also prüfen wir, ob diese normalverteilt ist: Analysieren Deskriptive Statistiken Explorative Datenanalyse

Abhängige Variable: fef75, Faktorenliste: sex

Auswertung: Beide Q-Q-plots zeigen deutliche Abweichung von der Normalverteilung Histogramme zeigen rechtsschiefe („Schiefe“-Wert >> 0) und steilgipflige („Kurtosis“-Wert >>0) Verteilung. Ein weiterer Hinweis auf eine Abweichung von der Normalverteilung ist ein deutlicher Unterschied zwischen Mittelwert und Median.

Man würde hier also nicht von normalverteilten Stichproben ausgehen, das Ergebnis des Shapiro-Wilk Tests bestätigt dies (p-Wert < 0,05).

Beachten: Anwendung des zentralen Grenzwertsatzes wäre möglich!

Page 33: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Daher wählen wir einen nichtparametrischen Test: Analysieren Nichtparametrische Tests unabhängige Stichproben. Testvariable ist „fef75“, Gruppierungsvariable ist „sex“.

SPSS verwendet den Mann-Whitney-U-Test (entspricht Wilcoxon-Test) für den Vergleich der zwei Stichproben.

Ergebnis: Der p-Wert von 0,414 ist deutlich über dem Signifikanzniveau von 0,05, daher können keine geschlechterbedingten Unterschiede hinsichtlich des fef75 festgestellt werden.

Einfache Testverfahren

Page 34: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Einfache Testverfahren Beispiel: Unterscheiden sich Jungen und Mädchen hinsichtlich der Körpergröße ?

Werte auf NV testen: Analysieren Deskriptive Statistik Explorative

Datenanalyse Visuelle Beurteilung zeigt ungefähr Normalverteilung, auch wenn das Testergebnis des Shapiro-Wilk Tests dagegen spricht, würden wir hier ein parametrisches Verfahren wählen. Analysieren Mittelwerte ver-

gleichen T-Test bei unabhän-

gigen Stichproben

Bei der Gruppierungsvariable noch die Gruppen definieren (1 und 2) (T-Test geht immer nur für zwei Gruppen!).

Page 35: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Das Ergebnis sieht folgendermaßen aus:

Sind Varianzen gleich (s. Levene-Test, Signifikanz >0,2), nimmt man das Ergebnis der oberen Zeile (Student‘s T-Test).

Sind Varianzen ungleich (Levene-Test, Signifikanz <0,2) nimmt man die untere Zeile (T-Test nach Welch).

Hier (Levene <0,2) würde man also das Ergebnis der unteren Zeile nehmen: „Mädchen und Jungen unterscheiden sich signifikant hinsichtlich der Körpergröße (p-Wert < 0.001)“.

Einfache Testverfahren

Page 36: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

ANOVA Vergleich eines Merkmals zwischen >2 Gruppen: Daten in den Gruppen normalverteilt und varianzhomogen? Wenn nicht: Analysieren Nicht-parametrische Tests

unabhängige Stichproben, das Programm verwendet automatisch den Kruskal-Wallis Test.

Beispiel: Es soll untersucht werden, ob sich die Vitalkapazität (fvc) der Kinder in den drei Wohngebieten (zone) unterscheidet: Analysieren

Nicht-parametrische Tests

unabhängige Stichproben, Grup- pierungsvariable zone, Testvaria- ble fvc.

In diesem Fall kann also kein Unterschied zwischen den Wohngebieten hinsichtlich der Vitalkapazität festgestellt werden (p-Wert > 0.05).

Page 37: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Vergleich eines Merkmals zwischen >2 Gruppen: Daten in den Gruppen normalverteilt und varianzhomogen? Wenn ja: Analysieren Mittelwerte vergleichen Einfaktorielle

Varianzanalyse

Beispiel: Zeigen die Gruppen mit unterschiedlicher Anzahl an Vorerkran-kungen (Anz_Vorerkr) Unterschiede im max. Ausatemstrom pef?

Vorarbeit 1: „balanciertes Design“: da nur sehr wenige Fälle mit 3 und 4 Vorerkrankungen existieren, werden diese mit der Gruppe „2 Vorerkrankungen“ zusammen- gefasst: Transformieren

Umcodieren in andere Variablen, neue Variable soll ANZ3 heißen; man möchte insgesamt die Gruppen 0, 1 und 2 erhalten.

ANOVA

Page 38: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Vorarbeit 2: Die pef Werte sind nicht normalverteilt. Um dies zu erreichen, kann man die Daten transformieren, z.B. über eine Logarithmierung: Transformieren Variable berechnen

ANOVA

Dann untersucht man NV: Analysieren Deskriptive

Statistiken Explorative

Datenanalyse, abhängige Variable log_pef, Faktor ANZ3

Page 39: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Analysieren Mittelwerte vergleichen Einfaktorielle Varianzanalyse. Testvariable log_pef, Faktor ANZ3.

Der p-Wert von 0,042 zeigt, dass signifikante Unterschiede zwischen den Gruppen hinsichtlich des log_pef Wertes vorliegen.

Welche Gruppen genau unterscheiden sich voneinander?

Post-hoc Test: Zurück zu der Analyse, bei Schaltfläche „Post hoc“ geeigneten Test auswählen.

In unserem Fall würde man z.B. den Bonferroni-Test verwenden können. Dieser zeigt signifikante Unterschiede nur zwischen der Gruppe 0 und 2 (p-Wert 0.039).

ANOVA

Page 40: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Korrelation Untersucht, ob ein kausaler Zusammenhang zwischen zwei Variablen besteht. Die Variablen auf Normalverteilung untersuchen:

wenn ja: Pearsonscher Korrelationskoeffizient

wenn nein: Spearman oder Kendalls Tau

Beispiel: Es wird ein Zusammenhang zwischen der Vitalkapazität fvc und dem maximalen Ausatemstrom pef vermutet.

Beide Variablen folgen nicht der Normalverteilung.

Analysieren Korrelation Bivariate Korrelationen

Als Ergebnis erhalten wir als Spearman-Rho-Wert 0,86, was eine starke, positive Korrelation anzeigt, die auf dem 1% Niveau signifikant ist.

Page 41: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Lineare Regression Untersucht den funktionalen Zusammenhang (zweier) voneinander unabhängiger Variablen.

Beispiel: Wir möchten z.B. anhand des Gewichts der Kinder deren Körpergröße „vorhersagen“. Eine Korrelation zeigt einen starken positiven Zusammenhang dieser beiden Variablen auf (Spearman-rho= 0,923).

Analysieren Regression Linear , abhängige Variable=Körpergröße, unabhängige=Gewicht. Das R² beträgt 0.794, d.h. fast 80% der Gesamtstreuung der Variable „Körpergröße“ werden durch unser Modell, also die Variable „Gewicht“ erklärt, die übrigen 20% ergeben die Residuen (nicht erklärte Streuung).

Page 42: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Unser Modell ist mit einem p-Wert<0.001 signifikant. Ausgehend von den Koeffizienten ergibt sich ein Regressions- modell mit folgenden Werten: (y = mx + b) gross = 1.081*gewi + 102.278 Anschließend muss aber noch untersucht werden, ob das Modell geeignet ist, um diesen Zusammenhang zu beschreiben.

Lineare Regression

Page 43: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Die Residuen müssen folgende Bedingungen erfüllen:

1. Unabhängig voneinander sein

2. Normalverteilt sein

3. Homogene Varianzen aufweisen Um dieses zu überprüfen, wählt man bei dem Diagrammfenster der Regression die Schaltfläche „Diagramme“ aus:

Lineare Regression

1. Häkchen setzen bei „Histogramm“ und/ oder „Normalverteilungsdiagramm“

2. Streudiagramm der standardisierten vorhergesagten Werte (ZPRED) und standardisierten Residuen (ZRESID)

Zusätzlich unter Schaltfläche „Statistiken“ Auswahl des Durbin-Watson Tests.

Page 44: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Histogramm sowie Normalverteilungs- diagramm (rechts) zeigen eine Normalvertei- lung der standardisierten Residuen.

Das Streudiagramm der stand. Residuen ge- gen die stand. geschätzten Werte (u.l.) zeigt keine extrem regelmäßige Verteilung der Punkte, die auf Autokorrelation hinweisen.

Lineare Regression

Page 45: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Durbin Watson Test auf Autokorrelation der Werte : 1,68 (Werte zwischen 1,5 und 2,5 werden als unauffällig angesehen).

Aber: -leichte Krümmungstendenz der Punktwolke -größerer Abstand der Punkte zur Nulllinie bei größeren Werten -einige Ausreißer (s. Pfeile)

Lineare Regression

Page 46: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Krümmung eliminieren: über eine Logarithmierung eine Linearisierung. Transformieren Variable berechnen als Funktion z.B. den Zehner-logarithmus lg10 nehmen.

Dann die Regression erneut durchführen mit „log_gew“ als unabhängige Variable.

Die größere Streuung bei größeren Kindern lässt sich nicht durch Transformation ändern, dieses ist ein Effekt, der häufig bei „biologischen“ Messungen anzutreffen ist.

Lineare Regression

Page 47: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Die lineare Regression liefert auch ein deutlich höheres R² (0,84, vorher 0,794), der Wert des Durbin-Watson Tests liegt mit 1,766 auch im unauffälli- gen Bereich und das Streudia- gramm der standardisierten

Lineare Regression

Residuen gegen die stand. geschätzten Werte zeigt auch eine relativ gleichmäßige Punktwolke (linkes Bild)

Page 48: Einführung in die Datenanalyse mit SPSS · Dateneingabe in SPSS Der Ihnen vorliegende Fragebogen soll mit SPSS ausgewertet werden. Bereiten Sie die Variablen für die Dateneingabe

Ausreißer überprüfen: z.B. in dem nicht linearisierten Diagramm die visuell auffälligen Punkte heraus suchen:

Diagramm doppelt klicken, um den Diagrammeditor zu öffnen

Elemente Datenbeschriftungsmodus, das erscheinende Viereck auf den betreffenden Punkt setzen und klicken, es wird die Zeilennummer des Punktes im Datensatz angezeigt.

Beim Durchführen der Regression, Schaltfläche „Speichern“, Häkchen bei „Distanzen“ setzen, alle drei Werte (Cook, Mahalanobis, Hebelwerte) werden im Datenblatt gespeichert und dienen zur Identifikation extremer Werte in der Regression.

Lineare Regression