Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009...

27
Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechn ung 19.11.2009 [email protected] m

Transcript of Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009...

Page 1: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung

19.11.2009

[email protected]

Page 2: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Wiederholung grafische Darstellungen

Page 3: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Welche grafische Darstellung ist hier gewählt?

Page 4: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Welche grafische Darstellung ist hier gewählt?

Page 5: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Welche grafische Darstellung ist hier gewählt?

Was unterscheidet ein Histogramm von Balkendiagrammen oder Polygonen?

Page 6: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Welche grafische Darstellung ist hier gewählt?

Was stellt ein Scatterplot dar?

Page 7: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Was fehlt…

Welche Möglichkeiten der grafischen Darstellung außer Balkendiagrammen, Histogrammen und Scatterplots kennt ihr und was wird jeweils dargestellt?

Page 8: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Vorbereitung von Daten zur statistischen Analyse-

Datenkontrolle

Page 9: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Notwendigkeit der Datenkontrolle

• Primäre Aufgabe der Statistik: Datenanalyse• Normalerweise liegt ein Datensatz in

elektronischer Form als Datei vor• Man sollte sich aber als gewissenhafter

Wissenschaftler fragen: Wie ist diese Datei entstanden???

Page 10: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Was sind die häufigsten Erhebungsmethoden von Daten in psychologischen Untersuchungen?

Page 11: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Erhebungsmethoden1) Befragungsmethoden („Standardmethode“)

a) schriftlich: Fragebogen– sehr ökonomisch– das am häufigsten verwendete Instrumentb) Im direkten Gespräch: Interview– Offene, standardisierte und teilstandardisierte Form

2) Beobachtung (mit oder ohne Videoaufzeichnungen)

– Audio- oder Videoaufzeichungen können später ausgewertet und kodiert werden

Page 12: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Erhebungsmethoden

3) Neue Datenquellen (Kernspintomografie, Lig-Daten aus dem Internet,…)

Page 13: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Look at your Data!

• Datenkontrolle vor Datenanalyse in Bezug auf:– Korrektheit/Verständnis der Probanden– Fehleingaben– Plausibilität

Page 14: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Play with your Data!Datenkontrolle

• Sind die Werte realistisch?Ist die Größe der Veränderungen nach der

Postmessung realistisch?Bsp.: Kann man innerhalb von einer Woche 20kg

abnehmen???

• Sind die Daten überhaupt möglich?• Zum Messzeitpunkt T2 jünger als zu T1?

Page 15: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Grafische Analysen, Ausreißer, Extremwerte

• Neben deskriptiven Werten, welche im Rahmen der explorativen Datenanalyse herangezogen werden, sollen auch grafische Analysen (ideal: Box-Plot) zur Suche von auffälligen Werten herangezogen werden

• Unterscheidung: fehlerhafte Eingabe vs. Außreißer (eine 7 auf einer 5-stufigen Skala ist sicher kein Ausreißer!)

Page 16: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Ermittlung von Ausreißern und Extremwerten- zwei Definitionen

1. Turkey- Kriterium (via Box-Plot)Ein Subjekt Y ist ein Ausreißer wenn gilt:

Ein Subjekt Y ist ein Extremwert, wenn gilt

IQAQIQAQY

oder

IQAQIQAQY

3,5,1

5,1,3

11

11

IQAQY

oder

IQAQY

3

3

1

1

Page 17: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

2. Definition (nach Hair, Black, Babin, Anderson and Tatham, 2006)

• Außreißer werden über das Konfidenzintervall um den Mittelwert definiert

• Bei kleinen Stichproben (N<80) gilt: ± 2,5 SD vom Mittelwert• Bei größeren Stichproben: ± 4 SD=> Alle Werte außerhalb des Intervalls werden

als Außreißer betrachtet

Page 18: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

• Ausschluss von Probanden muss immer begründet sein• Wenn möglich: Statistik mit und ohne Ausreißern

berechnen => je nach Anteil der Ausreißer sollten sich hier keine bedeutsamen Unterschiede ergeben

• Wenn signifikante Ergebnisse nur mit Ausreißern erreicht werden, muss das kritisch diskutiert werden

• Empfehlung: Ausreißer durch den nächsten, plausibelsten Wert ersetzen– Windsorisieren

Wichtig:

Page 19: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Windsorisieren• Um den Mittelwert einer Stichprobe wird ein

Konfidenzintervall ermittelt, welches 90% aller Werte enthält

• Alle Werte außerhalb dieses Intervalls = Ausreißer

• Ausreißer werden folgendermaßen ersetzt:– Aller Werte unterhalb der 5%-Grenze (unterhalb des

Konfidenzintervalls) werden durch den Wert der unteren Grenze ersetzt

– Alle Werte oberhalb der 95%-Grenze (oberhalb des KI) werden durch den Wert der oberen Grenze des Intervalls ersetzt

Page 20: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Vorteil des Windsorisierens:☺

Nachteil:-

Page 21: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Fehlende Werte

Gruppenarbeit:Gruppe 1: Was sind fehlende Werte und welche

Probleme ergeben sich aus ihnen?Gruppe 2: Missing Data DiagnoseGruppe 3: MCARGruppe 4: MARGruppe 5: NMAR

Page 22: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Wahrscheinlichkeitsrechnung

Page 23: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Wozu, weshalb, warum?

WahrscheinlichkeitsrechnungWahrscheinlichkeitsrechnung

Statistik

deskriptiv inferentiell

Statistik

deskriptiv inferentiell

StochastikStochastik

Wir erinnern uns:Der große Rahmen…

Page 24: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Aufgabe: Wie groß ist die p, bei einem Kartenspiel mit 32 Karten einen König zu ziehen?

)(Ap

Page 25: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

WahrscheinlichkeitstheorieWie kann man Wahrscheinlichkeit bestimmen?

1.Relativer Anteil der „günstigen Fälle“ an allen möglichen Ereignissen („a priori“ Wahrscheinlichkeit, Laplace):

2. Grenzwert der relativen Häufigkeit des Eintretens der „günstigen Fälle“ bei sehr häufigem Durchführen eines Zufallsexperimentes („a posteriori“ Wahrscheinlichkeit, Bernoulli):

eignisseöglichenErAnzahlderm

eiginisseünstigenErAnzahlderg

N

nAp

gesamt

a )(

N

nA A

N lim)(

Page 26: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Bernoulli-Wahrscheinlichkeit

Gesetz der großen Zahl: Schätzung ist umsogenauer je mehr N gegen unendlich gehen

Fiktives Bsp.: Es soll untersucht werden, wie viele Depressive eine bipolare Störung haben. Es werden auf einer Depressionsstation zunächst 10 Patienten untersucht:

%5,4110

5)( bipolar

%11000

10)( bipolar

%3010

3)( bipolar

Page 27: Tutorat IV: Diagramme, Datenkontrolle, Wahrscheinlichkeitsrechnung 19.11.2009 christina.dorn0@googlemail.com.

Vielen Dank für eure Mitarbeit und Aufmerksamkeit!