Stefan Hanenberg (University of Duisburg-Essen)laemmel/esecourse/slides/ctrlexp2.pdf · Grundlage...
Transcript of Stefan Hanenberg (University of Duisburg-Essen)laemmel/esecourse/slides/ctrlexp2.pdf · Grundlage...
Intuitive Einführung (1) – siehe vorherige Vorlesung
● Beispiel und Diskussion● Ich glaube, dass die Programmiersprache Java besser
als Smalltalk für die Durchführung von Softwareprojekten geeignet ist.
Wie kann ich den Nachweis erbringen?
Intuitive Einführung (2) – siehe vorherige Vorlesung
● ....
● Zweite Idee● Ich lasse von 4 Stundenten “HelloWorld” schreiben, 2 Stundenten
in Java, 2 Stundenten in Smalltalk. Dann vergleiche ich, welche der beiden Gruppen schneller war.
● Wie vergleiche ich? ● Arithmetische Mittel? Mediane? ● Muss ich “Ausreißer” beachten? Sind 4 Probanden ausreichend?● ....
Intuitive Einführung (3) – stats4runaways...
● Grundsätzliches Vorgehen bei der Auswertung
● Anwendung von Inferenzstatistik, d.h. Durchführung eines Signifikanztests
● Berechnung eines p-Werts (Wahrscheinlichkeit eines alpha-Fehlers)
● Wenn p-Wert < 0.05, dann „wurde etwas gefunden“, ansonsten kein Unterschied gefunden
Intuitive Einführung (3) – stats4runaways...
● Beispiel: Java/Smalltalk Entwicklungszeit
● Proband/Sprache/Zeit:
– Stefan/Smalltalk/2h, Michael/Java/1h, Thorsten/Java/4h, Manuel/Smalltalk/8h, Rainer/Smalltalk/6h, Klaus/Java/1h
● „Es sieht so aus, als ob Smalltalk-Programmierer länger brauchen“● Durchführung eines Signifikanztests
(hier Mann-Whitney-U-Test)
– Ergebnis: p=0.2
– Kein Unterschied zwischen Java und Smalltalk gefunden (obwohl Mediane unter arithmetische Mittel unterschiedlich!)
Java
Smalltalk0 1 8
Ziele
● Erlernen von ● Validen Methoden, um Experimente
auszuwerten– Welche Tests gibt es?– Wann werden diese angewendet? (für
welchen Experimentaufbau)● Grenzen dieser Methoden
– Welche Annahmen haben die Tests?
Agenda
● Messdaten und Skalen
● Deskriptive Statistik
● Inferenzstatistik
● Verteilungen
● Signifikanztests
– Mittelwertvergleiche● Wilcoxon, Mann-Whitney-U-Test, t-Test
– Multiple Vergleiche● Korrekturen● Varianzanalyse
● Abbildung von Signifiganztests auf Versuchsaufbauen
● Werkzeugunterstützung
● SPSS & R
Messdaten und Skalen (1)
● Messdaten haben eine unterschiedliche Natur
● Skalen
● NominalskalaWerte folgen keiner Ordnung, aber man kann Werte unterscheiden, Bsp: weiblich, männlich
● OrdinalskalaWerte sind geordnete, aber man kann den Abstand der Werte nicht Bewerten („sehr gut“ ist nicht „doppelt so viel wie gut“), Bsp.: sehr schlecht, schlecht, gut, sehr gut
● Intervallskala: Werte sind geordnet, Unterschiede können beziffert werden, eber es gibt “keinen Nullpunkt“, Bsp.: 10° C, 15° C, 66° C,
● VerhältnisskalaMessdaten sind “vollständig vergleichbar“, d.h. 10*Datum = 2*5*Datum, etc.
Messdaten und Skalen (2)
● Für unterschiedliche Skalen müssen unterschiedliche Verfahren eingesetzt werden● Z.B. gibt es „keinen Durchschnitt von weiblich und
männlich“
Deskriptive Statistiken - Lagemaße
● Lagemaße geben ersten Anhaltspunkt, wo sich „die meisten Messpunkte“ befinden
Deskriptive Statistiken - Lagemaße
● Arithmethisches Mittel● Anfällig gegen Ausreißer
● Median● „Stabiler“ gegen Ausreißer● Anfällig gegen „Knubbel“
● Gestutztes Mittel● Entfernen der oberen/unteren 10%
dann Mittelwert
Deskriptive Statistiken - Lagemaße
● Quantile● Unterteilung der Messwerte in Abschnitte des
gleichen Umfangs
● Beispiel:● Messreihe: 5, 10, 99, 150, 1000● Arithmetisches Mittel: x=252,2● Median: 99● Erstes Quintil = 7,5
Deskriptive Statistiken - Streuungsmaße
● Streuungsmaße geben an, wie weit die Messwerte verteilt sind
Deskriptive Statistiken - Streuungsmaße
● Spannweite● Differenz aus max und min
● Varianz● Durchschnittliche, quadratische
Abweichung von Mittelwert● Summe der Quadrate wird auch als
Quadratsumme (QS) bezeichnet
● Standardabweichung (=Streuung)● Wurzel der Varianz
Deskriptive Statistiken – Weitere Kennzahlen
● Schiefe (...selbstsprechend...)● Exzeß (Breite des Gipfels)
Datenvisualisierung (1)
● Histogramme● Beschreiben die Anzahl der Daten, die sich in
einem Bereich befinden (Näherung an Verteilung)
● Boxplots● Beschreiben, wie sich Daten um Median herum
verteilen
● Punktstreudiagramms● ....
Datenvisualisierung
● Zweck● Eindruck von der Beschaffenheit der Daten
vermitteln● Vergleich der Daten mit „bekannten Formen“ von
Daten (Verteilungen)● Identifizierung von Ausreißern und
Unregelmässigkeiten
Datenvisualisierung - Histogramm
● Beschreiben die Anzahl der Daten, die sich in einem Bereich befinden (Näherung an Verteilung)
● Daten werden in n Bereiche gegliedert (x-Achse), Vertikale beschreibt relative Häufigkeit der Daten in diesem Bereich
● Beispiel ● 1, 1, 2, 5, 6, 7, 8, 10, 15, 100● Zahlen „knubbeln“ sich am Anfang,
hinten ein Ausreißer
Datenvisualisierung - Histogramm
● Histogramme werden genutzt, um zu prüfen, ob Messdaten normalverteilt sind („Glockenkurve“)
● Hier: leicht linksschiefe Verteilung, „annähernd normalverteilt“
Datenvisualisierung - Boxplot
● Beschreiben, wie sich Daten um Median herum verteilen
● Beispiel● 1, 1, 2, 5, 6, 7, 8, 10, 15, 100● 100 ist ein Ausreißer● die meisten Werte zwischen
0 und 10● Max-Wert (ohne Ausreißer) bei 15
Datenvisualisierung – Punkt/Streu Diagramm
● Visualisierung von 2-Dimensionalen Daten● Vermittelt ersten Eindruck Korrelation zwischen
Daten● Beispiel
● (1/15), (2/18), (4/23), (8/40)● Punkt/Streu-Diagram
legt Korrelation (wennauch nicht sehr starke) nah
Normalverteilung
● Für eine Reihe von statistischen Tests ist es notwendig zu wissen, ob Daten (oder Differenzen, etc.) normalverteilt sind
● Festellung auf Normalverteilung
1. Anschauen der Histogramme, ob Normalverteilung „plausibel“
2. Durchführung von Signifikanztests auf Normalverteilung (später)
Signifikanztests – AB Experimente
● Vergleich von Mittelwerten (bzw. zentrale Tendenz)
● Anwendung: AB-Experiment● Unterscheidung
● Normalverteilt (t-Test)● Nicht-normalverteilt (Mann-Whitney-U-Test /
Wilcoxon-Test)● Between-subject (ungepaarte Vergleiche)● Within-subject (gepaarte Vergleiche)
Grundlage Signifikanztests
● Signifikanztests
● Überprüfen der Nullhypothese H0 (Mittelwert 1=Mittelwert 2),
bzw. Annahme der Alternativhypothese H1
● Problem
– H0 kann richtig sein, aber durch statistischen Test
fällt Aussage für H1 => alpha-Fehler (Fehler 1. Art)
– H1 kann richtig sein, aber durch statistischen Test
fällt Aussage für H0 => beta-Fehler (Fehler 2. Art)
Grundlage Signifikanztests
● Beispiel● Ziehen einer Kugel aus Urne, in der rote und blaue
Kugeln sind
● H0: Es sind gleich viele rote wie blaue in der Urne
● Test ergibt Ablehnung von H0 => alpha-Fehler
[Wikipedia]
Grundlage Signifikanztests
http://elearning.tu-dresden.de/versuchsplanung/e35/e2861/e2862/
Grundlage Signifikanztests● Signifikanztests ergeben p-Wert, der die Größe des alpha-Fehlers
bestimmt bei Hypothese H0, dass es keinen Unterschied gibt.
● Alpha-Level (auch Signifikanzniveau) gibt an, mit welchem alpha-Fehler „man Leben kann“, z.B. alpha = 0.05 besagt, dass eine 5% Wahrscheinlichkeit des alpha-Fehlers toleriert wird
● Alpha-Grenze ist willkürlich gewählt und domänenabhängig● Medizin: alpha = 0.01
● Psychology: alpha = 0.05
● Physik: alpha = 0.00000.....1
● Softwaretechnik: meist 0.05 (...aber keiner weiss, warum...)
Prüfen auf Normalverteilung
● Problem● Einige Signifikanztests erwarten normalverteilte
Daten
● Lösung
1. Plausibilität durch Histogramme
2. Durchführen eines Signifikanztests – Kolmogorow-Smirnow-Test– Shapiro-Wilk-Test (für kleine Stichproben)
Prüfen auf Normalverteilung: SPSS-Beispiel 1
p > 0.05, Abweichung von Normalverteilung nicht-signifikant => Normalverteilung darf angenommen werden (!)
Prüfen auf Normalverteilung: SPSS-Beispiel 2
p < 0.05, Abweichung von Normalverteilung nicht-signifikant => Normalverteilung darf nicht angenommen werden (!)
Konfidenzintervalle
● Konfidenzintervalle geben an, dass der erwartete Wert mit einer gegebenen Wahrscheinlichkeit innerhalb eines Intervalls liegt (in Abbildung zwischen x
u und x
o)
Konfidenzintervalle
● Konfidenzintervalle geben somit an, wie stark die Streuung um den Mittelwert ist
T-Test (unabhängige Stichproben)
● Annahme
- Normalverteilte Daten (beide Datenreihen)
- Unabhängig erhobene Daten
- Varianzhomogenität (Gleichheit der Varianzen beider Reihen)● Hypothese
Erwartungswert beider Datenreihen ist gleich● Berechnung (nach Bortz, Schuster, Statistik für Human- und Sozialwissenschaftler, 2007)
1. Standardfehler der Differenzen
2. Zielgröße (mit n1+n2-2 Freiheitsgraden)
t-Test in SPSS
● SPSS führt automatisch Levene-Test für Varianzhomogenität durch
● Wenn Levene-Test signifikant, wird anderes Testverfahren verwendet, dass keine Varianzhomogenität unterstellt.
T-Test (abhängige Stichproben)
● Annahme
- Normalverteilte Differenzen
- Gepaart erhobene Daten● Hypothese
Erwartungswert beider Datenreihen ist gleich● Berechnung (nach Bortz, Schuster, Statistik für Human- und Sozialwissenschaftler, 2007)
1. Standardabweichung der Differenzen
2. Zielgröße (mit n-1 Freiheitsgraden)
Paired t-Test in SPSS
● Kein sign. Unterschied.....ABER.... Test hätte nicht durchgeführt werden dürfen (Differenzen nicht normalverteilt, da Shapiro-Wilk < 0.05)
STOP!!!
Vereinfachung von t-Test Annahmen
● T-Tests dürften unabhängig von Normalverteilungsannahme durchgeführt werden, wenn Anzahl der Daten pro Treatmentstufe > 30 liegt.
● Aber was, wenn Normalverteilung nicht vorliegt und Vereinfachung nicht gilt?
=> Nicht-parametrische Tests– Mann-Whitney-U-Test (between subject)
– Wilcoxon-Test (within-subject)
Mann-Whitney U-Test● Keine Annahme bzgl. Verteilung (zulässig für ordinale Daten)
● Verfahren: Ermittlung von Rängen ● Beispiel aus (Bortz, Schuster, Statistik für Human- und
Sozialwissenschaftler, 2007)
1. Zuordnung der einzelnen Werte zu einem Rang (über beide Gruppen hinweg)
2. Bestimmung der Rangsummen T1, T
2
3. Auszählen der Prüfgröße U (=Summe der Anzahl der größeren Ränge in anderen Gruppe), bzw. Berechnen des Wertes nach
4. Berechnung des Erwartungswertes, der Streuung und des z-Werts
Mann-Whitney U-Test - SPSS
● p-Wert = 0.314 => kein signifikanter Unterschied
● im Vergleich zum t-Test KEIN Konfidenzintervall
● Rangsummen zeigen Tendenz (aber nur dann anzumerken, wenn p-Wert signifikant)
Wilcoxon-Test
● Keine Annahme bzgl. Verteilung (zulässig für ordinale Daten)
● Verfahren: Ermittlung von Rängen bei gepaarten Daten (within-subject)
● Beispiel aus (Bortz, Schuster, Statistik für Human- und Sozialwissenschaftler, 2007)
1. Absolutwerte der Rangdifferenzen
2. Bestimmung der Rangsummen T = Rangsumme der Werte mit häufig vorkommenderem Vorzeichen und T' (weniger häufig vorkommen)
3. Vergleich des kritischen Wertes mit T
Wilcoxon-Test - SPSS
p-Wert = 0.00 => signifikanter Unterschied
20 positive Ränge => Var2 größer als Var1
Multiple Vergleiche (mehr als 2 Treatments)
● Problem● Wenn ich n Reihen miteinander vergleiche, dann
gibt es einen „kumulierten alpha-Fehler“
=> Jeder Einzelvergleich besitzt den alpha-Fehler, entsprechend ergibt die Menge der Vergleiche einen größeren alpha-Fehler
● Konservative Methode: Bonferroni-Korrektur● Reduktion: alpha' = alpha/n
Mehrfaktorielle Varianzanalysen(1)
(hier nicht mehr im Detail erläutert)
● Generelle Idee● Effekt auf abhängige Variable AV durch zwei
Faktoren A und B wird durch folgendes Modelle erklärt:
AV = A + B +A*B + err
● Dabei treten die Variablen A und B sowohl als Einzelbestandteile als auch als Kombination auf
Mehrfaktorielle Varianzanalysen (2)
● Fragestellung für Mehrfaktorielle ANOVA● Ist unabhängig Variable A signifikant?● Ist unabhängige Variable B signifikant?● Gibt es eine Interaktion zwischen beiden Variablen?
● Interaktion● Zwei variablen interagieren, wenn ich durch
verschiebung beider variablen einen unterschiedlichen Einfluß auf Zielgröße habe
Mehrfaktorielle ANOVA – SPSS (1)
● Frage (Mock): Wirkt sich Rauchen auf die Anzahl der Programmierfehler aus?
● 2 UV: Rauchen (J/N), Geschlecht(M/W)● AV: Programmierfehler● Mögliche Interaktion
● Es kann sein, dass sich Rauchen für die unterschiedlichen Geschlechter (signifikant) unterschiedlich auswirkt
Abbildung auf Versuchsaufbauten
● AB-Tests● Mittelwertvergleiche (Wilcoxon, U-Test, t-Test)
● AB/BA-Vergleiche● Unter Annahme eines counterbalance Effekts
– Mittelwertvergleiche (Wilcoxon, U-Test, t-Test)● Wenn kein counterbalance Effekt
– Varianzanalyse, Reihenfolge als Variable(!)
AB/BA-Vergleich
● Annahme: Programmiertechnik A und B (PT)● Messpunkt: Programmierzeit (T)● Zusätzliche Variable: Position (P)● Modell: T = Störvariable + PT + Pos + PT*Pos● Ziel:
● Nachweis der Signifikanz von PT● Keine signifikante Interaktion PT*Pos● Keine Signifikanz von Pos
(es existiert alternative Analyse, hier jedoch ignoriert)
AA/AB-Vergleich
● Annahme: Programmiertechnik A und B (PT)● Messpunkt: Programmierzeit (T)● Zusätzliche Variable: Position (P)● Modell: T = Störvariable + PT + Pos + PT*Pos● Ziel
● Nachweis der Interaktion!
Offene Punkte
● Überprüfung von Zusammenhangshypothesen (Korrelation, Regression, Repeated Measures ANOVA)
● Was passiert, wenn Messpunkte nicht objektiv quantifizierbar sind (Cohen's Kappa)?
● Wie lässt sich die Teststärke ermitteln (reicht mein Testverfahren, um Unterschied zu
●
● Nachvollziehen von konkretem Experiment...(was wollen wir tun)?