Statistische Fehler vermeiden€¦ · p-Werte •...

41
Statistische Fehler vermeiden Stefan Heyder 13. & 14. Februar 2020 TU Ilmenau 0

Transcript of Statistische Fehler vermeiden€¦ · p-Werte •...

Page 1: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Statistische Fehler vermeiden

Stefan Heyder13. & 14. Februar 2020

TU Ilmenau

0

Page 2: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Werte

Page 3: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Werte

P(a < X < b)P(a < X < b)

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

Page 4: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Werte

Population

Sample

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

Page 5: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Werte

●●

●●

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

Page 6: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Werte

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

●●

●●

●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●●

Figure 1: Wahrscheinlichkeitsfunktion von Binom (n = 100,p = 50%)

1

Page 7: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Werte

• p-Wert ist die Wahrscheinlichkeit unter der Nullhypothese einenmindestens so “extremen” Wert wie die Beobachtung zu beobachten

• Hypothese wird genau dann zum Level α verworfen, wenn p-Wertkleiner als α ist

• Schwierig zu interpretieren, da α ja vor dem Testen festgelegt wurde• Unter der Nullhypothese ist der p-Wert auf [0, 1] gleicheverteilt

2

Page 8: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p < 0.05, also besteht nur eine 5%ige Chance, dass meine Hypothesefalsch ist

Die Hypothese ist entweder wahr oder falsch; obige Aussage ist unsinnig

3

Page 9: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p < 0.05, also besteht nur eine 5%ige Chance, dass meine Hypothesefalsch ist

Die Hypothese ist entweder wahr oder falsch; obige Aussage ist unsinnig

3

Page 10: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p < 0.05, also liegt ein praktisch relevanter Effekt vor

Der p-Wert alleine liefert keine Aussage über die Effektgröße⇝Konfidenzintervalle

4

Page 11: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p < 0.05, also liegt ein praktisch relevanter Effekt vor

Der p-Wert alleine liefert keine Aussage über die Effektgröße⇝Konfidenzintervalle

4

Page 12: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p ≥ 0.05 also unterscheiden sich die beiden Behandlungen / Gruppennicht

Könnten auch Symptome einer kleinen Stichprobengröße / eines kleinesE ktes sein

5

Page 13: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p ≥ 0.05 also unterscheiden sich die beiden Behandlungen / Gruppennicht

Könnten auch Symptome einer kleinen Stichprobengröße / eines kleinesE ktes sein

5

Page 14: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p = 0.05 heißt, dass man Daten beobachtet hat, die unter derNullhypothese nur in 5% der Fälle auftritt

Die Wahrscheinlichkeit, solche oder extremere Daten unter derNullhypothese zu beobachten ist 5%

6

Page 15: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

p = 0.05 heißt, dass man Daten beobachtet hat, die unter derNullhypothese nur in 5% der Fälle auftritt

Die Wahrscheinlichkeit, solche oder extremere Daten unter derNullhypothese zu beobachten ist 5%

6

Page 16: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

Zu einem Datensatz gibt es nur einen p-Wert

Der p-Wert hängt von Wahrscheinlichkeitsverteilung der Nullhypothese ab!

7

Page 17: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Fehlinterpretationen

Zu einem Datensatz gibt es nur einen p-Wert

Der p-Wert hängt von Wahrscheinlichkeitsverteilung der Nullhypothese ab!

7

Page 18: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Multiples Testen

Page 19: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Multiples Testen

• Testen RRG und Schwarz-Grün gleichzeitig auf Regierungsfähigkeit• Problem: Pro Test nur α = 5% Fehlerwahrscheinlichkeit vorhanden!• P (Test RRG verwirft fälschlicherweise) +P (Test Schwarz-Grün verwirft fälschlicherweise) ≤ 10% > 5%

8

Page 20: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Hacking

Figure 2: XKCD1

1Randall Munroe. Significant. URL: https://xkcd.com/882/ (visited on 02/12/2020).

Page 21: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Hacking

Figure 2: XKCD1

1Munroe, Significant.

Page 22: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Hacking

Figure 2: XKCD1

1Munroe, Significant.

Page 23: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

p-Hacking

Figure 2: XKCD1

1Munroe, Significant.

Page 24: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Multiples Testen: Das Problem

• Oft möchte man mehrere Hypothesen testen oderKonfidenzinvtervalle für mehrere Parameter (simultan) angeben

• Bei k Tests zum Niveau α stößt man (unter der Nullhypothese) auffolgendes Problem:

P (mindestens ein Test verwirft) ≤k∑i=1

P (Der i-te Test verwirft) ≤ k · α

• Durch multiple Tests verändert sich das Signifikanzniveau (analog fürKonfidenzbereiche)

10

Page 25: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Multiples Testen: Lösung

• Bonferroni Korrektur des Signifikanzniveaus. Bei k Tests müssen dieeinzelnen Tests zu α

k angesetzt werden• Von vorneherein festlegen, welche Hypothesen getestet werdensollen⇝ Studienprotokoll!

• Alternativ p-Wert für jeden Test mit k multiplizieren• Weniger Tests rechnen: Oft interessiert man sich für die Differenzenzwischen zwei Gruppen statt für die Lage der beiden Gruppen

11

Page 26: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Power

Page 27: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Was ist die Power einer Studie?

• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”

●●

● ●

● ●

●●

●●

●●

●●

●●

●●

●●

10

20

30

OJ VCsupp

len

Figure 3: Dichte Binomialverteilung p = 0.5

12

Page 28: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Was ist die Power einer Studie?

• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”

●●

●●

●●

●●

●●

●●

●●

●●

●●

●●

10

20

30

0.5 1 2dose

len

Figure 3: Dichte Binomialverteilung p = 0.5 (schwarz), p = 0.6 (rot)

12

Page 29: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Was ist die Power einer Studie?

• Münzwurf mit einer (potentiell) unfairen Münze, P(“Kopf”) = p; wirbeobachten n = 100 Würfe und zählen das Vorkommen von “Kopf”

●●

●●

Figure 3: Dichte Binomialverteilung p = 0.5 (schwarz), p = 0.7 (rot)

• je größer die Differenz, desto größer die Wahrscheinlichkeit dieunfaire Münze zu erkennen

12

Page 30: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

13

Page 31: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

●●●

●●●

●●

●●●

●●

●●

●●

●●

●●

● ●

●●

●●

●●

10

20

30

0.5 1.0 1.5 2.0dose

len

13

Page 32: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

10

20

30

0.5 1.0 1.5 2.0dose

len

13

Page 33: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Power

• Die Power eines Tests ist die Wahrscheinlichkeit einen vorgebenenEffekt tatsächlich zu finden

• Entspricht der Wahrscheinlichkeit, keinen Fehler zweiter Art zubegehen; hängt vom Signifikanzniveau α und der Effektgröße ab

10

20

30

0.5 1.0 1.5 2.0dose

len

13

Page 34: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Probleme mit zu geringer Power

• Zu geringe Power führt dazu, dass man nur sehr große Effektenachweisen kann

• Im schlimmsten Fall ist Studie nutzlos, um trotzdem signifikanteEffekte zu finden wird dann Data Dredging / p-Hacking verwendet

• Truth inflation: bei vielen Studien mit geringer Power werden nurdiejenigen mit besonders großen Effekten signifikant (und damitpublizierbar)⇝ Verzerrung des tatsächlichen Effekts nach oben

• Konfidenzintervalle angeben!

14

Page 35: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Power calculation

• Lösung: Vor der Datenerhebung die erforderliche Stichprobengrößebestimmen (engl. power analysis) und bereits vorher diedurchzuführenden Tests festlegenFür den Einstichproben t-Test kann man bei Kenntnis von 4 derfolgenden Parameter den fünften bestimmen:

• Stichprobengröße n• Signifikanzniveau α

• Power β• Streuung σ• Effektgröße µ

15

Page 36: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Assurance

• Stichprobengröße durch Kontrolle verschiedener Parameter der Längeder Konfidenzintervalle (engl. assurance)

• Zu Signifikanzniveau α und Länge L eines Konfidenzintervallsbestimme n so, dass

P(L ≤ ∆) ≤ β

oder

EL ≤ ∆.

• Bietet Möglichkeit direkt die Genauigkeit der Auswertung(=̂ Länge desKonfidenzintervalls) zu kontrollieren

16

Page 37: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Pseudo-Replikation

Page 38: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Das Problem

• Replikation (=̂ größere Stichprobe) führt zu besseren Schätzungen• Aber sind Daten auch unabhängig entstanden? Oder korrelieren sie?• Beispiel: Studie zu Blutdruckmedikament: 1000 Probanden mit jeeiner Messung vs. 10 Probanden mit je 100 Messungen. WelchesExperiment ist aussagekräftiger?

• Kann auch subtiler sein2:• Untersuchung inwiefern sich verschiedene Dialekte von Vogelgesängensich auf Vögel auswirkt

• Oft werden viele Vögel beobachtet⇝ anscheinend große Stichprobe

• Probleme treten auf, wenn aus jedem “Dialekt” nur eine Aufnahmeexistiert⇝ Studie kann nur Rückschlüsse über diese Aufnahme liefern

2Donald E. Kroodsma et al.Pseudoreplication in playback experiments, revisited a decade later. Academic Press,2001.

17

Page 39: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Das Problem

• Replikation (=̂ größere Stichprobe) führt zu besseren Schätzungen• Aber sind Daten auch unabhängig entstanden? Oder korrelieren sie?• Beispiel: Studie zu Blutdruckmedikament: 1000 Probanden mit jeeiner Messung vs. 10 Probanden mit je 100 Messungen. WelchesExperiment ist aussagekräftiger?

• Kann auch subtiler sein2:• Untersuchung inwiefern sich verschiedene Dialekte von Vogelgesängensich auf Vögel auswirkt

• Oft werden viele Vögel beobachtet⇝ anscheinend große Stichprobe• Probleme treten auf, wenn aus jedem “Dialekt” nur eine Aufnahmeexistiert⇝ Studie kann nur Rückschlüsse über diese Aufnahme liefern

2Kroodsma et al., Pseudoreplication in playback experiments, revisited a decade later.

17

Page 40: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

Mögliche Lösungen

• Gutes Studiendesign kann Abhängigkeiten minimieren; z.B.gleichbleibende Rahmenbedingungen, Kalibrierungen etc.

• Die Abhängigkeiten direkt mit modellieren, z.B. Hierarchische Modelle,Messwiederholungsmodelle etc.

• Abhängige Datenpunkte zusammenfassen (z.B. mitteln), aberaufpassen, dass dort Unsicherheit mit berücksichtigt wird

• Datenpunkte einzeln analysieren; multiples Testen berücksichtigen

18

Page 41: Statistische Fehler vermeiden€¦ · p-Werte • p-WertistdieWahrscheinlichkeitunterderNullhypotheseeinen mindestensso“extremen”WertwiedieBeobachtungzubeobachten • HypothesewirdgenaudannzumLevelα

References

Kroodsma, Donald E. et al.Pseudoreplication in playback experiments, revisited a decade later.Academic Press, 2001.

Munroe, Randall. Significant. URL: https://xkcd.com/882/ (visited on02/12/2020).

19