Biometrische Planung von Versuchsvorhaben · Einleitung Determinanten von Signifikanztests...

32
Einleitung Determinanten von Signifikanztests Poweranalyse Biometrische Planung von Versuchsvorhaben Einf¨ uhrung in das Prinzip der Poweranalyse Johannes Hain Lehrstuhl f¨ ur Mathematik VIII – Statistik http://statistik.mathematik.uni-wuerzburg.de/ ~ hain Johannes Hain Biometrische Planung und Poweranalyse

Transcript of Biometrische Planung von Versuchsvorhaben · Einleitung Determinanten von Signifikanztests...

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Biometrische Planung von Versuchsvorhaben

Einfuhrung in das Prinzip der Poweranalyse

Johannes Hain

Lehrstuhl fur Mathematik VIII – Statistik

http://statistik.mathematik.uni-wuerzburg.de/~hain

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Ziel des Vortrags

Im nachfolgenden Vortrag sollen

die Bedeutung der Poweranalyse im Kontext vonSignifikanztests motiviert und

die Grundprinzipien dieser Vorgehensweise dargestellt werden.

Die Poweranalyse stellt ein praktisches Werkzeug dar fur denUmgang mit den folgenden biometrischen Parametern aus denTierversuchsantragen:

Wahrscheinlichkeit fur den Fehler 1. Art

Wahrscheinlichkeit fur den Fehler 2. Art

Biologisch relevante Differenz

Annahmen zu Variabilitat der Hauptzielgroßen

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Sinn von Signifikanztests

Ziel von Signifikanztests

Bei der Durchfuhrung von Studien und Untersuchungen soll nichtnur eine Aussage uber die erhobene Stichprobe getroffen werden,sondern naturlich eine allgemeine Aussage uber die zugrundeliegende Gesamtpopulation – und das mit hoher Sicherheit.

Prinzip:

→ Stelle eine (Null-)Hypothese H0 auf, deren Wahrheitsgehaltdann mit einem Testverfahren auf Basis der Stichprobeuberpruft werden soll.

→ Uber die Gultigkeit von H0 entscheidet man dann mit demp-Wert, der die Wahrscheinlichkeit fur das Auftreten derbeobachteten Daten unter der Annahme der Gultigkeit von H0

darstellt. Ist der p-Wert kleiner als 0.05, wird H0 verworfen.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Fehler bei der Testentscheidung

Bei einer Entscheidung basierend auf einem Signifikanztest hatman niemals absolute Sicherheit – egal wie man sich entscheidet esbesteht also immer die Gefahr eine Fehlentscheidung zu treffen:

H0 ist wahr H0 ist nicht wahr

Entscheidung fur H0 kein Fehler Fehler 2. Art

Entscheidung fur H1 Fehler 1. Art kein Fehler

Bei einem Signifikanztest kann man leider immer nur einenFehler kontrollieren, namlich den Fehler 1 Art.

Der Fehler 2. Art hingegen kann unter Umstanden relativ großwerden.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Der Fehler 1. Art

Definition Fehler 1. Art

Der Fehler 1. Art ist das irrtumlich Verwerfen der Nullhypothese.Die Wahrscheinlichkeit α fur den Fehler 1. Art kann mit denSignifikanztests kontrolliert werden und soll moglichst gering sein.

→ Weil man die Wahrscheinlichkeit fur den Fehler 1. Art gutkontrollieren kann, wird H0 so formuliert, dass dieser Fehlerder

”schlimmere“ der beiden moglichen Fehler ist.

→ α wird im Regelfall stets auf 0.05 gesetzt. Ausnahmen sindhier sehr selten.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Der Fehler 1. ArtGrafische Veranschaulichung

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Der Fehler 1. Art beim zweiseitigen Test

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Der Fehler 1. ArtGrafische Veranschaulichung

−4 −2 0 2 4

0.0

0.1

0.2

0.3

0.4

Der Fehler 1. Art beim einseitigen Test

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Fehler 2. Art und Power eines Tests

Definition Fehler 2. Art und Power

Der Fehler 2. Art ist das irrtumliche Beibehalten derNullhypothese. Die Wahrscheinlichkeit fur diesen Fehler soll mit βbezeichnet werden. Die Power eines Tests ist dieGegenwahrscheinlichkeit 1− β, d.h. die Wahrscheinlichkeit dafur,dass der Test tatsachlich vorhandene Unterschiede auch wirklicherkennt.

H0 ist wahr H0 ist nicht wahr

Entscheidung fur H0 1-α β

Entscheidung fur H1 α 1-β

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Fehler 2. Art und Power eines TestsGrafische Veranschaulichung

������������ �� �� � � � � � �

���� � � �������αβ

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Korrekte Interpretation des Testergebnisses

Ein Signifikanztest gestattet nur eine der beiden folgendenEntscheidungen:

Ablehung von H0 = Annahme von H1

oder

Nicht-Ablehnung von H0 6= Annahme von H0

Dies bedeutet also:

⇒ Die Nicht-Ablehnung von H0 darf keinesfalls als ein Nachweisder statistischen Richtigkeit der Nullhypothesefehlinterpertiert werden.

⇒ Streng genommen bedeutet eine Nicht-Ablehnung von H0 alsoeine Stimmenthaltung, d.h. das Stichprobenergebnis ist mit

der Nullhypothese vereinbar.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Was tun bei nichtsignifikanten Ergebnissen?

In der wissenschaftlichen Praxis stoßt man bei der Verwendunginferenzstatistischer Verfahren oft auf das Problem, dass bei einemdurchgefuhrten Test H0 nicht verworfen werden kann.

→ Dieses Ergebnis bedeutet aber nicht, dass H0 gultig ist.

→ Gibt es hier nun tatsachlich keinen Unterschied oder wurdehier nur kein Unterschied erkannt?

Es muss in einem solchen Fall eine Moglichkeit geben, dieNullhypothese nicht nur nicht abzulehnen sondern mit einergewissen Wahrscheinlichkeit auch annehmen zu konnen.

⇒ Die Losung fur dieses Problem ist die Poweranalyse.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Die Effektgroße als weitere Determinante

Neben den beiden Wahrscheinlichkeiten fur den Fehler 1. und 2.Art spielt bei der Poweranalyse eine weitere Große eineentscheidende Rolle: die Effektgroße

Definition Effektgroße

Die Effektgroße beurteilt die Frage der”praktischen

Bedeutsamkeit“ von vorliegenden Unterschieden zwischen zweioder mehreren Untersuchungseinheiten

→ Wie deutlich mussen sich zwei Gruppen in einer untersuchtenVariable unterscheiden, dass dieser Unterschied fachlichrelevant ist?

→ Die Effektstarke hangt vom Abstand der Gruppenmittelwerteund von der Varianz der beiden Gruppen ab.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Die Effektgroße als weitere DeterminanteBeispiel mit dem t-Test

Fur die drei verschiedenen t-Tests berechnet sich die Effektstakewie folgt:

d =|X1 − X2|

S,

wobei S =

n1S21+n2S

22

n1+n2.

Beispiel

n1 = 21 X1 = 4.3 S1 = 1.9n2 = 21 X2 = 4.7 S2 = 2.4

Dann gilt: d = 0.18.

n1 = 27 X1 = 6.7 S1 = 3.4n2 = 34 X2 = 9.8 S2 = 3.9

Dann gilt: d = 0.84.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Die Effektgroße als weitere DeterminanteEffektstarkekonventionen

Zur Beurteilung der Effektstarke d gibt es die bekanntenEffektstarkekonventionen nach Cohen (1988), mit deren Hilfeman den Wert von d leichter einschatzen kann:

d ≥ 0.2 kleiner Effektd ≥ 0.5 mittlerer Effektd ≥ 0.8 großer Effekt

→ Zur Beurteilung, welcher Effekt fur die eigene Studie relevantist, bedarf es ein wenig an Erfahrung im Umgang mit diesemGroßen.

→ Empfehlung:Berechnen einiger Effektstarken aus vergangenen Versuchenmit ahnlichem Aufbau um ein besseres Gefuhl fur den Effektzu bekommen.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Poweranalysen

Poweranalysen sind in der Praxis immernoch sehr selten

⇒ Bedenkliche Konsequenzen fur die Publikationspraxis:veroffentlich werden nur signifikante Befunde – Studien indenen H0 nicht verworfen werden kann, bleiben

”in der

Schreibtischschublade liegen“.

Nichtsignifikanten Testergebnisse sollten aber stets mitTeststarkeanalysen einhergehen.

Zur Verdeutlichung noch ein Zitat von Greenwood (1993):

”Power calculations are as important as significance calculations“

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Poweranalyse – zwei Ausgangssituationen

Es existieren mehrere Arten von Poweranalysen. Zwei davon sollenim Folgenden besprochen werden:

1 Posthoc-Poweranalyse:In diesem Fall befindet man sich bereits nach demdurchgefuhrten Testverfahren. Es liegt ein nichtsignifikantesErgebnis vor. Gesucht ist hier die Wahrscheinlichkeit, dasstatsachlich keine (bedeutsamen) Unterschiede vorliegen.

2 A priori-Poweranalyse:Dies ist der Idealfall: man befindet sich noch vor derDatenerhebung in der Versuchsplanung. Gesucht ist deroptimale Stichprobenumfang um vorher festgelegete Effektemit einer bestimmten Sicherheit auch zu entdecken.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Posthoc-PoweranalyeVorliegen eines nichtsignifikanten Ergebnisses

Liegt ein nichtsignifikantes Ergebnis vor, kann nicht geschlossenwerden, dass es keine Unterschiede (= keinen Effekt) zwischen denGruppen gibt.

→ Ist die Power gering und β somit hoch, besteht die Gefahr,einen tatsachlich existierenden Effekt zu

”ubersehen“.

⇒ Losung: Berechnung der Power 1− β und Beantwortung derFrage:

Wie hoch war die Wahrscheinlichkeit den beobachteten Effekt

d bei gegebenem Signifikanzniveau α und Stichprobenumfang

n uberhaupt zu entdecken?

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Posthoc-PoweranalyeBezug auf den Tierversuchsantrag

Gegeben sind also:

Fehlerwahrscheinlichkeit 1. Art α: 0.05

Stichprobenumfang n

Effektstarke d :Berechnung von d mit einer FormelBiologisch relvante Differenz und Variabilitat derHauptzielgroßen konnen hier direkt aus den Daten entnommenwerden.Alternative: theoretischer Wert fur d (z.B. 0.5 fur mittlereEffekte)

⇒ Mit diesen Großen kann man nun die Wahrscheinlichkeit furden Fehler 2. Art β bestimmen (z.B. mit dem ProgrammG*Power).

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Posthoc-PoweranalyeBeispielrechnung mit G*Power

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Posthoc-PoweranalyeBeispielrechnung mit G*Power

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Posthoc-PoweranalyeInterpretation von β

Hat man auf Basis der Stichproben den Wert von β bestimmtsteht man vor zwei Alternativen:

(i) Ist β klein (z.B. β < 0.2):Nehme H0 mit einer Fehlerwahrscheinlichkeit von β an.

(ii) Ist β groß:Hier ist leider erneut keine Testentscheidung moglich.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Posthoc-PoweranalyeVorliegen eines signifikanten Ergebnisses

Liegt ein signifikantes Ergebnis vor, entscheidet man sich fur H1

mit der Fehlerwahrscheinlichkeit von α.

Eine Poweranalyse ist in diesem Fall nicht ublich, weil man H0 javerwerfen konnte und somit eine eindeutige Interpretation desTestergebnisses moglich ist (vor allem wenn n

”groß“ ist).

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

A priori-Poweranalyse

Problematik der Signifikanztests

Genau genommen gilt H0 niemals!Wahlt man namlich den Stichprobenumfang n nur groß genug,kann jede beliebige Nullhypothese verworfen werden.

⇒ Losung: Bestimmung eines optimalen Stichprobenumfangsnopt um vorher festgelegte Effekte mit einer gewissenWahrscheinlichkeit auch zu entdecken. Beantwortung derFrage:

Wie hoch muss der Stichprobenumfang mindestens sein, dass

bei gegebenem Signifikanzniveau α eine gegebene Effektstarke

d mit einer Wahrscheinlichkeit von 1− β auch erkannt wird?

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

A priori-PoweranalyeBezug auf den Tierversuchsantrag

Gegeben sind also:

Fehlerwahrscheinlichkeit 1. Art α: 0.05

Fehlerwahrscheinlichkeit 2. Art β: 0.2 (machmal auch 0.05)Effektstarke d :

Berechnung von d mit einer FormelBiologisch relvante Differenz und Variabilitat derHauptzielgroßen konnen hier entweder aus Daten einerPilotstudie oder aus einer vergleichbaren Studie entnommenwerden.Alternative: liegen uberhaupt keine Daten vor, kann dieBestimmung von d auch mit Erfahrungen und Vermutungenbegrundet werden.

⇒ Mit diesen Großen kann man nun den optimalenStichprobenumfang nopt bestimmen (z.B. mit G*Power).

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

A priori-PoweranalyeBeispielrechnung mit G*Power

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

A priori-PoweranalyeBeispielrechnung mit G*Power

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

A priori-PoweranalyeEindeutige Interpretation des Testergebnisses

Der wesentliche Vorteil der a priori-Poweranalyse wird nun deutlich:Hat man nopt vorher bestimmt und fuhrt nun die Datenerhebungund -auswertung durch, kann das erhaltene Ergebnis immereindeutig interpretiert werden:

(i) Es liegt ein signifikantes Testresultat vor:Die Alternativhypothese H1 gilt mit einerFehlerwahrscheinlichkeit von hochstens α.

(ii) Es liegt ein nichtsignifikantes Testresultat vor:Die Nullyhpothese H0 gilt mit einer Fehlerwahrscheinlichkeitvon hochstens β.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Nichtparametrische Poweranalyse

Die oben geschilderten Poweranalysen wurden nur furparametrische Testverfahren entwickelt. Beispiele fur dieseTestverfahren sind t-Test, Varianzanalyse, Korrelationsanalyse,usw..

→ Fur parametrische Tests kann die Power relativ leichterrechnet werden, oder man kann sie sich mit Programmenberechnen lassen (z.B. G*Power).

→ Fur nichtparametrische Testverfahren (z.B. Wilcoxon-Test,Kruskal-Wallis-Test, usw.) ist dies nicht so leicht moglich.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Nichtparametrische PoweranalyseLosung mit Monte-Carlo-Simulationen

Die Losung dieses Problems besteht in der Durchfuhrung vonumfangreichen und rechenintensiven(Monte-Carlo-)Simulationen:

Nichtparametrische Poweranalyse mittels Simulationen

Auf Basis der Daten einer Pilotstudie oder einer vergleichbarenStudie simuliert man eine große Anzahl von weiteren Stichproben(z.B. 10.000 weitere Stichproben).

Fur jede dieser Stichproben wird dann das entsprechendeTestverfahren durchgefuhrt. Auf diese Weise enthalt man empirischeinen sehr genauen Schatzer fur die Power.

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Nichtparametrische PoweranalyseLosung mit Monte-Carlo-Simulationen

Mit Monte-Carlo-Simulationen kann sowohl die Power alsauch der optimalen Stichprobenumfang bestimmt werden.

Die Durchfuhrung der Simulation ist zeit- undrechenaufwendig und nicht mit jeder Statistik-Software zuempfehlen.

Die Programme und Kapazitaten stehen aber am Lehrstuhlfur Statistik bereit!

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Vielen Dank fur IhreAufmerksamkeit!

Johannes Hain Biometrische Planung und Poweranalyse

EinleitungDeterminanten von Signifikanztests

Poweranalyse

Posthoc-PoweranalyseA priori-PoweranalyseNichtparametrische Poweranalyse

Literaturubersicht

Cohen, J. (1988). Statistical Power Analysis for the behavioral

Sciences. Acad. Press, New York.

Greenwood, J.J.D. (1993). Statistical Power. Animal Behaviour 46,1011, 1993.

Johannes Hain Biometrische Planung und Poweranalyse