Baustein 5 - Statistik Vertiefung · o Likert-Skala: Ordinal- bzw. Intervallskalierung . Prof. Dr....

Prof. Dr. Georg Wydra Sportwissenschaftliches Institut der Universität des Saarlandes 1

Univ.-Prof. Dr. Georg Wydra Methoden der Physiotherapie II Methoden zur Auswertung von Untersuchungen 1 STATISTIK ..................................... 2

2 DESKRIPTIVE STATISTIK ................. 4

3 INFERENZSTATISTISCHE VERFAHREN33

4 VERFAHREN ZUR PRÜFUNG VON ZUSAMMENHÄNGEN 29

5 SIGNIFIKANZNIVEAU, ALPHA- UND BETA-FEHLER 70

6 EINFLUSSGRÖßEN AUF SIGNIFIKANZNIVEAU 81

7 GÜLTIGKEITSANSPRUCH DER UNTERSUCHUNGSBEFUNDE 107

LITERATUR ...................................... 131


1 Statistik Deskriptive Statistik: Beschreibung der beobachteten

Merkmalsausprägungen

Die Inferenzstatistik (lat. infero; hineintragen; folgern, schließen), auch induktive oder schließende Statistik ge-nannt, beschäftigt sich mit Prüfung von Hypothesen

o Unterschiede o Zusammenhänge


2 Deskriptive Statistik Häufigkeiten

Verteilungsformen

diskrete und stetige Variablen

Skalenniveau o Likert-Skala: Ordinal- bzw. Intervallskalierung


Häufigkeiten • Absolute Häufigkeiten • Relative Häufigkeiten • Kumulative Häufigkeiten • Relative kumulative Häufigkeiten • Jeweils von einer oder mehreren Gruppen


Häufigkeiten


Mittelwerte - Maße der zentralen Tendenz Die zentrale Tendenz ist ein statistisches Messverfahren zur Bestimmung eines einzelnen Wertes zur Repräsentation einer bestimmten Verteilung. Dabei soll der zu bestimmende Wert typisch oder repräsentativ für das vollständige Datenset sein“ (Pospeschill, 2005, S. 59).


Mittelwerte • Arithmetisches Mittel: Durchschnittswert einer Zahlreihe • Gewogenes Arithmetisches Mittel: Mittelwert aus mehre-

ren unterschiedlich großen Stichproben • Median: Wert, der eine Verteilung halbiert • Modalwert (Modus): Der häufigste Werte einer Verteilung


Mittelwerte

Bös, Hänsel & Schott, 2000


Streuungsmaße Die Variabilität ist ein statistisches Messverfahren zur Quanti-fizierung des Streuungsmaßes von Messwerten.


Streuungsmaße Range (Spannweite): Differenz aus dem größten und kleinsten Wert Standardabweichung: Die mittleren 68 % einer Verteilung Varianz: Standardabweichung zum Quadrat Variationskoeffizient: Die relative Standardabweichung, d. h. die Standardabweichung dividiert durch den Mittelwert Interquartilabstand: Die mittlere 50 % einer Verteilung Standardfehler: Standardabweichung dividiert durch die Wur-zel aus der Stichprobengröße n.


Streuungsmaße Durchschnittliche absolute Abweichung: basiert auf der Summe der absoluten Abweichungen jedes Variablenwertes vom »arithmetischen Mittel« über alle »Untersuchungseinhei-ten«. Die Summe der absoluten Abweichungen wird durch die Anzahl der Untersuchungseinheiten dividert, Konfidenzintervall (Präzision der Schätzung): Der Wertebe-reich, in dem man den interessierenden Parameter der Grund-gesamtheit mit einer bestimmten Wahrscheinlichkeit erwartet


Beispiel aus Statistica


Möglichkeiten der grafischen Darstellung


Modifikation einer WinStat-Abbildung Mittelwert und Standardabweichung der Variable Alter

40

45

50

55

60

65

70

Alte

r (M

onat

e)

± SD


Box & Whisker Plot

45

50

55

60

65

70

75

Alter (Monate)

Alte

r (M

onat

e)


Normalverteilung


Verteilungsformen

Pospeschill, 2006


Schiefe oder Symmetrie



Steilheit oder Exzeß


Die Wölbung bzw. Kurtosis der Dichtefunktion bzw. Wahrscheinlichkeits-funktion einer Zufallsvariablen X ist definiert als ihr auf die vierte Potenz der Standardabweichung σ normiertes viertes zentrales Moment μ4(X)


Einkommensverteilung (linkssteil)

http://www.zes.uni-bremen.de/GAZESse/201002/RU_Unterschiede_Pflege_West_Ost.html


Mortalitätsrate als Beispiel für linksschiefe, rechtssteile Verteilung


Mortalitätsstatistik (rechssteil) Mortalitätsstatistik - in jungen Jahren sterben sehr wenige,

aber in höheren Jahren immer mehr und beim Überschrei-ten einer kritischen Schwelle verringert sich die Mortalität wieder, weil für Hochaltrige andere Gesetzmäßigkeiten gel-ten


Prüfung der Normalverteilung 1. Optische Prüfung


2. Statistische Prüfung

3. WinStat • Kolmogorow für kontinuierliche Daten und Chi-Quadrat für

diskrete Daten • Angaben zu Schiefe und Kurtosis (→deskriptive Statistik)


3 Verfahren zur Prüfung von Zusammenhängen • Visualisierung • Produkt-Moment-Korrelationskoeffizient r nach Pearson, • Determinationskoeffizient r2 • Rang-Korrelationskoeffizient R (rho) nach Spearman • Kontingenzkoeffizient (C) (→ Kreuztabelle), • Komplexe Zusammenhänge (Körgergewicht, Körperhöhe,

Körperfettanteil) o Partielle Korrelation o Multiple Regressionen


Der Korrelationskoeffizient r nach Pearson

Für die Reliabilitätskoeffizienten gelten folgende Richtwerte:

>0.90 = ausgezeichnet;

0.80 – 0.90 = sehr gut;

0.70 – 0.80 = annehmbar;

0.60 – 0.70 = mäßig;

< 0.60 = gering (vgl. BÖS 1987).


Korrelative Beziehungen


Korrelationen


Prüfung auf Ausreißer

Pospeschill, 2005


Möglichkeiten der Manipulation

Pospeschill, 2005


Bestimmtheitsmaß oder Determinationskoeffizient

Der Determinationskoeffizient gibt an, wieviel Prozent der Variation der Variable A durch eine zweite Variable B vorhergesagt (determiniert) werden kann.

Bei einer einfachen Regression (nur eine unabhängige Variab-le) entspricht dem Quadrat des Pearson'schen Korrelationsko-effizienten. Beispiel: r = 0,9 r2 = 0,81 - d. h. 81 % Varianzaufklärung r = 0,7 r2 = 0,49 - d. h. 49 % Varianzaufklärung r = 0,4 r2 = 0,16 - d. h. 16 % Varianzaufklärung


Wichtige Korrelationskoeffizienten Produkt-Moment-Korrelationskoeffizient Pearson

Rang-Korrelationskoeffizient nach Spearman


Weitere Korrelationskoeffizienten Urteilerübereinstimmung von kategorialen Daten:

Kappa von Cohen

Kappa von Fleiss Urteilerübereinstimmung bei Rangdaten

Weighted-Kappa von Cohen

Konkordanzkoeffizient von Kendall Bortz,J.; & Lienert, G. A. (2008). Kurzgefasste Statistik für die klinische Forschung. Leitfaden für die verteilungsfreie Analyse kleiner Stichproben. Heidelberg: Springer.


Spearmans R kann als der übliche Pearsonsche Produkt-Moment-Korrelationskoeffizient (Pearson r) angesehen werden, d. h. als Anteil an erklärter Veränderlichkeit, mit dem Unterschied, dass Spearmans R über Ränge be-rechnet wird. Spearmans R setzt voraus, dass die betrachteten Variablen mindestens ordinalskaliert sind, d. h., dass die Beobachtungen jeder Variablen in eine Rangfolge gebracht (die Ränge gebildet) werden können.

Kendalls Tau ist zu Spearmans R im Hinblick auf die Voraussetzungen äquivalent. Beide Maße sind auch in ihrer statistischen Macht vergleichbar. Spearmans R und Kendalls Tau sind jedoch gewöhnlich nicht identisch, da sich sowohl die Grundlagen ihrer Konstruktion als auch die Formeln, auf deren Basis sie berechnet werden, stark un-terscheiden. Wichtiger sind die Unterschiede in der Interpretation von Kendalls Tau und Spearmans R: Spe-armans R kann man sich als den gewöhnlichen Pearsonschen Produkt-Moment-Korrelationskoeffizienten vorstel-len, d. h. als Anteil an erklärter Variabilität, mit dem Unterschied, dass Spearmans R auf der Basis von Rängen be-rechnet wird. Kendalls Tau stellt dagegen eine Wahrscheinlichkeit dar, d. h. es ist die Differenz zwischen der Wahrscheinlichkeit, dass die beobachteten Daten für beide Variablen in derselben Rangfolge vorliegen und der Wahrscheinlichkeit, dass die Daten für die beiden Variablen verschiedene Rangfolgen besitzen.

Gamma. Die Gamma-Statistik ist Spearmans R oder Kendalls Tau vorzuziehen, wenn die Daten viele Verbund-ränge enthalten. Hinsichtlich der Voraussetzungen ist Gamma äquivalent mit Spearmans R oder Kendalls Tau. Bezüglich seiner Interpretation und Berechnung ist es Kendalls Tau ähnlicher als Spearmans R. Gamma ist eben-falls eine Wahrscheinlichkeit. Es handelt sich um die Differenz zwischen der Wahrscheinlichkeit, dass die Rang-ordnung für beide Variablen übereinstimmt und der Wahrscheinlichkeit, dass sie nicht übereinstimmt, dividiert durch 1 minus die Wahrscheinlichkeit von Verbundrängen. Gamma ist grundsätzlich äquivalent zu Kendalls Tau; Verbundränge werden hierbei jedoch explizit berücksichtigt.

Kappa: Übereinstimmung zwischen mehreren Beobachtern bei kategorialen Daten (Z. B. gesund ja/nein).

Kontingenzkoeffizient: Der Kontingenzkoeffizient ist ein Chi-Quadrat-Wert, der auf dem Zusammenhang zwi-schen zwei ordinalskalierten Variablen basiert. Dieser Test wurde von Pearson vorgeschlagen, der auch den Chi-Quadrat-Test entwickelt hat. Sein Vorteil gegenüber dem einfachen Chi-Quadrat-Wert liegt darin, dass er leichter interpretierbar ist. Sein Wert liegt immer im Bereich zwischen 0 und 1 (0 bedeutet dabei vollständige Unabhängig-keit). Der Nachteil dieser Statistik besteht darin, dass die Obergrenze durch die Größe der Tabelle "begrenzt" wird; C kann die Grenze von 1 nur erreichen, wenn die Anzahl der Kategorien unbegrenzt ist (Statistica).


Scheinkorrelationen

Siehe hierzu: http://images.zeit.de/wissen/2015-03/statistik-korrelation.pdf


Partielle Korrelation Geprüft wird der Zusammenhang zwischen zwei Variablen, wenn eine dritte Variable, die ebenfalls einen Einfluss auf die Kriteriumsvariable hat, herausgerechnet wird. Beispiel: Zusammenhang zwischen Körpergewicht (Kriteriums-variable) und dem Körpergewicht. Zusätzlich hat der Körperfet-tanteil (ermittelt über die Caliperimetrie) einen Einfluss auf das Gewicht.


Regressionen Regressionen dienen der Vorhersage einer Kriteriumsvariable (=abhängige Variable) mittels einer oder mehrerer Prädiktorva-riablen (unabhängiger Variablen).


Multiple Regression Geprüft wird, wie stark eine Kriteriumsvariable durch mehrere andere Prädiktorvariablen erklärt wird. Beispiel: Abhängigkeit des Körpergewichts von Körpergröße und Körperfettanteil.


Ergänzende Berechnung


4 Inferenzstatistische Verfahren Die Inferenzstatistik (lat. infero; hineintragen; folgern,

schließen), auch induktive oder schließende Statistik ge-nannt, beschäftigt sich mit Prüfung von Hypothesen

o Unterschiede o Zusammenhänge


Inferenzstatistik Inferenzstatistik trifft Wahrscheinlichkeitsaussagen über Po-

pulationswerte. Wir haben demnach Daten aus einer Stichprobe vorliegen,

möchten anhand dieser jedoch Aussagen über die Population treffen.

Die Frage die sich daraus ergibt wäre also: Was würde pas-sieren, wenn ich den "wahren Effekt" schon kenne, und dann das relevante "Zufallsexperiment" unendlich oft wiederhole?

Die Antwort auf die Frage ist, ich erhalte eine Stichprobenver-teilung.

Diese Stichprobenverteilung ist die Grundlage für die Verfah-ren der Inferenzstatistik: Signifikanztests und Konfidenzinter-valle.


Parametrische und nichtparametrische Verfahren

Parametrische Verfahren orientieren sich an der Normalver-teilung der Daten und setzen in der Regel Intervallskalenniveau und Normalverteilung voraus. Bei der Berechnung werden vor allem der Mittelwert und die Standardabweichung herangezo-gen. Nichtparametrische Verfahren orientieren sich an der Rang-reihe der Daten, d. h. die Daten werden nach ihrer Größe sor-tiert und die Statistik darauf aufgebaut.


Entscheidungsdiagramm zur Wahl des geeigneten statisti-schen Verfahrens zur Prüfung von Unterschiedshypothesen.

2 Stichproben mehr als 2 Stichproben

Skalen-niveau Verteilung

unabhängig (Gruppenver-

gleiche)

abhängig (Vergleich

Messzeitpunkte)

unabhängig (Gruppenver-

gleiche)

abhängig (Vergleich

Messzeitpunkte)

Nominal para-meterfrei

Chi-Quadrat McNemar Vorzei-

chentest Chi-Quadrat Cochran Q-Test

Ordinal para-meterfrei

U-Test Wilcoxon-Test Kruskal-Wallis

H-test Friedmann-Test

Intervall para-metrisch

t-Test für unab-hängige Stichpro-

ben bei a: homogenen b: heterogenen

Varianzen

t-Test für abhängige

(gepaarte) Stich-proben

Varianzanalyse Varianzanalyse


Kenngrößen Maße der

zentralen Tendenz Streuungs-

maße Form- maße

Nominal-skalen Modus - -

Ordinal-skalen Modus, Median Prozent-ränge -

Intervall-skalen Mittelwert (M)

Standard-abweichung

(SD) Schiefe, Exzess

• t-Test für unabhängige Stichproben (Gruppen) • t-Test für abhängige Stichproben (Messzeitpunkte) • U-Text • Wilcoxon-Test • Varianzanalyse


Prüfung von Mittelwertsunterschieden

Vortest Nachtest Gruppe

1 normalverteilt Wilcoxon-Test nicht normal-verteilt

t-Test für

unabhängige Stichproben

U-Test

Gruppe 2 normalverteilt

t-Test für gepaarte (abhängige)

Stichproben normalverteilt


Die Varianzanalyse Immer dann, wenn die Gruppenunterschiede von mehr als zwei Gruppen oder Messzeitpunkten in den Blick genommen wer-den, kommt die Varianzanalyse zum Einsatz.


Vortest Nachtest Gruppe

1 normalverteilt Wilcoxon-Test nicht normal-verteilt

t-Test für

unabhängige Stichproben

U-Test

Gruppe 2 normalverteilt

t-Test für gepaarte (abhängige)

Stichproben normalverteilt


Formen der Varianzanalyse Einfaktorielle Varianzanalyse Es werden Unterschiede in Abhängigkeit von einem (mehrstu-figen) Faktor beleuchtet. Beispiel: Körperliche Leistungsfähigkeit in Abhängigkeit von der Art der Endoprothese Mehrfaktorielle (multiple) Varianzanalyse Es werden Unterschiede in Abhängigkeit von mehreren (mehr-stufigen) Faktoren beleuchtet. Beispiel: Körperliche Leistungsfähigkeit in Abhängigkeit von der Art der Endoprothese und der Art der postoperativen Be-handlung - eventuell mit Analyse der Wechselwirkungen


ANOVA Je nachdem, ob eine oder mehrere abhängige Variablen vor-liegen, unterscheidet man zwei Formen der Varianzanalyse: • univariate Varianzanalyse (englisch: analysis of variance =

ANOVA), wenn nur eine abhängige Variable vorliegt • multivariate Varianzanalyse (englisch: multivariate analysis

of variance = MANOVA), wenn mehrere abhängige Variab-len vorliegen


Pospeschill (2006, S. 264)


Erklärung einer Varianzanalyse

FG Effekt: Freiheitsgrade zwischen den Gruppen

MQ Effekt: Varianz zwischen den Gruppen

FG Fehler: Freiheitsgrade innerhalb der jeweiligen Gruppen

MQ Fehler: Varianz innerhalb der jeweiligen Gruppen

F: Testwert (MQ Effekt / MQ Fehler)

p: Irrtumswahrscheinlichkeit


WinStat-Ergebnisdarstellung einer Anova Wiederholte Messungen

Messvariable: BAUCH1

BAUCH2

gruppiert nach: VGKG

Quadrat- summe

Freiheits-grade mittlere QS F p

Zwischen Variab-len 5698,000385 1 5698,000385 33,72409155 4,35608E-07

Zwischen Fällen 135812,5776 50 2716,251551 16,07636185 2,44032E-18

Zwischen Grup-pen 366,3978142 1 366,3978142 0,134890973 0,714963841

Interaktion 1364,352415 1 1364,352415 8,07503381 0,006478674

Fehler 8447,9672 50 168,959344

Gesamt 151689,2954 103 1472,711606


Homogenität der Varianzen Die Homogenität der Varianzen ist – im Gegensatz zur Normal-verteilung – eine unabdingbare Voraussetzung für die Durch-führung der Varianzanalyse. • Levene-Test • Bartlett-Test


With-in-Subject-Design Untersuchung mehrerer Treatments an einer Gruppe. Rand-omisierung der Reihenfolge der Treatments

R O X1 O O X2 O O O R O X2 O O O O X1 O R O O O X1 O O X2 O

Spezielles Modul in Statistica bzw. SPSS


Post-hoc-Tests Die Varianzanalyse stellt nur fest, ob Unterschiede bestehen oder nicht. Wenn keine Unterschiede bestehen, braucht man überhaupt nicht mehr weiter zu rechnen. Wenn Unterschiede bestehen, möchte man natürlich auch wissen, zwischen wel-chen Gruppen - oder Testzeitpunkten - signifikante Unterschie-de bestehen. • Scheffé-Test (eher konservativ) • Bonferonie-Test • Least significant difference (LSD)-Test ((weniger konserva-

tiv) Diese Tests führen zu ähnlichen, aber nicht identischen Ergeb-nissen (siehe: http://de.wikipedia.org/wiki/Post-hoc-Test .


Parameterfreie Varianzanalysen Die Varianzanalyse ist sehr robust gegenüber Verletzungen der Normalverteilung. Unabdingbar aber ist die Homogenität der Varianzen. Ist diese nicht gegeben oder liegen nur ordinalska-lierte Daten (außer einer Likert-Skala) vor, kommen parameter-freie Verfahren zum Einsatz. • Unabhängige (ungepaarte) Daten: Kruskal-Wallis-Test (H-

Test) • Abhängige (gepaarte) Daten: Friedman-Test


Darstellung varianzanalytischer Ergebnisse Angabe der deskriptiven Statistik

Angabe von F-Wert (einschließlich Freiheitsgraden) und p-Wert entweder im Text oder in Tabellenform

Abbildung

Wydra, G. (2002). Sit-Ups am Schrägbrett: Untersuchungen zur Ef-fektivität als Bauchmuskeltraining und zur Verkürzung der Hüftbeu-gemuskulatur. Deutsche Zeitschrift für Sportmedizin, 53(10), 285 - 290. Wydra, G. (2003). Beanspruchung der Bauch- und Hüftbeugemusku-latur durch verschiedene Rumpfübungen. Leistungssport, 33(1), 23 - 29.


Zusammenfassung statistische Verfahren

Zusa

mm

en-

häng

e

Gru

ppen

-un

ters

chie

de

Unt

ersc

hied

e

zwis

chen

Ze

itpun

kten

Effe

ktun

ter-

schi

ede

Kau

sal-

hypo

thes

en

Querschnitts- untersuchungen

Korrelatio-nen

t-Test U-Test

Ex-post-facto- Untersuchungen

t-Test U -Test Vari-anzanalyse

Längsschnitt- untersuchungen

t-Test Wilcoxon-Test Varianz-analyse

Hybride Experimente Varianz-analyse

Varianz-analyse

Naturwissenschaftliche Experimente Varianz-

analyse Varianz-analyse


5 Signifikanzniveau, Alpha- und Beta-Fehler o Signifikanz o Bedeutsamkeit


Signifikanzniveau = 5 % Wahrscheinlichkeit, mit der die Nullhypothese zu Unrecht

abgelehnt und die Alternativhypothese angenommen wird

mit einer Irrtumswahrscheinlichkeit von 5 % besteht tatsäch-lich ein Zusammenhang bzw. ein Unterschied


Irrtumswahr-scheinlichkeit p p > 0.05 p ≤ 0.05 p ≤ 0.01 p ≤ 0.001

Signifikanzniveau α α > 5 % α ≤ 5 % α ≤ 1 % α ≤ 0.1 %

Verbale Bedeutung nicht signi-fikant

signifikantsehr

signifikanthoch-

signifikant

Buchstaben-symbolisierung n. s. s. s. s. h. s.

Graphische Symbolisierung

* +

** ++

*** +++


Ein Feuermelder muss funktionieren!

Tatsache Es brennt stimmt stimmt nicht

Feuermelder Alarm Fehlalarm

kein Alarm Fehlalarm


In Gerichtsverfahren gilt: In dubio pro reo! Nullhypothese: Der Angeklagte ist unschuldig!

Tatsache Er ist der Täter stimmt stimmt nicht

RichterVerurteilungt Fehlurteil

Freispruch Fehlurteil


Im Leben gilt: Es prüfe, wer sich ewig bindet. Nullhypothese: Kandidat ist nicht der richtige Mann fürs Leben

Tatsache Ist die/der Richtige stimmt stimmt nicht

EntscheidungHeirat Fehlent-

scheidung

keine Heirat

Fehlent-scheidung


Von 1000 Frauen haben tatsächlich 8 Brustkrebs. Nullhypothese: Die Frau hat keinen Brustkrebs!

Tatsache Brustkrebs stimmt stimmt nicht

Screening Alarm 7 70 = falsch

positiv:

kein Alarm

1 = falsch negativ 922

Vergleichbares Problem wie bei Sensitivität und Spezifität von Tests


Sensitivität und Spezifität von Tests

Goldstandard

(anerkannter Test)

Auffälligkeit

liegt vor liegt nicht vor

Neuer Test Auffälligkeit

positives Testergebnis

liegt vor

richtig positiv

a

falsch positiv

b

alle Test-Positiven =

a + b

negatives Testergebnis

liegt vor

falsch negativ

c

richtig negativ

d

alle Test-Negativen = c +

d

a + c =

alle Auffälli-gen

b + d = alle Unauf-

fälligen

a + b + c + d = alle Untersuch-

ten


Gütemaß Alternative Begrifflichkeiten Formel

Sensitivität

Richtig-Positiv-Rate, Empfind-lichkeit oder Trefferquote; englisch sensitivity, true posi-tive rate, recall oder hit rate

caa

Spezifität

Richtig-Negativ-Rate oder Kennzeichnende Eigenschaft; englisch: specificity, true ne-gative rate oder correct rejec-tion rate

bdd


-Fehler und ß-Fehler

Nullhypothese stimmt stimmt nicht

Statistische Entscheidung

Annahme ß-Fehler

Ablehnung -Fehler


Die vier Möglichkeiten des statistischen Entscheidungsproblems

α-Fehler Nicht existierender Unterschied wird als Unterschied ausgege-ben

β-Fehler Vorhandener Unterschied wird nicht entdeckt

1 - α Nicht existierender Unterschied wird tatsächlich erkannt

1 - β Vorhandener Unterschied wird tatsächlich entdeckt (Testpower)


6 Einflussgrößen auf Signifikanzniveau Zusammenhang zwischen der Stichprobengröße n und der Irr-tumswahrscheinlichkeit p für einen t-Test für unabhängige Stichproben bei konstanten Populationswerten (M1=100, SD1 = 10; M2 = 110, SD2 = 10)

n = 5 10 20 50

p = 0.152 0.038 0.003 0.000

Bei genügend großer Stichprobe wird der

kleinste Unterschied signifikant!


Zusammenhang zwischen der Standardabweichung SD und der Irrtumswahrscheinlichkeit p für einen t-Test für unabhängi-ge Stichproben bei konstanten Populationswerten (M1=100, n1

= 20; M2 = 110, n2 = 20)

SD = 5 10 15 20

p = 0.000 0.003 0.042 0.122

Bei großen Standardabweichungen führen nur große

Unterschiede zu signifikanten Effekten!


Abbildung 1: Abhängigkeit der Irrtumswahrscheinlichkeit p von der Stichproben-größe und der Standardabweichung. Ergebnis eines t-Tests mit M1=100 und M2=110. Die Signifikanzgrenze von = 5 % (p=0.05) ist gesondert eingezeichnet.


Einflussgrößen auf - und -Fehler

http://www.uni-konstanz.de/FuF/wiwi/heiler/os/vt-normtest.html


Einflussgrößen auf - und -Fehler

Maßnahme Folge 1. Art und Folge 2. Art

Verringerung von von 5 % auf 1 % -Fehler -Fehler

Erhöhung von von 0,1 % auf 5 % -Fehler -Fehler

Wir brauchen ein zusätzliches Maß neben dem Signifikanz,

das unabhängig von der Stichprobengröße ist: Effektgröße


Effektgröße d für unabhängige Stichproben

sd KGEG XX

Die Streuung berechnet sich:

2

22KGEG sss


Effektgröße d für unabhängige Stichproben

sd 110100


1021010 22

s

110110100 d


Effektgröße d für abhängige Stichproben

sd XX 21 2


2122

12 2 ssrsss


Veränderung der Effektgröße d bei unterschiedlich hohen Standardabweichungen (SD) und konstant gehaltenen Mittel-werten von 100 bzw. 110. Beurteilung der Effektgröße für den t-Test für unabhängige Stichproben

SD 5 7.5 10 12.5 15 17.5 20 25 30 40 50 d 2 1.33 1 0.8 0.66 0.57 0.5 0.4 0.33 0.25 0.2


Effektgrößenberechnung

Zur Berechnung der Effektstärke oder -größe bei einfachen Gruppenvergleichen: inc/neustadt/bedeut.htm

Zur Berechnung der Effektstärke oder -größe bei Versuchs-Kontrollgruppen-Designs mit Vor- und Nachtest: inc/neustadt/eskorr.htm


Optimale Stichprobengröße Optimale Stichprobengröße für große, mittlere und kleine Effekt-größen (Bortz & Döring, 1995).

Effektgröße groß mittel klein d 0.80 0.50 0.20 Stichprobengröße n=20 n=50 n=310


Eta-Quadrat ή2 Eta-Quadrat: Anteil der durch die unabhängige Variable

aufgeklärten Varianz an der Gesamtvarianz

Partielles Eta-Quadrat: das jeweilige bezieht sich nur auf einen Teil (part) der Varianzaufklärung

Konventionen für die Interpretation (nach Cohen, 1988)

ή2 = 0,01 → kleiner Effekt

ή2 = 0,06 → mittlerer Effekt

ή2 = 0,14 → großer Effekt


Die vier Möglichkeiten des statistischen Entscheidungsproblems

α-Fehler Nicht existierender Unterschied wird als Unter-

schied ausgegeben β-Fehler Vorhandener Unterschied wird nicht entdeckt 1 - α Nicht existierender Unterschied wird erkannt 1 - β Vorhandener Unterschied wird entdeckt (Test-

power)


Testpower (1 - ß) Wahrscheinlichkeit, dass ein Unterschied tatsächlich erkannt wird.

Nullhypothes stimmt stimmt nicht


Annahme 1 - ß = Testpower ß-Fehler

Ablehnung -Fehler 1 -


Einfluss des Signifikanzniveaus auf - und -Fehler

Maßnahme Folge 1. Art + Folge

2. Art

Verringerung von von 5 % auf 1 %

-Fehler -Fehler Testpower

Erhöhung von von 0,1 % auf 5 %

-Fehler -Fehler Testpower


Einfluss der Probandenzahl auf das Auftreten von -Fehlern und die Testpower

Maßnahme -Fehler Testpower

(1 - )

Erhöhung von N

Verringerung von N

= Reduktion; = Erhöhung


Probleme Kontrolle der Alpha-Fehler-Wahrscheinlichkeit über Signifi-

kanzniveau: Je größer die Stichprobe, umso statistisch sig-nifikanter die Ergebnisse

Folge: Fehler 1. Art wird reduziert und gleichzeitig Fehler 2. Art erhöht

Fragen o Optimale Testpower o Optimale Stichprobengröße


Optimale Testpower Alpha/Beta-Fehler-Verhältnis ¼ (Fehler 2. Art ist nicht so gravierend wie der Fehler 1. Art) α-Fehler = 0,05 (Wissenschaftliche Konvention) β-Fehler = 0,20

Optimale Testpower = 0,80


Optimale Testpower (1 - β-Fehler = 0,80) Testpower = Wahrscheinlichkeit, dass ein Unterschied tatsäch-lich erkannt wird.

Nullhypothes stimmt stimmt nicht


Annahme Testpower = 0,80

ß-Fehler = 0,2

Ablehnung -Fehler = 0,05 1 - = 0,95


Optimaler Stichprobenumfang „Ein optimaler Stichprobenumfang gewährleistet, daß ein Signi-fikanztest mit einer Wahrscheinlichkeit von 80 % zu einem sig-nifikanten Ergebnis führt, wenn die spezifische H1 den Popula-tionsverhältnissen entspricht. Das Risiko einer Fehlentschei-dung bei Annahme dieser H1 aufgrund eines signifikanten Er-gebnisses entspricht hierbei dem Signifikanniveau (5 % bzw. 1 %)“ (Börtz & Döring, 1995, S. 567).


Powerkalkulator

http://www.dssresearch.com/KnowledgeCenter/toolkitcalculators/samplesizecalculators.aspx


Minimaler klinisch relevanter Unterschied (MIKRU)

1. Bei großen Stichproben _ Mikru beachten! 2. Bei kleinen Stichproben _ _ - Fehler beachten! Berechnung der Patientenanzahl N = Anzahl der Patienten pro Studie, bei gleichmäßiger Vertei-lung auf Gruppen EA =Erfolgsrate der Gruppe A FA = Fehlschlagrate der Gruppe A EB = Erfolgsrate der Gruppe B FB = Fehlschlagrate der Gruppe B


Arbeitsauftrag A1: Wodurch erhöht sich die Gefahr eines Fehlers 2. Art mehr? Durch ein nicht sig-nifikantes oder ein sehr signifikantes Ergebnis?

A 2: Wie groß ist der Alpha-Fehler bei einem Signifikanzniveau von 5 %?

A 3: Vergrößert sich der Beta-Fehler durch eine Vergrößerung der Stichprobe oder verringert er sich?

A 4: Die Effektgröße zur Einschätzung der praktischen Bedeutsamkeit hängt ab von?

dem Mittelwertsunterschied zwischen EG und KG der Anzahl der Versuchspersonen dem Signifikanzniveau dem p-Wert bei der Signifikanzprüfung der Streuung in EG und KG

A 5: Warum reicht die Effektgröße allein nicht aus, um die Bedeutsamkeit einer Maß-nahme in einem größeren Gesamtzusammenhang zu begründen?


7 Gültigkeitsanspruch der Untersuchungsbefunde Eine Untersuchung ist intern valide, wenn ihre Ergebnisse eindeutig interpretierbar sind. Die interne Validität sinkt mit wachsender Anzahl plausibler Alternativerklärungen für die Er-gebnisse. Eine Untersuchung ist extern valide, wenn ihre Ergebnisse über die besonderen Bedingungen der Untersuchungssituation und über die untersuchten Personen hinausgehend generali-sierbar sind. Die externe Validität sinkt mit wachsender Unna-türlichkeit der Untersuchungsbedingungen bzw. mit abneh-mender Repräsentativität der untersuchten Stichproben. (BORTZ/DÖRING 1995)


Interne Validität Überlegungen zur internen Validität befassen sich mit Fragen, ob die Untersuchungsbefunde eindeutig interpretiert werden können. Es stellen sich folgende Fragen: In wie fern ist die Variation in der abhängigen Variable (AV)

auf die Variation in der unabhängigen Variable (UV) zurück-zuführen?

Wie gut ist es gelungen, in der Untersuchung nur die Auswir-kungen der UV in der AV zu finden?

Können mögliche Alternativhypothesen zur Erklärung der Va-riation der AV ausgeschlossen werden?


Das MAX-KON-MIN-Prinzip als Maßnahme zur Verbesserung der internen Validität (vgl. Bös,

Hänsel & Schott, 2000, S. 50 - 60) Bei allen Messreihen erhält man ein Maßzahlen für die zentrale Tendenz (Modus, Median, Mittelwert) und Streuungsmaße (Prozentränge, Range, Varianz, Standardabweichung). Diese Streuung eines Wertwertes um den Mittelwert herum hängt von verschiedenen Faktoren ab. Ein Versuchsplan ist dann intern valide, wenn die Variation der AV (bis auf unsystematische Fehlervarianz) nur auf die Variati-on der UV zurückgeht.


Beispiel: Zusammenhang zwischen Körpergewicht und Körpergröße. Das Körpergewicht als AV ist in hohem Maße von der Körpergröße (UV) abhängig. Dies kommt beispielsweise in der Verwendung des Body Mass Index (BMI) zur Einschätzung des Normalgewichts zum Ausdruck. Den Anteil an der Streuung der Messwerte des Körperge-wichts, der durch die Körpergröße zustande kommt, bezeichnet man als Primärvarianz.

Das Körpergewicht ist nicht nur von der Körpergröße, sondern auch von der Muskelmasse und dem Körperfettanteil abhängig. Die Muskelmasse bzw. der Körperfettanteil führen zu ei-ner systematischen Veränderung des Zusammenhangs zwischen Körpergröße und Körper-gewicht und werden deshalb als Sekundärvarianz bezeichnet.

Bei jeder Messung können Fehler gemacht werden. Deshalb legt man so großen Wert auf die Objektivität und Reliabilität von Messverfahren. Das ist die sog. Fehlervarianz. Im Gegensatz zur Primär- und Sekundärvarianz ist ihr Einfluss unsystematisch, d. h. man kann nicht sagen in welche Richtung die Messwerte beeinflusst werden

Bei einer Untersuchung an Rehateilnehmern wurden Körpergröße, Körpergewicht und der Körperfettanteil bestimmt. Eine mit diesen Variablen durchgeführte Regressionsanalyse er-brachte eine Gesamtvarianzaufklärung von 77 %, d. h. 77 % der zu beobachtenden Unter-schiede im Körpergewicht können erklärt werden durch die Körpergröße (46 %), den Körper-


fettanteil (17 % und das Geschlecht (14 %). Die restlichen 23 % sind bedingt durch die intra-individuellen Unterschiede bzw. die Fehlervarianz.


Daraus folgt das Max-Kon-Min-Prinzip: Maximiere die Primärvarianz! Kontrolliere die Sekundärvarianz! Minimiere die Fehlervarianz!


MAXimierung der Primärvarianz der UV Primärvarianz maximieren bedeutet, die Stufen der UV so zu wählen, dass sich in der AV möglichst klare Unterschiede zwi-schen den Bedingungen zeigen. Wahl von extremen Stufen der UV - bei Altersabhängigkeit

einer Variable Junge und Alte untersuchen. Wahl von optimalen Stufen der UV - setzt Kenntnis der op-

timalen Stufen voraus; z. B. bei Krafttests hängt das Ergebnis von der Wiederholungszahl ab. Es werden wiederholte Mes-sungen durchgeführt bis die Kraftleistung nachlässt. Das bes-te Ergebnis wird gewertet.

Wahl vieler Stufen der UV - besonders wichtig bei Variablen, wie z. B. Wohlbefinden, die sich verändern.


KONtrolle der Sekundärvarianz aus den Störvariablen

Störvariablen (SV) sind Variablen, die neben der interessierenden unabhängigen Variablen (UV) einen unerwünschten Einfluss auf die abhängige Variable (AV) ausüben. Eliminierung von Störvariablen - Ausschaltung von z. B. Lärm;

Arbeit im Labor. Konstanthaltung - Tageszeit, Wochentag, Ort der Untersuchung

etc. Umwandlung von Störvariablen in UV - Auswertung unter Be-

rücksichtigung der Störvariable (z. B. des Geschlechts, Alter, Nati-onalität etc.; der Umgebungsbedingungen, der Tageszeit etc.).

Vermeidung von Konfundierungen (Vermengung zweier oder mehrerer unabhängiger Variablen, so dass nicht eindeutig gesagt werden kann, wodurch die beobachteten Effekte verursacht wur-den)


Beispiel Konfundierung: Bei einem Stretchingexperiment (Wallin et al., 1985) wurde die Ver-besserung der Dehnfähigkeit der ischiokruralen Muskelgruppe durch dynamisches bzw. statisches Dehnen überprüft. Die dynamisch trai-nierende Trainingsgruppe dehnte die ischiokrurale Muskulatur durch Rumpfbeugen. Die statisch trainierende Gruppe dehnte die ischiok-rurale Muskelgruppe, indem das zu dehnende Bein im Stehen auf einen Tisch aufgelegt wurde. Das Ergebnis der Untersuchung laute-te, dass das statische Dehnen effektiver sei als das statische. Es handelt sich um eine typische Konfundierung zweier unabhängiger Variablen: die Stretchingtechniken (statisch bzw. dynamisch) waren mit verschiedenen Ausführungsformen (Rumpfbeuge, Fuß auf dem Tisch) konfundiert. Wenn man die Frage der Effektivität der Stret-chingtechnik beantworten will, muss man die gleiche Übungsausfüh-rung wählen.


MINimierung der Fehlervarianz Keine definierten Kontrolltechniken; Objektivität und Reliabilität der Messverfahren und der Auswertung. Im Einzelnen können folgende Faktoren zu einer unsystematischen Erhöhung der Fehlervarianz beitragen (vgl. Sarris, 1992, S. 147): Zeiteinflüsse (history): Was geschah zwischen Vor- und

Nachtest? (z. B. Ereignisse des 11. September auf die allge-meine Ängstlichkeit einer Population)

Entwicklung (maturation): Vor allem bei längeren Experi-menten von Bedeutung (z. B. Einstellung und Verhalten von Jugendlichen in der Pubertät; siehe hierzu die Ausführungen zu entwicklungspsychologischen Untersuchungen weiter un-ten)

Testeffekte (test sophistication): Einflüsse des Vortestes auf den zweiten Test (Lern- und Trainingseffekte). Alleine


schon durch die Durchführung des Vortests werden unter Umständen Einstellungs- und Verhaltensänderungen hervor-gerufen, die wiederum einen Einfluss auf den Nachtest ha-ben können (siehe Solomon-Vier-Gruppenplan, Arbeitsblatt 2.3).

Veränderung der Messinstrumente (instrumentation): Versuchsleiterwechsel und mangelnde Reliabilität des Mess-verfahrens.

Statistische Regression (regression): Boden- und De-ckeneffekte: Pbn. mit sehr guten Leistungen, z. B. Leistungs-sportler, können sich kaum noch verbessern, während sich Pbn. mit einer schlechten Leistungsfähigkeit, z. B. Rehabili-tanden, fast nur noch verbessern können.

Auswahlverzerrung (selection): Vpn. unterscheiden sich hinsichtlich wichtiger Kriterien vor allem bei nicht-randomisierter Auswahl. Bei Untersuchungen zur Motorik muss das Geschlechterverhältnis ausgewogen sein und die


sportliche Aktivität muss berücksichtigt werden, da diese bei-den Variablen einen direkten Einfluss auf die motorische Leistungsfähigkeit haben (siehe Parallelisierung, Arbeitsblatt 2.3).

Experimentelle Einbußen (mortality): Testmortalität (Aus-scheiden von Vpn. durch Verletzungen). Je länger eine Un-tersuchung dauert und mit mehr Aufwand eine Untersuchung für die Pbn. verbunden ist, umso größer ist die Gefahr, dass Pbn. aus einer Untersuchung aussteigen. Die Testmortalität sollte deshalb bei der Untersuchungsplanung abgeschätzt und die Stichprobengröße entsprechend angepasst werden.

Versuchsleitereffekte (experimenter-bias effects): Verhal-ten und Eigenschaften der Versuchsleiter. Optimal ist es, wenn wie in Doppelblindexperimenten die Versuchsleiter nicht wissen, welcher Pbd. welches Treatment bekommt.

Interaktive Effekte (interactive-effects): Verschiedene ex-perimentelle Bedingungen führen zu Carry-Over-Effekten.


Externe Validität Eine Untersuchung ist extern valide, wenn ihre Ergebnisse

über die besonderen Bedingungen der Untersuchungssituati-on und den Zeitpunkt der Untersuchung (ökologische Validi-tät) bzw. über die untersuchten Personen (Populationsvalidi-tät) hinausgehend generalisierbar sind.

Störfaktoren sind Wechselwirkungen zwischen der unabhän-gigen Variabele und den Versuchspersonen, den Messzeit-punkten und den sonstigen situativen Bedingungen.


Polpulationsvalidität Polpulationsvalidität (Wechselwirkung zwischen Personen-Selektion und UV). Ein Kernproblem bei vielen sportwissen-schaftlichen Untersuchungen besteht darin, dass für die Unter-suchungen Sportstudenten als Pbn. herangezogen werden. Es stellt sich die Frage, ob die bei jungen, gesunden und hochleis-tungsfähigen Menschen gefundenen Ergebnisse auf andere Populationen (ältere, kranke und wenig leistungsfähige Men-schen) übertragen werden können.


Zeitliche Validität Zeitliche Validität in Abhängigkeit von besonderen Ereignis-sen in der Zeit (Konfundierung Alter und Generation bei Ent-wicklungsstudien)


Beispiel - Ent-wicklungspsy-chologie: Bei der Analyse von al-ternsabhängigen Entwicklungsver-läufen ist zu be-achten, dass es methodisch so gut wie unmöglich ist, Menschen entlang ihrer gesamten Lebensspanne zu

Abbildung 1: Alternsabhängige Veränderung einiger motorischer und körperlicher Fähigkeiten.


untersuchen. Die Ergebnisse ent-sprechender Un-tersuchungen (sie-he Abbildung 1) stammen zumeist aus Querschnitts-untersuchungen. Bei solchen Daten spielt aber nicht nur das biologi-sche Lebensalter eine Rolle, son-dern auch die Zu-gehörigkeit zu ei-ner bestimmten Generation, d. h.

Abbildung 2: Querschnitts- und Längs-schnittsequenzen


Situationsvalidität Interaktion Vortest und UV ( Solomon-Viergruppenplan)

Interaktion Situation und UV o Versuchsleitereffekt o Ökologische Validität (Natürlichkeit der Untersuchungs-

bedingung - Feld- oder Laboruntersuchung) o Placebo-, Neuigkeits- und Hawthorne-Effekt


Störvariablen Die Störvariable (SV) ist diejenige Variable, die neben der inte-ressierenden unabhängigen Variablen (UV) einen unerwünsch-ten Einfluss auf die abhängige Variable (AV) ausübt (Konfun-dierung von Einflüssen). Beispiel: Wenn nicht nur die Technik beim Dehnen (statisch vs. dynamisch) variiert wird, sondern zugleich die Ausführungsform


Kontrolle von Personenstörvariablen Randomisierung: Zuordnung durch Zufall

Parallelisierung - Matched Samples: Untersuchungsteilneh-

mer werden paarweise den Gruppen zugewiesen (Matching)

führt zu gleichen Mittelwerten und Streuungen in den unter-

suchten Gruppen


Parallelisierung

Testwert Rang Paarbildung Gruppe A Gruppe B20 1 Paar 1 1 (20) 2 (19) 19 2 18 3 Paar 2 4 (17) 3 (18) 17 4 16 5 Paar 3 5 (16) 6 (15) 15 6 14 7 Paar 4 8 (13) 7 (14) 13 8

M = 16,5 M = 16,5 M = 16,5


Randomisierung und Parallelisierung Beispielhafte Darstellung der Ergebnisse einer Randomisierung bzw. Parallelisierung (fiktive Werte). Angabe der Ergebnisse des t-Tests Gruppe 1 (n=22) Gruppe 2 (n=22)

M SD M SD t-Wert p

Randomisierung (N) 22,9 5,6 26,3 9,4 4,51 0,009

Parallelisierung (N) 24,5 5,3 25,0 4,9 0,45 0,897


Experiment Quasiexperiment

Feld Hohe externe Validität

Hohe interne Validität

Hohe externe Validität

Geringe interne Validität

LaborGeringe externe Validität

Hohe interne Validität

Geringe externe Validität

Geringe interne Validität

Kombination der Untersuchungsvarianten „experimentell vs. quasi-experimentell“ und Felduntersuchung vs. Laboruntersuchung.

(Bortz, 1984, S. 36)


Die beste Möglichkeit zur Verbesserung der exter-nen Validität besteht darin, Untersuchungen unter anderen Bedingungen mit anderen Versuchsper-sonen zu replizieren!


Literatur Bortz, J. & Döring, N. (1995). Forschungsmethoden und Evalu-ation (2. erw. Aufl.). Berlin: Springer. Bös, K., Hänsel, F., & Schott, N. (2000). Empirische Untersu-chungen in der Sportwissenschaft. Hamburg: Czwalina. Gigerenzer, G. (2002). Das Einmaleins der Skepsis. Über den richtigen Umgang mit Zahlen und Risiken. Berlin: Berlin Verlag. Möller, J. & Strauß, B. (1994). Experimentelle und quasiexpe-rimentelle Versuchspläne. In B. Strauß & H. Haag (Hrsg), For-schungsmethoden - Untersuchungspläne - Techniken der Da-tenerhebung in der Sportwissenschaft. Forschungsmethodolo-gische Grundlagen (S. 167 - 181). Schorndorf: Hofmann.


Pospeschill, M. (2005). Statistische Methoden. Elsevier: Mün-chen. Sarris, V. (1992). Methodologische Grundlagen der Experimen-talpsychologie. 2: Versuchsplanung und Stadien. München: Reinhardt. Statistica (2003). Auszug aus dem elektronischen Handbuch des Statistikprogramms Statistica 6.1. Tulsa, Ok: StatSoft, Inc. (siehe Materialien zu Methoden der Sportwissenschaft http://www.uni-saarland.de/fak5/sportpaed/ ) Wallin, D., Ekblom, B., Grahn, R. & Nordenbrog, T. (1985). Im-provement of muscle flexibility: A comparison between two techniques. The American Journal of Sports Medicine, 13, 263 - 268.


Wydra, G. (2002). Sit-Ups am Schrägbrett: Untersuchungen zur Effektivität als Bauchmuskeltraining und zur Verkürzung der Hüftbeugemuskulatur. Deutsche Zeitschrift für Sportmedizin, 53, 285 - 290.

Baustein 5 - Statistik Vertiefung · o Likert-Skala: Ordinal- bzw. Intervallskalierung . Prof. Dr....

Documents

Transcript of Baustein 5 - Statistik Vertiefung · o Likert-Skala: Ordinal- bzw. Intervallskalierung . Prof. Dr....