Gollwitzer⋅
Jäger: Evaluation. Workbook. Weinheim: Beltz PVU, 2007 1
11 Auswertungsfragen: Deskriptiv-und inferenzstatistische Methoden
Was ist Evaluation?Kapitel 1
Aufgaben, Standards und ModelleKapitel 2
Fragestellungen
ZuständeKapitel 3
VeränderungenKapitel 4
WirkungenKapitel 5
FormativeEvaluationKapitel 8
ProspektiveEvaluationKapitel 7
EffizienzanalyseKapitel 6
MessfragenKapitel 9
DesignfragenKapitel 10
AuswertungsfragenKapitel 11
Methodik
Teil I: „Was“und „wozu“?
Teil II: „Wann“und „warum“?
Teil III: „Wie“und „womit“?
Hauptfrage-stellungen
Nebenfrage-stellungen
Die statistische Auswertung von Daten, die im Rahmen von Evaluationsunter-
suchungen gewonnen wurden, ist kein leichtes Geschäft. Das beginnt bereits auf
deskriptiver Ebene.
Ausreißer und Extremwerte. Wie soll bspw. mit Ausreißern oder extremen Werten
in der Stichprobe umgegangen werden? Eine Möglichkeit der Ausreißerdiagnose
stellen so genannte grafische Tests dar, bspw. das Box-Whisker-Diagramm. Ist das
Merkmal annähernd normalverteilt, kann man Werte größer als z = +3 oder niedri-
ger als z = –3 als Ausreißer klassifizieren.
Verteilungsform. Eine zweite Frage betrifft die Verteilungsform der Rohdaten: Da-
tenanalytische Verfahren, die davon ausgehen, dass das gemessene Merkmal in der
Population normalverteilt ist, können – zumindest bei kleinen Stichproben – zu
fehlerhaften Ergebnissen führen, wenn die Rohwerte stark von einer Normalvertei-
lung abweichen. Mit dem Kolmogorov-Smirnov- oder dem Shapiro-Wilk-Test kann
die Normalverteiltheit der Rohdaten inferenzstatistisch geprüft werden. Ist die Ver-
teilung eingipflig, aber schief (bzw. steil), so helfen gegebenenfalls Transformatio-
nen der Rohwerte, um eine Normalverteilung zu approximieren.
Fehlende Werte. Eine dritte Frage betrifft den Umgang mit fehlenden Werten. Un-
problematisch sind fehlende Werte nur dann, wenn die Stichprobe groß ist und die
Missings unsystematisch über die Datenpunkte hinweg verteilt sind. Wie mit feh-
lenden Personen bzw. mit fehlenden Datenpunkten auf einzelnen Variablen umzu-
gehen ist, sollte im Einzelfall entschieden werden.
Gollwitzer⋅
Jäger: Evaluation. Workbook. Weinheim: Beltz PVU, 2007 2
Inferenzstatistische Verfahren. Bei der Behandlung inferenzstatistischer Verfahren
sind wir zunächst auf einige Grundbegriffe (statistischer Kennwert, statistisches
Hypothesenpaar, Irrtumswahrscheinlichkeiten) eingegangen. Die Wahl eines geeig-
neten inferenzstatistischen Verfahrens hängt
l von dem statistischen Kennwert,
l dem Skalenniveau des zu messenden Merkmals sowie
l der Fragestellung (Abweichung von einer Konstanten, Unterschied zwischen
Bedingungen/Gruppen, intraindividuelle Veränderung) ab.
Voraussetzungen. Parametrische Verfahren setzen voraus, dass
l das Merkmal in der Population normalverteilt ist, wobei die meisten Tests auch
bei Verletzung dieser Annahme zu robusten Ergebnissen führen,
l das Merkmal intervallskaliert ist, da ansonsten die Berechnung von Mittelwert
und Streuung nicht zulässig wäre,
l die Varianzen zwischen den Stichproben (Bedingungen, Gruppen usw.) homo-
gen sind, wobei auch eine Verletzung dieser Bedingung meist nicht gravierend ist,
und dass
l die Messwerte (bzw. etwaige Fehler und Residualeinflüsse) zwischen den geteste-
ten Untersuchungseinheiten voneinander unabhängig sind.
Insbesondere die letzte Voraussetzung ist zentral: Eine Verletzung dieser Bedingung
führt unweigerlich zu einer Erhöhung der statistischen Irrtumswahrscheinlichkeiten
um ein Vielfaches!
Im Falle messwiederholter Analysen ist eine weitere Voraussetzung, dass die Mat-
rix der Varianzen und Kovarianzen zwischen den Messzeitpunktpaaren zirkulär ist
(Sphärizitätsannahme). Ist diese Bedingung nicht erfüllt, können die Freiheitsgrade
des entsprechenden Tests mit einem Korrekturfaktor (z. B. dem Greenhouse-
Geisser-Epsilon) gewichtet werden.
Teststärke. Die Teststärke ist definiert als die Wahrscheinlichkeit, mit der ein sta-
tistischer Test (bei gegebenem α-Niveau und gegebener Stichprobengröße) signifi-
kant wird, wenn ein Effekt der spezifizierten Größe existiert. Die Teststärke kann
über
l eine Erhöhung des α-Fehlerniveaus,
l eine Erhöhung der Stichprobengröße (n) sowie
l Maßnahmen, die zur Steigerung der Reliabilität der Messung beitragen, erhöht
werden.
Fehlerkumulierung. Ein Problem bei der multiplen Testung der gleichen inhalt-
lichen Hypothese über mehrere Tests ist die Kumulierung der Fehlerwahrschein-
lichkeiten α und β (Fehlerkumulierung). Dieser kann mit
l Kontrastanalysen,
l multivariaten Analyseverfahren oder
l einer Reduzierung der Fehlerwahrscheinlichkeiten für die einzelnen Tests begeg-
net werden.
Auspartialisierung. Zur Erhöhung der internen Validität eines Designs, aber auch
zur Erhöhung der Reliabilität der AV, können Störvariablen auspartialisiert werden.
Störvariablen können dabei entweder vorab erfasste weitere Variablen sein (Kovari-
anzanalysen); bei messwiederholten Analysen kann auch der Prä-Test wie eine Stör-
Gollwitzer⋅
Jäger: Evaluation. Workbook. Weinheim: Beltz PVU, 2007 3
variable behandelt und auspartialisiert werden. Dadurch wird die Messung um all
jene Effekte bereinigt, die mit Unterschieden im Prä-Test in Verbindung stehen.
Man spricht dann von einem Autoregressor-Modell. Werte späterer Messzeitpunk-
te, welche um ihre jeweiligen Prä-Testwerte bereinigt wurden, nennt man auto-
residualisierte Werte. Dabei handelt es sich jedoch nicht, wie bisweilen behauptet
wird, um Indikatoren der intraindividuellen Veränderung.
Top Related