Validitätsstudie zum HAWIK-IV im Vergleich zum...
Transcript of Validitätsstudie zum HAWIK-IV im Vergleich zum...
Validitätsstudie zum
HAWIK-IV im Vergleich zum HAWIK-III
Dissertation zur Erlangung der Doktorwürde
durch den Promotionsausschuss
Dr. phil. der Universität Bremen
vorgelegt von Maike Lipsius
Bremen, im Dezember 2008
1. Gutachter: Prof. Dr. Franz Petermann
2. Gutachter: Prof. Dr. Uwe Tewes
Promotionskolloquium am 16.06.2009
Danksagung
Ohne die Hilfe vieler Menschen wäre diese Arbeit niemals fertig geworden. Es ist mir ein gro-
ßes Anliegen, mich auf diesem Wege bei all denen zu bedanken, die mir tatkräftig zur Seite
standen.
Zunächst möchte ich mich herzlich bei Herrn Prof. Dr. Franz Petermann bedanken, der mir die
Möglichkeit gab, an der Normierung des HAWIK-IV mitzuwirken und im Rahmen dieses Projek-
tes zu promovieren und mich in den letzten vier Jahren dabei stets unterstützt hat.
Mein besonderer Dank gilt Dr. Monika Daseking, die auch bei größter Arbeitsbelastung jeder-
zeit ein offenes Ohr für große und kleine Probleme hatte, stets Interesse zeigte und eine fach-
liche und persönliche Bereicherung für mich war und hoffentlich weiterhin sein wird.
Desweiteren bin ich meinen Kollegen und Kolleginnen des ZKPR sehr dankbar, die mich mit
anregenden Gesprächen, aufbauenden Worten und fachlich kompetenten Tipps täglich beglei-
tet und für eine entspannte und humorvolle Arbeitsatmosphäre gesorgt haben: Julia, Anne,
Julia K., Julia D., Marijke, Sören, Dennis und viele mehr. PD Dr. Hans-Christian Waldmann dan-
ke ich für die methodische Betreuung und die konstruktive kritische Betrachtung des empiri-
schen Teils.
Ein großer Dank geht an die Schulen, Lehrer, Eltern, Kinder und Studenten (hier sei insbeson-
dere der engagierte und kompetente Einsatz von Bea zu erwähnen), die mir mit ihrer Hilfe die
Erstellung dieser Arbeit ermöglicht haben.
Ich danke meinen Freundinnen Helena, Steffi und Andrea, die trotz eigener Belastungen immer
für mich da waren und mich bei der Datenerhebung und der Erstellung der Dissertation un-
terstützt haben. Ebenso danke ich Jan, Jost, Susi, Anne und Julia für die konstruktiven Verbes-
serungsvorschläge.
Antje danke ich für die kompetente Hilfe, dafür, dass sie an den Nutzen dieser Arbeit für die
klinische Anwendung glaubt, für wertvolle Ablenkung und dafür, dass sie sich in meiner
schwersten Zeit als wahre Freundin erwiesen hat.
Schließlich danke ich meiner Familie, die ich von ganzem Herzen liebe! Insbesondere meinen
Eltern, die mir immer das Gefühl gaben, dass sie stolz auf mich sind. Ohne euch wäre nichts
von dem, was ich in meinen Leben bisher erreicht habe, möglich gewesen. Ich hoffe ich konnte
euch in diesem so ereignisreichen Jahr etwas von dem zurückgeben, was ihr mir so viele Jahre
gegeben habt.
Inhaltsverzeichnis I
1 Einleitung .............................................................................................................................. 2
2 Theoretische Grundlagen: Was ist Intelligenz? ..................................................................... 7
2.1 Intelligenzdefinitionen ................................................................................................. 7
2.2 Das Intelligenzkonzept David Wechslers .................................................................. 14
2.3 Zusammenfassung ..................................................................................................... 16
3 Intelligenztheorien und -modelle......................................................................................... 18
3.1 Die General-Faktoren-Theorie von Spearman ........................................................... 18
3.1.1 Bewertung ........................................................................................................... 20
3.1.2 Verbindung zu den Wechsler-Skalen .................................................................. 20
3.2 Das Primärfaktorenmodell von Thurstone ................................................................. 20
3.2.1 Bewertung ........................................................................................................... 21
3.2.2 Verbindung zu den Wechsler-Skalen .................................................................. 22
3.3 Die Gf-Gc-Theorie von Cattell und Horn ................................................................... 22
3.3.1 Fluide Intelligenz (gf) .......................................................................................... 23
3.3.2 Kristalline Intelligenz (gc) ................................................................................... 23
3.3.3 Weiterentwicklung der Gf-Gc-Theorie ................................................................ 24
3.3.4 Bewertung ........................................................................................................... 25
3.3.5 Verbindung zu den Wechsler-Skalen .................................................................. 25
3.4 Die Three-Stratum-Theorie von Carroll .................................................................... 26
3.4.1 Bewertung ........................................................................................................... 27
3.4.2 Unterschiede zur Gf-Gc-Theorie .......................................................................... 28
3.4.3 Verbindung zu den Wechsler-Skalen .................................................................. 29
3.5 Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten .................................. 29
3.5.1 Bewertung ........................................................................................................... 33
3.5.2 Verbindung zu den Wechsler-Skalen .................................................................. 34
3.6 Diskussionen zur Existenz eines g-Faktors................................................................ 36
3.6.1 Was ist g? ............................................................................................................ 36
3.6.2 Pro und Kontra .................................................................................................... 36
3.6.3 Verbindung zur Studie ........................................................................................ 39
Inhaltsverzeichnis II
3.7 Zusammenfassung ..................................................................................................... 40
4 Die Wechsler-Skalen ........................................................................................................... 42
4.1 Die Geschichte der Wechsler-Skalen ......................................................................... 42
4.2 Der HAWIK-III ......................................................................................................... 47
4.3 Der HAWIK-IV ......................................................................................................... 49
4.4 Testgütekriterien des HAWIK-III und HAWIK-IV................................................... 51
4.4.1 Objektivität .......................................................................................................... 52
4.4.1.1 Objektivität im HAWIK-III............................................................................. 52
4.4.1.2 Objektivität im HAWIK-IV ............................................................................ 53
4.4.2 Reliabilität ........................................................................................................... 54
4.4.3 Validität ............................................................................................................... 55
4.4.3.1 Nachweis der internen Struktur ....................................................................... 55
4.4.3.2 Konstruktvalidität ............................................................................................ 57
4.4.4 Normen des HAWIK-III und HAWIK-IV .......................................................... 58
4.4.5 Boden- und Deckeneffekte .................................................................................. 58
4.5 Die Bewertung der Wechsler-Skalen ......................................................................... 59
4.5.1 Fehlende theoretische Bindung ........................................................................... 60
4.5.2 Profilanalysen ...................................................................................................... 61
4.5.3 Weitere Kritikpunkte ........................................................................................... 63
4.5.4 Abschließende Betrachtung der Wechsler-Skalen .............................................. 63
4.6 Bewertung der WISC-IV ........................................................................................... 64
4.6.1 Aktualisierung der theoretischen Grundlagen ..................................................... 64
4.6.2 Anpassung an den Entwicklungsstand der Kinder .............................................. 68
4.6.3 Steigerung der Anwenderfreundlichkeit ............................................................. 68
4.6.4 Zusätzliche Auswertungsmöglichkeiten .............................................................. 69
4.6.5 Schwächen der WISC-IV .................................................................................... 70
4.7 Unterschiede zwischen HAWIK-III und -IV und deren Auswirkung auf die
Vergleichbarkeit beider Testversionen .................................................................................... 71
4.7.1 Allgemeine und strukturelle Veränderungen zwischen beiden Testversionen .... 71
Inhaltsverzeichnis III
4.7.2 Veränderungen in den einzelnen Untertests ........................................................ 72
4.7.2.1 Index Sprachverständnis ................................................................................. 74
4.7.2.2 Index Wahrnehmungsgebundenes Logisches Denken .................................... 79
4.7.2.3 Index Arbeitsgedächtnis .................................................................................. 81
4.7.2.4 Index Verarbeitungsgeschwindigkeit .............................................................. 82
4.8 Zusammenfassung ..................................................................................................... 83
5 Methodische Aspekte bei Vergleichsstudien ...................................................................... 84
5.1 Korrelationsstudien .................................................................................................... 84
5.1.1 Korrelationsstudien zur WISC-III ....................................................................... 84
5.1.2 Korrelationsstudien zum HAWIK-III ................................................................. 85
5.1.3 Korrelationsstudien zur WISC-IV ....................................................................... 86
5.1.4 Korrelationsstudien zum HAWIK-IV ................................................................. 86
5.1.5 Korrelationsstudien mit anderen Testverfahren .................................................. 87
5.2 Störeinflüsse .............................................................................................................. 88
5.2.1 Lerneffekt ............................................................................................................ 90
5.2.2 Flynn-Effekt ........................................................................................................ 94
5.3 Grenzen der Intelligenzdiagnostik ............................................................................. 96
5.4 Zusammenfassung ..................................................................................................... 97
6 Ableitung der Fragestellung und Hypothesen ..................................................................... 99
6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte von HAWIK-III und -IV 100
6.2 Hypothesen zur Faktorenstruktur des HAWIK-III und -IV ..................................... 102
6.3 Hypothesen zum Zusammenhang zwischen HAWIK-III und HAWIK-IV ............. 103
6.3.1 Einfluss der Testvorgabe ................................................................................... 104
6.3.2 Einfluss des Zeitintervalls ................................................................................. 105
6.4 Hypothesen zur Regressionsanalyse ........................................................................ 106
7 Methoden und Datenanalyse ............................................................................................. 111
7.1 Studienablauf ........................................................................................................... 111
7.2 Studiendesign ........................................................................................................... 111
7.3 Stichprobenbeschreibung ......................................................................................... 113
Inhaltsverzeichnis IV
7.3.1 Gesamtstichprobe .............................................................................................. 113
7.3.2 Gematchte Stichprobe ....................................................................................... 115
7.4 Untersuchungsinstrumente ....................................................................................... 117
7.5 Statistische Methoden zur Analyse der Daten ......................................................... 118
7.5.1 t-Tests für abhängige Stichproben ..................................................................... 118
7.5.2 Faktorenanalysen ............................................................................................... 119
7.5.3 Korrelationen ..................................................................................................... 119
7.5.3.1 Zusammengefasste Werte.............................................................................. 120
7.5.4 Regressionsanalysen .......................................................................................... 121
7.5.4.1 Multiple lineare Regression........................................................................... 122
7.5.4.2 Vorhergesagte Werte und Konfidenzintervalle ............................................. 122
8 Ergebnisse ......................................................................................................................... 124
8.1 Explorative Datenanalyse ........................................................................................ 124
8.1.1 Deskriptive Statistiken des HAWIK-III ............................................................ 124
8.1.2 Deskriptive Statistiken des HAWIK-IV ............................................................ 126
8.2 Überprüfung der Mittelwertdifferenzen ................................................................... 129
8.3 Mittelwertvergleich .................................................................................................. 131
8.3.1 Kurzes Intervall ................................................................................................. 132
8.3.2 Langes Intervall ................................................................................................. 134
8.4 Lerneffekt ................................................................................................................ 136
8.5 Flynn-Effekt ............................................................................................................. 142
8.6 Untersuchung der Teststruktur mit Hilfe von Faktorenanalysen ............................. 144
8.6.1 Faktorenanalysen ohne Vorgabe der Faktorenanzahl ........................................ 144
8.6.2 Faktorenanalysen mit Vorgabe der Faktorenanzahl .......................................... 146
8.6.3 Zusammenfassung Faktorenanalysen ................................................................ 149
8.7 Untersuchung des Zusammenhangs mit Hilfe von Korrelationen ........................... 149
8.7.1 Korrelationen der Gesamtstichprobe ................................................................. 149
8.7.2 Korrelationen der Teilstichprobe....................................................................... 156
8.7.3 Zusammenfassung Korrelationsanalysen .......................................................... 158
Inhaltsverzeichnis V
8.8 Regressionsanalysen ................................................................................................ 159
8.8.1 Untersuchung der Varianzaufklärung der HAWIK-III-Untertests .................... 159
8.8.2 Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests .................... 161
8.8.3 Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ ................. 163
8.8.4 Erwartete Werte und Konfidenzintervalle ......................................................... 164
8.8.5 Zusammenfassung der Regressionsanalysen ..................................................... 168
8.9 Zusammenfassung der Ergebnisse ........................................................................... 169
9 Diskussion der Ergebnisse ................................................................................................ 170
9.1 Ergebnisbetrachtung des Mittelwertvergleichs ............................................................... 170
9.2 Ergebnisbetrachtung der Störeinflüsse ............................................................................ 171
9.2.1 Lerneffekt ................................................................................................................. 171
9.2.2 Flynn-Effekt ............................................................................................................. 174
9.3 Ergebnisbetrachtung der Faktorenanalysen..................................................................... 176
9.4 Ergebnisbetrachtung der Korrelationsanalysen ............................................................... 177
9.4.1 Einfluss der Testreihenfolge ..................................................................................... 178
9.4.2 Höhe der Korrelationen der Gesamtstichprobe ........................................................ 178
9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe .............................. 180
9.4.4 Einfluss der Länge des Re-Testintervalls ................................................................. 180
9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen ............................... 181
9.5 Ergebnisbetrachtung der Regressionsanalysen ............................................................... 181
9.5.1 Varianzaufklärung der Untertests des HAWIK-III .................................................. 181
9.5.2 Varianzaufklärung der Untertests des HAWIK-IV .................................................. 184
9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ ...................................................... 185
9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen ................................ 186
9.5.5 Erwartete Werte und Konfidenzintervalle ................................................................ 186
9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung............................................... 187
9.7 Einzelfallbetrachtungen ................................................................................................... 188
9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes ................................ 188
9.7.2 Klinische Relevanz ................................................................................................... 190
Inhaltsverzeichnis VI
9.7.3 Unterschiedliche Normierung .................................................................................. 190
9.7.4 Inhaltliche Veränderungen der Untertests ................................................................ 190
9.7.5 Veränderungen der Untertestreihenfolge ................................................................. 191
9.7.6 Zusammenfassung der Einzelfallbetrachtungen ....................................................... 192
9.8 Ausblick und Einschränkungen ....................................................................................... 192
9.8.1 Perspektiven für die Praxis ....................................................................................... 192
9.8.2 Einschränkungen der Studie ..................................................................................... 195
9.8.3 Forschungsperspektiven ........................................................................................... 197
Zusammenfassung ..................................................................................................................... 198
Literaturverzeichnis ................................................................................................................... 199
Anhang ...................................................................................................................................... 217
Abbildungsverzeichnis .......................................................................................................... 217
Tabellenverzeichnis ............................................................................................................... 218
Zusatztabellen ....................................................................................................................... 221
I Theoretischer Teil
Kapitel 1 Einleitung 2
1 Einleitung
Allgemeines Wissen, Frage 18: „Wie viel Tage hat das Jahr?“
Thilo, 8 Jahre: „Das ist mir doch egal, Hauptsache irgendwann ist Weihnachten!“
Die Intelligenz fasziniert die Menschen seit vielen Jahrhunderten. Bereits 300 v. Chr. fand der
Begriff seine Erwähnung durch den chinesischen Philosophen Lao-Tse, der konstatierte: „Dinge
wahrzunehmen ist der Keim der Intelligenz“. Bis heute wird darüber gerätselt und philoso-
phiert, was Intelligenz eigentlich ist und was einen intelligenten Menschen ausmacht. Sie
nimmt damit eine große Bedeutung in unserem Leben ein, auch wenn dies nicht von allen so
gesehen wird: „Intelligenz ist nur eine zufällige Begleiterscheinung des Lebens, und vielleicht
nicht einmal eine sehr nützliche“, findet der Biochemiker und Sciencefiction-Autor Isaac Asi-
mov.
Unzählige Forschungsarbeiten haben sich der Intelligenz angenommen. Allerdings gibt es bis
heute keine einheitliche Ansicht darüber, was unter Intelligenz zu verstehen ist. Schon Anfang
des vergangenen Jahrhunderts erklärten die Entwickler des ersten Intelligenztests, Binet und
Simon (1916): “Life is so much a conflict of intelligences as a combat of characters” (S. 256). Es
scheinen ebenso viele Intelligenzdefinitionen wie Intelligenzforscher1 zu existieren. In dieser
Arbeit sollen die verschiedenen Definitionen beleuchtet und ihre Gemeinsamkeiten und Un-
terschiede aufgezeigt werden.
Die Erfassung von Intelligenz hat mittlerweile auch Einzug in den Alltag gehalten. Ein Blick in
die Fernsehlandschaft macht deutlich, dass sie in den letzten Jahren geradezu zu einem Mode-
thema avancierte. „Der große IQ-Test“, „Deutschlands klügste Kinder“, „Wie schlau ist
Deutschland?“ – das Rätselraten um das Wissen und die kognitiven Fähigkeiten hat Hochkon-
junktur. Das Internet überhäuft seine Nutzer mit Gratis-IQ-Tests, die vorgeben, innerhalb kür-
zester Zeit anhand weniger Aufgaben einen aussagekräftigen Intelligenzquotienten ermitteln
zu können. Diese Form von IQ-Testung ist jedoch oftmals fragwürdig und so sollte einem über
eine TV-Sendung oder das Internet ermittelten Wert kritisch begegnet werden. Die Entwick-
lung eines wissenschaftlich fundierten Intelligenztests unterliegt strengen Anforderungen, die
in der vorliegenden Arbeit ebenso thematisiert werden wie die Einschränkungen und Grenzen,
die beim Einsatz von Intelligenztests zu beachten sind. Die Intelligenzdiagnostik zählt heute zu
den wichtigsten Bereichen der klinischen Psychologie und bildet den Schwerpunkt psychologi-
scher Leistungsdiagnostik (Petermann, 2006). Der Intelligenzdiagnostik kommt in vielen Berei-
1 Im Folgenden wird zur besseren Lesbarkeit ausschließlich die männliche Form verwendet, gemeint sind jedoch beide Geschlechter.
Kapitel 1 Einleitung 3
chen der Psychologie eine wesentliche Bedeutung zu. Sie bildet den Schwerpunkt einer psy-
chologischen Leistungsdiagnostik, die über die Darstellung eines normbasierten und ressour-
cenorientierten Leistungsprofils die Diagnose der kognitiven Leistungsfähigkeit einer Person
ermöglicht (Daseking, Janke & Petermann, 2006). Diesen Stellenwert besitzt sie jedoch noch
nicht so lange wie ihre mehr als hundertjährige Tradition vermuten lässt. Lange Zeit waren
Intelligenztests umstritten. Erst in den letzten Jahrzehnten setzten sie sich als bedeutsames
Diagnoseinstrument durch.
Intelligenztests wie die Wechsler-Skalen kommen in vielen Bereichen zum Einsatz. Dazu gehö-
ren nach Aiken (2003)
die Diagnose von Hoch- und Minderbegabung und die Auswahl intelligenzgeminderter oder hochbegabter Kinder für spezifische Fördermaßnahmen oder Schullaufbahnpla-nungen,
die Prognose beruflicher Leistungen im Bereich der Personalauswahl und -entwicklung in der Arbeits- und Organisationspsychologie,
die Diagnose im klinischen und psychiatrischen Setting,
die Evaluation der Effektivität psychologischer Behandlungen und Interventionen so-wie
die Erforschung der kognitiven Fähigkeiten und der Persönlichkeit.
Der Begriff Diagnostik entstammt dem griechischen Wort diagignostikein, das eine kognitive
Funktion mit den Bedeutungen gründlich kennenlernen, Unterscheiden von Merkmalen und
Beurteilungen vornehmen bezeichnet.
Nach Kubinger (2006) erhebt ein psychologischer Leistungstest „unter standardisierten Bedin-
gungen eine Informationsstichprobe über die Testperson, indem … mit systematisch erstellten
Aufgaben interessierende Verhaltensweisen oder psychische Vorgänge ausgelöst und geprüft
werden“ (S. 118). Er stellt ein Verfahren dar, das nach den Regeln der Testtheorie konstruiert
wurde und eine Stichprobe jener Verhaltensweisen erhebt, die zum Zielmerkmal gehören und
es operational definieren (Fisseni, 2004). Intelligenztests gehören dabei in den Bereich der
Fähigkeitsmessung, wobei Fähigkeiten die psychischen und somatischen Bedingungen ange-
ben, die eine Leistung ermöglichen. Intelligenz als Fähigkeit kann selbst nicht beobachtet wer-
den, sie muss aus der Leistung in der Testsituation erschlossen werden.
Nach Jäger und Petermann (1999) verfolgt psychologische Diagnostik das Ziel, Entscheidungen
und sich daraus ergebende Handlungen zu begründen, zu kontrollieren und zu optimieren. In
Anlehnung daran bezeichnen Eid und Petermann (2006) Diagnostik als „die regelgeleitete
Sammlung und Verarbeitung von gezielt erhobenen Informationen, die für das Verständnis
menschlichen Verhaltens bedeutsam sind“ (S. 16). Dies beinhaltet eine möglichst umfassende
Erhebung relevanter Personendaten sowie die transparente Integration dieser Daten zu einer
Kapitel 1 Einleitung 4
wissenschaftlich begründeten Diagnose, die möglichst direkt mit einer adäquaten Intervention
einhergeht (Bölte, Adam-Schwebe, Englert, Schmeck & Poustka, 2000). Um veränderungorien-
tierte Ansätze mehr in den Vordergrund zu stellen, definieren Amelang und Schmidt-Atzert
(2006) als Aufgabe der Psychodiagnostik die Erfassung interindividueller Unterschiede im Ver-
halten und Erleben sowie intraindividueller Merkmale und Veränderungen einschließlich ihrer
jeweils relevanten Bedingungen. Somit werden hinlänglich präzise Vorhersagen künftigen Ver-
haltens und Erlebens sowie deren eventuelle Veränderungen in definierten Situationen mög-
lich.
Ende 2004 bekam das Zentrum für Klinische Psychologie und Rehabilitation der Universität
Bremen den Auftrag, die US-amerikanische Intelligenztestbatterie WISC-IV für den deutsch-
sprachigen Raum zu adaptieren und zu normieren. In den folgenden drei Jahren wurde der
HAWIK-IV in Deutschland, Österreich und der deutschsprachigen Schweiz an über 2 600 Kin-
dern und Jugendlichen im Alter von 6 bis 16 Jahren normiert. 2007 wurde der Test im Huber-
Verlag veröffentlicht.
Parallel zur Normierung wurden diverse Validierungsstudien durchgeführt. Die Validierung
dient einer Spezifikation und Präzisierung der diagnostischen Schlussfolgerungen, die aus sei-
nen Ergebnissen korrekt gezogen werden können. Die Validität eines Testverfahrens gilt als das
wichtigste Gütekriterium (Bortz & Döring, 2002) und demnach als wichtigster Aspekt bei der
Testentwicklung und -evaluation (AERA, 1999; Angoff, 1988). Andere technische und konstruk-
tionstheoretische Gütekriterien wie die Objektivität oder die Reliabilität gelten nur als Voraus-
setzungen zur Steigerung der Validität eines Instruments (Jäger, A. O., 1986).
Zur Validierung des HAWIK-IV wurden beispielsweise regionale Unterschiede zwischen den
Kindern aus Deutschland und der Schweiz untersucht (Grob et al., 2008). Einen ebenso wichti-
gen Beitrag zur Validität des Verfahrens leisten klinische Studien zu Kindern mit Hochbega-
bung, leichter oder mittelgradiger Intelligenzminderung, Lese-Rechtschreibstörung (LRS) und
Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung (ADHS) (Petermann & Petermann, 2008a).
Weitere Studien wurden bereits veröffentlicht oder befinden sich zurzeit in Bearbeitung (Hag-
mann-von Arx, Meyer & Grob, 2008; Holocher-Ertl, Kubinger & Hohensinn, 2008).
Neben der Mitarbeit an der Entwicklung und Normierung des HAWIK-IV bestand die Aufgabe
der Verfasserin der vorliegenden Studie darin, die Gültigkeit des neuen Verfahrens nachzuwei-
sen. Konkret sollte dies mit Hilfe eines Vergleichs zwischen dem Test und seinem Vorgänger-
verfahren, dem HAWIK-III, erfolgen. Bei der Entwicklung neuer Versionen von Testverfahren
stellt die Interpretation einen wichtigen Aspekt dar. Testanwender sollten von einer Vergleich-
barkeit des neuen Testverfahrens mit der vorherigen Version ausgehen können, wenn bei-
Kapitel 1 Einleitung 5
spielsweise mit Hilfe des Testverfahrens für eine Verlaufsdiagnostik die Entwicklung eines Pa-
tienten anhand der alten Version (hier HAWIK-III) vor Beginn der Maßnahme und der neuen
Version (hier HAWIK-IV) nach Beendigung der Maßnahme abgebildet werden soll. Abweichun-
gen in der Struktur der Tests und der Intelligenz der Menschen (Flynn-Effekt) führen jedoch zu
einer zu deutlichen Abweichung der neuen von der alten Version eines Testverfahrens, um
eine ausreichende Übereinstimmung garantieren zu können. In dieser Studie soll nun unter-
sucht werden, ob die veränderte Teststruktur, die aktualisierten Normen und die inhaltlichen
Veränderungen in den Untertests die Vergleichbarkeit des aktuellen HAWIK-IV mit dem HA-
WIK-III beeinträchtigen.
Verschiedene Studien legen nahe, dass der HAWIK-III aufgrund sogenannter „Normverschie-
bungen“ überhöhte Werte liefert (Sparrow & Gurland, 1998). Somit kann die kognitive Leis-
tungsfähigkeit eines Kindes fehleingeschätzt (überschätzt) werden. Dies sollte durch die Revi-
sion und Neunormierung behoben werden. Den HAWIK-IV als neuen Maßstab für die Beurtei-
lung individueller Testergebnisse anzulegen, setzt jedoch ein möglichst präzises Wissen über
die möglichen Differenzen zwischen den Testergebnissen beider Versionen voraus. Als Metho-
de zur Untersuchung dieser Differenzen bietet es sich an, beide Testversionen von denselben
Kindern durchführen zu lassen und die Testergebnisse miteinander zu vergleichen. Damit wird
versucht, dem Praktiker eine Richtlinie dafür zu geben, was er zu beachten hat, wenn er bisher
den HAWIK-III angewandt hat und zukünftig mit dem HAWIK-IV arbeiten will.
In den vergangenen Jahrzehnten spielte die dem Testverfahren zugrunde liegende Intelligenz-
theorie bei der Testentwicklung und -interpretation eine immer größere Rolle (Kamphaus,
Winsor, Rowe & Kim, 2005). Aus diesem Grund wird im Folgenden auf die Intelligenztheorien
und -modelle eingegangen, die bei der Entwicklung der Wechsler-Skalen von Bedeutung war-
en. Zwar legte Wechsler seinen Tests explizit keine Theorie zu Grunde, diesen wurden im
Nachhinein aber diverse Intelligenztheorien und -modelle zugeordnet. Dabei sind vor allem
Strukturmodelle zu nennen, die einen hierarchischen Aufbau aufweisen.
Zur Einordnung der Ergebnisse dieser Studie werden bisherige Korrelationsstudien beschrie-
ben, die Hinweise darauf geben können, welche Resultate in der vorliegenden Untersuchung
zu erwarten sind. Außerdem wird ausführlich möglichen Störeinflüssen auf den Vergleich zwi-
schen den Testversionen HAWIK-III und -IV nachgegangen.
Die Wechsler-Skalen zählen zu den meist untersuchten und angewandten Intelligenztestver-
fahren der Welt (Zhu & Weiss, 2005). Sie prägen wie kein anderer Intelligenztest seit nunmehr
siebzig Jahren die Diagnostik von Kleinkindern, Kindern, Jugendlichen und Erwachsenen. Vor
allem dank seiner Skalen gilt David Wechsler als Hauptfigur im Bereich der Testentwicklung in
der zweiten Hälfte des zwanzigsten Jahrhunderts (Edwards, 1994). Da es sich bei dem HAWIK-
Kapitel 1 Einleitung 6
IV um den Test handelt, dessen Validität nachgewiesen werden soll, wird auf seine Vor- und
Nachteile besonders eingegangen. So besteht neben vielen positiven Reaktionen auf das ak-
tuelle Verfahren weiterhin diverse Kritik an den Wechsler-Skalen, die nicht unbeachtet gelas-
sen werden kann. Dem HAWIK-IV liegen die bisher größten Änderungen gegenüber einer Vor-
gängerversion zu Grunde. Aus diesem Grund wird ein Vergleich der gegenständlichen Testver-
sionen HAWIK-III und -IV im Hinblick darauf vorgenommen, inwieweit diese inhaltlichen und
strukturellen Veränderungen zu Einschränkungen der Vergleichbarkeit beider Versionen füh-
ren können.
Der Schwerpunkt dieser Arbeit liegt im methodischen Bereich, da weniger ein bestimmtes
psychologisches Konstrukt oder klinisch-psychologisches Krankheitsbild anhand spezifischer
Methoden untersucht wird, als vielmehr die Methode in Form eines Testverfahrens selbst. Im
empirischen Teil werden zunächst neben der Vorstellung des Aufbaus und Designs dieser Vali-
dierungsstudie die Stichprobe und die angewandten statistischen Verfahren beschrieben. Wei-
terhin werden die gemäß den theoretischen Erwartungen aufgestellten Hypothesen unter-
sucht und die Ergebnisse detailliert aufgezeigt.
Abgeschlossen wird die vorliegende Arbeit mit der Diskussion der Ergebnisse, ihrer Einordnung
in den theoretischen Rahmen, der kritischen Bewertung der Studie sowie der Erörterung der
Implikationen der erhaltenen Ergebnisse für die Praxis und den daraus resultierenden Anre-
gungen für zukünftige Forschungsarbeiten.
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 7
2 Theoretische Grundlagen: Was ist Intelligenz?
Allgemeines Verständnis, Frage 5: „Was solltest du tun, wenn du in einem Geschäft eine
Brieftasche oder ein Portemonnaie findest?“
Yannik, 7 Jahre: „Es behalten - ich steh auf Geld!“
Obwohl Intelligenz als das am meisten untersuchte Persönlichkeitsmerkmal in der Psychologie
gilt, gibt es bis heute keine allgemeingültige Definition der Intelligenz (Holling, Preckel & Vock,
2004). Schon vor mehr als 20 Jahren hatte eine Umfrage unter den derzeit bekanntesten Intel-
ligenztheoretikern schon ebenso viele Definitionen ergeben, wie Personen befragt worden
waren (Sternberg & Detterman, 1986).
Nach wie vor besitzt der Begriff Intelligenz keinen allgemein anerkannten, objektiven Inhalt
(Funke & Vaterrodt-Plünnecke, 2004). Der Grund dafür dürfte sein, dass Intelligenz nicht direkt
zu beobachten ist, sie muss vielmehr aus dem Verhalten eines Menschen, wie beispielsweise
beim Lösen von Problemen, abgeleitet werden. Schon durch die verschiedenen Forschungs-
richtungen in Bezug auf die Intelligenzleistungen haben sich unterschiedliche Intelligenzdefini-
tionen entwickelt. Diese spiegeln richtungsbedingt die unterschiedlichen Auffassungen und
Perspektiven der jeweiligen Forscher wider.
Im Folgenden sollen die am weitesten verbreiteten Definitionen von Intelligenz vorgestellt
werden.
2.1 Intelligenzdefinitionen Die Franzosen Binet und Simon (1916), die Anfang des zwanzigsten Jahrhunderts den ersten
Intelligenztest entwickelten, verstanden unter Intelligenz die Fähigkeit, gut urteilen und sich
gut der Umwelt anpassen zu können sowie die Richtung des Bestrebens einer Person und ihre
Fähigkeit zur Selbstkritik. Parallel dazu definierte der deutsche Psychologe und Begründer der
differentiellen Psychologie, William Stern (1911), Intelligenz als die Fähigkeit einer Person, ihr
Denken bewusst auf neue Situationen einstellen und sich deren Anforderungen erfolgreich
anpassen zu können.
Die wohl bekannteste Intelligenzdefinition geht nach Sternberg (2000b) auf Boring zurück, der
1923 vorschlug, Intelligenz als das anzusehen, was Intelligenztests messen. Boring sah dies
jedoch nicht als endgültige Definition an, sondern verstand seinen Vorschlag eher als eine Art
Startpunkt für eine Diskussion, in der diese Definition so lange Bestand habe, bis die wissen-
schaftliche Diskussion es erlaube, sie zu erweitern. Noch heute unterstützen Holling et al.
(2004) Borings Definition, indem sie die Intelligenz als einen theoretischen Begriff beziehung-
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 8
sweise ein Konstrukt ansehen, das nicht direkt beobachtbar sei, und die Intelligenz einer Per-
son somit aus ihrem Verhalten in unterschiedlichen Leistungssituationen (also Intelligenztests)
erschlossen werden müsse. Auch nach Jensen ist Intelligenz per Definition das, was Intelligenz-
tests messen (1972).
Diese Definition wurde vielfach kritisiert (Sternberg, 2000b). Da bis zum heutigen Tage noch
nicht vollständig geklärt ist, was genau Intelligenztests messen, wurde sie als wenig hilfreich
eingestuft. Außerdem korrelieren verschiedene Intelligenztests nicht vollständig miteinander
und bilden somit keine Einheit, wie es diese Definition impliziert. Weiterhin wurde diese Defi-
nition als konservativ kritisiert, da sie es niemals möglich machen werde, Intelligenz in einer
Weise zu verstehen, die über die traditionellen Testverfahren hinausgehe. Nach Flynn (2007)
könnte nie ein besserer IQ-Test entwickelt werden, wenn Intelligenz das ist, was aktuelle Intel-
ligenztests messen, da der neue IQ-Test nach dieser Definition eine Abweichung von dem wä-
re, was man bis dahin als Intelligenz zu messen glaubte. Brody (2000) kam zu folgendem
Schluss: „We know how to measure something called intelligence, but we do not know what
has been measured” (S. 30).
Es gehen auch nur wenige Wissenschaftler davon aus, dass IQ-Tests ein reines Maß der Intelli-
genz widerspiegeln. Intelligenz stellt nach Bjorklund und Schneider (2006) vielmehr ein Phä-
nomen dar, das mit Hilfe eines einzelnen Messverfahrens nicht adäquat erfasst werden kann.
1921 fand ein Symposium zur Frage der Definition von Intelligenz statt, an dem 14 Experten
teilnahmen, die folgende Definitionen von Intelligenz einbrachten:
die Stärke guter Antworten aus dem Blickwinkel von Wahrheiten oder Fakten (Thorn-dike, 1921),
die Fähigkeit, abstrakt zu denken (Terman, 1921),
sensorisches Vermögen, Wiedererkennungsvermögen, Schnelligkeit und Bandbreite an Flexibilität beim Assoziieren, Leichtigkeit und Einbildungskraft, Aufmerksamkeitsspan-ne, Schnelligkeit oder Wachheit beim Antworten (Freeman, 1921),
die Fähigkeit, zu lernen oder schon gelernt zu haben sich selbst mit der Umwelt zu ar-rangieren (Colvin, 1921),
die Fähigkeit, sich adäquat an relativ neue Lebenssituationen anzupassen (Pintner, 1921),
die Aufnahmefähigkeit für Wissen und verfügbares Wissen (Henmon, 1921),
ein biologischer Mechanismus, der die Auswirkungen der Komplexität von Stimuli zu-sammenführt und einheitliche Wirkungen im Verhalten bereitstellt (Peterson, 1921),
das Vermögen, instinktive Anpassung zu unterdrücken, diese instinktive Anpassung angesichts des vornehmlich angewendeten Prinzips von Versuch und Irrtum neu zu de-finieren und das Vermögen, die modifizierte instinktive Anpassung in offenem Verhal-ten zum Vorteil des Individuums als sozialem Wesen zu realisieren (Thurstone, 1921),
das Vermögen, sich Vermögen anzueignen (Woodrow, 1921),
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 9
das Vermögen, zu lernen oder von Erfahrungen zu profitieren (Dearborn, 1921) sowie
Empfindung, Wahrnehmung, Assoziation, Gedächtnis, Einbildungskraft, Diskriminati-onsfähigkeit, Urteilsvermögen und logisches Denken (Haggerty, 1921).
Als gemeinsame Nenner finden sich nach Sternberg (1997a, 2004) in diesen Definitionen
Fähigkeiten höherer Ordnung (wie abstraktes Denken, Problemlösen und Entschei-dungsfähigkeit),
die Fähigkeit, sich den Anforderungen der Umwelt anzupassen und
die Fähigkeit zu lernen.
Über 60 Jahre später fand ein weiteres Symposium statt, das die Definitionen von 1921 ablö-
sen sollte. Zwei dutzend Forscher auf dem Gebiet der Intelligenz versuchten, eine Definition zu
finden (Sternberg & Detterman, 1986). Wie oben erwähnt, kamen dabei ebenso viele Defini-
tionen wie Teilnehmer des Symposiums heraus. Für Sternberg (1997a) waren bei diesem Tref-
fen die am häufigsten genannten Elemente:
Fähigkeiten höherer Ordnung,
das, was durch die Bildung geschätzt werden kann und
exekutive Prozesse.
Es gab einige Gemeinsamkeiten zwischen beiden Symposien (Sternberg, 2000b). Attribute wie
Anpassung an die Umwelt, basale mentale Prozesse und Denkprozesse höherer Ordnung wie
logisches Denken, Problemlösungsverhalten und Entscheidungsfindung waren in beiden Tref-
fen stark vertreten. Außerdem gab es einige Themen, die in beiden Symposien behandelt wur-
den. Dazu gehörte die Frage, ob Intelligenz eine oder mehrere Facetten hat, die jedoch in bei-
den Treffen nicht einvernehmlich beantwortet werden konnte (siehe dazu Kapitel 3.6), ebenso
wie die Frage, wie weit die Definition von Intelligenz gefasst werden muss. Während einige
Forscher Intelligenz relativ eng im Sinne von biologischen und kognitiven Elementen definier-
ten, sahen andere in ihr auch weiter gefasste Bereiche wie Motivation oder Persönlichkeit.
Auch hinsichtlich dieses Problems konnte keine Lösung gefunden werden.
Es bestanden aber auch deutliche Unterschiede zwischen den Definitionen von 1921 und 1986.
So kam der Metakognition, verstanden als die Fähigkeit sich selbst zu verstehen und zu kon-
trollieren (Sternberg, 2004), 1986 eine Bedeutung zu, die sie 1921 noch nicht eingenommen
hatte. Außerdem wurden beim späteren Treffen die Rolle von Wissen und die Interaktion zwi-
schen Wissen und kognitiven Prozessen stärker in den Vordergrund gestellt. Ebenso lag 1986
der Schwerpunkt bei der Definition von Intelligenz auf der Rolle des Kontextes und im Speziel-
len der Kultur. Auch Baltes (1983) hatte das Aneignen von Wissen als wichtigen Aspekt eines
intelligenten Menschen betrachtet. Für ihn bedeutet Intelligenz nicht nur die Fähigkeit der
Informationsverarbeitung und des logischen Denkens, sondern auch eine Fähigkeit des Aneig-
nens, Organisierens und Gebrauchens von Kulturwissen.
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 10
Im Laufe der Jahre kam in vielen Definitionen, wie in der von Wechsler (siehe Kapitel 2.2), dem
Thema der Anpassung eine zunehmende Bedeutung zu. Für Sternberg (1997b) passten sich
Menschen nicht nur der Umgebung an, sondern formten sie auch und suchten sich von Zeit zu
Zeit sogar eine neue Umwelt. Intelligenz reagiere nach ihm nicht nur auf die Umwelt, sondern
forme sie auch aktiv. Sternberg beschrieb Intelligenz als diejenigen kognitiven Fähigkeiten, die
sowohl für die Anpassung an äußere Gegebenheiten als auch für deren Formung und Auswahl
notwendig seien. Da sich die Landschaft des umgebungsbedingten Kontextes im Laufe der Zeit
ändere, setze die angemessene Anpassung, Formung und Auswahl einen lebenslangen Lern-
prozess voraus (Sternberg, 1997a). Ein erfolgreich intelligenter Mensch halte das Gleichge-
wicht zwischen Anpassung, Formung und Auswahl aufrecht, indem er von allem so viel wie
notwendig einbringe (Sternberg, 2004). Für Sternberg stand also das Lernen im Vordergrund,
da er davon ausging, ein Mensch muss erst lernen, wie man sich der Umwelt anpasst, bevor er
sie formen oder sich am Ende eine neue aussuchen kann.
Neisser (1979) vermutete zunächst, Intelligenz könne eher nach Prototypen definiert werden,
es gebe also keine eindeutigen Eigenschaften von intelligenten Menschen, sondern charakte-
ristische Eigenschaften, die typisch für intelligente Menschen seien. Ein intelligenter Mensch
sei demnach jemand, der bestimmte Eigenschaften aufweist. Es gebe für ihn jedoch keine spe-
ziellen Eigenschaften, die als wichtig und ausreichend identifiziert werden könnten, um einen
Menschen als intelligent zu bezeichnen. Später einigten sich Neisser und andere Intelligenzfor-
scher (Neisser et al., 1996) darauf, dass Individuen sich in ihren Fähigkeiten voneinander un-
terschieden, komplexe Ideen zu verstehen, sich effektiv an ihre Umwelt anpassen zu können,
von Erfahrungen zu lernen, verschiedene Formen des Schlussfolgerns anzuwenden und Hin-
dernisse zu bewältigen, in dem sie sich Gedanken machten.
Bei einer Befragung von Professoren verschiedener akademischer Fachbereiche zu ihrer Theo-
rie von Intelligenz hoben sie jeweils die Fähigkeiten hervor, die für ihr Fach besonders wichtig
waren (Sternberg, 1985b). Sternberg zog daraus den Schluss, dass den Intelligenz-Konzepten
von Experten verschiedene Metaphern zu Grunde liegen (1985a, siehe Tabelle 2.1).
Tabe
lle 2
.1: Ü
bers
icht
übe
r die
wic
htig
sten
Inte
llige
nzvo
rste
llung
en (m
odifi
zier
t nac
h St
ernb
erg,
198
5a)
Met
aphe
r V
ertr
eter
H
aupt
frag
e Zu
Gru
nde
lie
gend
e Ei
nhei
t Ty
pisc
he M
etho
de
geog
rafis
ch
Spea
rman
Th
urst
one
Gui
lford
Ca
ttel
l Ve
rnon
Ca
rrol
l
Wel
che
Form
bes
itzt d
as A
b-bi
ld d
es G
eist
es (m
ind -
map
)?
Fakt
or
Fakt
oren
anal
yse
rech
enbe
tont
Je
nsen
H
unt
Ster
nber
g
Wel
che
Info
rmat
ions
proz
esse
un
terl
iege
n In
telli
genz
? el
emen
tare
r In
-fo
rmat
ions
proz
ess
Reak
tions
zeita
naly
se
Prot
okol
lana
lyse
Co
mpu
ters
imul
atio
n
biol
ogis
ch, g
enet
isch
-er
kenn
tnis
theo
reti
sch
Piag
et
Wie
ent
wic
kelt
sich
Inte
llige
nz
als
phyl
ogen
etis
ches
und
on-
toge
netis
ches
Sys
tem
? Sc
hem
a Kl
inis
che
Beob
acht
ung
anth
ropo
logi
sch
Berr
y Co
le
Char
lesw
orth
Wel
che
Form
nim
mt I
ntel
li-ge
nz a
ls k
ultu
relle
En
tdec
kung
an?
Ku
lture
ller K
onte
xt
Inte
rkul
ture
ller
Verg
leic
h
sozi
olog
isch
Vy
gots
ky
Feue
rste
in
Wie
sin
d so
zial
e Pr
ozes
se in
di
e En
twic
klun
g ve
rinn
erlic
ht?
Verm
ittel
te L
erne
r-fa
hrun
g Ko
gniti
ve
Trai
ning
sstu
die
syst
emis
ch
Ster
nber
g W
ie s
teue
rn s
ich
Indi
vidu
en?
Inte
rnal
e In
form
a-tio
nsko
mpo
nent
e Ko
mpo
nent
enan
alys
e Pr
otot
ypan
alys
e
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 11
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 12
Der Sinn des Gebrauchs solcher Metaphern weist für Sternberg (2000b) einen Zusammenhang
mit dem Verwendungszweck auf. Welche Metapher man am besten übernehmen sollte, hängt
von dem Ziel ab, für das man sie benötigt.
Funke und Vaterrodt-Plünecke (2004) unterscheiden drei verschiedene Ansätze in der Betrach-
tung von Intelligenz: den Ansatz der Informationsverarbeitung sowie den psychometrischen
und den entwicklungspsychologischen Ansatz. Der informations-verarbeitende Ansatz entwi-
ckelte sich aus der experimentellen Psychologie. Anhänger dieser Richtung befassen sich mit
der Erforschung von Prozessen, die für die geistigen Leistungen grundlegende Bedeutung ha-
ben, indem beispielsweise Reaktionszeiten und Gedächtnisleistungen gemessen werden oder
untersucht wird, in welcher Weise der Mensch Gelerntes verarbeitet. Im psychometrischen
Ansatz werden auf der Basis von Tests psychische Merkmale gemessen. Es werden spezielle
statistische Verfahren wie Faktorenanalysen angewendet, um die Testergebnisse zu analysie-
ren. So wird dann eine Schlussfolgerung über die Struktur der Intelligenz abgeleitet. Der ent-
wicklungspsychologische Ansatz geht auf Piaget zurück. Dieser Ansatz beschäftigt sich mit der
kognitiven Entwicklung im Verlauf des Lebens.
Bei einer Studie sowohl unter Experten als auch unter der normalen Bevölkerung der USA zu
ihrer Vorstellung von Intelligenz ergaben sich in beiden Gruppen dieselben drei Faktoren: prak-
tisches Problemlösen, verbale Fähigkeiten und soziale Kompetenz (Sternberg, Conway, Ketron
& Bernstein, 1981). Die Autoren sahen hier bei den ersten beiden Faktoren eine Nähe zur Gf-
Gc-Theorie von Cattell und Horn (siehe Kapitel 3.3) wobei gf für das praktische Problemlösen
und gc für die verbalen Fähigkeiten stehen.
Flynn (2007) war der Ansicht, Intelligenz zu verstehen sei dasselbe, wie das Atom zu verstehen:
man müsse nicht nur verstehen, was die Komponenten zusammenhalte, sondern auch, was sie
voneinander trenne. Für ihn war der g-Faktor, die allgemeine Intelligenz, was die Komponen-
ten von Intelligenz zusammenhalte; was sie trenne, der von ihm untersuchte Flynn-Effekt. Die
allgemeine Intelligenz zeige sich, indem Menschen, die eine überdurchschnittliche kognitive
Fähigkeit haben, zumeist auch in anderen Bereichen besser seien als andere. Sie sei also die
Grundlage, auf der die überdurchschnittlichen Leistungen einer Person in vielen Bereichen
beruhten. Dies gelte beispielsweise auch für den Bereich der Musik. Wir nennen einen Men-
schen musikalisch, wenn er mehrere Instrumente spielen kann, er hat also ein „musical g“
(Flynn, 2007, S. 6). Diese g-Ladungen zeigten das Ausmaß, in dem ein Mensch mit hohem IQ in
einem Untertest die Leistung einer durchschnittlich begabten Person übertreffe. Je höher also
die g-Ladung, desto deutlicher spiegelt der Untertest die höheren Fähigkeiten der begabteren
Person wider.
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 13
Flynn (2007) nahm an, um Intelligenz zu verstehen, müsse man zunächst einmal feststellen,
welche Eigenschaften unsere Fähigkeit beeinflussen, ein Problem mit Hilfe des kognitiven In-
halts zu lösen. Für ihn sind das die Folgenden:
Geistige Scharfsinnigkeit: Die Fähigkeit, sofort Lösungsvorschläge für Probleme anbie-ten zu können, mit denen sich niemals zuvor auseinandergesetzt wurde, Probleme, die nicht durch mechanischen Einsatz einer gelernten Methode gelöst werden können und die häufig mehrere kreative alternative Lösungen abverlangen, aus denen gewählt werden muss.
Denkgewohnheiten: Die Weiterentwicklung der Wissenschaft brachte neue Denkge-wohnheiten von enormem Potential mit sich. Sie lösten das Logische und das Hypothe-tische von dem Konkreten ab und werden heutzutage genutzt, um eine ganze Reihe von neuen Problemen anzugehen.
Einstellungen: Sie legen die Basis für das Aneignen von Denkgewohnheiten. Es musste erst gelernt werden, die wissenschaftliche Systematik ernst zu nehmen, bevor der wis-senschaftliche Blickwinkel angenommen werden konnte, durch den heute auf die Welt geschaut wird.
Wissen und Information: Je mehr davon vorhanden ist, desto mehr Probleme können angegangen werden.
Verarbeitungsgeschwindigkeit, mit der man neue Daten aufnehmen kann. Müssen die Probleme innerhalb eines Zeitraums gelöst werden gilt: je schneller desto besser.
Gedächtnis, mit dem Wissen und Informationen abgerufen werden können.
Für Flynn trifft diese Definition die richtige Balance und ist weit genug, um kulturspezifische
Abweichungen und alle gegenwärtigen Intelligenztheorien zuzulassen. Seiner Meinung nach
konzipierten die Entwickler der bedeutendsten Intelligenztests ihre Tests, bewusst oder unbe-
wusst, nach dieser Definition.
Intelligenz steht demnach als Oberbegriff für die hierarchisch strukturierte Gesamtheit ver-
schiedener allgemeiner geistiger Fähigkeiten, die das Niveau und die Qualität der Denkprozes-
se einer Person bestimmen und mit deren Hilfe die für das Handeln wesentlichen Eigenschaf-
ten einer Problemsituation in ihren Zusammenhängen erkannt und die Situation gemäß dieser
Einsicht verändert werden kann (Guthke, 1999). Bei Intelligenz scheint es sich also im Wesent-
lichen um die Fähigkeiten zu handeln, die benötigt werden, um erworbenes Wissen anzuwen-
den, neuartige Probleme effektiv zu lösen und sich somit den Anforderungen der Umwelt an-
zupassen. Demnach gelingt es intelligenten Menschen besser, erfolgreiche Problemlösestrate-
gien zu entwickeln, verschiedene Strategien auf ihre Effektivität hin zu vergleichen und die
ausgewählten Strategien im Alltag erfolgreich umzusetzen (Petermann, 2006).
Da es auch zukünftig keine einheitliche Definition von Intelligenz geben wird, wird die zum
jeweiligen Zeitpunkt anerkannteste Definition von den jeweils aktuellen Intelligenztests ge-
prägt. Schon Spearman (1927), der Entwickler der General-Faktoren-Theorie (siehe Kapitel
3.1), hielt Intelligenz in Wahrheit zu einem Wort mit so vielen Bedeutungen, dass es letzten
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 14
Endes gar keine mehr habe. Viele Forscher sehen den fehlenden Konsens auch nicht als nega-
tiv an, da sie der Meinung sind, wissenschaftliche Forschungen beginnen selten mit einer
Übereinstimmung, auch wenn sie manchmal zu einer solchen führen (Neisser et al., 1996).
Zusammenfassend lässt sich immerhin festhalten, dass auch ohne eine einheitliche Definition
im Wesentlichen folgende Fähigkeiten Intelligenz ausmachen:
Schlussfolgerungen ziehen,
planen,
Probleme lösen,
abstrakt denken,
komplexe Ideen verstehen,
schnell verstehen und lernen sowie
aus Erfahrung lernen.
2.2 Das Intelligenzkonzept David Wechslers Da die Wechsler-Skalen Gegenstand dieser Untersuchung sind, soll an dieser Stelle ausführli-
cher auf die Intelligenzdefinition von David Wechsler eingegangen werden, welche die Basis
für die Entwicklung seiner Intelligenztestbatterien darstellt.
David Wechsler war in erster Linie Kliniker, der seine Tests mehr aus dem praktischen Bedürf-
nis heraus entwickelte, seine Patienten zu verstehen, als theoretischen Überlegungen nachzu-
gehen (Prifitera, 1994).
Er entwickelte seine Vorstellung von Intelligenz während seiner Arbeit als Chefpsychologe in
New Yorks Bellevue Psychiatric Hospital. Dabei definierte Wechsler (1944) Intelligenz wie folgt:
“Intelligence is the aggregate or global capacity of the individual to act purposefully, to think
rationally and to deal effectively with his environment“ (S. 3). Damit versuchte er zu vermei-
den, eine Fähigkeit, wie angesehen sie auch immer sei (z. B. abstraktes Schlussfolgern), als
entscheidend oder übermäßig wichtig hervorzuheben und implizierte, dass jeder Untertest
eines Intelligenztests austauschbar sei (Flanagan & Kaufman, 2004). Diese Definition von Intel-
ligenz, von der er bis zuletzt nicht abwich, stellte die Basis dar, auf der er seine Intelligenztest-
verfahren entwickelte (Edwards, 1994).
Nach Wechsler (1939a) stellt die Intelligenz also ein globales Konstrukt dar, da sie das Verhal-
ten eines Individuums als Ganzes bestimmt. Für ihn konnte allgemeine Intelligenz nicht gleich-
gesetzt werden mit intellektueller Fähigkeit, wie weit diese auch immer definiert sei, sondern
musste als eine Manifestation der Persönlichkeit als Ganzes angesehen werden (Wechsler,
1950).
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 15
Andererseits war er der Ansicht, die Intelligenz könne als spezifisch dargestellt werden, da sie
aus Elementen oder Fähigkeiten zusammengesetzt sei, die, obwohl nicht völlig unabhängig
voneinander, qualitativ unterscheidbar seien (Wechsler, 1939a). Für Wechsler (1975) ist Intel-
ligenz kein einzelnes und einzigartiges Merkmal, sondern eine vielfältige Einheit, ein Komplex
diverser und vielfacher Komponenten. Testleistungen reflektierten seiner Meinung nach nur
einen Teil dessen, was Intelligenz beinhaltete. Der Versuch, Intelligenztestergebnisse als Ge-
samtfähigkeit zu würdigen, das heißt als die Fähigkeit, alle möglichen Situationen wirkungsvoll
zu bewältigen, war für Wechsler (1943) zum Scheitern verurteilt. Für ihn ermöglichen selbst
die seinerzeit besten Intelligenztests nur eine unvollständige Messung des intelligenten Verhal-
tens als Fähigkeit des Einzelnen. Dies zeigte sich seiner Meinung nach darin, dass sich Men-
schen mit gleichen Testergebnissen in Bezug auf ihr Gesamtfunktionieren hinsichtlich prakti-
scher Kriterien stark voneinander unterschieden.
Damalige Intelligenztests konnten nur einen Teil und nicht alle Fähigkeiten, die bei intelligen-
tem Verhalten eine Rolle spielen, effektiv messen. So vermied es Wechsler, Intelligenz in rein
kognitiven Begriffen zu definieren. Für ihn war der IQ-Wert nicht mit der Intelligenz gleichzu-
setzen (Wechsler, 1950). Seines Erachtens tragen weitere Eigenschaften zu intelligentem Ver-
halten bei, wie die Fähigkeit zu planen, Zielbewusstsein, Begeisterungsfähigkeit, Feldabhängig-
keit und -unabhängigkeit, Impulsivität, Ängstlichkeit und Ausdauer (Wechsler, 1939a). Diese
Eigenschaften könnten die Leistung bei einer Testung, aber auch die Leistungsfähigkeit im täg-
lichen Leben beeinflussen. Wechsler (1975) sah die Intelligenz demnach nicht nur als kognitive
Funktionsfähigkeit, sondern auch als die allgemeine Fähigkeit des Individuums, die Welt, in der
es lebt, zu verstehen und sich in ihr zurechtzufinden:
What we measure with tests is not what tests measure – not information, not spatial percep-tion, not reasoning ability. These are only a means to an end. What intelligence tests measure, what we hope they measure, is something much more important: the capacity of an individual to understand the world about him and his resourcefulness to cope with its challenges. (S. 139)
In der Praxis sollten daher bei der Testinterpretation außer der Intelligenzleistung selbst auch
einige dieser Eigenschaften berücksichtigt werden. Das Messen von Intelligenz gehe über das
Erheben eines Testwertes hinaus und es bedürfe des klinischen Fachwissens und Urteils, um
die vielen Faktoren zu berücksichtigen, die intelligentes Verhalten beeinflussen. Umgekehrt
könnten Menschen mit unterschiedlichen Leistungsniveaus ähnliche Testergebnisse erzielen.
Zu der Aufgabe, die Intelligenz eines Menschen zu beurteilen, gehörte für Wechsler notwendi-
gerweise mehr, als nur Werte eines Intelligenztestes zu erheben (Matarazzo, J. D., 1990). So
könnten zwei Menschen mit den gleichen Testwerten völlig unterschiedlich mit denselben
Umweltanforderungen zu Recht kommen, und zwar aus Gründen, die unabhängig von kogniti-
ven Fähigkeiten seien. Da Faktoren, die nicht von der Intelligenz abhängig seien, die Testleis-
tung beeinflussten, könne es nach Wechsler außerdem sein, dass Menschen mit unterschiedli-
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 16
chen kognitiven Fähigkeitsniveaus gleiche oder ähnliche Testergebnisse erzielten (Zhu, Weiss,
Prifitera & Coalson, 2004). Daher gehörte zum Messen von Intelligenz mehr als nur die Be-
trachtung der Intelligenztestergebnisse. Dieser Aspekt wurde von Wechsler (u. a. 1991, 2003b)
stets hervorgehoben.
Schon früh erkannte Wechsler (1940, 1944), dass sich andere nicht-kognitive und nicht-
intellektuelle Faktoren deutlich in den seinerzeit zur Verfügung stehenden Intelligenztests wi-
derspiegelten. Doch den Einfluss solcher Faktoren zu erkennen, war für ihn nur der erste
Schritt. Erforderlich war eine Methode sie zuverlässig zu bewerten. Während seiner Zeit bei
der Armee stellte er fest, dass Intelligenz nicht von der übrigen Persönlichkeit getrennt werden
kann. Für ihn standen Faktoren wie motorische Fertigkeiten, schulische Leistungen und Exeku-
tivfunktionen eng mit Intelligenztestleistungen in Beziehung, diese sollten jedoch idealerweise
mit Testverfahren erfasst werden, die speziell zur Beurteilung dieser Fragestellungen ent-
wickelt wurden (Zhu et al., 2004).
Oftmals wird intelligentes Verhalten als die Kapazität des Menschen angesehen, zu verstehen
und daraus Konsequenzen abzuleiten. So interpretierte Spearman die allgemeine Intelligenz
(den g-Faktor) als die Fähigkeit, zu urteilen, zu verstehen und handeln zu können. Wechsler
(1975), selbst ein Schüler Spearmans, sah dies jedoch als unvollständig an. Um ein Verhalten
als intelligent bezeichnen zu können, muss es für ihn nicht nur rational und zweckmäßig sein,
nicht nur begründet, sondern auch wertvoll und angesehen sein.
Kein Intelligenztest bietet die Möglichkeit, alle kognitiven Funktionsbereiche gleichzeitig auf
praktisch umsetzbare und bedeutsame Weise zu erfassen (Carroll, 1997b). Wechsler ent-
wickelte daher ein Verfahren, das diejenigen Bereiche abdecken sollte, die sich für ihn als
wichtige kognitive Funktionen erwiesen hatten. Für ihn kann Intelligenz am besten mit einer
großen Anzahl von Tests abgebildet werden (1974): „Intelligence can manifest itself in many
forms, and an intelligence scale, to be effective as well as fair, must utilize as many different
languages (tests) as possible“ (S. 5). Für seine Tests wählte er somit eine seiner Ansicht nach
ausreichende Anzahl von Untertests aus, um mit möglichst wenig Zeitaufwand klinisch relevan-
te Informationen über das kognitive Niveau der Person zu erhalten (Zhu et al., 2004).
2.3 Zusammenfassung Das Konstrukt Intelligenz gilt sowohl als meist diskutiertes als auch als meist umstrittenes
Merkmal im Bereich der Persönlichkeitspsychologie. Seit mehr als einem Jahrhundert versu-
chen diverse Intelligenzforscher erfolglos, eine allgemein gültige Intelligenzdefinition zu ent-
wickeln. Dabei spielen sowohl die Fähigkeit zu lernen, die Anpassung an die Umwelt, logisches
Denken, Problemlösung und exekutive Prozesse eine große Rolle. Die jeweils anerkannteste
Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 17
Intelligenzdefinition hat Einfluss auf die Entwicklung der Intelligenztests dieser Zeit. Zu den
Koryphäen auf dem Bereich der Intelligenzforschung zählen Sternberg und Flynn ebenso wie
David Wechsler, der in diesem Kapitel gesondert betrachtet wurde. Dabei wird auf seine An-
sicht von Intelligenz eingegangen, die er als globale oder spezifische Fähigkeit definiert, zweck-
voll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinander
zu setzen. Zur Erfassung aller Aspekte menschlicher Intelligenz bedarf es für Wechsler mög-
lichst vieler verschiedener Untertests.
Kapitel 3 Intelligenztheorien und -modelle 18
3 Intelligenztheorien und -modelle
Gemeinsamkeiten finden, Frage 9: „Was haben Ellenbogen und Knie gemeinsam?“
Friederike, 11 Jahre: „Das ist da, wo man am meisten drauf fällt.“
Jedem Intelligenzmessinstrument liegt eine Theorie zu Grunde. Diese Theorie kann sowohl
offensichtlich als auch versteckt, sowohl formell und explizit als auch informell und implizit
sein (Sternberg, 2004). Auch die Wechsler-Skalen wurden mit unterschiedlichen Intelligenz-
modellen in Verbindung gebracht. Im Folgenden werden die hierarchischen Modelle vorge-
stellt, die einen expliziten oder impliziten Zusammenhang mit den Intelligenztests von Wech-
sler aufweisen. Es wird jedoch auch auf das nicht-hierarchische Modell von Thurstone einge-
gangen, das ebenfalls einen bedeutsamen Anteil an der Entwicklung der Wechsler-Skalen hat.
Für ausführlichere Betrachtungen sämtlicher Intelligenzmodelle wird auf weiterführende Lite-
ratur verwiesen (u. a. Carroll, 1993; Flanagan, Genshaft & Harrison, 1997, 2005; Holling et al.,
2004). Auf die Darstellung weiterer Modelle, die nicht mit psychometrischen Testverfahren
messbar gemacht werden können wie beispielsweise der Theorie der emotionalen Intelligenz,
die von Mayer und Salovey (1993) eingeführt und von Goleman (1995) populär gemacht wur-
de, wird an dieser Stelle ebenfalls mit dem Verweis auf Überblicksliteratur verzichtet (Gold-
stein & Beers, 2004; Sternberg, 2004; Wilhelm & Engle, 2005).
Seit der ersten Hälfte des vergangenen Jahrhunderts werden Faktorenanalysen zur Erfor-
schung der Struktur menschlicher Verhaltensweisen eingesetzt und kommen vor allem in der
Intelligenzforschung zum Einsatz, in der sie ihren Ursprung haben (Anastasi & Urbina, 1997;
Spearman, 1927). Mit der Entwicklung hierarchischer Intelligenztheorien geht die Entwicklung
der Wechsler-Skalen einher, denen aufgrund ihrer Struktur im Nachhinein stets das zu der
jeweiligen Zeit aktuelle hierarchische Modell zugeordnet wurde. Im Folgenden werden die
hierarchischen Intelligenztheorien vorgestellt, die mit den Wechsler-Tests in Verbindung ge-
bracht wurden.
3.1 Die General-Faktoren-Theorie von Spearman Der britische Forscher Spearman (1904) formulierte mit seiner Zwei-Generalfaktoren-Theorie
die erste explizite Modellvorstellung von Intelligenz. Sie gilt bis heute als die wohl einfluss-
reichste Theorie in der Geschichte der Intelligenzforschung (Sternberg, 2004). Für Spearman
muss das Verständnis für die Unterschiede menschlicher Fähigkeiten auf validen Variablen
basieren. Das Verständnis für kognitive Prinzipien sei Voraussetzung für die Untersuchung von
Intelligenzunterschieden (Deary & Smith, 2004). Er stellte mit Hilfe der von ihm entwickelten
Kapitel 3 Intelligenztheorien und -modelle 19
Faktorenanalyse fest, dass verschiedene kognitive Leistungen, die sich bei unterschiedlichen
Erhebungsverfahren zeigen, eng miteinander korrelieren, sie also auf eine gemeinsame Quelle
zurückgeführt werden können (Spearman, 1927). Darauf begründete er die Annahme einer
allgemeinen Intelligenz, der ein allgemeiner, von ihm als general factor (kurz: g) bezeichneter
Faktor, zugrunde liege. Die nicht durch g aufgeklärte Restvarianz bezeichnete Spearman als
spezifische Faktoren (kurz: s). Somit geht die Testleistung nach Spearman immer auf zwei Fak-
toren zurück: die allgemeine Intelligenz (g) und die spezifische Fähigkeit (s), die für die Lösung
der einzelnen Aufgaben erforderlich ist (siehe Abbildung 3.1).
Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927) Anmerkung: Quadrate repräsentieren manifeste Messinstrumente (Tests).
Später modifizierte Spearman die Zwei-Faktoren-Theorie, da er eine Gruppe von Faktoren
vermutete, die zwischen dem universalen g-Faktor und den strikt spezifischen s-Faktoren liege
(Anastasi & Urbina, 1997). Diese als Gruppenfaktoren oder spezielle Gruppenfaktoren be-
zeichneten Fähigkeiten beinhalteten beispielsweise rechnerische, mechanische und sprachli-
che Fähigkeiten.
In seinem viel zitierten Buch The abilities of man: Their nature and measurement vereinte
Spearman die empirischen Ergebnisse seiner bisherigen Studien, legte die Konditionen dar,
unter denen jede Fähigkeit in die zwei oben genannten Faktoren g und s unterteilt werden
kann, und beschrieb Art, Herkunft, Entwicklung und Beziehungen der allgemeinen und der
spezifischen Faktoren (Spearman, 1927). Nach Horn und McArdle (2007) hatte dieses Buch,
mehr noch als seine bisherigen Studien, großen Einfluss auf die Untersuchung menschlicher
Intelligenz.
Betrachtet man die Ideen Spearmans aus dem heutigen Blickwinkel, scheinen seine Vorstel-
lungen von Intelligenz in die heutigen Intelligenzstrukturmodelle eingebettet zu sein. Seine
Vorstellung vom g-Faktor wird oftmals mit der heutigen Vorstellung von gf (siehe Kapitel 3.3.1)
in Verbindung gebracht. Für Horn und McArdle (2007) entspricht Spearmans Vorstellung da-
von, was nicht durch g aufgeklärt wird, dem gc-Faktor (siehe Kapitel 3.3.2) moderner Theorien.
Kapitel 3 Intelligenztheorien und -modelle 20
3.1.1 Bewertung
Auch wenn der große Einfluss der Zwei-Faktoren-Theorie auf aktuelle Modelle unbestritten ist,
bietet sie auch Anlass zur Kritik (Ausführliches dazu siehe Kapitel 3.6). So vermuten einige For-
scher wie Gardner oder Sternberg, der g-Faktor in den Intelligenztests sei nur deshalb zu fin-
den, weil diese Tests einzig akademische und relativ künstliche Aufgaben beinhalteten (Stern-
berg, 2004). Für sie werde der g-Faktor geschwächt oder verschwinde sogar gänzlich, wenn
Intelligenztests eine größere Anzahl von Aufgabenfeldern abdecken würden. Betrachte man
die Studien, die einen g-Faktor nachzuweisen scheinen, in Relation zu der Gesamtanzahl der
Studien zur Untersuchung der Intelligenzstruktur, unterstützten sie die Zwei-Faktoren-Theorie
nicht zwangsläufig (Horn & McArdle, 2007; Sternberg, 2000a). Die meisten dieser Studien ver-
wendeten nur eine eingeschränkte Auswahl an Aufgabentypen, Testsituationen und sogar
Testteilnehmern (Sternberg, 2004).
3.1.2 Verbindung zu den Wechsler-Skalen
Ein Intelligenztest, der auf Spearmans Modell begründet wird, muss das übergeordnete Ziel
haben, die allgemeine Intelligenz eines Individuums zu erfassen. Aufgrund der Möglichkeit zur
Ermittlung eines Gesamt-IQ können die Wechsler-Skalen als Beispiel für Testverfahren ange-
führt werden, die einen g-Faktor im Sinne Spearmans abbilden. Auch Wechsler bestätigte den
Einfluss seines Lehrers Spearman auf die Entwicklung seiner Skalen. So wurden die WISC-
Versionen, zumindest bis zur aktuellen WISC-IV, im Allgemeinen dessen Theorie zugeordnet
(siehe z. B. Daseking et al., 2006).
3.2 Das Primärfaktorenmodell von Thurstone Den ersten systematischen Versuch, den Fokus auf Varianzquellen in einer Korrelationsmatrix
kognitiver Fähigkeiten zu legen, die unabhängig von g sind, machte Louis L. Thurstone (1938).
Er entwickelte die Methode der multiplen Faktorenanalyse, um unabhängige Faktoren zu be-
stimmen, die in einer Korrelationsmatrix präsentiert sind. Die Auswahl der Faktoren wurde
durch das Kriterium der einfachen Struktur geleitet, das eine Faktorenstruktur anordnet, bei
der Tests auf einem einzigen Faktor sehr hoch laden und auf den anderen Faktoren eine La-
dung gegen Null aufweisen. Daraus entstanden Zerlegungen der Varianzen eines Tests in ver-
schiedene unabhängige Faktoren. Auf diese Weise kann die Testleistung mit Hilfe eines Profils
von Stärken und Schwächen für jede der Fähigkeiten beschrieben werden. Für Thurstones Stu-
dien wurden 56 verschiedene Tests kognitiver Fähigkeiten 240 Personen vorgegeben. Die er-
haltenen Testwerte wurden mit Hilfe der von Spearman entwickelten Faktorenanalyse unter-
sucht. Es ergaben sich 13 Faktoren, denen Thurstone nach Untersuchung der Faktorladungen
sieben Faktoren mit psychologisch relevanten Interpretationen zuordnete. Diese nebeneinan-
Kapitel 3 Intelligenztheorien und -modelle 21
der stehenden Primärfaktoren, die seine Theorie (Theory of primary mental abilities, Thur-
stone, 1938) begründeten, sind
verbales Verständnis oder verbale Fähigkeiten,
Wortflüssigkeit,
schlussfolgerndes Denken, Erkennen von Regelhaftigkeiten,
räumliches Vorstellungsvermögen,
Merkfähigkeit, Kurzzeitgedächtnis,
Rechenfähigkeit und
Wahrnehmungsgeschwindigkeit.
Thurstone und seine Frau (1941) führten drei Jahre nach dieser ersten Studie eine weitere
Untersuchung an 710 Kindern durch, in der sie nach zunächst zehn Faktoren schließlich wie-
derum die selben sieben Faktoren der ersten Untersuchung herausfilterten. Es gab jedoch
einen wichtigen Unterschied zwischen beiden Studien: In der zweiten Studie zeigten sich signi-
fikante Interkorrelationen zwischen den Primärfaktoren, beispielsweise zwischen dem Faktor
Rechenfähigkeit und den beiden verbalen Faktoren verbales Verständnis und Wortflüssigkeit.
Daraufhin untersuchten sie per Faktorenanalyse die Korrelationen zwischen den Primärfakto-
ren und stellten fest, dass die Korrelationen als einzelner allgemeiner Faktor ausgewiesen
werden können, den sie den allgemeinen Faktor zweiter Ordnung nannten. Jedoch sei dieser
Faktor nur für Kinder und nicht zwangsläufig auch für Erwachsene charakteristisch (Carroll,
1994).
Die Theorie der Primärfaktoren stellte zunächst einen Widerspruch zu Spearmans g-Faktor-
Modell dar. Dennoch funktionieren nach Brody (2000) Thurstones Methoden nur, wenn kein g-
Faktor in der Korrelationsmatrix zu finden ist. Sind die meisten Kovarianzen einer Fähigkeiten-
Matrix dem g-Faktor zuzuschreiben, wäre es unmöglich, einfache Strukturen für die voneinan-
der unabhängigen Faktoren zu erhalten. Spearmans Methode, die g-Ladungen verschiedener
Tests zu bestimmen, wäre nicht erfolgreich, wenn große Teile der Kovarianz einer Matrix
Gruppenfaktoren zuzuordnen wären, die unabhängig von g sind.
3.2.1 Bewertung
Thurstone galt als einer der einflussreichsten Kritiker Spearmans. Er gab an, den allgemeinen
Faktor in seinen Daten nicht eindeutig gefunden zu haben, ohne vorher ausgeschlossen zu
haben, ihn zu finden. Für Carroll (1994) waren Spearmans Methoden darauf ausgelegt, keinen
g-Faktor zu finden. Dies sei zum einen einer stark selektiven Stichprobe und zum anderen sei-
nen eingeschränkten faktoriellen Methoden zu verdanken, die keine obliquen, sondern nur
orthogonale Rotationen beinhalteten, die nicht-korrelierende Faktoren voraussetzen. Sowohl
Kapitel 3 Intelligenztheorien und -modelle 22
Spearman (1939) als auch Eysenck (1939) analysierten Thurstones Daten mit unterschiedlichen
Methoden und entdeckten einen g-Faktor und andere Faktoren, die annähernd mit den Pri-
märfaktoren von Thurstone übereinstimmten. In den Jahrzehnten nach ihrer Entwicklung ge-
wann die Primärfaktoren-Theorie an Einfluss, vor allem aufgrund der zahlreichen Tests, die
Thurstone und seine Frau auf Basis der Theorie entwickelten. Obwohl auch in diesen Testbat-
terien ein allgemeiner Intelligenzfaktor als Summe aller erzielten Werte geschätzt werden
konnte, lag ihr Schwerpunkt auf der Untersuchung folgender grundlegender Fähigkeiten (Car-
roll, 1994):
Verbale Fähigkeiten,
Wahrnehmungsgeschwindigkeit,
Rechenfähigkeit,
räumliches Vorstellungsvermögen und
schlussfolgerndes Denken.
Bis zu seinem Tod im Jahre 1955 untersuchte Thurstone fortwährend die grundlegenden Fä-
higkeiten des Menschen und stieß dabei stetig auf zusätzliche Faktoren bzw. Variationen sei-
ner sieben Faktoren.
3.2.2 Verbindung zu den Wechsler-Skalen
Obwohl das Primärfaktorenmodell heutzutage keine häufige Verwendung findet, begründet es
die Basis für viele aktuelle Modelle wie der Theorie der multiplen Intelligenzen von Gardner,
dem Three-Stratum-Modell von Carroll sowie der Gf-Gc-Theorie von Cattell und Horn und somit
auch dem CHC-Modell, das als theoretischer Hintergrund in die Entwicklung der WISC-IV ein-
floss. Damit hatte es großen Einfluss auf Forschung und Theorie hinsichtlich kognitiver Fähig-
keiten (Horn & McArdle, 2007). Als weiterer wichtiger Beitrag Thurstones gilt die Etablierung
der Faktorenanalyse zur Untersuchung intellektueller Fähigkeiten (Sternberg, 2004).
3.3 Die Gf-Gc-Theorie von Cattell und Horn Die Gf-Gc-Theorie nach Cattell (1971, 1987), einem Schüler Spearmans, gilt neben den Theorien
von Spearman und Thurstone als einflussreichste Intelligenztheorie (Sternberg, 2004). Die Wei-
terentwicklung der durch Cattell in den 1940er Jahren ins Leben gerufenen Theorie erfolgte in
den 1960er Jahren durch Cattell und Horn (1966, 1967). Sie gehen anders als Spearman nicht
von einem übergeordneten Intelligenzfaktor (der allgemeinen Intelligenz oder dem g-Faktor)
aus, sondern sehen die Intelligenz aufgeteilt in zwei voneinander unabhängige Faktoren: die
fluide und die kristalline Intelligenz.
Kapitel 3 Intelligenztheorien und -modelle 23
3.3.1 Fluide Intelligenz (gf)
Unter fluider Intelligenz (gf) wird die Fähigkeit verstanden, sich neuen Situationen anzupassen
und neuartige Probleme zu lösen, ohne dabei auf erlerntes Wissen zurückgreifen zu müssen
(Daseking et al., 2006). Darunter werden Fähigkeiten wie schlussfolgerndes, problemlösendes
Denken, räumliches Vorstellungsvermögen, Informationsverarbeitungsgeschwindigkeit, die
Verarbeitung komplexer visueller Reize, abstraktes Denken oder mentale Rotation zusammen-
gefasst.
Jensen (2002) beschreibt gf als die Fähigkeit, auf die zurückgegriffen werde, „wenn man nicht
weiß, was zu tun ist“ (S. 47, Übers. v. Verf.). Sie fließe in neues Lernen und das Lösen neuer
Probleme ein, für die bisher keine spezifischen Algorithmen, Strategien oder Fertigkeiten vor-
handen seien. Fluide Intelligenz wurde dabei als weitgehend von Geburt an vorhanden und
von gesellschaftlichen und kulturellen Einflüssen unabhängig angesehen (Holling et al., 2004).
Dieser Annahme widerspricht jedoch Sternberg (2004). Studien hätten zum einen gezeigt, dass
Tests, die fluide Fähigkeiten messen, häufiger größere Unterschiede zwischen kulturellen
Gruppen zeigten als Tests zur Messung der kristallinen Intelligenz; zum anderen seien diese
Tests auch anfälliger für den Flynn-Effekt (siehe Kapitel 5.2.2). Wenn aber die fluide Intelligenz
im Laufe der Zeit mehr ansteige als die kristalline Intelligenz, kann gf laut Sternberg nicht als
von kulturellen und schulischen Einflüssen unabhängig gesehen werden. Auch Studien von Ceci
(1991; Ceci & Williams, 1997) wiesen einen großen Einfluss der Schule auf jegliche Art von
Testwerten auf.
Die fluide Intelligenz wird mit Hilfe von Tests wie Zahlenfolgen, Analogien und Matrizen erho-
ben (Sternberg, 2004). Außerdem geben sprachfreie Testverfahren wie der SON 2½ - 7 (Telle-
gen, Laros & Petermann, 2007) und der BIVA (Schaarschmidt, Ricken, Kieschke & Preuß, 2004)
oder kulturfreie Testverfahren wie der CFT von Cattell (neueste deutsche Revision CFT 20-R,
Weiß, 2006) und die Raven-Matrizen CPM, SPM und APM (Raven, Raven & Court, 1998) an, die
fluide Intelligenz zu erfassen.
3.3.2 Kristalline Intelligenz (gc)
Die kristalline, allgemeine Intelligenz (gc) repräsentiert kognitive Fertigkeiten, die auf Lerner-
fahrungen und Faktenwissen beruhen und somit bei der Verarbeitung vertrauter Informatio-
nen und der Anwendung von Wissen relevant sind. Sie ist von hoher praktischer Bedeutung für
den Erfolg eines Menschen in Schule, Ausbildung und Beruf (Jensen, 2002).
In einer homogenen Population unter Berücksichtigung des Bildungs- und kulturellen Hinter-
grundes korrelieren gf und gc durchweg hoch miteinander (Jensen, 2002). Nach Cattell (1987)
stellt die fluide Intelligenz die Voraussetzung für die kristalline Intelligenz dar. Eine empirische
Kapitel 3 Intelligenztheorien und -modelle 24
Absicherung dafür konnte allerdings nicht gefunden werden. So widerspricht Sternberg (2004)
dieser Annahme, da diese nur Gültigkeit hätte, wenn gf gänzlich unabhängig von äußeren Ein-
flüssen sei, was seinen oben genannten Studien widerspreche.
Testaufgaben, die gc abbilden, sind Wortschatz-Tests sowie Tests zum Leseverständnis und
Allgemeinen Wissen (Sternberg, 2004). Sie wird mit sprachlichen Tests wie dem MWT (Lehrl,
2005) oder den Zusatzmodulen Zahlenfolgen und Wortschatztest des CFT 20 (Weiß, 2006) er-
fasst.
3.3.3 Weiterentwicklung der Gf-Gc-Theorie
Horn erweiterte Cattells ursprüngliche Gf-Gc-Theorie um die Faktoren visuelle Wahrnehmung
(gv), Kurzzeitgedächtnis (gsm), Langzeitabruf (glr), Bearbeitungsgeschwindigkeit (gs), auditive
Verarbeitungsprozesse (ga), mengenbezogene Fähigkeiten (gq) sowie Schnelligkeit bei der
Reaktion und Entscheidungsfindung (gt) (Horn, 1985, 1994). Als relativ neu entdeckte Fähigkeit
identifizierte Horn schließlich den Faktor Lese- und Rechtschreibfähigkeiten (grw).
Unterhalb der obengenannten Faktoren liegen auf der niedrigsten Hierarchieebene circa 40
Faktoren erster Ordnung (siehe Abbildung 3.2). Diese Faktoren entsprechen häufig einzelnen
Untertests (Horn, 1994).
Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005) Anmerkungen: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Messinstrumente (Tests). F steht für die spezifischen kognitiven Fähigkeiten. Zweiseitige Pfeile geben latente Faktorkorrelationen an.
So wurde aus der Gf-Gc-Theorie, bei der Cattell in den Anfängen von zwei Faktoren und in der
Weiterentwicklung mit Horn in den 1960er Jahren von fünf Faktoren ausging, am Ende ein
Modell, das acht oder mehr Faktoren beinhaltet (Bickley, Keith & Wolfle, 1995). Horn und Noll
(1994) bezeichnen sie aus diesem Grund nicht mehr als Theorie der zwei, sondern der vielen
Intelligenzen. Dennoch bleiben fluide und kristalline Intelligenz weiterhin die Kernfaktoren, die
die kognitiven Fähigkeiten auf Grundlage genetischer Faktoren auf der einen und bildungs-
kultureller Möglichkeiten auf der anderen Seite repräsentieren (Horn, 1991).
…etc. T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12
F4 F3 F2 F1 …etc.
g1 g2 g3 …etc.
Kapitel 3 Intelligenztheorien und -modelle 25
Die erstmalige Einbettung einer Intelligenztheorie in die Entwicklung von Intelligenztests be-
gann 1985 mit einem Treffen von Horn, Carroll und Woodcock (McGrew, 2005). Auf der
Grundlage von Horns Erkenntnissen aus der Gf-Gc-Theorie und Carrolls Faktorenanalyse der
Woodcock-Johnson Psycho-Educational Battery (WJ) entschied Woodcock, das Gf-Gc-Modell
als Basis für die Revision des Woodcock-Johnson (WJ-R) zu verwenden (Woodcock, 1990). Die
WJ-R wurde so die erste Testbatterie, die einige Faktoren der Gf-Gc-Theorie abbildet. Horn
beschrieb seine Erweiterung der Gf-Gc-Theorie erstmals 1991 im Technischen Manual des WJ-
R. Es war die erste aktuelle und verständliche Beschreibung der Theorie in einer für den Dia-
gnostiker zugänglichen Publikation. Damit begann die Umsetzung psychometrischer Intelli-
genztheorien in die Praxis (McGrew, 2005).
3.3.4 Bewertung
In den 1980er und frühen 1990er Jahren hielten viele Forscher das Gf-Gc-Modell für die am
besten empirisch-fundierte psychometrische Intelligenztheorie (McGrew, 2005). So stellte
Carroll (1993) nach seiner umfassenden Faktorenanalyse (siehe 3.4) fest: „[The model] appears
to offer the most well-founded and reasonable approach to an acceptable theory of the struc-
ture of cognitive abilities“ (S. 62).
Auch Cole und Randall (2003) kamen bei einer Untersuchung der Modelle von Spearman, Car-
roll, Horn und Cattell an Daten aus der KAIT und dem WJ-R zu dem Schluss, das Modell von
Horn und Cattell weise nicht nur die signifikant beste Passung zur Struktur der Testverfahren
auf, sondern sei als einziges der drei Modelle geeignet, die Struktur der Tests ausreichend zu
erklären.
3.3.5 Verbindung zu den Wechsler-Skalen
Bis zur Mitte der 1980er Jahre spielte die Theorie kaum eine Rolle bei der Entwicklung von
Intelligenztests (Alfonso, Flanagan & Radwan, 2005). Bis dato wurden Intelligenztestbatterien
erst im Nachhinein den jeweils aktuellen Theorien zugeordnet. So entdeckte Matarazzo (1972,
zitiert nach Holling et al., 2004) Überlappungen des Verbalteils2 der Wechsler-Skalen mit der
kristallinen und des Handlungsteils mit der fluiden Intelligenz. Manche sprechen bei Wechslers
Skalen sogar von der Theorie der verbalen und handlungsbezogenen Komponenten der Intelli-
genz (Carroll, 2005, S. 71). Damit wurde die WISC-III als erste Wechsler-Version der Gf-Gc Theo-
rie zugeordnet (z. B. Hale, Fiorello, Kayanagh, Hoeppner & Gaither, 2001). Woodcock (1994)
verbindet den Index Sprachverständnis des HAWIK-III mit dem Gf-Gc-Faktor kristalline Intelli-
genz (gc) und den Index Wahrnehmungsorganisation mit dem Gf-Gc-Faktor Verarbeitung visuel-
2 Auch wenn es sich um die amerikanischen Original-Gesamtwerte, -Indizes und -Untertests handelt, werden in Folgenden zum besseren Verständnis die deutschen Bezeichnungen verwendet.
Kapitel 3 Intelligenztheorien und -modelle 26
ler Informationen (gv). Außerdem versteht er den Zahlen-Symbol-Test als Untertest zur Mes-
sung des Faktors Informationsverarbeitungsgeschwindigkeit (gs) und verbindet das Rechneri-
sche Denken mit dem Faktor mengenbezogene Fähigkeiten (gq), den Wortschatz-Test mit dem
Faktor Verständnis-Wissen (gc) und das Zahlennachsprechen mit dem Faktor Kurzzeitgedächt-
nis (gsm). Insgesamt bildet der HAWIK-III jedoch ebenso wie andere Intelligenztestbatterien nur
wenige der über 40 Fähigkeiten erster Ordnung ab (Horn, 1994). Mit der so genannten „Gf Gc
crossbattery assessment“ untersuchten McGrew und Flanagan die Wechsler-Tests auf ihre
theoretische Passung an die Gf-Gc-Theorie und schrieben ihnen dennoch eine valide theoreti-
sche Grundlage zu (Flanagan, McGrew & Ortiz, 2000; McGrew & Flanagan, 1998).
3.4 Die Three-Stratum-Theorie von Carroll Den umfassendsten Überblick im Bezug auf die Struktur kognitiver Fähigkeiten bietet die fak-
torenanalytische Studie von Carroll (1993). Er analysierte 461 Datensätze aus Originalstudien
und bot damit einen Überblick über siebzig Jahre Forschung. Seine Studie wurde von der Frage
beeinflusst, wie man die Theorien von Spearman (es gibt einen g-Faktor) und Cattell und Horn
(es gibt keinen g-Faktor, sondern – mit der fluiden und kristallinen Intelligenz – zwei gleichwer-
tige Faktoren) kombinieren kann. Dabei kam er zu dem Schluss, dass die Intelligenzstruktur am
besten in Form eines Three-Stratum-Modells beschrieben werden könne (Carroll, 1992, siehe
Abbildung 3.3), einem Modell mit drei Hierarchieebenen, die sich in Breite und Allgemeingül-
tigkeit unterscheiden. Damit schließt er sich einer Reihe amerikanischer Wissenschaftler an,
die bereits Mitte des vergangenen Jahrhunderts von einer ähnlichen Struktur der Intelligenz
ausgingen (Burt, 1949; Humphreys, 1962; Vernon, 1969, mehr dazu siehe Anastasi & Urbina,
1997). Die allgemeine Intelligenz wird, vergleichbar mit Spearmans g-Faktor, durch das Stra-
tum III repräsentiert. Sie wird durch komplexe kognitive Prozesse höherer Ordnung bestimmt,
die eine hohe Generalität für den gesamten Bereich kognitiver Fähigkeiten aufweisen (Holling
et al., 2004). Dem darunterliegenden Stratum II werden acht Intelligenzfähigkeiten mittlerer
Generalität (z. B. fluide und kristalline Intelligenz oder visuelle und auditive Wahrnehmung)
zugeordnet, die stark signifikante Ladungen auf dem g-Faktor aufweisen (Carroll, 1993). Diese
acht Fähigkeiten des Stratum II ähneln den Faktoren aus Horns expandiertem Gf-Gc-Modell
(Horn, 1985, siehe Kapitel 3.3). Carroll (1994) wiederum vergleicht sie mit den Fähigkeiten, die
Thurstone in seiner Theorie mehrerer gemeinsamer Fähigkeiten (siehe Kapitel 3.2) als grundle-
gende Fähigkeiten betrachtet. Sie repräsentierten für Carroll (1993) „basic constitutional and
long-standing characteristics of individuals that can govern or influence a great variety of be-
haviors in a given domain“ (S. 634). Die Fähigkeiten des Stratum II beeinflussen wiederum 69
spezifische Fähigkeiten (Stratum I), wobei eine Fähigkeit durchaus von mehreren Stratum-II-
Kapitel 3 Intelligenztheorien und -modelle 27
Faktoren beeinflusst sein könne. Die Zuordnung erfolgt danach, welche Fähigkeit der mittleren
Ebene die spezifische Fähigkeit am stärksten bestimmt (Holling et al., 2004).
Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll, 1992; 1993) Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Mess-instrumente (Tests).
Bickley, Keith und Wolfle (1995) weisen darauf hin, dass das Stratum, zu dem ein Faktor ge-
hört, nur eine Reflektion seines Generalisierungsgrades und nicht eine Indikation für die Domi-
nanz über einen niedrigeren Stratum-Faktor ist. Auf der Basis konfirmatorischer Faktorenana-
lysen unterstützten sie die Three-Stratum-Theorie und kamen zusätzlich zu dem Schluss, dass
zwischen Stratum II und III möglicherweise weitere Faktoren liegen. Auch Carroll (1993) ver-
mutete weitere Faktoren zwischen den drei Ebenen.
3.4.1 Bewertung
Viele Forscher sprechen bei Carrolls Arbeit von einem Durchbruch im Bereich der Intelligenz-
forschung und fordern, seine Studie als Grundlage bei der Entwicklung von Intelligenztests zu
berücksichtigen (McGrew, 1997, 2005). McGrew (1997) bewertet Carrolls Arbeit als wichtige
Brücke zwischen theoretischer und empirischer Forschung bei der Entdeckung von Intelligenz-
faktoren sowie der Entwicklung und Interpretation psychoedukativer Testbatterien. Carroll
präsentiere erstmalig eine empirisch basierte Klassifikation der Elemente kognitiver Fähigkei-
ten in einem einzelnen, verständlichen, organisierten und systematischen Rahmen, der es
leichter möglich mache, unterschiedliche Tests innerhalb einer und zwischen mehreren Test-
batterien zu vergleichen (McGrew, 2005).
…etc. T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12
Stratum III
Stratum II
Stratum I 69 spezifische Fähigkeiten
gsgf gv glr gc ga gq gs
g
Kapitel 3 Intelligenztheorien und -modelle 28
Carrolls Ansichten wurden jedoch auch vielfach kritisiert (u. a. Kranzler & Jensen, 1991, 1993;
Sternberg, 2004). Für Sternberg (2004) wird Carrolls Arbeit angesichts ihrer Komplexität weni-
ger Einfluss auf die Messung von Intelligenz haben als einfachere Theorien wie die Gf-Gc-
Theorie. Kognitive Theoretiker wie Sternberg oder Systemtheoretiker wie Gardner bestreiten,
dass die konventionellen psychometrischen Testverfahren, die Carroll für seine Metaanalyse
herangezogen hat, sämtliche Intelligenzbereiche abdecken, die von einer Intelligenztheorie
abzudecken sind (Sternberg, 2004). So beinhalte seine Analyse kaum Studien, die sein Modell
im Hinblick auf psychoneurologische Grundlagen kognitiver Fähigkeiten (Carroll, 1993, S. 660),
den Einfluss von Schule (Carroll, 1993, S. 668) und Trainings- und Interventionseffekten (Car-
roll, 1993, S. 669) unterstützten. Carroll selbst (1993) gibt zu, bei der Auswahl seiner Studien
wenig Aufmerksamkeit auf die Bedeutung, Validität und Nützlichkeit der von ihm identifizier-
ten Fähigkeitsfaktoren gelegt zu haben. Für ihn waren Validitätsstudien eine überdimensionale
und unsichere Literaturansammlung, die vom Hauptziel der Untersuchung nur unnötig ablenk-
te. Anders als Cole und Randall (2003, siehe oben) kamen Flanagan und McGrew (1998) bei
einer Untersuchung zweier gängiger Intelligenztests (WJ-R und KAIT) zu dem Schluss, eine dem
Three-Stratum-Modell ähnliche Grundlage erkläre die Struktur der Tests am besten.
3.4.2 Unterschiede zur Gf-Gc-Theorie
Es bestehen vier wesentliche Unterschiede zwischen der Three-Stratum- und der Gf-Gc-Theorie
(Alfonso et al., 2005):
Die Three-Stratum-Theorie beinhaltet einen g-Faktor,
die Gf-Gc-Theorie beinhaltet quantitatives Wissen und quantitatives Schlussfolgern als sepa-
rate breite Fähigkeiten, während Carroll quantitatives Schlussfolgern als engere Fähigkeiten
unterhalb von gf sieht,
die Gf-Gc-Theorie weist einen breiten Lese- und Rechtschreib-Faktor (grw) auf, während Car-
roll diesen Faktor als engen Faktor unterhalb von gc sieht und
Carroll sieht das Kurzzeitgedächtnis zusammen mit anderen Facetten der Merkfähigkeit
unter dem Faktor gy, während Cattell und Horn das Kurzzeitgedächtnis (gsm) von anderen
Merkfähigkeiten trennen, die sie im Faktor Langzeitabruf (glr) zusammenfassen.
Die Gf-Gc-Theorie und die Three-Stratum-Theorie nehmen einen wichtigen Platz unter den
Intelligenzmodellen ein. Zur Erklärung der Intelligenzstruktur verbinden sie die Positionen von
Spearman und Thurstone und enthalten vielerlei empirische Hinweise zur Unterstützung einer
hierarchischen Intelligenzstruktur (Davidson & Downing, 2000). Außerdem beschreiben und
erklären sie die Testleistung über Zeit und verschiedene Probleme hinweg, sagen diese vorher
und leisten somit einen großen Beitrag zur Erforschung menschlicher Intelligenz.
Kapitel 3 Intelligenztheorien und -modelle 29
3.4.3 Verbindung zu den Wechsler-Skalen
Auch die Three-Stratum-Theorie wurde mit den Wechsler-Skalen in Verbindung gebracht
(Watkins, Wilson, Kotz, Carbone & Babula, 2006). Nach den Autoren des WISC-IV-Manuals sei
die Einführung zusätzlicher Untertests zur Erfassung des fluiden Denkens dem Einfluss der Gf-
Gc- und der Three-Stratum-Theorie geschuldet (Wechsler, 2003b). Carroll (1993) fand in seinen
faktorenanalytischen Studien heraus, dass der Verbal-IQ der Wechsler-Skalen als ein ungefäh-
res Maß für die kristalline Intelligenz angesehen werden kann. Den Handlungs-IQ verstand er
als ein Maß mit eingeschränkter Validität für die fluide Intelligenz bzw. als ein ungefähres Maß
für den ebenfalls auf Stratum II liegenden Faktor visuelle Wahrnehmung.
3.5 Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten (kurz: CHC-Theorie) integriert die
Gf-Gc-Theorie von Cattell und Horn (Horn & Blanksen, 2005; Horn & Noll, 1997) und die Three-
Statum-Theorie von Carroll (1993, 2005).
Der Anstoß für die Entwicklung der CHC-Theorie begründete sich in dem Problem, dass die Gf-
Gc-Theorie angesichts ihres Namens oftmals fälschlicherweise für ein Zwei-Faktoren-Modell
gehalten wurde. Dieses Kommunikationsproblem, das seit der Publikation des WJ-R im Jahre
1989 bestand, sollte ausgeräumt werden. So entstand 1999 nach einem Treffen der wichtigs-
ten Forscher auf dem Gebiet der Intelligenztheorien (u.a. Horn, Carroll und Woodcock) der
Konsens, einer neuen Theorie den Namen Cattell-Horn-Carroll Theory of Cognitive Abilities zu
geben (McGrew, 2005).
Die Struktur des CHC-Modells unterscheidet sich nicht substantiell von der Three-Stratum-
Theorie (Cole & Randall, 2003, siehe Abbildung 3.3). Anders als bei bisherigen Modellentwick-
lungen stellten für das CHC-Modell nicht nur Faktorenanalysen die Grundlage dar, sondern
auch Studien aus dem Bereich der Entwicklung, Erfolgsprädiktoren, Genetik und Neurokogniti-
on (McGrew, 2005).
Entscheidend für die Weiterentwicklung der Gf-Gc-Theorie und des Three-Stratum-Modells zur
CHC-Theorie war das 1997 erschienene Buch Contemporary Intellectual Assessment von Flana-
gan, Genshaft und Harrison. Es war die erste Veröffentlichung über Intelligenzdiagnostik, in der
die Brücke zwischen der Gf-Gc-Theorie, Carrolls Modell sowie praktischen Untersuchungen und
Interpretationen geschlagen wurde. Außerdem beschrieben Flanagan und McGrew (1997)
darin erstmals die formellen Voraussetzungen und Prinzipien einer Gf-Gc cross-battery assess-
ment. Dabei handelt es sich um die Zusammenstellung von Untertests aus verschiedenen Test-
batterien, durch die die Erfassung sämtlicher nach der Gf-Gc-Theorie vorhandener Intelligenz-
faktoren möglich gemacht werden soll. Damit sollte die systematische und empirische Basis für
Kapitel 3 Intelligenztheorien und -modelle 30
die Zusammenstellung einer neuen Testbatterie aus den verschiedenen Intelligenztests ge-
währleistet werden. Daniel (1997) bezeichnete die cross-battery assessment als faszinierende
und kreative Arbeit, die dazu beitrage, kognitive Testverfahren in einen multifaktoriellen Mo-
dellrahmen zu integrieren und in diesem Rahmen zu interpretieren. Die erste Beschreibung
und formelle Operationalisierung einer Untersuchung mit Hilfe der „cross-battery assess-
ment“, die für alle großen Intelligenztestbatterien angewendet werden kann, erschien 1998 in
der Veröffentlichung Intelligence Test Desk Reference (ITDR): Gf-Gc Cross-Battery Assessment
(McGrew & Flanagan). Damit wurde die Verbindung zwischen Intelligenztheorie und -praxis
fortgeführt, die mit der Entwicklung des WJ-Tests auf Basis der Gf-Gc-Theorie begann, und so-
mit der Weg für die CHC-Theorie geebnet (McGrew, 2005).
Größter Streitpunkt zwischen den Entwicklern des CHC-Modells stellt die Existenz der auf dem
Stratum III liegenden allgemeinen Intelligenz dar. Während Carroll sie vehement verteidigt,
wird sie von Horn dementiert (siehe Kapitel 3.6). So wird das Modell mal mit und mal ohne
Stratum III (siehe Alfonso et al., 2005) dargestellt (in Abbildung 3.4 und Abbildung 3.5 durch
ein Fragezeichen gekennzeichnet). Weitere Unterschiede finden sich in der Zuordnung einzel-
ner enger Faktoren zu den breiteren Faktoren. Außerdem nimmt Carroll nur einen Gedächtnis-
faktor an, während Horn einen Kurz- und einen Langzeitgedächtnisfaktor unterscheidet.
Die in Abbildung 3.4 aufgezeigte Struktur des CHC-Modells stellt nur ein Beispiel für die CHC-
Definitionen der Fähigkeiten dar. Jensen (2004) sieht die CHC-Struktur als eine erweiterbare
empirische Theorie an, der durch Ermittlung von bisher ungemessenen oder unbekannten
Fähigkeiten weitere Faktoren auf einer der Ebenen hinzugefügt werden könnten.
Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005) Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Mess-instrumente (Tests).
…etc. T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12
F4 F3 F2 F1 …etc.
g1 g2 g3 …etc.
g?
Kapitel 3 Intelligenztheorien und -modelle 31
Derzeit besteht sie aus zehn breiten kognitiven Faktoren (siehe Abbildung 3.5) und mehr als 70
engeren Fähigkeiten (Alfonso et al., 2005). Doch die Theorie bleibt dynamisch und wird konti-
nuierlich verändert. So hat McGrew (2005) dem Faktor Lesen und Schreiben (grw) noch die
Schreibgeschwindigkeit als Einflussfaktor hinzugefügt, der zusätzlich zur Varianzaufklärung des
Faktors beiträgt. Außerdem erweiterte er die Theorie um zusätzliche Stratum-II-Faktoren wie
psychomotorische (gp), olfaktorische (go) oder taktile Fähigkeiten (gh).
Anm
erku
ng: D
ie a
ufge
liste
ten
Fähi
gkei
ten
auf S
trat
um I
stelle
n nu
r ei
ne A
usw
ahl d
ar. I
nsge
sam
t lie
gen
den
Fakt
oren
auf
Str
atum
II m
ehr
als
70 b
asal
e Te
illei
stun
-ge
n zu
grun
de.
Allg
emei
ne In
telli
genz
?
Flui
de
Inte
llige
nz
g f
Reak
tions
-/
Ents
chei
-du
ngsz
eit
g t
Men
gen-
u.
Zahl
en-
wis
sen
g q
Kris
talli
ne
Inte
llige
nz
g c
Lese
n u.
Sc
hrei
ben
g rw
Kurz
zeit-
gedä
chtn
is
g sm
Visu
elle
W
ahrn
eh-
mun
g g v
Aud
itive
W
ahrn
eh-
mun
g g a
Lang
zeitg
e-dä
chtn
is u
. A
bruf
g l
r
Vera
rbei
tung
s-ge
schw
indi
g-ke
it g s
Induktion Quantitatives Schlussfolgern Allgemeines sequentielles Schlussfolgern…
Mathematisches Wissen Rechenleistung
Sprachentwicklung Wortschatz Grammatik Fremdsprachen…
Buchstabierfähigkeit Lesefähigkeit Lesegeschwindigkeit Schreibfähigkeit und -geschwindigkeit…
Merkspanne Arbeitsgedächtnis Lernfähigkeit
Visualisierung Visuelles Gedächtnis Räumliche Beziehungen…
Rhythmus Musik Phonologische Bewusstheit Orten von Geräuschen….
Freier Abruf Flüssigkeit von Assoziationen Wortflüssigkeit Originalität/Flexibilität…
Mustererkennung Bearbeitung einfacher Rechenaufgaben Wahrnehmungsgeschwindigkeit
Geschwindigkeit mentaler Vergleiche Einfache Reaktionsgeschwindigkeit Wahlreaktionen…
Stratum III Stratum II Stratum I
Abb
ildun
g 3.
5: S
trukt
ur d
er C
atte
ll-H
orn-
Car
roll
(CH
C) T
heor
ie d
er k
ogni
tiven
Fäh
igke
iten
(mod
ifizi
ert n
ach
Das
ekin
g, P
eter
man
n &
Pet
erm
ann,
200
7)
Kapitel 3 Intelligenztheorien und -modelle 32
Kapitel 3 Intelligenztheorien und -modelle 33
3.5.1 Bewertung
Im Jahre 2001 wurde mit den Woodcock-Johnson III Tests of Cognitive Abilities (WJ-III, Wood-
cock, McGrew & Mather, 2001) die erste Testbatterie veröffentlicht, die auf der CHC-Theorie
basiert (McGrew & Woodcock, 2001). Im technischen Manual des Tests wurde zum ersten Mal
eine formale Definition der CHC-Theorie publiziert. Sie führte die Autoren zu folgender
Einschätzung: „CHC taxonomy is the most comprehensive and empirically supported frame-
work available for understanding the structure of human cognitive abilities“ (McGrew &
Woodcock, 2001, S. 9).
Die CHC-Theorie zählt zu den derzeit aktuellsten Intelligenztheorien (McGrew, 2005; Sattler,
2001). Kaufman und Lichtenberger (2006) postulieren: „CHC theory is a strong psychological
theory, as it represents one of the best examples of cumulative science in applied psychology“
(S. 563). Sie gilt heute als verständlichste und empirisch am besten fundierte psychometrische
Theorie kognitiver und akademischer Fähigkeiten und hat seit einigen Jahren einen enormen
Einfluss auf die Messung kognitiver Fähigkeiten und die Interpretation von Intelligenztestleis-
tungen (Alfonso et al., 2005; McGrew, 2005). Flanagan und Kaufman (2004) schreiben dazu:
“With the advent of the 21st century, however, the CHC storm hit and has not changed its
course to date” (S. 14). Neben dem WJ III wurden mit der SB5 (Stanford-Binet - Fifth Edition;
Roid, 2003) und der KABC-II (Kaufman Assessment Battery for Children; Kaufman & Kaufman,
2004) drei der bekanntesten Testverfahren der letzten Jahre das CHC-Modell zu Grunde gelegt.
Niemals zuvor in der Geschichte der Intelligenztestung spielte ein theoretisches Modell eine
derart große Rolle im Bereich der Testentwicklung und -interpretation (Flanagan & Kaufman,
2004).
Trotz des auf der Basis der CHC-Theorie entwickelten WJ III beinhaltet nach Alfonso, Flanagan
und Radwan (2005) keiner der bisher erschienenen Intelligenztests eine ausreichende Anzahl
von Untertests, um alle grundlegenden CHC-Fähigkeiten abzubilden. Dennoch zeigen diese
nicht berücksichtigten Fähigkeiten (wie gf, ga oder glr) einen signifikanten Zusammenhang mit
akademischen Leistungen wie Lesen und Rechnen (McGrew, 2005). Gerade für den Bereich der
Untersuchung von Lernstörungen bedarf es demnach der Durchführung mehrerer Tests, die
zusammen ein genaueres Bild der Fähigkeiten liefern können. Nach Erkenntnissen aus aktuel-
len Studien lassen sich durch das Modell und die Einbeziehung basaler kognitiver Funktionen
(Stratum I) insbesondere auch schulbezogene Leistungen (wie Rechenfähigkeit, Leseleistung
und Fremdsprachenerwerb) zunehmend besser erklären, unabhängig davon, ob ein g-Faktor
angenommen wird oder nicht (McGrew, 2005).
Weitere Studien der letzten Jahre aus unterschiedlichen Bereichen (wie Leistungen von Grund-
schulkindern, neurologische Beeinträchtigungen, Rechenleistungen) unterstützen ebenfalls das
Kapitel 3 Intelligenztheorien und -modelle 34
CHC-Modell (z. B. Davis, Finch, Dean & Woodcock, 2005; Proctor, Floyd & Shaver, 2005; Tusing
& Ford, 2004). So können mit den in der CHC-Theorie betonten Fähigkeiten Arbeitsgedächtnis
und Verarbeitungsgeschwindigkeit Vorhersagen für akademischen Erfolg getroffen werden,
letztere vor allem bezogen auf frühe schulische Leistungen (Flanagan, Ortiz, Alfonso & Masco-
lo, 2002; Roid & Pomplun, 2005, siehe auch Kapitel 4.6.1).
3.5.2 Verbindung zu den Wechsler-Skalen
In einer Untersuchung mit der WISC-III und dem WJ III erwies sich das CHC-Modell als das am
besten geeignete und zu den Ergebnissen passende Modell (Phelps, McGrew, Knopik & Ford,
2005). Während andere, ebenfalls nicht mehr aktuelle Versionen von Verfahren wie die KAB-C
oder die Wechsler-Tests für Vorschulkinder und Erwachsene nur zwei oder drei der breiten
CHC-Fähigkeiten adäquat messen, wurden der WISC-III vier CHC-Fähigkeiten (gc, gv, gsm und gs)
zugeschrieben (Alfonso et al., 2005). Dennoch stellt sie keine ausreichende Messung der Fä-
higkeiten dar, um die Diskrepanz zwischen aktueller Theorie und Praxis zu verringern.
Ergebnisse konfirmatorischer Faktorenanalysen anderer Wechsler-Tests, wie des aktuellen
Intelligenztests für Erwachsene (WAIS-III) und der Wechsler Memory Scale-III (WMS-III), un-
terstützen das CHC-Modell zusätzlich (Tulsky & Price, 2003).
Auch wenn die Autoren der WISC-IV nicht explizit sagen, dass die Entwicklung der Testrevision
auf den Erkenntnissen der CHC-Theorie basiert, wird sie der WISC-IV schon angesichts der zeit-
nahen Entwicklung implizit zugrundegelegt (Alfonso et al., 2005; Floyd, Bergeron, McCormack,
Anderson & Hargrove-Owens, 2005). Die Autoren der WISC-IV geben praktische Erfahrungen
im Umgang mit den Vorgängerversionen als Grundlage für die Modifikationen von WISC-III zu
WISC-IV an. Sie erkennen jedoch die Erkenntnisse von Cattell, Horn und Carroll an und fühlen
sich durch sie in der Entwicklung neuer Strukturen für die Wechsler-Skalen bestätigt. Neben
der zusätzlichen Einführung von Untertests zur Messung des fluiden Denkens wird auch der
größere Einfluss des Arbeitsgedächtnisses und der Verarbeitungsgeschwindigkeit von den
Testautoren mit den Begründern der CHC-Theorie in Zusammenhang gebracht (Wechsler,
2003b, siehe oben). Insbesondere der Verzicht auf die Zuordnung der Untertests zu Verbal-
und Handlungsteil und die aktuelle Fokussierung auf die vier Index-Werte (Faktoren) lassen auf
einen wesentlichen Einfluss des CHC-Modells auf die Testüberarbeitung schließen (Daseking et
al., 2007).
Keith, Fine, Taub, Reynolds und Kranzler (2006) untersuchten die Struktur der WISC-IV und
wiesen die Erfassung von fünf der zehn Faktoren nach, die sich nach der CHC-Theorie auf der
zweiten Ebene der Intelligenz befinden:
gf (fluide Intelligenz) durch die Untertests Matrizen-Test, Bildkonzepte und Rechneri-
sches Denken,
Kapitel 3 Intelligenztheorien und -modelle 35
gc (kristalline Intelligenz) durch die Untertests Wortschatz-Test, Allgemeines Wissen,
Gemeinsamkeiten finden, Allgemeines Verständnis und Begriffe erkennen,
gv (visuelle Verarbeitung) durch die Untertests Mosaik-Test und Bilder ergänzen,
gsm (Kurzzeitgedächtnis) durch die Untertests Zahlen nachsprechen und Buchstaben-
Zahlen-Folgen sowie
gs (Verarbeitungsgeschwindigkeit) durch die Untertests Symbol-Suche, Zahlen-Symbol-
Test und Durchstreich-Test.
Sie kamen zu dem Ergebnis, die WISC-IV spiegelt mehr als ihre Vorgänger die aktuelle For-
schung und Theorie im Bereich der Intelligenzdiagnostik wider und habe sich somit gegenüber
früheren Versionen verbessert. Außerdem stelle die WISC-IV weiterhin ein exzellentes Mess-
instrument für die allgemeine Intelligenz dar (Keith et al., 2006).
Um dem Mangel an Verknüpfung zu aktuellen theoretischen Modellen entgegenzuwirken (sie-
he Kapitel 4.5), stellen Flanagan und Kaufman (2004) im Anhang ihres Buchs Essentials of
WISC-IV Assessment Tabellen zur Interpretation der Untertests der WISC-IV auf Basis des CHC-
Modells bereit. So kann beispielsweise ein Wert für den CHC-Faktor fluides Denken (gf) errech-
net werden, indem die Wertpunkte der Untertests Mosaik-Test, Bildkonzepte und Rechneri-
sches Denken zusammengezählt und zu dem sogenannten gf-Cluster-Wert umgerechnet wer-
den, der einem Index-Wert entspricht. Ebenso wie bei den traditionellen Index- und IQ-Werten
stehen auch hier Konfidenzintervalle und Prozentränge zur Verfügung (siehe Anhang H, Flana-
gan & Kaufman, 2004). Auch Keith et al. (2006) empfehlen diese zusätzliche Auswertung, da
für sie das CHC-basierte Modell eine bessere Erklärung des intellektuellen Konstrukts bietet,
das von der WISC-IV gemessen wird als die vorgegebene Auswertungsstruktur der Testautoren
es ermöglicht. Mit dieser zusätzlichen Auswertungsmöglichkeit wird versucht, die Wissenschaft
der Interpretation kognitiver Fähigkeiten voranzutreiben (Alfonso et al., 2005).
In Bezug auf die vorliegende Arbeit stellt sich die Frage, inwieweit der Einfluss unterschiedli-
cher Intelligenzstrukturmodelle auf die zu untersuchenden Messinstrumente HAWIK-III und -IV
die Vergleichbarkeit beider Testversionen einschränkt. Wie oben beschrieben wird die WISC-III
vor allem mit der Gf-Gc-Theorie in Verbindung gebracht, während die WISC-IV neben der Gf-Gc-
und der Three-Stratum-Theorie mehr Übereinstimmungen mit dem CHC-Modell aufweist als
seine Vorgängerversionen. Die Tests wurden schon angesichts ihrer unterschiedlichen Veröf-
fentlichungszeitpunkte von verschiedenen Theorien beeinflusst. Dies gilt nicht nur für die Test-
struktur, sondern auch für die kognitiven Fähigkeiten, die von den Untertests gemessen wer-
den. So wurde das Rechnerische Denken von der WISC-III zur WISC-IV dahingehend verändert,
weniger die Rechenfähigkeiten als vielmehr das Arbeitsgedächtnis zu erfassen, das nach ak-
Kapitel 3 Intelligenztheorien und -modelle 36
tuellen Forschungsbefunden in den aktuellen Theorien einen höheren Stellenwert besitzt
(mehr dazu siehe Kapitel 4.6.1).
3.6 Diskussionen zur Existenz eines g-Faktors
“To g or not to g – that is the question.” Nathan Brody (2005)
3.6.1 Was ist g?
Wohl kaum eine Frage in der Intelligenzforschung wird leidenschaftlicher diskutiert als die
nach der Existenz eines g-Faktors als Repräsentant der allgemeinen, übergeordneten Intelli-
genz eines Menschen. Dies zeigen schon die unzähligen Veröffentlichungen der letzten Jahre,
die sich ausschließlich mit diesem Thema beschäftigen (u. a. Brand, 1996; Davidson & Dow-
ning, 2000; Jensen, 1998; Nyborg, 2003). Für Davidson und Downing (2000) kann erst ein bes-
seres Verständnis von g zu einem besseren Verständnis der Intelligenzstruktur führen. Doch
schon die Frage, was g eigentlich ist, löst Kontroversen aus. Für Jensen (2002) und Carroll
(1993) stellt der g-Faktor die Varianzquelle dar, die den Leistungen in allen kognitiven Tests
gemein sei, wie unterschiedlich sie auch sein mögen. Er sollte nicht als Aufsummierung oder
Durchschnitt individueller Unterschiede in einem kognitiven Test, sondern vielmehr als ein
Destillat dieser Unterschiede gesehen werden. Horn (1988) hingegen hält g für ein rein statisti-
sches Artefakt. Für Brody (2005) könne g am besten als latentes Merkmal verstanden werden,
das mit unterschiedlichen psychometrischen Maßen, die möglicherweise als Hinweise auf ein
latentes Konstrukt entwickelt wurden, zwar in Zusammenhang stehe, konzeptuell und empi-
risch aber von ihnen verschieden sei.
3.6.2 Pro und Kontra
Forscher wie Carroll (1993, 2003) und Jensen (1998, 2002) behaupten, der Generalfaktor re-
präsentiere in ausreichender Weise das, was den breiten Fähigkeiten zu Grunde liege. Auch
Brody (2005) sieht dies als einzig logische Schlussfolgerung an. Außerdem sei der g-Faktor die
einzige kognitive Fähigkeit, die von allen kognitiven Messinstrumenten berührt werde. Aktuel-
le Studien anderer Forscher legen gleichfalls die Existenz eines allgemeinen Intelligenzfaktors
nahe (Johnson, te Nijenhuis & Bouchard Jr, 2008; Visser, Ashton & Vernon, 2006). Nach Jensen
(2002) wiesen die wichtigsten Studien g als ein äußerst stabiles Konstrukt über Methoden,
Tests und Populationen hinweg aus. Die Generalisierbarkeit von g sei bemerkenswert breit,
was die signifikanten Ladungen in Tests mit ganz unterschiedlichen Aufgabentypen wie Wort-
schatz, allgemeine Informationen und Reaktionszeit verdeutlichten. Außerdem weise g nach
Jensen eine hohe externe Validität auf. Dies zeigten Studien, in denen der IQ und Tests kogniti-
ver Fähigkeiten hohe gemeinsame g-Ladungen aufweisen. Daraus schließt Jensen, dass die
Kapitel 3 Intelligenztheorien und -modelle 37
Generalisierbarkeit von g für ein breites Spektrum an Prädiktorkriterien zulässig sei. Die Vor-
hersagekraft von IQ-Tests auf Schulleistung und beruflichen Erfolg ist unstrittig. Korrelations-
studien gehen von einem Zusammenhang zwischen IQ-Tests und schulischem Erfolg von unge-
fähr r = .50 aus (Braaten & Norman, 2006). Dabei gilt g als bedeutsamerer Prädiktor als spezifi-
sches Wissen oder spezifische Fertigkeiten. Nach Jensen (2002) wiesen IQ- und Bildungstests
keine praktisch sinnvolle Vorhersagevalidität mehr auf, sobald g statistisch aus diesen Tests
entfernt werden würde. Zwar würden einzelne Faktoren der Tests (wie verbale, numerische,
räumliche etc.) auch zur Vorhersagevalidität beitragen, doch sei dieser Beitrag im Vergleich zu
dem des g-Faktors sehr gering.
In seiner aktuellsten Untersuchung bilanziert Carroll (2003): „Researchers who are concerned
with the structure in one way or another … can be assured that a general factor exists, along
with a series of second-order-factors that measure broad special abilities” (S. 19). Außerdem
sprächen für ihn, ebenso wie für andere Forscher, die Ergebnisse der Intelligenzforschung den
fluiden Fähigkeiten eine deutlich wichtigere Rolle zu als bisher vermutet. Diese Erkenntnis floss
auch in die Entwicklung der WISC-IV mit ein (siehe Kapitel 4.6.1).
Manche sehen g als die bedeutendste messbare Fähigkeit an, da sie den Großteil der Varianz in
mehreren, sowohl akademischen als auch beruflichen Bereichen vorhersage (z. B. Glutting,
Watkins & Youngstrom, 2003). Neisser et al. (1996) argumentieren dagegen, Carrolls hierarchi-
sche Anordnung des g-Faktors bestätige lediglich, dass die Leistungsniveaus eines Menschen in
verschiedenen Testverfahren miteinander korrelierten; das sei zwar konsistent mit der Hypo-
these, ein allgemeiner Faktor wie g liege diesen Korrelationen zugrunde, jedoch kein Beweis
dafür. Die Korrelationen könnten auch aufgrund anderer Faktoren wie Schulbildung zustande
kommen.
Studien zufolge laden auch Messverfahren wie der Sternberg Triarchic Abilities Test (STAT), die
ein g-Faktor-freies Modell als Basis haben, hoch auf einem gemeinsamen Faktor, der mit g
korreliert (Brody, 2003a, 2003b). Auch aktuelle Testverfahren zu praktischer und kreativer
Intelligenz weisen einen positiven Zusammenhang mit g auf (Brody, 2005). Außerdem wiesen
genetische Studien einen gemeinsamen genetischen Einfluss auf die Beziehung zwischen ver-
schiedenen Faktoren zweiter Ordnung auf (Petrill, 2005).
Auf der anderen Seite stehen Forscher wie Horn (1985) und Sternberg (Sternberg, 2002;
Sternberg & Grigorenko, 2002), die es befürworten, den Schwerpunkt auf die unabhängigen
breiten Fähigkeiten zu legen, da sie g für einen vielgestaltigen und relativ bedeutungslosen
Zusammenschluss verschiedener voneinander unabhängiger kognitiver Prozesse halten. Zwar
stimmen Horn und Cattell Carroll hinsichtlich der Korrelationen zwischen Fähigkeiten zu, sehen
diese jedoch nicht als kausalen Einfluss einer allgemeinen Intelligenz, sondern eher als statisti-
Kapitel 3 Intelligenztheorien und -modelle 38
sche Regelmäßigkeit an, da es schwer sei, menschliche Aktivitäten zu definieren, die nur mit
einer der Fähigkeiten zweiter Ordnung zusammenhängen (McGrew, 2005). Für Horn und Noll
(1994) kann ein einzelnes wissenschaftliches Konzept ein so vielschichtiges Phänomen wie die
Intelligenz nicht erklären. Sie sehen Intelligenz als eine Mischung aus vielen unterschiedlichen
kognitiven Fähigkeiten an und sprechen sich gegen Carrolls g-Faktor aus, der sich in seinen
Studien, je nach Studie und Testbatterie, als unterschiedlich darstelle und somit nicht eine
allgemeine Intelligenz, sondern unterschiedliche Maße repräsentiere (Horn & Noll, 1997). Nach
Stankov (2005) deuten nur sieben der über 400 Datensätze aus Carrolls Studie auf einen g-
Faktor hin.
Studien aus den Bereichen Entwicklung, Ausbildung, Neurologie und Genetik geben laut Horn
und McArdle (2007) Anlass daran zu zweifeln, ein einzelner, für alle intelligenzabbildenden
Fähigkeiten gültiger Faktor, könne die Varianz individueller Unterschiede abdecken. Dies zeige
sich auch darin, dass die CHC-Fähigkeiten mit nicht-kognitiven Variablen wie Erfolg (z. B. im
Bereich akademischer Leistungen siehe Evans, Floyd, McGrew & Leforgee, 2002; Floyd, Evans
& McGrew, 2003), genetischen Strukturen und neurologischen Funktionen in Verbindung ste-
hen. Da diese Beziehungen so mannigfaltig seien, spreche dies ebenfalls gegen einen einzel-
nen, einheitlichen Grundbestandteil (Horn & Blanksen, 2005). Für Carroll (2003) hingegen ba-
sierten Faktorenanalysen darauf, die Beschaffenheit eines einzelnen Faktors nicht notwendi-
gerweise zu speziellen Charakteristika der in die Korrelationsmatrix involvierten Variablen in
Beziehung zu stellen, sondern nur zu den Charakteristika oder latenten Variablen, die diesen
Variablen ähnlich sind.
Trotz der Ähnlichkeit zwischen den Stratum-II-Faktoren der Three-Stratum-Theorie und Horns
erweiterter Gf-Gc-Theorie widersprach Horn (1991) Carrolls Vorstellungen von Intelligenz, da er
einen g-Faktor auf Stratum III nicht akzeptierte. Er stellte die Theorie auf, dass gf und gc zwi-
schen Stratum II und III liegen und somit einen Großteil der Varianz aufklären. Da gf in fakto-
renanalytischen Studien zur Untersuchung der Ladung auf einen gemeinsamen g-Faktor eine
standardisierte Faktorladung von 1.0 aufwies, müsse Intelligenz mehr sein als g. Carroll (1993)
erklärte sich die Beziehung zwischen den Faktoren g und gf jedoch damit, dass beide in hohem
Maße erblich seien und gf auf Stratum II den höchsten Grad an Erblichkeit aufweise. Für ande-
re repräsentierten g und gf im Wesentlichen die selben Fähigkeiten (Davidson & Downing,
2000). Demgegenüber deuten Studien, die hohe g-Ladungen in den sprachlichen Untertests
aufzeigten, auf hohe Korrelationen von gc und g hin (siehe u. a. Keith et al., 2006). Für Gignac
(2006) schien daher gc als der beste Prädiktor für die allgemeine Intelligenz.
Nach Brody (2000) ergeben sich aus sämtlichen Überlegungen zur Struktur kognitiver Fähigkei-
ten zwei wichtige Erkenntnisse: Erstens zeigen sich hohe Korrelationen nahezu aller Mess-
Kapitel 3 Intelligenztheorien und -modelle 39
instrumente kognitiver Funktionen. Matrizen von Fähigkeitsmessinstrumenten besäßen in der
Regel einen Faktor, der ungefähr die Hälfte der Kovarianz aufkläre. Zweitens ergäben sämtli-
che Studien, dass g nicht die gesamte Kovarianz einer Matrix abdecke. Zur Aufklärung sämtli-
cher Beziehungen bedürfe es basalerer Fähigkeitsmessinstrumente. Für Stankov (2005) liefer-
ten Faktorenanalysen jedoch keine konsistenten Informationen über das Ausmaß der g-Varianz
in der Matrix, g-Ladungen verschiedener Tests oder der Definition von g im Hinblick auf die
invarianten Faktorenstrukturen.
Demetriou, Mouyi und Spanoudis (2008) untersuchten 140 Kinder mit Aufgaben zu wichtigen
kognitiven Prozessen unterschiedlicher Komplexität aus den Bereichen Geschwindigkeit, Ar-
beitsgedächtnis, Informationsintegration und Schlussfolgern. Sie gingen daraufhin von hierar-
chisch organisierten Prozessen aus und vermuteten, g könne nicht mit einem dieser Konstruk-
te oder Dimensionen identifiziert werden, sondern würde von unterschiedlichen Prozessen
bestimmt, die auf dynamische Weise miteinander agieren.
Auf gleicher Ebene argumentieren Naglieri und Das (2002). Traditionelle Testverfahren, die
sich auf den g-Faktor begründen, hätten zwar gute Dienste für die Etablierung von Testungen
als einer der wichtigsten Beiträge der Psychologie an die Gesellschaft geleistet, es bedürfe
jedoch einer substantiellen Erneuerung der Konzeptualisierung und Messung von Intelligenz.
Konventionelle g-basierte Theorien seien ihrer Meinung nach unvollständig und in ihrem Nut-
zen eingeschränkt. Sie entwickelten die neuropsychologisch fundierte PASS-Theorie (Das, Nag-
lieri & Kirby, 1994), die sie als Alternative zur allgemeinen Intelligenz ansahen, und zogen sie
bei der Entwicklung eines eigenen Testverfahrens, des CAS (Cognitive Assessment System;
Naglieri, 1999) heran. PASS steht für die vier Elemente Planung (Planning), Aufmerksamkeit
(Attention) sowie simultane und sukzessive Kodierung (Simultaneous and Successive Proces-
sing) als grundlegende kognitive Prozesse der Intelligenz. Sie bilden ein zusammenhängendes
System, das mit den Grundlagen an Wissen und Fertigkeiten eines Individuums interagiert
(Naglieri & Das, 2002).
Die Diskussion um den g-Faktor geht mit der Kontroverse um den Gebrauch von Profilanalysen
einher (siehe Kapitel 4.5). Während die Befürworter des g-Faktors ein klares „just say no“
(McDermott, Fantuzzo & Glutting, 1990) postulieren, sprechen sich dessen Gegner für die An-
wendung der Profilanalyse aus. McGrew, Flanagan, Keith und Vanderwood (1997) kommen
nach einer großangelegten Analyse zu dem Ergebnis: „Just say maybe“ oder „wait just a minu-
te“ (S. 207).
3.6.3 Verbindung zur Studie
Der Streitpunkt um die Existenz eines g-Faktors kommt auch bei der Entwicklung des CHC-
Modells zum Tragen, da bereits die Entwickler dieser Theorie dahingehend unterschiedlicher
Kapitel 3 Intelligenztheorien und -modelle 40
Auffassungen sind (siehe Kapitel 3.5) (McGrew, 2005). Für diese Studie stellt sich demnach die
Frage, inwieweit der Vergleich der Ergebnisse beider Testversionen nur unter Berücksichtigung
des Gesamt-IQ (stellvertretend für den g-Faktor) oder zusätzlich auch der Index-Werte (stell-
vertretend für die Faktoren der zweiten Ebene im CHC-Modell) vorgenommen werden sollten.
Für die Wechsler-Versionen wird kontrovers diskutiert, ob die Interpretation des Gesamt-IQ
immer sinnvoll ist, gerade wenn sich große Diskrepanzen im Leistungsprofil des Kindes zeigen.
Die Gegner der Gesamt-IQ-Interpretation bei breit gestreuten Index-Werten sehen ihn als we-
nig valide und damit als unzureichende Beschreibung der Fähigkeiten des Kindes an (Fiorello et
al., 2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale, Fiorello, Kavanagh, Holdnack &
Aloe, 2007). Diese Forscher gehören auch zu denen, die den g-Faktor verneinen. Andere Auto-
ren halten den Gesamt-IQ für ebenso valide wie die Index-Werte – unabhängig von der Höhe
der Streuung zwischen den Index-Werten – und befürworten die Interpretation des Gesamt-IQ
auch bei den Populationen, die sich durch eine hohe Variabilität im Intelligenzprofil auszeich-
nen (Daniel, 2007).
3.7 Zusammenfassung Den Wechsler-Skalen wurden im Laufe der letzten Jahre und Jahrzehnte diverse Intelligenzmo-
delle zu Grunde gelegt. So finden sich in ihnen Aspekte des Primärfaktorenmodells von Thurs-
tone wieder, der Intelligenz aus sieben nebeneinander stehenden Faktoren gebildet sieht,
denen Ähnlichkeiten zu den in den Wechsler-Tests enthaltenen Indizes zugeschrieben werden
können. Einen mindestens ebenso großen Einfluss auf die Entwicklung der Wechsler-Tests
haben hierarchische Intelligenzstrukturmodelle, die einen mehrstufigen Aufbau kognitiver
Fähigkeiten beinhalten. Als ältestes und dennoch weiterhin bedeutendes Modell gilt die Zwei-
Faktoren-Theorie von Spearman, der als erster den Begriff des g-Faktors einbrachte, der bis
heute für viel Diskussionsstoff unter den Intelligenzforschern sorgt. Dabei handelt es sich um
die allgemeine Intelligenz des Menschen, die den spezifischen Fähigkeiten übergeordnet wer-
den kann. Mit Hilfe von Faktorenanalysen definierte Spearman den g-Faktor als die Fähigkeit,
die sämtlichen kognitiven Fähigkeiten des Menschen zugrundeliegt. Da den Wechsler-Tests mit
dem Gesamt-IQ ebenfalls ein übergeordneter Wert entnommen werden kann, wird Wechsler,
der selbst ein Schüler Spearmans war, eine Anlehnung an dessen Auffassung zugeschrieben.
Ein anderes wichtiges Intelligenzmodell wurde von Cattell begründet und später von Cattell
und Horn weiterentwickelt. Die Gf-Gc-Theorie geht anders als Spearman von zwei nebeneinan-
derstehenden Intelligenzfaktoren aus, der fluiden und der kristallinen Intelligenz. Später erwei-
terte Horn die Theorie auf acht oder mehr Faktoren, von denen die fluide und die kristalline
Intelligenz jedoch die Kernfaktoren bleiben. Sie wurden oftmals mit den beiden Skalen Verbal-
und Handlungsteil der Wechsler-Skalen in Verbindung gebracht. Ebenso wie die Gf-Gc-Theorie
Kapitel 3 Intelligenztheorien und -modelle 41
beschreibt Wechsler das Three-Stratum-Modell von Carroll als einflussgebend für die Entwick-
lung seiner Skalen. Aus einer umfassenden Faktorenanalyse, die zahlreiche Studien beinhalte-
te, entwickelte Carroll das Three-Stratum-Modell. Es bildet die Intelligenz auf drei Hierarchie-
ebenen ab, der allgemeinen Intelligenz auf der dritten und höchsten Ebene, acht weniger all-
gemeinen Faktoren auf Stratum II und 69 spezifischen Faktoren auf unterster Ebene. Die der-
zeit aktuellste Theorie ist eine Verbindung der Theorien von Cattell, Horn und Carroll, das CHC-
Modell. Es stellt das erste Modell dar, dem Intelligenztests explizit zu Grunde gelegt wurden,
und auch der WISC-IV wird ein impliziter Zusammenhang mit dem CHC-Modell nachgesagt. Es
wird mal mit und mal ohne einen übergeordneten allgemeinen Faktor beschrieben und bein-
haltet ein dynamisches Modell, das immer wieder veränderbar ist. Derzeit liegen acht breitere
oberhalb von ungefähr siebzig spezifischeren Faktoren. Die Diskussion über einen allgemeinen
Faktor an der Spitze des CHC-Modells geht mit dem langjährigen Streit über die Existenz eines
g-Faktors einher. Die Forscher, die einen g-Faktor befürworten, sehen ihn als Quelle der ge-
meinsamen Varianz sämtlicher kognitiven Fähigkeiten. Auf der anderen Seite stehen Forscher,
die den Schwerpunkt auf den breiter gefassten Faktoren sehen und einen g-Faktor dementie-
ren. Dieser Streit hält bis zum heutigen Tage an.
Kapitel 4 Die Wechsler-Skalen 42
4 Die Wechsler-Skalen
Wortschatz-Test, Frage 15: „Was bedeutet anstrengend?“
Miriam, 9 Jahre: „Wenn man Kinder hat, die viele Hobbies haben und man sie dann immer
hin- und herfahren muss.“
Die Wechsler-Skalen zählen seit mehr als einem halben Jahrhundert zu den weltweit bekann-
testen Intelligenztestverfahren (Belter & Piotrowski, 2001; Flanagan et al., 2000; Kaufman,
Flanagan, Alfonso & Mascolo, 2006; Prifitera, 1994; Zhu & Weiss, 2005). Nachgewiesenerma-
ßen sind sie die am häufigsten verwendeten Testverfahren (Camara, Nathan & Puente, 2000;
Schorr, 1995; Steck, 1997) und stehen trotz häufiger Kritik bei klinischen und Schulpsychologen
bei der Erfassung kognitiver Fähigkeiten von Kindern, Jugendlichen und Erwachsenen weiter-
hin an erster Stelle (Zhu et al., 2004). Die Methoden, Konzepte und Verfahrensweisen der Ska-
len haben seit der Mitte des vergangenen Jahrhunderts die Testentwicklung und -erforschung
in der Intelligenzdiagnostik richtungsgebend gesteuert (Flanagan et al., 2000). Sie haben im
klinischen Bereich und in der Forschung bereits eine langjährige Tradition (Kamphaus, 2005).
Flanagan und Kaufman (2004) gehen davon aus, dass die WISC-IV, wie schon ihr Vorgänger, die
WISC-III, das am weitesten verbreitete Intelligenztestverfahren der Welt werden wird.
4.1 Die Geschichte der Wechsler-Skalen Der Einfluss David Wechslers auf die Intelligenzmessung begann in den späten 1930er Jahren
(Kaufman et al., 2006). Seine klinischen und statistischen Kenntnisse, ebenso wie seine um-
fangreiche Erfahrung als Diagnostiker im Ersten Weltkrieg, flossen in seine Vorstellungen von
Intelligenz mit ein. Während dieses Krieges war in den Vereinigten Staaten eine Intelligenzbe-
urteilung zur Auswahl von Rekruten entwickelt worden. Der dort verwendete Test (Army
Alpha) wies zunächst einen hohen sprachlichen Anteil auf. Die eingeschränkte Lesefähigkeit
einiger Rekruten hatte daher die Notwendigkeit einer nonverbalen Beurteilung der Intelligenz
(Army Beta) begründet (Wechsler, 2003b). Wechsler hatte während seiner Arbeit mit den Sol-
daten festgestellt, dass es bei ihnen Diskrepanzen gab zwischen den intellektuellen Kompeten-
zen, die sie im zivilen Leben zeigten, und den Ergebnissen der Testverfahren, mit denen er sie
untersuchte. Daher schienen ihm bisher gängige Intelligenzdefinitionen, auf deren Basis Test-
verfahren wie die Army Alpha und Beta oder der erste Intelligenztest von Binet und Simon
(1905, zitiert nach Wechsler, 2003b) entwickelt wurden, unzureichend zu sein. Somit müsse für
ihn eine ganzheitliche Intelligenzdefinition weiter gefasst werden als bisher (siehe Kapitel 2.2).
Sein Studium in London bei Charles Spearman und Karl Pearson, und dabei vor allem Spear-
Kapitel 4 Die Wechsler-Skalen 43
mans g-Faktor-Theorie (Spearman, 1904, siehe Kapitel 3.1), hatte zusätzlichen Einfluss auf die
Entwicklung seiner Vorstellung von Intelligenz (Wechsler, 1939a). Auf der Grundlage seiner
langjährigen klinischen Arbeit machte Wechsler es sich dann zum Ziel, Testverfahren zu ent-
wickeln, mit denen auf Basis von verschiedenen Aufgaben dynamische klinische Informationen
erlangt werden können (Flanagan & Kaufman, 2004). So entwickelte er Untertests, die diejeni-
gen kognitiven Aspekte der Intelligenz erheben, die er als bedeutsam erachtete: Sprachver-
ständnis, abstraktes logisches Denken, Wahrnehmungsorganisation, mengenbezogenes Den-
ken, Gedächtnis und Bearbeitungsgeschwindigkeit. Diese werden in aktuellen Intelligenztheo-
rien ebenfalls als bedeutende Aspekte der kognitiven Fähigkeit angesehen (Carroll, 1993,
1997b; Horn, 1991, siehe Kapitel 3).
Auch wenn Wechsler sich für seine Tests viele Ideen von anderen Messinstrumenten auslieh
(Zachary, 1990), stellten sie doch eine bedeutende Innovation dar, mit der ihm ein dauerhafter
Beitrag zur Geschichte der Intelligenzdiagnostik gelang. Zur Entwicklung einer Intelligenztest-
batterie, die verständlicher und nützlicher für den klinischen Gebrauch sowie ökonomisch
sinnvoller war, vereinte er die aus seiner umfangreichen klinischen Erfahrung am besten ge-
eigneten Aspekte aus anderen Arbeiten (Zhu et al., 2004).
Um anders als bisherige Testverfahren sowohl verbale als auch nonverbale Intelligenzleistun-
gen beurteilen zu können, führte Wechsler (1939b) in seinem ersten Intelligenztest, der
Wechsler-Bellevue Intelligence Scale, zusätzlich zu einem allgemeinen Wert gesonderte Werte
für Verbal- und Handlungsskalen ein.
Diese Einteilung stellte eine Innovation dar und gilt als das vielleicht bedeutsamste Merkmal
der Wechsler-Bellevue (Flanagan & Kaufman, 2004). Wechsler (1944) hielt diese Einteilung
selber für einen wertvollen Beitrag seiner Skalen:
Its à priori value is that it makes possible a comparison between a subject`s facility in using words and symbols and his ability to manipulate objects, and to perceive visual patterns. In practice this division is substantiated by differences between posited abilities and various occu-pational aptitudes. ... Apart from their possible relation to vocational aptitudes, differences be-tween verbal and performance test scores, particularly when large, have a special interest for the clinician because such discrepancies are frequently associated with certain types of mental pathology. (S. 146)
Die Aufteilung der Untertests in Verbal- und Handlungsaufgaben führte häufig zu der Annah-
me, Wechsler ginge von einer Zwei-Faktoren-Struktur der Intelligenz aus. Wechsler (1958)
verfolgte dabei jedoch praktische Ziele:
[The grouping of subtests into Verbal and Performance areas] … does not imply that these are the only abilities involved in tests. Nor does it presume that there are different kinds of intelli-gence, e.g., verbal, manipulative, etc. It merely implies that these are different ways in which intelligence may manifest itself. … The subtests are different measures of intelligence, not measures of different kinds of intelligence, and the dichotomy of Verbal and Performance areas is only one of several ways in which the tests could be grouped. (S. 64)
Kapitel 4 Die Wechsler-Skalen 44
Für Wechsler repräsentierten der Verbal- und der Handlungsteil keine unterschiedlichen Fä-
higkeiten, sondern sie stellten zwei unterschiedliche Sprachen dar, durch die sich die zugrunde
liegende allgemeine Intelligenz ausdrücken kann (Kamphaus, 2005).
Eine weitere Innovation Wechslers war die Berechnung der Ergebnisse anhand eines soge-
nannten Abweichungs-IQ. Vor den Wechsler-Skalen wurde das kognitive Niveau eines Indivi-
duums anhand des Intelligenzalters (IA) geteilt durch das Lebensalter (LA) berechnet
(IQ = IA/LA * 100), ein Konzept, das ursprünglich 1908 von Binet eingeführt worden war (Zhu
et al., 2004). Da sich diese Art der Berechnungen besonders mit steigendem Lebensalter bei
Erwachsenen als sehr fehleranfällig erwiesen hatte und dadurch große Probleme bei der Inter-
pretation der Testergebnisse aufgekommen waren, stellte der Abweichungs-IQ eine wichtige
Neuerung dar, die den Vergleich mit Gleichaltrigen aussagekräftiger und die Interpretation
überschaubarer machte. Mit Hilfe des Abweichungs-IQ wird ein individueller Testwert an dem
Mittelwert und der Streuung einer für die Testperson repräsentativen Altersgruppe standardi-
siert. Dabei legte Wechsler (1939b) den Mittelwert bei 100 und die Standardabweichung bei
+/- 15 fest. Diese Form der Berechnung wird mittlerweile in allen gängigen Intelligenztests, die
einen IQ angeben, verwendet.
Insgesamt stellte die Veröffentlichung der Wechsler-Bellevue Intelligence Scale eine ernst zu
nehmende Konkurrenz für die bis dahin heiligen Binet-Skalen dar (Kamphaus, 2005). Sie bot
eine Reihe von Besonderheiten, die in den ersten Ausgaben der Binet-Skalen nicht verfügbar
waren. Dazu gehörten separate Normen für Kinder und Erwachsene, Standardwerte für die
einzelnen Untertests, die Profilanalysen ermöglichen, ein separater Handlungsteil, der die Un-
tersuchung von Menschen mit sprachlichen oder kulturellen Besonderheiten ermöglichte, und
der Abweichungs-IQ. Diese Vorteile der Wechsler-Tests gegenüber den Binet-Skalen lassen sich
in Wechslers langjähriger klinischer Erfahrung begründen, die Binet als reiner Forscher nicht
aufweisen konnte (Kamphaus, 2005).
Für seine erste Testbatterie für Kinder, die Wechsler Intelligence Scale for Children (WISC,
Wechsler, 1949) – im Deutschen HAWIK (Hardesty & Priester, 1956) – adaptierte er die Unter-
tests, die den HAWIK-Untertests Allgemeines Wissen, Rechnerisches Denken, Gemeinsamkei-
tenfinden, Wortschatz-Test, Zahlennachsprechen, Allgemeines Verständnis, Bilderergänzen,
Bilderordnen, Mosaik-Test, Figurenlegen und Zahlen-Symbol-Test entsprechen, aus der Wechs-
ler-Bellevue. Als zusätzlichen Untertest entwickelte er den Labyrinth-Test. Die Untertests war-
en in Verbal- und Handlungsskalen aufgeteilt und lieferten Werte für einen Verbal-, einen
Handlungs- und einen Gesamt-IQ. Als Intelligenztest für jüngere Kinder folgte 1967 die Wechs-
ler Preschool and Primary Scale of Intelligence (WPPSI, Wechsler, 1967). Ein Überblick über die
Wechsler-Intelligenzskalen kann Tabelle 4.1 entnommen werden.
Kapitel 4 Die Wechsler-Skalen 45
Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick
Skalen für Erwachsene Skalen für Kinder und
Jugendliche Skalen für Vor- und Grundschulkinder
Wechsler Bellevue I (1939) (Wechsler, 1939b)
Wechsler Bellevue-Form II (1946)
(Wechsler, 1946)
WAIS (1955) (Wechsler, 1955)
WISC (1949) (Wechsler, 1949)
WPPSI (1967) (Wechsler, 1967)
HAWIE (1956) (Bondy, 1956)
HAWIK (1956) (Hardesty & Priester, 1956)
HAWIVA (1975) (Eggert, 1975)
WAIS-R (1981) (Wechsler, 1981)
WISC-R (1974) (Wechsler, 1974)
WPPSI-R (1989) (Wechsler, 1989)
HAWIE-R (1991) (Tewes, 1991)
HAWIK-R (1983) (Tewes, 1983)
WAIS-III (1997) (Wechsler, 1997)
WISC-III (1991) (Wechsler, 1991)
WPPSI-III (2002) (Wechsler, 2002)
WIE (2006) (von Aster, Neubauer &
Horn, 2006)
HAWIK-III (1999) (Tewes, Rossmann & Schallberger, 1999)
HAWIVA-III (2007) (Ricken, Fritz, Schuck
& Preuß, 2007)
WISC-IV (2003)
(Wechsler, 2003a)
HAWIK-IV (2007)
(Petermann & Petermann, 2008a)
Anmerkung: Die deutschen Versionen sind grau unterlegt.
Während ein Ziel bei der Entwicklung der Wechsler-Bellevue war, einen Intelligenztest für Er-
wachsene zu erhalten, der nicht nur eine schwierigere Version eines Intelligenztests für Kinder
ist, sondern explizit für die Messung des kognitiven Leistungsstandes Erwachsener entwickelt
wurde, stellte die WISC das Gegenteil dar, nämlich die vereinfachte Version eines Intelligenz-
tests für Erwachsene. Aus diesem Grund wurde der WISC oft fehlende Kind-Orientierung vor-
geworfen (Anastasi & Urbina, 1997).
Die Eignung des Testverfahrens für Kinder zu verbessern war somit eines der Ziele bei der ers-
ten Neuauflage der WISC. Die Wechsler Intelligence Scale for Children – Revised (WISC-R,
Wechsler, 1974) – im Deutschen HAWIK-R (Tewes & Titze, 1994) – behielt alle Untertests der
WISC bei und erweiterte die Altersspanne von 6 bis 15 auf 6 bis 16 Jahre. Das revidierte Test-
verfahren lieferte weiterhin Werte für den Verbal-, den Handlungs- und den Gesamt-IQ. Wie
sein Vorgänger erfreute sich auch dieser Test großer Popularität. Der Bekanntheitsgrad lag
dabei nicht nur im klinischen, sondern auch im empirischen Bereich, was die über 1 100 Veröf-
fentlichungen zu verschiedenen Aspekten der klinischen Anwendbarkeit und Validität der
WISC-R zum Ausdruck bringen (Reynolds & Kaufman, 1990).
Die Wechsler Intelligence Scale for Children- Third Edition (WISC-III; Wechsler, 1991) – im Deut-
schen HAWIK-III (Tewes et al., 1999) – behielt alle Untertests der WISC-R bei, ergänzt durch
den neuen Untertest Symbol-Suche zur Messung der Bearbeitungsgeschwindigkeit. Zusätzlich
Kapitel 4 Die Wechsler-Skalen 46
zum Verbal-, Handlungs- und Gesamt-IQ wurden in der WISC-III vier neue – im HAWIK-III SV,
WO, UA und AG genannte – Index-Werte zur genaueren Darstellung enger definierter Bereiche
der kognitiven Funktionen eingeführt (ausführlicheres siehe Kapitel 4.2).
Die aktuelle Version der Wechsler-Skalen, die WISC-IV (Wechsler, 2003a) – im Deutschen HA-
WIK-IV (Petermann & Petermann, 2008a) – beinhaltet die bisher größten Veränderungen ge-
genüber einer vorherigen Version (siehe auch Tabelle 4.2). Sie zeichnet sich nicht nur durch
neue Untertests (Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test
und Begriffe erkennen), sondern auch durch eine strukturelle Änderung der Skalen aus. Zusätz-
lich zum Gesamt-IQ stehen anstelle des Verbal- und Handlungs-IQ vier Index-Werte zur Verfü-
gung, die aus 10 der 15 Untertests berechnet werden können (mehr dazu siehe Kapitel 4.3).
Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen HAWIK HAWIK-R HAWIK-III HAWIK-IV
AW AW AW AW RD RD RD RD GF GF GF GF WT WT WT WT ZN ZN ZN ZN AV AV AV AV BE BE BE BE BO BO BO MT MT MT MT FL FL FL
ZST ZST ZST ZST LT LT LT
SS SYS BK MZ BZF DT BEN
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Die Feststellung kognitiver Stärken und Schwächen erfolgt über spezifische Testverfahren, mit
denen die Testleistung reliabel und valide erfasst werden kann. Intelligenztests unterscheiden
sich in der Art der Testvorgabe wie folgt (Daseking et al., 2006):
Papier- und Bleistift- vs. computergestützte Tests,
Antworten in freiem Format vs. Mehrfachwahlantworten (multiple choice) und
Schnelligkeit (speed) vs. Richtigkeit (power) der Aufgabenbearbeitung.
Die Intelligenztestbatterien HAWIK-III und -IV stellen sich als Papier- und Bleistiftverfahren mit
Antworten in freiem Format dar. Sie beinhalten sowohl Aufgaben, die auf Schnelligkeit, als
auch Aufgaben, die auf die Richtigkeit der Aufgabenbearbeitung abzielen.
Kapitel 4 Die Wechsler-Skalen 47
4.2 Der HAWIK-III Die WISC-III erschien 1991 in den USA (Wechsler, 1991) und kam acht Jahre später als HAWIK-
III (Tewes et al., 1999) auf den deutschsprachigen Markt. Die Untertests des HAWIK-III lassen
sich zwei übergeordneten Konstrukten zuordnen: dem Verbal- und dem Handlungsteil3. Dabei
wird der Verbal-IQ auch als Sprachliche Intelligenz und der Handlungs-IQ als Praktische Intelli-
genz bezeichnet (Daseking & Petermann, 2004; Tewes, Rossmann & Schallberger, 2002). Zu-
sätzlich können über verschiedene Untertestkombinationen vier Indizes berechnet werden:
Sprachverständnis (SV), Wahrnehmungsorganisation (WO), Unablenkbarkeit (UA) und Arbeits-
geschwindigkeit (AG). Die hierarchische Struktur des HAWIK-III zeigt Abbildung 4.1.
Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S. 86) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3).
Der HAWIK-III umfasst 13 Untertests, von denen 10 in die Berechnung des Gesamt-IQ und 12
in die Berechnung der Indizes einfließen. Eine inhaltliche Beschreibung der Untertests kann
Tabelle 4.3 entnommen werden. Der Labyrinth-Test wurde in dieser Untersuchung in Anleh-
nung an andere Studien (siehe u. a. Johnson Grados & Russo-Garcia, 1999; Phelps et al., 2005;
Watkins, 2005) nicht berücksichtigt, da er weder in die Gesamt-IQ- noch in die Index-
Berechnung einbezogen wird und somit für die Vergleichbarkeit der Testversionen als unbe-
deutend erscheint.
3 Der Verbal- und Handlungsteil bzw. der Verbal- und Handlungs-IQ werden im Folgenden der Einfach-heit halber als Gesamtwerte bezeichnet, da sie sich aus jeweils zwei Indizes zusammensetzen.
AV
Gesamt-IQ
Verbalteil Handlungsteil
SV UA WO AG
AW GF WT BE BO MT FL RD ZN ZST SS
Kapitel 4 Die Wechsler-Skalen 48
Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002) Test Beschreibung
BE Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail, das auf dem jeweiligen Bild fehlt.
AW Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte und Persönlichkeiten.
ZST
Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind abstrakte Symbole zuordnet. Es zeichnet in einer begrenzten Zeit die Symbole in die dazugehörigen Figuren bzw. Ziffern, indem es einen Entschlüsselungscode verwen-det.
GF Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen oder beschreiben. Die Begriffe beziehen sich auf Konzepte oder Gegenstände des Alltags.
BO Dem Kind werden Bilderserien in falscher Reihenfolge vorgelegt. Das Kind hat die Aufgabe, sie in eine logisch richtige Reihenfolge zu sortieren, so dass sie eine kurze Geschichte bzw. einen Handlungsablauf wiedergeben.
RD Das Kind löst eine Serie von zunächst mündlich, dann mündlich und schriftlich vorge-gebenen Rechenaufgaben.
MT Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe Muster-vorlagen (Modell oder Bildvorlage) innerhalb einer vorgegebenen Zeitspanne nach-bauen.
WT Das Kind gibt Definitionen für die vom Testleiter vorgegebenen Worte.
FL Jede Aufgabe besteht aus Teilen eines Puzzles, aus denen das Kind eine sinnvolle Figur zusammensetzen muss.
AV Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und sozialen Situationen oder Regeln erfordern.
SS Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet.
ZN Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge (ZN vorwärts) beziehungsweise in umgekehrter Reihenfolge (ZN rückwärts) nachspre-chen soll.
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Der HAWIK-III wird, wie sämtliche Wechsler-Intelligenztests, in der diagnostischen Einzelfallun-
tersuchung eingesetzt und ermöglicht die Darstellung eines intraindividuellen Leistungsprofils.
Die von den jeweiligen Untertests erfassten kognitiven Funktionen (Tewes et al., 2002) werden
in Tabelle 4.4 beschrieben.
Kapitel 4 Die Wechsler-Skalen 49
Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al., 2002) Test Beschreibung der erfassten Funktionen Kerntests (zur Bestimmung der IQ-Werte)
BE Beobachtungsgenauigkeit und Fähigkeit zum Erkennen fehlender Details bei vertrau-ten Objekten, Fähigkeit zwischen wesentlichen und unwesentlichen Details zu unter-scheiden
AW Breite des erworbenen Wissens, Langzeitgedächtnis für Faktenwissen, Interesse und Neugier für kulturspezifische Kenntnisse
ZST Visuomotorische Koordination, Konzentration und Arbeitsgeschwindigkeit, visuelles Kurzzeitgedächtnis
GF Erkennen von unmittelbaren, funktionalen oder abstrakten Beziehungen zwischen Begriffen, Objekten oder Qualitäten auf der Grundlage von Analogiebildungen.
BO Praktisches Urteilsvermögen beim Erkennen von logischen Ereignisfolgen und Ursa-che-Wirkungszusammenhängen, schlussfolgerndes Denken, Aufmerksamkeit für De-tails und Hintergrundinformationen
RD Akustische Merkfähigkeit, Arbeitsgedächtnis, Konzentrationsvermögen und Fähigkeit zur Lösung einfacher Rechenaufgaben im Kopf und unter Zeitdruck
MT Räumliche Wahrnehmung und visuomotorische Koordination, Unterscheidung zwi-schen Teilen und Ganzem beim Erkennen abstrakter visueller Muster
WT Wortkenntnis, Umfang des Wortschatzes, Fähigkeit zur Definition von Begriffen, all-gemeine sprachliche Entwicklung
FL Wiedererkennen von vertrauten Objekten, Erkennen von Beziehungen zwischen Tei-len und dem Ganzen
AV Praktisches Urteilsvermögen, Kenntnis konventioneller sozialer Regeln und ihrer Be-deutungen
Optionale Untertests (zur Bestimmung der Index-Werte)
SS Beobachtungsgenauigkeit und Konzentration, Geschwindigkeit geistiger Verarbei-tungsprozesse
ZN Akustische Merkfähigkeit, Arbeitsgedächtnis, Aufmerksamkeit und Konzentrations-vermögen
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
4.3 Der HAWIK-IV
Der HAWIK-IV stellt die deutschsprachige Version der WISC-IV dar, die 2003 in den USA er-
schien. Wie oben beschrieben weist er eine deutlich andere hierarchische Struktur auf als bis-
herige HAWIK-Versionen (siehe Abbildung 4.2). Der Gesamt-IQ wird nicht mehr in Verbal- und
Handlungsteil unterteilt, sondern in die vier Indizes Sprachverständnis (SV), Wahrnehmungs-
gebundenes Logisches Denken (WLD), Arbeitsgedächtnis (AGD) und Verarbeitungsgeschwin-
digkeit (VG). Diese werden wiederum mit Hilfe von zwei oder drei Untertests berechnet.
Kapitel 4 Die Wechsler-Skalen 50
Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Pe-termann, 2008a) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3).
Der HAWIK-IV umfasst 15 Untertests, von denen 10 in die Berechnung der Indexwerte und des
Gesamt-IQ einfließen. Tabelle 4.5 enthält die inhaltliche Beschreibung der Untertests.
Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) Test Beschreibung
MT Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe Muster-vorlagen innerhalb einer vorgegebenen Zeitspanne nachbauen.
GF Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen oder beschreiben, die sich auf Konzepte oder Gegenstände des Alltags beziehen.
ZN Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge (ZN-V) beziehungsweise in umgekehrter Reihenfolge (ZN-R) nachsprechen soll.
BK Das Kind soll aus zwei bzw. drei Bildreihen (mit je zwei bis vier Bildern) jeweils ein Bild auswählen, um daraus eine Gruppe mit einer gemeinsamen Eigenschaft zu bilden.
ZST Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind abstrakte Symbole zuordnet. Es zeichnet durch Verwendung eines Entschlüsselungs-codes in einer begrenzten Zeit die Symbole in die dazugehörigen Figuren bzw. Ziffern.
WT Bei den Bildaufgaben benennt das Kind die Bilder, die ihm vorgelegt werden. Bei den verbalen Aufgaben gibt das Kind Definitionen für verschiedene Worte.
BZF Dem Kind werden eine Reihe von Nummern und Buchstaben vorgelesen. Es gibt die Nummern in aufsteigender und die Buchstaben in alphabetischer Reihenfolge wieder.
MZ Das Kind betrachtet eine unvollständige Matrize und wählt das fehlende Teil aus fünf Antwortmöglichkeiten.
AV Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und sozialen Situationen oder Regeln erfordern.
SYS Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet.
BE Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail, das auf dem jeweiligen Bild fehlt.
DT Das Kind betrachtet eine unstrukturierte beziehungsweise eine strukturierte Bilder-anordnung und markiert in einer begrenzten Zeit die Zielbilder (Tiere).
AW Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte und Persönlichkeiten.
RD Das Kind löst eine Serie von mündlich vorgegebenen Rechenaufgaben.
BEN Das Kind entschlüsselt den allgemeinen Begriff, der mit einer Reihe von Sätzen (Satz-teilen) umschrieben wird.
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
AV
Gesamt-IQ
SV WLD AGD VG
GF WT MT BK ZST SYS ZN BZF MZ
Kapitel 4 Die Wechsler-Skalen 51
Wie oben beschrieben, wurden einige Untertests zur Erhebung der HAWIK-IV-Funktionen ent-
wickelt, die in den vergangenen Jahren als wichtige kognitive Fähigkeitsbereiche ermittelt
wurden. Die erfassten Funktionen sämtlicher Untertests werden in Tabelle 4.6 beschrieben.
Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et al., 2007). Test Beschreibung der erfassten Funktionen Kerntests (zur Bestimmung der IQ-Werte)
MT Analyse und Synthetisierung abstrakter visueller Stimuli, nonverbale Konzeptbildung, visuelle Wahrnehmung und Organisation, visuomotorische Koordination, Figur-Grund-Unterscheidung bei visuellen Stimuli
GF Verbales Schlussfolgern und Konzeptbildung, auditives Verständnis, Gedächtnis, ver-baler Ausdruck
ZN
Auditives Kurzzeitgedächtnis; Fertigkeit zur Reihenbildung, Aufmerksamkeit. Zahlen nachsprechen vorwärts: automatisiertes Lernen, Gedächtnis, Aufmerksamkeit. Zahlen nachsprechen rückwärts: Arbeitsgedächtnis, mentale Rotation, visuell-räumliches Vorstellungsvermögen. Wechsel: kognitive Flexibilität
BK Abstraktes kategoriales Denken
ZST Kognitive Verarbeitungsgeschwindigkeit, Kurzzeitgedächtnis, Lernfähigkeit, visuelle Wahrnehmung, visuomotorische Koordination, Fähigkeit zum visuellen Scanning, kognitive Flexibilität, Aufmerksamkeit
WT Wortwissen und Begriffsbildung, Lernfähigkeit, Langzeitgedächtnis, Sprachentwick-lung
BZF Reihenfolgenbildung, mentale Rotation, Aufmerksamkeit, auditives Kurzzeitgedächt-nis, visuell-räumliches Vorstellungsvermögen, Verarbeitungsgeschwindigkeit
MZ Fluide Intelligenz
AV Verbales Schlussfolgern und verbale Konzeptualisierung, sprachliches Verständnis, sprachlicher Ausdruck, Wissen um konventionelle Verhaltensstandards, soziales Ur-teil
SYS Kognitive Verarbeitungsgeschwindigkeit, visuelles Kurzzeitgedächtnis, visuomotori-sche Koordination, kognitive Flexibilität, visuelle Diskrimination, Konzentration
Optionale Untertests (zusätzliche Informationen) BE Visuelle Wahrnehmung und visuelle Organisation DT Verarbeitungsgeschwindigkeit, visuelle selektive Aufmerksamkeit AW Kristalline Intelligenz, allgemeines Faktenwissen, Langzeitgedächtnis
RD Mentale Rotation, Konzentration, Aufmerksamkeit, Kurz- und Langzeitgedächtnis, Rechenfähigkeit
BEN Verbales Schlussfolgern, sprachliches Verständnis, verbale Abstraktion, Bereichswis-sen, Integration und Synthetisierung verschiedener Informationsarten, Generierung alternativer Konzepte
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
4.4 Testgütekriterien des HAWIK-III und HAWIK-IV Nach Amelang und Schmidt-Atzert (2006) können die Gütekriterien zur Bewertung eines Test-
verfahrens wie folgt aufgegliedert werden:
Kriterien zu den Grundlagen eines Tests (diagnostische Zielsetzung, theoretische Grundlagen und Nachvollziehbarkeit der Testkonstruktion),
Kapitel 4 Die Wechsler-Skalen 52
Kriterien zur Durchführung eines Tests (Durchführungsobjektivität, Transparenz, Zu-mutbarkeit, Verfälschbarkeit und Störanfälligkeit),
Kriterien zur Verwertung eines Tests (Auswertungsobjektivität, Zuverlässigkeit, Gültig-keit, Normierung, Bandbreite, Informationsausschöpfung und Änderungssensitivität),
Kriterien zur Evaluation eines Tests (Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit und Bewährung) sowie
Kriterien zur äußeren Gestaltung eines Tests.
Dabei kommen den Hauptgütekriterien Objektivität, Reliabilität und Validität zentrale Bedeu-
tung zu.
4.4.1 Objektivität
Die Objektivität eines Intelligenztests ist von großer Bedeutung (Hall, Howerton & Bolin, 2005;
Lipsius, Petermann & Daseking, 2008). Ihr Mangel kann zu Einschränkungen der Aussagekraft
auch dieser Studie führen. Die Objektivität bestimmt sich dabei nach dem Ausmaß, in dem die
Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind (Amelang &
Schmidt-Atzert, 2006).
Bei umfangreichen Testbatterien wie dem HAWIK-III und -IV führen Fehler des Testleiters in
der Durchführung und Auswertung des Tests bisweilen zu gravierenden Abweichungen zwi-
schen Testergebnis und wahrem Wert. Um dem mangelhaften Umgang mit Testverfahren ent-
gegenzuwirken, haben in der Vergangenheit einige Organisationen Testleitlinien und
-standards entwickelt (Häcker, Leutner & Amelang, 1998; Moosbrugger & Höfling, 2006). Zu
nennen sind vor allem die Standards für pädagogisches und psychologisches Testen, die von
der AERA (American Educational Research Association), der APA (American Psychological Asso-
ciation) und der NCME (National Council on Measurement in Education) entwickelt wurden
(Standards for educational and psychological testing, AERA, APA & NCME, 1999) sowie die
Richtlinien der International Test Commission (International guidelines for test use, ITC, 2000).
Letztgenannte liegen in deutscher Fassung vom BDP (Berufsverband Deutscher Psychologinnen
und Psychologen) vor (2001). Auch die Interpretationsobjektivität ist bei Intelligenztests nicht
immer gegeben. Sie betrifft den Grad der Eindeutigkeit, mit der gleichen Werten (also in die-
sem Fall Testergebnissen) auch gleiche Merkmalsausprägungen (also hier kognitive Fähigkei-
ten) zugeordnet werden (Fisseni, 2004).
4.4.1.1 Objektivität im HAWIK-III
Die Durchführung des HAWIK-III erfolgt weitestgehend anhand standardisierter Materialien.
Im Manual werden keine empirischen Befunde zur Objektivtät berichtet, was auch kritisiert
wird (Renner & Fricke, 2001). Studien zur Durchführungs- und Auswertungsobjektivität des
HAWIK-III kamen übereinstimmend zu dem Ergebnis, dass Testleiter vor allem in den verbalen
Untertests häufig eine große Anzahl sehr unterschiedlicher Fehler machen und somit eine voll-
Kapitel 4 Die Wechsler-Skalen 53
ständige Objektivität nicht gewährleistet ist (Alfonso, Johnson, Patinella & Rader, 1998; Hall et
al., 2005). Außerdem wurde bemängelt, dass die Antwortbeispiele nicht immer dem aktuellen
Sprachgebrauch der Kinder entsprächen und somit eine Bewertungsentscheidung erschwert
werde. Bei konsequenter Einhaltung der Richtlinien für die Testdurchführung und -auswertung
kann jedoch von einer Durchführungs- und Auswertungsobjektivität ausgegangen werden (Da-
seking & Petermann, 2004; Jacobs, Heubrock & Petermann, 2002). Die oftmals notwendige
parallele Protokollierung und Bewertung sowie der sekundengenaue Umgang mit der Stopp-
uhr erfordern eine intensive Einarbeitung in den Test. Die Auswertung wird durch Beispiele
und Schablonen erleichtert.
4.4.1.2 Objektivität im HAWIK-IV
Zur Reduzierung von Durchführungs- und Bewertungsfehlern wurde das Design des WISC-IV-
Protokollbogens geändert. Eine verkürzte Version der wichtigsten Regeln zu Einstiegsalter,
Umkehr, Abbruch und Bewertung befindet sich für jeden Untertest auf dem Protokollbogen.
Zur Verbesserung der Anwenderfreundlichkeit des Tests wurden die Durchführungsprozeduren
modifiziert. Die Instruktionen an die Testleiter sind kürzer und verständlicher gehalten. Zur
objektiveren Gestaltung der Bewertung wurden zusätzliche Beispielantworten einbezogen. Für
konsistente und klare Durchführung wird außerdem in den Anweisungen bei allen Untertests
ein ähnlicher Wortlaut verwendet. Diese Veränderungen wurden auch für den HAWIK-IV über-
nommen und werden positiv bewertet (Deimann & Kastner-Koller, 2008; Renner, 2008).
Zur Bestimmung angemessener Punktwerte für vielfältige Antworttypen wurden für jene Un-
tertestaufgaben, die elaboriertere Antworten erfordern, eine Reihe von Studien durchgeführt
(siehe dazu Wechsler, 2003b). Dem begrenzten Wortschatz jüngerer Kinder wurde durch die
stärkere Betonung der Bedeutung der Antworten als deren präziser Inhalt Rechnung getragen.
Zur Erleichterung der Bewertung der verbalen Untertests wurden zusätzliche Beispielantwor-
ten in das Manual aufgenommen. Mit dem Überblick über die gravierendsten Durchführungs-
und Auswertungsfehler am Ende des deutschen HAWIK-IV-Manuals wurde ein weiterer sinn-
voller Versuch unternommen, die Objektivität des Tests zu verbessern (Lipsius et al., 2008).
Insgesamt wurde bei der Entwicklung der WISC-IV dem Problem der Testleiterobjektivität
durch anwenderfreundlichere Durchführungsanweisungen begegnet. Dennoch zeigen bisheri-
ge Studien, dass der HAWIK-IV, ebenso wie die WISC-IV, weiterhin ein hohes Fehlerpotential
hinsichtlich der Durchführung, Auswertung und Interpretation birgt (Linger, Ray, Zachar, Un-
derhill & Lobello, 2007; Platt, Zachar, Ray, Underhill & Lobello, 2007). Beispielsweise führten
bei einer Untersuchung zum HAWIK-IV eine fehlerhafte Auswertung der sprachlichen Unter-
tests zu Abweichungen von bis zu 33 IQ-Punkten im SV (Lipsius et al., 2008). In einer Studie zur
WISC-IV (Loe, Kadlubek & Marks, 2007) wiesen 98 % der untersuchten Testprotokolle Fehler
auf; im Schnitt waren es mehr als 25 Fehler pro Test.
Kapitel 4 Die Wechsler-Skalen 54
4.4.2 Reliabilität
Die Reliabilität beschreibt, wie genau ein Test misst und gibt Auskunft über die situationsüber-
greifende Stabilität und Konsistenz der Testwerte (Bortz & Döring, 2002). Tests mit geringer
Reliabilität beinhalten mehr Messfehler und demzufolge höhere Standardmessfehler als Test-
verfahren mit hoher Reliabilität. Daraus resultieren für Tests mit geringeren Reliabilitäten brei-
tere Konfidenzintervalle, die den wahren Wert umgeben. Damit gilt die Reliabilität als das Va-
rianzverhältnis zwischen wahren und beobachteten Werten (Bühner, 2004). Im Allgemeinen
gelten erst Reliabilitäten ab .80 als ausreichend. Daher wird davon abgeraten, Tests mit Relia-
bilitäten unter .80 für wichtige Screening- oder Diagnose-Entscheidungen zu verwenden (Fla-
nagan & Kaufman, 2004).
Die Reliabilitäten des HAWIK-III und -IV wurden nach der Testhalbierungsmethode bestimmt
und nach Spearman-Brown korrigiert.
Die Reliabilitäten des HAWIK-III und HAWIK-IV (siehe Tabelle 4.7) erweisen sich auf Ebene der
Index-Werte und des Gesamt-IQ als fast identisch. Auf Ebene der Untertests sind jedoch teil-
weise größere Abweichungen zu verzeichnen.
Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV Untertest/Index HAWIK-III HAWIK-IV MT .88 .85 GF .80 .87 ZN .88 .84 ZST .85 .85 WT .88 .90 AV .81 .81 SS/SYS .79 .79 BE .74 .83 AW .85 .85 RD .84 .89 SV/SV .94 .94 WO/WLD .90 .93 UA/AGD .89 .92 AG/VG .87 .87 V-IQ/SV .95 .94 H-IQ/WLD .91 .93 Gesamt-IQ .96 .97
Anmerkungen: Reliabilitäten mit einer Differenz von ≥ .05 sind grau hervorgehoben. Es werden nur die Reliabilitäten der Untertests dargestellt, die in beiden Testversionen vorhanden sind. Abkürzungen siehe Anhang A5 und A6.
Als Untertest mit der am meisten voneinander abweichenden Reliabilität stellt sich das Bilder
ergänzen4 dar, gefolgt vom Gemeinsamkeiten finden.
4 Bezieht sich die Untertestbezeichnung nicht eindeutig auf den Untertest einer bestimmten Testversion wird die Schreibweise des HAWIK-IV verwendet.
Kapitel 4 Die Wechsler-Skalen 55
Auch wenn sich die Reliabilitäten der Untertests Zahlen-Symbol-Test und Symbol-Suche als
identisch erweisen, kann nicht von einer vergleichbaren Reliabilität ausgegangen werden, da
sie auf unterschiedliche Arten berechnet wurden. Im HAWIK-III wurden sie getrennt für Form A
und B an zwei Altersgruppen von jeweils 75 Kindern geschätzt. Dabei wurde die Anzahl der
richtigen Lösungen der ersten 60 Sekunden mit der Anzahl der richtigen Lösungen der zweiten
60 Sekunden korreliert. Auf die Berechnung der Reliabilitäten nach der Testwiederholungsme-
thode wurde mit dem Hinweis auf die Ergebnisse der WISC-III verzichtet (Tewes et al., 2002).
Im HAWIK-IV wurde dagegen für die Untertests des Index VG die Retest-Reliabilität bestimmt.
Dabei stellt der Koeffizient die Korrelation zwischen den Werten der ersten und der zweiten
Testung von 103 Kindern aus drei Altersstufen dar, korrigiert um die Varianz der Normierungs-
stichprobe.
In den Untertests des Verbalteils im HAWIK-III zeigten sich mit .80 bis .88 höhere Reliabilitäten
als in den Untertests des Handlungsteils mit Werten zwischen .68 und .88. Neben dem in die-
ser Studie nicht berücksichtigten Labyrinth-Test weist Figurenlegen mit .69 die niedrigste Re-
liabilität auf. Die Indizes beinhalten mit Reliabilitäten von.87 bis .94 und die drei übergeordne-
ten IQ-Werte mit .91 bis .96 höhere Reliabilitäten als die Untertests.
Auch im HAWIK-IV fallen die Reliabilitäten der Untertests (.76 bis .91) insgesamt niedriger aus
als die Reliabilitäten der Index-Werte (.87 bis .94) und des Gesamt-IQ (.97). Dies kann damit
begründet werden, dass die Reliabilitätswerte generell höher ausfallen, je mehr Werte in die
Berechnung einfließen.
4.4.3 Validität
Die Überprüfung der Validität (oder Validierung) soll Aufschluss darüber erbringen, welche
Aspekte des Verhaltens vom jeweiligen Instrument erfasst werden und welche Prognosen mit
ihm möglich sind (Lienert & Raatz, 1998). Nur mit einer hohen Validität kann es möglich sein,
einen Test gezielt einzusetzen und sinnvoll zu interpretieren (Holling et al., 2004). Im Folgen-
den wird nur auf die für diese Vergleichsstudie relevanten Validitätsaspekte eingegangen.
4.4.3.1 Nachweis der internen Struktur
Die Überprüfung der internen Struktur gibt den Grad an, in dem die Beziehungen unter Test-
aufgaben und Testkomponenten zu dem Konstrukt passen, auf dem die vorgeschlagenen Test-
interpretationen basieren (Standards for educational and psychological testing, AERA, APA &
NCME, 1999). Interne Validität ist demnach dann gegeben, wenn das Testergebnis den An-
nahmen entspricht, die vorher aufgestellt wurden.
Kapitel 4 Die Wechsler-Skalen 56
Die interne Struktur wird mit Hilfe von Faktorenanalysen überprüft. Auch in dieser Studie soll
untersucht werden, inwieweit sich die Faktoren, die die beiden Testverfahren zu messen vor-
geben, in den vorliegenden Daten wiederfinden lassen.
Die Werte der mit den Normierungsdaten der WISC-IV durchgeführten exploratorischen Fakto-
renanalyse können Tabelle 4.8 entnommen werden.
Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte Normie-rungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b). Faktor Untertest SV WLD AGD VG WT .87 -.05 .06 .00 AV .78 -.13 .06 .07 BEN .73 .09 -.07 -.01 GF .71 .13 .02 -.02 AW .71 .08 .11 -.06 MT -.06 .78 .04 -.02 MZ -.03 .64 .19 -.04 BE .32 .60 -.26 .02 BK .16 .40 .06 .02 ZN .00 -.03 .67 -.05 BZF .11 -.04 .62 .00 RD .14 .18 .51 .03 ZST -.02 .01 .05 .70 DT .01 -.09 -.11 .65 SYS .01 .17 .08 .54
Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe Anhang A5 und A6.
Faktorenanalysen des HAWIK-III: Zur Prüfung, inwieweit dem HAWIK-III eine ähnliche Fakto-
renstruktur zugrunde liegt wie der WISC-III, deren Struktur anhand von Faktorenanalysen be-
stätigt werden konnte (Näheres dazu siehe Blaha & Wallbrown, 1996; Keith & Witta, 1997;
Konold, Kush & Canivez, 1997; Sattler, 2001), wurden Faktorenanalysen auf Basis der Normie-
rungsstichprobe für vier separate Altersgruppen und die Gesamtstichprobe durchgeführt (Te-
wes et al., 2002). Die Berechnungen erfolgten nach der Maximum-Likelihood-Methode mit
Varimax-Rotation. Zur Überprüfung der Aufteilung in Verbal- und Handlungsteil wurde zu-
nächst eine Faktorenanalyse für eine Zweifaktorenlösung berechnet. Auf der Basis der Ge-
samtstichprobe zeigten sich bei allen Untertests des Verbalteils hohe Ladungen auf dem ersten
Faktor, mit Ausnahme des Zahlennachsprechens, das - ebenso wie die Untertests des Hand-
lungsteils - eine etwas höhere Ladung auf dem zweiten Faktor aufwies. Rechnerisches Denken
lud ebenso wie das Zahlennachsprechen annähernd gleich hoch auf beiden Faktoren. Die Un-
tersuchung der Vier-Faktoren-Struktur auf Index-Ebene wurde für verschiedene Altersgruppen
sowie die Gesamtstichprobe mit unterschiedlichen Abbruchkriterien berechnet, wodurch sich
die Faktorenanzahl und die Faktorenstruktur veränderten. Unter Beschränkung der Extraktion
auf Faktoren mit Eigenwerten von >1, ergaben sich für die Gesamtstichprobe drei Faktoren
Kapitel 4 Die Wechsler-Skalen 57
(SV, WO und AG). Der Index UA zeigte jedoch einen Eigenwert von deutlich unter 1.0. Auch
wenn die Autoren des HAWIK-III die Ergebnisse mit Abstrichen als empirische Bestätigung für
die vier Faktoren ansahen, wurde die Interpretation der Testergebnisse auf Index-Ebene viel-
fach kritisiert. So konnte nachgewiesen werden, dass insbesondere der Faktor UA nicht explizit
Ablenkbarkeit oder Hyperaktivität erfasst, auch wenn er sehr häufig in dieser Weise und als
Hinweis auf ADHS interpretiert wurde (Naglieri & Paolitto, 2005; Zhu et al., 2004).
Faktorenanalysen des HAWIK-IV: Die von den Testentwicklern vorgegebene Zuordnung der
Untertests zu den vier Indizes konnte auf der Basis der deutschsprachigen Normierungsstich-
probe faktorenanalytisch sowohl für die zehn Kerntests als auch für alle 15 Untertests bestätigt
werden (Petermann & Petermann, 2008a, siehe Tabelle 4.9).
Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133). Faktor Untertest SV WLD AGD VG WT .67 .09 .17 .09 GF .62 .23 .09 .08 AV .61 .13 .11 .17 BEN .60 .10 .15 .14 AW .58 .16 .21 .08 BE .20 .58 .06 .10 MT .09 .55 .10 .20 MZ .03 .53 .26 .12 BK .13 .51 .17 .04 ZN .06 .00 .69 .09 BZF .05 .12 .69 .06 RD .13 .26 .55 .06 SYS .06 -.03 .04 .82 ZST -.01 .08 .05 .76 DT .09 .19 .10 .48 Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe Anhang A5 und A6.
4.4.3.2 Konstruktvalidität
Die Konstruktvalidität spiegelt die Aussagekraft eines Testwerts als Messung des Ausprägungs-
grades der interessierenden psychologischen Eigenschaft wider (Häcker et al., 1998). Ein Test
ist demnach konstruktvalide, wenn aus dem zu erfassenden Zielkonstrukt Hypothesen ableit-
bar sind, die anhand der Testwerte bestätigt werden können (Bortz & Döring, 2002). Sie be-
schreibt ein Gesamtbild der Validität, das sich beispielsweise aus dem Nachweis des dem Test
zu Grunde liegenden Modells (z. B. durch Prüfung von Strukturannahmen) oder aus anderen
Bestandteilen wie der diskriminanten und der konvergenten Validität eines Tests ergibt. Die
konvergente Validität setzt hohe Korrelationen der Messdaten von Testverfahren voraus, die
dasselbe Konstrukt abbilden. Eine hohe diskriminante Validität liegt hingegen dann vor, wenn
ein Test zu anderen Tests, die andere Konstrukte abbilden, niedrige Zusammenhänge aufweist.
Kapitel 4 Die Wechsler-Skalen 58
Zur Untersuchung der diskriminanten und konvergenten Validität der WISC- bzw. HAWIK-
Versionen werden in einer Multitrait-Multimethod-Matrix die Interkorrelationen der Unter-
tests angegeben. Dabei wird zum einen davon ausgegangen, dass die Untertests untereinander
zumindest niedrige bis mittlere Korrelationen aufweisen, da sie dem allgemeinen Intelligenz-
faktor g unterliegen. Zweitens werden hohe Interkorrelationen der Untertests erwartet, die zu
einem Index gehören, während bei den Untertests unterschiedlicher Indizes niedrige Interkor-
relationen erwartet werden. Drittens zeigen in bisherigen Studien einige Untertests höhere
Korrelationen mit g als andere Untertests (Keith et al., 2006; Sattler, 2001; Wechsler, 2003b).
Aus diesem Grund ist in den Untertests eine relativ hohe Interkorrelation zu erwarten, die
hoch auf g laden. Diese Hypothesen konnten für sämtliche Wechsler-Skalen bestätigt werden
(für Ausführlicheres soll an dieser Stelle auf die entsprechenden Testmanuale verwiesen wer-
den).
4.4.4 Normen des HAWIK-III und HAWIK-IV
Das Manual des HAWIK-III bietet Testnormen und Umrechnungstabellen für die Altersspanne
von 6;0 bis 16;11 Jahren in Vier-Monats-Intervallen für 33 Altersgruppen mit insgesamt 1 570
Kindern und Jugendlichen. Die Normierung des HAWIK-III erfolgte von 1995 bis 1998 in
Deutschland, Österreich und der deutschsprachigen Schweiz. Auswahl und bildungsspezifische
Zuordnung der Kinder erfolgte nach Angaben des deutschen Statistischen Jahrbuchs (Näheres
dazu siehe Tewes et al., 2002).
Die Normierungsstichprobe des HAWIK-IV, die zwischen März 2005 und Mai 2006 in Deutsch-
land, Österreich und der deutschsprachigen Schweiz erhoben wurde, beinhaltet die Daten von
1 650 Kindern und Jugendlichen im Alter von 6;0 bis 16;11 Jahren, (unter Bezug auf Angaben
des Statistischen Bundesamtes der BRD) geschichtet nach Merkmalen wie Region, Schulform
und Schulabschluss der Eltern. Wie im HAWIK-III wurden die Normtabellen in Vier-Monats-
Intervalle unterteilt.
4.4.5 Boden- und Deckeneffekte
Boden- und Deckeneffekte beeinträchtigen die Beurteilung der wahren Fähigkeiten einer Per-
son durch den Test. Sie führen zu einer niedrigeren Reliabilität und somit zu einem größeren
Messfehler. Beinhaltet ein Test zu wenige sehr leichte und sehr schwierige Aufgaben, kann an
den Randbereichen nicht ausreichend differenziert werden. Da die Skala beispielsweise bei
den Wechsler-Skalen auf die Wertpunkte 1 bis 19 festgelegt wurde, kann in einem Untertest
nicht mehr als drei Standardabweichungen (9 Punkte) vom Mittelwert abgewichen werden.
Aufgrund von Boden- und Deckeneffekten sind einige Testverfahren nicht ausreichend zur
Diagnose von Hoch- oder Minderbegabung geeignet, da aufgrund der Normalverteilung nur
wenige Personen an den Randbereichen getestet wurden und diese somit durch zu wenige
Kapitel 4 Die Wechsler-Skalen 59
leichte und schwierige Aufgaben nicht ausreichend Ergebnisvarianz aufweisen (Preckel, 2003).
Die beste Differenzierung findet sich für alle Altersstufen im mittleren Leistungsbereich.
Zwar wurde der WISC-III eine recht gute Differenzierung im oberen Bereich zuerkannt (Kauf-
man, 1992), bei Hochbegabten galt dies allerdings nur im Altersbereich 6 bis 14 Jahre. Auch
der HAWIK-III unterscheidet in den extremen Leistungsbereichen nicht in allen Altersgruppen
gleichermaßen hochwertig (Daseking & Petermann, 2004). Die Testautoren weisen auf das
Problem mangelhafter Differenzierung bei geistig retardierten Kindern am unteren (Bodenef-
fekt) und hochbegabten Jugendlichen am oberen Altersrand (Deckeneffekt) hin (Tewes et al.,
2002). Andere Autoren beschreiben ebenfalls die Problematik des Deckeneffektes bei Hochbe-
gabten im HAWIK-III (Bründler et al., 2007; Preusche & Leiss, 2003; Sparrow & Gurland, 1998).
Den Untertests der WISC-IV werden dagegen gute Differenzierungsmöglichkeiten im oberen
und unteren Leistungsbereich attestiert (Flanagan & Kaufman, 2004). Um eine adäquate Abde-
ckung eines weiten Bereiches kognitiver Fähigkeiten sicherzustellen, wurden sowohl leichtere
als auch schwierigere Aufgaben hinzugefügt (z. B. vier Bildaufgaben zum Wortschatz-Test und
15 zusätzliche Aufgaben zur Symbol-Suche-B). Damit sollen nun für sämtliche Kerntests über
alle Altersstufen hinweg Standardwerte bis zu drei SD über dem Mittelwert vorgesehen sein.
Nach den Autoren des HAWIK-IV reicht dessen Differenzierung von sechsjährigen Kindern mit
moderater geistiger Entwicklungsverzögerung bis zu 16-jährigen Kindern mit intellektueller
Hochbegabung (Petermann & Petermann, 2008a). Dafür wurden sowohl Kinder in die Normie-
rung miteinbezogen, die nach den Kriterien des ICD-10 die Diagnose einer leichten oder mit-
telgradigen geistigen Behinderung erhielten als auch Kinder mit einer diagnostizierten intellek-
tuellen Hochbegabung. Auch Renner (2008) attestiert dem HAWIK-IV kaum Boden- und De-
ckeneffekte und sieht somit eine deutliche Verbesserung zum HAWIK-III hinsichtlich der Diffe-
renzierung in den Extrembereichen.
Innerhalb der fünf optionalen Untertests zeigt in der WISC-IV nur das Word Reasoning (ent-
spricht dem Begriffe erkennen) einen leichten Deckeneffekt ab dem Alter 14. Im HAWIK-IV
weist lediglich das Begriffe erkennen und Bilder ergänzen bei Kindern von 16 Jahren einen
leichten Deckeneffekt auf. Da es sich dabei jedoch nur um optionale Untertests handelt, kann
bei der WISC-IV ebenso wie beim HAWIK-IV von einer guten Differenzierung im oberen Rand-
bereich ausgegangen werden, was ihn zu einem der geeignetsten Intelligenztests für Hochbe-
gabte macht (Sparrow, Pfeiffer & Newman, 2005).
4.5 Die Bewertung der Wechsler-Skalen Die Kritik an den Wechsler-Skalen lässt sich in verschiedene Kategorien einteilen.
Kapitel 4 Die Wechsler-Skalen 60
4.5.1 Fehlende theoretische Bindung
Obwohl überwältigende Nachweise für die klinische Relevanz der Wechsler-Skalen geliefert
werden konnten, wurde immer wieder das Fehlen eines expliziten zu Grunde liegenden theo-
retischen Konzepts moniert (z. B. Beres, Kaufman & Perlman, 2000; Esters, Ittenbach & Han,
1997). So bezeichnen Esters et al. (1997) die WISC-III als Arbeitstier der IQ-Tests, mit dem zwar
viel untersucht werde, jedoch nichts hinsichtlich einer vertretbaren theoretischen Grundlage.
Die Tradition der Wechsler-Skalen ebenso wie ihr Marktanteil ständen sogar einem entspre-
chenden wissenschaftlichen Fortschritt im Wege. „One wonders how much longer it will be
before tradition and market share give way to the new and improved science of psychological
assessment“ (S. 214). Vor allem den Versionen bis zur WISC-III wurde mangelnde Anpassung
an den Stand der Forschung vorgeworfen. Kamphaus (1993) fasste zusammen: „The Wechsler-
III`s history is also its greatest liability. Much has been learned about children`s cognitive de-
velopment since the conceptualization of the Wechsler scales, and yet few of these findings
have been incorporated into revisions” (S. 156).
Nach Sternberg (1993, zitiert nach Prifitera, 1994) sind neuere Intelligenztests, die auf aktuel-
len Theorien basieren, jedoch entweder nicht verfügbar oder weisen nur eingeschränkte Güte-
kriterien auf, weshalb die herkömmlichen Intelligenztests so populär blieben. Außerdem wür-
den seiner Meinung nach Teile der WISC-III tatsächlich relativ zuverlässig solche Konstrukte
erfassen, die auf aktuellen Intelligenztheorien basieren (siehe Kapitel 3). Trotzdem werden die
Wechsler-Skalen immer wieder mit dem Vorwurf konfrontiert, die Interpretation der Tester-
gebnisse bleibe weitgehend der Intuition der Diagnostiker überlassen, da ihnen kein theoreti-
sches, empirisch erprobtes Modell zugrundeliege (Holling et al., 2004). McFie (1975) behauptet
sogar, es sei nur ein glücklicher Zufall, dass viele der Wechsler-Untertests neurologische Rele-
vanz zeigten.
Carroll (1993) bewertete die Wechsler-Skalen im Zuge seiner faktorenanalytischen Studien wie
folgt: „Presently available technology would permit the development of tests and scales that
would be much more adequate for their purpose than the Wechsler scales” (S. 702). Nach Zhu
und Weiss (2005), die an der Entwicklung der WISC-IV beteiligt waren, schlagen die neuen
Versionen der Wechsler-Skalen ebenso wie ihre Vorgänger hingegen eine Brücke zwischen den
Ideen verschiedener Intelligenztheorien. So sei behutsam dafür gesorgt worden, Fortschritte in
den theoretischen und praktischen Grundlagen aus der kognitiven Diagnostik im Test wider-
zuspiegeln. Für Zhu und Weiss seien die modernen Wechsler-Skalen anders als ihre Vorgänger
klar von aktueller klinischer Forschung und theoretischen Entwicklungen geleitet. So sei zum
Beispiel mehr Wert auf die Erfassung fluiden Denkens gelegt worden, nachdem diese Fähigkeit
in vielen Theorien als wichtiger kognitiver Funktionsbereich betont wurde (u. a. Carroll, 1993,
2005).
Kapitel 4 Die Wechsler-Skalen 61
Auch wenn den Wechsler-Skalen im Nachhinein immer wieder ein theoretisches Konzept zu
Grunde gelegt wurde, geben die Autoren der Testmanuale weiterhin eher pragmatische Grün-
de (wie langjährige klinische Erfahrungen) als Entwicklungsgrundlage an. Durch die indes enge-
re Anbindungen an die Theorie halten Flanagan und Kaufman (2004) die WISC-IV für die be-
deutsamste Neuauflage der Wechsler-Skalen. Dennoch scheiterten die Wechsler-Skalen für
Flanagan et al. (Flanagan & Kaufman, 2004; Flanagan et al., 2000) trotz allen Lobes darin, mit
der aktuellen Intelligenzforschung Schritt zu halten. Für sie sei eine aussagekräftige Interpreta-
tion der Wechsler-Skalen nur möglich, wenn aktuelle Theorien, Forschungsergebnisse und
Messprinzipien integriert würden. Klinisches Urteil und klinische Erfahrung seien allein nicht
ausreichend, um auf sie vertretbare Interpretationen zu gründen. Deshalb bieten Flanagan et
al. alternative theoretisch schlüssige und statistisch nachvollziehbare Interpretationsmöglich-
keiten für die Wechsler-Tests an, basierend auf aktuellen Intelligenztheorien wie der Gf-Gc-
Theorie (Flanagan et al., 2000) oder dem CHC-Modell (Flanagan & Kaufman, 2004).
Für Zhu et al. (2004) sei es jedoch schwer zu glauben, dass Wechsler so viele verschiedene
Skalen entwickeln konnte, die ihre klinische Relevanz nachgewiesen haben, ohne ein ihnen
zugrunde liegendes tiefes Verständnis für die Natur der Intelligenz und ohne dass Wechsler bei
der Entwicklung seiner Skalen von verschiedenen Intelligenztheorien geleitet worden sei. Bei
genauerer Betrachtung seiner Publikationen und Testmanuale zeige sich bei der Entwicklung
jeder seiner Testversionen eine stillschweigende Basierung auf den zu der jeweiligen Zeit ak-
tuellen Theorien (Zhu & Weiss, 2005). Für eine theoretische Fundierung der Wechsler-Tests
spricht die Einbindung gleicher oder ähnlicher Untertests in andere aktuelle Intelligenztests
wie dem Woodcock-Johnson III (WJ-III), der ausdrücklich auf der CHC-Theorie basiert (Wood-
cock et al., 2001).
4.5.2 Profilanalysen
Eine Besonderheit der Wechsler-Skalen ergibt sich aus der Möglichkeit der Berechnung von
Profilanalysen. Sie ermöglichen eine Interpretation des Tests mit Hilfe der Untertestergebnis-
se. Für Kritiker ist der Gebrauch solcher Analysen jedoch eingeschränkt, da die Untertests mög-
licherweise keine Fähigkeiten erfassen, die spezifisch genug seien, um ihre Interpretation zu
rechtfertigen (Prifitera, 1994). Studien ergaben zudem eine deutlich höhere Varianzaufklärung
durch den allgemeinen Intelligenzfaktor als durch die Indizes und Untertests. Somit könne die
Interpretation der Wechsler-Skalen auf Profil-Ebene zu Fehlinterpretationen führen (Glutting,
McDermott & Konold, 1997; McDermott et al., 1990; Watkins, 2006; Watkins & Kush, 1994;
Watkins et al., 2006). Ein weiterer Kritikpunkt an Profilanalysen gründet sich auf Untersu-
chungsergebnisse, die subtest-basierte Stärken und Schwächen als zeitlich instabil und somit
nicht reliabel aufwiesen. Daher sollten Empfehlungen auf dieser Grundlage ebenfalls nicht als
Kapitel 4 Die Wechsler-Skalen 62
reliabel gelten (Watkins & Canivez, 2004). Auch die American Educational Research Association
(AERA, 1999) spricht sich gegen den Gebrauch von Profilanalysen aus. Da die Erfassung der
allgemeinen Intelligenz eine höhere Vorhersagekraft auf berufliche Leistungen und allgemei-
nes psychisches Wohlbefinden habe als abgegrenzte Teilbereiche der Intelligenz, sei es öko-
nomisch sinnvoller, die Intelligenz in ihrer Gesamtheit zu erheben. Zwar könne die Erhebung
von Teilleistungsbereichen diagnostisch sinnvoll sein, jedoch führten diese Messungen in der
Praxis nicht zwangsweise zu klinisch wertvollen Informationen (Zachary, 1990). Flanagan und
Kaufman (2004) sehen ebenfalls einen Trend hin zu „anti-profile research and writing“ (S. 1).
Andererseits halten viele Kliniker gerade die Unterschiedlichkeit der Untertests für sehr nütz-
lich bei der Diagnosestellung. Gerade Kaufman (1994a) war einer derjenigen, der die Profilana-
lyse für die WISC-III vorschlug. Da kognitive Teilleistungen eng miteinander verknüpft seien,
könnten sie auch nicht isoliert abgerufen werden. Aus diesem Grund sei es sinnvoll, Untertests
zu verwenden, die verschiedene kognitive Fähigkeiten erfassten (Zhu et al., 2004). Donders
(1996) hingegen schlägt vor, ein Testprofil eher auf Index- als auf Untertestebene zu betrach-
ten, da die Reliabilität der Indizes höher ausfällt als die der Untertests. Einige Forscher sahen
durch ihre Studien an klinischen Populationen (u. a. Kindern mit ADHS, Lernstörungen oder
traumatischen Gehirnverletzungen) mit den jeweils aktuellen Wechsler-Tests den Vorteil der
Interpretation auf Index- statt Gesamt-IQ-Ebene als ausreichend erwiesen an (Fiorello et al.,
2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale et al., 2001).
Gerade im Hinblick auf klinische Störungsbilder gelten Profilanalysen als sinnvoll (Groth-
Marnat, 1997; Mayes & Calhoun, 2004; Sattler, 2001). In einer Umfrage gaben 89 % der be-
fragten Testanwender an, die Profilanalyse zu verwenden, 70 % der Befragten zählten sie sogar
zu den wichtigsten Merkmalen der Wechsler-Skalen (Pfeiffer, Reddy, Kletzel, Schmelzer &
Boyer, 2000; Titze & Tewes, 1994). Vor allem bei Diagnosestellungen und schulischen Platzie-
rungsentscheidungen wurden sie als sehr nützlich eingestuft. Im schulpsychologischen Bereich
wird die Profilanalyse zudem als geeignetes Mittel angesehen, um unterschiedliche Aspekte in
der Lese- und Rechenleistung von Kindern zu verstehen (McGrew et al., 1997). Zur Diagnose
geistiger Behinderungen wird die Profilanalyse vom Diagnostischen und Statistischen Manual
psychischer Störungen (DSM-IV-TR, Saß, Wittchen, Zaudig & Houben, 2003) überdies sogar
explizit empfohlen. Petermann und Petermann (2008b) empfehlen, die Analyse individueller
Stärken und Schwächen mit Hilfe des HAWIK-IV im Rahmen der Therapieplanung zu berück-
sichtigen.
Die unterschiedlichen Ansichten zum Gebrauch von Profilanalysen hängen eng mit der Vorstel-
lung vom Vorhandensein eines g-Faktors zusammen (siehe Kapitel 3.6). Die Befürworter von
Profilanalysen (z. B. Flanagan & Kaufman, 2004) widersprechen dem g-Faktor (hier in Form des
Kapitel 4 Die Wechsler-Skalen 63
Gesamt-IQ), während die Kritiker der Profilanalysen (z. B. Jensen, 1998; Watkins & Canivez,
2004) von der Existenz eines g-Faktors ausgehen.
4.5.3 Weitere Kritikpunkte
Nach Prifitera (1994) bemängeln vor allem Schulpsychologen die unzureichende Validität der
Wechsler-Skalen hinsichtlich der Hinweise auf Interventionsansätze. Sie seien nicht dafür ge-
eignet Interventionsstrategien zu entwickeln. Dieser Vorwurf entbehrt jedoch jeglicher Grund-
lage, da Intelligenztests schon im Allgemeinen nicht als geeignet gelten, Diagnosen und somit
auch Behandlungsstrategien aus ihnen abzuleiten (Daseking et al., 2007) und auch nicht dafür
konzipiert wurden. Darauf verweist auch Wechsler (1997, 2003a, 2003b) in seinen Testmanua-
len. Für ihn leisten seine Tests einen Beitrag zur Diagnosestellung und damit auch zur Ablei-
tung von Interventionsstrategien, dies sei jedoch nur in Verbindung mit anderen Testverfahren
und der Erhebung zusätzlicher Informationen durch Verhaltensbeobachtung oder die Anamne-
se der medizinischen und psychosozialen Vorgeschichte sinnvoll (siehe auch Donders, 1996).
Nach Kamphaus (2005) seien die Wechsler-Tests für junge Kinder wenig interessant gestaltet.
Die meisten Untertests (so beispielsweise das Allgemeine Verständnis) seien nur Abwandlun-
gen der Skalen für Erwachsene (WAIS bzw. WIE) und für junge Kinder zu lang.
Zu Wechslers Kritikern zählt auch Frank. In seinem Buch The Wechsler Enterprise (1983) spricht
er den seinerzeit aktuellen Wechsler-Skalen Verbesserungen gegenüber den Binet-Skalen hin-
sichtlich der Erhebung differenzierter kognitiver Leistungen verschiedener psychiatrischer Pa-
tiententypen ab und stellt somit ihren klinischen Nutzen in Frage. Untertests würde nicht ein-
zelne, sondern mehrere kognitive Funktionen gleichzeitig abbilden und die Wechsler-Tests
erfassten insgesamt nur drei der neun kognitiven Faktoren, die nach Thurstone Intelligenz
ausmachten (siehe Kapitel 3.2). Frank (1983) vergleicht die Wechsler-Skalen mit Dinosauriern:
„Too large, cumbersome and illfitted and awkward in the age in which they developed, unable
to remain viable in a psychometric age which has passed it by in conceptualization” (S. 126).
Sieht Frank 1983 die Wechsler-Skalen somit als zum Aussterben verurteilt an, muss allerdings
bedacht werden, dass die Studien, auf die er sein Urteil stützt, nur auf die älteren Testversio-
nen Bezug nehmen und mittlerweile veraltet sind. So spricht er beispielsweise von Studien, die
ergeben hätten, die Wechsler-Skalen seien keine guten Prädiktoren für Schulleistung, was
neuere Studien jedoch widerlegen (siehe Freberg, Vandiver, Watkins & Canivez, 2008; Tewes
et al., 2002; Watkins, Lei & Canivez, 2007).
4.5.4 Abschließende Betrachtung der Wechsler-Skalen
Wie viele andere Autoren sieht auch Kaufman (1993) die Wechsler-Skalen als die am besten
standardisierten Intelligenztestverfahren an. Sie seien leicht anzuwenden, besäßen gute psy-
Kapitel 4 Die Wechsler-Skalen 64
chometrische Gütekriterien und wiesen Interpretationsansätze auf, die bekannt seien und in
den meisten psychologischen Ausbildungsprogrammen gelehrt werden. Die Gültigkeit der
Wechsler-Skalen wurde außerdem durch die hohe Korrelation mit anderen Messinstrumenten
zur Erfassung kognitiver Fähigkeiten bestätigt (Wechsler, 2003b; Zhu & Weiss, 2005). Mataraz-
zo postuliert im Vorwort des WISC-IV-Manuals (Wechsler, 2003a), dass Revisionen sämtlicher
Wechsler-Skalen aktuelle psychometrische Standards charakterisieren. Für ihn übertreffen
diese Standards die anderer psychologischer Testverfahren.
Ein weiterer positiver Aspekt besteht in der Vielzahl von Veröffentlichungen über die Wechs-
ler-Skalen, die zur praktischen Anwendbarkeit beigetragen haben (Prifitera, 1994). So unter-
stützen mehr als 60 Jahre Forschung und Anwendung den praktischen und klinischen Nutzen
der Wechsler-Skalen bei vielen Fragestellungen, wie der Diagnostik geistiger Behinderung und
Lernstörungen sowie bei klinischen Interventionen (Beres et al., 2000; Zhu et al., 2004).
Zhu et al. (Zhu & Weiss, 2005; Zhu et al., 2004) bezeichnen die Wechsler-Skalen als die am
meisten untersuchten Erhebungsinstrumente. Es steht eine immens große Anzahl an Veröf-
fentlichungen bereit, die sich mit dem klinischen Nutzen und den psychometrischen Eigen-
schaften der Skalen beschäftigen. Für viele Psychologen ist die Langlebigkeit und die häufige
Anwendung der Wechsler-Skalen Zeugnis dafür, dass Wechsler richtige und präzise Vorstellun-
gen der praktischen Bedürfnisse von Klinikern besaß, die Intelligenzdiagnostik betreiben
(Kamphaus, 2005; Zachary, 1990).
So stehen die Wechsler-Skalen trotz all der Kritik und der Innovationen anderer neuer oder
revidierter Intelligenztests nach Flanagan und Kaufman (2004) weiterhin unangefochten an
erster Stelle. Auch die Kritiker Wechslers erkennen den großen Einfluss an, den sie auf die Er-
forschung menschlicher Intelligenz und der Struktur kognitiver Fähigkeiten ausgeübt haben
und weiterhin ausüben. So zollen McDermott und seine Kollegen (1990) trotz ihrer Kritik am
Umgang mit Profilanalysen dem Großteil vom Erbe Wechslers ihren Respekt.
4.6 Bewertung der WISC-IV Die wichtigsten Ziele bei der Entwicklung der WISC-IV waren die Aktualisierung der theoreti-
schen Grundlagen, die Anpassung an den Entwicklungsstand der Kinder, die Verbesserung der
psychometrischen Eigenschaften (siehe Kapitel 4.4) und die Steigerung der Anwenderfreund-
lichkeit.
4.6.1 Aktualisierung der theoretischen Grundlagen
Die WISC-IV gilt als die erste WISC-Version, die grundlegende Verbesserungen gegenüber sei-
nen Vorgängern aufweisen kann (Flanagan & Kaufman, 2004). Dies wird vor allem auf die nä-
Kapitel 4 Die Wechsler-Skalen 65
here Anlehnung an theoretische Intelligenzmodelle zurückgeführt (Kaufman et al., 2006). Im
Gegensatz zu ihren Vorgängern stellt die WISC-IV ein gutes Messinstrument für die theorie-
und forschungsbasierten Konstrukte fluides Denken und Arbeitsgedächtnis dar, während die
Bereiche Visualisierung und Antwortgeschwindigkeit weniger betont werden. Auch die Auto-
ren der KABC-II kamen anhand von Korrelationsstudien zwischen der KABC-II und der WISC-III
bzw. WISC-IV zu dem Ergebnis, dass beide Wechsler-Versionen unterschiedliche Konstrukte
erfassen (Kaufman & Kaufman, 2004, mehr zu den Unterschieden beider Versionen siehe Kapi-
tel 4.7). Für sie bilden der Handlungsteil und der WO der WISC-III eher visuelle Prozesse ab,
während der WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Den-
kens korreliert (siehe Kapitel 5.1).
Trotzdem werfen Kaufman et al. (2006) der WISC-IV weiterhin vor, sie basiere als einziges ak-
tuelles Intelligenztestverfahren der letzten Jahre nicht explizit auf einer Intelligenztheorie wie
beispielsweise der CHC-Theorie: „This fact alone demonstrates that the inertia of tradition
plays a more powerful role in the revisions of the Wechsler scales than does adherence to con-
temporary theory and research“ (S. 293).
Die Aktualisierung aufgrund der Berücksichtigung der kontemporären theoretischen Grundla-
gen zeigt sich in einer neuen Teststruktur sowie der Betonung der kognitiven Fähigkeitsberei-
che fluides Denken, Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit.
Teststruktur: Als Verbesserung gegenüber der WISC-III gilt die Aufteilung in eine Vier-
Faktoren-Struktur (siehe Kapitel 4.3), die für Flanagan und Kaufman (2004) eine umfassendere
Repräsentation der allgemeinen intellektuellen Fähigkeiten bietet. Nach Zhu und Weiss (2005)
repräsentieren die vier Indizes die Funktionsweise eines Menschen genauer als ein Verbal- und
Handlungsteil. Somit hätten Kliniker verbesserte Möglichkeiten zur Evaluation spezifischer
Aspekte dieser Funktionsweise. Die Auflösung der Unterteilung in Verbal- und Handlungsteil
gilt auch als die größte Abweichung von der Wechsler-Tradition, die nach Meinung vieler Kriti-
ker jedoch ohnehin lange überfällig war, da sie die klinische Aussagekraft einer Diskrepanz
zwischen beiden Teilen nie als eindeutig nachgewiesen sahen (siehe u. a. Flanagan & Kaufman,
2004; Kaufman et al., 2006; Riccio, Cohen, Hall & Ross, 1997).
Fluides Denken: Mehrere Theorien und Studien zur kognitiven Funktionsfähigkeit betonen die
Wichtigkeit des fluiden Denkens (Carroll, 2005; Cattell & Horn, 1978; Zhu et al., 2004). Fluide
Intelligenz beinhaltet mentale Operationen oder Problemlösemethoden, die ein Mensch an-
wenden kann, um relativ neue Aufgaben zu lösen (Flanagan & Kaufman, 2004, siehe auch Kapi-
tel 3.3.1). Aufgaben, die fluides Denken erheben, involvieren den Prozess der „manipulativen
Abstraktionen, Regeln, Verallgemeinerungen und logischen Beziehungen“ (Carroll, 1993, S.
583, Übers. v. Verf.). Sowohl das induktive als auch das deduktive Schlussfolgern werden als
Kapitel 4 Die Wechsler-Skalen 66
basale Aspekte dieses Bereiches angesehen (McGrew & Flanagan, 1998). Aus der Perspektive
der CHC-Theorie weist das fluide Denken die engste Beziehung aller Faktoren des Stratum II
(Carroll, 1993; McGrew & Flanagan, 1998) zum g-Faktor auf (siehe Kapitel 3.6).
An den vorherigen WISC-Versionen wurde die unzureichende Erfassung des fluiden Denkens
kritisiert (Carroll, 1997a). Aus diesem Grund wurden für die WISC-IV mit Matrizen-Test, Bild-
konzepte und Begriffe erkennen drei neue Untertests zur Messung des fluiden Denkens ent-
wickelt. Bildkonzepte und Begriffe erkennen wurden von der WPPSI-III adaptiert, Matrizen-Test
wurde der WAIS-III und der WPPSI-III entnommen.
Arbeitsgedächtnis: Eine weitere Neuerung bietet die Einführung des Index AGD. Er geht aus
dem Index UA der WISC-III hervor, der Studien zu Folge nicht als valides psychologisches Kons-
trukt gesehen werden konnte (Carroll, 1993; Riccio et al., 1997, siehe auch Kapitel 4.4.3.1). Das
Arbeitsgedächtnis bezeichnet die Fähigkeit, aktiv Informationen zu behalten, mit ihnen Opera-
tionen durchzuführen oder sie zu manipulieren und damit ein Ergebnis zu erzielen. Es weist
namentlich einen Zusammenhang zu einem viel untersuchten Aspekt exekutiver Funktionen
auf (Flanagan & Kaufman, 2004). Aktuelle Forschung ermittelte das Arbeitsgedächtnis als eine
basale Komponente des fluiden Denkens und anderer kognitiver Prozesse höherer Rangord-
nung. Heitz, Unsworth und Engle (2005) sehen die durch Aufmerksamkeitsleistungen vermit-
telte Kapazität des Arbeitsgedächtnisses als einen wichtigen Einflussfaktor auf die fluide Intel-
ligenz. Zudem ist das Arbeitsgedächtnis eng verwandt mit Lernen und Leistung (Fry & Hale,
1996; Perlow, Jattuso & Moore, 1997; Swanson, 1996). Für Conway, Cowan, Bunting, Ther-
riault und Minkoff (2002) könne die Leistungsfähigkeit des Arbeitsgedächtnisses als Grundlage
des g-Faktors angesehen werden. Vor allem die Kurzzeitspeicherung stellte sich als hoch korre-
lierend mit allgemeiner Intelligenz heraus (Colom, Abad, Quiroga, Shih & Flores-Mendoza,
2008).
In der WISC-IV wurden einige Änderungen zur adäquateren Erfassung des Arbeitsgedächtnis-
ses vorgenommen. Buchstaben-Zahlen-Folgen wurde aus der WAIS-III adaptiert, nach Flanagan
und Kaufman (2004) ein valider Test zur Messung des Arbeitsgedächtnisses. Basierend auf der
Forschung zu unterschiedlichen Anforderungen an das Arbeitsgedächtnis für ZN-V und ZN-R
wurden für diese Aufgabenteile separate Prozesswerte eingeführt. Zur Steigerung der Anfor-
derungen an das Arbeitsgedächtnis sowie zur altersangemesseneren Erfassung des für den
Untertest erforderlichen mathematischen Wissens wurde das Rechnerische Denken überarbei-
tet. Außerdem wurde es in den Bereich der optionalen Untertests verlegt, was Flanagan und
Kaufman ebenfalls positiv bewerten, da es weiterhin stark mit rechnerischen Fähigkeiten kor-
reliert und somit kein reines Maß des Arbeitsgedächtnisses darstellt. In Studien zur WISC-IV
weist das Rechnerische Denken die höchste g-Ladung auf und erfasst damit als Untertest den
Kapitel 4 Die Wechsler-Skalen 67
höchsten Grad an allgemeiner Intelligenz (Keith et al., 2006). In der WISC-IV liegt das Rechneri-
sche Denken nach den Sprach-Untertests Wortschatz-Test, Allgemeines Wissen und Gemein-
samkeiten finden an vierter Stelle hinsichtlich der Höhe seiner g-Ladung (Flanagan & Kaufman,
2004). Auch bei altersseparater Betrachtung weist das Rechnerische Denken g-Ladungen auf,
die mehr mit denen des Index SV als mit denen des AGD übereinstimmen. Eine aktuelle Studie
zum Vergleich des HAWIK-IV mit dem Gedächtnistest BASIC-MLT (Lepach & Petermann, 2007)
offenbarte Korrelationen von r = .59 bis .66 zwischen dem Gedächtnis-Quotienten des BASIC-
MLT und dem AGD des HAWIK-IV (Lepach, Petermann & Schmidt, 2008).
Verarbeitungsgeschwindigkeit: Die Informationsverarbeitungsgeschwindigkeit weist Zusam-
menhänge mit verschiedenen mentalen Prozessen, wie dem effizienten Gebrauch des Arbeits-
gedächtnisses oder der Leseleistung, auf. Eine angestiegene Verarbeitungsgeschwindigkeit
wird mit Veränderungen in der Intelligenz in Verbindung gebracht (Kail, 2000). Nach Fry und
Hale (2000) steigt sie über die Kindheit hinweg bedeutend an, während die Unterschiede in der
Adoleszenz nur noch graduell ausfallen. Dies wird mit der zunehmenden neuronalen Vernet-
zung und somit der Hirnreifung in Verbindung gebracht. Die Verarbeitungsgeschwindigkeit
wurde in faktorenanalytischen Studien als wichtige kognitive Funktion identifiziert (Carroll,
1993, 2005; Horn & Noll, 1997), die außerdem relativ hoch mit g korreliert (Neisser et al.,
1996; Neubauer & Knorr, 1998; Sheppard & Vernon, 2007). Daher sind Messungen dieses
Funktionsbereiches in Wechslers Intelligenztests eingebunden.
Als neuer optionaler Untertest für den Index VG wurde der Durchstreich-Test für die WISC-IV
entwickelt. Ähnliche Untertests haben sich bereits im Rahmen der Diagnostik nach Hirnschädi-
gungen bewährt (Donders & Janke, 2008; Janke & Donders, 2008; Prigatano, Gray & Gale,
2008).
Die Beurteilung der Verarbeitungsgeschwindigkeit erweist sich besonders bei Kindern als sinn-
voll, da sie mit der Entwicklung anderer kognitiver Fähigkeiten, der neurologischen Entwick-
lung und dem Lernen zusammenhängt. Klinische Forschungen im Bereich der kognitiven Ent-
wicklungspsychologie lassen ein dynamisches Zusammenspiel zwischen fluidem Denken, Ar-
beitsgedächtnis und Verarbeitungsgeschwindigkeit vermuten (Calhoun & Mayes, 2005; Car-
penter, Just & Shell, 1990; Fry & Hale, 1996, 2000; Kail & Salthouse, 1994; Schatz, Kramer, Ab-
lin & Matthay, 2000).
Die Betonung des fluiden Denkens, des Gedächtnisses und der Geschwindigkeit bei der Mes-
sung von Intelligenz bezeichnet Matarazzo im Vorwort des WISC-IV-Manuals (Wechsler, 2003a)
deshalb als wichtig, da herausgefunden wurde, dass sie kognitive Voraussetzungen für das
Lernen darstellen und Intelligenz seiner Meinung nach letztendlich vor allem die Fähigkeit zu
lernen widerspiegelt.
Kapitel 4 Die Wechsler-Skalen 68
Als Schlussfolgerung für diese Studie muss somit festgestellt werden, dass durch die Aktualisie-
rung der theoretischen Grundlagen der HAWIK-III und der HAWIK-IV unterschiedliche kognitive
Fähigkeiten erfassen. Dies kann zu einer Einschränkung der Vergleichbarkeit beider Testversio-
nen führen. Auch die gleichen Untertests beider Versionen erfassen nicht zwangsläufig diesel-
be Fähigkeit. So führen die Veränderungen in der Aufgabenvorgabe beim Rechnerischen Den-
ken zu einer Modifikation hinsichtlich der erforderlichen Fähigkeiten (durch die rein mündliche
Vorgabe ist die Anforderung des Arbeitsgedächtnisses gestiegen).
4.6.2 Anpassung an den Entwicklungsstand der Kinder
Für die WISC-IV wurden in jeden Untertest Lern-, Beispiel- und/oder Übungsaufgaben aufge-
nommen. In den Untertests Buchstaben-Zahlen-Folgen, Bilder ergänzen und Bildkonzepte wird
die Aufgabenstellung durch entsprechende Nachfragen oder Hinweise verdeutlicht. Der ver-
stärkte Einsatz solcher Hilfestellungen soll das Verständnis für die Aufgabenstellung und die
Aufmerksamkeit steigern und folglich ein besseres Bild der Fähigkeiten des Kindes liefern. Au-
ßerdem wurde durch die Verkürzung verbaler Anweisungen, die Unterstützung des Aufgaben-
verständnisses mit Hilfe von Lern- und Übungsaufgaben und durch Rückmeldung der richtigen
Lösung der Einsatzbereich des Tests erweitert, insbesondere bei Kindern mit einer bereits be-
kannten oder vermuteten Intelligenzminderung. Diese Neuerungen bieten dem Testleiter
mehr Spielraum, Kinder zu weiteren Anstrengungen und Überlegungen zu ermuntern (Renner,
2008).
In den Untertests, die nicht in erster Linie zur Messung der Verarbeitungsgeschwindigkeit die-
nen, wurden einige Änderungen zur Reduzierung der Bedeutung des Zeitfaktors vorgenom-
men: Die Untertests Bilderordnen, Figurenlegen und Labyrinth-Test wurden entfernt, die An-
zahl der Aufgaben des Mosaik-Tests mit Zeitbonuspunkten wurde deutlich reduziert und im
Rechnerischen Denken werden keine zusätzlichen Zeitbonuspunkte für sehr schnelle Lösungen
mehr vergeben.
4.6.3 Steigerung der Anwenderfreundlichkeit
In einigen Situationen kann es sinnvoll sein, einen Kerntest durch einen optionalen Untertest
zu ersetzen. So kann sich beispielsweise ein Testleiter, der ein Kind mit feinmotorischen
Schwierigkeiten testet, dafür entscheiden, den Zahlen-Symbol-Test durch den Durchstreich-
Test oder den Mosaik-Test durch das Bilder ergänzen zu ersetzen.
Alle Illustrationen wurden aktualisiert und für Kinder attraktiver gestaltet. Weiterhin wurden
neue Aufgaben entwickelt, um zeitgemäße Situationen und Fragen zu integrieren, kulturbe-
dingte Verzerrungen zu vermeiden sowie die Testfairness zu erhöhen. Einige veraltete Aufga-
ben wurden überarbeitet oder entfernt und das Layout des Stimulusbuches modifiziert.
Kapitel 4 Die Wechsler-Skalen 69
Da es sich bei dem HAWIK-IV um eine recht aufwändige Testbatterie handelt, wurden außer-
dem mögliche Kurzformen ermittelt (Waldmann, 2008). Die Anwendung einer Kurzform sollte
jedoch nur im Fall einer abgebrochenen Testung zur optimalen Verwertung unvollständiger
Informationen und nicht standardmäßig a priori zur ökonomischeren Handhabung des Tests
erfolgen.
4.6.4 Zusätzliche Auswertungsmöglichkeiten
Der Wegfall des Verbal- und Handlungsteils in der WISC-IV lässt Praktiker Schwierigkeiten bei
der Interpretation von inter- und intraindividuellen Leistungsdiskrepanzen vermuten. Die neue
Teststruktur bietet jedoch zusätzliche Auswertungsmöglichkeiten. Wie oben beschrieben wur-
de bei der Entwicklung der WISC-IV mehr Gewicht auf die Beurteilung des Arbeitsgedächtnis-
ses und der Verarbeitungsgeschwindigkeit gelegt. Dabei handelt es sich um basale kognitive
Prozesse, denen ein hoher Zusammenhang mit der Intelligenz zugesprochen wird, wodurch
auch moderne Konzeptionen Berücksichtigung finden (Petermann & Lepach, 2007). Insbeson-
dere in den Randbereichen der Normverteilung kommt es häufig zu großen Diskrepanzen in-
nerhalb der vier Indizes. Dies lässt die Interpretation des Gesamt-IQ-Wertes in diesen Fällen
zumindest fragwürdig erscheinen (Newman, 2008). Gerade bei Hochbegabung erwies sich der
Gesamt-IQ in der WISC-IV als deutlich niedriger als in vorherigen WISC-Versionen, da diese
Kinder weniger überdurchschnittliche Leistungen in den stärker gewichteten Fähigkeitsberei-
chen Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit zeigte als im Sprachverständnis und
logischen Denken (Falk, Silverman & Moran, 2004). In der Annahme, dass der Gesamt-IQ nicht
immer eine gelungene Schätzung der kognitiven Fähigkeiten des Kindes darstellt, wurden
schon für die WISC-III verschiedene alternative Auswertungsmodelle vorgestellt (Weiss, Sak-
lofske, Prifitera, Chen & Hildebrand, 1999). So bestand die Möglichkeit, die jeweils vier Unter-
tests der Indizes SV und WO in einem allgemeinen Schätzwert kognitiver Leistungen zusam-
menzufassen, um den Einfluss der Untertests Rechnerisches Denken und Zahlen-Symbol-Test
zu reduzieren. Dieser Schätzwert wurde als General Ability Index (GAI), also Allgemeiner Fähig-
keitsindex (AFI), bezeichnet. Damit lässt sich der Einfluss deutlich abweichender Leistungen im
Arbeitsgedächtnis und in der Verarbeitungsgeschwindigkeit auf den Gesamt-IQ reduzieren. Für
den HAWIK-III fehlt diese Auswertungsoption. Auch für die WISC-IV stehen Normtabellen zur
Berechnung des GAI aus den Wertpunktsummen der sechs relevanten Untertests bereit (Rai-
ford, Weiss, Rolfhus & Coalson, 2005). Dabei wird die Wertpunktesumme der drei Kerntests
des SV und des WLD gebildet und in einen neuen Wert, den GAI, umgerechnet. Mit dem HA-
WIK-IV existiert erstmals auch für eine deutsche HAWIK-Version eine Tabelle zur Berechnung
des dem GAI entsprechenden AFI (Daseking, Petermann & Waldmann, 2008). Alternativ kann
der GAI auch durch Summierung der Index-Werte des SV und WLD berechnet werden (Flana-
gan & Kaufman, 2004). Als weitere Auswertungsmöglichkeit steht der Dumont-Willis-Index-1
Kapitel 4 Die Wechsler-Skalen 70
(DWI-1) bereit, der von Dumont und Willis (2004) auf der Basis der Interkorrelationen der
sechs SV- und WLD-Untertests entwickelt wurde. Zusätzlich entwickelten sie den Dumont-
Willis-Index-2 (DWI-2), der aus den beiden anderen Indizes AGD und VG gebildet wird. Dieser
übergeordnete Index wird auch Cognitive Proficiency Index (CPI, Kognitiver Fertigkeitenindex)
genannt. Die Herausgeber der WISC-IV unterstützen jedoch ausschließlich die Anwendung des
GAI nach Raiford et al. (2005). Ihm wird eine hohe Korrelation mit dem Gesamt-IQ zugespro-
chen und gilt somit als guter Prädiktor für den Gesamt-IQ des HAWIK-IV (Scott, 2006).
4.6.5 Schwächen der WISC-IV
Flanagan und Kaufman (2004) sehen bei der WISC-IV trotz aller Vorteile gegenüber seinen
Vorgängern weiterhin einige Einschränkungen in der Validität. Sie halten diese jedoch nicht für
gravierend und weisen darauf hin, dass sie sich auch in anderen Intelligenztestbatterien finden
lassen. Braden und Niebling (2005) bemängeln, Aufgaben, die sich als verzerrend und unfair
herausgestellt haben, seien zwar entfernt worden, jedoch wurde im Manual keine Zusammen-
fassung der Untersuchungsergebnisse zur Höhe von Aufgabenverzerrungen aufgenommen.
Einige Kliniker kritisieren die Nicht-Berücksichtigung des Untertests Bilderordnen in der WISC-
IV, den sie als klinisch bedeutsam ansahen, da er als einziger Untertest interpersonale Situa-
tionen beinhaltete. Nach Flanagan und Kaufman (2004) hätte der klinisch geprägte David
Wechsler niemals zugestimmt, seine Testbatterie ohne die Möglichkeit der Erfassung interper-
sonaler Situationen zu veröffentlichen.
Ein weiterer Kritikpunkt besteht in der Kulturabhängigkeit der WISC-IV. Nach Flanagan und
Kaufman (2004) scheinen die Autoren zwar alle wichtigen Schritte unternommen zu haben,
eine Verzerrung der Ergebnisse durch kulturelle Unterschiede auszuschließen. Dennoch wer-
den in der WISC-IV keine Angaben zu Wertdifferenzen zwischen ethnischen Gruppen (ebenso
wenig wie zu Geschlechtsunterschieden oder Unterschieden hinsichtlich des sozioökonomi-
schen Status) erwähnt (Braden & Niebling, 2005). Dies scheint für Braden und Niebling (2005)
vor allem im Hinblick auf die umfassende Diskussion über die Kulturabhängigkeit bisheriger
Wechsler-Tests merkwürdig. Für den HAWIK-IV wurden auf Basis der Normierungsstichprobe
die Leistungen deutscher Kinder und der Kinder mit Migrationshintergrund miteinander vergli-
chen (Daseking, Lipsius, Petermann & Waldmann, 2008). Dabei zeigten sich einzig im Matrizen-
Test keine signifikanten Unterschiede zwischen beiden Gruppen, während vor allem in den
sprachlichen Untertests die Kinder mit Migrationshintergrund signifikant schlechtere Ergebnis-
se erzielten als die deutsche Stichprobe. Schon in Studien zu anderen WISC-Versionen erwies
sich besonders der Untertest Allgemeines Verständnis als stark kulturabhängig (Kaufman,
1993). Im Allgemeinen gilt jedoch kein Test als uneingeschränkt kulturfrei (Sattler, 2001). Letz-
Kapitel 4 Die Wechsler-Skalen 71
ten Endes bleibt es dem Testanwender überlassen zu beurteilen, inwieweit der HAWIK-IV ein
für ihn geeignetes Instrument darstellt.
Auch die neue Teststruktur wird nicht durchweg positiv bewertet. Zwar bietet eine Aufteilung
der kognitiven Funktionsfähigkeit in enger definierte Teilfunktionen, wie in Kapitel 4.6.1 be-
schrieben, deutliche Vorteile. Da aber diese kognitiven Teilleistungen eng miteinander ver-
knüpft und voneinander abhängig sind, können sie nur schwer getrennt voneinander erfasst
werden (Zhu et al., 2004). Selbst eine spezifische Funktion wie die Bearbeitungsgeschwindig-
keit beinhaltet die Fähigkeit, zwischen visuellen Stimuli zu unterscheiden, diese Information zu
verarbeiten und die Reaktion mittels motorischer Fähigkeiten auszuführen. Obwohl faktoren-
analytische Studien das Vorhandensein spezifischer, eng definierter Funktionsbereiche nahe
legen, wird dadurch möglicherweise nicht die Vielfalt der kognitiven Teilleistungen erfasst, die
zur Bearbeitung einer Aufgabe notwendig sind. Für Zhu und Weiss (2005) sei es jedoch sowohl
unmöglich als auch bedeutungslos, reine kognitive Funktionen zu erfassen, auch wenn die
Intelligenzforschung dafür plädiert. Es mag zwar diagnostisch sinnvoll sein, für sich allein ste-
hende Funktionen abzubilden, dies münde jedoch nicht automatisch in klinisch bedeutsame
und praktisch sinnvolle Informationen. Zhu und Weiss halten die Wechsler-Skalen deshalb für
klinisch bedeutsamer als explizit theoriebasierte Intelligenztests.
4.7 Unterschiede zwischen HAWIK-III und -IV und deren Aus-wirkung auf die Vergleichbarkeit beider Testversionen
Wie bereits dargestellt, können viele Faktoren die Vergleichbarkeit zweier Testversionen be-
einträchtigen. Bei dem Vergleich der WAIS-III mit der WAIS-R wurden folgende Abweichungen
als wichtig für die Vergleichbarkeit beider Testversionen festgestellt: Veränderungen auf Un-
tertestebene, der Faktorenstruktur und der Art, in der die Konstrukte erfasst werden (Strauss,
Spreen & Hunter, 2000).
Da die Veränderungen, die bei der Entwicklung der WISC-IV ebenso wie bei dem adaptierten
HAWIK-IV vorgenommen wurden, für diese Vergleichsstudie von entscheidender Bedeutung
sind, soll auf sie im Folgenden ausführlich eingegangen werden.
4.7.1 Allgemeine und strukturelle Veränderungen zwischen beiden Testver-sionen
Die allgemeinen Veränderungen der WISC-IV bzw. des HAWIK-IV sind (Petermann & Peter-
mann, 2008a; Wechsler, 2003b):
die Aktualisierung der strukturellen Grundlage zur Messung von gf und zur zusätzlichen Messung von gsm (durch das Buchstaben-Zahlen-Folgen) und gs (durch den Durchstreich-Test),
Kapitel 4 Die Wechsler-Skalen 72
die Modifizierung der Bewertungskriterien zur Verbesserung der Übersichtlichkeit,
die Einführung zusätzlicher Aufgaben zur Reduzierung des Boden- und Deckeneffekts,
verständlichere Anweisungen für die Testleiter,
die Aktualisierung der Grafiken zur Steigerung der Attraktivität für Kinder,
gesteigerte Entwicklungsangemessenheit (modifizierte Instruktionen, Lern- und/oder Übungsaufgaben für jeden Untertest),
die Aktualisierung der Normen,
die Entfernung veralteter Aufgaben,
die Erweiterung des Manuals um Interpretationshinweise und ausführlichere Informa-tionen zur Validität,
die Gewichtreduzierung des Testkoffers durch Entfernung der materialreichen Tests und
die Umbenennung des Index Wahrnehmungsorganisation in Wahrnehmungsgebunde-nes Logisches Denken.
Vor allem die strukturellen Neuerungen sind für diese Studie von großer Wichtigkeit. Dabei
handelt es sich um folgende Veränderungen (Flanagan & Kaufman, 2004):
Verbal- und Handlungsteil wurden entfernt,
zur Berechnung der vier Indizes werden nicht mehr 12, sondern nur noch zehn Unter-tests benötigt,
der Index UA wurde durch den Index AGD ersetzt,
das SV setzt sich im HAWIK-IV aus drei anstatt aus vier Untertests zusammen. Der Unter-test Allgemeines Wissen wird ein optionaler Untertest, so dass der Index weniger von Allgemeinbildung und Schulwissen abhängig ist,
das WLD setzt sich zusätzlich zum Mosaik-Test aus zwei neuen Untertests zusammen: Bildkonzepte und Matrizen-Test. Bilder ergänzen ist nur noch ein optionaler Untertest,
der Index AGD setzt sich aus dem Zahlen nachsprechen und dem neuen Untertest Buch-staben-Zahlen-Folgen zusammen. Rechnerisches Denken ist nur noch ein optionaler Un-tertest,
Bilderordnen, Figurenlegen und Labyrinth-Test wurden (u. a. zur Reduzierung der Zeit-abhängigkeit) entfernt sowie
Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test und Begriffe erkennen wurden eingeführt.
4.7.2 Veränderungen in den einzelnen Untertests
Tabelle 4.10 gibt einen Überblick über Veränderungen hinsichtlich der Anzahl der Items, der
Punktevergabe pro Item sowie der Einstiegs-, Umkehr- und Abbruchkriterien. Im Anschluss
werden diese Unterschiede für jeden Untertest getrennt nach Index gesondert aufgeführt.
Kapitel 4 Die Wechsler-Skalen 73
Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zu-gehörigkeit zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a) SV HAWIK-III HAWIK-IV
GF
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
19 2 1
nein 4
23 2 3 ja 5
WT
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
30 2 4 ja 4
36 2 3 ja 5
AV
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
18 2 1
nein 3
21 2 3 ja 4
AW
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
30 1 4 ja 5
33 1 3 ja 5
WLD HAWIK-III HAWIK-IV
MT
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
12 7 2 ja 2
14 7 2 ja 3
BE
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
29 1 4 ja 5
38 1 3 ja 6
AGD HAWIK-III HAWIK-IV
ZN
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
15 2 1
nein 1
16 2 1
nein 1
RD
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium
24 2 4 ja 3
34 1 3 ja 4
VG HAWIK-III HAWIK-IV
ZST-A/B
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen/ Umkehrregel Abbruchkriterium (Zeit in Sekunden)
59/119 1 -
120``
59/119 1 -
120``
SS/SYS-A/B
Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen/ Umkehrregel Abbruchkriterium (Zeit in Sekunden)
45/45 1 -
120``
45/60 1 -
120``
Anmerkungen: Es wurden nur die Untertests berücksichtigt, die in beiden HAWIK-Versionen enthalten sind. Abkürzungen siehe Anhang A5 und A6.
Kapitel 4 Die Wechsler-Skalen 74
Es können demnach nicht nur Änderungen der Teststruktur zu Einschränkungen der Vergleich-
barkeit beider Testversionen führen. Auch Unterschiede innerhalb einzelner Untertests, die in
beiden Testversionen enthalten sind, können sich auf die Vergleichbarkeit auswirken. Dazu
zählen Änderungen
der Aufgaben, Aufgabenanzahl und der Aufgabenformulierung,
der Bewertung,
der Durchführung,
der Aufgabenreihenfolge,
der Startpunkte,
der Umkehrregel,
des Abbruchkriteriums sowie
der Untertestposition.
Auf diese Änderungen und den damit verbundenen Einfluss auf die Vergleichbarkeit beider
Testversionen wird nun für jeden Untertest, sortiert nach den vier Indizes, getrennt eingegan-
gen.
4.7.2.1 Index Sprachverständnis
Gemeinsamkeiten finden:
a) Aufgaben:
Der Untertest Gemeinsamkeiten finden des HAWIK-IV umfasst 23 Aufgaben, von denen 12 neu
und zwei leicht verändert sind. Die Beispielaufgabe wurde überarbeitet, um vor dem eigentli-
chen Beginn des Untertests eine bewertbare Antwort des Kindes zu erhalten. Dies ersetzt das
korrigierende Feedback, das im HAWIK-III bei nicht-korrekter Antwort der ersten 2-Punkte-
Aufgabe vorgegeben wird. Die Anzahl der 1-Punkt-Aufgaben wurde von fünf auf zwei redu-
ziert. Zur Reduzierung des Deckeneffekts des HAWIK-III wurden zusätzliche Aufgaben mit ho-
hem Schwierigkeitsgrad eingefügt.
b) Bewertung:
Die Bewertungskriterien wurden für alle Aufgaben überarbeitet. So gibt es im HAWIK-IV bei-
spielsweise deutlich mehr Antworten, die einer Nachfrage seitens des Testleiters bedürfen.
Dadurch ist es bei einigen Aufgaben, die in beiden Testversionen enthalten sind, im HAWIK-IV
leichter, die volle Punktzahl zu erhalten. Ein Beispiel stellt die Frage: „Was ist das Gemeinsame
an Apfel und Banane?“ dar. Die Antwort „beides kann man essen“ wird im HAWIK-III mit einem
Punkt ohne Nachfrage, im HAWIK-IV jedoch mit einem Punkt mit Nachfrage bewertet. Das Kind
kann sich demnach im HAWIK-IV mit der zweiten Antwort „beides ist Obst“ noch auf zwei
Punkte verbessern. Dies führt zur Reduzierung des Bodeneffekts.
c) Durchführung:
Kapitel 4 Die Wechsler-Skalen 75
Während dem Testleiter im HAWIK-III nur erlaubt ist, die Aufgaben einmal vorzulesen, darf er
sie im HAWIK-IV so oft wie notwendig wiederholen. Dies kann zu einer Herabstufung des
Schwierigkeitsgrades führen. Andererseits ist es im HAWIK-III erlaubt, gegebenenfalls Synony-
me für ein dem Kind unbekanntes Wort vorzugeben, was wiederum eine Erleichterung darstel-
len kann.
d) Aufgabenreihenfolge:
Im Gemeinsamkeiten finden zeigen sich Änderungen in der Reihenfolge der Aufgaben. Dadurch
werden Kindern möglicherweise Fragen, die sie in einem Test nicht beantworten können, im
anderen Test gar nicht vorgegeben. Außerdem sorgt in diesem Untertest die veränderte Rei-
henfolge für eine deutliche Änderung des Schwierigkeitsgrades bestimmter Aufgaben. Bei-
spielsweise wird im HAWIK-III die Frage: „Was ist das Gemeinsame bei Katze und Maus?“ nach
den Fragen nach der Gemeinsamkeit von Hemd und Schuh und Schrank und Stuhl vorgegeben
und stellt die erste Aufgabe dar, für die es zwei Punkte gibt. Hier wird von fast allen Kindern
die Antwort „beides sind Tiere“ gegeben. Im HAWIK-IV hingegen wurde in der Normierungs-
version des Testverfahrens die Gemeinsamkeit von Katze und Maus nach der Gemeinsamkeit
von Schmetterling und Biene erfragt. Hier wird die Antwort „beides sind Tiere“ nur mit einem
Punkt bewertet und erst, wenn das Kind auf Nachfrage die differenziertere Antwort „beides
sind Insekten“ anbietet, bekommt es die volle Punktzahl. Wenn dann die Frage nach der Ge-
meinsamkeit von Katze und Maus gestellt wird, denken einige Kinder, die Antwort „beides sind
Tiere“ sei nicht ausreichend und sie geben Antworten wie „beides sind Haustiere“ oder „beide
haben Fell“, die ihnen nur einen Punkt einbringen. Demnach weist die Frage nach der Gemein-
samkeit von Katze und Maus im HAWIK-IV einen höheren Schwierigkeitsgrad auf als im HAWIK-
III.
e) Startpunkte:
Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. So erhalten eini-
ge Kinder im HAWIK-IV zwei Punkte für Aufgaben, die sie im HAWIK-III nicht korrekt beantwor-
ten können, da die Aufgaben im HAWIK-IV vor dem altersspezifischen Startpunkt liegen und
somit so bewertet werden, als seien sie korrekt beantwortet worden. Außerdem könnte dies
bei Kindern ab neun Jahren zu einer Erhöhung der Schwierigkeit des Untertests führen, da sie
weniger Möglichkeiten haben über einfachere Antworten mit dem Lösungsprinzip vertraut zu
werden. Andererseits kann es für diese Kinder von Vorteil sein, durch das Überspringen der
sehr leichten Aufgaben im HAWIK-IV weniger Motivations- und Konzentrationsprobleme zu
bekommen als im Gemeinsamkeitenfinden des HAWIK-III.
f) Umkehrregel:
Kapitel 4 Die Wechsler-Skalen 76
Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher.
Dies führt allerdings keine wesentlichen Änderungen hinsichtlich der Schwierigkeit mit sich.
g) Abbruchkriterium:
Das Abbruchkriterium wurde für die WISC-IV bzw. den HAWIK-IV von vier auf fünf falsche Auf-
gaben in Folge erhöht. Dies kann das Ergebnis insofern beeinflussen, als ein Kind im HAWIK-IV
durch die richtige Beantwortung von Fragen Punkte erhält, die ihm im HAWIK-III nicht vorge-
geben werden, da der Untertest vorher abgebrochen werden musste.
h) Untertestposition:
Die Verschiebung des Untertests von der vierten auf die zweite Position dürfte keine großen
Auswirkungen auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.
Wortschatz-Test:
a) Aufgaben:
Der Wortschatz-Test des HAWIK-IV beinhaltet 36 Aufgaben, vier Bild- und 32 Wortaufgaben.
17 Wortaufgaben sind neu, und 15 wurden aus dem HAWIK-III übernommen. Ebenso wie dem
Gemeinsamkeiten finden wurden auch dem Wortschatz-Test Aufgaben hinzugefügt, um sowohl
im unteren als auch im oberen Bereich besser differenzieren zu können. Die Bildaufgaben
wurden neu entwickelt, um jungen und leistungsschwachen Kindern die Möglichkeit zu geben,
über einfache Aufgaben das Lösungsprinzip des Untertests zu verstehen. Sie werden allerdings
nur vorgegeben, wenn die Umkehrregel in Kraft tritt. Da dies bei der vorliegenden Stichprobe
nur in wenigen Ausnahmefällen vorkam, kann ein bedeutsamer Einfluss durch diese Verände-
rung ausgeschlossen werden.
b) Bewertung:
Wie für alle sprachlichen Untertests wurden auch für den Wortschatz-Test die Bewertungsre-
geln erheblich modifiziert. So wurden im HAWIK-IV deutlich mehr Nachfragen eingefügt. Au-
ßerdem wurde die Bewertung vieler Aufgaben verändert (beispielsweise gibt die Antwort „ge-
nau“ bei der Beschreibung des Wortes „präzise“ im HAWIK-III die volle Punktzahl, im HAWIK-IV
jedoch nur einen Punkt mit Nachfrage).
c) Durchführung:
Eine weitere Änderung gegenüber seinem Vorgänger besteht im HAWIK-IV in der Möglichkeit
für Kinder ab neun Jahren, die Wörter mitzulesen, die sie beschreiben sollen.
d) und e) Aufgabenreihenfolge und Startpunkte:
Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Aufga-
benreihenfolge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche alters-
spezifische Startpunkte) kommt im Wortschatz-Test zum Tragen.
Kapitel 4 Die Wechsler-Skalen 77
g) Abbruchkriterium:
Das Abbruchkriterium wurde von vier auf fünf falsche Aufgaben in Folge erhöht (zum Einfluss
auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
h) Untertestposition:
Die Verschiebung vom achten auf den sechsten Untertest dürfte keine großen Auswirkungen
auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.
Allgemeines Verständnis:
a) Aufgaben:
Der Untertest Allgemeines Verständnis des HAWIK-IV beinhaltet 21 Aufgaben. 13 wurden hin-
zugefügt, acht Aufgaben ohne oder mit kleinen Veränderungen aus dem HAWIK-III übernom-
men. Auch in diesem Untertest wurden einige Aufgaben weggelassen und zur Reduzierung des
Boden- und Deckeneffektes, vor allem besonders leichte und besonders schwierige Aufgaben
hinzugefügt. Die Frageformulierungen bei den Aufgaben, die in beiden Testversionen enthal-
ten sind, blieben nahezu unverändert. Die einzige Änderung in der Formulierung, die zu einer
Änderung des Schwierigkeitsgrads führen könnte, stellt die Frage „Warum müssen wir Brief-
marken auf Briefe kleben?“ des HAWIK-III gegenüber der offeneren Formulierung „Warum
kleben wir Briefmarken auf Briefe?“ im HAWIK-IV dar.
b) Bewertung:
Die Bewertungskriterien für alle Aufgaben wurden überarbeitet. So müssen beispielsweise bei
der Frage: „Warum ist die Redefreiheit in einer Demokratie so wichtig?“ im HAWIK-IV zwei
richtige Antworten aus zwei unterschiedlichen Konzepten gegeben werden, während im HA-
WIK-III eine Antwort zwei oder nur einen Punkt wert ist, je nachdem, wie hochwertig sie war.
Auch die Einführung zusätzlicher Nachfrageaufforderungen bei vielen Antworten führt zu Ab-
weichungen in der Bewertung.
c) Durchführung:
Eine Änderung in der Durchführung, die zu einer Herabstufung der Schwierigkeit führen kann,
wurde für die Aufgaben eingeführt, die für das Erhalten der vollen Punktzahl zwei Antworten
aus zwei unterschiedlichen allgemeinen Konzepten erfordern (den *-Fragen). Während im
HAWIK-III nur einmal nachgefragt werden darf, nachdem das Kind eine Antwort aus einem
allgemeinen Konzept gegeben hat, muss im HAWIK-IV mehrmals nachgefragt werden, wenn
das Kind auf die erste Nachfrage eine weitere Antwort aus demselben allgemeinen Konzept
gibt. Dadurch erhöht sich die Chance die volle Punktzahl zu erhalten, indem zwei Antworten
aus zwei unterschiedlichen allgemeinen Konzepten gegeben werden.
d) Aufgabenreihenfolge:
Kapitel 4 Die Wechsler-Skalen 78
Wie in allen sprachlichen Untertests bestehen auch im Allgemeinen Verständnis Änderungen in
der Reihenfolge der Aufgaben. Dadurch werden Kindern möglicherweise Fragen, die sie in ei-
nem Test nicht beantworten können, im anderen Test gar nicht vorgegeben.
e) Startpunkte:
Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. Dadurch ist es
möglich, dass einige Kinder im HAWIK-IV zwei Punkte für Aufgaben bekommen, die sie im
HAWIK-III nicht korrekt beantworten können, da die Aufgaben im HAWIK-IV vor dem alters-
spezifischen Startpunkt liegen und somit so bewertet werden, als seien sie korrekt beantwor-
tet worden (für weitere Auswirkungen dieser Veränderung siehe Gemeinsamkeiten finden).
f) Umkehrregel:
Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher.
Dies führt allerdings zu keinen wesentlichen Änderungen hinsichtlich der Schwierigkeit.
g) Abbruchkriterium:
Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss
auf Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
h) Untertestposition:
Die Verschiebung von der zehnten auf die neunte Position dürfte keine großen Auswirkungen
auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.
Allgemeines Wissen:
a) Aufgaben:
Der Untertest Allgemeines Wissen des HAWIK-IV setzt sich aus 33 Fragen zusammen. 13 wur-
den hinzugefügt und 20 Fragen ohne oder mit kleinen Veränderungen aus dem HAWIK-III
übernommen. Wie in allen Untertests wurde auch im Allgemeinen Wissen auf eine Verbesse-
rung der Leistungsdifferenzierung in den intellektuellen Randbereichen Wert gelegt. Dem wur-
de durch Einführung besonders schwieriger und besonders leichter Aufgaben Rechnung getra-
gen. Außerdem führen Unterschiede in der Frageformulierung zu Veränderung des Schwierig-
keitsgrades der Aufgaben. So besitzt beispielsweise die Frage: „Aus welchem Grund rostet
Eisen?“ des HAWIK-III einen anderen Schwierigkeitsgrad als die Frage: „Was lässt Eisen ros-
ten?“ des HAWIK-IV (ein anderes Beispiel stellt die Frage: „Warum haben Pflanzen meistens
grüne Blätter?“ (HAWIK-III) gegenüber der Frage: „Was macht Blätter grün?“ (HAWIK-IV) dar).
b) Bewertung:
Die Bewertungskriterien für einige Aufgaben wurden modifiziert. Dies kann zu Abweichungen
zwischen den Testversionen hinsichtlich der Bewertung des Untertests führen.
c) Durchführung:
Kapitel 4 Die Wechsler-Skalen 79
Hinsichtlich der Durchführung zeigen sich keine gravierenden Unterschiede zwischen den Test-
versionen.
d) und e) Aufgabenreihenfolge und Startpunkte:
Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Reihen-
folge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche altersspezifische
Startpunkte) kommt beim Allgemeinen Wissen zum Tragen.
g) Abbruchkriterium:
Das Abbruchkriterium liegt in beiden Versionen bei fünf falschen Antworten in Folge.
h) Untertestposition:
Die Verlegung vom zweiten auf den drittletzten (13.) Untertest könnte Einfluss auf die Ver-
gleichbarkeit der Ergebnisse in beiden Testversionen haben. Einerseits ist es möglich, dass die
Leistung eines Kindes im Laufe der Testung angesichts mangelnder Konzentrationsfähigkeit
oder Ermüdungserscheinungen abnimmt, was schlechtere Leistungen im HAWIK-IV zur Folge
haben könnte. Bei Kindern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte
dies zu einer besseren Leistung im Allgemeinen Wissen des HAWIK-IV führen.
4.7.2.2 Index Wahrnehmungsgebundenes Logisches Denken
Mosaik-Test:
a) Aufgaben:
Der Mosaik-Test des HAWIK-IV umfasst 14 Aufgaben. Zehn wurden aus dem HAWIK-III über-
nommen; vier Aufgaben wurden zur Reduzierung des Deckeneffekts hinzugefügt (davon zwei
Aufgaben mit neun Würfeln, die einen hohen Schwierigkeitsgrad aufweisen).
b) Bewertung:
Der Gebrauch von Zeitbonuspunkten im HAWIK-IV wurde beibehalten, jedoch auf die letzten
sechs Aufgaben beschränkt. Daher wird der Gesamtrohwert dieses Untertests für viele jüngere
Kinder keine Zeitbonuspunkte beinhalten. Ergänzend wurde der Gesamtrohwert Mosaik-Test-
ohne Zeitbonus (MT-OZ) eingeführt. Seine Berechnung kann sinnvoll sein bei Kindern mit kör-
perlichen Einschränkungen, Schwierigkeiten mit Problemlösestrategien sowie persönlichen
Eigenschaften (wie beispielsweise Perfektionismus), die die Bearbeitung unter Zeitdruck be-
einflussen (Flanagan & Kaufman, 2004). Da die gesteigerte Schwierigkeit und die Bewertungs-
modifikationen durch den Vergleich mit der Normstichprobe berücksichtigt werden, dürfte
dies keinen Einfluss auf die Vergleichbarkeit der Wertpunkte beider Testversionen haben.
c) Durchführung:
Zur Reduktion der Testdauer und dementsprechend zur Steigerung der Anwenderfreundlich-
keit wurden die Instruktionen verkürzt.
Kapitel 4 Die Wechsler-Skalen 80
d) Aufgabenreihenfolge:
Die Änderungen in der Aufgabenreihenfolge können im Mosaik-Test zu deutlichen Unterschie-
den führen. So wurde das letzte Muster im HAWIK-III zum ersten Muster mit neun Würfeln im
HAWIK-IV. Dies führt zu einem höheren Schwierigkeitsgrad dieser Aufgabe im HAWIK-IV, da
das Kind noch keine Strategien für die Lösung von Aufgaben mit neun Würfeln entwickeln
kann, während es im HAWIK-III vorher schon ähnliche Aufgaben lösen muss, bei denen es be-
reits Lösungsstrategien entwickeln konnte.
f) Umkehrregel:
Auch wenn sich die Umkehrregeln in beiden Testversionen voneinander unterscheiden (im
HAWIK-III wird in aufsteigender Reihenfolge, also erst mit Aufgabe 1 und dann mit Aufgabe 2
vorgegangen und im HAWIK-IV in absteigender Reihenfolge, also erst mit Aufgabe 2 und dann
mit Aufgabe 1), dürfte dies keinen Einfluss auf die Vergleichbarkeit der Ergebnisse beider Test-
versionen haben, zumal in der vorliegenden Studie nur in Ausnahmefällen umgekehrt wurde.
g) Abbruchkriterium:
Das Abbruchkriterium wurde von zwei auf drei nicht gelöste Aufgaben in Folge erhöht (zum
Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
h) Untertestposition:
Die Verschiebung des Mosaik-Tests von der siebten auf die erste Position kann einen Einfluss
auf die Ergebnisse in diesem Untertest haben. Einerseits ist es möglich, dass die Leistung eines
Kindes im Laufe der Testung angesichts von mangelnder Konzentration oder Ermüdungser-
scheinungen abnimmt, was bessere Leistungen im HAWIK-IV zur Folge haben kann. Bei Kin-
dern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte dies zu einer schlech-
teren Leistung im Mosaik-Test des HAWIK-IV führen.
Bilder ergänzen:
a) Aufgaben:
Der Untertest Bilder ergänzen des HAWIK-IV beinhaltet 38 Aufgaben, 12 neue und 26 Aufga-
ben, die aus dem HAWIK-III beibehalten wurden. Der Schwierigkeitsgrad einzelner Aufgaben
hat sich durch eindeutigere grafische Aufbereitung reduziert. So ist im HAWIK-IV der fehlende
Abfluss der Badewanne (Aufgabe 26) besser ersichtlich als im HAWIK-III (Aufgabe 16), da die
Wanne aus einer anderen Perspektive gezeigt wird.
b) und c) Bewertung und Durchführung:
Hinsichtlich der Bewertung und Durchführung zeigen sich keine gravierenden Veränderungen
zwischen beiden Testversionen.
d) und e) Aufgabenreihenfolge und Startpunkte:
Kapitel 4 Die Wechsler-Skalen 81
Auch im Bilder ergänzen kann die Bearbeitungsleistung durch Veränderungen in der Reihenfol-
ge und den Alterseinstiegen (Reduzierung von vier auf drei altersspezifische Startpunkte) be-
einflusst sein.
g) Abbruchkriterium:
Das Abbruchkriterium wurde von fünf auf sechs nicht gelöste Aufgaben in Folge erhöht (zum
Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
h) Untertestposition:
Die Verlegung vom ersten auf den 11. Untertest könnte Einfluss auf die Vergleichbarkeit der
Ergebnisse in beiden Untertestversionen haben (zur Art des Einflusses siehe Allgemeines Wis-
sen).
4.7.2.3 Index Arbeitsgedächtnis
Zahlen nachsprechen:
a) Aufgaben:
Für das Zahlen nachsprechen vorwärts (ZN-V) des HAWIK-IV wurden 15 Versuche übernommen
und ein neuer Versuch entwickelt. Für das Zahlen nachsprechen rückwärts (ZN-R) wurden
sechs neue Versuche entwickelt und zehn Versuche aus dem HAWIK-III übernommen. Die Ver-
änderungen in den Zahlenreihen sind jedoch zu gering (beim ZN-V wurde beispielsweise nur
einmal eine 6 durch eine 8 ersetzt), um einen Einfluss auf die Vergleichbarkeit beider Testver-
sionen zu haben. Im ZN-R wurden zur Erhöhung des Verständnisses für diese Teilaufgabe bei
leistungsschwachen Kindern zwei zusätzliche Aufgaben mit zwei Zahlen eingefügt. Zur Besse-
rung Differenzierung der Leistung des Kindes wurden die ZN-V- und ZN-R-Prozesswerte sowie
die längste Zahlenspanne vorwärts (LZ-V) und die längste Zahlenspanne rückwärts (LZ-R) einge-
führt. So ermöglicht die Prozessanalyse von ZN-V und ZN-R den Vergleich von Merkspanne
(ZN-V) und Arbeitsgedächtnis (ZN-R) (Flanagan & Kaufman, 2004).
b) bis g) Bewertung, Durchführung, Aufgabenreihenfolge, Startpunkte, Abbruchkriterium:
In diesen Bereichen gibt es keine Unterschiede zwischen HAWIK-III und -IV.
h) Untertestposition:
Durch die Verschiebung des Untertests Zahlen nachsprechen von der 12. auf die 3. Position
kann ein Kind unterschiedliche Leistungen in beiden Testversionen zeigen (zur Art des Einflus-
ses siehe Mosaik-Test). Gerade für Leistungen des Arbeitsgedächtnisses, die mit diesem Unter-
test erfasst werden, sind Konzentration und Aufmerksamkeit von zentraler Bedeutung.
Rechnerisches Denken:
a) Aufgaben:
Der Untertest Rechnerisches Denken des HAWIK-IV umfasst 34 Aufgaben. Dabei beinhalten 11
zwar die gleichen mathematischen Rechenaufgaben wie der HAWIK-III, die textliche Einbet-
Kapitel 4 Die Wechsler-Skalen 82
tung der Rechenaufgaben wurde jedoch überarbeitet. Zur Verbesserung der Boden- und
Deckendifferenzierung wurden außerdem 20 neue Aufgaben entwickelt. Die Aufgaben wurden
so gestaltet, dass die Anforderungen an das Arbeitsgedächtnis erhöht wurden, indem auch die
schwierigen Aufgaben nicht mehr vom Kind gelesen werden können, während gleichzeitig das
mathematische Wissen, das zum Erfüllen der Untertestaufgabe erforderlich ist, altersange-
messener gestaltet wurde.
b) Bewertung:
Die Zeitbonuspunkte für besonders schnelle Bearbeitung der letzten Aufgaben wurden abge-
schafft.
c) Durchführung:
Während im HAWIK-III für die schwierigeren Aufgaben mehr Lösungszeit zur Verfügung steht,
liegt die Zeitgrenze beim HAWIK-IV durchweg bei 30 Sekunden. Die Karten zum Vorlesen der
Aufgaben durch das Kind wurden abgeschafft. Die Vorgabe der Aufgaben erfolgt ausschließlich
durch Vorlesen des Testleiters. Während die ersten Aufgaben im HAWIK-IV bei falscher Durch-
führung eine korrigierende Rückmeldung vorsehen, ist dies im HAWIK-III nicht vorgesehen.
d) und e) Aufgabenreihenfolge und Startpunkte:
Veränderungen in der Reihenfolge und den Alterseinstiegen (Reduzierung von vier auf drei
unterschiedliche altersspezifische Startpunkte) können die Bearbeitungsleistung im Rechneri-
schen Denken beeinflussen.
g) Abbruchkriterium:
Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss
auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).
h) Untertestposition:
Durch die Verschiebung des Untertests Rechnerisches Denken von der sechsten auf die vorletz-
te Position können sich deutliche Unterschiede in den Leistungen eines Kindes zwischen bei-
den Testversionen ergeben (zur Art des Einflusses siehe Allgemeines Wissen). Gerade für Leis-
tungen des Arbeitsgedächtnisses, die mit diesem Untertest erhoben werden, sind Konzentrati-
on und Aufmerksamkeit von zentraler Bedeutung.
4.7.2.4 Index Verarbeitungsgeschwindigkeit
Zahlen-Symbol-Test:
In diesem Untertest gibt es keine wesentlichen Unterschiede zwischen HAWIK-III und -IV. Zwar
wurde der Zahlen-Symbol-Test des HAWIK-III farbig und der Zahlen-Symbol-Test des HAWIK-IV
schwarz-weiß gehalten, dies dürfte jedoch keinen Einfluss auf die Vergleichbarkeit der Ergeb-
nisse in beiden Testversionen haben.
Kapitel 4 Die Wechsler-Skalen 83
Symbol-Suche:
Bei der Version für die sechs- und siebenjährigen Kinder (Version A) gibt es keine Unterschiede
zwischen beiden Tests. Für die älteren Kinder (Version B) wurden für die WISC-IV bzw. den
HAWIK-IV zur Vermeidung eines Deckeneffekts 15 zusätzliche Aufgaben entwickelt.
4.8 Zusammenfassung Die Wechsler-Skalen zählen zu den bedeutendsten und empirisch meist untersuchten Testver-
fahren. Sie weisen eine jahrzehntelange Tradition in der Forschung und der klinischen Diagnos-
tik auf. Wechslers Einfluss auf die Intelligenzforschung begann in den 1930er Jahren und hat
aufgrund seiner zahlreichen Tests weiterhin ungebrochen Bestand. Es besteht Kritik an unter-
schiedlichen Aspekten seiner Testbatterien, dennoch bleibt die Bedeutsamkeit der Wechsler-
Skalen weitgehend unstrittig. Die hier gegenständlichen Intelligenztests HAWIK-III und HAWIK-
IV sind aus dem HAWIK hervorgegangen, einer für das Kindesalter abgewandelten Version der
Wechsler-Bellevue Intelligence Scale. Sie weisen insgesamt überdurchschnittliche psychome-
trische Eigenschaften auf. Dennoch gibt es Einschränkungen, beispielsweise im Hinblick auf die
Objektivität. Unterschiede in den Gütekriterien, wie unterschiedliche Reliabilitätskennwerte,
müssen beim Vergleich beider Testversionen Berücksichtigung finden.
Dem HAWIK-IV liegen die bisher größten Veränderungen gegenüber einer Vorgängerversion
zugrunde. So zeigen sich im HAWIK-III und -IV in vielerlei Hinsicht deutliche Unterschiede, bei-
spielsweise durch die Einführung neuer Untertests, Änderungen der Teststruktur (u. a. Wegfall
des Verbal- und Handlungsteils) sowie die Erfassung unterschiedlicher kognitiver Fähigkeiten.
Auch innerhalb der Untertests, die in beiden Testversionen enthalten sind, haben sich diverse
Veränderungen ergeben. Dazu gehören die Einführung zusätzlicher Aufgaben ebenso wie Mo-
difizierungen der Bewertungskriterien und Durchführungsanweisungen. Diese Änderungen
können die Vergleichbarkeit beider Testversionen beeinträchtigen.
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 84
5 Methodische Aspekte bei Vergleichsstudien
Allgemeines Wissen, Frage 13: „Was tut der Magen?“
Marie, 7 Jahre: „Er passt auf, dass das Essen nicht rausfällt.“
Obwohl stets neue Testverfahren entwickelt werden, gibt es eine Vielzahl von Studien zu Revi-
sionen bereits bestehender Testverfahren und zu neu aufgelegten Testversionen. Ein Messins-
trument zu überarbeiten hat diverse Gründe. Dazu gehören nach Strauss, Spreen und Hunter
(2000)
die Aktualisierung der Normen (siehe Kapitel 4.6),
die Erweiterung der Altersbereiche,
die Bereitstellung zusätzlicher Minderheitenstichproben,
das Entfernen veralteter Items,
die Verbesserung der Güte des Items sowie
die Erhöhung der Testvalidität.
Testrevisionen können auf komplexe Weise die Art der erhaltenen Informationen verändern
und Merkmale, Fähigkeiten und Bedingungen anders als die vorherigen Versionen erheben.
5.1 Korrelationsstudien Die Untersuchung der Korrelationen zwischen den Testwerten und externen Variablen gibt
Hinweise auf die Kriteriumsvalidität des Tests (siehe Kapitel 4.4.3). Die Kriteriumsvalidität ist
hoch, wenn der Test hoch mit anderen Instrumenten korreliert, die dasselbe Konstrukt zu
messen vorgeben.
Auch für die Wechsler-Skalen wurden entsprechende Korrelationsstudien durchgeführt. Um
abschätzen zu können, welche Korrelationen zwischen dem HAWIK-III und -IV in dieser Studie
zu erwarten sind, wird im Folgenden auf vergleichbare Studien eingegangen. Die Studien wur-
den größtenteils während der Normierung der jeweils aktuelleren Testversion in Form von Co-
Normierungsstudien durchgeführt. Korrelationsstudien wurden in den vergangenen drei Jahr-
zehnten im Bereich der Testentwicklung weit verbreitet eingesetzt (Zhu & Tulsky, 2000). Sie
erlauben die gemeinsame Interpretation zweier Tests und verstärken damit deren klinischen
Nutzen.
5.1.1 Korrelationsstudien zur WISC-III
Für die Untersuchung der Korrelation zwischen der WISC-III und der WISC-R wurden die beiden
Tests in ausbalancierter Reihenfolge 206 Kindern im Alter von 6 bis 16 Jahren (Mit-
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 85
tel = 11 Jahre) vorgegeben (Wechsler, 1991). Zwischen den beiden Testzeitpunkten lagen
durchschnittlich 21 Tage. Es wurden nur die Korrelationen zwischen den Untertests, die in bei-
den Testversionen vorkommen, und den drei IQ-Gesamtwerten (Verbal-, Handlungs- und Ge-
samt-IQ5) untersucht. Vor allem Verbal- und Gesamt-IQ beider Testversionen korrelierten hoch
miteinander (r = .90 und .89). Die Korrelation zwischen den Handlungs-IQ-Werten lag, wenn
auch etwas niedriger, mit r = .81 ebenfalls sehr hoch. Daraus wurde geschlossen, dass die
WISC-R und die WISC-III ausreichend die selben Konstrukte erfassen.
In Großbritannien wurde die Korrelation zwischen der englischen WISC-III und der WISC-R un-
tersucht, indem die Testergebnisse von 151 der 206 Kindern der amerikanischen Stichprobe
auf die englischen Normen transferiert wurden (Wechsler, 1992). Der Zusammenhang zwi-
schen den Gesamt- und Verbal-IQ erwies sich ebenfalls als deutlich höher als im Handlungs-IQ
(jeweils r = .88 gegenüber .79).
Eine Studie mit 51 hochbegabten Kindern und Jugendlichen zeigte dagegen auf Untertestebe-
ne nur Korrelationen zwischen r = .08 (Figurenlegen) und .59 (Mosaik-Test). Die beiden Verbal-,
Handlungs- und Gesamt-IQ wiesen mit Werten zwischen r = .33 und .37 ebenfalls niedrige Zu-
sammenhänge auf (Sabatino, Spangler & Vance, 1995).
5.1.2 Korrelationsstudien zum HAWIK-III
Im Manual des HAWIK-III wird eine Validitätsstudie mit dem HAWIK-R beschrieben (Tewes et
al., 2002). Zum Vergleich beider Testversionen wurden sie in einer ausbalancierten Reihenfolge
einer Stichprobe von 87 Schweizer Kindern zur Bearbeitung vorgelegt (der Abstand betrug
durchschnittlich 30 Tage). Im Durchschnitt waren die Kinder 10;4 Jahre alt (s = .90 Jahre). Da-
bei wurden ebenfalls nur jene Untertests einbezogen, die in beiden Testversionen enthalten
sind. Im Gesamt-IQ zeigte sich eine Korrelation von r = .88 (nach Anwendung einer Korrektur
hinsichtlich der Varianzeinschränkung des HAWIK-III von r = .92, siehe Kapitel 7.5.3). Dies spre-
che nach Ansicht der Autoren dafür, dass die beiden Tests dasselbe Konstrukt abbilden. Im
Verbal-IQ (r = .80; korrigierter Wert: r = .88) und im Handlungs-IQ (r = .81; korrigierter Wert:
r = .87) lagen die Koeffizienten etwas niedriger. Doch auch diese Werte sprechen noch für eine
diagnostische Äquivalenz beider Tests. Insgesamt stimmen die Befunde mit denen der ameri-
kanischen und englischen Studien überein. Das gilt auch im Wesentlichen für die Zusammen-
hangsuntersuchung der gemeinsamen Untertests. So ergaben sich sowohl im Vergleich der
WISC-III mit der WISC-R als auch im Vergleich des HAWIK-III mit dem HAWIK-R die niedrigsten
Korrelationen im Bilderordnen (r = .42 gegenüber .47; korrigiert: r = .47) und Bilderergänzen
(r = .57 gegenüber .41; korrigiert: r = .65). 5 Wie bereits an anderer Stelle, werden auch hier zum besseren Verständnis die deutschen Bezeichnun-gen der Gesamtwerte, Indizes und Untertests angegeben, auch wenn es sich um amerikanische Studien handelt.
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 86
Im Gegensatz zu der amerikanischen Untersuchungsstichprobe zeigten sich allerdings bei den
Schweizer Kindern höhere IQ-Mittelwerte im HAWIK-III als im HAWIK-R (nur bei drei Untertests
des Handlungsteils waren die Mittelwerte des HAWIK-R höher). Die Autoren des HAWIK-III
stellten die Überlegung an, die höheren Mittelwerte im HAWIK-III könnten mit einer größeren
geografischen Streuung der Normierungspopulation des HAWIK-III zusammenhängen (Tewes
et al., 2002).
5.1.3 Korrelationsstudien zur WISC-IV
In der Studie, die für die vorliegende Untersuchung als Vergleichsbasis herangezogen wird,
wurde die Höhe der Korrelationen zwischen WISC-III und WISC-IV an 244 Kindern zwischen 6
und 16 Jahren untersucht (Wechsler, 2003b). Das Re-Testintervall lag durchschnittlich bei 28
Tagen. Zwischen den Gesamt-IQ beider Testversionen ergab sich eine korrigierte Korrelation
von r = .89. Außerdem wurden der VCI (Verbal Comprehension Index, entspricht dem Index SV
des HAWIK-IV) und der PRI (Perceptual Reasoning Index, entspricht dem Index WLD des HA-
WIK-IV) der WISC-IV mit dem Verbal- und dem Handlungs-IQ der WISC-III (n = 244, Alter 6-16)
verglichen. Dabei weist SV mit dem Verbal-IQ Korrelationen von r = .87 und WLD mit dem
Handlungs-IQ Korrelationen von r = .74 auf. Die Indizes korrelieren zwischen r = .72 und .88.
Die Zusammenhänge der Index-Kombinationen POI (entspricht dem Index WO des HAWIK-III)
und PRI sowie FDI (entspricht dem Index UA des HAWIK-III) und WMI (entspricht dem Index
AGD des HAWIK-IV) erweisen sich als niedriger als die Korrelationen der Index-Kombinationen
VCI und VCI sowie PSI (entspricht dem Index AG des HAWIK-III) und PSI (entspricht dem Index
VG des HAWIK-IV). Die Untertests zeigen nur geringfügig niedrigere Zusammenhänge auf. All-
gemeines Verständnis erweist sich als Untertest mit den niedrigsten Korrelationen (r = .62),
während das Allgemeine Wissen mit r = .83 am höchsten korreliert. Insgesamt erweisen sich
die Indexwerte der WISC-III als höher als die entsprechenden Indexwerte der WISC-IV.
5.1.4 Korrelationsstudien zum HAWIK-IV
Für die Vergleichsstudie zwischen HAWIK-IV und seinem Vorgänger, dem HAWIK-III, wurden
100 Kinder und Jugendliche in ausbalancierter Reihenfolge mit beiden Testverfahren unter-
sucht (Petermann & Petermann, 2008a). Der Abstand zwischen beiden Testungen betrug im
Mittel 35 Tage. Die Korrelationen wurden getrennt, in Abhängigkeit von der Reihenfolge der
Testvorgabe, angegeben. Bei den 54 Kindern und Jugendlichen, die den HAWIK-IV zuerst
durchführten zeigte sich eine Korrelation in den Gesamt-IQ beider Testversionen von r = .73.
Im Vergleich der zusammengesetzten IQ-Werte mit den entsprechenden Indizes sowie der
Indizes untereinander ergaben sich Korrelationen zwischen r = .50 und .97. und auf Untertest-
ebene zwischen r = .34 und .79. Die 46 Kinder und Jugendlichen, die zuerst den HAWIK-III vor-
gelegt bekamen, wiesen in den Gesamt-IQ einen Zusammenhang von r = .63 und in den zu-
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 87
sammengesetzten IQ-Werten und den Indizes von r = .35 bis .80 auf. Auf Ebene der Untertests
zeigten sich Korrelationen zwischen r = .43 und .72.
Tabelle 5.1 stellt eine Übersicht über die bisherigen Korrelationsstudien zu HAWIK- bzw. WISC-
Versionen dar.
Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen
WISC-R vs.
WISC-III
HAWIK-R vs.
HAWIK-III
WISC-III vs.
WISC-IV
HAWIK-III vs.
HAWIK-IV Untertest oder Index
US/UK unkorr. (korr.) unkorr. (korr.) HAWIK-IV
zuerst HAWIK-III
zuerst r r r r r MT .76 .81 (.84) .77 (.77) .61 .54 GF .74 .48 (.58) .75 (.76) .60 .43 ZN .71 .78 (.81) .79 (.77) .72 .59 ZST .70 .77 (.77) .77 (.76) .72 .72 WT .77 .77 (.88) .78 (.82) .60 .65 AV .67 .44 (.78) .60 (.62) .61 .58 SS/SYS .68 (.67) .34 .57 BE .57 .41 (.65) .62 (.64) .63 .65 AW .80 .64 (.83) .82 (.83) .79 .67 RD .67 .63 (.69) .74 (.74) .72 .52 BO .42 .47 (.47) FL .58 .52 (.73) V-IQ/V-IQ o. SV .90/.88 .80 (.88) .83 (.87) .97 .79 H-IQ/H-IQ o. WLD .61/.79 .81 (.87) .73 (.74) .50 .35 SV/SV .85 (.88) .75 .80 WO/WLD .70 (.72) .53 .37 UA/AGD .74 (.72) .72 .52 AG/VG .81 (.81) .68 .73 Gesamt .89/.88 .88 (.92) .87 (.89) .73 .63
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
5.1.5 Korrelationsstudien mit anderen Testverfahren
Die Korrelationen zwischen WISC-IV und der Vorschulversion WPPSI-III wurden an 182 sechs-
und siebenjährigen Kindern berechnet (Wechsler, 2003b). Der Gesamt-IQ korrelierte mit
r = .89 (korrigiert). Auf Index-Ebene zeigten sich mit r = .83 die höchsten korrigierten Korrela-
tionen im Vergleich Verbalteil und SV und mit r = .65 die niedrigsten im Vergleich der VG-
Indizes. In den Indizes und dem Gesamt-IQ lagen die Standarddifferenzen (siehe Kapitel
7.5.3.1) zwischen .02 und .10. Auf Untertestebene ergaben sich korrigierte Korrelationen zwi-
schen r = .44 (Bildkonzepte) und .74 (Allgemeines Wissen). Die Standarddifferenzen lagen zwi-
schen .00 (Allgemeines Verständnis) und .29 (Zahlen-Symbol-Test).
Zur Berechnung der Korrelationen zwischen WISC-IV und der Erwachsenenversion WAIS-III
wurden 198 Kinder im Alter von 16 Jahren untersucht (Wechsler, 2003b). Während der Korre-
lationskoeffizient des Gesamt-IQ bei r = .89 lag, erreichten die Indizes Korrelationen von r = .73
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 88
(WLD und WO) bis .86 (SV und Verbalteil). Im Hinblick auf die Untertests ergaben sich für die
Symbol-Suche mit r = .56 die niedrigsten und für den Wortschatz-Test mit r = .83 die höchsten
Korrelationen.
Die Korrelationsstudie zwischen WISC-IV und KABC-II wurde an 56 Kindern im Alter von 7 bis
16 Jahren durchgeführt (Kaufman & Kaufman, 2004). Der Gesamt-IQ der WISC-IV korrelierte
dabei hoch mit beiden Gesamtwerten der KABC-II (r = .88 mit dem Mental Processing Index
(MPI) und r = .89 mit dem Fluid-Crystallized Index (FCI) sowie r = .79 mit dem Nonverbal Index
(NVI)). Auf Index-Ebene wies SV mit dem entsprechenden Index Knowledge/Gc mit r = .85 den
höchsten Zusammenhang auf. WLD korrelierte am höchsten mit den entsprechenden Indizes
Planning/Gf und Simultaneous/Gv der KABC-II (r = .69 und .66), AGD mit r = .71 mit dem Index
Sequential/Gsm, der ebenfalls die Leistung des Kurzzeitgedächtnisses erheben soll. VG korre-
lierte mit keinem der KABC-II-Indizes sehr hoch und auch die Korrelationen zu den Gesamtwer-
ten der KABC-II waren mit r = .59 bis .64 die niedrigsten aller vier Indizes.
In einer größer angelegten Studie wurden KABC-II und WISC-III anhand von 119 Kindern im
Alter von 8 bis 13 Jahren verglichen (Kaufman & Kaufman, 2004). Es ergaben sich auf Ebene
der Gesamtwerte niedrigere Zusammenhänge als zwischen K-ABC-II und WISC-IV (zwischen
r = .71 und .77). Verbal-IQ und SV korrelierten hoch mit dem entsprechenden Index Know-
ledge/Gc (r = .82), Handlungs-IQ und WO dagegen relativ niedrig mit dem entsprechenden
Index Simultaneous/Gv (r = .61 und .62). Anders als bei der WISC-IV korrelierten Handlungs-IQ
und WO nur recht niedrig mit dem Index Planning/Gf (r = .54 und .56), was dafür spricht, dass
der Handlungsteil des HAWIK-III eher visuelle Verarbeitung als fluides Denken misst (siehe
Kapitel 3.3.1 sowie Flanagan et al., 2000). UA und AG wiesen niedrige bis moderate Korrelatio-
nen zu den KABC-II-Indizes auf (zwischen r = .13 und .58).
5.2 Störeinflüsse Viele Aspekte können ursächlich dafür sein, dass ein Individuum bei demselben oder einem
ähnlichen Test an zwei Messzeitpunkten deutlich voneinander abweichende Ergebnisse erzielt.
Dies können sowohl intraindividuelle und interpersonale als auch im umweltbezogene und
psychometrische Gründe sein (Bracken, 1992). Während vor allem umweltbezogene und
interpersonale Störeinflüsse relativ gut ausgeschlossen werden können, indem beispielsweise
beide Testungen im selben Raum stattfinden und vom selben Testleiter durchgeführt werden,
ist es kaum möglich, sämtliche psychometrischen Einschränkungen zu vermeiden. Diese Fakto-
ren haben Einfluss auf den Validitätskoeffizienten und können zu unterschiedlichen Ergebnis-
sen in zwei eigentlich ähnlichen Instrumenten führen. Teilweise interagieren sie zusätzlich
miteinander. Einige dieser Faktoren sind nach Wechsler (2003b)
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 89
das Zeitintervall zwischen den Testungen,
entwicklungsbedingte Veränderungen und Lernzuwächse während des Zeitintervalls,
strukturelle Unterschiede zwischen den Tests,
Regression zur Mitte von der ersten zur zweiten Testung,
die Reliabilitäten beider Tests,
Erinnerung an die erste Testdurchführung,
unterschiedliches prozedurales Lernen und Übung,
das Motivationslevel des Kindes sowie
der Flynn-Effekt.
Zhu und Weiss (2000) bezeichnen Faktoren wie Übung, Erlernen der Prozeduren und Bekannt-
heit mit der Testsituation als „carry-over“-Effekte. Im Folgenden werden diese Faktoren sowie
die Erinnerung an die erste Testdurchführung zusammenfassend als Lerneffekt bezeichnet und
ausführlich behandelt.
Ergänzend zu den oben genannten Störeinflüssen ging Bracken (1988) auch bei folgenden Fak-
toren davon aus, dass sie bei ähnlichen Tests zu unterschiedlichen Ergebnissen beitragen kön-
nen:
Boden- und Deckeneffekte (siehe Kapitel 4.4.5),
Itemgefälle,
Unterschiede in den Normtabellen,
Untersuchung unterschiedlicher Fähigkeiten durch die Untertests (siehe Kapitel 4.2 und 4.3),
inhaltliche Unterschiede der Tests (siehe Kapitel 4.2 und 4.3) sowie
Repräsentativität der Normstichprobe (siehe Kapitel 4.4.4).
Diese Einflüsse und ihre Interaktionen miteinander müssen bei der Interpretation der Ergeb-
nisse berücksichtigt werden.
Viele dieser Faktoren sind in dieser Studie nicht kontrollierbar. Dazu gehört das Motivationsle-
vel des Kindes ebenso wie entwicklungsbedingte Veränderungen und Lernzuwächse. Letztere
können jedoch zumindest für das kurze Intervall ausgeschlossen werden. Der Einfluss unter-
schiedlicher Normtabellen (dies wäre beispielsweise der Fall, wenn bei den Testversionen un-
terschiedliche Altersspannen in den Normtabellen zusammengefasst wären) auf die Vergleich-
barkeit beider Testversionen kann ebenfalls ausgeschlossen werden, da sich die Struktur der
Normtabellen von HAWIK-III und -IV nicht unterscheidet. Die Normstichprobe kann für beide
Testversionen als gleich repräsentativ angenommen werden.
Das Itemgefälle eines Tests gibt an, wie steil die Items hinsichtlich des Schwierigkeitsniveaus
und der Distanz zwischen den Standardwerten festgelegt wurden (Bracken, 1992). Bei zu stei-
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 90
lem Verlauf würde beispielsweise ein erzielter Rohwertpunkt mehr oder weniger entscheiden,
ob ein Kind als minder- oder hochbegabt diagnostiziert wird. In diesem Fall wäre eine Interpre-
tation des Testergebnissen ausgesprochen fragwürdig. In dieser Studie wird von einem ähnli-
chen Itemgefälle beider Testversionen ausgegangen, so dass sich darauf keine Unterschiede
zwischen den Ergebnissen im HAWIK-III und -IV begründen lassen.
Auf das Zeitintervall wird aufgrund des in zwei Abstände unterteilten Untersuchungsdesigns an
diversen Stellen eingegangen. Ausführliche Angaben zu strukturellen und inhaltlichen Unter-
schieden zwischen beiden Testversionen sowie Boden- und Deckeneffekten wurden bereits in
Kapitel 4 aufgeführt. Auch die unterschiedlichen Fähigkeiten, die von den Untertests und Indi-
zes des HAWIK-III und -IV erfasst werden sollen sowie unterschiedliche Reliabilitäten beeinflus-
sen die Vergleichbarkeit beider Testversionen. Sie wurden deshalb im Kapitel 4 gesondert be-
trachtet. In diesem Kapitel soll daher auf folgende der oben aufgeführten Störeinflüsse einge-
gangen werden: den Lerneffekt und den Flynn-Effekt.
5.2.1 Lerneffekt
Einen möglichen Störeinfluss auf den Vergleich zwischen HAWIK-III und -IV stellt der Lerneffekt
dar. Besonders bei den Kindern und Jugendlichen, die mit einem Abstand von einem Monat
mit beiden Testverfahren getestet wurden, kann es aufgrund von Lernerfahrungen und Erinne-
rung zu höheren Werten in der zweiten Testung kommen. Der Lerneffekt entsteht nach Kauf-
man (1994b) durch die Erfahrung, die eine Person durch die erste Testdurchführung gemacht
hat, und geht nicht auf das Feedback des Testleiters oder Weiterentwicklungen der Fähigkei-
ten des Kindes zurück. Er ist vielmehr ein Aspekt des Messinstruments an sich, eine Art syste-
matischer, eingebauter Fehler, der mit den spezifischen Fähigkeiten, die vom Test gemessen
werden, assoziiert ist. Es gibt einige Faktoren, die zum Lerneffekt beitragen. Dazu gehören die
Vertrautheit mit Aufgaben, wie sie in Intelligenztestverfahren vorkommen, die Erfahrung mit
der Lösung solcher Aufgaben und die Entwicklung von Strategien zur Lösung dieser Art von
Problemen (Kaufman, 1994b).
Der Lerneffekt gehört zu den psychometrischen Eigenschaften eines Testverfahrens und sollte
als spezifischer Aspekt der Reliabilität verstanden werden. Obwohl er ausgiebig untersucht und
nachgewiesen werden konnte, wird er nach Kaufman und Lichtenberger (2006) von vielen
Untersuchern bei der Interpretation von Testprofilen unberücksichtigt gelassen. Je länger der
Abstand zwischen beiden Messzeitpunkten ist, desto geringer zeigt sich der Einfluss des Lern-
effekts. Nach langen Intervallen fließen eher andere Störvariablen wie die Zu- oder Abnahme
der erfassten Fähigkeiten in das Ergebnis ein (Kaufman, 1994b). Aus diesem Grund wurde der
Lerneffekt zumeist an kurzen Intervallen untersucht.
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 91
Für die WISC-IV wurde an 243 Kindern und Jugendlichen ein möglicher Lerneffekt untersucht.
Das Re-Testintervall lag dabei zwischen 13 und 63 Tagen mit einem durchschnittlichen Abstand
von 32 Tagen (Wechsler, 2003b).
Die folgende Tabelle 5.2 zeigt den Lerneffekt in den Index- und IQ-Werten, sowohl für alle Kin-
der als auch unterteilt in drei Altersgruppen.
Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert nach Wechsler, 2003b, S. 40ff)
Index Alter 6-7 Alter 8-11 Alter 12-16 Gesamt SV +3.4 (.31 SD) +2.2 (.20 SD) +1.7 (.14 SD) +2.1 (.18 SD) WLD +6.4 (.46 SD) +4.2 (.34 SD) +5.4 (.38 SD) +5.2 (.39 SD) AGD +4.7 (.33 SD) +2.8 (.22 SD) +1.6 (.12 SD) +2.6 (.20 SD) VG +10.9 (.72 SD) +8.2 (.60 SD) +4.7 (.35 SD) +7.1 (.51 SD) Gesamt-IQ +8.3 (.62 SD) +5.8 (.53 SD) +3.4 (.34 SD) +5.6 (.46 SD)
Anmerkungen: SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.
Wie die Tabelle 5.2 zeigt, wiesen die Kinder im Alter von sechs bis sieben Jahren die größten
Lerneffekte auf und diese nahmen im Altersverlauf ab. Dies zeigte sich vor allem im Gesamt-
IQ, aber auch in den Indizes mit Ausnahme des WLD. Obwohl der Lerneffekt bei der VG in der
Gruppe der sechs- bis siebenjährigen Kinder mit 10.9 Punkten Zuwachs am höchsten ausfiel,
zeigten sich keinerlei Lerneffekte im optionalen Untertest Durchstreich-Test. Rechnerisches
Denken und Buchstaben-Zahlen-Folgen, beides Untertests des Index AGD, wiesen in der jüngs-
ten Altersgruppe deutliche, in den anderen Altersgruppen jedoch kaum Lerneffekte auf.
Auf Untertestebene wies Bilder ergänzen den größten Lerneffekt auf, gefolgt von den zwei
anderen Untertests des WLD, Bildkonzepte und Mosaik-Test. Tabelle 5.3 zeigt die Untertests
mit relativ großem Ein-Monats-Lerneffekt separat für die drei Altersgruppen.
Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgrup-pen (modifiziert nach Wechsler, 2003b, S. 40ff)
Alter 6-7 Alter 8-11 Alter 12-16 ZST (+0.65 SD) BE (+0.68 SD) BE (+0.58 SD) SYS (+0.62 SD) SYS (+0.52 SD) DT (+0.44 SD) BE (+0.58 SD) BK (+0.52 SD) ZST (+0.40 SD) RD (+0.57 SD) DT (+0.47 SD) MT (+0.40 SD) BK (+0.50 SD) MT (+0.40 SD) BK (+0.35 SD) MT (+0.45 SD) GF (+0.45 SD)
BEN (+0.42 SD) BZF (+0.39 SD)
Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Relativ große Lerneffekte sind hier die Untertests mit einer Standardabweichung von mindestens 0.33 (dies entspricht ungefähr einer Steigerung um einen Wertpunkt, abhängig von der genauen Standardabweichung in jedem Al-ter).
Eine Studie zur WISC-III an 51 Kindern und Jugendlichen im Alter von 11 bis 14 Jahren brachte
bei einem Test-Retest-Intervall zwischen 11 und 19 Tagen mit einem Mittelwert von 13 Tagen
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 92
im Handlungsteil Zuwächse von durchschnittlich 13.78 IQ-Punkten hervor (Siders, Kaufman &
Reynolds, 2006). Dies ähnelt den Ergebnissen, die im Testmanual der WISC-III angegeben sind
(Wechsler, 1991, Tabellen 5.3 bis 5.5). Dort erzielten 353 Kinder der Altersgruppen 6 bis 7, 10
bis 11 und 14 bis 15 nach einem Abstand von 12 bis 63 Tagen (Mittelwert 23 Tage) bei der
zweiten Testung zwischen 11.5 und 13.0 Handlungs-IQ-Punkte mehr. Für den Verbal-IQ lag der
Anstieg nur zwischen 1.7 und 3.3 Punkten, im Gesamt-IQ schwankte die Differenz zwischen
beiden Testzeitpunkten zwischen sieben und acht IQ-Punkten. Für Kamphaus (2005) scheint
demnach ein Zugewinn von zwei oder drei Punkten im Verbalteil ein typischer Lerneffekt nach
einer kurzen Zeitspanne zu sein, während im Handlungsteil die Vertrautheit mit den Untertests
durchschnittlich eine weitaus höhere Ergebnissteigerung zur Folge hat. Dies liegt nach Kauf-
man und Lichtenberger (2006) auch an den niedrigeren Reliabilitäten der Untertests des Hand-
lungsteils, da mit geringerer Stabilität und größerem Messfehler deutlichere Änderungen zwi-
schen Test und Re-Test einhergehen.
Für den hohen Lerneffekt im Handlungsteil waren in der Studie zur WISC-III vor allem die Un-
tertests Zahlen-Symbol-Test und Bilderordnen ursächlich (Wechsler, 1991). Hier steigerte sich
der erreichte Wert um bis zu einer Standardabweichung. Ein hoher Lerneffekt im Zahlen-
Symbol-Test zeigte sich auch in der Studie zur WISC-IV, zumindest in der jüngsten und ältesten
Altersgruppe (siehe Tabelle 5.3). Einen ähnlich hohen Anstieg wie im Handlungsteil verzeichne-
ten auf Index-Ebene nur die beiden Indizes WO und AG (Zuwächse von 9 bis 11 Punkten), was
darauf zurückgeführt werden kann, dass der Handlungsteil größtenteils aus den Untertests
dieser beiden Indizes besteht.
Auch in älteren Studien konnten große Lerneffekte nachgewiesen werden, vor allem nach kur-
zen Re-Testintervallen. Im Gegensatz zu bisher genannten Studien zeigten sich bei einer Unter-
suchung mit der WAIS deutlich größere Lerneffekte im Verbal- als im Handlungsteil (11.4 ge-
genüber 4.7) (Catron & Thompson, 1979). Matarazzo, R. G., Wiens, Matarazzo, J. D. und Ma-
naugh (1973) fanden bei 29 Personen nach einem Intervall von 14 bis 22 Wochen einen durch-
schnittlichen Leistungszugewinn von 5.5 Gesamt-IQ-Punkten (Verbal-IQ 5.6 und Handlungs-IQ
4.9). Eine der ersten Studien zu Lerneffekten bei der WISC zeigte nach einem Drei-Monats-
Intervall einen Gesamt-IQ-Zuwachs zwischen 4.3 und 8.1 Punkten, je nach Alter des Kindes
(Quereshi, 1968). Außerdem ergaben sich deutlich größere Lerneffekte im Handlungs- als im
Verbalteil. Im Allgemeinen Verständnis ließ sich, außer bei den jüngsten Kindern, sogar keiner-
lei Unterschied feststellen.
In einer Studie zur WAIS-R wurde an 52 16-Jährigen der Unterschied im IQ-Anstieg zwischen
einer Re-Testung nach drei Monaten und einer Re-Testung nach 18 Monaten untersucht
(Thompson & Molly, 1993). Es zeigten sich deutlich höhere Anstiege bei den Jugendlichen, die
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 93
erst nach 18 Monaten zum zweiten Mal getestet wurden (Gesamt-IQ: 10.4, Verbal-IQ: 7.3,
Handlungs-IQ: 12.2 gegenüber 7.0, 3.6 und 10.7 im kurzen Intervall). Da nach Thompson und
Molly der Lerneffekt mit größerem Abstand immer geringer wird, führen sie den größeren
Anstieg nicht auf Lerneffekte, sondern auf Reifungsprozesse und Bildungszuwachs der 16-
Jährigen zurück. Das wurde insbesondere im Allgemeinen Verständnis deutlich, in dem die
Jugendlichen, die nach dem längeren Abstand noch einmal getestet wurden, einen größeren
Zuwachs verzeichneten als die Jugendlichen mit dem kürzeren Intervall. Da sich das Allgemeine
Verständnis (ähnlich wie die anderen verbalen Untertests) als relativ unberührt von Lerneffek-
ten erweist (siehe Quereshi, 1968), muss dieser Anstieg auf diese anderen Effekte zurückzu-
führen sein.
In Studien zur Untersuchung der Stabilität von WISC-III-Profilen ergaben sich bei einem Re-
Testintervall von im Durchschnitt drei Jahren keinerlei nennenswerte Wertpunkt- und IQ-
Wertanstiege (Borsuk, Watkins & Canivez, 2006; Canivez & Watkins, 1999).
Unter Berücksichtigung mehrerer Studien zum Lerneffekt bei den Wechsler-Skalen zeigte sich
im Gesamt-IQ ein Zuwachs von ungefähr sieben Punkten, dabei fiel dieser bei jüngeren etwas
geringer aus als bei älteren Kindern (Kaufman, 1994b). Im Handlungsteil ergaben sich durch-
schnittlich neun Punkte Zuwachs, im Verbalteil nur drei Punkte. Genau wie der Gesamt-IQ hat-
te auch der Handlungsteil einen geringeren Lerneffekt bei den jüngeren Kindern zu verzeich-
nen, im Verbalteil war dies jedoch nicht der Fall.
Auf Basis der oben beschriebenen Studien mit den Wechsler-Skalen kann mithin bei den Hand-
lungsskalen erst nach einem Intervall von ein bis zwei Jahren von keinerlei Lerneffekt ausge-
gangen werden. Für die sprachlichen Untertests gilt dies ab ungefähr einem Jahr (Canivez &
Watkins, 1999; McCaffrey, Duff & Westervelt, 2000; Wechsler, 2003b).
Nach Kaufman und Lichtenberger (2006) lassen sich Lerneffekte besonders in den Untertests
nachweisen, die unabhängig von den schulischen Aufgaben des Kindes sind und demnach
neue, bisher unbekannte Aufgaben darstellen. So ergaben sich im Verbalteil der Wechsler-
Versionen mit dichotomer Unterteilung in Verbal- und Handlungsteil die höchsten Zuwächse in
den Untertests Gemeinsamkeiten finden und Zahlen nachsprechen, da diese Art von Aufgaben
im schulischen Setting weniger gefragt sind. Die Untertests Wortschatz-Test, Rechnerisches
Denken und Allgemeines Verständnis - alles Untertests, die im schulischen Alltag der Kinder
eine große Rolle spielen - wiesen währenddessen durchweg den geringsten Lerneffekt auf.
Dies erklärt auch die deutlich höheren Lerneffekte im Handlungsteil, der Aufgaben beinhaltet,
die dem Kind aus dem schulischen Setting nicht vertraut sind. Durch die erste Vorgabe der
Aufgaben wurden sie dem Kind bekannt und es erinnert sich an die Lösungsstrategien, die
beim ersten Test am besten funktioniert haben. Auch wenn zum zweiten Testzeitpunkt nicht
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 94
unbedingt mehr Aufgaben zu lösen sind, so wird für die gelösten Aufgaben oftmals weniger
Zeit benötigt, was angesichts der Vergabe von Zeitbonuspunkten gerade in den Untertests des
Handlungsteils schon zu einem besseren Ergebnis führt.
Zur Berücksichtigung des Lerneffekts in der vorliegenden Studie wurde den Kindern der HA-
WIK-III und der HAWIK-IV in ausbalancierter Reihenfolge vorgegeben (siehe Kapitel 7.2). Den-
noch soll überprüft werden, als wie hoch sich der Lerneffekt in dieser Studie erweist. Anders
als in den oben genannten Studien handelt es sich dabei jedoch um unterschiedliche Testver-
sionen. Somit können neben einem Lerneffekt auch die Veränderungen in den Untertests und
Indizes Einfluss auf die Zuwächse oder Abnahmen haben.
5.2.2 Flynn-Effekt
Der nach dem neuseeländischen Politologen James R. Flynn benannte Flynn-Effekt besagt, dass
Testleistungen in Form einer säkularen Akzeleration über die Jahre hinweg zunehmen (Flynn,
2007; Lynn & Harvey, 2008; Teasdale & Owen, 2008). Das kann bei der Verwendung veralteter
Testnormen bei Intelligenzmessungen zu überhöhten Werten führen (Flynn, 1984, 1999, 2007)
und somit können Entwicklungsbeeinträchtigungen deutlich unterschätzt werden (Wolke &
Söhne, 1997). Dieser Effekt ist insbesondere bei jüngeren Kindern zu beobachten (Kanaya, Ceci
& Scullin, 2005). Aus diesem Grund haben Normen von Intelligenztests spätestens nach 15
Jahren ihre Gültigkeit verloren und sollten durch neue Vergleichswerte ersetzt werden.
Der Flynn-Effekt betrifft eher Tests, die die fluide Intelligenz erfassen (Flynn, 1999, 2007). So
zeigt sich bei Testverfahren wie den Raven-Matrizen ein Leistungsanstieg von bis zu sieben IQ-
Punkten pro Dekade, während der verbale IQ eines Menschen innerhalb von zehn Jahren
durchschnittlich nur um etwa einen halben Punkt ansteigt (Flynn, 2007). Der durchschnittliche
Zugewinn liegt bei circa drei IQ-Punkten pro Jahrzehnt, was seit 1950 mehr als 15 Punkten
(und damit einer Standardabweichung) entspricht. In Deutschland und anderen westlichen
Nationen konnte sogar ein Flynn-Effekt von durchschnittlich fünf IQ-Punkten pro Jahrzehnt
aufgezeigt werden (Kaufman & Lichtenberger, 2006). Gründe dafür können nach Neisser et al.
(1996) Umgebungseinflüsse wie verbesserte Ernährung, kulturelle Änderungen, Erfahrung mit
Tests sowie Veränderungen des Lernverhaltens der Kinder und Erziehungsverhaltens der Eltern
sein. Neueste Studien sehen die Ursache der Leistungssteigerung einzig in der verbesserten
prä- und frühen postnatalen Ernährung (Lynn, 2009). Andere gehen eher von einer verbesser-
ten Förderung sozial benachteiligter Gruppen als Ursache für den Flynn-Effekt aus (Strauss et
al., 2000).
Auch anhand der Wechsler-Skalen wurde der Flynn-Effekt in der Vergangenheit wiederholt
untersucht (Wechsler, 1991). Dabei zeigten sich auf Untertestebene unterschiedlich steile
Wachstumskurven. Für die Untertests Rechnerisches Denken, Wortschatz-Test und Allgemeines
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 95
Wissen konnten dabei die geringsten Anstiege verzeichnet werden. Laut Flynn (2007) stiegen
die Werte von der WISC aus dem Jahre 1947 bis zur 2002 erschienenen WISC-IV im Gemein-
samkeiten finden um 24 Punkte, im Allgemeinen Verständnis nur noch um 11 Punkte, im Wort-
schatz-Test um vier Punkte und im Rechnerischen Denken und Allgemeinen Wissen nur um
zwei Punkte. Der Anstieg des Gesamt-IQ liegt nach Flynn in dieser Zeitspanne bei ungefähr 18
Punkten. Somit würden Kinder, die heutzutage mit der WISC und der WISC-IV getestet werden,
in der WISC durchschnittlich 18 IQ-Punkte mehr erhalten als in der WISC-IV.
Zwischen den verschiedenen Versionen der Wechsler-Skalen wurden insgesamt Leistungszu-
wächse von drei bis acht Punkten berichtet, was einem Anstieg von ungefähr 0.3 IQ-Punkten
pro Jahr entspricht (Strauss et al., 2000). Bei einem Vergleich der Mittelwerte von WISC-R und
-III zeigten sich etwa fünf IQ-Punkte weniger im Gesamt-IQ der WISC-III, der Verbal-IQ der
WISC-III lag etwa zwei Punkte und der Handlungs-IQ ungefähr sieben Punkte unter denen der
WISC-R. Danach dürfte beispielsweise ein Kind, das in der WISC-R einen IQ-Wert von 100 er-
reicht hat, in der WISC-III nur noch einen IQ-Wert von 94 bis 96 erreichen. Diese Diskrepanz
nimmt noch zu, je weiter der Wert vom Mittelwert (IQ-Wert 100) entfernt ist. Dabei zeigen
sich im unteren Leistungsbereich deutlich höhere Leistungszuwächse als im oberen (Teasdale
& Owen, 1989).
Die Untersuchung des Leistungsanstiegs bei Hochbegabten mit einem neu entwickelten Test-
instrument weist jedoch auch im oberen Leistungsbereich auf einen Flynn-Effekt hin (Wech-
sler, 1991, 2003b). Die als hochbegabt Identifizierten wiesen im neuen Verfahren einen Ge-
samt-IQ-Mittelwert auf, der deutlich unter der zur Diagnose von Hochbegabung festgelegten
Grenze von 130 IQ-Punkten liegt. So lag der mittlere Gesamt-IQ bei Hochbegabten in der Vali-
dierungsstudie zur WISC-III zunächst nur bei 128.7 (Wechsler, 1991) und in der Studie zur
WISC-IV sogar nur bei 123.5 IQ-Punkten (Wechsler, 2003b).
So unstrittig wie dargestellt, ist der Flynn-Effekt jedoch nicht. Einige Forscher widersprechen
seiner Existenz (Rodgers, 1998). Zumindest sind sich viele Forscher einig, dass der Flynn-Effekt
nachgelassen oder sich sogar umgekehrt hat. Flynns Studien basieren auf Studien bis Ende der
1980er Jahre. Neuere Studien in Skandinavien zeigen eine Stagnation der Intelligenzleistung in
den Industrienationen in den 1990er Jahren und seitdem sogar eine Abnahme, besonders hin-
sichtlich der fluiden Intelligenz (Sundet, Barlaug & Torjussen, 2004; Teasdale & Owen, 2008).
Teasdale, der die Ursache für den Flynn-Effekt in Dänemark in Schulreformen in den 1950er
und 1960er Jahren sieht, führt die Stagnation auf fehlende Verbesserungen im Schulsystem
seit den 1970er Jahren zurück. Flynn selbst erklärt sich den Rückgang mit dem Wohlstand in
den Industrienationen, der zu einer Dekadenz geführt habe (Channel Wissenschaft, 2006). Der
deutsche Intelligenzforscher Lehrl sieht den Rückgang durch die schlechteren Ergebnisse im
PISA-Test 2003 gegenüber denen des PISA-Tests von 2000 bestätigt (Prenzel et al., 2004), führt
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 96
ihn jedoch eher auf die Überforderung der modernen Gesellschaft an den Konsumenten zu-
rück, der sich in weniger anspruchsvolle Alternativangebote flüchte und somit sein Gehirn
weniger fordere. Außerdem hält er die Menschen heute für passiver, sie würden Informatio-
nen nicht mehr überdenken, sondern sich nur noch von ihnen berieseln lassen (Donner, 2006).
Die vorliegende Studie kann dazu dienen, Hinweise darauf zu geben, inwiefern sich der Flynn-
Effekt auch noch innerhalb der vergangenen Dekade zeigt oder ob tatsächlich von einer Stag-
nation oder sogar einer Umkehr ausgegangen werden kann.
Eine Möglichkeit, die Testleistung aus zwei Versionen gleichzusetzen, wäre, die mittleren Diffe-
renzen beider Tests voneinander abzuziehen (Russell, 1992). Dieses Verfahren ist jedoch
durchaus problematisch, da die Höhe der Abweichungen stark variieren kann. So zeigte sich in
einer Studie an Kindern mit Lernbehinderung ein IQ-Abfall zwischen WISC-R und WISC-III von
1.35 Punkten, während er bei hochbegabten Kindern bei 18.09 IQ-Punkten lag (Strauss et al.,
2000).
Aus diesem Grund soll in dieser Studie der Flynn-Effekt gesondert für die Kinder und Jugendli-
chen betrachtet werden, die Leistungen in den IQ-Randbereichen zeigten.
5.3 Grenzen der Intelligenzdiagnostik Wie in Kapitel 2.1 ausgeführt handelt es sich bei der Intelligenz um ein schwer greifbares und
sensibles Konstrukt. Im Hinblick auf die Diagnostik von Intelligenz können demnach neben den
mangelhaften Gütekriterien weitere Aspekte die Aussagekraft von Intelligenztests einschrän-
ken. So lassen Intelligenztests lediglich Aussagen über den aktuellen Leistungs- und Entwick-
lungsstand in Form einer Statusdiagnostik zu (Holling et al., 2004). Das Ergebnis hängt dem-
nach teilweise stark von der Tagesform der Person ab und kann zu unterschiedlichen Zeitpunk-
ten zu stark abweichenden Ergebnissen führen. Außerdem wird die Intelligenz besonders im
frühen Lebensalter als relativ instabil angesehen (Braaten & Norman, 2006). Daher gelten In-
telligenzbefunde von Kindergartenkindern allgemein als schwache Prädiktoren für die Vorher-
sage zukünftiger Schulleistungen (O`Shea, Harel & Fein, 2002). Gerade bei jungen Kindern be-
einflussen Störvariablen wie die Person des Untersuchers, die Tagesform oder Änderungen in
der Persönlichkeit des Kindes (z. B. Ablegung kindlicher Schüchternheit oder Unsicherheit) die
Testleistung. Somit sollten Testergebnisse aufgrund der hohen Variabilität im Rahmen der
normalen Entwicklung in den Jahren vor der Einschulung nur mit großer Vorsicht interpretiert
werden (Daseking et al., 2006).
Störvariablen und andere Einflüsse (siehe Kapitel 5.2) können bei jedem Testergebnis zu Mess-
fehlern führen. Daher kann das Ergebnis nur als Annäherung an den wahren Wert gesehen
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 97
werden. Um dem entgegenzuwirken, werden Testergebnissen zusätzlich Konfidenz- bzw. Ver-
trauensintervalle zugeordnet.
Intelligenztests bilden nur den Ausschnitt der Intelligenz ab, der der Intelligenzdefinition ent-
spricht, auf dessen Grundlage der Test entwickelt wurde. Daher korrelieren unterschiedliche
Intelligenztests nicht perfekt miteinander. Somit kann ein Mensch in verschiedenen Tests und
gleichbenannten Aufgabenbereichen unterschiedliche Ergebnisse erzielen (Daniel, 1997). Au-
ßerdem gelten bisherige Intelligenztests im Allgemeinen als nicht in der Lage, einzelne kogniti-
ve Prozesse genau abzubilden, die zum Teil in Sekundenbruchteilen ablaufen, aber für höhere
kognitive Prozesse relevant sind (Vock & Holling, 2006).
Besonders wenn der Intelligenztest über sprachliches Aufgabenmaterial verfügt, können Per-
sonen aus bildungsfernen Familien, Menschen mit Migrationshintergrund oder Sprachstörun-
gen benachteiligt sein (Daseking, Lipsius et al., 2008; Gienger, Petermann & Petermann, 2008).
Zusammenfassend muss demnach festgestellt werden, dass psychometrische Testverfahren
diversen Einschränkungen unterliegen, die auch Einfluss auf die Ergebnisse dieser Studie haben
können.
Dennoch ermöglichen Intelligenztests bei Erfüllung der psychometrischen Gütekriterien objek-
tive, reliable, valide und zeitökonomische Messungen sowie die Erfassung von Fähigkeiten, die
nicht durch entsprechende Leistungen im Alltag gezeigt werden (Holling et al., 2004). Sie bie-
ten eine genauere Differenzierung intellektueller Dimensionen als andere Vorgehensweisen,
wie beispielsweise Selbst- oder Fremdeinschätzungen, Beobachtungen oder schulische Leis-
tungsdaten. Außerdem machen die durch eine Normierung errechneten Zahlenwerte einen
intra- und interindividuellen Vergleich der Ausprägung kognitiver Fähigkeiten möglich.
5.4 Zusammenfassung Einige Aspekte müssen bei dem Vergleich zweier Versionen eines Testverfahrens berücksich-
tigt werden. Korrelationsstudien zwischen Wechsler-Versionen oder zwischen Wechsler-Tests
und anderen Intelligenztestverfahren geben Hinweise auf die zu erwartende Höhe der Korrela-
tionen zwischen den Ergebnissen der beiden hier gegenständlichen Testversionen HAWIK-III
und -IV. Innerhalb der Wechsler-Versionen ergaben sich auf Index- und Gesamt-IQ-Ebene Kor-
relationen zwischen r = .61 und .92. Der Untertestvergleich wies Korrelationen zwischen r = .42
und .88 auf. Demnach können für den Vergleich zwischen den Ergebnissen des HAWIK-III und -
IV ähnlich hohe Korrelationen erwartet werden.
In einer Validierungsstudie müssen verschiedene Störvariablen berücksichtigt werden. Dazu
gehören Lerneffekte, also die Erinnerung an die erste Testdurchführung. Außerdem besagt der
Kapitel 5 Methodische Aspekte bei Vergleichsstudien 98
Flynn-Effekt, dass das Erhalten eines bestimmten IQ in aktuellen Testversionen mehr Leistung
erfordert als in älteren Versionen, da davon ausgegangen wird, dass der IQ in den vergangenen
Jahrzehnten kontinuierlich gestiegen ist.
Die Intelligenzdiagnostik unterliegt bestimmten Einschränkungen und Grenzen, die sich durch
Störeinflüsse, kulturelle Verzerrungen oder Instabilität der Ergebnisse ergeben können und
auch in dieser Studie zum Tragen kommen.
Kapitel 6 Ableitung der Fragestellung und Hypothesen 99
6 Ableitung der Fragestellung und Hypothesen
Allgemeines Verständnis, Frage 4: „Was sollst du machen, wenn du siehst, dass dicke
Rauchwolken aus dem Fenster des Nachbarhauses kommen?“
Marian, 6 Jahre: „Husten.“
In den vorherigen Kapiteln wurden die zu untersuchenden Messinstrumente HAWIK-III und -IV
vorgestellt, ihr theoretischer Hintergrund beleuchtet und Überlegungen dazu angestellt, wel-
che Störeinflüsse auf die Vergleichbarkeit von Testwerten aus beiden Testverfahren wirken
können. Dabei stellten sich diverse Aspekte heraus, die Anlass bieten, an einer uneinge-
schränkten Vergleichbarkeit beider Testversionen zu zweifeln. Zu den wichtigsten zählen
die unterschiedlichen Forschungsstände zum Zeitpunkt der Testentwicklung,
ein unterschiedliches zu Grunde gelegtes Testmodell,
Veränderungen in der Teststruktur,
Veränderungen innerhalb der Untertests,
der Wegfall alter und die Einführung neuer Untertests sowie
die unterschiedlichen Erscheinungsdaten beider Testversionen (siehe Flynn-Effekt).
Aus diesen Erkenntnissen lassen sich diverse Fragestellungen und Hypothesen zur Vergleich-
barkeit beider Testversionen ableiten. Dafür sollen zunächst mögliche Mittelwertunterschiede
untersucht werden. Außerdem soll versucht werden, die vorgegebene Faktorenstruktur beider
Testversionen zu replizieren. Zur Untersuchung der Höhe des Zusammenhangs werden an-
schließend Korrelationsanalysen durchgeführt. Schließlich soll die Teststruktur mit Hilfe von
Regressionsanalysen weitergehend untersucht werden. Ein Überblick über die Hypothesen
dieser Studie wird in Tabelle 6.1 dargestellt.
Kapitel 6 Ableitung der Fragestellung und Hypothesen 100
Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie. Hypothesen Hypothesen Fragen
6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte 6.1.1-6.1.7 1 & 2
Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.1.1 1 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.1.2-6.1.3 2 Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.1.4-6.1.7
6.2 Überprüfung der Hypothesenstruktur beider Testversionen 6.2.1-6.2.3 3 & 4
Struktur des HAWIK-III 6.2.1 3 Struktur des HAWIK-IV 6.2.2 4 Struktur beider Testversionen 6.2.3
6.3 Zusammenhangshypothesen zur Untersuchung der Korrelation 6.3.1-6.3.7 5 - 8
Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.3.1 5 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.3.2-6.3.3 6 & 7 Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.3.4-6.3.7 8
Unterschiedshypothesen zur Untersuchung des Einflusses der Testreihenfolge
6.3.8-6.3.14 9
Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.3.8 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.3.9-6.3.10 Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.3.11-6.3.14
Unterschiedshypothesen zur Untersuchung des Einflusses des Zeitintervalls
6.3.15-6.3.21 10
Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.3.15 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.3.16-6.3.17
Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.3.18-6.3.21
6.4 Zusammenhangshypothesen zur Untersuchung der Varianzauf-klärung
6.4.1-6.4.16 11 - 13
der Indizes des HAWIK-III durch die Untertests des HAWIK-III 6.4.1-6.4.4 11
der Indizes des HAWIK-III durch die Untertests des HAWIK-IV 6.4.5-6.4.14 12 der Gesamt-IQ durch die Indizes der anderen Testversion 6.4.15-6.4.16 13
6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte von HAWIK-III und -IV
Auf die Formulierung von Hypothesen für die Untertests beider Testversionen wird verzichtet,
da die Interpretation auf Untertestebene äußerst umstritten ist (siehe Kapitel 4.5.2). Dennoch
werden die Ergebnisse der Untertestvergleiche in Kapitel 8 mit angeführt und in die Diskussion
im Kapitel 9 eingebunden, da sie möglicherweise Hinweise über die Ursachen möglicher Diffe-
renzen liefern können (siehe dazu Kapitel 4.7.2).
Bei einem Vergleich eines neuen Testverfahrens mit seinem Vorgänger muss davon ausgegan-
gen werden können, dass die mit beiden Testversionen erzielten Werte (hier der IQ) sich nicht
signifikant voneinander unterscheiden. Die erste inhaltliche Fragestellung dieser Studie lautet
demnach:
Fragestellung 1: Gibt es signifikante Unterschiede zwischen dem Gesamt-IQ des HAWIK-III
und dem Gesamt-IQ des HAWIK-IV?
Kapitel 6 Ableitung der Fragestellung und Hypothesen 101
Dies führt zu folgender statistischer Hypothese:
Hypothese 6.1.1:
H0: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich nicht signifikant vom Mit-telwert des Gesamt-IQ des HAWIK-III.
H1: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich signifikant vom Mittelwert des Gesamt-IQ des HAWIK-III.
Durch den Wegfall des Verbal-und Handlungsteils haben sich neue Strukturen ergeben, die die
Frage aufwerfen, mit welchen Werten des HAWIK-IV diese Gesamtwerte verglichen werden
können. Die Autoren des WISC-IV empfehlen für den Vergleich zwischen HAWIK-III und -IV
dem Verbalteil des HAWIK-III den SV-Index des HAWIK-IV und in ähnlicher Weise dem Hand-
lungsteil des HAWIK-III den WLD-Index des HAWIK-IV gegenüberzustellen, da ihnen ähnliche
Untertests zu Grunde liegen (Wechsler, 2003a). Deshalb wird der Unterschied zwischen diesen
Werten in die vorliegende Untersuchung miteinbezogen.
Da es sich trotz teilweise drastischen Änderungen auf Index-Ebene um den gleichen Test – nur
in unterschiedlichen Versionen – handelt, soll davon ausgegangen werden, dass es in den ent-
sprechenden Indizes beider Versionen keine signifikanten Unterschiede gibt.
Dies führt zu folgender Fragestellung:
Fragestellung 2: Gibt es signifikante Unterschiede zwischen den Index- und Gesamtwerten
des HAWIK-III und denen des HAWIK-IV?
Daraus lassen sich folgende statistische Hypothesen ableiten:
Hypothese 6.1.2:
H0: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterschei-den sich nicht signifikant voneinander.
H1: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterschei-den sich signifikant voneinander.
Hypothese 6.1.3:
H0: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich signifikant voneinander.
Hypothese 6.1.4:
H0: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich nicht signifi-kant voneinander.
H1: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich signifikant voneinander.
Kapitel 6 Ableitung der Fragestellung und Hypothesen 102
Hypothese 6.1.5:
H0: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich signifikant voneinander.
Hypothese 6.1.6:
H0: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterschei-den sich nicht signifikant voneinander.
H1: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterschei-den sich signifikant voneinander.
Hypothese 6.1.7:
H0: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander.
H1: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden sich signifikant voneinander.
6.2 Hypothesen zur Faktorenstruktur des HAWIK-III und -IV Damit die vorliegende Stichprobe als repräsentativ angesehen werden kann, sollte sich die
vorgegebene Faktorenstruktur beider Testversionen auch in dieser Untersuchungsstichprobe
wiederfinden lassen. Dies soll mit Hilfe von Faktorenanalysen (ohne und mit Vorgabe der Fak-
torenanzahl) untersucht werden. Dafür lassen sich folgende Fragestellungen ableiten und Hy-
pothesen aufstellen:
Fragestellung 3: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-III in
der vorliegenden Studie replizierbar?
Hypothese 6.2.1:
Aus der exploratorischen Faktorenanalyse des HAWIK-III resultieren die vier vorgegebenen Indizes SV, WO, UA und AG.
Fragestellung 4: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in
der vorliegenden Studie replizierbar?
Hypothese 6.2.2:
Aus der exploratorischen Faktorenanalyse des HAWIK-IV resultieren die vier vorgegebenen Indizes SV, WLD, AGD und VG.
Ein Hinweis darauf, ob beide Testversionen dasselbe messen, könnte eine Faktorenanalyse
geben, in die alle Untertests des HAWIK-III und -IV einschließen. Resultieren daraus die vier
Faktoren, die der vorgegebenen Struktur beider Testversionen entsprechen, könnte dies dafür
sprechen, dass beide Tests dieselben kognitiven Konstrukte erfassen. Dies spiegelt sich in fol-
gender Hypothese wider:
Kapitel 6 Ableitung der Fragestellung und Hypothesen 103
Hypothese 6.2.3:
Eine Faktorenanalyse unter Einschluss sämtlicher Untertests weist eine Vierfaktorenstruktur auf, mit einem Faktor, der sich aus den Untertests beider SV-Indizes zusammensetzt, einem Faktor, der sich aus den Untertests der Indizes WO und WLD zusammensetzt, einem Faktor, der sich aus den Untertests der Indizes UA und AGD zusammensetzt und einem Faktor, der sich aus den Untertests der Indizes AG und VG zusammensetzt.
6.3 Hypothesen zum Zusammenhang zwischen HAWIK-III und HAWIK-IV
Bisherige Studien zum Vergleich zwischen zwei Testverfahren bzw. -versionen eines Verfahrens
ergaben hohe Zusammenhänge zwischen den entsprechenden Werten beider Verfahren bzw.
Versionen. Die Korrelationen auf Gesamt-IQ-Ebene lagen dabei zwischen r = .88 und .92. Zwar
wird in der Literatur allgemein schon eine Korrelation von r = .50 als hoher Zusammenhang
angesehen (Bortz & Döring, 2006), da es sich bei den vorliegenden Vergleichen jedoch um die
Erfassung des selben Konstrukts handelt und bisherige Studien höhere Korrelationskoeffizien-
ten aufwiesen, soll in dieser Studie auf Gesamt-IQ-Ebene von einer Korrelation von mindestens
r = .80 ausgegangen werden.
Fragestellung 5: Weisen die Gesamt-IQ beider Testversionen einen ebenso hohen Zusam-
menhang auf wie die Gesamt-IQ in vergleichbaren Studien?
Hypothese 6.3.1:
H0: Der Gesamt-IQ des HAWIK-IV korreliert mit r < .80 mit dem Gesamt-IQ des HAWIK-III.
H1: Der Gesamt-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Gesamt-IQ des HAWIK-III.
Der Vergleich der amerikanischen HAWIK-Versionen ergab zwischen Verbalteil und SV eine
Korrelation von r > .80 und zwischen dem Handlungsteil und dem WLD von r > .60. Daraus
ergeben sich folgende Fragestellungen und Hypothesen:
Fragestellung 6: Weist der Index SV des HAWIK-IV einen ebenso hohen Zusammenhang zum
Verbalteil des HAWIK-III auf wie in vergleichbaren Studien?
Hypothese 6.3.2:
H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem Verbalteil des HAWIK-III.
H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Verbalteil des HAWIK-III.
Fragestellung 7: Weist der Index WLD des HAWIK-IV einen ebenso hohen Zusammenhang
zum Handlungsteil des HAWIK-III auf wie in vergleichbaren Studien?
Hypothese 6.3.3:
H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem Handlungsteil des HAWIK-III.
H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem Handlungsteil des HAWIK-III.
Kapitel 6 Ableitung der Fragestellung und Hypothesen 104
Der Vergleich der Indizes orientiert sich ebenfalls an den Ergebnissen der Korrelationsstudie
zwischen WISC-III und -IV. Dabei lagen die Zusammenhänge der vergleichbaren Indizes zwi-
schen r = .72 und .88, auf Untertest-Ebene schwankten sie zwischen r = .62 und .83. Da sich die
Indizes SV und SV sowie AG und VG gar nicht oder nur unwesentlich voneinander unterschei-
den, wird bei ihnen von höheren Korrelationen ausgegangen als beim Indexvergleich WO mit
WLD sowie UA mit AGD, da diese Indizes sich inhaltlich deutlich voneinander unterscheiden.
Fragestellung 8: Weisen die einander theoretisch entsprechenden Indizes einen ebenso ho-
hen Zusammenhang auf wie in vergleichbaren Studien?
Es werden folgende Hypothesen aufgestellt:
Hypothese 6.3.4:
H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem SV-IQ des HAWIK-III.
H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem SV-IQ des HAWIK-III.
Hypothese 6.3.5:
H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem WO-IQ des HAWIK-III.
H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem WO-IQ des HAWIK-III.
Hypothese 6.3.6:
H0: Der AGD-IQ des HAWIK-IV korreliert mit r < .70 mit dem UA-IQ des HAWIK-III.
H1: Der AGD-IQ des HAWIK-IV korreliert mit r ≥ .70 mit dem UA-IQ des HAWIK-III.
Hypothese 6.3.7:
H0: Der VG-IQ des HAWIK-IV korreliert mit r < .80 mit dem AG-IQ des HAWIK-III.
H1: Der VG-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem AG-IQ des HAWIK-III.
6.3.1 Einfluss der Testvorgabe
Es stellt sich die Frage, ob die Korrelationen davon beeinflusst werden, welche Testversion
dem Kind zuerst vorgelegt wurde. Daraus ergibt sich folgende Fragestellung:
Fragestellung 9: Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die
Höhe der Korrelationen?
Daher sollen die Korrelationen zunächst getrennt berechnet und dann die Differenz beider
Korrelationen auf Signifikanz überprüft werden. Aus der Fragestellung lassen sich folgende
Hypothesen ableiten:
Hypothese 6.3.8:
H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist signifikant.
Kapitel 6 Ableitung der Fragestellung und Hypothesen 105
Hypothese 6.3.9:
H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvor-gabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvor-gabe ist signifikant.
Hypothese 6.3.10:
H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist signifikant.
Hypothese 6.3.11:
H0: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist signifikant.
Hypothese 6.3.12:
H0: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist signifikant.
Hypothese 6.3.13:
H0: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist signifikant.
Hypothese 6.3.14:
H0: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist nicht signifikant.
H1: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist signifikant.
6.3.2 Einfluss des Zeitintervalls
Zudem soll untersucht werden, ob ein Unterschied hinsichtlich der Höhe der Korrelationen
aufgezeigt werden kann, je nachdem, wie groß der Zeitraum zwischen beiden Testungen war.
Die darauf bezogene Fragestellung lautet wie folgt:
Fragestellung 10: Unterscheidet sich die Höhe der Korrelationen - getrennt nach der Länge
des Intervalls zwischen beiden Testungen - signifikant voneinander?
Dies soll anhand der gematchten Stichprobe untersucht werden, da diese Teilstichprobe die
gleiche Anzahl an Kindern in beiden Gruppen aufweist. Für die gematchte Stichprobe stellt sich
demnach die Frage, ob sich die Korrelationen zwischen langem und kurzem Intervall signifikant
unterscheiden. Dies wird anhand folgender Hypothesen untersucht:
Hypothese 6.3.15:
H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist signifikant.
Kapitel 6 Ableitung der Fragestellung und Hypothesen 106
Hypothese 6.3.16:
H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitinter-vall ist nicht signifikant.
H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitinter-vall ist signifikant.
Hypothese 6.3.17:
H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist signifikant.
Hypothese 6.3.18:
H0: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist signifikant.
Hypothese 6.3.19:
H0: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist signifikant.
Hypothese 6.3.20:
H0: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist signifikant.
Hypothese 6.3.21:
H0: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist nicht signifikant.
H1: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist signifikant.
6.4 Hypothesen zur Regressionsanalyse Wie in Kapitel 4.3 aufgeführt, wurde die Untertestzusammensetzung des HAWIK-IV gegenüber
der des HAWIK-III modifiziert. Untertests wie Allgemeines Wissen oder Bilder ergänzen wurden
aus dem obligatorischen Teil entfernt und sind nur noch optionale Untertests, die nicht für die
Berechnung der Indizes und des Gesamt-IQ benötigt werden. Andere Untertests wie Bilderord-
nen oder Figurenlegen wurden gänzlich aus dem Test entfernt. Es stellt sich nun die Frage, ob
diese teilweise aus theoretischen Überlegungen heraus durchgeführten Veränderungen mit
Hilfe dieser Studie auch statistisch untermauert werden können und zwar im Sinne folgender
Fragestellung:
Fragestellung 11: Haben die entfernten oder nur noch optionalen Untertests weniger zur
Varianzaufklärung des Index beigetragen als die Untertests, die zur Berechnung des Gesamt-
IQ des HAWIK-IV vorgegeben sind?
Daraus lassen sich folgende Hypothesen formulieren:
Kapitel 6 Ableitung der Fragestellung und Hypothesen 107
Hypothese 6.4.1 zum Index Sprachverständnis:
H0: Der Untertest AW6 des HAWIK-III trägt gleich viel oder mehr zur Varianzaufklärung des Index SV des HAWIK-III bei als die Untertests GF, WT und AV.
H1: Der Untertest AW des HAWIK-III trägt weniger zur Varianzaufklärung des Index SV des HA-WIK-III bei als die Untertests GF, WT und AV.
Hypothesen 6.4.2 und 6.4.3 zum Index Wahrnehmungsorganisation:
H0: Der Untertest MT des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BE, BO und FL.
H1: Der Untertest MT des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HA-WIK-III bei als die Untertests BE, BO und FL.
H0: Der Untertest BE des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BO und FL.
H1: Der Untertest BE des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HA-WIK-III bei als die Untertests BO und FL.
Hypothese 6.4.4 zum Index Unablenkbarkeit:
H0: Der Untertest ZN des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index UA des HAWIK-III bei als der Untertest RD.
H1: Der Untertest ZN des HAWIK-III trägt mehr zur Varianzaufklärung des Index UA des HAWIK-III bei als der Untertest RD.
Sollen die Ergebnisse des HAWIK-III mit denen des HAWIK-IV verglichen werden, wird davon
ausgegangen, dass den sich entsprechenden Indizes dasselbe Konstrukt zu Grunde liegt. Dem-
nach müssten die Untertests des HAWIK-IV eines Index signifikant zur Varianzaufklärung des
entsprechenden Index des HAWIK-III beitragen. Sollte dies nicht der Fall sein, kann geschluss-
folgert werden, dass beide Indizes unterschiedliche Konstrukte bzw. kognitive Fähigkeiten er-
fassen und demnach nicht unbedenklich miteinander vergleichbar sind. Die dazugehörige Fra-
gestellung lautet:
Fragestellung 12: Tragen die Untertests des HAWIK-IV eines Index signifikant zur Varianzauf-
klärung des entsprechenden Index des HAWIK-III bei?
Dabei werden die Hypothesen nur für die Untertests formuliert, die im HAWIK-IV in die Be-
rechnung der Indizes einfließen.
Hypothesen 6.4.5 bis 6.4.7 zum Index Sprachliches Verständnis des HAWIK-III
H0: Der Untertest GF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.
H1: Der Untertest GF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.
6 Aufgrund der häufigen Erwähnung der Untertestnamen in den Hypothesen werden sie an dieser Stelle abgekürzt. Die Erklärungen zu den Abkürzungen befinden sich in Anhang A5 und A6.
Kapitel 6 Ableitung der Fragestellung und Hypothesen 108
H0: Der Untertest WT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.
H1: Der Untertest WT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.
H0: Der Untertest AV des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.
H1: Der Untertest AV des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.
Hypothesen 6.4.8 bis 6.4.10 zum Index Wahrnehmungsorganisation des HAWIK-III
H0: Der Untertest MT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.
H1: Der Untertest MT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.
H0: Der Untertest BK des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.
H1: Der Untertest BK des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.
H0: Der Untertest MZ des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.
H1: Der Untertest MZ des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.
Hypothesen 6.4.11 und 6.4.12 zum Index Unablenkbarkeit des HAWIK-III
H0: Der Untertest ZN des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.
H1: Der Untertest ZN des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.
H0: Der Untertest BZF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.
H1: Der Untertest BZF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.
Hypothese 6.4.13 und 6.4.14 zum Index Arbeitsgeschwindigkeit des HAWIK-III
H0: Der Untertest ZST des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.
H1: Der Untertest ZST des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.
H0: Der Untertest SYS des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.
H1: Der Untertest SYS des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.
Mit Hilfe der Korrelation (siehe Hypothese 6.3.1) kann die Höhe des Zusammenhangs der Ge-
samt-IQ beider Testversionen festgestellt werden. Im Folgenden soll untersucht werden, mit
Kapitel 6 Ableitung der Fragestellung und Hypothesen 109
welchen Anteilen die Indizes der einen Testversion zur Varianzaufklärung des Gesamt-IQ der
anderen Testversion beitragen.
Fragestellung 13: Wie viel Varianz des Gesamt-IQ der einen Testversion klären die Indizes der
anderen Testversion auf?
Dies soll Aufschluss darüber geben, welche kognitiven Fähigkeiten der einen Testversion in der
anderen wiederzufinden sind und welche in der anderen Testversion keine signifikante Rolle
spielen.
Hypothese 6.4.15
H0: Die Indizes des HAWIK-IV tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-III bei.
H1: Die Indizes des HAWIK-IV tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HA-WIK-III bei.
Hypothese 6.4.16
H0: Die Indizes des HAWIK-III tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei.
H1: Die Indizes des HAWIK-III tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HA-WIK-IV bei.
II Empirischer Teil
Kapitel 7 Methoden und Datenanalyse 111
7 Methoden und Datenanalyse
Allgemeines Wissen, Frage 18: „Wer war Christoph Kolumbus?“
David, 11 Jahre: „Der Bruder von dem, der Amerika entdeckt hat.“
Felix, 10 Jahre: „ Der Mann, der Amerika erfunden hat.“
7.1 Studienablauf Die Erhebungen erfolgten von Juni 2006 bis Dezember 2007 in Schulen Bremens und Nieder-
sachsens. Nach der Kontaktaufnahme zu den Schulleitern oder zuständigen Lehrern wurden
die Einverständniserklärungen und Informationsblätter an die von den Lehrern per Zufallsprin-
zip ausgewählten Kinder verteilt.
Eine Testung dauerte in der Regel zwei Schulstunden (circa 90 Minuten) und fand ausnahmslos
am Vormittag statt, in den Grundschulen nur zwischen der ersten und der vierten Stunde, in
den weiterführenden Schulen innerhalb der ersten sechs Schulstunden. Als Belohnung und zur
Aufrechterhaltung der Motivation der Kinder und Jugendlichen wurde ihnen nach der Testung
ein kleines Geschenk überreicht. Die zweiten Testungen erfolgten nach gleicher Prozedur.
Die Testungen wurden größtenteils von der Verfasserin selbst durchgeführt. In Einzelfällen
kamen Studierende zum Einsatz, die vorher von der Verfasserin im Rahmen der Normierung
des HAWIK-IV intensiv geschult und supervidiert wurden und bereits eine große Anzahl an
Testdurchführungen absolviert hatten.
Die Auswertung der Testbögen erfolgte ausschließlich durch die Verfasserin. Da für den HA-
WIK-IV zum Zeitpunkt der Studie noch kein elektronisches Auswerteprogramm zur Verfügung
stand, wurden die Tests mit Hilfe der Normierungstabellen des HAWIK-IV-Manuals (Petermann
& Petermann, 2008a) per Hand ausgewertet. Die Wertpunkte und IQ-Werte wurden in eine
Microsoft Access Datenbank eingegeben und danach in SPSS überführt.
7.2 Studiendesign Aufgrund des Lerneffektes, der die Ergebnisse einer Retest-Studie beeinflussen kann, wurden
zwei unterschiedliche Intervalle zwischen erster und zweiter Testung festgelegt. So wurden
zum ersten Testzeitpunkt (t1) zunächst alle Kinder untersucht. Während der zweite Erhebungs-
zeitpunkt (t2a) für die eine Hälfte der Kinder und Jugendlichen bereits nach etwa einem Monat
erfolgte, wurde für die andere Hälfte der zweite Messzeitpunkt (t2b) nach einem Intervall von
mindestens einem halben Jahr veranschlagt (siehe Abbildung 7.1). Somit sollten zusätzlich zum
in vergleichbaren Studien üblichen Re-Testintervall von etwa einem Monat (siehe Kapitel 5.1)
Daten erhoben werden, in der von weniger Erinnerungseffekt ausgegangen werden kann. Au-
Kapitel 7 Methoden und Datenanalyse 112
ßerdem wurde ein ausbalanciertes Design festgelegt. Somit sollte einer Hälfte der Kinder und
Jugendlichen zunächst der HAWIK-III und der anderen Hälfte zunächst der HAWIK-IV vorgelegt
werden. Zur besseren Lesbarkeit sollen im Folgenden die unterschiedlichen Stichproben so
bezeichnet werden, wie es der Tabelle 7.1 zu entnehmen ist.
Tabelle 7.1: Abkürzungen der Stichproben. Stichprobe Abkürzungen Gesamtstichprobe G Gesamtstichprobe nach kurzem Intervall GK Gesamtstichprobe nach langem Intervall GL Gesamtstichprobe mit Erstvorgabe HAWIK-III G-III Gesamtstichprobe mit Erstvorgabe HAWIK-IV G-IV Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-III GK-III Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-IV GK-IV Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-III GL-III Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-IV GL-IV
Zur Vermeidung eines Einflusses des Geschlechts sollte zudem eine gleich große Anzahl Jungen
und Mädchen getestet werden.
Abbildung 7.1 veranschaulicht das Design der Studie.
Abbildung 7.1: Design der Studie. Anmerkung: * = Abkürzungen siehe Tabelle 7.1.
Um eine Gleichverteilung hinsichtlich der Testreihenfolge und des Geschlechts der Kinder und
Jugendlichen zu erreichen, wurde eine Stichprobe angestrebt wie sie Tabelle 7.2 zu entnehmen
ist.
t1 t2a t2b
HAWIK-IV
HAWIK-III
Gesamtstichprobe GK* GL*
GL-III*
GL-IV*
GK-III*
GK-IV*
HAWIK-IV
HAWIK-III
HAWIK-III
HAWIK-IV
HAWIK-III
HAWIK-IV
ca. 1 Monat
ca. 6 Monate
Kapitel 7 Methoden und Datenanalyse 113
Tabelle 7.2: Geplante Stichprobenverteilung (n=176). kurzes Intervall langes Intervall
Alter männlich weiblich männlich weiblich 6 4 4 4 4 7 4 4 4 4 8 4 4 4 4 9 4 4 4 4
10 4 4 4 4 11 4 4 4 4 12 4 4 4 4 13 4 4 4 4 14 4 4 4 4 15 4 4 4 4 16 4 4 4 4
Gesamt 44 44 44 44
7.3 Stichprobenbeschreibung Insgesamt wurden 236 Kinder mit beiden Testverfahren untersucht. Davon wurden 223 Kinder
und Jugendliche in die Untersuchung miteinbezogen, 13 Datensätze konnten auf Grund feh-
lender Werte nicht berücksichtigt werden.
7.3.1 Gesamtstichprobe
Zur weitestgehenden Vermeidung von Verzerrungen wurde auf eine möglichst repräsentative
Gestaltung der Stichprobe Wert gelegt. Tabelle 7.3 gibt die alters- und geschlechtsspezifische
Aufteilung der Stichprobe getrennt nach kurzem und langem Intervall wieder. Die Gesamt-
stichprobe bilden 108 Jungen und 115 Mädchen.
Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223). kurzes Intervall langes Intervall
Alter männlich weiblich männlich weiblich 6 4 5 4 4 7 7 5 4 5 8 5 6 5 4 9 6 4 7 2
10 3 5 4 5 11 4 4 5 4 12 4 6 4 4 13 5 5 4 7 14 6 12 4 4 15 11 7 4 3 16 4 10 4 4
Gesamt 59 69 49 46
Kapitel 7 Methoden und Datenanalyse 114
Abbildung 7.2 stellt die Stichprobenverteilung unterteilt in das Geschlecht der Kinder und Ju-
gendlichen und Abbildung 7.3 die Stichprobenverteilung unterteilt in die Länge des Intervalls
über die 11 Altersstufen hinweg graphisch dar.
Abbildung 7.2 verdeutlicht die annähernde Gleichverteilung hinsichtlich Alter und Geschlecht.
Einzig in den Altersstufen 9 und 15 überwiegt der Anteil der Jungen, während in den Altersstu-
fen 10, 12, 13, 14 und 16 die Mädchen den größeren Stichprobenanteil ausmachen.
Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen.
Der Abstand zwischen beiden Testungen wies bei 128 Kindern und Jugendlichen durchschnitt-
lich 39 Tage auf (SD = 16 Tage, Minimum 5, Maximum 104 Tage), bei 95 Kindern und Jugendli-
chen lagen durchschnittlich 8 Monate und 18 Tage (SD = 5 Monate und 12 Tage, Minimum 4,
Maximum 24 Monate) zwischen beiden Testungen.
Wie aus Abbildung 7.3 ersichtlich wird, überwiegen bei den älteren Kindern diejenigen, die
nach einem kurzen Intervall erneut getestet wurden. In den anderen Altersbereichen konnte
eine annähernde Gleichverteilung erreicht werden.
Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen.
02468
10121416
6 7 8 9 10 11 12 13 14 15 16
8
11 10
13
79 8 9 10
15
89 10 10
6
108
1012
16
10
14
männlich
weiblich
02468
1012141618
6 7 8 9 10 11 12 13 14 15 16
912 11 10
8 810 10
18 18
14
8 9 9 9 9 9 811
8 7 8kurz
lang
Kapitel 7 Methoden und Datenanalyse 115
Die Vorgabe der Testversionen erfolgte in ausbalancierter Reihenfolge. So wurde 111 Kindern
zunächst der HAWIK-III und 112 Kindern zunächst der HAWIK-IV vorgelegt. Abbildung 7.4 lässt
sich entnehmen, wie sich die Erstvorgabe in der Gesamtstichprobe über die verschiedenen
Altersstufen hinweg verteilt.
Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen.
Die Daten wurden in mehreren Schulen erhoben, in denen unterschiedliche Schulformen in-
tegriert sind. Tabelle 7.4 zeigt die Verteilung der 223 Kinder und Jugendlichen auf die von ih-
nen besuchten Schulformen.
Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp. Schultyp Häufigkeit Prozent (%) Grundschule 76 34,1 Hauptschule 3 1,3 Realschule 42 18,8 Gymnasium 77 34,5 Gesamtschule 25 11,2 Gesamt 223 100
Die Kinder, die zum Testzeitpunkt die Hauptschule besuchten, machen nur einen geringen
Anteil der Stichprobe aus. Allerdings gehörte ein Großteil der Kinder und Jugendlichen der
Gesamtschule dem Hauptschulzweig an. Die Verteilung auf die anderen Schulformen ent-
spricht annähernd der derzeitigen Verteilung der Kinder in der Bevölkerung auf die jeweiligen
Schulformen (2007 besuchten 33,7 % der Schüler die Grundschule, 10,2 % die Hauptschule,
14 % die Realschule, 26,2 % das Gymnasium und 5,4 % eine integrierten Gesamtschule, siehe
Statistisches Bundesamt, 2007).
7.3.2 Gematchte Stichprobe
Da im langen Intervall die Abstände zwischen beiden Testungen sehr stark variieren, wurde
diese Stichprobe noch einmal in zwei Untergruppen unterteilt: die Gruppe mit einem Re-
Testintervall von vier bis neun Monaten und die Kinder, bei denen 12 bis 24 Monate zwischen
02468
10121416
6 7 8 9 10 11 12 13 14 15 16
7 7
11 11
7
1311 12
10 11 1110
14
9 810
4
79
1614
11 HAWIK-III zuerst
HAWIK-IV zuerst
Kapitel 7 Methoden und Datenanalyse 116
beiden Testungen liegen. Daraus ergibt sich folgende Verteilung: 72 Kinder weisen ein Intervall
von vier bis neun Monaten auf (Mittelwert = 5.78 Monate, SD = 1.27), bei 23 Kindern lagen 12
bis 24 Monate zwischen beiden Testungen (Mittelwert = 17.3; SD = 3.87).
Um für die Vergleiche zwischen kurzem und langem Intervall (genauer gesagt den 72 Kindern,
die ein Intervall von vier bis neun Monaten aufweisen) eine homogene Stichprobe zu erhalten,
wurde aus der Gruppe des kurzen Intervalls eine zur Gruppe mit dem 4- bis 9-Monats-Intervall
gematchte Stichprobe ermittelt. Die 23 Kinder mit einem Re-Testintervall von mehr als einem
Jahr wurden für diese Teilstichprobe unberücksichtigt gelassen. Somit befinden sich in beiden
Gruppen jeweils 72 Kinder mit gleicher Geschlechts- und Schulformverteilung und annähernd
gleicher Altersverteilung. Außerdem haben in beiden Stichproben die gleiche Anzahl an Kin-
dern erst den HAWIK-III bzw. erst den HAWIK-IV durchgeführt (siehe Abbildung 7.5 und Tabelle
7.5 bis Tabelle 7.7).
Wie die Abbildung 7.5 verdeutlicht, weisen nur in den Altersstufen ab 12 Jahren eine unter-
schiedliche Anzahl an Kindern ein kurzes bzw. langes Test-Retest-Intervall auf.
Abbildung 7.5: Altersverteilung der gematchten Stichprobe.
Die Verteilung auf die unterschiedlichen Schultypen zeigt in beiden Unterstichproben ein iden-
tisches Bild (siehe Tabelle 7.5).
Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144).
Schultyp kurzes
Intervall langes
Intervall Grundschule 28 28 Hauptschule 1 1 Realschule 15 15 Gymnasium 26 26 Gesamtschule 2 2 Gesamt 72 72
0
2
4
6
8
10
6 7 8 9 10 11 12 13 14 15 16
7
9
43
8
6 6 6
9 9
5
7
9
43
8
6
3
98
78
kurz
lang
Kapitel 7 Methoden und Datenanalyse 117
Während jeweils nur ein Kind die Hauptschule und jeweils zwei Kinder eine Gesamtschule be-
suchten, besuchte der Großteil der Kinder bezogen auf die weiterführenden Schulen das Gym-
nasium. Die Realschule wurde zum Zeitpunkt der Testungen von etwa einem Drittel der älteren
Kinder besucht.
Die folgende Tabelle 7.6 gibt die Geschlechtsverteilung der gematchten Teilstichprobe wieder.
Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144).
Geschlecht kurzes
Intervall langes
Intervall männlich 32 32 weiblich 40 40 Gesamt 72 72
Die prozentuale Verteilung von 44,4 % Jungen gegenüber 55,6 % Mädchen kann als ungefähre
Gleichverteilung hinsichtlich des Geschlechts angesehen werden.
Schließlich gibt Tabelle 7.7 die Unterteilung der Teilstichprobe auf die Reihenfolge der Testvor-
gabe an.
Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144).
Testvorgabe kurzes
Intervall langes
Intervall HAWIK-III zuerst 26 26 HAWIK-IV zuerst 46 46 Gesamt 72 72
Anders als in der Gesamtstichprobe liegt demnach in der Teilstichprobe mit 36,1 % (HAWIK-III
zuerst) gegenüber 63,9 % (HAWIK-IV zuerst) keine vollständig ausbalancierte Reihenfolge vor.
Die Abkürzungen für die gematchte Stichprobe sowie die beiden Unterstichproben kann Tabel-
le 7.8 entnommen werden.
Tabelle 7.8: Abkürzungen der gematchten Stichproben. Stichprobe Abkürzungen Gematchte Stichprobe GemS Gematchte Stichprobe nach kurzem Intervall GemSK Gematchte Stichprobe nach langem Intervall GemSL
7.4 Untersuchungsinstrumente
Da die Untersuchungsinstrumente HAWIK-III und -IV in Kapitel 4 bereits ausführlich vorgestellt
wurden, werden in Tabelle 7.9 lediglich die wichtigsten Eckdaten beider Verfahren zusammen-
gefasst.
Kapitel 7 Methoden und Datenanalyse 118
Tabelle 7.9: Eckdaten des HAWIK-III und -IV. Kategorien zu Eckdaten HAWIK-III HAWIK-IV Erscheinungsjahr 1999 2007 Normierungsstichprobe 1 570 1 650 Normierungszeitraum 1995 - 1998 2005 - 2006 Reliabilität des Gesamt-IQ .96 .97 Reliabilitäten der Index-Werte .87 - .94 .87 - .94 Reliabilitäten der Untertests .68 - .88 .76 - .91
Objektivität weitestgehend
gegeben weitestgehend
gegeben
Faktorenanalysen Index-Struktur nicht eindeutig bestätigt
Indexstruktur bestätigt
Validierungsstudien im Manual
HAWIK-R vs. -III Lernbehinderung Schulformen Noten/Lehrerurteil ADHS
HAWIK-III vs. -IV Hochbegabung Intelligenzminderung LRS ADHS
Anzahl der Untertests 13 15 Anzahl notwendiger Untertests zur Berechnung des Gesamt-IQ
10 10
Anzahl notwendiger Untertests zur Berechnung der Indizes
12 10
Der Aufbau der Tests sowie die inhaltliche Beschreibung der Untertests können dem vierten
Kapitel entnommen werden.
7.5 Statistische Methoden zur Analyse der Daten Die Analyse der Daten erfolgte mit dem Statistikprogramm SPSS 15.0 für Windows. Das Signifi-
kanz-Niveau wurde auf α = 5 % festgelegt. Da die zu untersuchenden Variablen intervallskaliert
sind und durch die hinreichend große Stichprobe die Voraussetzung der Normalverteilung vor-
liegt, gelten die Bedingungen für die Anwendung parametrischer Testverfahren als erfüllt.
7.5.1 t-Tests für abhängige Stichproben
Zur Überprüfung der Differenz beider Stichproben auf Signifikanz werden t-Tests für abhängige
Stichproben durchgeführt. Es werden Messwertpaare gebildet, in dem die Werte der Unter-
tests, Indizes und des Gesamt-IQ des HAWIK-III mit den Werten der entsprechenden Unter-
tests, Indizes und dem Gesamt-IQ des HAWIK-IV verglichen werden. Dabei wird der ermittelte
t-Wert mit dem für ein Signifikanzniveau von α = 0.05 kritischen t-Wert verglichen.
Da es sich auf Untertest- und Index-Ebene bei den t-Tests um multiple Vergleiche handelt, wird
eine Alpha-Korrektur nach Bonferroni-Holm vorgenommen, die zu einer Anpassung des Alpha-
Niveaus führt (Schlittgen, 2004). Zunächst werden dabei die Signifikanzen der einzelnen Mit-
telwertvergleiche nach ihrer Höhe sortiert. Für den Test, der die deutlichste Signifikanz auf-
weist, wird das Alpha-Niveau α= .05 durch die Anzahl der vorgenommenen Vergleiche dividiert
Kapitel 7 Methoden und Datenanalyse 119
(bezeichnet mit k). Der Test mit der nächst höheren Signifikanz wird wiederum durch die An-
zahl der verbleibenden Vergleiche, also k-1, dividiert. Erst die Variable mit der geringsten Signi-
fikanz wird somit mit dem ursprünglichen Alpha-Niveau von α= .05 verglichen.
7.5.2 Faktorenanalysen
Das Hauptziel der Faktorenanalyse ist es, einem größeren Variablensatz eine ordnende Struk-
tur zu unterlegen und somit eine Datenreduktion zu erreichen. Dies geschieht, indem Variab-
len gemäß ihrer korrelativen Beziehungen in voneinander unabhängige Gruppen klassifiziert
werden. Somit lassen sich Entscheidungen darüber treffen, welche Variablen gemeinsame und
welche unterschiedliche Informationen erfassen. Man erhält also mit einer Faktorenanalyse
wechselseitig voneinander unabhängige Faktoren, die die Zusammenhänge zwischen den Va-
riablen erklären, die auf einem Faktor liegen (Bortz, 2005).
In dieser Studie soll mit Hilfe der Faktorenanalyse die interne Struktur der Testbatterien HA-
WIK-III und HAWIK-IV untersucht werden. Dabei wird überprüft, inwieweit die erhaltenen La-
dungsmuster zur hypothetischen Struktur beider Testverfahren passen. Dafür wird zunächst
eine Hauptkomponentenanalyse ohne Vorgabe der zu extrahierenden Faktoren durchgeführt.
Zusätzlich wird eine Faktorenanalyse mit Vorgabe der vier testtheoretisch vorhandenen Fakto-
ren durchgeführt. Die Faktorenrotation erfolgt nach dem Varimax-Kriterium (Diehl & Staufen-
biehl, 2007). Aufgrund der nur geringfügigen Unterschiede hinsichtlich der Stichprobengröße
(bei wenigen Untertests weicht sie um ein oder zwei Kinder ab) wird ein paarweiser Fallaus-
schluss vorgenommen.
7.5.3 Korrelationen
Die Berechnung der Höhe des Zusammenhangs in Form von Korrelationen beinhaltet die größ-
te Aussagekraft über die Vergleichbarkeit beider Testversionen. Die Korrelation misst die Stär-
ke des Zusammenhangs zweier Merkmale. Der Grad und die Richtung der linearen statisti-
schen Abhängigkeit zweier intervallskalierter und normalverteilter Merkmale lassen sich mit
Hilfe des Produktmoment-Korrelationskoeffizienten r nach Pearson (Kähler, 2008) berechnen.
Um den Vergleich mit bisherigen Korrelationsstudien zu ermöglichen, wird nicht mit den
Wertpunktsummen sondern den IQ-Werten der Indizes und Gesamtwerte gerechnet, so dass
jedoch nicht von einer linearen Abhängigkeit ausgegangen werden kann (Näheres dazu siehe
Kapitel 7.5.4).
In Anlehnung an die Korrelationstabellen der amerikanischen und deutschen Testmanuale wird
zusätzlich die Standarddifferenz angegeben. Sie stellt die Differenz beider Testmittelwerte
geteilt durch die Quadratwurzel der gepoolten Varianz dar, die mit Hilfe von Cohens (1996)
Formel 10.4 berechnet wird. Die Formel lautet:
Kapitel 7 Methoden und Datenanalyse 120
wobei .
Die gepoolte Varianz bezeichnet den Durchschnittswert der Stichprobenvarianzen. Die Stan-
darddifferenz gibt demnach an, inwieweit es einen Unterschied macht, ob der HAWIK-III oder
der HAWIK-IV verwendet wird, also sozusagen die Höhe des Effektes der Testauswahl.
Bei der Untersuchung des Lerneffektes in der vorliegenden Arbeit werden die Standarddiffe-
renzen auf anderem Weg berechnet. Da vorher die Differenzen zwischen den Mittelwerten des
ersten und zweiten Tests über die Definition neuer Variablen gebildet werden, liegen nur ein
Mittelwert und eine Standardabweichung vor. Daher wird die Standarddifferenz für den Lern-
effekt berechnet, indem der Mittelwert der Differenzen durch die Standardabweichung geteilt
wird.
7.5.3.1 Zusammengefasste Werte
Die oben beschriebenen Berechnungen gelten nur für die Korrelationsberechnungen getrennt
nach der Erstvorgabe der beiden Testversionen. Die Werte der Korrelationstabellen, in denen
diese beiden Unterstichproben zusammengefasst sind, werden wie folgt berechnet:
Mittelwert: Der zusammengefasste Mittelwert wird aus den Mittelwerten der IQ- und Wert-
punkte der Untertests, Indizes und Gesamtwerte bei Erstvorgabe des HAWIK-III und Erstvorga-
be des HAWIK-IV berechnet.
Standardabweichung: Die zusammengefasste Standardabweichung entspricht der Wurzel der
gepoolten Varianz (siehe oben) der Standardabweichung beider Werte (Erstvorgabe des HA-
WIK-III und des HAWIK-IV).
Korrelationen: Da bei einer Korrelation ein Wert von r = .80 gegenüber einem Wert von r = .40
nicht gleichbedeutend ist mit einem doppelt so hohen Zusammenhang, muss bei einer Mitte-
lung mehrerer Korrelationen eine Standardisierung der Werte mittels einer z-Transformation
erfolgen. Somit werden hohe Korrelationen stärker berücksichtigt als niedrige Korrelationen.
Der zusammengefasste Korrelationskoeffizient errechnet sich aus den Fisher-z-transformierten
Werten beider Korrelationen (Korrelation bei Erstvorgabe HAWIK-III und Korrelation bei Erst-
vorgabe HAWIK-IV), gewichtet an den Freiheitsgeraden. Der daraus resultierende Wert wird
mit Hilfe einer inversen z-Transformation in einen Korrelationswert zurückgeführt. Aus wird
also und aus wird . Die Gewichtung an den Freiheitsgeraden erfolgt über die Formel:
.
Der Wert wird daraufhin per inverser Fisher-z-Transformation zu .
Korrigierte Korrelationen: rkorr stellt die hinsichtlich der Varianzeinschränkung im HAWIK-IV
korrigierten Korrelationswerte dar (Guilford & Fruchter, 1978). Gemäß Cascio (1991) schätzen
Kapitel 7 Methoden und Datenanalyse 121
korrigierte Koeffizienten den wahren Zusammenhang besser als Koeffizienten ohne Korrektur.
Wenn eine Validierungsstudie eine eingeschränkte Stichprobe aufweist, die nicht den gesam-
ten Umfang möglicher Leistungsbereiche abdeckt, führt eine Korrektur dazu, dass die Werte
eher der Gesamtstichprobe entsprechen. Die Korrekturformel, wie sie für die WISC-IV verwen-
det wurde, lautet:
,
wobei rc dem Korrelationswert der vorliegenden Validierungsstichprobe mit eingeschränkter
Varianz, Sc der Standardabweichung der vorliegenden und Su der SD der Gesamtstichprobe der
HAWIK-IV-Normierung entspricht (Epstein, Mooney, Ryser & Pierce, 2004).
Für den Vergleich HAWIK-R und HAWIK-III wurde die Formel
verwendet (Lienert & Raatz, 1998).
Im Folgenden werden die Ergebnisse beider Korrekturvarianten angegeben, auf Grund der
moderateren Berechnungsweise jedoch nur die nach der amerikanischen Version korrigierten
Werte interpretiert. Da aufgrund diverser Störeinflüsse wie dem Flynn-Effekt (siehe Kapitel
5.2.2) die HAWIK-III-Werte ein weniger valides Abbild der wahren Werte liefern als die Werte
des HAWIK-IV, ihnen also ein größerer Messfehler innewohnt, wird die Korrektur der Korrela-
tionen nur für die Werte des HAWIK-IV vorgenommen.
Signifikanz: Der Signifikanzwert p bezeichnet den Wert, der angibt, ob sich die Differenz zwi-
schen den Korrelationen als signifikant erweist.
7.5.4 Regressionsanalysen
Auch wenn auf die Berechnung in Form einer linearen Regression zurückgegriffen wurde, han-
delt es sich hierbei nicht um eine lineare Regression, da durch die Umrechnung der (linearen)
Wertpunktsummen in IQ-Werte die Linearität zu Gunsten der Standardisierung in einen festge-
legten Wertebereich mit einer Standardabweichung von +/- 15 Wertpunkten nicht gegeben ist.
Somit werden in den Randbereichen die Werte künstlich verändert, um den vorgegebenen
Wertebereich (beim Gesamt-IQ stehen beispielsweise Werte von 40-160 zur Verfügung) abzu-
decken. Im relevanten mittleren Bereich (im Bereich Mittelwert +/- 1 SD liegen 68,27 % der
Gesamtpopulation) kann jedoch von Linearität ausgegangen werden. Auch andere Studien
dieser Art beruhen auf Analysen mit den IQ-Werten, da sie ebenso wie diese Studie das Ziel
verfolgen, dem Praktiker Hilfestellung im Umgang mit dem neuen Testverfahren zu geben und
in der Praxis nicht die Wertpunktsummen, sondern die IQ-Werte herangezogen werden. Bei
der linearen Regression wird im Gegensatz zur Korrelation nicht nur die Höhe des Zusammen-
Kapitel 7 Methoden und Datenanalyse 122
hangs zwischen zwei Merkmalen, sondern auch die Abhängigkeit eines Merkmals vom anderen
Merkmal untersucht und als linearer Zusammenhang in Form einer Gleichung ausgedrückt
(Bortz, 2005). Hängen zwei Variablen zusammen, kann so die eine Variable auf Basis der ande-
ren vorhergesagt werden. Die Vorhersage wird über folgende lineare Beziehung (Regressions-
gerade) vorgenommen: , wobei dem vorhergesagten Wert, dem Schnitt-
punkt der Geraden mit der -Achse und der Steigung der Geraden entspricht. Ziel einer li-
nearen Regression ist es, eine Gerade zu bestimmen, die den Gesamttrend aller Punkte am
besten wiedergibt. Sie soll demnach so gewählt werden, dass die Abstände zwischen der Gera-
den und den empirisch beobachteten Werten minimiert werden. Die Gerade, die von der Ge-
samtheit aller Punkte den geringsten Abstand aufweist, wird Regressionsgerade genannt. Sie
wird durch folgenden Regressionskoeffizienten charakterisiert:
.
Der Determinationskoeffizient gibt den Varianzanteil der abhängigen Variablen wieder, der
mit der unabhängigen Variablen vorhergesagt bzw. erklärt werden kann:
.
7.5.4.1 Multiple lineare Regression
Wird eine Kriteriumsvariable mit Hilfe mehrerer Prädiktorvariablen vorhergesagt, spricht man
von einer multiplen Regression. Die Aufgabe der multiplen Regressionsrechnung ist es, β-
Koeffizienten zu ermitteln, sogenannte Beta-Gewichte. Zur Überprüfung, welche Prädiktorva-
riable die meiste Varianz einer abhängigen Variablen aufklärt, wird die Einschluss-Methode
gewählt, in der alle Variablen simultan in einem Schritt in die Regressionsgleichung aufge-
nommen werden (Diehl & Staufenbiehl, 2007). Somit wird der Anteil der gemeinsamen Varianz
der Variablen heraus gerechnet. Das Beta-Gewicht spiegelt also den Beitrag eines Prädiktors
zur Vorhersage der unabhängigen Variablen wider.
7.5.4.2 Vorhergesagte Werte und Konfidenzintervalle
In dieser Studie wird mit Hilfe der linearen Regression zusätzlich die Abhängigkeit einer IQ-
Skala des HAWIK-IV (abhängige Variable) von der entsprechenden IQ-Skala des HAWIK-III
(unabhängige Variable) untersucht. Damit soll vorhergesagt werden, welchen HAWIK-IV-Wert
ein Kind voraussichtlich erhält, wenn der entsprechende HAWIK-III-Wert bekannt ist.
Dabei wird der vorhergesagte Wert unter Ausschluss der Konstante in die Gleichung berech-
net. Der Term a wird also immer auf 0 gesetzt (siehe oben) und somit mit Hilfe von SPSS eine
Kurvenanpassung vorgenommen. Der vorhergesagte Wert für jeden empirisch ermittelten IQ-
Wert des HAWIK-III ergibt sich aus der Multiplikation des HAWIK-III-Wertes und der Steigung
der Regressionsgerade, also b (siehe oben). Da nicht sämtliche IQ-Werte des HAWIK-III in der
Kapitel 7 Methoden und Datenanalyse 123
Stichprobe zu finden sind, werden die empirischen Werte nach Errechnung der Regressionsge-
rade per Hand berechnet.
Zusätzlich soll das 95 %-Konfidenzintervall des zu erwartenden Wertes berechnet werden. Die
Konfidenzintervalle (KI) werden ebenfalls für jeden Wert einzeln per Hand berechnet, in dem
der für jeden vorhergesagten Wert entsprechende Standardfehler ermittelt wird. Dieser wird
in die Gleichung zur Berechnung eines Konfidenzintervalls aufgenommen. Das Konfidenzinter-
vall für einen Wert wird wie folgt berechnet:
, wobei dem erwarteten Wert (also dem HAWIK-IV-IQ-Wert) und
dem z-Wert entsprechend des gewählten Signifikanzniveaus entspricht. Bei einem 95 %-
Konfidenzintervall ergibt sich ein -Wert von 1.96. steht für den Standardfehler, auch
Standardmessfehler genannt, der sich wie folgt berechnet:
, wobei der Standardabweichung der verwendeten Normskala und dem
Reliabilitätskoeffizienten des verwendeten Tests entspricht. Vereinfacht ausgedrückt kann das
95 %-Konfidenzintervall per Hand berechnet werden, indem vom erwarteten Wert die Summe
aus 1.96 multipliziert mit dem jeweiligen Standardfehler abgezogen bzw. hinzugerechnet wird.
Kapitel 8 Ergebnisse 124
8 Ergebnisse
Begriffe erkennen, Frage 13:
„Man findet es in der Natur und es fließt Wasser heraus. Was ist das?“
Alina, 10 Jahre: „Ein Elefant.“
Die Ergebnisse beziehen sich auf die gemäß der theoretischen Erwartungen postulierten Hypo-
thesen (siehe Kapitel 6).
8.1 Explorative Datenanalyse Die explorative Datenanalyse soll zunächst einen Eindruck von der Verteilung der Testwerte
dieser Stichprobe vermitteln und somit Hinweise auf die zu erwartenden Ergebnisse liefern.
8.1.1 Deskriptive Statistiken des HAWIK-III
Die deskriptive Beschreibung der Daten erfolgt auf der Basis der Datensätze von 223 Kindern
und Jugendlichen. Tabelle 8.1 beinhaltet die Extremwerte (Minimum und Maximum) sowie die
Mittelwerte und Standardabweichungen für jeden Untertest und jeden Index- und Gesamt-
Wert des HAWIK-III.
Tabelle 8.1: Deskriptive Angaben des HAWIK-III. Untertest/Index Minimum Maximum M SD BE 3 18 11.1 3.0 AW 3 19 11.0 2.8 ZST 4 19 11.6 3.1 GF 3 19 11.8 2.8 BO 1 19 10.8 3.3 RD 4 19 11.1 2.8 MT 3 19 11.1 3.2 WT 4 19 11.6 2.8 FL 1 18 9.8 3.0 AV 7 19 11.2 2.0 SS 3 19 11.6 2.8 ZN 3 18 9.9 2.6 SV 78 147 110.1 13.7 WO 72 148 105.5 14.4 UA 76 144 103.6 13.2 AG 74 148 109.3 14.6 Verbal-IQ 78 148 108.9 12.9 Handlungs-IQ 71 141 106.9 14.2 Gesamt-IQ 76 141 108.9 13.3
Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.
Kapitel 8 Ergebnisse 125
Wie aus der Tabelle 8.1 ersichtlich, liegen die Untertestmittelwerte des HAWIK-III bis auf ZN7
und FL über dem teststandardisierten Mittelwert 10. GF, WT, ZST und SS zeigen mit einem
Mittelwert von 11.6 die größten Abweichungen vom Wertpunkt 10 auf. Auch die Index- und
Gesamtwerte befinden sich weit oberhalb des festgelegten Altersdurchschnitts von 100. Als
höchster Index erweist sich SV mit einem Mittelwert von 110.1, als niedrigster Index UA mit
103.6 IQ-Punkten im Mittel. Der IQ des Verbalteils liegt leicht über dem des Handlungsteils,
der Gesamtwert weist im Mittel 108.9 IQ-Punkte auf. Zur Veranschaulichung werden in Abbil-
dung 8.1 die Mittelwerte, Standardabweichungen und Ausreißer des Gesamt-, Verbal- und
Handlungs-IQ des HAWIK-III in Form eines Box-Plots graphisch dargestellt.
Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III. Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar.
Der Verbal-IQ weist die geringste Streuung innerhalb der drei Gesamtwerte auf. Außerdem
wird durch die Abbildung 8.1 ersichtlich, dass im Verbal-IQ die Personen, die Werte im Ex-
trembereich erzielten, als statistische Ausreißer gewertet werden können. Abbildung 8.2 illus-
triert die statistischen Kennwerte der HAWIK-III-Indizes SV, WO, UA und AG. Die Box-Plots
veranschaulichen die überdurchschnittlich hohen Testergebnisse in den Indizes SV und AG
sowie die große Streuung in den Indizes WO und AG.
7 Aufgrund der häufigen Erwähnung der Untertests werden in diesem Kapitel ihre Abkürzungen verwen-det. Erklärungen zu den Abkürzungen können Anhang A5 und A6 entnommen werden.
Kapitel 8 Ergebnisse 126
Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III. Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar. Abkürzungen siehe Anhang A5 und A6.
Insgesamt können, bis auf zwei Ausnahmen (FL und ZN), höhere Mittelwerte in den Untertests
und Indizes gegenüber denen der Normierungsstichprobe festgehalten werden. Die Standard-
abweichung der HAWIK-III-Untertests liegt relativ nah an den in der Normierungsstichprobe
festgelegten drei Wertpunkten, einzig AV weist mit 2.0 eine deutlich niedrigere Standardab-
weichung auf. Die Gesamt- und Indexwerte besitzen deutlich niedrigere Standardabweichun-
gen als die Normierungsstichprobe (dort liegt die SD bei circa 15 Wertpunkten).
8.1.2 Deskriptive Statistiken des HAWIK-IV
Die Leistungen der 223 Kinder und Jugendlichen in den Untertests des HAWIK-IV ergeben Mit-
telwerte zwischen 10.4 im ZN und 11.2 im MT (siehe Tabelle 8.2). Von den Prozesswerten
weist einzig ZN-V einen Mittelwert unterhalb von 10 auf, alle anderen Prozesswerte liegen im
Mittel zwischen 10.5 und 11.2 Wertpunkten.
Kapitel 8 Ergebnisse 127
Tabelle 8.2: Deskriptive Angaben des HAWIK-IV. Untertest/Index Minimum Maximum M SD MT 3 19 11.2 3.0 GF 5 18 11.0 2.4 ZN 4 19 10.4 2.5 BK 4 17 10.9 2.4 ZST 4 18 11.0 2.8 WT 5 19 11.0 2.7 BZF 1 18 10.9 2.3 MZ 4 16 10.6 2.4 AV 5 19 11.1 2.4 SYS 2 19 11.0 2.6 BE 1 19 11.1 2.8 DT 4 19 10.9 2.9 AW 4 18 10.7 2.5 RD 2 18 11.1 2.4 BEN 4 18 10.7 2.6 MT-OZ 3 19 11.2 2.9 ZN-V 4 18 9.9 2.7 ZN-R 5 18 10.5 2.5 DT-S 4 18 10.9 2.8 DT-U 2 19 10.8 3.0 SV 77 144 105.7 12.3 WLD 69 133 105.4 12.1 AGD 56 146 102.8 12.3 VG 62 141 105.8 13.7 Gesamt-IQ 64 131 106.3 11.4
Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.
Auf Index-Ebene fällt AGD mit einem Mittelwert von 102.8 IQ-Punkten am schlechtesten aus,
alle anderen Indizes weisen Mittelwerte zwischen 105.4 und 105.8 auf. Der höchste Wert wur-
de mit einem Mittelwert von 106.3 im Gesamt-IQ erzielt (zur graphischen Ansicht der Indizes
und des Gesamt-IQ des HAWIK-IV siehe Abbildung 8.3).
Kapitel 8 Ergebnisse 128
Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV. Anmerkungen: Die Sternchen (*) stellen statistische Ausreißer dar. Aufgrund einiger statisti-scher Ausreißer im unteren Leistungsbereich wurde die Skalierung gegenüber den HAWIK-III-Box-Plots nach unten erweitert. Abkürzungen siehe Anhang A5 und A6.
Insgesamt liegen die Mittelwerte der HAWIK-IV-Untertests durchschnittlich circa einen Wert-
punkt oberhalb der Mittelwerte der Normierungsstichprobe. Auch in den Indizes und dem
Gesamt-IQ fallen die Mittelwerte höher aus als in der Normierungsstichprobe, jedoch weniger
deutlich als die entsprechenden Werte des HAWIK-III. Die Standardabweichungen der Unter-
tests sind, außer im MT, durchweg kleiner als die der Normierungsstichprobe. Auch der Ge-
samt-IQ und die Indizes verfügen über deutlich geringere Standardabweichungen, sowohl im
Vergleich zur Normierungsstichprobe als auch in Bezug auf die Gesamt- und Indexwerte des
HAWIK-III.
Bei der Betrachtung der Gesamt-IQ-Punkte beider Testversionen kann mit 25 von 223 Kindern
bei 11,2 % der Untersuchungspopulation eine Differenz von einer Standardabweichung (also
15 IQ-Punkten) oder mehr zwischen beiden Gesamt-IQ aufgezeigt werden. In der gematchten
Stichprobe zeigten 15 von 144 Kindern diese Differenz, was 10,4 % der Stichprobe entspricht.
Auf Ebene der Indizes weisen mit 28 bis 52 Personen (dies entspricht 12,5 % bis 23,3 % der
Stichprobe) noch mehr Kinder einen Unterschied von mindestens einer Standardabweichung
zwischen den entsprechenden Indizes beider Testversionen auf. Dies deutet darauf hin, dass
die Neunormierung zu Veränderungen dessen geführt haben könnte, was der Gesamt-IQ und
Kapitel 8 Ergebnisse 129
die Indizes beinhalten und welche Fähigkeiten mit ihnen abgebildet werden. Dies soll im Fol-
genden genauer untersucht werden.
8.2 Überprüfung der Mittelwertdifferenzen Zur Überprüfung der deskriptiv ersichtlichen Unterschiede werden die Mittelwertdifferenzen
der Index- und Gesamtwerte beider Testversionen mit t-Tests für gepaarte (bzw. abhängige)
Stichproben auf Signifikanz geprüft. Damit sollen die Fragestellung 1: „Gibt es signifikante
Unterschiede zwischen dem Gesamt-Wert des HAWIK-III und dem Gesamt-Wert des HAWIK-
IV?“ und die Fragestellung 2: „Gibt es signifikante Unterschiede zwischen den Index- und
Gesamtwerten des HAWIK-III und denen des HAWIK-IV?“ sowie die dazugehörigen Hypothe-
sen 6.1.1 bis 6.1.7 überprüft werden. Dies wird zunächst auf Grundlage der Gesamtstichprobe
(n = 223) durchgeführt. Tabelle 8.3 zeigt die Mittelwerte und gepaarten Differenzen der Index-
und Gesamtwerte. Wie in Kapitel 6.1 beschrieben, wird empfohlen, den Verbalteil mit dem SV
und den Handlungsteil mit dem WLD des HAWIK-IV zu vergleichen.
Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223). HAWIK-III HAWIK-IV Gepaarte Differenzen
Testpaare M SD M SD M SD p aα G-IQ-III – G-IQ-IV 108.9 13.3 106.3 11.4 2.6 9.2 .000* Verbal-IQ – SV-IV 108.9 12.9 105.7 12.3 3.2 8.5 .000** .025 Handlungs-IQ – WLD 106.9 14.2 105.4 12.1 1.5 12.6 .083 .050 SV – SV 110.1 13.7 105.7 12.3 4.4 8.4 .000** .013 WO – WLD 105.5 14.4 105.4 12.1 0.0 12.8 .967 .050 UA – AGD 103.6 13.2 102.8 12.3 0.8 11.0 .277 .025 AG – VG 109.3 14.6 105.8 13.7 3.4 11.3 .000** .017
Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. G-IQ steht für den Gesamt-IQ, M für den Mittelwert, SD für die Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.
Bezogen auf die Indizes zeigen sich signifikante Mittelwertdifferenzen bei SV und bei AG bzw.
VG. Im Mittelwertvergleich ergaben sich zudem signifikante Differenzen zwischen den Werten
des Verbal-IQ und des SV des HAWIK-IV; zwischen den Werten des Handlungs-IQ und WLD sind
die Unterschiede jedoch nicht signifikant. Die Gesamtwerte beider Verfahren weichen eben-
falls signifikant voneinander ab.
Somit muss die H0 der Hypothesen 6.1.1, 6.1.2, 6.1.4 und 6.1.7 abgelehnt und die Alternativ-
hypothese (H1) angenommen werden. Für die Hypothesen 6.1.3, 6.1.5 und 6.1.6 kann jedoch
die H0 angenommen werden.
Die Tabelle 8.4 stellt die Ergebnisse der t-Tests für gepaarte Stichproben für die Untertests dar.
Auch wenn keine Hypothesen zum Mittelwertvergleich auf der Ebene der Untertests formu-
Kapitel 8 Ergebnisse 130
liert wurden (siehe Kapitel 6), werden sie mit angegeben, um zusätzlichen Aufschluss über die
Ursachen der Differenzen zu erhalten.
Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223). HAWIK-III HAWIK-IV Gepaarte Differenzen
Testpaare M SD M SD M SD p aα BE – BE 11.1 3.0 11.1 2.8 0.0 2.9 .926 .025 AW – AW 11.0 2.8 10.7 2.5 0.3 1.9 .019* .010 ZST – ZST 11.6 3.1 11.0 2.8 0.6 2.4 .001** .006 GF – GF 11.8 2.8 11.0 2.4 0.8 2.3 .000** .005 RD – RD 11.1 2.8 11.1 2.4 0.0 2.3 1.00 .050 MT – MT 11.1 3.2 11.2 3.0 -0.1 2.6 .638 .017 WT – WT 11.6 2.8 11.0 2.7 0.5 2.2 .001** .006 AV – AV 11.2 2.0 11.1 2.4 0.1 2.1 .515 .013 SS – SYS 11.6 2.8 11.0 2.8 0.6 2.7 .001** .008 ZN – ZN 9.9 2.6 10.4 2.5 -0.5 2.2 .001** .007
Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. M = Mittelwert, SD = Standardabweichung. Weitere Abkürzun-gen siehe Anhang A5 und A6.
Im Untertestvergleich weisen sechs der zehn gemeinsamen Untertests signifikante Mittelwert-
differenzen auf. Nach der α-Korrektur erweist sich AW jedoch als nicht mehr signifikant. Die
signifikanten Untertests gehören bis auf ZN den in Tabelle 8.3 dargestellten signifikanten Indi-
zes an.
Die t-Tests für abhängige Stichproben wurden zusätzlich mit der gematchten Stichprobe
(GemS, n = 144) durchgeführt. Tabelle 8.5 beinhaltet die Ergebnisse der Prüfung der Mittel-
wertdifferenzen für die Indizes und Gesamtwerte und Tabelle 8.6 für die Untertests beider
Testversionen.
Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS. HAWIK-III HAWIK-IV Differenzen
Testpaare M SD M SD M SD p aα G-IQ III – G-IQ IV 108.8 13.8 105.6 12.2 3.2 9.2 .000* Verbal-IQ – SV IV 108.4 12.9 105.3 12.8 3.1 8.2 .000** .025 Handlungs-IQ – WLD 107.5 15.0 104.8 12.6 2.7 12.4 .009** .050 SV – SV 109.9 13.9 105.3 12.8 4.6 8.2 .000** .013 WO – WLD 105.7 15.1 104.8 12.6 0.9 12.7 .384 .025 UA – AGD 102.8 12.9 102.3 12.5 0.5 10.8 .586 .050 AG – VG 110.4 14.6 105.4 13.9 5.0 10.7 .000** .017
Anmerkungen: siehe Tabelle 8.3.
Die α-Adjustierung führt keinerlei Veränderungen hinsichtlich der Signifikanzen herbei.
Anders als in der Gesamtstichprobe weist in dieser Teilstichprobe neben den beiden SV- und
Geschwindigkeitsindizes AG bzw. VG sowie dem Gesamt-IQ und dem Vergleich des Verbalteils
mit dem SV des HAWIK-IV zusätzlich der Vergleich zwischen dem Handlungsteil und dem WLD
signifikante Wertunterschiede auf.
Kapitel 8 Ergebnisse 131
Auch für die gematchte Stichprobe wurde der Vergleich zusätzlich auf Untertestebene durch-
geführt (siehe Tabelle 8.6).
Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene. HAWIK-III HAWIK-IV Gepaarte Differenzen
Testpaare M SD M SD M SD p aα BE – BE 11.1 3.0 10.8 2.7 0.3 2.9 .223 .013 AW – AW 11.0 2.9 10.6 2.5 0.4 2.0 .019* .010 ZST – ZST 11.8 3.2 10.9 3.0 0.9 2.4 .000** .005 GF – GF 11.7 2.8 10.9 2.6 0.8 2.3 .000** .006 RD – RD 10.8 2.7 10.8 2.4 0.1 2.2 .765 .025 MT – MT 11.2 3.3 11.1 3.1 0.1 2.7 .600 .017 WT – WT 11.4 3.0 10.9 2.7 0.5 2.4 .009* .007 AV – AV 11.2 1.9 11.2 2.4 0.0 2.0 .933 .050 SS – SYS 11.8 2.7 11.0 2.6 0.8 2.6 .001** .006 ZN – ZN 9.9 2.6 10.3 2.4 -0.4 2.2 .017* .008
Anmerkungen: siehe Tabelle 8.4.
In der GemS weisen ähnliche Untertestpaarungen signifikante Unterschiede auf wie in der
Gesamtstichprobe. Nach der α-Korrektur gelten die Differenzen der Paarungen von AW, WT
und ZN jedoch als nicht mehr signifikant. Somit weichen nur die Mittelwerte der Untertests
ZST, GF und SS bzw. SYS signifikant voneinander ab. Dies entspricht den Ergebnissen der Tabel-
le 8.5, da die auffälligen Untertests den Indizes angehören, die sich als voneinander signifikant
unterschiedlich erwiesen haben.
Für die gematchte Stichprobe kann festgehalten werden, dass die H0 der Hypothesen 6.1.1,
6.1.2, 6.1.3, 6.1.4 und 6.1.7 abgelehnt und die Alternativhypothese (H1) angenommen werden
muss, während für die Hypothesen 6.1.5 und 6.1.6 die H0 beibehalten werden kann.
Die Ergebnisse der t-Tests zur Überprüfung von Mittelwertdifferenzen zeigen also signifikante
Unterschiede zwischen den Werten beider Testversionen. Damit konnte die Vermutung bestä-
tigt werden, die sich durch die hohe Prozentzahl (mehr als jeder zehnte Vergleich wies eine
Differenz von mehr als 1 SD auf) an Personen, die deutliche Differenzen im Gesamt-IQ beider
Testversionen aufweisen, ergeben hat.
Mögliche Ursachen für diese Differenzen können in den Störvariablen liegen, die in Kapitel 5.2
ausführlich dargestellt wurden. Im Folgenden werden deskriptive Analysen vorgenommen, die
Aufschluss darüber geben sollen, als wie hoch ein möglicher Einfluss dieser Störvariablen auf
die Ergebnisse beider Testversionen anzunehmen ist.
8.3 Mittelwertvergleich Mit den folgenden Analysen soll festgestellt werden, wie die Werte der Untertests und Indizes
ausgefallen sind, je nachdem, welche Testversion zuerst durchgeführt wurde. Es wird also der
Kapitel 8 Ergebnisse 132
Einfluss der Testreihenfolge auf die Ergebnisse beider Testversionen untersucht, indem die
Mittelwerte einer Testversion verglichen werden, in Abhängigkeit davon, welcher Test als ers-
tes durchgeführt wurde. Dabei wird auf Grund eines vermuteten Lerneffekts (siehe Kapitel
5.2.1) davon ausgegangen, dass die Werte derjenigen Testversion höher ausfallen, die als zwei-
tes durchgeführt wurde. Kann dies nicht bestätigt werden, könnten die signifikanten Differen-
zen auf eine nicht repräsentative Stichprobe zurückzuführen sein, in der beispielsweise die
Kinder, die den HAWIK-IV zuerst absolvierten, ein deutlich höheres Leistungsniveau aufweisen
als die Kinder, die den HAWIK-III als ersten Test vorgelegt bekamen. Dies würde die Interpre-
tierbarkeit des vorliegenden Vergleichs einschränken.
Der Mittelwertevergleich erfolgt getrennt nach kurzem und langem Intervall.
8.3.1 Kurzes Intervall
Abbildung 8.4 veranschaulicht die Mittelwerte der HAWIK-III-Untertests nach kurzem Intervall
(GK) getrennt nach dem Testverfahren, das in der ersten Testung verwendet wurde.
Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Inter-vall). Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-III-Werte der Kinder, die den HA-WIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-III-Werte der Kinder, die den HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6.
Bis auf die Untertests RD, WT und FL zeigen alle Untertests dann höhere HAWIK-III-Mittelwerte
auf, wenn der HAWIK-IV zuerst vorgelegt wurde.
9
10
11
12
13
BE AW ZST GF BO RD MT WT FL AV SS ZN
HAWIK-III zuerst
HAWIK-IV zuerst
Kapitel 8 Ergebnisse 133
Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: siehe Abbildung 8.4.
Bezogen auf die HAWIK-III-Index- und -Gesamt-IQ-Werte zeichnen sich in allen Bereichen hö-
here Mittelwerte bei den Kindern ab, die den HAWIK-IV als ersten Test absolvierten (siehe
Abbildung 8.5).
Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Inter-vall). Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-IV-Werte der Kinder, die den HA-WIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-IV-Werte der Kinder, die den HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6.
Für die Untertests des HAWIK-IV besitzt im kurzen Intervall nur AV einen geringfügig niedrige-
ren Wert in der Gruppe, die den HAWIK-III zuerst durchgeführt hat (11.0 gegenüber 11.05). In
allen anderen Untertests weist der HAWIK-IV dann höhere Werte auf, wenn vorher der HA-
WIK-III vorgegeben wurde (siehe Abbildung 8.6).
Wie in Abbildung 8.7 ersichtlich, erzielten die Kinder und Jugendlichen, die den HAWIK-III zu-
erst durchführten, auf der Ebene der Indizes und des Gesamt-IQ im HAWIK-IV durchgängig
höhere Mittelwerte. Besonders der Index VG birgt dabei deutlich höhere Werte.
101
103
105
107
109
111
113
HAWIK-III zuerst
HAWIK-IV zuerst
9
10
11
12
13
MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN
HAWIK-III zuerst
HAWIK-IV zuerst
Kapitel 8 Ergebnisse 134
Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: siehe Abbildung 8.6.
8.3.2 Langes Intervall
Für das lange Intervall (GL) wurde ebenfalls überprüft, wie sich die Mittelwerte danach unter-
scheiden, welches Testverfahren zuerst durchgeführt wurde.
Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Inter-vall). Anmerkungen: siehe Abbildung 8.4.
Im Mittelwertevergleich der Untertests des HAWIK-III (siehe Abbildung 8.8) weisen die Kinder,
die den HAWIK-III zuerst absolvierten, im WT und FL deutlich höhere und im BO und AV leicht
höhere Werte auf. Alle anderen Untertests sind in der Gruppe besser ausgefallen, die mit dem
HAWIK-IV begonnen hat.
101
103
105
107
109
111
113
Gesamt-IQ SV-IQ WLD-IQ AGD-IQ VG-IQ
HAWIK-III zuerst
HAWIK-IV zuerst
9
10
11
12
13
BE AW ZST GF BO RD MT WT FL AV SS ZN
HAWIK-III zuerst
HAWIK-IV zuerst
Kapitel 8 Ergebnisse 135
Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.4.
Für die Index-Werte, den Verbal-, und Handlungsteil und den Gesamt-IQ des HAWIK-III gilt,
dass die Kinder, denen der HAWIK-IV zum ersten Testzeitpunkt vorgelegt wurde, höhere Mit-
telwerte erzielten (siehe Abbildung 8.9). In der AG offenbart sich der Unterschied besonders
deutlich.
Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.6.
Für die Untertests des HAWIK-IV zeigen sich nur im ZN, MZ und RD höhere Mittelwerte bei den
Kindern, die den HAWIK-IV zuerst vorgelegt bekamen. Wie in Abbildung 8.10 veranschaulicht,
besitzt in allen anderen Untertests die Gruppe höhere Mittelwerte, die den HAWIK-III zuerst
bearbeitete.
Abbildung 8.11 illustriert, dass auch auf der Index-und IQ-Ebene des HAWIK-IV ebenso wie
nach kurzem Intervall auch nach langem Intervall die Gruppe höhere Mittelwerte erlangt, die
den HAWIK-III zuerst durchgeführt hat.
99101103105107109111113115
HAWIK-III zuerst
HAWIK-IV zuerst
9
10
11
12
13
MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN
HAWIK-III zuerst
HAWIK-IV zuerst
Kapitel 8 Ergebnisse 136
Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorga-be (langes Intervall). Anmerkungen: siehe Abbildung 8.6.
Bis auf wenige Ausnahmen auf Untertest-Ebene kann demnach zusammenfassend festgestellt
werden, dass immer der Test höhere Werte aufzeigt, der an zweiter Stelle durchgeführt wur-
de. Es kann also von eine repräsentativen Stichprobe ausgegangen werden. Die Mittelwertver-
gleiche deuten jedoch auf einen Lerneffekt sowohl nach kurzem als auch nach langem Intervall
hin.
8.4 Lerneffekt Zur genaueren Überprüfung eines möglichen Lerneffekts zwischen erster und zweiter Testung
wurden zusätzliche Mittelwertvergleiche vorgenommen. Der Lerneffekt dürfte sich im kurzen
Intervall deutlicher zeigen als im langen Intervall, da sich ein Kind generell besser an die erste
Testung erinnern kann, wenn der Abstand zur zweiten Testung geringer ist.
Dafür wurden zunächst die Mittelwerte der Untertests und Indizes der Teilstichprobe mit ei-
nem kurzen Intervall zwischen beiden Testungen und mit Erstvorgabe des HAWIK-III (GK-III)
verglichen. Tabelle 8.7 enthält die Mittelwerte beider Tests und den Zuwachs bzw. die Abnah-
me der Wert- und IQ-Punkte für das kurze Intervall zwischen erster und zweiter Testung.
101
103
105
107
109
111
113
Gesamt-IQ SV-IQ WLD-IQ AGD-IQ VG-IQ
HAWIK-III zuerst
HAWIK-IV zuerst
Kapitel 8 Ergebnisse 137
Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GK-III (n = 63).
Untertest/Index Mittelwert HAWIK-III
Mittelwert HAWIK-IV
Zuwachs
BE 10.3 11.7 +1.3 AW 10.9 10.8 -0.1 ZST 11.6 12.4 +0.9 GF 11.1 11.1 -0.1 RD 11.4 12.0 +0.6 MT 10.9 12.2 +1.3 WT 11.6 10.8 -0.8 AV 11.1 11.0 -0.1 SS/SYS 11.4 11.8 +0.4 ZN 9.7 10.6 +0.9 SV/SV 108.7 105.1 -3.6 WO/WLD 104.6 107.6 +3.1 UA/AGD 103.8 104.5 +0.7 AG/VG 108.5 111.9 +3.3 Gesamt-IQ 108.0 108.9 +0.8
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Innerhalb der Untertests zeigen BE und MT den höchsten Anstieg, gefolgt von ZST und ZN. Die
Index-Kombinationen WO und WLD sowie AG und VG weisen den höchsten Zuwachs auf, wäh-
rend die Kinder im SV des HAWIK-IV durchschnittlich weniger Punkte erreichten als im SV des
HAWIK-III, obwohl sie mit dem HAWIK-III zuerst getestet wurden.
Die Ergebnisse der Kinder aus der Teilstichprobe mit einem langen Re-Testintervall und dem
HAWIK-III als erstem Test (GL-III) können Tabelle 8.8 entnommen werden.
Tabelle 8.8: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-III (n = 48).
Untertest/Index Mittelwert HAWIK-III
Mittelwert HAWIK-IV
Zuwachs
BE 10.9 12.2 +1.3 AW 10.7 11.2 +0.4 ZST 10.2 10.8 +0.6 GF 11.9 12.0 +0.1 RD 10.6 10.4 -0.2 MT 10.6 11.5 +0.9 WT 11.8 11.9 +0.1 AV 11.3 11.4 +0.1 SS/SYS 10.2 11.1 +0.9 ZN 9.2 10.1 +0.9 SV/SV 110.2 109.6 -0.6 WO/WLD 104.2 107.4 +3.2 UA/AGD 100.3 101.8 +1.5 AG/VG 101.0 105.3 +4.3 Gesamt-IQ 106.9 108.1 +1.3
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Kapitel 8 Ergebnisse 138
Auch im langen Intervall weist BE den höchsten Wertpunktanstieg auf, gefolgt von MT, SYS und
ZN. Auf Index-Ebene zeigt sich ebenso wie im kurzen Intervall der höchste Anstieg vom AG zum
VG sowie vom WO zum WLD.
Die Mittelwertzuwächse der Stichprobe mit einem kurzen Intervall und der Erstvorgabe des
HAWIK-IV (GK-IV) lassen ebenfalls Leistungssteigerungen vom ersten zum zweiten Test erken-
nen (siehe Tabelle 8.9).
Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe GK-IV (n = 65).
Untertest/Index Mittelwert HAWIK-IV
Mittelwert HAWIK-III
Zuwachs
BE 10.2 11.9 +1.7 AW 10.3 11.3 +1.0 ZST 10.1 12.1 +2.0 GF 10.8 12.1 +1.3 RD 10.8 11.0 +0.2 MT 10.8 11.6 +0.8 WT 10.7 11.5 +0.8 AV 11.0 11.3 +0.2 SYS/SS 10.4 12.3 +1.9 ZN 10.6 10.6 +0.1 SV/SV 104.2 111.0 +6.9 WLD/WO 103.6 108.1 +4.5 AGD/UA 103.0 105.6 +2.6 VG/AG 101.5 112.7 +11.2 Gesamt-IQ 103.9 111.0 +7.0
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Insgesamt können größere Unterschiede festgestellt werden als bei Erstvorgabe des HAWIK-III.
Es zeigen sich keinerlei Wertpunktabnahmen von der ersten zur zweiten Testung; wurde der
HAWIK-IV als erster Test durchgeführt, sind die Werte im HAWIK-III also deutlich höher. Die
größte Zunahme erreichten die Werte der Geschwindigkeitsuntertests SS bzw. SYS und ZST,
gefolgt vom BE. Vor allem auf Index-Ebene sind die Werte der zweiten Testung deutlich höher
als die der ersten Testung. AG und VG haben mit einem Unterschied von 11.2 Wertpunkten
den größten Zuwachs zu verzeichnen.
Schließlich werden in Tabelle 8.10 die Zuwächse und Abnahmen in der Teilstichprobe mit ei-
nem langen Re-Testintervall und dem HAWIK-IV als erstem Test (GL-IV) aufgezeigt.
Kapitel 8 Ergebnisse 139
Tabelle 8.10: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-IV (n= 47).
Untertest/Index Mittelwert HAWIK-IV
Mittelwert HAWIK-III
Zuwachs
BE 10.3 11.1 +0.8 AW 10.6 11.1 +0.4 ZST 10.6 12.2 +1.7 GF 10.4 12.2 +1.8 RD 10.8 11.2 +0.4 MT 10.1 11.2 +1.1 WT 11.0 11.3 +0.3 AV 11.2 11.2 +0.0 SYS/SS 10.8 12.4 +1.6 ZN 10.2 9.9 -0.3 SV/SV 104.8 110.9 +6.1 WLD/WO 103.0 104.3 +1.3 AGD/UA 101.6 104.1 +2.6 VG/AG 104.0 113.6 +9.6 Gesamt-IQ 104.2 109.1 +4.9
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Auch im langen Intervall zeigen sich deutlichere Unterschiede als bei Erstvorgabe des HAWIK-
III, alles in allem jedoch niedrigere als im kurzen Intervall. Hier existiert die größte Zunahme im
GF, gefolgt von den Untertests der Geschwindigkeitsindizes: ZST und SYS. Wie in den anderen
Stichproben zeigt sich auch bei den Kindern der Stichprobe GL-IV mit fast zehn Wertpunkten
der größte Anstieg von VG zu AG.
Für einen Überblick über die Höhe des Lerneffekts im kurzen und langen Intervall insgesamt
wurden für jeden Untertest und jeden Index neue Variablen berechnet. Dafür wurden bei den
Kindern, die den HAWIK-III zuerst durchführten (G-III), die Werte des HAWIK-III von denen des
HAWIK-IV, und bei denen, die erst den HAWIK-IV durchführten (G-IV), die Werte des HAWIK-IV
von denen des HAWIK-III abgezogen wurden. Es wurde also immer die Werte der ersten von
der zweiten Testung abgezogen. So ergibt sich für jeden Untertest und Index ein Differenzbet-
rag für jedes Kind. Die mittleren Differenzen stellen den durchschnittlichen Wertpunkt- bzw.
IQ-Zuwachs von der ersten zur zweiten Testung dar und werden in Tabelle 8.11 aufgezeigt.
Kapitel 8 Ergebnisse 140
Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach kurzem und langem Intervall.
Untertest/Index Zuwachs kurzes Intervall (n=127)
Std.-diff. Zuwachs langes Intervall (n=95)
Std.-diff.
BE +1.6 +0.7 +1.1 +0.4 AW +0.4 +0.2 +0.4 +0.2 ZST +1.4 +0.7 +1.1 +0.5 GF +0.6 +0.3 +0.9 +0.4 RD +0.4 +0.2 +0.1 +0.0 MT +1.1 +0.5 +1.0 +0.4 WT +0.1 +0.0 +0.2 +0.1 AV 0.0 +0.0 +0.1 +0.0 SS/SYS +1.2 +0.5 +1.3 +0.5 ZN +0.5 +0.2 +0.3 +0.1 SV/SV +1.7 +0.2 +2.7 +0.3 WO/WLD +3.8 +0.3 +2.3 +0.2 UA/AGD +1.7 +0.2 +2.0 +0.2 AG/VG +7.4 +0.8 +7.1 +0.8 Gesamt-IQ +4.0 +0.4 +3.1 +0.4
Anmerkungen: Std.-diff. = Standarddifferenz. Berechnung siehe Kapitel 7.5.3. Abkürzungen siehe Anhang A5 und A6.
Die Wertzuwächse fallen im kurzen Intervall zwar etwas höher aus als im langen Intervall, ins-
gesamt haben jedoch unabhängig von der Länge des Intervalls die gleichen Untertests und
Indizes hohe oder niedrige Zunahmen zu verzeichnen. In beiden Intervallen weisen die Werte
den höchsten Anstieg im Index VG auf. Hinsichtlich der Untertests zeigen in beiden Intervallen
die Werte des AV und RD die geringsten und die Werte des BE, ZST und SS bzw. SYS die
höchsten Zuwächse.
Studien besagen, dass sich der Lerneffekt bei jüngeren Kindern deutlicher zeigt als bei älteren
Kindern (siehe Kapitel 5.2.1). Dies soll im Folgenden untersucht werden. Tabelle 8.12 präsen-
tiert die durchschnittlichen Mittelwertdifferenzen nach kurzem Re-Testintervall, aufgeteilt in
die drei Altersgruppen 6 bis 7, 8 bis 11 und 12 bis 16 Jahre.
Kapitel 8 Ergebnisse 141
Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen.
Untertest/Index Alter 6-7
(n=20) Std.-diff.
Alter 8-11 (n=37)
Std.-diff. Alter 12-16
(n=70) Std.-diff.
BE +0.1 0.0 +1.9 +0.8 +1.8 +0.8 AW +0.6 +0.3 +0.6 +0.3 +0.3 +0.2 ZST +1.5 +0.6 +1.2 +0.6 +1.5 +0.7 GF +0.6 +0.2 +0.9 +0.3 +0.5 +0.3 RD +0.3 +0.1 -0.1 0.0 +0.6 +0.3 MT +0.5 +0.2 +1.0 +0.4 +1.3 +0.6 WT -0.1 0.0 -0.1 0.0 +0.2 +0.1 AV -0.2 -0.1 -0.2 -0.1 +0.2 +0.1 SS/SYS +1.7 +0.6 +1.5 +0.6 +0.9 +0.4 ZN +0.6 +0.3 +0.8 +0.4 +0.3 +0.1 SV/SV +1.1 +0.1 +1.1 +0.1 +2.3 +0.3 WO/WLD +0.4 0.0 +3.4 +0.2 +5.0 +0.4 UA/AGD +4.1 +0.4 +1.5 +0.1 +1.2 +0.1 AG/VG +8.6 +0.8 +7.7 +0.8 +6.9 +0.7 Gesamt-IQ +3.5 +0.4 +3.1 +0.3 +4.6 +0.5
Anmerkungen: siehe Tabelle 8.11.
Wie der Tabelle 8.12 entnommen werden kann, offenbaren nur in den Index-Kombinationen
UA und AGD sowie AG und VG die jüngsten Kinder den höchsten Zuwachs. In den anderen
Indizes und im Gesamt-IQ haben die Jugendlichen zwischen 12 und 16 Jahren am deutlichsten
von der ersten Testung profitiert.
Abschließend sind aus der Tabelle 8.13 die Mittelwertzuwächse bzw. -abnahmen nach langem
Intervall ersichtlich, wiederum unterteilt in die drei Altersgruppen.
Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen.
Untertest/Index Alter 6-7
(n=17) Std.-diff.
Alter 8-11 (n=36)
Std.-diff. Alter 12-16
(n=42) Std.-diff.
BE 0.0 0.0 +1.4 +0.5 +1.2 +0.5 AW +1.0 +0.4 +0.3 +0.1 +0.3 +0.2 ZST +0.9 +0.4 +0.4 +0.2 +1.8 +0.9 GF +1.5 +0.6 +0.5 +0.2 +1.1 +0.5 RD +0.2 +0.1 -0.2 -0.1 +0.3 +0.1 MT +0.1 +0.1 +0.4 +0.2 +1.8 +0.7 WT -0.2 -0.1 +0.3 +0.1 +0.2 +0.1 AV -0.1 0.0 -0.2 -0.1 +0.4 +0.2 SS/SYS +2.0 +0.7 +1.2 +0.5 +1.1 +0.5 ZN +0.1 0.0 +0.1 0.0 +0.5 +0.2 SV/SV +4.7 +0.5 +0.6 +0.1 +3.8 +0.6 WO/WLD -0.5 0.0 +1.8 +0.1 +3.8 +0.3 UA/AGD +4.5 +0.4 -1.4 -0.1 +4.0 +0.4 AG/VG +8.7 +0.8 +5.0 +0.6 +8.3 +1.0 Gesamt-IQ +3.8 +0.4 +0.6 +0.1 +5.0 +0.6
Anmerkungen: siehe Tabelle 8.11.
Kapitel 8 Ergebnisse 142
Im langen Intervall birgt die Gruppe der 12- bis 16-Jährigen im Gesamt-IQ und der Indexkom-
bination WO und WLD den höchsten Zuwachs. In den anderen Indizes kann bei den jüngsten
Kindern der höchste Anstieg aufgezeigt werden.
Zusammenfassend lässt sich somit ein Lerneffekt feststellen. Vor allem in den Geschwindig-
keitsindizes AG bzw. VG profitieren die Kinder und Jugendlichen deutlich von der ersten Tes-
tung. Nach kurzem Intervall wird ein etwas deutlicherer Zuwachs ersichtlich als nach langem
Intervall. Während nach kurzem Intervall die jüngste Altersstufe in den Gedächtnis- und Ge-
schwindigkeitsindizes den höchsten Zuwachs aufweist und in den anderen Indexkombinatio-
nen die ältesten Kinder am meisten von der ersten Testung profitierten, haben im langen
Intervall, bis auf in den Indexkombination WO und WLD, immer die 6- bis 7-Jährigen den
höchsten Anstieg zu verzeichnen.
8.5 Flynn-Effekt Ein weiterer möglicher Störeinfluss auf die Ergebnisse des Mittelwertvergleichs stellt der
Flynn-Effekt dar (siehe Kapitel 5.2.2). Zur Untersuchung des Flynn-Effekts werden nur die Kin-
der der Stichprobe mit langem Re-Testintervall ausgewählt, da bei ihnen der Lerneffekt weni-
ger zum Tragen kommt (siehe Kapitel 8.4). Da der Lerneffekt, wie oben gezeigt, jedoch auch im
langen Intervall nachgewiesen werden konnte, kann mit Hilfe dieser Studie kein eindeutiger
Nachweis oder Gegenbeweis für die Existenz des Flynn-Effekts geboten werden.
Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall (n= 93-95).
HAWIK-III HAWIK-IV Untertest/Index M SD M SD Differenz Std.-diff. BE 11.0 2.9 11.3 3.0 +0.3 0.09 AW 10.9 3.0 10.9 2.6 +0.0 -0.01 ZST 11.2 3.0 10.7 2.8 -0.5 -0.17 GF 12.0 3.2 11.2 2.6 -0.8 -0.29 RD 10.9 2.7 10.6 2.3 -0.3 -0.12 MT 10.9 3.3 10.8 3.2 -0.1 -0.04 WT 11.6 3.2 11.5 2.8 -0.1 -0.04 AV 11.2 2.2 11.3 2.5 0.0 0.01 SS/SYS 11.3 3.1 11.0 2.6 -0.4 -0.13 ZN 9.6 2.4 10.2 2.3 +0.6 0.25 SV/SV 110.5 15.6 107.2 13.2 -3.3 -0.23 WO/WLD 104.2 14.6 105.2 12.8 +1.0 0.07 UA/AGD 102.2 12.5 101.7 11.2 -0.5 -0.04 AG/VG 107.3 15.7 104.8 13.7 -2.5 -0.17 Gesamt-IQ 108.0 14.2 106.2 11.6 -1.8 -0.14
Anmerkungen: M = Mittelwert, SD = Standardabweichung, Std.-diff. = Standarddifferenz. Be-rechnung der Standarddifferenz siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und A6.
Kapitel 8 Ergebnisse 143
Tabelle 8.14 stellt die Mittelwerte und Wertpunkt- und IQ-Zuwächse bzw. -Abnahmen der GL
dar. Dabei scheint nur in einigen Bereichen ein Flynn-Effekt erkennbar zu sein. Die deutlichste
IQ-Abnahme zeigt sich im Vergleich der SV-Indizes und der Geschwindigkeitsindizes AG und
VG.
Wie in Kapitel 5.2.2 beschrieben zeigt sich der Flynn-Effekt vor allem in den Randbereichen des
kognitiven Leistungsspektrums. Auf einen Vergleich zu Kindern aus dem extrem niedrigen Leis-
tungsbereich muss an dieser Stelle aufgrund der geringen Anzahl an Kindern mit einem Ge-
samt-IQ unter 85 in dieser Stichprobe verzichtet werden. Somit werden an dieser Stelle die
Ergebnisse der Kinder und Jugendlichen noch einmal gesondert betrachtet, die im HAWIK-III
einen Gesamt-IQ von ≥ 115 erzielten (siehe Tabelle 8.15). Wie die Tabelle 8.15 verdeutlicht
lassen sich Anzeichen für eine Normverschiebung zwischen HAWIK-III und -IV erkennen.
Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28).
HAWIK-III HAWIK-IV Untertest/Index M SD M SD Differenz Std.-diff. BE 13.2 2.3 12.9 2.4 -0.3 -0.11 AW 13.8 2.1 13.2 2.3 -0.6 -0.28 ZST 12.1 3.2 11.4 2.7 -0.7 -0.24 GF 14.9 2.5 12.9 2.0 -2.0 -0.87 RD 13.3 2.0 11.8 2.0 -1.5 -0.75 MT 13.5 2.7 12.8 2.8 -0.8 -0.27 WT 14.0 2.4 13.6 2.2 -0.4 -0.19 AV 13.0 2.4 12.8 2.3 -0.2 -0.08 SS/SYS 12.4 2.9 12.0 2.1 -0.4 -0.15 ZN 10.6 2.3 11.1 2.0 0.5 0.23 SV/SV 127.3 11.4 118.0 10.4 -9.2 -0.85 WO/WLD 120.1 10.2 114.8 9.8 -5.3 -0.53 UA/AGD 112.4 10.9 107.7 9.7 -4.7 -0.45 AG/VG 112.7 16.7 109.3 12.0 -3.4 -0.23 Gesamt-IQ 125.9 6.9 116.9 7.8 -9.0 -1.23
Anmerkungen: siehe Tabelle 8.14.
Auf Untertestebene sind die Wertpunkte bei den leistungsstarken Kindern und Jugendlichen
vor allem im GF und RD gesunken. Der Gesamt-IQ und das SV liegen im HAWIK-III circa 9 Punk-
te höher als im HAWIK-IV.
Insgesamt können die Störeinflüsse Lern- und Flynn-Effekt zur Erklärung der signifikanten Dif-
ferenzen zwischen den meisten Index- und Untertestwerten beider Testversionen beitragen
(mehr dazu siehe Kapitel 9.2).
Kapitel 8 Ergebnisse 144
8.6 Untersuchung der Teststruktur mit Hilfe von Faktorenana-lysen
Im Folgenden werden Faktorenanalysen berechnet, die Hinweise auf die Struktur der zu unter-
suchenden Testverfahren und die Höhe der Ladungen auf den von den Testautoren benannten
Faktoren liefern sollen. Damit wird der Frage 3: „Ist die von den Testautoren vorgegebene
Faktorenstruktur des HAWIK-III in der vorliegenden Studie replizierbar?“ und der Frage 4:
„Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in der vorliegen-
den Studie replizierbar?“ nachgegangen. Gleichzeitig werden die dazugehörigen Hypothesen
6.2.1 bis 6.2.3 untersucht.
8.6.1 Faktorenanalysen ohne Vorgabe der Faktorenanzahl
Zur Untersuchung der Struktur beider Testversionen wird die Faktorenanalyse zunächst ohne
Vorgabe der Faktorenanzahl durchgeführt.
Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenan-zahl.
Untertest Faktor
1 2 3 AW .78 .20 .13 WT .77 .19 .01 GF .77 .23 -.02 AV .63 .32 .01 RD .56 .09 .40 FL .08 .79 .06 MT .21 .64 .38 BE .32 .58 -.03 BO .32 .57 .13 ZST .00 .15 .75 SS -.07 .20 .74 ZN .38 -.15 .60
Anmerkungen: Die Untertests sind sortiert nach Höhe der Faktorladungen. Details zur Berech-nung siehe Kapitel 7.5.2. Abkürzungen siehe Anhang A5 und A6.
Die Tabelle 8.16 zeigt eine Drei-Faktoren-Struktur des HAWIK-III.
Somit muss an dieser Stelle die Hypothese 6.2.1 abgelehnt werden.
Den ersten Faktor bilden die Untertests des Index SV und der Untertest RD. Auf dem zweiten
Faktor laden die Untertests des Index WO und auf dem dritten Faktor die Untertests des Index
AG und der Untertest ZN. RD weist ebenfalls relativ hohe Ladungen auf dem dritten Faktor auf.
Für die 15 Untertests des HAWIK-IV wurde ebenfalls eine explorative Faktorenanalyse berech-
net. Tabelle 8.17 stellt die erhaltene Faktorenstruktur des HAWIK-IV ohne Faktorenvorgabe
dar.
Kapitel 8 Ergebnisse 145
Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenan-zahl.
Untertest Faktor
1 2 3 BEN .79 -.05 .14 WT .78 -.08 .22 GF .77 .09 .20 AW .68 .00 .40 AV .67 -.02 .15 BE .62 .43 -.12 BK .57 .24 -.14 MT .50 .40 .18 MZ .40 .37 .31 SYS .12 .77 .21 DT -.01 .74 -.11 ZST -.03 .71 .27 ZN .10 .06 .83 BZF .09 .10 .78 RD .36 .24 .58
Anmerkungen: siehe Tabelle 8.16.
Wie schon im HAWIK-III zeigen sich auch für den HAWIK-IV nur drei Faktoren.
Die Hypothese 6.2.2 muss somit ebenfalls abgelehnt werden.
Die Untertests des SV und des WLD können dem ersten Faktor zugeordnet werden. Der zweite
Faktor setzt sich aus Untertests des Index VG zusammen und auf dem dritten Faktor laden die
Untertests des Index AGD.
Aufgrund des bereits festgestellten großen Einflusses des Re-Testintervalls und der Testreihen-
folge (siehe Lern- und Flynn-Effekt) werden die Faktorenanalysen zusätzlich getrennt nach
Höhe des Intervalls sowie getrennt nach Reihenfolge der Testvorgabe durchgeführt.
Unterteilung in Intervall:
Im HAWIK-IV zeigen sich im kurzen Intervall genau die vier Faktoren, wie sie theoretisch vorge-
geben werden (siehe Anhang A7). Im langen Intervall ergeben sich jedoch nur drei Faktoren,
die auch nur teilweise mit der Struktur des HAWIK-IV übereinstimmen (siehe Anhang A8).
Die Faktorenanalyse der HAWIK-III-Untertests weist im langen Intervall nahezu theoriekonfor-
me Ergebnisse auf, einzig BO ist eher den Untertests des UA, RD und ZN, zuzuordnen als den
anderen Untertests des WO (siehe Anhang A10). Im kurzen Intervall kann MT dem Faktor, auf
dem die Untertests des UQ laden, eher zugeordnet werden als dem Faktor, auf dem sich die
Untertests des WO befinden (siehe Anhang A9).
Unterteilung in Testreihenfolge:
Die Faktorenanalyse der HAWIK-III-Untertests mit der Stichprobe, die den HAWIK-III zuerst
bearbeitet hat (siehe Anhang A11) weist vier Faktoren auf, allerdings insofern abweichend von
Kapitel 8 Ergebnisse 146
der vorgegebenen Teststruktur, als dass MT etwas mehr auf dem UA-Faktor lädt als auf dem
WO-Faktor (das selbe Ergebnis zeigte sich schon für die Stichprobe, die ein kurzes Intervall
zwischen den Testungen aufwies, siehe oben). In der Stichprobe, die den HAWIK-IV zuerst ab-
solvierte, bilden die Untertests des HAWIK-III lediglich drei Faktoren, in denen die theoriegelei-
teten Faktoren nur bedingt wiederzufinden sind (siehe Anhang A12). So lädt BO mehr auf dem
SV-Faktor als auf dem Faktor der WO-Untertests. Außerdem bilden die Untertests des Index
AG einen gemeinsamen Faktor mit dem ZN.
Die Ergebnisse der Untertests des HAWIK-IV der Kinder, die zuerst den HAWIK-III vorgelegt
bekamen, bilden exakt die vier Faktoren, die dem Test theoretisch zu Grunde liegen (siehe
Anhang A13). Wurde jedoch zuerst der HAWIK-IV durchgeführt, laden die Untertests des HA-
WIK-IV auf drei Faktoren, von denen einzig der Faktor AGD erkennbar ist (siehe Anhang A14).
Zusammenfassend kann somit festgestellt werden, dass sich bei den Untertests des HAWIK-IV
im kurzen Intervall und bei Erstvorgabe des HAWIK-III die vier von den Testautoren vorgege-
benen Faktoren wiederfinden lassen, ohne dass eine Faktorenanzahl vorgegeben wurde. In
diesen Teilstichproben könnte demnach die Hypothese angenommen werden.
8.6.2 Faktorenanalysen mit Vorgabe der Faktorenanzahl
Im Folgenden wird vor der Berechnung der Faktorenanalysen festgelegt, dass sich vier Fakto-
ren ergeben sollen. Dies entspricht der vorgegebenen Teststruktur beider HAWIK-Versionen.
Indem zunächst eine Faktorenanalyse mit Vorgabe von vier Faktoren berechnet wird, in die
sämtliche Untertests beider Testversionen einbezogen werden, soll ein Eindruck davon vermit-
telt werden, wie hoch die Untertests beider Testversionen gemeinsam auf die ihnen zu Grunde
liegenden Faktoren laden. In Tabelle 8.18 werden die Ergebnisse dieser Faktorenanalyse dar-
gestellt.
Kapitel 8 Ergebnisse 147
Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren.
Untertest Faktor
1 2 3 4 WT-IV .80 .15 .15 .00 WT-III .78 .06 .20 .07 BEN-IV .73 .23 .12 -.03 GF-III .73 .20 .15 -.01 AV-III .72 .10 .00 .19 GF-IV .71 .30 .17 .01 AV-IV .70 .20 .01 .07 AW-III .66 .25 .35 -.05 AW-IV .63 .27 .38 -.05 MT-IV .14 .78 .26 .07 MT-III .14 .71 .24 .16 BE-IV .31 .66 -.09 .14 FL-III .13 .64 .05 .05 BE-III .36 .44 -.06 .07 MZ-IV .19 .44 .35 .19 BK-IV .28 .43 .02 .06 BO-III .39 .39 .03 .18 ZN-IV .10 .01 .81 .07 ZN-III .02 .01 .78 .14 BZF-IV .16 .00 .69 .14 RD-IV .28 .24 .61 .17 RD-III .27 .34 .60 .01 ZST-III .04 .03 .20 .81 ZST-IV .06 .01 .16 .80 SYS-IV .10 .24 .14 .77 SS-III .03 .04 .12 .65 DT-IV -.04 .23 -.10 .58
Anmerkungen: siehe Tabelle 8.16.
Die vier Faktoren entsprechen der von den WISC-Entwicklern vorgegebenen Teststruktur. Der
erste Faktor beinhaltet die Untertests der beiden als SV bezeichneten Indizes, der zweite Fak-
tor besteht aus den Untertest des WO und des WLD, der dritte Faktor beinhaltet die Unter-
tests der Indizes UA und AGD und der vierte Faktor bildet sich aus den Untertests der Indizes
AG und VG.
Die Hypothese 6.2.3 kann somit angenommen werden.
Allerdings kann BO sowohl dem ersten als auch dem zweiten Faktor zugeordnet werden. Auch
die beiden Versionen des BE laden zusätzlich mit mehr als .30 auf dem ersten Faktor, der die
Untertests des SV beinhaltet.
Im Folgenden soll für jede Testversion getrennt die von den Testautoren vorgegebene Test-
struktur untersucht werden. Dafür werden jeweils vier Faktoren vorgegeben, da dies der theo-
retisch festgelegten Anzahl entspricht.
Kapitel 8 Ergebnisse 148
Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren.
Untertest Faktor
1 2 3 4 WT .79 .09 .19 .02 AV .78 .16 -.04 .17 GF .77 .16 .21 -.04 AW .66 .20 .45 -.03 FL .08 .85 .08 -.02 MT .13 .71 .33 .23 BO .37 .53 .06 .14 BE .45 .49 -.11 .08 RD .24 .25 .78 .00 ZN .08 -.02 .75 .27 ZST .08 .07 .13 .83 SS .02 .13 .09 .82
Anmerkungen: siehe Tabelle 8.16.
Werden die vier Faktoren vorgeben, lässt sich die Teststruktur des HAWIK-III (siehe Tabelle
8.19) im vorliegenden Datensatz wiederfinden.
Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.1 somit angenommen werden.
Der erste Faktor setzt sich aus den Untertests des SV zusammen, der zweite aus den Unter-
tests des WO, der dritte aus den Untertests des UA-Index und der vierte Faktor aus den Unter-
tests des AG. BE kann jedoch wie schon bei der Analyse unter Berücksichtigung aller Untertests
beider Versionen (siehe Tabelle 8.18) fast gleich gut dem ersten als auch dem zweiten Faktor
zugeordnet werden. AW zeigt neben dem Sprachfaktor ebenfalls hohe Ladungen auf dem Fak-
tor, der die Untertests des UA-Index beinhaltet.
Die Ergebnisse der Faktorenanalyse für die HAWIK-IV-Untertests werden in der folgenden Ta-
belle 8.20 dargestellt.
Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren.
Untertest Faktor
1 2 3 4 WT .84 .16 .12 .00 BEN .79 .09 .22 -.01 AV .74 .09 .09 .07 GF .73 .16 .30 .09 AW .61 .39 .31 -.04 ZN .08 .85 .10 .02 BZF .18 .76 -.07 .16 RD .24 .60 .34 .14 BK .27 -.08 .68 .00 MT .21 .23 .67 .17 MZ .12 .37 .62 .14 BE .43 -.11 .55 .30 ZST .10 .21 -.08 .84 SYS .11 .18 .18 .79 DT -.14 -.09 .31 .66
Anmerkungen: siehe Tabelle 8.16.
Kapitel 8 Ergebnisse 149
Wie aus der Tabelle 8.20 ersichtlich, lässt sich auch für den HAWIK-IV bei Vorgabe der vier
Faktoren die testtheoretische Faktorenstruktur replizieren. Den ersten Faktor bilden die Unter-
tests des SV, den zweiten die Untertests des AGD, dem dritten lassen sich die Untertests des
WLD und dem vierten Faktor die Untertests des VG zuordnen.
Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.2 somit angenommen werden.
Wie bei der Faktorenanalyse der HAWIK-III-Untertests laden auch bei der Analyse der HAWIK-
IV-Untertests AW relativ hoch auf dem Faktor, der die AGD-Untertests beinhaltet und BE auf
dem Faktor, der sich aus den Untertests des Index SV zusammensetzt.
8.6.3 Zusammenfassung Faktorenanalysen
Faktorenanalysen ohne Vorgabe der Faktorenanzahl konnten die vier Faktoren des HAWIK-III
und HAWIK-IV nur teilweise nachweisen. Anhand von Faktorenanalysen mit Vorgabe der Fak-
torenanzahl können die Hypothesen zur Faktorenstruktur beider Versionen jedoch bestätigt
werden. Sowohl die Untersuchung sämtlicher Untertests beider Testversionen als auch die
separaten Analysen der Tests weisen die Vier-Faktoren-Struktur auf, wie sie von den Entwick-
lern vorgegeben wurde. Dabei stellt sich heraus, dass die Untertests BE und BO ebenfalls hoch
auf dem Sprachverständnis-Faktor laden und AW zusätzlich auf dem Gedächtnis-Faktor hohe
Ladungen aufweist. Während die bezüglich der Faktorenstruktur beider Testversionen aufges-
tellten Hypothesen also nach der Berechnung ohne Faktorenvorgabe abgelehnt werden müs-
sen, können sie anhand einer Faktorenanalyse mit Vorgabe der vier testeigenen Faktoren an-
genommen werden. Insgesamt konnte demnach die Struktur des HAWIK-III und des HAWIK-IV
repliziert werden.
8.7 Untersuchung des Zusammenhangs mit Hilfe von Korrela-tionen
Die Untersuchung der Korrelationen gibt Aufschluss über die Höhe und Richtung des Zusam-
menhangs der Untertests und Indizes beider Testversionen. Die Fragestellungen 5 bis 8 be-
schäftigen sich mit der Höhe der Korrelationen der sich entsprechenden Werte. Im Folgenden
soll also geklärt werden, ob sich die Korrelationen zwischen den sich entsprechenden Werten
als ebenso hoch erweisen, wie es sich in vergleichbaren Studien darstellte.
8.7.1 Korrelationen der Gesamtstichprobe
Wie im Manual des HAWIK-IV werden die Korrelationen zwischen beiden Testversionen zu-
nächst getrennt in Abhängigkeit von der Reihenfolge der Testvorgabe angegeben. Tabelle 8.21
zeigt die Korrelationen zwischen HAWIK-III und -IV der G-III und Tabelle 8.22 die Korrelationen
der G-IV.
Kapitel 8 Ergebnisse 150
Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 111 11.9 2.9 MT 111 10.8 2.9 .38 .68 GF 111 11.5 2.3 GF 111 11.4 2.6 .00 .57 ZN 111 10.4 2.3 ZN 111 9.5 2.4 .37 .59 ZST 111 11.7 2.7 ZST 111 11.0 2.8 .28 .77 WT 111 11.3 2.6 WT 111 11.7 2.6 -.16 .64 AV 111 11.2 2.1 AV 111 11.2 2.0 -.01 .40 SYS 109 11.5 2.6 SS 109 10.9 2.7 .22 .57 BE 111 11.9 2.7 BE 111 10.6 2.7 .50 .55 AW 110 11.0 2.4 AW 110 10.8 2.8 .06 .74 RD 110 11.3 2.1 RD 110 11.0 2.9 .10 .53 SV 111 107.0 11.5 Verbal-IQ 111 108.2 12.3 -.10 .75 WLD 111 107.5 11.7 Handlungs-IQ 111 105.1 13.0 .19 .50 SV 111 107.0 11.5 SV 111 109.3 12.9 -.19 .79 WLD 111 107.5 11.7 WO 111 104.4 13.5 .25 .48 AGD 111 103.3 11.3 UA 111 102.3 13.0 .08 .61 VG 109 109.0 13.7 AG 109 105.3 13.7 .27 .81 Gesamt-IQ 111 108.5 9.8 Gesamt-IQ 111 107.5 12.5 .09 .73 Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, Std.-diff. = Standarddifferenz, r = Höhe der Korrelation. Zur Berechnung der Standarddifferenz siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und A6.
Die Gesamt-IQ beider Testversionen korrelieren mit r = .73. Auf Index-Ebene weisen die Ver-
gleiche zwischen WLD und Handlungs-IQ sowie zwischen WLD und WO in der G-III die niedrigs-
ten Korrelationen auf. Die höchsten Korrelationen zeigen sich dagegen zwischen den Indizes
VG und AG. Der Untertest AV weist mit r = .40 mit Abstand die niedrigste, der nicht veränderte
ZST bei erneuter Testung mit r = .77 die höchste Korrelation auf. Die beiden Versionen des AW
korrelieren mit r = .74 ebenfalls hoch miteinander.
Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 112 10.5 2.9 MT 112 11.4 3.4 -.30 .72 GF 112 10.6 2.4 GF 112 12.1 2.9 -.57 .68 ZN 112 10.4 2.7 ZN 112 10.3 2.7 .03 .68 ZST 112 10.3 2.8 ZST 112 12.2 3.3 -.61 .75 WT 112 10.8 2.7 WT 112 11.4 3.1 -.21 .69 AV 112 11.1 2.6 AV 112 11.3 2.0 -.06 .70 SYS 112 10.6 2.5 SS 112 12.4 2.6 -.68 .56 BE 111 10.2 2.6 BE 111 11.5 3.2 -.46 .61 AW 111 10.5 2.6 AW 111 11.2 2.7 -.28 .75 RD 112 10.8 2.6 RD 112 11.1 2.6 -.10 .68 SV 112 104.4 13.0 Verbal-IQ 112 109.6 13.5 -.39 .81 WLD 112 103.3 12.3 Handlungs-IQ 112 108.6 15.2 -.38 .66 SV 112 104.4 13.0 SV 112 111.0 14.5 -.48 .83 WLD 112 103.3 12.3 WO 112 106.5 15.3 -.23 .64 AGD 112 102.4 13.2 UA 112 105.0 13.3 -.20 .66 VG 112 102.6 12.9 AG 112 113.1 14.5 -.76 .79 Gesamt-IQ 112 104.0 12.3 Gesamt-IQ 112 110.2 14.1 -.47 .81 Anmerkungen: siehe Tabelle 8.21.
Kapitel 8 Ergebnisse 151
In der G-IV erweist sich die Korrelation im Gesamt-IQ mit r = .81 als etwas höher als in der G-III.
Ebenso hoch korreliert der SV des HAWIK-IV mit dem Verbal-IQ, die beiden SV-Indizes weisen
mit r = .83 die höchsten Korrelationen auf. Insgesamt liegen die Korrelationen in der G-IV hö-
her als in der G-III. Auch auf Untertestebene zeigen sich ähnlich hohe oder höhere Korrelatio-
nen. Die niedrigste Korrelation weisen die beiden Symbol-Suche-Untertests mit r = .56 und die
höchsten die AW-Untertests mit r = .75 auf.
Die folgende Tabelle 8.23 beinhaltet die Verteilungskennwerte der Testergebnisse sowie der
Korrelationen zwischen HAWIK-III und -IV. Erläuterungen zur Berechnung der gemittelten Wer-
te aus G-III und G-IV befinden sich in Kapitel 7.5.3.1.
Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223). HAWIK-IV N M SD HAWIK-III N M SD St.-diff. r rcorr
1 rcorr2 p aα
MT 223 11.2 2.9 MT 223 11.1 3.1 .03 .70 .74 .77 .512 .013 GF 223 11.0 2.4 GF 223 11.8 2.8 -.29 .63 .73 .81 .182 .006 ZN 223 10.4 2.5 ZN 223 9.9 2.6 .19 .64 .70 .76 .280 .007 ZST 223 11.0 2.7 ZST 223 11.6 3.0 -.19 .76 .79 .80 .759 .017 WT 223 11.0 2.7 WT 223 11.6 2.8 -.19 .67 .75 .81 .462 .008 AV 223 11.1 2.4 AV 223 11.2 2.0 -.04 .57 .67 .77 .001** .005 SYS 221 11.0 2.6 SS 221 11.6 2.7 -.22 .57 .63 .71 .944 .050 BE 222 11.1 2.6 BE 222 11.1 2.9 -.01 .58 .63 .69 .485 .010 AW 221 10.7 2.5 AW 221 11.0 2.8 -.12 .75 .81 .84 .922 .025 RD 222 11.1 2.4 RD 223 11.1 2.8 .00 .61 .71 .79 .070 .006 SV 223 105.7 12.3 V-IQ 223 108.9 12.9 -.25 .78 .87 .89 .260 .050 WLD 223 105.4 12.0 H-IQ 223 106.9 14.2 -.11 .58 .68 .78 .076 .025 SV 223 105.7 12.3 SV 223 110.1 13.7 -.34 .81 .88 .90 .326 .017 WLD 223 105.4 12.0 WO 223 105.4 14.4 .00 .57 .67 .78 .077 .013 AGD 223 102.8 12.3 UA 223 103.6 13.2 -.06 .64 .72 .79 .569 .025 VG 221 105.8 13.3 AG 221 109.2 14.1 -.24 .80 .84 .85 .639 .050 Gesamt-IQ 223 106.3 11.2 Gesamt-IQ 223 108.9 13.3 -.21 .77 .87 .90 .155 Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, St.-diff. = Standarddifferenz, r = Höhe der Korrelation, rcorr
1 und rcorr2 = korrigierte Korrelationen
(Formeln siehe 7.5.3.1), p = Signifikanz der Differenzen * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. Ausführliche Angaben zur Berech-nung der Werte siehe Kapitel 7.5.3.1. Weitere Abkürzungen siehe Anhang A5 und A6.
Der Gesamt-IQ beider Testversionen korreliert - nach der Korrektur, wie sie für den amerikani-
schen Vergleich WISC-III und WISC-IV vorgenommen wurde (rcorr1, siehe Kapitel 7.5.3.1) - mit
r = .87. Der SV und der Verbalteil korrelieren ebenso hoch, während der WLD mit dem Hand-
lungs-IQ mit r = .68 nach Korrektur einen niedrigeren Zusammenhang aufweist. Die korrigier-
ten Korrelationen der Indexvergleiche liegen zwischen r = .67 und .88. Innerhalb der Untertests
zeigen sich korrigierte Korrelationen von r = .63 bis .81.
Die Fragestellungen 5 bis 8 können somit bejaht und die H1 der zugehörigen Hypothesen 6.3.1
bis 6.3.7 angenommen werden.
Kapitel 8 Ergebnisse 152
Zusätzlich lässt sich anhand der Ergebnisse, die in Tabelle 8.23 dargestellt sind, die Fragestel-
lung 9: „Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der
Korrelationen?“ beantworten. Die einzige Korrelation, die sich je nach dem zuerst vorgelegten
Testverfahren signifikant unterscheidet, weist der Untertest AV auf. In der G-III korrelieren die
beiden AV-Untertests nur mit r = .40, in der G-IV jedoch mit r = .70. Dies führt zu einem signifi-
kanten Unterschied hinsichtlich der Höhe der Korrelation, je nachdem, welcher Test den Kin-
dern und Jugendlichen der Gesamtstichprobe zuerst vorgelegt wurde.
Innerhalb der Indizes und Gesamtwerte sind keine signifikanten Unterschiede dieser Art fest-
zustellen. Die Fragestellung 9 kann somit verneint und die H1 der Hypothesen 6.3.8 bis 6.3.14
angenommen werden.
Auch wenn die Frage nach dem Einfluss des Zeitintervalls zwischen beiden Testungen an der
gematchten Teilstichprobe untersucht werden soll (siehe Kapitel 7.3.2), werden im Folgenden
auch für die Gesamtstichprobe die Korrelationen getrennt nach der Länge des Re-Testintervalls
geprüft. In Tabelle 8.24 bis Tabelle 8.26 befinden sich die Angaben für die GK zunächst ge-
trennt nach Testvorgabe und dann gemeinsam.
Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 12.2 2.8 MT 10.9 2.9 .78 .71 GF 11.1 2.2 GF 11.1 2.4 -.04 .55 ZN 10.6 2.5 ZN 9.7 2.6 .56 .68 ZST 12.4 2.5 ZST 11.6 3.0 .52 .77 WT 10.8 2.5 WT 11.6 2.5 -.49 .64 AV 11.0 2.2 AV 11.1 1.9 -.09 .48 SYS 11.8 2.8 SS 11.4 2.5 .25 .63 BE 11.7 2.4 BE 10.3 2.8 .83 .64 AW 10.8 2.5 AW 10.9 2.7 -.05 .73 RD 12.0 2.1 RD 11.4 3.1 .38 .60 SV 105.1 11.5 Verbal-IQ 108.0 11.9 -.86 .78 WLD 107.6 11.1 Handlungs-IQ 106.2 14.1 .39 .51 SV 105.1 11.5 SV 108.7 12.2 -1.05 .82 WLD 107.6 11.1 WO 104.6 14.4 .86 .48 AGD 104.5 12.7 UA 103.8 14.0 .18 .67 VG 111.9 13.7 AG 108.5 13.6 .90 .82 Gesamt-IQ 108.9 10.3 Gesamt-IQ 108.0 12.9 .24 .75 Anmerkungen: siehe Tabelle 8.21.
Der Gesamt-IQ beider Testversionen korreliert in dieser Teilstichprobe mit r = .75. Wie schon in
der Gesamtstichprobe (G-III, siehe Tabelle 8.21) weisen die Kombinationen WLD und Hand-
lungs-IQ sowie WLD und WO auch dann die niedrigsten Zusammenhänge auf, wenn der HA-
WIK-III zuerst durchgeführt wurde. Die höchsten Korrelationen zeigen sich zwischen den Indi-
zes VG und AG und den SV-Indizes. Der AV-Vergleich weist mit r = .48 ebenso wie in der G-III
Kapitel 8 Ergebnisse 153
die niedrigste Korrelation auf. Der Untertest ZST des HAWIK-III und des HAWIK-IV zeigt mit
r = .77 identische Korrelationen zur G-III.
Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 65 10.8 2.6 MT 65 11.6 3.1 -.48 .69 GF 65 10.8 2.3 GF 65 12.1 2.4 -.86 .61 ZN 65 10.6 2.8 ZN 65 10.6 2.7 -.05 .77 ZST 65 10.1 2.7 ZST 65 12.1 3.3 -1.16 .75 WT 65 10.7 2.6 WT 65 11.5 2.6 -.53 .68 AV 65 11.0 2.3 AV 65 11.3 1.9 -.16 .67 SYS 65 10.4 2.2 SS 65 12.3 2.5 -1.21 .39 BE 64 10.2 2.5 BE 64 11.9 3.1 -1.07 .64 AW 64 10.3 2.4 AW 64 11.3 2.7 -.59 .75 RD 65 10.8 2.6 RD 65 11.0 2.6 -.10 .66 SV 65 104.2 11.7 Verbal-IQ 65 109.5 11.9 -1.56 .74 WLD 65 103.6 12.0 Handlungs-IQ 65 109.8 14.0 -1.74 .55 SV 65 104.2 11.7 SV 65 111.0 12.2 -1.99 .77 WLD 65 103.6 12.0 WO 65 108.1 14.1 -1.25 .55 AGD 65 103.0 13.3 UA 65 105.6 13.5 -.72 .71 VG 65 101.5 11.7 AG 65 112.7 13.5 -3.15 .73 Gesamt-IQ 65 103.9 11.6 Gesamt-IQ 65 111.0 12.4 -2.03 .75 Anmerkungen: siehe Tabelle 8.21.
Die GK-IV weist ebenso wie die G-IV (siehe Tabelle 8.22) im Gesamt-IQ sowie in den sprachli-
chen Index- und Gesamtwerten die höchsten Zusammenhänge auf. Auf Untertestebene zeigen
sich auch hier ähnlich hohe oder höhere Korrelationen wie bei den Kindern der GK-III (siehe
Tabelle 8.24). Als auffallend niedrig offenbart sich mit r = .39 der Zusammenhang zwischen den
Versionen der Symbol-Suche.
Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128). HAWIK-IV N M SD HAWIK-III N M SD St.-diff. r rcorr
1 rcorr2 p aα
MT 128 11.5 2.7 MT 128 11.2 3.0 .09 .70 .76 .80 .871 .025 GF 128 10.9 2.2 GF 128 11.6 2.4 -.30 .58 .71 .81 .584 .007 ZN 128 10.6 2.6 ZN 128 10.2 2.7 .15 .73 .77 .80 .276 .006 ZST 128 11.3 2.6 ZST 128 11.8 3.1 -.20 .76 .81 .83 .827 .017 WT 128 10.7 2.5 WT 128 11.6 2.6 -.32 .66 .76 .83 .666 .010 AV 128 11.0 2.3 AV 128 11.2 1.9 -.09 .59 .70 .80 .101 .006 SYS 128 11.1 2.5 SS 128 11.8 2.5 -.29 .52 .59 .70 .073 .005 BE 127 10.9 2.4 BE 128 11.1 2.9 -.08 .64 .71 .78 .968 .050 AW 127 10.6 2.4 AW 128 11.1 2.7 -.20 .74 .81 .84 .745 .013 RD 128 11.4 2.3 RD 128 11.2 2.9 .08 .63 .73 .80 .605 .008 SV 128 104.6 11.6 V-IQ 128 108.8 11.9 -.35 .76 .86 .89 .595 .025 WLD 128 105.6 11.5 H-IQ 128 108.0 14.1 -.19 .53 .65 .78 .738 .050 SV 128 104.6 11.6 SV 128 109.8 12.2 -.44 .80 .89 .91 .447 .017 WLD 128 105.6 11.5 WO 128 106.3 14.2 -.06 .51 .63 .77 .589 .025 AGD 128 103.7 13.0 UA 128 104.7 13.7 -.07 .69 .75 .80 .622 .050 VG 128 106.7 12.7 AG 128 110.6 13.5 -.30 .78 .82 .85 .220 .013 Gesamt-IQ 128 106.4 11.0 Gesamt-IQ 128 109.5 12.7 -.26 .75 .86 .89 .970 Anmerkungen: siehe Tabelle 8.23.
Kapitel 8 Ergebnisse 154
In der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen aufweist (GK), ergibt sich
zwischen den beiden Gesamt-IQ eine korrigierte Korrelation von r = .86. Auch hier zeigen sich
die niedrigsten Zusammenhänge bezogen auf die Indizes zwischen WLD und Handlungsteil
sowie WLD und WO. Insgesamt unterscheiden sich die Korrelationen der Gesamtstichprobe
(siehe Tabelle 8.23) und der GK (siehe Tabelle 8.26) nur unwesentlich voneinander. Einzig die
Untertests ZN und BE weisen in der GK etwas höhere Korrelationen zwischen HAWIK-III und -IV
auf als in der Gesamtstichprobe (r = .70 gegenüber .77 im ZN und r = .63 gegenüber .71 im BE).
Die niedrigsten Zusammenhänge offenbaren die Untertests SYS und SS mit r = .59 nach Korrek-
tur.
Tabelle 8.27 und Tabelle 8.28 beinhalten die Angaben der Korrelationsberechnungen für die
Stichprobe, bei der ein langes Intervall zwischen beiden Testungen lag (GL), getrennt nach der
Reihenfolge der Testvorgabe. Die Ergebnisse die zusammengefassten Berechnungen beider
Teilstichproben lassen sich Tabelle 8.29 entnehmen.
Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 48 11.5 2.9 MT 48 10.6 2.9 .50 .64 GF 48 12.0 2.3 GF 48 11.9 2.8 .06 .58 ZN 48 10.1 2.0 ZN 48 9.2 2.1 .59 .40 ZST 48 10.8 2.7 ZST 48 10.2 2.3 .40 .74 WT 48 11.9 2.6 WT 48 11.8 2.7 .04 .66 AV 48 11.4 1.9 AV 48 11.3 2.2 .07 .31 SYS 46 11.1 2.3 SS 46 10.2 2.9 .57 .48 BE 48 12.2 3.0 BE 48 10.9 2.5 .79 .44 AW 47 11.2 2.2 AW 47 10.7 3.1 .24 .79 RD 47 10.4 1.8 RD 47 10.6 2.7 -.13 .38 SV 48 109.6 11.2 Verbal-IQ 48 108.4 12.9 .35 .75 WLD 48 107.4 12.6 Handlungs-IQ 48 103.7 11.4 1.06 .50 SV 48 109.6 11.2 SV 48 110.2 13.9 -.17 .76 WLD 48 107.4 12.6 WO 48 104.2 12.3 .91 .50 AGD 48 101.8 9.1 UA 48 100.3 11.5 .47 .48 VG 48 105.3 12.9 AG 46 101.0 12.7 1.29 .78 Gesamt-IQ 48 108.1 9.2 Gesamt-IQ 48 106.9 12.1 .40 .69 Anmerkungen: siehe Tabelle 8.21.
Die GL-III offenbart auf Untertestebene zum Teil niedrige Korrelationen. So weisen die Hälfte
der Untertestvergleiche Korrelationen unter r = .50 auf. Der Vergleich Handlungsteil und WLD
zeigt mit r = .50 identische Korrelationen wie der Vergleich zwischen WO und WLD. Nur der
Vergleich zwischen UA und AGD ergab mit r = .48 noch niedrigere Zusammenhänge zwischen
beiden den Geschwindigkeits-Indizes beider Testversionen.
Kapitel 8 Ergebnisse 155
Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 10.1 3.4 MT 11.2 3.7 -.60 .75 GF 10.4 2.7 GF 12.2 3.5 -1.02 .75 ZN 10.2 2.5 ZN 9.9 2.7 .19 .53 ZST 10.6 2.9 ZST 12.2 3.3 -.94 .75 WT 11.0 3.0 WT 11.3 3.7 -.16 .72 AV 11.2 2.9 AV 11.2 2.3 -.03 .73 SYS 10.8 2.9 SS 12.4 2.8 -.97 .72 BE 10.3 2.8 BE 11.1 3.3 -.46 .59 AW 10.6 2.9 AW 11.1 2.9 -.26 .76 RD 10.8 2.6 RD 11.2 2.7 -.24 .72 SV 104.8 14.7 Verbal-IQ 109.7 15.5 -1.26 .87 WLD 103.0 12.8 Handlungs-IQ 106.9 16.7 -1.03 .57 SV 104.8 14.7 SV 110.9 17.4 -1.53 .88 WLD 103.0 12.8 WO 104.3 16.8 -.34 .76 AGD 101.6 13.2 UA 104.1 13.3 -.71 .58 VG 104.0 14.4 AG 113.6 16.0 -2.45 .85 Gesamt-IQ 104.2 13.4 Gesamt-IQ 109.1 16.1 -1.28 .86 Anmerkungen: siehe Tabelle 8.21.
Die GL-IV weist deutlich höhere Korrelationen auf als die GL-III. So liegen alle Untertestverglei-
che über r = .50. Innerhalb der Indizes und Gesamtwerte offenbaren nur die Vergleiche zwi-
schen Handlungsteil und WLD sowie zwischen UA und AGD Korrelationen unter r = .70. Die
Gesamt-IQ korrelieren mit r = .86 ebenfalls deutlich höher als in der GL-III.
Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95). HAWIK-IV N M SD HAWIK-III N M SD St.-diff. r rcorr
1 rcorr2 p aα
MT 95 10.8 3.1 MT 95 10.9 3.3 -.04 .70 .71 .72 .306 .008 GF 95 11.2 2.5 GF 95 12.0 3.2 -.29 .68 .75 .81 .133 .007 ZN 95 10.2 2.3 ZN 95 9.6 2.4 .24 .47 .57 .73 .457 .013 ZST 95 10.7 2.8 ZST 95 11.2 2.8 -.18 .75 .77 .78 .976 .050 WT 95 11.4 2.8 WT 95 11.6 3.2 -.04 .69 .76 .81 .567 .017 AV 95 11.3 2.5 AV 95 11.2 2.2 .01 .55 .63 .73 .005** .005 SYS 93 11.0 2.6 SS 93 11.3 2.9 -.13 .62 .67 .72 .065 .006 BE 95 11.2 2.9 BE 95 11.0 2.9 .09 .52 .53 .57 .332 .010 AW 94 10.9 2.6 AW 94 10.9 3.0 -.01 .77 .82 .84 .709 .025 RD 94 10.6 2.3 RD 94 10.9 2.7 -.12 .57 .68 .79 .017* .006 SV 95 107.2 13.0 V-IQ 95 109.0 14.3 -.13 .82 .88 .89 .074 .050 WLD 95 105.2 12.7 H-IQ 95 105.3 14.3 -.01 .66 .73 .79 .023** .025 SV 95 107.2 13.0 SV 95 110.5 15.7 -.23 .83 .89 .90 .066 .017 WLD 95 105.2 12.7 WO 95 104.2 14.7 .07 .64 .72 .78 .040* .013 AGD 95 101.7 11.3 UA 95 102.2 12.4 -.05 .53 .66 .79 .497 .050 VG 93 104.8 13.8 AG 93 107.3 14.5 -.17 .82 .84 .85 .303 .025 Gesamt-IQ 95 106.2 11.5 Gesamt-IQ 95 108.0 14.2 -.14 .79 .88 .90 .031 Anmerkungen: siehe Tabelle 8.23.
Da sich in der GL-IV deutlich höhere Zusammenhänge zeigen als in der GL-III, erweisen sich
einige Korrelationen in ihrer Höhe als voneinander signifikant verschieden. Innerhalb der Un-
tertests ist dies für AV und RD zu vermerken, allerdings zeigt sich nach einer α-Adjustierung
lediglich AV als weiterhin signifikant. Auf Indexebene stellt sich einzig der Vergleich WLD und
Kapitel 8 Ergebnisse 156
WO ohne α-Adjustierung je nach Testvorgabe als signifikant voneinander abweichend dar. Die
Korrelationen des Vergleichs Handlungsteil und WLD sowie der Gesamt-IQ erweisen sich eben-
so als voneinander signifikant divergent. Verglichen mit der Stichprobe, die nach einem kurzen
Intervall erneut getestet wurde (GK, siehe Tabelle 8.26), ergeben sich insgesamt in der GL ähn-
lich hohe Korrelationen. Der Gesamt-IQ-Vergleich erweist sich mit .88 nach Korrektur als etwas
höher als in der GK. Innerhalb der Indizes und der Gesamtwerte unterscheiden sich die Korre-
lationen unter Berücksichtigung der Testreihenfolge im langen Intervall maximal um r = .09
(der Vergleich zwischen WO und WLD weist in der GL, der Vergleich zwischen AGD und UA in
der GK etwas höhere Korrelationen auf). Die Korrelationen der Untertests unterscheiden sich
um maximal r = .20. Die mit Abstand größte Differenz zwischen den Werten der Kinder mit
kurzem und denen mit langem Intervall hinsichtlich der Höhe der Korrelationen weisen ZN
(.20) und BE (.18) auf. Die Korrelationen dieser beiden Untertests liegen sowohl deutlich un-
terhalb derer der GK als auch (wenn auch weniger deutlich) derer der Gesamtstichprobe.
8.7.2 Korrelationen der Teilstichprobe
Mit Hilfe der gematchten Teilstichprobe soll die Fragestellung 10: „Unterscheidet sich die
Höhe der Korrelationen, getrennt nach der Länge des Intervalls zwischen beiden Testungen,
signifikant voneinander?“ untersucht werden.
Tabelle 8.30 stellt die Korrelationen zwischen beiden Testversionen für die gematchte Stich-
probe mit einem kurzen Re-Testintervall (GemSK) und Tabelle 8.31 für die gematchte Stich-
probe mit einem langen Re-Testintervall (GemSL) dar.
Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 11.8 3.0 MT 11.6 3.0 .10 .62 GF 10.9 2.5 GF 11.7 2.4 -.48 .60 ZN 10.5 2.5 ZN 10.0 2.7 .28 .73 ZST 11.0 3.0 ZST 12.1 3.3 -.62 .72 WT 10.7 2.7 WT 11.5 2.5 -.50 .65 AV 11.2 2.1 AV 11.3 1.7 -.09 .54 SYS 11.2 2.6 SS 11.9 2.4 -.47 .38 BE 10.9 2.7 BE 11.3 3.0 -.22 .53 AW 10.8 2.4 AW 11.5 2.7 -.46 .72 RD 11.1 2.4 RD 10.9 2.7 .10 .59 SV 104.7 11.9 Verbal-IQ 109.1 11.4 -1.27 .76 WLD 106.3 12.1 Handlungs-IQ 109.7 14.4 -.94 .53 SV 104.7 11.9 SV 110.6 11.8 -1.70 .80 WLD 106.3 12.1 WO 107.8 14.5 -.41 .50 AGD 103.2 13.2 UA 103.4 13.6 -.06 .72 VG 106.1 14.0 AG 111.7 13.2 -1.52 .69 Gesamt-IQ 106.4 12.2 Gesamt-IQ 110.5 12.6 -1.18 .73 Anmerkungen: siehe Tabelle 8.21.
Kapitel 8 Ergebnisse 157
Ebenso wie in der GK (siehe Tabelle 8.26) zeigen sich auch in der gematchten Stichprobe mit
kurzem Intervall (GemSK) die niedrigsten Index-Korrelationen zwischen WLD und Handlungs-
teil sowie WLD und WO. Auch die niedrigsten Zusammenhänge in den Untertests SYS und SS
sind in beiden Stichproben zu finden, in der gematchten Stichprobe kommen sie sogar noch
deutlicher zum Vorschein (r = .38 in der GemSK gegenüber .52 in der GK vor Korrektur).
Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 10.4 3.2 MT 10.8 3.6 -.22 .67 GF 10.9 2.7 GF 11.8 3.1 -.52 .64 ZN 10.1 2.4 ZN 9.7 2.4 .28 .48 ZST 10.8 2.9 ZST 11.5 3.1 -.44 .68 WT 11.1 2.7 WT 11.3 3.4 -.13 .69 AV 11.3 2.7 AV 11.2 2.0 .06 .62 SYS 10.9 2.6 SS 11.6 3.0 -.46 .62 BE 10.7 2.7 BE 10.9 3.0 -.12 .47 AW 10.5 2.6 AW 10.6 3.0 -.05 .72 RD 10.5 2.3 RD 10.7 2.7 -.17 .65 SV 105.8 13.6 Verbal-IQ 107.6 14.2 -.48 .83 WLD 103.2 13.0 Handlungs-IQ 105.2 15.3 -.54 .67 SV 105.8 13.6 SV 109.2 15.8 -.86 .83 WLD 103.2 13.0 WO 103.5 15.4 -.09 .66 AGD 101.4 11.7 UA 102.2 12.3 -.22 .53 VG 104.8 13.9 AG 109.2 15.9 -1.14 .75 Gesamt-IQ 104.8 12.2 Gesamt-IQ 107.1 14.8 -.62 .78 Anmerkungen: siehe Tabelle 8.21.
Die GemSL und die GL (siehe Tabelle 8.29) offenbaren ähnliche Korrelationen. Auch in der ge-
matchten Stichprobe mit langem Intervall (GemSL) weisen die Vergleiche zwischen den Ver-
sionen des ZN und BE einen niedrigen Zusammenhang auf. Auch die niedrigen Korrelationen
im Vergleich zwischen AGD und UA ebenso wie die hohen Korrelationen im Vergleich der SV-
Indizes sowie des Verbalteils mit dem SV des HAWIK-IV decken sich mit den Ergebnissen aus
der GL. Die beiden Gesamt-IQ korrelieren mit r = .78 nahezu identisch zu den beiden Gesamt-
IQ in der GL vor Korrektur.
Mit derselben Rechenprozedur wie in der Gesamtstichprobe ergaben sich für die gesamte ge-
matchte Stichprobe (GemS) folgende zusammengefasste Korrelationen, Standarddifferenzen
und deren Signifikanzen (siehe Tabelle 8.32).
Kapitel 8 Ergebnisse 158
Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144). HAWIK-IV M SD HAWIK-III M SD St.-diff. r rcorr
1 rcorr2 p aα
MT 11.1 3.1 MT 11.2 3.3 -.04 .65 .67 .69 .585 .007 GF 10.9 2.6 GF 11.7 2.8 -.30 .62 .69 .76 .681 .017 ZN 10.3 2.4 ZN 9.9 2.6 .18 .62 .70 .77 .014* .005 ZST 10.9 3.0 ZST 11.8 3.2 -.30 .70 .71 .71 .649 .010 WT 10.9 2.7 WT 11.4 3.0 -.18 .67 .75 .80 .683 .025 AV 11.2 2.4 AV 11.2 1.9 -.01 .58 .67 .77 .497 .006 SYS 11.0 2.6 SS 11.8 2.7 -.28 .51 .56 .66 .066 .006 BE 10.8 2.7 BE 11.1 3.0 -.10 .50 .54 .62 .655 .013 AW 10.6 2.5 AW 11.0 2.8 -.15 .72 .78 .81 .954 .050 RD 10.8 2.3 RD 10.8 2.7 -.02 .62 .72 .80 .591 .008 SV 105.3 12.8 V-IQ 108.4 12.9 -.24 .80 .86 .89 .294 .050 WLD 104.8 12.6 H-IQ 107.5 14.9 -.20 .60 .69 .77 .174 .025 SV 105.3 12.8 SV 109.9 13.9 -.34 .82 .88 .90 .603 .050 WLD 104.8 12.6 WO 105.7 15.0 -.07 .59 .67 .76 .171 .017 AGD 102.3 12.5 UA 102.8 13.0 -.04 .63 .72 .79 .077 .013 VG 105.4 13.9 AG 110.4 14.6 -.35 .72 .75 .77 .472 .025 Gesamt-IQ 105.6 12.2 Gesamt-IQ 108.8 13.7 -.25 .76 .84 .87 .526 Anmerkungen: siehe Tabelle 8.23.
Die Korrelationen der Gesamt-IQ erweisen sich auch in der gematchten Stichprobe mit r = .84
nach Korrektur (rcorr1) als hoch. Ebenso ergeben sich hohe Zusammenhänge zwischen dem SV
des HAWIK-IV und dem Verbalteil sowie beiden SV-Indizes.
Mit dem ZN erweist es sich die Differenz der Korrelationen nur bei einem Test als signifikant
voneinander unterschiedlich, je nach dem Abstand zwischen beiden Testungen, allerdings le-
diglich vor einer α-Adjustierung. Nach einem kurzen Re-Testintervall korrelieren die Untertests
ZN des HAWIK-III und -IV deutlich niedriger miteinander als nach langem Intervall.
Da sich innerhalb der Indizes und der Gesamtwerte keine signifikanten Differenzen hinsichtlich
der Korrelationen feststellen lassen, können die Fragestellung 10 verneinend beantwortet und
die Hypothesen 6.3.15 bis 6.3.21 somit angenommen werden.
8.7.3 Zusammenfassung Korrelationsanalysen
Insgesamt lässt sich festhalten, dass die beiden Testversionen durchweg hoch miteinander
korrelieren. Es zeigen sich dabei höhere Zusammenhänge auf Ebene der Indizes und Gesamt-
werte als auf Untertestebene. In der Gesamtstichprobe weisen die Indexpaare WLD und WO,
AGD und UA sowie der Vergleich zwischen dem Handlungsteil und dem WLD deutlich geringe-
re Korrelationen auf als die Indexpaare SV und SV, VG und AG sowie der Vergleich zwischen
Verbalteil und SV des HAWIK-IV. Dieses Ergebnis zeigt sich sowohl unter Berücksichtigung der
Gesamtstichprobe als auch in den Berechnungen, die in ein kurzes und ein langes Re-
Testintervall unterteilt wurden. Außerdem erwies es sich in der Gesamtstichprobe einzig im
Untertest AV als bedeutsam, welcher Test zuerst vorgegeben wurde. Somit kann für die Ge-
samtstichprobe die Frage verneint werden, ob innerhalb der Indizes und Gesamtwerte die
Kapitel 8 Ergebnisse 159
Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der Korrelationen hat.
Während sich jedoch in der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen
aufweist, keinerlei signifikante Differenzen je nach Testvorgabe zeigten, stellt es sich bei den
Kindern und Jugendlichen mit langem Re-Testintervall sowohl im AV als auch im Gesamt-IQ
und im Vergleich zwischen Handlungsteil und WLD (auch nach Alpha-Korrektur) als signifikant
unterschiedlich dar, welcher Test zuerst vorgegeben wurde.
Verglichen mit den Werten der Gesamtstichprobe weisen die Kinder und Jugendlichen der
gematchten Stichprobe in den meisten Untertests gleichhohe oder etwas geringere Korrelatio-
nen auf. Die Höhe der Korrelation beider Gesamt-IQ-Vergleiche ist mit r = .87 gegenüber .84
nahezu identisch. Die Korrelationen der Indexvergleiche erweisen sich in beiden Stichproben -
außer im Vergleich AG versus VG - ebenfalls als identisch (dort weist die gematchte Stichprobe
mit r = .75 eine geringere Korrelation auf als die Gesamtstichprobe mit r = .84).
Es ergeben sich aus den Korrelationsberechnungen demnach insgesamt höhere Zusammen-
hänge zwischen den sprachlichen Index- und Gesamtwerten und den Geschwindigkeitsindizes
als zwischen den handlungsbezogenen Index-und Gesamtwerten und denen, die Gedächtnis-
leistungen beinhalten. Die Untersuchung des Einflusses des Testintervalls auf die Korrelationen
zeigte in der gematchten Stichprobe keine signifikanten Differenzen innerhalb der Indizes und
der Gesamtwerte des HAWIK-III und -IV. Die entsprechende Fragestellung kann somit verneint
werden.
8.8 Regressionsanalysen Die lineare Regression gibt Aufschluss über die Höhe der Varianzaufklärung der Untertests in
Bezug auf die Indizes sowie der Indizes auf den Gesamt-IQ. Zusätzlich soll mit Hilfe der Regres-
sionsanalyse berechnet werden, welche Index- und Gesamtwerte vor der Durchführung des
HAWIK-IV zu erwarten sind, je nachdem, welche Werte bei der Testung mit dem HAWIK-III
erzielt wurden.
8.8.1 Untersuchung der Varianzaufklärung der HAWIK-III-Untertests
Zunächst soll versucht werden, die Fragestellung 11: „Haben die entfernten oder nur noch
optionalen Untertests weniger zur Varianzaufklärung des Index beigetragen als die Unter-
tests, die zur Berechnung des Gesamt-IQ des HAWIK-IV vorgegeben sind?“ zu beantworten.
Dafür wird untersucht, wie viel Varianz des jeweiligen Index die Untertests aufklären, wie gut
sie also als Prädiktoren für den Index dienen. Damit können möglicherweise Rückschlüsse dar-
auf gezogen werden, aus welchen Gründen einige Untertests nicht in den HAWIK-IV über-
nommen wurden oder nur noch optionale Untertests darstellen. Es wird davon ausgegangen,
Kapitel 8 Ergebnisse 160
dass die Untertests, die weiterhin oder im HAWIK-IV erstmals zum Kernteil der Testbatterie
gehören, mehr zur Varianzaufklärung des Index beitragen als die Untertests, die im HAWIK-IV
nicht mehr enthalten oder nur noch optional durchzuführen sind.
Für den SV-Index des HAWIK-III wurde die Hypothese 6.4.1 formuliert. Die Ergebnisse der Hy-
pothesenprüfung sind Tabelle 8.33 zu entnehmen.
Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p
GF 1.668 .035 .338 48.209 .000 AW 1.649 .034 .335 48.693 .000 WT 1.554 .034 .322 45.146 .000 AV 1.656 .044 .244 37.418 .000
Anmerkungen: Abhängige Variable: SV des HAWIK-III, b = unstandardisierter Regressions-koeffizient, Std.-Fehler = Standardfehler von b, Beta = standardisierter Regressionskoeffizient, entspricht dem β-Gewicht, T = Wert zur Signifikanzprüfung, p = zweiseitiger Signifikanzwert (5 %-Niveau). Sortiert nach Höhe von Beta. Weitere Abkürzungen siehe Anhang A5 und A6.
In der linearen Regression erweist sich GF als der Untertest, der die meiste Varianz des SV-
Index des HAWIK-III aufklärt, gefolgt vom AW und WT. Am wenigsten trägt AV zur Varianzauf-
klärung bei. Da die Untertests GF, WT und AV des HAWIK-IV jedoch in den SV des HAWIK-IV
einfließen und der AW nur als optionaler Untertest dient, muss die H1 der Hypothese 6.4.1
abgelehnt und die Alternativhypothese (H0) angenommen werden.
In Tabelle 8.34 werden die Ergebnisse der linearen Regression mit dem Index WO als abhängi-
ge Variable und den Untertests des WO als Prädiktoren angegeben. Dies dient der Überprü-
fung der Hypothesen 6.4.2 und 6.4.3.
Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p
BO 1.597 .026 .369 62.227 .000 MT 1.560 .028 .363 56.553 .000 FL 1.611 .030 .338 53.252 .000 BE 1.659 .029 .321 54.898 .000
Anmerkungen: Abhängige Variable: WO des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.
Insgesamt weisen alle Untertests ein ähnlich hohes β-Gewicht auf. Sie sind demnach alle unge-
fähr gleich hoch an der Varianzaufklärung des WO beteiligt. Dennoch zeigen nicht die ebenfalls
im HAWIK-IV vorhandenen Untertests MT und BE, sondern der im HAWIK-IV nicht berücksich-
tigte Untertest BO den höchsten Varianzaufklärungsanteil. Am wenigsten trägt BE zur Varianz-
aufklärung des Index bei. Folglich müssen die H1 der Hypothesen 6.4.2 und 6.4.3 abgelehnt
werden.
Weiterhin wird die UA hinsichtlich der Vorhersagekraft der Prädiktoren, also der Untertests
des Index, untersucht. Damit soll die Hypothese 6.4.4 überprüft werden.
Kapitel 8 Ergebnisse 161
Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p
RD 2.964 .024 .621 122.057 .000 ZN 2.940 .026 .581 114.108 .000
Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.
Anders als sich durch die Verlegung des RD in den optionalen und des ZN in den obligatori-
schen Teil des HAWIK-IV vermuten lässt, trägt RD mehr zur Varianzaufklärung des Index UA bei
als ZN. Folglich muss auch die H1 der Hypothese 6.4.4 abgelehnt werden.
8.8.2 Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests
Zur Beantwortung der Frage 12: „Tragen die Untertests des HAWIK-IV eines Index signifikant
zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei?“ werden zusätzliche
Regressionsanalysen durchgeführt. Hiermit soll untersucht werden, inwieweit die Untertests
des HAWIK-IV signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei-
tragen. Erweist sich die Varianzaufklärung sämtlicher Kernuntertests des HAWIK-IV als signifi-
kant für die dazugehörigen Indizes des HAWIK-III, kann davon ausgegangen werden, dass die
Indizes beider Testversionen dieselben Konstrukte bzw. kognitiven Fähigkeiten erfassen und
somit bedenkenlos miteinander verglichen werden können. Mit der H1 der Hypothesen 6.4.5
bis 6.4.14 wird demnach die Vermutung aufgestellt, dass die Kernuntertests des HAWIK-IV
signifikant zur Varianzaufklärung des Index des HAWIK-III beitragen.
Dabei werden zunächst die Hypothesen 6.4.5 bis 6.4.7 untersucht, indem der Index SV des
HAWIK-III als abhängige Variable dient und die SV-Untertests des HAWIK-IV die unabhängigen
Variablen bilden. Es soll demnach die Höhe ihrer Varianzaufklärung auf die abhängige Variable
geprüft werden. Die Ergebnisse dieser linearen Regression sind Tabelle 8.36 zu entnehmen.
Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III. Untertests des
HAWIK-IV b Std.-Fehler Beta T p
AW 1.555 .278 .279 5.582 .000 WT 1.383 .300 .267 4.616 .000 GF 1.254 .313 .219 4.002 .000 AV 0.921 .283 .155 3.248 .001
BEN 0.566 .273 .109 2.071 .040 Anmerkungen: Abhängige Variable: SV des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.
Da die drei SV-Kernuntertests des HAWIK-IV, namentlich GF, WT und AV, signifikant zur Va-
rianzaufklärung des entsprechenden Index des HAWIK-IV beitragen, kann die H1 der Hypothe-
sen 6.4.5, 6.4.6 und 6.4.7 angenommen werden. Insgesamt werden mit den fünf Untertests
des Index SV des HAWIK-IV fast 70 % der Varianz des Index SV des HAWIK-III aufgeklärt
(r2 = .695).
Kapitel 8 Ergebnisse 162
Zur Entscheidung, ob für die Hypothesen 6.4.8 bis 6.4.10 die H1 oder die H0 angenommen
werden muss, dienen die Ergebnisse, die Tabelle 8.37 zu entnehmen sind. Sie zeigt die lineare
Regression mit dem Index WO als abhängiger und den Untertests des WLD als unabhängige
Variablen.
Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIK-III.
Untertests des HAWIK-IV
b Std.-Fehler Beta T p
MT 1.970 .304 .407 6.486 .000 BE 1.403 .328 .268 4.274 .000 MZ 0.640 .353 .106 1.811 .072 BK -0.021 .346 -.004 -0.061 .952
Anmerkungen: Abhängige Variable: WO des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.
Lediglich MT und BE zeigen signifikante Beiträge zur Varianzaufklärung des WO. Folglich kann
mit dem MT nur einer der drei Kerntests des WLD signifikant zur Varianzaufklärung des WO
beitragen. Somit kann nur für die Hypothese 6.4.8 die H1 angenommen werden, während sie
bezogen auf die Hypothesen 6.4.9 und 6.4.10 abgelehnt werden muss. Die vier Untertests des
WLD klären zusammen nicht einmal die Hälfte der Varianz des WO auf (r2 = .404).
Die Ergebnisse der Analyse der gemeinsamen Varianz der Untertests des Index AGD des HA-
WIK-IV und des Index UA des HAWIK-III werden in Tabelle 8.38 dargestellt. Die Hypothesen
6.4.11 und 6.4.12 beziehen sich auf die Frage, inwieweit die Untertests des AGD signifikant zur
Varianzaufklärung des Index UA beitragen können.
Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III. Untertests des
HAWIK-IV b Std.-Fehler Beta T p
RD 2.024 .302 .363 6.713 .000 ZN 1.812 .311 .340 5.819 .000 BZF 1.089 .331 .186 3.293 .001
Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.
Alle drei Untertests des AGD leisten einen signifikanten Beitrag zur Varianzaufklärung des UA.
Insgesamt klären sie über 50 % der Varianz des Index auf (r2 = .507). Die H1 der entsprechen-
den Hypothesen 6.4.11 und 6.4.12 kann somit angenommen werden. Es zeigt sich jedoch für
den optionalen Untertest RD ein deutlich höheres ß-Gewicht als für den Kerntest BZF.
Schließlich wird der HAWIK-III Index AG untersucht. Die dazugehörigen Hypothesen 6.4.13 und
6.4.14 können überprüft werden, indem die Höhe der Varianzaufklärung der Untertests des
entsprechenden HAWIK-IV-Index VG auf die AG berechnet wird.
Kapitel 8 Ergebnisse 163
Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III. Untertests des
HAWIK-IV b Std.-Fehler Beta T p
ZST 1.912 .321 .371 5.952 .000 SYS 2.063 .354 .370 5.834 .000 DT .294 .270 .059 1.090 .277
Anmerkungen: Abhängige Variable: AG des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.
Tabelle 8.39 stellt die Ergebnisse der linearen Regression dar. Die beiden schon im AG vorhan-
denen Untertests ZST und SYS des HAWIK-IV tragen signifikant zur Varianzaufklärung des HA-
WIK-III-Index bei. Damit kann die H1 der Hypothesen 6.4.13 und 6.4.14 angenommen werden.
Die zusätzliche Aufklärung durch den optionalen Untertest DT ist dagegen minimal. Alle drei
Untertests zusammen klären etwas weniger als die Hälfte der Varianz des Index AG auf
(r2 = .473).
8.8.3 Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ
Nachdem in den bisherigen Regressionsrechnungen die Untertests als Prädiktoren eingesetzt
wurden, soll im Folgenden die Vorhersagekraft der Indizes auf die Gesamt-IQ betrachtet wer-
den. Damit soll folgende Fragestellung 13 beantwortet werden: „Wie viel Varianz des Gesamt-
IQ der einen Testversion klären die Indizes der anderen Testversion auf?“ Dies soll Rück-
schlüsse darüber zulassen, inwiefern die Indizes beider Testversionen die gleichen kognitiven
Fähigkeiten erfassen.
Daraus resultieren zwei Hypothesen, die mit Hilfe der linearen Regression untersucht werden.
Hypothese 6.4.15 bezieht sich auf die Höhe der Varianzaufklärung der Indizes des HAWIK-IV
auf den Gesamt-IQ des HAWIK-III. Das Ergebnis wird in Tabelle 8.40 dargestellt.
Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III. Indizes des HAWIK-IV
b Std.-Fehler Beta T p
SV .570 .054 .525 10.560 .000 WLD .306 .056 .278 5.439 .000 VG .136 .045 .139 3.029 .003
AGD .070 .050 .065 1.398 .164 Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.
Es wird ersichtlich, dass der Index SV des HAWIK-IV mit mehr als der Hälfte den höchsten Teil
der Varianz des Gesamt-IQ des HAWIK-III aufklärt, gefolgt vom WLD und VG. Der Index AGD
leistet keinen signifikanten Beitrag zur Varianzaufklärung des Gesamt-IQ des HAWIK-III. Damit
muss Hypothese 6.4.15 abgelehnt werden. Alle Indizes gemeinsam klären etwa 60 % der Va-
rianz des HAWIK-III-Gesamt-IQ auf (r2 = .602).
Kapitel 8 Ergebnisse 164
Hypothese 6.4.16, die aus der Fragestellung 13 resultiert, bezieht sich auf die Indizes des HA-
WIK-III und deren Anteil an der Varianzaufklärung des Gesamt-IQ des HAWIK-IV. Die Werte der
vier Indizes lassen sich der Tabelle 8.41 entnehmen.
Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV. Indizes des HAWIK-III
b Std.-Fehler Beta T p
SV .343 .045 .414 7.679 .000 UA .198 .044 .230 4.545 .000 AG .177 .036 .227 4.871 .000 WO .148 .042 .188 3.518 .001
Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-IV. Weitere Erklärungen siehe Tabelle 8.33.
Die vier Indizes des HAWIK-III tragen durchweg signifikant zur Varianzaufklärung des Gesamt-
IQ des HAWIK-IV bei. Hypothese 6.4.16 kann demzufolge angenommen werden. Auch in dieser
Regression stellt sich das SV als wichtigster Index zur Varianzaufklärung des Gesamt-IQ dar.
Allerdings klären die vier Indizes gemeinsam etwas weniger Varianz des HAWIK-IV auf als die
vier Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III (r2 = .581). Der Index WO trägt am
wenigsten zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei.
8.8.4 Erwartete Werte und Konfidenzintervalle
Für den Praktiker ist es wichtig zu wissen, welcher HAWIK-IV-Wert zu erwarten ist, wenn ein
bestimmter Wert im HAWIK-III erreicht wurde. Dabei kann auf Grund veralteter Normen im
HAWIK-III und dem damit einhergehenden Flynn-Effekt (siehe Kapitel 5.2.2) vermutet werden,
dass die zu erwartenden Werte des HAWIK-IV etwas unterhalb der Werte des HAWIK-III liegen.
Ein Kind, mit dem beide Verfahren durchgeführt werden, dürfte demnach im HAWIK-III etwas
höhere Werte erzielen als im HAWIK-IV.
Zur Bestimmung der zu erwartenden Werte und deren Konfidenzintervalle wurde eine Regres-
sionsanalyse durchgeführt (Näheres dazu siehe Kapitel 7.5.4.2). Aufgrund der eingeschränkten
Streuung in der vorliegenden Stichprobe wurden die Werte nur für den Bereich zwischen 85 (d.
h. eine Standardabweichung unterhalb des Mittelwertes) und 130 (d. h. zwei Standardabwei-
chungen oberhalb des Mittelwertes) berechnet.
Die folgenden Tabellen bieten für ausgewählte Werte des HAWIK-III die zu erwartenden Werte
der entsprechenden Indizes des HAWIK-IV und dem dazugehörigen Konfidenzintervall. Zu-
nächst erfolgt dies, wie in Tabelle 8.42 dargestellt, auf Ebene des Gesamt-IQ. Bei einem Beta-
Gewicht von .971 ergibt sich für die Berechnung der zu erwartenden Werte folgende Glei-
chung: Gesamt-IQ des HAWIK-IV = 0 + .971 Gesamt-IQ des HAWIK-III.
Kapitel 8 Ergebnisse 165
Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausge-wählte Gesamt-IQ des HAWIK-III.
Gesamt-IQ des HAWIK-III
Gesamt-IQ des HAWIK-IV
95 %- Konfidenzintervall
85 83 80-85 90 87 85-90 95 92 90-94
100 97 96-99 105 102 101-103 110 107 106-108 115 112 110-113 120 117 115-118 125 121 119-123 130 126 124-129
Die im HAWIK-IV zu erwartenden Gesamtwerte liegen zwei bis vier IQ-Punkte unter denen des
HAWIK-III-Gesamt-IQ. Der Wertebereich des Konfidenzintervalls unterscheidet sich in Abhän-
gigkeit zur Nähe zum empirischen Mittelwert (108.9, siehe Tabelle 8.1). Während sich also für
die HAWIK-III-Gesamt-IQ 105 und 110 ein Konfidenzintervall von zwei IQ-Punkten berechnen
lässt, vergrößert sich das Intervall, je mehr sich der Ausgangswert vom empirischen Mittelwert
der Stichprobe entfernt. An den Randbereichen des IQ umfassen die Intervalle für den erwar-
teten Gesamt-IQ des HAWIK-IV fünf IQ-Punkte. Dies hängt damit zusammen, dass der Stan-
dardfehler (Messfehler) größer wird, je niedriger die Reliabilitäten sind. Da die Kinder und Ju-
gendlichen in den Randbereichen in der Regel weniger Ergebnisvarianz aufweisen (die leis-
tungsstarken Kinder beantworten alles richtig, die leistungsschwachen Kinder alles falsch),
zeigen sich dort niedrigere Reliabilitäten.
Dasselbe zeigt sich in den Tabellen 9.43 bis 9.48, die die erwarteten Werte für die Indexwerte
des HAWIK-IV darstellen, basierend auf den Gesamt- und Indexwerten des HAWIK-III.
Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Ver-bal-IQ des HAWIK-III.
Verbal-IQ SV des
HAWIK-IV 95 %-
Konfidenzintervall 85 82 80-85 90 87 85-89 95 92 90-94
100 97 95-98 105 102 101-103 110 106 105-107 115 111 110-112 120 116 115-118 125 121 119-123 130 126 123-128
Auch der Vergleich zwischen dem Verbal-IQ des HAWIK-III und dem SV-IQ des HAWIK-IV
(Tabelle 8.43) weist unterschiedlich breite Konfidenzintervalle auf. Es ergibt sich ein ß-Gewicht
Kapitel 8 Ergebnisse 166
von .968. Somit wurden die erwarteten Werte auf Grundlage der Gleichung SV-IQ des HAWIK-
IV = 0 + .968 Verbal-IQ des HAWIK-III berechnet. Mit zwei IQ-Punkten liegen die kleinsten
Intervalle im Verbal-IQ zwischen 105 und 115 und in den dazugehörigen erwarteten SV-IQ-
Werten zwischen 102 und 111. Insgesamt liegen die zu erwartenden SV-Werte drei bis vier
Punkte unterhalb der im Verbalteil erzielten Werte.
Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte Handlungs-IQ des HAWIK-III.
Handlungs-IQ WLD 95 %-
Konfidenzintervall 85 83 79-88 90 88 84-91 95 93 90-96
100 98 96-100 105 103 101-104 110 107 106-109 115 112 110-114 120 117 115-120 125 122 119-126 130 127 122-132
Die Konfidenzintervalle des vorhergesagten WLD bei Kenntnis des Handlungs-IQ-Wertes
(Tabelle 8.44) sind insgesamt breiter als im Gesamt- und SV-IQ. Das kleinste Intervall umfasst
drei IQ-Punkte (Handlungs-IQ von 105 und 110). Die vorhergesagten Werte des WLD sind zwei
bis drei IQ-Punkte unterhalb des im Handlungsteil erzielten Ergebnisses anzusiedeln. Aus ei-
nem ß-Gewicht von .977 resultiert folgende Gleichung: WLD des HAWIK-IV = 0 + .977 Hand-
lungs-IQ des HAWIK-III.
Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SV-Werte des HAWIK-III.
SV des HAWIK-III
SV des HAWIK-IV
95 %- Konfidenzintervall
85 81 79-84 90 86 84-88 95 91 89-93
100 96 94-97 105 100 99-101 110 105 104-106 115 110 109-111 120 115 113-116 125 120 118-121 130 124 122-126
Wie Tabelle 8.45 zeigt, liegen die zu erwartenden SV-Werte des HAWIK-IV vier bis fünf IQ-
Punkte unterhalb der Werte des SV des HAWIK-III. Auf Grundlage eines ß-Gewichts von .956
ergibt sich zur Berechnung der erwarteten Werte die Gleichung SV-IQ des HAWIK-IV = 0 + .956
SV-IQ des HAWIK-III. Das mit zwei IQ-Punkten kleinste Intervall zeigt sich bei einem SV im
HAWIK-IV von 100.
Kapitel 8 Ergebnisse 167
Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte WO-IQ-Werte des HAWIK-III
WO WLD 95 %-
Konfidenzintervall 85 84 79-89 90 89 86-93 95 94 91-97
100 99 97-101 105 104 103-105 110 109 107-110 115 114 112-116 120 119 116-122 125 124 120-128 130 129 124-134
Die vorhergesagten Werte des WLD liegen durchweg einen IQ-Punkt unterhalb der Werte des
WO. Die geringe Abweichung hängt mit dem hohen ß-Gewicht von .99 zusammen. Somit wur-
den die erwarteten Werte auf Grundlage der Gleichung WLD-IQ des HAWIK-IV = 0 + .99 WO-
IQ des HAWIK-III berechnet. Wie in Tabelle 8.46 ersichtlich, zeigen sich außerdem in den Rand-
bereichen mit zehn IQ-Punkten sehr breite Konfidenzintervalle. Dies deckt sich mit den Ergeb-
nissen der erwarteten WLD-Werte bei Kenntnis des Handlungs-IQ-Wertes (siehe Tabelle 8.44).
Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte UA-IQ-Werte des HAWIK-III
UA AGD 95 %-
Konfidenzintervall 85 84 81-87 90 89 86-91 95 94 92-96
100 99 97-100 105 104 102-105 110 108 107-110 115 113 111-115 120 118 116-121 125 123 120-127 130 128 124-132
Gilt der Index UA als Prädiktor für den Index AGD, können ein bis zwei IQ-Punkte weniger er-
wartet werden (siehe Tabelle 8.47). Die Vertrauensbereiche umfassen im mittleren IQ-Bereich
drei und in den Randbereichen sechs bis acht IQ-Punkte. Bei einem ß-Gewicht von .986 wur-
den die erwarteten Werte auf Grundlage der Gleichung AGD-IQ des HAWIK-IV = 0 + .986 UA-
IQ des HAWIK-III berechnet.
Abschließend werden in Tabelle 8.48 die zu erwartenden Werte für die VG des HAWIK-IV dar-
gestellt, sofern der AG-Wert des HAWIK-III bekannt ist.
Kapitel 8 Ergebnisse 168
Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte AG-IQ-Werte des HAWIK-III
AG VG 95 %-
Konfidenzintervall 85 82 78-85 90 87 84-90 95 91 89-94
100 96 94-98 105 101 100-103 110 106 105-107 115 111 109-112 120 116 114-118 125 120 118-123 130 125 122-128
Soll die Leistung eines Kindes in der Arbeitsgeschwindigkeit erneut erfasst werden, kann mit
einem Wert gerechnet werden, das im Durchschnitt drei bis fünf IQ-Punkte unter dem der
ersten Testung liegt. Wie aus der Tabelle 8.48 ersichtlich wird, umfasst das Konfidenzintervall
des VG-Index zwischen zwei und sieben IQ-Punkte. Durch ein ß-Gewicht von .963 stellt sich die
Gleichung wie folgt dar: VG-IQ des HAWIK-IV = 0 + .963 AG-IQ des HAWIK-III.
Insgesamt kann somit die Hypothese bestätigt werden, dass die zu erwartenden Werte im
HAWIK-IV durchweg leicht unterhalb der Werte des HAWIK-III liegen.
8.8.5 Zusammenfassung der Regressionsanalysen
In der Analyse der Teststruktur des HAWIK-III erweist sich AV in Bezug auf den SV-Index als
wenig zur Varianzaufklärung beitragend. Somit muss in der dazugehörigen Hypothese 6.4.1 die
H1 abgelehnt werden. Auch in den Indizes WO und UA zeigen sich andere Ergebnisse als erwar-
tet. So trägt im Index WO wider Erwarten nicht MT am meisten zur Varianzaufklärung des In-
dex bei und BE weist sogar den geringsten Beitrag zur Varianzaufklärung auf. In der UA lässt RD
ein höheres Beta-Gewicht erkennen als ZN.
Für den SV-Index kann die Frage, ob die Untertests des HAWIK-IV signifikant zur Varianzaufklä-
rung des SV des HAWIK-III beitragen, positiv beantwortet werden. Mit dem MT steuert nur ein
Kerntest des WLD signifikant zur Varianzaufklärung des WO bei. Bezüglich des Index UA kön-
nen die Hypothesen jedoch angenommen werden, da sich alle Kernuntertests des Index AGD
signifikant an der Varianzaufklärung des Index UA beteiligen. Dies gilt auch für den Index AG,
für den die HAWIK-IV-Untertests ZST und SYS signifikante Varianzaufklärung leisten.
Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ offenbarte signifikante
Beiträge zur Varianzaufklärung der HAWIK-III-Indizes auf den HAWIK-IV-Gesamt-IQ. Zum HA-
WIK-III-Gesamt-IQ tragen jedoch nicht alle Indizes des HAWIK-IV signifikant zur Varianzaufklä-
rung bei.
Kapitel 8 Ergebnisse 169
8.9 Zusammenfassung der Ergebnisse Die Ergebnisse der Mittelwertvergleiche erwiesen sich als weitestgehend hypothesenkonform.
Bis auf wenige Ausnahmen erbrachte immer der Test höhere Werte, der als zweiter Test
durchgeführt wurde. Die Untersuchung des Einflusses der Störvariablen ergab einen schwa-
chen Lerneffekt, der sich nach kurzem Intervall etwas deutlicher zeigte als nach langem Inter-
vall. Einzig in den Geschwindigkeitsuntertests und -indizes konnte ein deutlicherer Wertzu-
wachs von der ersten zur zweiten Testung gefunden werden. In gewissem Rahmen kann der
Flynn-Effekt von HAWIK-III zu HAWIK-IV ebenfalls nachgewiesen werden. Die Faktorenanalysen
mit Vorgabe der vier testtheoretischen Faktoren replizieren die Vier-Faktorenstruktur beider
Testversionen. Über sämtliche Korrelationsanalysen hinweg können die Korrelationen in den
zusammengefassten Stichproben mit höheren Korrelationen auf Ebene der Indizes und Ge-
samtwerte als auf Ebene der Untertests durchweg als hoch bezeichnet werden. Außerdem
zeigen sich höhere Zusammenhänge zwischen den sprachlichen Index- und Gesamtwerten
ebenso wie den Geschwindigkeitsindizes als zwischen den handlungsbezogenen Index-und
Gesamtwerten und dem Vergleich UA und AGD. Anhand der Regressionsanalysen können die
hinsichtlich der Untersuchung der HAWIK-III-Teststruktur getroffenen Annahmen nicht bestä-
tigt werden. Mit dem MT steuert nur ein Kerntest des WLD signifikant zur Varianzaufklärung
des WO bei. Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ zeigt, dass
sämtliche Indizes des HAWIK-III zur Aufklärung des HAWIK-IV-Gesamt-IQ, jedoch nicht alle
Indizes des HAWIK-IV signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ beitragen.
Wie zu erwarten war, offenbaren sich die erwarteten Werte im HAWIK-IV bei Kenntnis des
HAWIK-III durchweg als etwas niedriger als die entsprechenden IQ-Werte des HAWIK-III.
Kapitel 9 Diskussion der Ergebnisse 170
9 Diskussion der Ergebnisse
Begriffe erkennen, Frage 12: „Es kann den Geschmack von Essen verbessern
und man findet es im Meer. Was ist das?“
Carlotta, 8 Jahre: „Ein Bratfisch.“
Wie in den bisherigen Kapiteln aufgezeigt wurde, stellt der Vergleich zweier Versionen eines
Testverfahrens einen wichtigen Beitrag zum Validitätsnachweis des aktuellen Testverfahrens
dar. Durch die inhaltlichen und strukturellen Unterschiede der hier untersuchten Intelligenz-
tests HAWIK-III und -IV ist es von hoher praktischer Relevanz, inwieweit beide Testversionen
dasselbe erfassen und dementsprechend die Ergebnisse beider Versionen uneingeschränkt
nebeneinandergestellt werden dürfen. Im Folgenden sollen die in Kapitel 8 vorgestellten Er-
gebnisse separat betrachtet werden.
9.1 Ergebnisbetrachtung des Mittelwertvergleichs Die Überprüfung der Mittelwertdifferenzen von HAWIK-III und -IV ergab signifikante Abwei-
chungen im Gesamt-IQ, im Vergleich zwischen Verbalteil des HAWIK-III und dem Sprachver-
ständnis (SV) des HAWIK-IV sowie im Vergleich der SV-Indizes und der beiden Geschwindig-
keitsindizes Arbeitsgeschwindigkeit (AG) und Verarbeitungsgeschwindigkeit (VG). Auch einige
Untertests unterscheiden sich signifikant voneinander. Diverse Phänomene und Einflüsse kön-
nen ursächlich für diese statistisch auffälligen Unterschiede sein. So lässt die signifikante Diffe-
renz zwischen den Indizes AG und VG vermuten, dass sich die Kinder und Jugendlichen in der
zweiten Testung an die Aufgabenstellung erinnerten und aus diesem Grund mehr Aufgaben
bearbeiten konnten. Da sich die Untertests dieser Indizes in beiden Testversionen nicht oder
nur unwesentlich voneinander unterscheiden, können die unterschiedlichen Leistungen ver-
mutlich eher auf veränderte Bedingungen wie Vorerfahrungen aus der ersten Testung oder
unterschiedliche Normen zurückgeführt werden. Aus diesem Grund wurden die Differenzen im
Hinblick auf mögliche Störeinflüsse genauer untersucht.
Da die Tests in ausbalancierter Reihenfolge vorgegeben wurden, wird ein Lerneffekt in beiden
Tests gleichermaßen vermutet und kann somit nicht ursächlich für die signifikanten Mittel-
wertunterschiede sein. Dennoch wurde der Einfluss der Testreihenfolge genauer untersucht,
um sicherzustellen, dass keine Verzerrungen der Ergebnisse durch eine nicht repräsentative
Stichprobe vorliegt, also beispielsweise die Kinder ein deutlich höheres Leistungsniveau auf-
weisen, die den HAWIK-IV zuerst vorgelegt bekamen, als die Kinder, die zuerst den HAWIK-III
durchführten oder umgekehrt.
Kapitel 9 Diskussion der Ergebnisse 171
In diesem Mittelwertevergleich (siehe Kapitel 8.3) weist, bis auf Ausnahmen in wenigen Unter-
tests, immer der Test höhere Werte auf, der als zweites durchgeführt wurde. Somit scheinen
trotz der nicht gänzlich normalverteilten Stichprobe (siehe Kapitel 7.3) keine bedeutsamen
Stichprobenverzerrungen vorzuliegen, die die Interpretierbarkeit der Ergebnisse einschränken.
Sie deuten vielmehr auf einen Lerneffekt hin, der sowohl nach kurzem als auch nach langem
Intervall besteht.
9.2 Ergebnisbetrachtung der Störeinflüsse
9.2.1 Lerneffekt
Dieser Lerneffekt wurde daraufhin genauer untersucht. Dabei wurde von einem deutlicheren
Lerneffekt nach kurzem Intervall als nach langem ausgegangen.
Die in Tabelle 8.7 und Tabelle 8.8 dargestellten Mittelwertvergleiche zwischen HAWIK-III und
-IV bei Erstvorgabe des HAWIK-III weisen im kurzen und langen Intervall hohe Zunahmen in
den Index-Kombinationen Wahrnehmungsorganisation (WO) und Wahrnehmungsgebundenes
Logisches Denken (WLD) sowie AG und VG auf. Dies deckt sich mit den Ergebnissen der Studie
zur WISC-IV (siehe Tabelle 5.3). Während in der amerikanischen Studie jedoch die WISC-IV
zweimal vorgegeben wurde, und es sich somit in beiden Testungen um dieselben Indizes han-
delt (WLD und WLD bzw. VG und VG), wird der Lerneffekt in dieser Studie an unterschiedlichen
Indizes untersucht. Daher müssen die Mittelwertzuwächse in den Indizes WO und WLD in die-
ser Studie nicht zwangsläufig auf einen Lerneffekt hindeuten, sondern lassen vielmehr vermu-
ten, dass sie durch die unterschiedliche Untertestzusammensetzung entstanden sind. Da es
sich bei den Indizes AG und VG jedoch um identische Untertestkombinationen handelt, kann
für diesen Vergleich ein Lerneffekt festgehalten werden. Dies kann eine Erklärung für die signi-
fikanten Mittelwertdifferenzen in den t-Tests (Tabelle 8.3 und Tabelle 8.5) darstellen.
Die Abnahme der erzielten IQ-Punkte im Index SV zwischen erster und zweiter Testung lässt
sich möglicherweise ebenfalls auf die unterschiedliche Untertestzusammensetzung zurückfüh-
ren (Näheres siehe Kapitel 9.7). Außerdem kann die unterschiedliche Normierung beider Test-
versionen zu abweichenden Testergebnissen führen, die nicht auf den Lerneffekt zurückzufüh-
ren sind (siehe auch Kapitel 9.6 und 9.7.3). Auch der ebenfalls untersuchte Flynn-Effekt kann
dabei von Bedeutung sein, der dem Lerneffekt entgegenwirkt.
Schließlich muss berücksichtigt werden, dass es sich durch die Unterteilung in ein kurzes und
ein langes Intervall sowie in eine Stichprobe, die zuerst den HAWIK-III und eine andere, die
zuerst den HAWIK-IV durchführte, um deutlich kleinere Stichproben handelt als bei der Unter-
suchung des Lerneffekts in der WISC-IV (die Teilstichproben dieser Stichprobe liegen zwischen
n = 47 und 127, für die WISC-IV wurde der Lerneffekt an 243 Kindern untersucht).
Kapitel 9 Diskussion der Ergebnisse 172
In Bezug auf die Untertests, die in beiden Versionen enthalten sind, zeigen sich im Bilder er-
gänzen und Mosaik-Test die größten Zuwächse, gefolgt vom Zahlen-Symbol-Test und Zahlen
nachsprechen. Bis auf Zahlen nachsprechen gehören diese Untertests auch in der WISC-IV-
Studie zu den Untertests mit der größten Wertpunktzunahme. Vor allem Bilder ergänzen
scheint einen hohen Wiedererkennungswert zu besitzen, der zu besseren Ergebnissen in der
zweiten Testdurchführung führt. Dem Zahlen nachsprechen kommt eine besondere Position
zu. Für diesen Untertest ergeben sich auch dann höhere Werte im HAWIK-IV, wenn diese Test-
version zuerst durchgeführt wurde. Hier scheint nicht der Lerneffekt für den großen Zuwachs
verantwortlich zu sein. Vielmehr kann dies möglicherweise auf die unterschiedlichen Positio-
nen des Untertests innerhalb der beiden Testbatterien zurückgeführt werden (siehe Kapitel
9.7.5). Die Kinder scheinen von der Verschiebung des Untertests von der elften auf die dritte
Testposition zu profitieren. Kaufman und Lichtenberger (2006) sehen jedoch auch das Zahlen
nachsprechen als stark vom Lerneffekt beeinflusst an, da der Untertest schulunabhängige Leis-
tungen erfordert, die generell einem größeren Lerneffekt unterliegen (siehe Kapitel 5.2.1).
Nach kurzem Intervall zeigen sich bei den meisten Untertests und Indizes etwas höhere Mit-
telwertzunahmen als nach langem Intervall. In einigen Indizes und Untertests lässt sich jedoch
auch nach dem längeren Re-Testintervall ein größerer Anstieg feststellen. Dies deckt sich mit
der Studie von Thompson und Molly (1993) und kann eventuell auf Reifungsprozesse und all-
gemeine Lernzuwächse zurückgeführt werden. So ist beispielsweise das Sprachverständnis, das
nach langem Intervall eine größere Zunahme aufweist, sehr bildungsabhängig und kann aus
diesem Grund stark schwanken, je nach derzeitigem schulischen Themenschwerpunkt der Kin-
der und Jugendlichen.
Wird der HAWIK-IV zuerst vorgegeben, zeigen sich insgesamt deutlich höhere Zuwächse von
der ersten zur zweiten Testung. Vor allem die Geschwindigkeitsindizes verzeichnen mit einem
Anstieg um mehr als zehn IQ-Punkte nach kurzem Intervall (siehe Tabelle 8.9) und knapp 10 IQ-
Punkten nach langem Intervall (siehe Tabelle 8.10) eine deutliche Zunahme. Hier scheint eine
Aufsummierung von Flynn- und Lerneffekt die Ursache zu sein. Anders als bei Erstvorgabe des
HAWIK-III erweisen sich die Werte des SV auch bei Erstvorgabe des HAWIK-IV als deutlich hö-
her im HAWIK-III als im HAWIK-IV. Allerdings stellt diese Reihenfolge nicht die gängige Praxis
dar, da es im diagnostischen Prozess lediglich vorkommen kann, dass der HAWIK-IV durchge-
führt wird, nachdem bereits ein HAWIK-III erfolgte und nicht umgekehrt.
Am deutlichsten wird die Höhe des Lerneffekts anhand der Berechnung ersichtlich, deren Er-
gebnisse in Tabelle 8.11 dargestellt sind. Hier wurden für jeden Untertest und jeden Index
neue Variablen berechnet, in dem bei den Kindern, die den HAWIK-III zuerst durchführen, die
Werte des HAWIK-III von denen des HAWIK-IV, und bei denen, die erst den HAWIK-IV durch-
Kapitel 9 Diskussion der Ergebnisse 173
führten, die Werte des HAWIK-IV von denen des HAWIK-III abgezogen wurden. Daraus resul-
tierte ein Differenzbetrag für jedes Kind aus dem die mittleren Differenzen berechnet wurden,
die den durchschnittlichen Wertpunkt- bzw. IQ-Zuwachs von der ersten zur zweiten Testung
widerspiegeln. Es zeigen sich fast identisch hohe Wertzuwächse unabhängig von der Höhe des
Re-Testintervalls. Der Abstand scheint also keinen Einfluss auf die Höhe des Lerneffekts zu
haben. Wie schon in den bisherigen Berechnungen zeigt sich die größte Leistungssteigerung in
den Untertests zur Erfassung der Verarbeitungsgeschwindigkeit. Hier scheinen die Vertrautheit
mit dem Lösungsprinzip der Aufgabe und der Übungseffekt einen besonders hohen Einfluss auf
die Testleistung zu haben. Dagegen scheinen Kinder bei Aufgaben, die das Arbeitsgedächtnis
erfordern, nicht von der ersten Testung zu profitieren. Auch wenn die Kinder bei erneuter
Testvorgabe das Lösungsprinzip erinnern, erleichtert es ihnen nicht die Bearbeitung der Aufga-
ben, da sie sich nicht an die konkreten Fragen (z. B. die Textaufgaben beim Rechnerischen Den-
ken) beziehungsweise Aufgaben (z. B. die konkreten Buchstaben und Zahlen beim Buchstaben-
Zahlen-Folgen) erinnern können. Während die Zunahmen im einzigen, beiden Indizes WO und
WLD gemeinsamen Untertest Mosaik-Test in beiden Re-Testintervallen nahezu identisch sind,
zeigen sich im kurzen und langen Intervall unterschiedliche Zuwächse im Vergleich dieser Indi-
zes. Hierfür scheinen demnach die anderen Untertests beider Indizes ursächlich zu sein. Somit
kann dieser Vergleich keinen Aufschluss über einen Lerneffekt und den Einfluss des Re-
Testintervalls auf einen Leistungszuwachs im Bereich der Wahrnehmung und des logischen
Denkens geben.
In sämtlichen Studien zum Lerneffekt zeigt sich keinerlei Wertpunktzuwachs im Allgemeinen
Verständnis. Dies deckt sich mit bisherigen Studien zum Lerneffekt (Quereshi, 1968).
Die Ergebnisse hinsichtlich der Höhe des Lerneffektes in unterschiedlichen Altersstufen decken
sich nur teilweise mit denen der Studie zur WISC-IV (siehe Kapitel 5.2.1 sowie Tabelle 8.12 und
Tabelle 8.13). Während in der WISC-IV-Studie die jüngste Altersgruppe zumeist die höchste
Leistungssteigerung aufweist, kann das in der vorliegenden Studie im kurzen Intervall nur für
die Indexkombinationen Unablenkbarkeit (UA) und Arbeitsgedächtnis (AGD) sowie AG und VG
bestätigt werden. Diese unterschiedlichen Ergebnisse lassen sich jedoch zum einen mit den
sehr unterschiedlichen Gruppengrößen und zum anderen mit der insgesamt geringeren Stich-
probengröße in der vorliegenden Studie erklären. Außerdem kann beispielsweise der Anstieg
der Zunahme im Altersverlauf in den Indizes WO und WLD mit Entwicklungsschüben zwischen
beiden Testungen erklärt werden, die zu einer Leistungssteigerung im Bereich der Wahrneh-
mung, des räumlichen Vorstellungsvermögens und des logischen Denkens führen können. Ge-
rade während der Pubertät kann es zu sprunghaften Leistungsanstiegen im logischen Denken
kommen, da nach Piaget (1984) in diesem Alter die Frontallappen ausgereift sind, die mit logi-
Kapitel 9 Diskussion der Ergebnisse 174
schem Denken zusammenhängen und sich die kognitiven Leistungen im Alter von 12 bis 14
Jahren von konkret-operationalem zu abstrakt-logischem Denken entwickeln. Somit hat auch
die unterschiedliche Untertestzusammensetzung beider Indizes einen Einfluss auf das Ergeb-
nis. Im HAWIK-III ist das logische Denken weniger repräsentiert als im HAWIK-IV.
Aus diesem Grund soll abschließend noch einmal darauf hingewiesen werden, dass es sich
anders als in den im fünften Kapitel beschriebenen Studien um einen Vergleich unterschiedli-
cher Testversionen handelt. Demnach kann für die meisten Vergleiche an dieser Stelle kein
eindeutiger Beweis oder Gegenbeweis für einen Lerneffekt gegeben werden.
9.2.2 Flynn-Effekt
Die Mittelwerte beider Tests (siehe Tabelle 8.1 und Tabelle 8.2) deuten auf einen Flynn-Effekt
hin. Auf Basis der gesamten Stichprobe kommt es auf Ebene des Gesamt-IQ zu einem Absinken
um ca. 2.5 IQ-Punkte von HAWIK-III (108.9) auf HAWIK-IV (106.3). Auf Index-Ebene zeigt sich
die größte Differenz im Sprachverständnis (105.7 im SV des HAWIK-IV gegenüber 110.1 im SV
des HAWIK-III). Der Vergleich der Indizes WO und WLD, die fluides Denken erfassen, offenbart
fast gleich hohe Werte und kann demnach keine besseren Leistungen der Kinder im HAWIK-III
aufweisen. Dies kann jedoch auch mit der unterschiedlichen Untertestzusammensetzung die-
ser Indizes erklärt werden. Die Werte des neuen Index VG, der kaum verändert wurde, liegen
wiederum ca. 3.5 IQ-Punkte unter denen des AG-Index (105.8 gegenüber 109.3).
Zur genaueren Untersuchung des Flynn-Effekts wurden nur die Werte des langen Intervalls
betrachtet, in dem sich der Einfluss des Lerneffekts weniger zeigte als im kurzen Intervall. Da
sich jedoch auch im langen Intervall ein Lerneffekt nachweisen ließ, sollten die Ergebnisse mit
Vorsicht interpretiert werden. Jedoch basieren die Studien zum Flynn-Effekt auf der Stichpro-
be, die ein ausbalanciertes Design hinsichtlich der Reihenfolge der Testvorgabe aufweist. Da-
her kann der Lerneffekt in dieser Studie vernachlässigt werden.
Zwar wurde die Erfassung des fluiden Denkens erst im HAWIK-IV durch die Einführung der
Untertests Matrizen-Test, Bildkonzepte und Begriffe erkennen adäquat ermöglicht, dennoch
kann die These, diese Tests seien vom Flynn-Effekt betroffen, an dieser Stelle bestätigt wer-
den. So zeigt sich innerhalb der Untertests die größte Differenz im Gemeinsamkeiten finden,
hier sinkt der Mittelwert um .75 von HAWIK-III zu HAWIK-IV. Gemeinsamkeiten finden gilt als
der Untertest, der innerhalb der SV-Untertests den höchsten Anteil an fluidem Denken erfor-
dert (Flanagan & Kaufman, 2004). Neben den Indizes WLD und WO erfordert auch die Bearbei-
tung der Geschwindigkeitsindizes VG und AG, fluides Denken. Zwischen dem AG-Index des
HAWIK-III und dem VG-Index des HAWIK-IV zeigt sich in dieser Teilstudie (Kinder mit langem
Re-Testintervall) ein Absinken um 2.5 IQ-Punkte von HAWIK-III zu HAWIK-IV, der auf Grund der
Kapitel 9 Diskussion der Ergebnisse 175
ausbalancierten Reihenfolge der Testvorgabe nicht auf einen Lerneffekt zurückgeführt werden
kann.
Das Absinken des IQ im SV um etwas mehr als drei Wertpunkte stimmt mit der Annahme
überein, dass der Flynn-Effekt im Bereich der kristallinen Intelligenz zu einem Rückgang von
drei Punkten pro Dekade führt. Das Arbeitsgedächtnis scheint dagegen nicht vom Flynn-Effekt
betroffen zu sein.
Der Anstieg vom WO des HAWIK-III zum WLD des HAWIK-IV lässt sich wie oben schon ange-
deutet auf die unterschiedliche Untertestzusammensetzung beider Indizes zurückführen. Da
die Indizes mit dem Mosaik-Test nur einen gemeinsamen Untertest aufweisen, kann ein Ver-
gleich dieser Werte nicht zur Untersuchung des Flynn-Effekts herangezogen werden. Durch die
höheren Werte im WLD als im WO ist auch das Absinken im Gesamt-IQ nicht sehr deutlich
ausgefallen. Somit hätte sich bei einer größeren inhaltlichen Übereinstimmung beider Testver-
fahren voraussichtlich ein deutlicherer Unterschied im Gesamt-IQ gezeigt.
Neben dem WLD-Index zeigen auch einige Untertests im Mittel höhere Werte im HAWIK-IV.
Diese Untertests scheinen von anderen Störvariablen bzw. Veränderungen beeinflusst zu sein,
so beispielsweise die Mittelwerte des Untertests Zahlen nachsprechen, die im HAWIK-III einen
halben Wertpunkt niedriger ausfallen als im HAWIK-IV. Dies kann mit der unterschiedlichen
Position des Untertests in der Testbatterie erklärt werden (siehe Kapitel 4 und 9.7.5).
Mit der Untersuchung des Flynn-Effekts an Kindern aus dem oberen Leistungsbereich lässt sich
die Annahme bestätigen, dass das Absinken des IQ besonders in den Randbereichen intellek-
tueller Fähigkeiten auftritt (auf Indexebene sinken die Werte um 3.4 bis 9.2 IQ-Punkte ab, der
Gesamt-IQ des HAWIK-IV weist durchschnittlich neun IQ-Punkte weniger auf als der Gesamt-IQ
des HAWIK-III, siehe Tabelle 8.15). Außerdem spiegeln die Ergebnisse dieses Vergleichs die
typischen Leistungsprofile überdurchschnittlich bzw. hoch begabter Kinder wider. Gemäß Stu-
dien mit Hochbegabten weisen Kinder am oberen Leistungsbereich besonders hohe Werte in
den Bereichen der Sprache und des logischen Denkens auf, während sie im Gedächtnis und in
der Geschwindigkeit eher durchschnittlich abschneiden (siehe Kapitel 4.6.4 und Daseking, Pe-
termann et al., 2008). Das deutliche Absinken des Gesamt-IQ wurde auch in Studien zu Hoch-
begabung berichtet und mit der im HAWIK-IV erhöhten Berücksichtigung der Erfassung von
Gedächtnis- und Geschwindigkeitsleistungen begründet (siehe Kapitel 4.6.4 und Birke & Lehn,
in Druck; Falk et al., 2004).
Insgesamt können demnach die Ergebnisse einiger Forscher nicht bestätigt werden, der IQ-
Zuwachs habe in den vergangenen Jahren stagniert oder es sei sogar ein Absinken des IQ zu
erkennen. Nach den Ergebnissen dieser Studie kann auch für das vergangene Jahrzehnt ein
Anstieg der kognitiven Leistungen deutscher Kinder und Jugendlichen verzeichnet werden.
Kapitel 9 Diskussion der Ergebnisse 176
Somit bestätigen diese Ergebnisse die Notwendigkeit, Intelligenztestverfahren nach einem
gewissen Abstand neu zu normieren. Die Steigerung der kognitiven Fähigkeiten von Kindern
und Jugendlichen, die sich auch in dieser Studie gezeigt hat, spricht dafür, das jeweils aktuelle
Testverfahren zu präferieren.
9.3 Ergebnisbetrachtung der Faktorenanalysen Während die Faktorenanalysen ohne Vorgabe von Faktoren uneinheitliche Ergebnisse zeigen,
replizieren die im achten Kapitel angeführten Faktorenanalysen mit Vorgabe der Faktoren die
vorgegebene Faktorenstruktur beider Testversionen. Sowohl für die Faktorenanalyse mit sämt-
lichen in der Studie durchgeführten Untertests (siehe Tabelle 8.18) als auch für die Faktoren-
analysen getrennt für die Untertests des HAWIK-III und -IV (siehe Tabelle 8.19 und Tabelle
8.20) können demnach die aufgestellten Hypothesen angenommen werden. Auffällig dabei ist,
dass der Untertest Bilder ergänzen ebenfalls hoch auf dem Faktor lädt, der die Untertests des
SV beinhaltet. Außerdem weist das Allgemeine Wissen zusätzlich zum Sprachverständnis-
Faktor auch auf dem Gedächtnisfaktor hohe Ladungen auf. Die hohe Ladung des Untertests
Bilder ergänzen auf dem Sprachfaktor deckt sich mit der in Kapitel 4.4.3.1 vorgestellten Fakto-
renanalyse der WISC-IV (Wechsler, 2003b). Interkorrelationsstudien der WISC-IV (Wechsler,
2003b) und des HAWIK-IV (Petermann & Petermann, 2008a) weisen ebensolche Ergebnisse
auf. Die Testautoren führen dies auf den Gebrauch verbaler Vermittlungsformen beim Lösen
von Problemen und der Antwortformulierung bei dieser Art von Aufgaben zurück (dies gilt in
gleicher Hinsicht für den Untertest Bildkonzepte, der sowohl für die WISC-IV als auch für den
HAWIK-IV mittlere bis hohe Korrelationen mit den Sprachuntertests aufweist). Auch die Inter-
korrelationen der vorliegenden Studie offenbaren einen hohen Zusammenhang (bis zu r = .50)
zwischen Bilder ergänzen und den Untertests des SV, sowohl für den HAWIK-III als auch für den
HAWIK-IV (siehe Anhang A1 und A3).
Die hohen Ladungen des Allgemeinen Wissens auf dem Faktor, der die Untertests beinhaltet,
die Gedächtnisleistungen abbilden, entsprechen ebenso den Angaben der Testentwickler des
HAWIK-III und -IV, beim Allgemeinen Wissen werde zusätzlich zu anderen kognitiven Fähigkei-
ten auch auf Leistungen des Langzeitgedächtnisses zurückgegriffen (siehe auch Flanagan &
Kaufman, 2004). Genauso beinhaltet das Rechnerische Denken Fähigkeiten des Langzeitge-
dächtnisses, was die hohen Interkorrelationen beider Untertests (zwischen r = .42 und .52,
siehe Anhang A3 und A4) erklärt.
Die Ergebnisse der Faktorenanalyse, in die alle Untertests beider Testversionen einbezogen
wurden, lassen vermuten, dass der Vergleich der Indizes WO und WLD genauso wie der Ver-
gleich der Indizes UA und AGD legitim ist, da die dazugehörigen Untertests auf einen gemein-
samen Faktor laden (siehe Tabelle 8.18). Zwar laden Bilderordnen und Bilder ergänzen eben-
Kapitel 9 Diskussion der Ergebnisse 177
falls hoch auf dem sprachlichen Faktor, dennoch wurden sie dem wahrnehmungsbezogenen
Faktor zugeordnet. Die anderen Untertests, die nur in einer Testversion enthalten sind, also
Figurenlegen, Bildkonzepte und Matrizen-Test, können diesem Faktor jedoch eindeutiger zu-
geordnet werden.
Insgesamt zeigen sich in dieser Studie zum Teil deutlich höhere Faktorladungen als in bisheri-
gen Studien zur WISC-IV und WISC-III bzw. zum HAWIK-III und HAWIK-IV. Bezogen auf die
WISC-IV wird dies besonders in den Untertests Bildkonzepte und Symbol-Suche deutlich. Im
Vergleich zur HAWIK-IV-Normierungsstichprobe zeigt die vorliegende Stichprobe - außer im
Allgemeinen Wissen - in allen sprachlichen Untertests sowie in den Untertests Durchstreich-
Test und Zahlen nachsprechen höhere Ladungen auf dem entsprechenden Faktor. Die Fakto-
renstruktur des HAWIK-III lässt sich auf Basis der vorliegenden Stichprobe eindeutiger replizie-
ren als in der Untersuchung, die im HAWIK-III-Manual beschrieben wird (Tewes et al., 2002).
Wie schon bei der HAWIK-III-Studie kann das Zahlennachsprechen des HAWIK-III auch in der
vorliegenden Untersuchung nicht eindeutig einem Faktor zugeordnet werden. Die relativ ge-
ringe Ladung (.38) des Zahlennachsprechens auf dem Faktor, auf dem die Untertests des Ver-
balteils liegen (siehe Tabelle 8.16), spricht gegen eine Aufteilung in Verbal- und Handlungsteil,
wie sie im HAWIK-III vorgesehen ist.
9.4 Ergebnisbetrachtung der Korrelationsanalysen Folgende Erkenntnisse lassen sich aus der Untersuchung der Korrelationen von HAWIK-III und
HAWIK-IV festhalten:
die Testreihenfolge hat keinen Einfluss auf die Höhe der Korrelationen der Indizes und
Gesamtwerte,
beide Tests korrelieren insgesamt hoch miteinander,
die beiden Gesamt-IQ korrelieren in den zusammengefassten Korrelationsanalysen
(Mittelung der Korrelationen bei HAWIK-III als erstem und HAWIK-IV als erstem Test)
durchweg mit r > .80,
der Verbalteil des HAWIK-III korreliert höher mit dem SV des HAWIK-IV als der Hand-
lungsteil des HAWIK-III mit dem WLD des HAWIK-IV,
die Indexpaare des Sprachverständnisses und der Verarbeitungsgeschwindigkeit korre-
lieren höher als die Indexpaare WO und WLD sowie AGD und UA,
die Indizes korrelieren insgesamt höher miteinander als die Untertests,
die gematchte Stichprobe weist ähnliche Korrelationen auf wie die Gesamtstichprobe
sowie
die Länge des Re-Testintervalls hat keinen Einfluss auf die Höhe der Korrelationen in
der gematchten Stichprobe.
Kapitel 9 Diskussion der Ergebnisse 178
Diese Ergebnisse sollen im Folgenden diskutiert werden.
9.4.1 Einfluss der Testreihenfolge
Bevor die Korrelationen zwischen beiden Testversionen anhand der Gesamttabellen interpre-
tiert wird, soll zunächst darauf eingegangen werden, ob die Differenz der Korrelationen signifi-
kant ist, je nachdem, welche Testversion zuerst vorgelegt wurde (Fragestellung 9, Hypothesen
6.3.8 bis 6.3.14).
In der Stichprobe mit langem Re-Testintervall zeigt sich teilweise ein signifikanter Einfluss der
Testreihenfolge auf die Höhe der Korrelation. Grund dafür sind die in einigen Untertests und
Indizes auffällig niedrigeren Korrelationen in der Stichprobe, der zuerst der HAWIK-III vorgelegt
wurde (siehe Tabelle 8.27). Möglicherweise liegt in dieser Teilstichprobe ein Stichprobeneffekt
vor, dessen Ursache nicht weiter nachvollzogen werden kann.
Bei der Betrachtung der Gesamtstichprobe zeigt sich jedoch einzig im Allgemeinen Verständnis
ein signifikanter Unterschied bezüglich der Testvorgabe (siehe Tabelle 8.23). Dies ist auf die
mit r = .40 relativ niedrigen Korrelationen zwischen beiden Versionen des Untertests bei Erst-
vorgabe des HAWIK-III zurückzuführen (siehe Tabelle 8.21). Auch im Vergleich zwischen HA-
WIK-R und HAWIK-III zeigt das Allgemeine Verständnis mit r = .41 vor Korrektur die niedrigste
Korrelation innerhalb der Untertests (Tewes et al., 2002). Die Indizes und Gesamtwerte weisen
jedoch hinsichtlich des Einflusses der Testreihenfolge keine signifikanten Unterschiede auf. Die
Korrelationen werden somit nicht signifikant von der Testreihenfolge beeinflusst. Dank des
ausbalancierten Versuchsdesign können demzufolge die zusammengefassten Korrelationswer-
te interpretiert werden und müssen nicht separat danach betrachtet werden, welche Testver-
sion dem Kind zuerst vorgegeben wurde. Damit ist es legitim, bei der Interpretation der Korre-
lationen zwischen HAWIK-III und HAWIK-IV auf die Gesamttabellen zurückzugreifen.
9.4.2 Höhe der Korrelationen der Gesamtstichprobe
Angesichts der in Kapitel 8.7 vorgestellten Korrelationsanalysen kann durchweg die Hypothese
(H1) angenommen werden. Die Korrelationen erweisen sich als ebenso hoch wie in bisherigen
Studien, die sich mit einem Vergleich der entsprechenden amerikanischen Testversionen
WISC-III und WISC-IV bzw. ähnlicher Vergleiche beschäftigten. Dabei richtet sich die Interpreta-
tion der Ergebnisse nach den korrigierten Korrelationen. Diese Korrekturen vorzunehmen ist
mit der nicht vollständig normalverteilten Stichprobenverteilung (siehe Kapitel 7.3) und damit
zu begründen, dass auch in vergleichbaren Studien diese Korrekturen vorgenommen wurden.
Allerdings konnten die Korrekturen in dieser Studie nur für die SD der HAWIK-IV-Normierungs-
stichprobe vorgenommen werden, da die genauen Standardabweichungen der HAWIK-III-
Werte aus dem HAWIK-III-Manual nicht ersichtlich sind. Dies gibt Anlass zu der Vermutung,
Kapitel 9 Diskussion der Ergebnisse 179
dass die Korrelationen noch höher ausgefallen wären, wenn sich die Standardabweichungen
der Mittelwerte im HAWIK-III als niedriger darstellen als im HAWIK-IV.
Die Ergebnisse der Gesamtstichprobe dieser Studie (siehe Tabelle 8.23) ähneln denen aus dem
Vergleich zwischen WISC-III und WISC-IV (Wechsler, 2003b). So unterscheiden sich die Gesamt-
IQ-Korrelationen nur geringfügig (r = .87 gegenüber .89). Der Vergleich zwischen den über-
geordneten Gesamtwerten des HAWIK-III und den entsprechenden Indizes des HAWIK-IV weist
im Indexpaar Handlungs-IQ und WLD in der amerikanischen Studie etwas höhere Korrelationen
auf (r = .74 in der WISC-Studie gegenüber r = .68 in dieser Studie). In der Paarung Verbal-IQ
und SV erweist sich der Zusammenhang jedoch als identisch (jeweils r = .87). Innerhalb der
Indizes zeigen der Vergleich der SV-Indizes mit r = .88 sowie der Vergleich zwischen UA und
AGD mit r = .72 identische Korrelationen in beiden Studien. Für die Indexpaarung WO und WLD
zeigen sich in der amerikanischen Studie (r = .72 gegenüber .67), für den Vergleich zwischen
AG und VG dagegen in der vorliegenden Studie (r = .84 gegenüber .81) etwas höhere Korrela-
tionen. Auf Untertestebene weisen in beiden Studien die gleichen drei Untertestpaarungen
lediglich Korrelationen unter r = .70 auf, namentlich Allgemeines Verständnis, Symbol-Suche
und Bilder ergänzen. Außerdem erweist sich das Allgemeine Wissen jeweils als der Untertest
mit den höchsten Korrelationen (r = .83 und .81). Insgesamt kann die vorliegende Untersu-
chung somit die Ergebnisse bisheriger Studien bestätigen.
Anhand der Stichprobe G-III (dies stellt die üblicherweise vorgenommene Reihenfolge dar, erst
den HAWIK-III und dann den HAWIK-IV durchzuführen) soll veranschaulicht werden, wie sich
die unterschiedlichen Zusammensetzungen der Untertests zu einem Index auf die Höhe der
Korrelationen auswirken (siehe Tabelle 8.21): In dieser Stichprobe weisen die Vergleiche zwi-
schen WO und WLD sowie zwischen Handlungsteil und WLD die niedrigsten Zusammenhänge
(r = .48 und .50) auf. Diese Indizes bzw. Gesamtwerte resultieren aus einer stark voneinander
abweichenden Untertestzusammensetzung. So besitzen WLD und WO beziehungsweise WLD
und Handlungsteil mit dem Mosaik-Test nur einen gemeinsamen Untertest. Auf der anderen
Seite lassen sich die hohen Korrelationen zwischen VG und AG (r = .81) mit der identischen
Untertestzusammensetzung (Symbol-Suche und Zahlen-Symbol-Test) erklären. Es zeigt sich
also beispielhaft an dieser Stichprobe, dass dort hohe Korrelationen festzustellen sind, wo
wenige Veränderungen vorgenommen wurden und demgegenüber niedrigere Zusammenhän-
ge dort zu finden sind, wo große Veränderungen zwischen beiden Testversionen erfolgten.
Bei Betrachtung der Stichprobe mit kurzem Re-Testintervall (siehe Tabelle 8.26) offenbart der
Vergleich zwischen der Symbol-Suche des HAWIK-III und der des HAWIK-IV mit r = .59 nach
Korrektur die niedrigsten Korrelationen. Dies ist auf eine Korrelation von nur r = .39 bei den
Kindern zurückzuführen, die den HAWIK-IV zuerst bearbeiteten. Hier kann die niedrige Korrela-
Kapitel 9 Diskussion der Ergebnisse 180
tion eventuell auf Motivationsprobleme zurückgeführt werden. Die Symbol-Suche stellt einen
Untertest mit monotonen Aufgaben dar, da sie die Verarbeitungsgeschwindigkeit ohne Reizan-
regungen erheben soll. Bei den Kindern, die den Test zweimal innerhalb kurzer Zeit durchführ-
ten, stellt die Motivation bei der Leistungsfähigkeit in diesem Untertest einen wichtigen Aspekt
dar. Demnach scheint die Stichprobe GK-IV mehr als andere Stichproben aus Kindern zusam-
mengesetzt zu sein, die Probleme haben, sich bei der Wiederholung reizarmer Aufgaben er-
neut zu motivieren. Auch eine Veränderung der Rohwerteverteilung (siehe Kapitel 9.6) kann
die niedrige Korrelation verursacht haben. Dennoch korrelieren die Indizes AG und VG insge-
samt hoch miteinander (r = .82). Dies lässt sich auf die mit r = .81 hohe Korrelation im anderen
Geschwindigkeitsuntertest, Zahlen-Symbol-Test zurückführen. Auch in der Gesamtstichprobe
und der Stichprobe mit langem Re-Testintervall zeigen sich sehr hohe Zusammenhänge zwi-
schen den beiden Geschwindigkeits-Indizes.
9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe
Beim Vergleich zwischen den Ergebnissen der gematchten Stichprobe und der Gesamtstich-
probe (Tabelle 8.23 und Tabelle 8.32) wird deutlich, dass die Korrelationen der gematchten
Stichprobe entweder gleich hoch oder etwas niedriger sind als die der Gesamtstichprobe. Die
niedrigeren Werte können zum einen mit dem geringeren Stichprobenumfang erklärt werden,
zum anderen ist eine mögliche Ursache die unterschiedliche Aufteilung der Stichprobe hin-
sichtlich der Reihenfolge der Testvorgabe (26 Kinder haben den HAWIK-III und 46 den HAWIK-
IV zuerst durchgeführt). Die insgesamt ähnlichen und zum Teil sogar identischen Korrelationen
sprechen jedoch dafür, dass sich die Größe der Stichprobe nicht entscheidend die Höhe der
Korrelationen beeinflusst. Demnach können die ähnlich hohen Korrelationen zwischen dieser
und bisheriger Studien nicht allein auf der ähnlich hohen Stichprobengröße beruhen. Folgen-
des Gesamtergebnis kann somit als aussagekräftig gelten: Aufgrund der hohen Zusammenhän-
ge sind die beiden Testversionen HAWIK-III und -IV miteinander vergleichbar.
9.4.4 Einfluss der Länge des Re-Testintervalls
Mit der Fragestellung 10 wurde der Einfluss des Intervalls zwischen beiden Testungen unter-
sucht. Dies erfolgte anhand der gematchten Stichprobe, in der gleich viele Kinder ein langes
und ein kurzes Intervall aufweisen (jeweils 72 Kinder). Dabei zeigt sich nur zwischen den Korre-
lationen des Untertests Zahlen nachsprechen (und dies auch nur vor der α-Adjustierung) ein
signifikanter Unterschied je nach Länge des Re-Testintervalls (siehe Tabelle 8.30 und Tabelle
8.32). Dies ist auf eine mit r = .48 relativ niedrige Korrelation in der Stichprobe mit langem Re-
Testintervall (GemSL) zurückzuführen. Möglicherweise liegt die Ursache für diese niedrige Kor-
relation in einem Stichprobeneffekt, der an dieser Stelle nicht inhaltlich interpretiert werden
kann.
Kapitel 9 Diskussion der Ergebnisse 181
9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen
Die Untersuchung des Zusammenhangs beider Testversionen weist sehr hohe Korrelationen
zwischen den Gesamt-IQ auf. Dies lässt den Schluss zu, dass beide Testversionen das gleiche
Konstrukt (allgemeine Intelligenz im Sinne eines g-Faktors) erfassen und demnach miteinander
verglichen werden können. Die Interpretation dieses Ergebnisses für die Praxis wird in Kapitel
9.8.1 diskutiert. Auch der Vergleich der Indizes, innerhalb derer geringe oder keine inhaltlichen
Veränderungen vorgenommen wurden, scheint dank hoher Korrelationen zulässig. Die niedri-
geren Korrelationen zwischen WLD und WO sowie AGD und UA bestätigen die Angaben der
Testautoren der WISC-IV, dass der Schwerpunkt der von den Indizes erfassten kognitiven Fä-
higkeiten auf Grund modifizierter Modellvorstellungen von Intelligenz verändert wurde
(Wechsler, 2003b). Der Vergleich dieser Indizes kann demnach nicht generell vorgenommen
werden (siehe auch Kapitel 9.7). Aufgrund der niedrigeren und uneinheitlichen Korrelationen
auf Ebene der Untertests stellt sich ein Vergleich auf Untertestebene als zumindest fragwürdig
dar. Untertests weisen allgemein aufgrund der geringeren Informationsmenge, die in den Un-
tertest-Wert einfließt, einen höheren Messfehler und somit niedrigere Reliabilitäten auf (siehe
Kapitel 4.4.2). Je mehr Informationen jedoch in einen Wert einfließen, desto höher sind die
Reliabilitäten. Daraus kann gefolgert werden, dass nur der Gesamt-IQ und eingeschränkt noch
die Indizes ein wirklich aussagekräftiges Abbild der kognitiven Leistungen geben. Die höheren
Reliabilitäten sprechen dafür, den Schwerpunkt bei der Interpretation auf den Gesamt-IQ zu
legen und erst im zweiten Schritt die Interpretation der Indizes vorzunehmen. Die Ergebnisse
in den Untertests sollten demnach nur für die Analyse der Stärken und Schwächen eines Kin-
des herangezogen werden (siehe auch Daseking, Petermann & Petermann, in Druck). Zudem
besitzen die Untertests des HAWIK-III und des HAWIK-IV teilweise unterschiedliche Reliabilitä-
ten (siehe Tabelle 4.7, Kapitel 4.4.2). Dies kann ein Grund dafür sein, weshalb Kinder auch
beim Vergleich identischer Untertests unterschiedliche Werte erzielen, die nicht auf einen
Lern- oder Flynn-Effekt zurückgeführt werden können. Daraus sollte ebenfalls resultieren, von
einem Vergleich auf Untertestebene abzusehen.
9.5 Ergebnisbetrachtung der Regressionsanalysen
9.5.1 Varianzaufklärung der Untertests des HAWIK-III
Regressionsanalytisch wurde geprüft, inwieweit sich die Veränderungen auf Untertestebene
zwischen HAWIK-III und -IV (die Entfernung einiger Untertests aus dem Gesamttest oder die
Verschiebung einiger Untertests in den optionalen Teil) mit der Höhe der Varianzaufklärung
der Untertests des HAWIK-III auf den entsprechenden HAWIK-III-Index erklären lassen.
Kapitel 9 Diskussion der Ergebnisse 182
In der Regressionsanalyse der SV-Untertests des HAWIK-III trägt das Allgemeine Verständnis
deutlich weniger zur Varianzaufklärung des Index bei als es die Teststruktur des HAWIK-IV
vermuten lassen würde. Das Allgemeine Wissen hat als nur noch optionaler Untertest mehr
Anteil an der Varianzaufklärung als die Kerntests Allgemeines Verständnis und Wortschatz-Test
(siehe Tabelle 8.33). Schon in anderen Analysen dieser Studie erwies sich das Allgemeine Ver-
ständnis als auffällig. So zeigt es beispielsweise als einziger Untertest signifikant unterschiedli-
che Korrelationen, je nachdem, welcher Test zuerst durchgeführt wurde (siehe Tabelle 8.23).
Auch im Mittelwertvergleich zeigt die Stichprobe des kurzen Intervalls, die den HAWIK-III zu-
erst durchführte (GK-III), einen geringfügig niedrigeren Wert im Allgemeinen Verständnis des
HAWIK-IV, obwohl sie aufgrund der Erinnerung an die erste Durchführung einen höheren Wert
hätte erreichen müssen (siehe Abbildung 8.6). Dies könnte mit dem auffälligen Ergebnis in der
Regressionsanalyse zusammenhängen. Das Allgemeine Wissen erweist sich hingegen als Unter-
test mit den höchsten Korrelationswerten sowohl in dieser Studie als auch im Vergleich der
amerikanischen WISC-IV mit ihrem Vorgängerverfahren, der WISC-III (Wechsler, 2003b). Die
Verlegung des Allgemeinen Wissens in den optionalen Teil des HAWIK-IV scheint demnach
nicht aus statistischen Gründen vorgenommen worden zu sein. Vielmehr können inhaltliche
Überlegungen als mögliche Ursachen für die Verlegung des Untertests in den optionalen Teil
herangezogen werden. So weist das Allgemeine Wissen eine hohe Bildungsabhängigkeit auf
(siehe dazu Daseking, Lipsius et al., 2008). Zwar ist auch das Allgemeine Verständnis als bil-
dungsabhängig einzustufen, jedoch wird mit diesem Untertest vor allem das Wissen über so-
ziale Situationen erfragt, welches schulformübergreifend vorhanden sein sollte. Aus diesem
Grund erscheint es wichtiger, das Allgemeine Verständnis und nicht das Allgemeine Wissen in
den Kernteil des Index SV aufzunehmen. Da jedoch die Regressionsanalyse eine hohe Varianz-
aufklärung des Allgemeinen Wissens des Index SV zeigt und sowohl ein gutes Messinstrument
für kristalline Intelligenz darstellt als auch hoch mit dem g-Faktor korreliert, sollte es als zusätz-
liche Informationsquelle zur Feststellung der kognitiven Leistungsfähigkeit weiterhin mit erho-
ben werden.
Die Regressionsanalyse der WO-Untertests (siehe Tabelle 8.34) weist für alle vier Untertests
ähnlich hohe β-Gewichte auf. Da jedoch der Mosaik-Test etwas niedrigere Werte zeigt als Figu-
renlegen und Bilderergänzen am wenigsten zur Varianzaufklärung des WO beiträgt, muss die
Hypothese (H1) abgelehnt werden. Die geringste Varianzaufklärung des Untertests Bilderer-
gänzen auf den WO unterstützt die Entscheidung, den Untertest im HAWIK-IV vom Kernteil in
den Zusatzteil zu verlegen. Wie schon im Allgemeinen Wissen haben jedoch auch hinsichtlich
des Bilderordnens andere Ursachen den Wegfall des Untertests veranlasst. Zum einen erwies
sich das Bilderordnen als sehr fehlerlastig hinsichtlich der Durchführung, die sehr komplex und
demnach viel Übung seitens des Testleiters erfordert. Desweiteren wird die relativ niedrige
Kapitel 9 Diskussion der Ergebnisse 183
Reliabilität für die Entfernung des Bilderordnens verantwortlich gemacht, die nach den eben-
falls nicht berücksichtigten Untertests Labyrinth-Test (.70) und Figurenlegen (.69) mit .76 am
niedrigsten ausfiel (Wechsler, 1992). In dieser Studie zeigt Bilderordnen mit keinem Untertest
Interkorrelationen von mehr als r = .40 (siehe Anhang A1 und A2). Wie schon erwähnt, wird
der Wegfall des Bilderordnens jedoch auch kritisiert und vermutet, dass ihn Wechsler niemals
befürwortet hätte, da ihm das Erfassen sozialer Fertigkeiten, wie es mit diesem Untertest mög-
lich ist, wichtig war (Flanagan & Kaufman, 2004). Als Hauptargument für den Verzicht auf die
Untertests Bilderordnen und Figurenlegen sowie der Verlegung des Untertests Bilderergänzen
in den optionalen Teil des HAWIK-IV gilt jedoch der reduzierte Einfluss der Zeitkomponente
(siehe Kapitel 4.7.1 und Flanagan & Kaufman, 2004).
Im dritten Schritt wurden die Untertests des Index UA mit Hilfe der Regressionsanalyse unter-
sucht. Auch für diesen Index muss die Hypothese (H1) abgelehnt werden, da sich das Rechneri-
sche Denken als wichtiger für die Varianzaufklärung des Index erweist als das Zahlennachspre-
chen (siehe Tabelle 8.35). Somit wird die Unablenkbarkeit vermutlich besser durch den Unter-
test Rechnerisches Denken erfasst als durch das Zahlennachsprechen, das scheinbar eher eine
reine Messung des Arbeitsgedächtnisses als der Unablenkbarkeit darstellt. Wie in Kapitel
4.4.3.1 erwähnt, wird die Index-Bezeichnung Unablenkbarkeit im HAWIK-III als irreführend
angesehen, da der Index nicht explizit Ablenkbarkeit oder Hyperaktivität erfasst (siehe Naglieri
& Paolitto, 2005; Zhu et al., 2004). Bei der exploratorischen Faktorenanalyse des HAWIK-III
(siehe Tabelle 8.16) laden beide Untertests ebenfalls nicht auf einem gemeinsamen Faktor
(Rechnerisches Denken lädt auf dem SV-Faktor und Zahlennachsprechen bildet mit den Ge-
schwindigkeitsuntertests Zahlen-Symbol-Test und Symbol-Suche einen eigenen Faktor). Die
Untertests Rechnerisches Denken und Zahlennachsprechen scheinen im HAWIK-III demnach
unterschiedliche Fähigkeiten abzubilden. Auch die Interkorrelationen von nur .38 (Gesamt-
stichprobe, siehe Anhang A1) beziehungsweise .39 (gematchte Stichprobe, siehe Anhang A2)
deuten darauf hin.
Da sich das Zahlen nachsprechen inhaltlich nicht verändert hat, muss es auf das Rechnerische
Denken sowie den neuen Untertest Buchstaben-Zahlen-Folgen zurückzuführen sein, dass die
Indizes UA und AGD unterschiedliche Fähigkeiten erfassen. Wie in Kapitel 4 beschrieben, ha-
ben neue Erkenntnisse im Bereich der Intelligenzforschung zu einer Modifizierung der Unter-
tests dahingehend geführt, welche kognitiven Funktionen mit ihnen erhoben werden. Auch
das Rechnerische Denken erfasst in beiden Versionen unterschiedliche kognitive Fähigkeiten
(siehe Kapitel 4.2 und 4.3 sowie Tabelle 4.4 und Tabelle 4.6). Durch das Fehlen der optischen
Vorgabe der Rechenaufgaben in Form von Aufgabenkarten zielt das Rechnerische Denken im
HAWIK-IV mehr auf die Erfassung des Kurz- und Langzeitgedächtnisses ab als im HAWIK-III.
Dies zeigt sich auch durch die Ladung der beiden Versionen des Rechnerischen Denkens auf
Kapitel 9 Diskussion der Ergebnisse 184
unterschiedlichen Faktoren in den Faktorenanalysen ohne Vorgabe der Faktorenanzahl (weite-
re Analysen zur inhaltlichen Veränderung der Untertests siehe Kapitel 9.7.4). Mit der Regressi-
onsanalyse konnte demnach die eingeschränkte Vergleichbarkeit beider Testversionen durch
diese inhaltlichen Veränderungen verdeutlicht werden.
9.5.2 Varianzaufklärung der Untertests des HAWIK-IV
Desweiteren wurde mit Hilfe der Regressionsanalyse untersucht, inwieweit die Untertests des
HAWIK-IV zur Varianzaufklärung des entsprechenden HAWIK-III-Index beitragen. Sollten sich
sämtliche Kernuntertests des HAWIK-IV als relevant für die Varianzaufklärung der HAWIK-III-
Indizes erweisen, würde dies die Vergleichbarkeit beider Testversionen unterstützen.
Für den Index Sprachverständis kann anhand der in Tabelle 8.36 vorgestellten Regressionsana-
lyse davon ausgegangen werden, dass die Untertests des HAWIK-III mit einer Varianzaufklä-
rung von insgesamt fast 70 % annähernd dieselben Fähigkeiten abbilden wie der Index SV des
HAWIK-III. Die drei Kernuntertests des HAWIK-IV tragen signifikant zur Varianzaufklärung des
Index SV des HAWIK-III bei. Bei einem Vergleich der beiden SV-Indizes muss demnach nur mit
einer geringen Abweichung der Testergebnisse auf Grund inhaltlicher Veränderungen beider
Testversionen ausgegangen werden.
Anders verhält es sich im Index WO des HAWIK-III. Hier zeigen sich anhand der Regressions-
analyse der Untertests des WLD (siehe Tabelle 8.37), dass die Kerntests des WLD nicht durch-
weg bedeutsam zur Varianzaufklärung des WO beitragen. Die beiden neuen Untertests Bild-
konzepte und Matrizen-Test leisten keinen signifikanten Beitrag zur Varianzaufklärung des WO.
Insgesamt zeigt sich mit etwas mehr als 40 % der geringste Varianzaufklärungsanteil innerhalb
der vier Indizes. Nach den Ergebnissen der Korrelationsanalysen kann nunmehr auch anhand
der Regressionsanalysen verdeutlicht werden, dass WO und WLD nicht dieselben kognitiven
Fähigkeiten erheben und daher nicht uneingeschränkt miteinander verglichen werden sollten.
Wie in Kapitel 4.6.1 dargestellt, kamen auch die Autoren der KABC-II anhand von Korrelations-
studien zwischen der KABC-II und der WISC-III bzw. WISC-IV zu dem Ergebnis, dass beide
Wechsler-Versionen unterschiedliche Konstrukte erfassen (Kaufman & Kaufman, 2004). Ihrer
Meinung nach bilden der Handlungsteil und der WO eher visuelle Prozesse ab, während der
Index WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Denkens
korreliert.
Die Untertests des AGD klären nur die Hälfte der Varianz des entsprechenden HAWIK-III-Index
UA auf (siehe Tabelle 8.38). Auch zwischen den Indizes AGD und UA muss demnach von einer
eingeschränkten Vergleichbarkeit ausgegangen werden. Aufgrund der geringen Varianzaufklä-
rung des Untertests Buchstaben-Zahlen-Folgen scheint der Index UA nicht so explizit das Ar-
Kapitel 9 Diskussion der Ergebnisse 185
beitsgedächtnis zu erfassen, wie dies durch die Buchstaben-Zahlen-Folgen und den entspre-
chenden Index AGD gewährleistet zu sein scheint.
Trotz der (bis auf den Durchstreich-Test) identischen Untertests klären die Untertests des Index
VG weniger als die Hälfte der Varianz des Index AG auf (siehe Tabelle 8.39). Hier scheinen, wie
oben schon beschrieben, andere Einflüsse wie der Lerneffekt oder die Wertverschiebung (sie-
he Kapitel 9.2.1 und 9.6) ursächlich zu sein. Der Durchstreich-Test trägt nicht signifikant zur
Varianzaufklärung bei. Auch die niedrigen Interkorrelationen mit den anderen VG-Untertests,
also dem Zahlen-Symbol-Test und der Symbol-Suche des HAWIK-IV (.34 und .39, siehe Anhang
A3), deuten auf die Erfassung anderer Fähigkeiten des Durchstreich-Tests hin als es von den
anderen Untertests des Verarbeitungsgeschwindigkeits-Index erfolgt.
9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ
Zusätzlich wurde regressionsanalytisch untersucht, wie viel Varianz des Gesamt-IQ der einen
Testversion von den Indizes der anderen Testversion aufgeklärt wird (siehe Tabelle 8.40 und
Tabelle 8.41). Dieses Vorgehen soll Rückschlüsse darüber liefern, inwieweit die beiden Testver-
sionen durch Aufklärung gemeinsamer Varianz die gleichen kognitiven Leistungen abbilden.
Bei der Untersuchung des Gesamt-IQ des HAWIK-III erweist sich das SV des HAWIK-III als wich-
tigster Faktor zur Aufklärung der Varianz des Gesamt-IQ. Dies lässt sich darauf zurückführen,
dass mit dem Gemeinsamkeiten finden, dem Wortschatz-Test und dem Allgemeinen Verständ-
nis sämtliche Untertests des SV des HAWIK-IV in den Gesamt-IQ des HAWIK-III einfließen.
Der ebenfalls hohe Varianzaufklärungsanteil des WLD auf den HAWIK-III-Gesamt-IQ kann mit
dem hohen Beitrag der Untertests Mosaik-Test und Bilder ergänzen des HAWIK-IV zur Varianz-
aufklärung des WO (siehe Tabelle 8.37) erklärt werden. Beide Untertests fließen in den Ge-
samt-IQ des HAWIK-III ein. Die Untertests Bildkonzepte und Matrizen-Test tragen jedoch nicht
signifikant zur Varianzaufklärung des WO (siehe Tabelle 8.37) bei. Daher kann trotz der Ergeb-
nisse der Regressionsanalyse zum Gesamt-IQ des HAWIK-III geschlussfolgert werden, dass WO
und WLD nicht dieselben kognitiven Fähigkeiten erfassen.
Der Index AGD trägt nicht signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ bei. Dies
deckt sich mit den Ergebnissen der Korrelationsanalysen. Damit wird ein weiteres Argument
dafür geliefert, UA und AGD nicht miteinander zu vergleichen, da sie unterschiedliche Fähigkei-
ten erfassen. Hier zeigt sich erneut, dass das Überarbeitungsziel der Entwickler der WISC-IV
erreicht wurde, der Erfassung des Arbeitsgedächtnisses einen größeren Stellenwert einzuräu-
men als dies in der WISC-III bzw. dem HAWIK-III der Fall war.
Zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV leisten sämtliche HAWIK-III-Indizes einen
signifikanten Beitrag. Auch hier erweist sich das SV als wichtigster Faktor. Dennoch kann von
Kapitel 9 Diskussion der Ergebnisse 186
allen vier Indizes insgesamt nur 58 % der Varianz des Gesamt-IQ aufgeklärt werden. Ein Grund
dafür, dass in beiden Studien die Geschwindigkeitsindizes nur relativ wenig Varianz aufklären,
obwohl sie inhaltlich beinahe identisch sind, könnte in der Verschiebung hinsichtlich der Roh-
wertverteilung auf die Wertpunkte liegen (siehe Kapitel 9.6).
Sowohl die Varianzaufklärung des HAWIK-III-Gesamt-IQ durch die Indizes des HAWIK-IV als
auch die Varianzaufklärung des HAWIK-IV-Gesamt-IQ durch die Indizes des HAWIK-III liegt so-
mit lediglich bei etwa 60 %. Demnach kann circa 40 % der Varianz nicht erklärt werden. Dies
spricht dafür, beide Testversionen nur begrenzt miteinander zu vergleichen.
Bei der Interpretation der Einflüsse der Indizes auf den Gesamt-IQ muss jedoch folgende, als
scheinbar abweichender IQ (seemingly anomalous IQ, Reddon, Whippler & Reddon, 2007) be-
zeichnete testspezifische Besonderheit berücksichtigt werden: In einigen Fällen liegt der Ge-
samt-IQ im oberen Leistungsbereich oberhalb und im unteren Leistungsbereich unterhalb der
Werte der Indizes (siehe dazu Reddon, Vander Veen & Reddon, 2004; Reddon et al., 2007). Der
Wertebereich des Gesamt-IQ ist größer (die Werte reichen von 40 bis 160) als der Wertebe-
reich der Indizes (bei den Indizes SV und WLD liegen die Werte zwischen 45 und 155 und in der
AGD und der VG zwischen 50 und 150). Daher zeigt sich das Phänomen häufiger an den Rand-
bereichen der IQ-Normalverteilung. In einer Untersuchung mit der WISC-IV wurde dieser ab-
weichende IQ bei 1 % der Fälle festgestellt (Reddon et al., 2007). Dies hängt mit der Regression
zur Mitte zusammen. Die Regression zur Mitte zählt zu den Störeinflüssen, die die Vergleich-
barkeit zweier Tests beeinträchtigen können (siehe Kapitel 5.2). Sie kann dazu führen, dass die
Abhängigkeit zwischen Indizes und Gesamt-IQ kaum interpretiert werden kann. Da die Regres-
sion zur Mitte jedoch nur extrem selten vorkommt, kann ein großer Einfluss auf die Ergebnisse
dieser Untersuchung ausgeschlossen werden.
9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen
Insgesamt lassen die Ergebnisse der Regressionsanalysen darauf schließen, dass die unter-
schiedlichen Vorstellungen von Intelligenz, die in die Entwicklung beider Testversionen einge-
flossen sind, deren Vergleichbarkeit beeinträchtigen. Es soll an dieser Stelle jedoch erneut dar-
auf hingewiesen werden, dass die Berechnung der Varianzaufklärung der Indizes durch die
Untertests verzerrt ist. Bei den Indizes handelt es sich um IQ-Werte, die künstlich erzeugt wor-
den sind und keinen linearen Zusammenhang zu den Wertpunkten der Untertests aufweisen
(siehe Kapitel 7.5.4).
9.5.5 Erwartete Werte und Konfidenzintervalle
Die Ergebnisse der Vorhersage des HAWIK-IV-Konfidenzintervalls unter Kenntnis des entspre-
chenden HAWIK-III-Wertes unterstützen die Existenz eines Flynn-Effekts, der zu einer Über-
Kapitel 9 Diskussion der Ergebnisse 187
schätzung der Leistung eines Kindes führt, wenn es aktuell noch mit dem HAWIK-III getestet
wird. Dies hängt damit zusammen, dass bei der Berechnung der Konfidenzintervalle die Kons-
tante auf 0 festgelegt wurde (siehe Kapitel 7.5.4.2). So ergeben sich durchweg niedrigere vor-
hergesagte Werte im HAWIK-IV, was sich mit den von den WISC-IV-Autoren angegebenen er-
warteten WISC-IV-Werten deckt (Wechsler, 2003b) und dem Flynn-Effekt (siehe Kapitel 5.2.2)
zuzusprechen ist. Diese erwarteten Werte und Konfidenzintervalle sollen dem Testanwender
verdeutlichen, von welchen Werten sie bei einer Testung mit dem HAWIK-IV ausgehen kön-
nen, wenn bereits der HAWIK-III durchgeführt wurde. Liegen die Werte außerhalb der Konfi-
denzintervalle weist dies auf ein zur HAWIK-III-Testung abweichendes Leistungsprofil hin. Die
Veränderungen können jedoch auch durch die spezifischen Stärken und Schwächen des Kindes
entstanden sein, die durch die Verschiebung der erfassten Fähigkeiten mehr oder weniger
betont werden (siehe Kapitel 9.7.1). Zudem sollten die anderen Ergebnisse dieser Studie, wie
Lerneffekte - vor allem im Bereich der Erfassung von Verarbeitungsgeschwindigkeit - berück-
sichtigt werden.
9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung An den Untertests Zahlen-Symbol-Test und Symbol-Suche, die sich von HAWIK-III zu HAWIK-IV
inhaltlich nicht verändert haben (mit der Ausnahme, dass die Symbol-Suche für die Kinder zwi-
schen 9 und 16 Jahren zur Reduzierung des Deckeneffekts im HAWIK-IV 15 zusätzliche Aufga-
ben aufweist), soll im Folgenden exemplarisch dargestellt werden, dass unterschiedliche Er-
gebnisse in beiden Testversionen nicht zwangsläufig mit einer veränderten Leistung des Kindes
einhergehen. Vielmehr basieren unterschiedliche Rohwertverteilungen auf der Wertpunktbe-
rechnung. Tabelle 9.1 stellt einen Auszug aus den Umrechnungstabellen des HAWIK-III und -IV
dar, der die unterschiedliche Einstufung der erzielten Rohwerte in Wertpunkte verdeutlicht.
Wie aus Tabelle 9.1 ersichtlich wird, zeigen sich im mittleren Leistungsbereich (10 Wertpunkte)
keine deutlichen Unterschiede hinsichtlich der für einen Wertpunkt von 10 notwendigen Roh-
werte. Einzig die 16;8- bis 16;11-Jährigen müssen in der Symbol-Suche für 10 Wertpunkte im
HAWIK-IV drei Rohwertpunkte mehr erzielen als im HAWIK-III (35-36 im HAWIK-IV gegenüber
32-33 im HAWIK-III). Besonders deutlich wird die Rohwertverschiebung jedoch an den Randbe-
reichen. So erhalten die Kinder der jüngsten Altersgruppe im HAWIK-III für 10 Rohwerte im
Zahlen-Symbol-Test nur 1 Wertpunkt, während gleichaltrige Kinder im HAWIK-IV schon für 3
Rohwerte 2 Wertpunkte erhalten (für 10 Rohwerte würden sie 4 Wertpunkte bekommen). Den
ältesten Kindern werden im Zahlen-Symbol-Test des HAWIK-IV für 33 Rohwerte schon 2 Wert-
punkte vergeben, während die Kinder desselben Alters im HAWIK-III 37 Rohwerte erreichen
müssen, um 2 Wertpunkte zu erhalten. Hier haben demnach die Kinder der Normierungsstich-
probe des HAWIK-IV schlechter abgeschnitten als die der Normierungsstichprobe des HAWIK-
Kapitel 9 Diskussion der Ergebnisse 188
III. Der entgegengesetzte Trend zeigt sich am oberen Leistungsrand der Symbol-Suche. So be-
nötigen die 6;0- bis 6;3-Jährigen beispielsweise 40 Rohwerte in der Symbol-Suche des HAWIK-
IV, um die maximalen 19 Wertpunkte zu erhalten, während die gleichaltrigen Kinder im HA-
WIK-III nur 29 Rohwerte für 19 Wertpunkte benötigen.
Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus den Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002).
Altersstufe HAWIK-
III HAWIK-
IV HAWIK-
III HAWIK-
IV HAWIK-
III HAWIK-
IV Wertpunkte 1 WP 1 WP 10 WP 10 WP 19 WP 19 WP
ZST
6;0-6;3 0-10 0-2 27-30 28-31 61-65 61-65 9;0-9;3 0-14 0-10 37-39 36-38 60-119 65-119
12;0-12;3 0-22 0-18 48-52 49-52 81-119 86-119 16;8-16;11 0-36 0-32 66-70 69-72 100-119 110-119
SS/SYS
6;0-6;3 0 0 15 13-14 29-45 40-45 9;0-9;3 0-5 0-4 20-21 20 34-45 37-60
12;0-12;3 0-8 0-8 25-26 26-27 44-45 46-60
16;8-16;11 0-14 0-15 32-33 35-36 45 (ab 18 WP)
55-60
Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Die grau unterlegten Wertpunkbereiche repräsentieren deutliche Verschiebungen zwischen beiden Testversionen.
Die Rohwerteverteilung hat sich demzufolge trotz inhaltlich identischer Untertests zum Teil
deutlich verändert. Dies hängt mit der Standardisierung der erzielten Rohwerte in Wertpunkte
mit einem Wertpunktmittel von 10 und einer Standardabweichung von +/- 3 zusammen. Wer-
den für den HAWIK-IV mehr Rohwerte für dieselben Wertpunkte benötigt als für den HAWIK-
III, kann jedoch auch der Flynn-Effekt ursächlich sein.
Schlussfolgernd daraus ist also ein Anstieg oder Abfall in den Wertpunkten zwischen dem HA-
WIK-III und dem HAWIK-IV nicht zwangsläufig mit einer Verbesserung bzw. Verschlechterung
der Leistung in der dem Untertest zugrunde liegenden Fähigkeit zu begründen. Dies ist vom
Anwender bei der Interpretation der Testergebnisse unbedingt zu beachten.
9.7 Einzelfallbetrachtungen Im Folgenden soll anhand der Ergebnisse einzelner Testpersonen aufgezeigt werden, welche
Schwierigkeiten bei der Vergleichbarkeit zweier unterschiedlicher Versionen eines Tests beste-
hen und wie Störvariablen (siehe Kapitel 5.2) die Testergebnisse beeinflussen können.
9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes
Wie in Kapitel 4 dargestellt, können Differenzen im HAWIK-III und -IV auf strukturelle Verände-
rungen, wie unterschiedliche Untertestzusammensetzungen der Indizes beider Tests, zurück-
geführt werden. Ein 16-jähriges Mädchen erhält weit überdurchschnittliche IQ-Werte im Hand-
lungsteil und im Index WO (141 und 142) des HAWIK-III, jedoch nur einen durchschnittlichen
Kapitel 9 Diskussion der Ergebnisse 189
IQ-Wert im entsprechenden HAWIK-IV-Index WLD (106). Dies kann auf die unterschiedliche
Untertestzusammensetzung beider Test zurückgeführt werden. So erzielt sie im HAWIK-III 19
Punkte im Bilderordnen, in den WLD-Untertests Bildkonzepte und Matrizen-Test jedoch nur 10
beziehungsweise 11 Punkte. Dies deutet auf Stärken des Mädchens eher im sozialen Bereich
als im logischen Denken und räumlichen Vorstellungsvermögen hin.
Ein achtjähriges Mädchen erhält im HAWIK-III einen Gesamt-IQ von 115 und im HAWIK-IV ei-
nen Gesamt-IQ von 93. Der Unterschied beträgt demnach 22 IQ-Punkte (also fast 1.5 SD) und
kann nicht auf den Lerneffekt zurückgeführt werden, da das Kind zuerst den HAWIK-III durch-
führte. Die Ursache für diese hohe Differenz liegt vor allem an den Untertests des WO bzw. des
WLD: Der WO-IQ des Mädchens beträgt 118, der WLD-IQ jedoch nur 98. Dies lässt sich eben-
falls auf die unterschiedliche Untertestzusammensetzung zurückführen. Während das Mäd-
chen überdurchschnittliche Werte im Bilderordnen und Figurenlegen erzielt (jeweils 16 Wert-
punkte), schneidet es in den neuen Untertests Bildkonzepte und Matrizen-Test mit jeweils 9
Punkten nur durchschnittlich ab.
Bei einem zehnjährigen Jungen führen durchschnittliche Werte in den Untertests Bildkonzepte
und Matrizen-Test und weit überdurchschnittliche Werte im Bilderordnen und Figurenlegen zu
einer Differenz von 23 Wertpunkten (112 gegenüber 135), was ihm auf handlungsbezogener
Ebene im HAWIK-III die Diagnose einer Hochbegabung, im HAWIK-IV jedoch nur einer norma-
len Begabung einbringen würde.
Ein achtjähriges Mädchen erzielt im WLD nur 69 IQ-Punkte gegenüber 100 IQ-Punkten im WO.
Es würde somit im HAWIK-IV hinsichtlich der Fähigkeit zum wahrnehmungsgebundenen logi-
schen Denken an der Grenze zur Intelligenzminderung liegen, die Fähigkeit zur Wahrneh-
mungsorganisation im HAWIK-III würde jedoch als absolut durchschnittlich gelten.
Auch in anderen Indizes führt die unterschiedliche Untertestzusammensetzung zu stark abwei-
chenden Ergebnissen. So erhält ein zehnjähriges Mädchen beim UA-Index des HAWIK-III 88 IQ-
Punkte, beim entsprechenden HAWIK-IV-Index AGD jedoch einen IQ-Wert von 120. Dies ist
zum Teil darauf zurückzuführen, dass sich das Rechnerische Denken als schwächster Untertest
des Mädchens erweist, das im HAWIK-III in den Index einfließt und im HAWIK-IV nur noch op-
tional eingesetzt wird. Bei einem 13-jährigen Mädchen macht die Auslagerung des Rechneri-
schen Denkens zu einem optionalen Untertest einen Unterschied zwischen den entsprechen-
den Indizes von 22 Wertpunkten aus (98 im UA gegenüber 120 im AGD). Dies zeigt sich auch in
umgekehrter Hinsicht bei Kindern, deren Stärke das rechnerische Denken darstellt. Sie schnei-
den im Index UA besser ab als im AGD. Bei anderen Kindern ist der große Unterschied zwi-
schen diesen beiden Indizes dadurch zu erklären, dass sie Schwierigkeiten mit dem Untertest
Buchstaben-Zahlen-Folgen hatten und daher im HAWIK-IV schlechter abschnitten als im HA-
Kapitel 9 Diskussion der Ergebnisse 190
WIK-III, obwohl sie im Zahlen nachsprechen und Rechnerischen Denken der beiden Testversio-
nen die gleichen Wertpunkte erreichten.
Auch im SV sind solche Abweichungen zu beobachten. Ein achtjähriger Junge erzielt im HAWIK-
III einen SV-IQ von 147 und im HAWIK-IV von 126. Der Grund für die Abweichung liegt im Un-
tertest Allgemeines Wissen, der mit jeweils 18 Wertpunkten seinen besten Untertest darstellt,
im HAWIK-IV jedoch nur noch ein optionaler Untertest ist.
Wie diese Beispiele verdeutlichen, sollte beim Vergleich beider Tests die unterschiedliche Un-
tertestzusammensetzung berücksichtigt werden, die teilweise gänzlich unterschiedliche Fähig-
keiten erfassen.
9.7.2 Klinische Relevanz
Die Folgen, die daraus resultieren, welche der beiden Testversionen HAWIK-III und HAWIK-IV
zur Intelligenzdiagnostik herangezogen werden, verdeutlicht folgendes Beispiel: Ein siebenjäh-
riger Junge erzielt im HAWIK-III einen Gesamt-IQ von 77, im HAWIK-IV erhält er jedoch nur 64
IQ-Punkte. Wäre das Kind im Zuge einer diagnostischen Abklärung mit dem HAWIK-III getestet
worden, wäre eine Lernbehinderung diagnostiziert worden, während die Leistung im HAWIK-IV
im Bereich einer leichten geistigen Behinderung liegt. Allerdings wurde bei diesem Kind der
HAWIK-IV zuerst durchgeführt, so dass der Unterschied vermutlich auch durch den Lerneffekt
erklärt werden kann.
9.7.3 Unterschiedliche Normierung
Manche Differenzen können mit der unterschiedlichen Normierung beider Testversionen be-
gründet werden. So erhält ein Kind, das im Wortschatz-Test des HAWIK-III nur zwei Rohwerte
mehr erreicht als im HAWIK-IV, dafür im HAWIK-III neun Wertpunkte mehr. Ein achtjähriges
Kind erhält im Wortschatz-Test des HAWIK-III für die Hälfte der möglichen Rohwerte (30 von
60) schon die maximale Punktzahl (19 Wertpunkte). Hier liegen die Ursachen für die Differenz
also nicht im Lerneffekt oder anderen Störvariablen, sondern in der Normierung des HAWIK-III.
Dieses Phänomen zeigt sich teilweise auch im Gemeinsamkeiten finden.
9.7.4 Inhaltliche Veränderungen der Untertests
Unter Bezugnahme auf die Aktualisierung der theoretischen Grundlagen wurden im HAWIK-IV
einige Änderungen vorgenommen (siehe Kapitel 4.5.1). Welchen Einfluss diese Änderungen
auf die Vergleichbarkeit beider Testversionen haben können, soll an einigen Beispielen aufge-
zeigt werden. So weisen die Ergebnisse eines zwölfjährigen Jungen im Mosaik-Test eine Diffe-
renz von fünf Wertpunkten zwischen HAWIK-III und -IV (6 und 11 Wertpunkte) auf. Da der
HAWIK-IV zuerst vorgelegt wurde, kann die Differenz nicht im Lerneffekt begründet sein. Die
Untertestprofile beider Tests, die unterdurchschnittliche Ergebnisse bei zeitabhängigen Unter-
Kapitel 9 Diskussion der Ergebnisse 191
tests wie Figurenlegen oder Zahlen-Symbol-Test aufweisen, deuten darauf hin, dass das Ergeb-
nis aus der Verringerung der Zeitkomponente im Mosaik-Test des HAWIK-IV resultiert. Das
Kind scheint Schwierigkeiten mit Zeitbegrenzungen zu haben und kam deshalb beim Mosaik-
Test trotz gleich viel gelöster Aufgaben zu mehr Wertpunkten im HAWIK-IV, da es im HAWIK-III
keine Zeitbonuspunkte erhielt und somit schlechter abschnitt als andere Kinder seines Alters,
die Zeitbonuspunkte erhielten.
9.7.5 Veränderungen der Untertestreihenfolge
Ein Untertest, bei dem die unterschiedliche Position im Test zu deutlich voneinander abwei-
chenden Testergebnissen führen kann, stellt das Zahlen nachsprechen dar, das von der letzten
auf die dritte Position vorverlegt wurde. Insgesamt weisen 11 Kinder und Jugendliche dieser
Stichprobe (das entspricht knapp 5 % der Gesamtstichprobe) mehr als drei Wertpunkte (also
mehr als eine Standardabweichung) Differenz zwischen beiden Zahlen nachsprechen-
Untertests auf und zeigen dabei die bessere Leistung in dem Test, den sie zuerst durchführten,
was bei ihnen den Lerneffekt als Ursache ausschließt. Der Großteil dieser Kinder (acht von elf)
zeigt schlechtere Leistungen im HAWIK-III, obwohl sie den HAWIK-IV zuerst durchführten und
demnach im HAWIK-III angesichts des Lerneffekts besser hätten sein müssen. Dies deutet da-
rauf hin, dass hier die ungünstigere Untertestposition des Zahlennachsprechens im HAWIK-III
(Ermüdung, mangelnde Konzentration, Motivation etc. zum Ende der Testung) den Ausschlag
für die deutlich geringere Wertpunktzahl gegeben hat.
Ein weiterer Untertest, der eine deutlich andere Position eingenommen hat, ist der Mosaik-
Test, der von der siebten auf die erste Stelle verschoben wurde. Diese Veränderung erweist
sich vor allem bei ängstlichen Kindern als bedeutsam, da sie zu Beginn der Testung oftmals
noch unsicher sind und dementsprechend schwächere Leistungen zeigen. So erreicht ein
sechsjähriges Mädchen bei Erstvorgabe des HAWIK-IV im Mosaik-Test dieser Testversion 6
Punkte und im HAWIK-III 11 Punkte. Insgesamt weist das Profil zum einen steigende Werte zur
Mitte der HAWIK-IV-Testung und zum anderen schlechtere zu Beginn des HAWIK-III auf (5
Punkte im Allgemeinen Wissen und 7 Punkte im Bilderergänzen). Es scheinen demzufolge per-
sönlichkeitsspezifische Charaktereigenschaften des Mädchens zu stark voneinander abwei-
chende Leistungen im gleichen Untertest in beiden Testversionen zu führen. Gleiches ergibt
sich bei einem elfjährigen Mädchen, dessen Ergebnisse im Bilder ergänzen acht Wertpunkte
Differenz aufweisen (9 Wertpunkte im HAWIK-III, in dem der Test an erster Position vorgege-
ben wird gegenüber 17 Wertpunkte im HAWIK-IV, in dem der Test die 11. Position belegt). Da
der HAWIK-IV vor dem HAWIK-III durchgeführt wurde, kann die Differenz nicht auf Lerneffekte
zurückgeführt werden. Vielmehr scheinen Startschwierigkeiten, beispielsweise auf Testangst
begründet, ursächlich zu sein.
Kapitel 9 Diskussion der Ergebnisse 192
9.7.6 Zusammenfassung der Einzelfallbetrachtungen
An den Analysen einzelner Testergebnisse konnten die Auswirkungen der Veränderungen zwi-
schen HAWIK-III und -IV auf die Vergleichbarkeit beider Testergebnisse demonstriert werden.
Im Einzelfall können demnach durch die unterschiedlichen Testversionen erhebliche Ergebnis-
differenzen auftreten. Dabei erweisen sich in den Einzelfalldarstellungen folgende Unterschie-
de als ursächlich für die stark voneinander abweichenden Ergebnisse:
Veränderungen in der Untertestzusammensetzung der Indizes,
die unterschiedliche Normierung beider Testversionen,
inhaltliche Veränderungen der Untertests sowie
Veränderungen der Untertestreihenfolge.
Wie die Analysen aufgezeigt haben, kann die Entscheidung für eine Testversion vereinzelnd
sogar die Diagnosestellung beeinflussen.
Insgesamt sollten die Analysen den Anwender dazu veranlassen – auch wenn sich insgesamt
hohe Korrelationen zwischen beiden Testversionen ergeben haben –im Einzelfall die Ergebnis-
se vorsichtig zu interpretieren. Schließlich können sich im Einzelfall auch dann Effekte zeigen,
wenn sie sich in der Gruppe nicht nachweisen lassen. Zhu und Tulsky (2000) empfehlen, sich
sensibel für Effekte wie Testreihenfolge und unterschiedliche situative Bedingungen zu zeigen.
Die abweichenden Ergebnisse einzelner Befunde deuten außerdem auf die Bedeutsamkeit von
Störeinflüssen wie der Tagesform oder der Motivation der Testperson hin. Damit unterstützt
diese Studie die Kritik an der Intelligenzdiagnostik, sie sei nur als Statusdiagnostik zu bewerten,
die lediglich Aussagen über den jeweils aktuellen Leistungs- und Entwicklungsstand zulasse
(siehe Kapitel 5.3).
9.8 Ausblick und Einschränkungen Obwohl sich zunächst die Testentwickler verantwortlich für Validitätsnachweise zeigen, liegt es
letztendlich in der Hand des Testanwenders, für sich herauszufinden, inwieweit diese Nach-
weise die Anwendung des Tests für den ihm angedachten Zweck ausreichend unterstützen
(Wechsler, 2003b).
9.8.1 Perspektiven für die Praxis
Aufgrund der Interpretationsprobleme und dem Mangel an ausreichender Forschung zum
Thema der Vergleichbarkeit zweier Testversionen empfehlen Strauss et al. (2000) den Testan-
wendern – je nach Zweck ihrer Untersuchung – eine Kombination von Richtlinien. Im Folgen-
den werden nur die Richtlinien angegeben, die für die hier gegenständliche Art von Testrevisi-
on gültig sind:
Kapitel 9 Diskussion der Ergebnisse 193
Konnte eine Normverschiebung (z. B. durch einen großen Flynn-Effekt) nachgewiesen
werden, sollte die überarbeitete Version verwendet werden.
Erfasst die aktuellere Version erfolgreich neue und bedeutsame Konstrukte, ist sie der
älteren Version klar vorzuziehen.
Sind neue Normen vorhanden, sollten nur diese verwendet werden.
Bei Vorher-Nachher-Testungen sollte immer die gleiche Version verwendet werden.
Entscheidungsregeln, die auf unterschiedlichen Testversionen beruhen, sollten ver-
mieden werden.
Wenn die Faktorenstrukturen voneinander abweichen, sollte beim Vergleich beider
Versionen die Interpretation der Gesamtwerte vermieden werden. Es sollte sich nur
auf die Komponenten beschränkt werden, die in beiden Versionen äquivalent erschei-
nen.
Es sollten generell stets mehrere Messinstrumente zur Messung eines Konstrukts ver-
wendet werden.
Unter Bezugnahme auf diese Kriterien sollte im Hinblick auf den HAWIK im Regelfall immer der
HAWIK-IV zum Einsatz kommen. So zeigt sich ein Flynn-Effekt im Vergleich des HAWIK-IV mit
seinem Vorgängerverfahren, dem HAWIK-III. Wie in Kapitel 5.2.2 ausführlich geschildert, kann
die Verwendung älterer Testversionen angesichts des Flynn-Effekts in eine geringere Anzahl an
Diagnosen von Entwicklungsbeeinträchtigungen münden, so dass vorhandene Beeinträchti-
gungen nicht ernst genommen werden (Strauss et al., 2000). Testergebnisse sollten auf norma-
tiven Informationen basieren, die sowohl aktuell als auch repräsentativ für die jeweilige Popu-
lation sind. Es wird davon ausgegangen, dass Normen von Intelligenztests spätestens nach 15
Jahren als ungültig gelten und durch neue Vergleichswerte zu ersetzen sind (Kanaya et al.,
2005). Die Normen des HAWIK-III wurden zwischen 1995 und 1998 erhoben. Demnach sind die
erhobenen HAWIK-III-Werte mittlerweile bis zu 14 Jahre alt.
Außerdem konnte nachgewiesen werden, dass für die WISC-IV und damit auch den HAWIK-IV
erfolgreich Änderungen in der Erfassung kognitiver Fähigkeiten vorgenommen wurden, die als
wichtige Konstrukte im Bereich der Intelligenzdiagnostik gelten. Einzig im Bereich der Ver-
laufsdiagnostik, beispielsweise bei Testungen vor und nach einer Therapie, ist es angebracht,
erneut auf den HAWIK-III zurückzugreifen, wenn er bereits vor der Maßnahme durchgeführt
wurde. Nur so können Veränderungen im Leistungsprofil des Kindes auf tatsächliche Leis-
tungsveränderungen zurückgeführt werden, ohne dass Verzerrungen wie Unterschiede in den
Tests oder veraltete Normen berücksichtigt werden müssen. Allerdings müssen in diesem Fall
mögliche Lerneffekte unbedingt berücksichtigt werden. Liegt die erste Testung mehrere Jahre
zurück, kann zwar ein Lerneffekt ausgeschlossen werden, jedoch kann dann bereits der Flynn-
Effekt zum Tragen kommen. Auch die Einzelfallbetrachtungen zeigen gravierende Auswirkun-
Kapitel 9 Diskussion der Ergebnisse 194
gen auf die Ergebnisse durch Veränderungen in den Untertests und der Teststruktur. In Einzel-
fällen kann dies Folgen für Schulformentscheidungen, Diagnosestellungen oder Therapiepla-
nungen haben. Daher sollte bei einer Wiederholungstestung für die Katamnese unbedingt auf
das ursprünglich eingesetzte Verfahren zurückgegriffen werden.
Analysen zum Zusammenhang beider Versionen ergaben jedoch hohe Korrelationen. Somit
scheinen der HAWIK-III und -IV trotz inhaltlicher und struktureller Unterschiede dasselbe Kons-
trukt zu erfassen. Unter Berücksichtigung der Erkenntnisse, die aus der vorliegenden Studie
gezogen werden können, scheint es demnach zulässig, die Ergebnisse beider Testversionen
miteinander zu vergleichen. Als Richtlinie sollten dabei die erwarteten Werte und ihre Konfi-
denzintervalle (siehe Kapitel 8.8.4) herangezogen werden. Sie bieten eine praktische Hilfestel-
lung bei der Einschätzung der Ergebnisse hinsichtlich potentieller Veränderungen der Leistun-
gen eines Kindes nach einer psychologischen und/oder medizinischen Behandlung oder päda-
gogischen Maßnahme.
Auch wenn in den Faktorenanalysen, in die sämtliche Untertests beider Testversionen einbe-
zogen wurden, sowohl die Untertests des WO und WLD als auch die Untertests der Indizes UA
und AGD auf einem gemeinsamen Faktor laden, scheint auf Grund der anderen Ergebnissen
dieser Studie (z. B. Regressionsanalysen und Korrelationen) ein Vergleich dieser Indizes zumin-
dest nur eingeschränkt möglich zu sein. Dabei liegen die Veränderungen nicht nur in den un-
terschiedlichen Untertests, sondern auch in den damit verbundenen unterschiedlichen kogni-
tiven Fähigkeiten, die in den Indizes erfasst werden (siehe Tabelle 4.4 und Tabelle 4.6).
Außerdem scheinen identische Wertpunkte, beispielsweise in den Indizes WO und WLD, nicht
gleichbedeutend damit zu sein, dass das Kind in beiden Indizes identische Leistungen gezeigt
hat oder dass die Tests dasselbe messen. Genauso bedeutet eine IQ-Steigerung von WO zu
WLD nicht zwangsläufig eine Verbesserung der Leistung des Kindes. Durch die Standardisie-
rung auf ein Mittel von 10 Wert- bzw. 100 IQ-Punkten bedeuten jeweils 10 Wertpunkte bzw.
ein IQ von 100 in beiden Testversionen lediglich, dass das Kind verglichen mit Kindern des glei-
chen Alters ein durchschnittliches kognitives Niveau aufweist.
Für die Praxis kann aus den Regressions- und Korrelationsanalysen dieser Studie zudem die
Schlussfolgerung abgeleitet werden, dass es sinnvoll ist, einige optionale Untertests weiterhin
durchzuführen, im Besonderen das Allgemeine Wissen. Dieser Untertest erweist sich sowohl in
der vorliegenden als auch in anderen Studien als aussagekräftiger Untertest zur Erfassung kris-
talliner und allgemeiner Intelligenz. Ein zusätzlicher Informationsgewinn durch die Durchfüh-
rung der optionalen Untertests Durchstreich-Test und Begriffe erkennen konnte dahingegen
anhand der Ergebnisse dieser Studie nicht nachgewiesen werden.
Kapitel 9 Diskussion der Ergebnisse 195
In den Analysen dieser Studie stellen sich die Ergebnisse der Untertests als deutlich heteroge-
ner dar als die der Indizes und des Gesamt-IQ. Demnach stellt sich die Interpretation der über-
geordneten Werte als aussagekräftiger dar als die Interpretation der Untertests. Wie in der
Diskussion über einen g-Faktor (siehe Kapitel 3.6) dargestellt, sprechen sich diverse Forscher
gegen eine Interpretation des Gesamt-IQ im Sinne eines g-Faktors aus. Fällt die Entscheidung
bei der Testwahl zur Erfassung der kognitiven Leistungen eines Kindes jedoch auf einen Wechs-
ler-Test, stellt die Interpretation des Gesamt-IQ zwangsläufig einen wichtigen Aspekt dar. Da
sich der g-Faktor jedoch als Konstrukt aus vielen Teilfunktionen zusammensetzt, wird bei einer
großen Abweichung innerhalb der Indizes (mehr als 1.5 SD Differenz zwischen zwei Indizes)
davon abgeraten, den Gesamt-IQ zu interpretieren (mehr dazu siehe Daseking et al., in Druck;
Flanagan & Kaufman, 2004)
9.8.2 Einschränkungen der Studie
Intelligenztests unterliegen diversen Einschränkungen (siehe Kapitel 5.3), die auch für die Er-
gebnisse dieser Studie berücksichtigt werden müssen. Mit Hilfe der Einzelfallbetrachtungen
konnte verdeutlicht werden, wie stark ein Testergebnis von Störvariablen beeinflusst werden
kann. So können vor allem die Daten der jüngeren Kinder nicht als frei von Störeinflüssen - wie
einer unterschiedlichen Tagesform, dem Motivationslevel oder Persönlichkeitsveränderungen
des Kindes - gesehen werden. Dies gilt vor allem für die Kinder, die erst nach einem längeren
Zeitraum erneut getestet wurden. Für diese Stichprobe können auch Lernzuwächse zu verzerr-
ten Ergebnissen geführt haben.
Jedoch können die Gütekriterien beider Testversionen als ausreichend erfüllt betrachtet wer-
den und dürften somit generell nicht zu einer Verzerrung der Ergebnisse beitragen. Lediglich
die Objektivität der Wechsler-Skalen sollte kritisch gesehen werden (siehe Kapitel 4.4.1). So
kann die Durchführungsobjektivität nicht vollständig gewährleistet werden. Da die Testungen
dieser Studie jedoch größtenteils von der Verfasserin sowie von wenigen erfahrenen, intensiv
geschulten und supervidierten Testleitern durchgeführt wurden, konnten Fehler in der Test-
durchführung minimiert werden. Einschränkungen in der Auswertungsobjektivität können
weitestgehend ausgeschlossen werden, da die Testprotokolle nur von der Verfasserin ausge-
wertet wurden, die an der Entstehung des Manuals beteiligt war und im Zuge der Normierung
ausgiebig mit dem Test und den Auswertungsrichtlinien vertraut wurde.
Neben den allgemeinen Einschränkungen hinsichtlich der Interpretation von Intelligenztests
führt auch das Design dieser Studie zu einigen Einschränkungen, die bei der Interpretation der
Ergebnisse beachtet werden sollten.
So erweist sich die Stichprobe durch die Unterteilung in Untergruppen teilweise als relativ
klein. Vor allem die Analysen in der gematchten Stichprobe können aus diesem Grund nur als
Kapitel 9 Diskussion der Ergebnisse 196
eingeschränkt aussagefähig gelten. Bei der Berechnung der erwarteten Werte (siehe Kapitel
8.8.4) musste aufgrund fehlender Daten für einige Werte auf eine künstliche Umrechnung per
Hand zurückgegriffen werden (siehe auch 7.5.4.2). Da die Gesamtstichprobe jedoch einen ähn-
lichen Umfang wie vergleichbare Studien aufweist und diese den wichtigsten Ergebnissen und
Interpretationen zu Grunde liegt, kann ihr Umfang insgesamt als ausreichend betrachtet wer-
den.
Allerdings ergeben sich Einschränkungen in der Interpretierbarkeit, da die Intelligenztester-
gebnisse der vorliegenden Stichprobe insgesamt zu gut ausgefallen sind. Mit einem mittleren
IQ von 108.9 (HAWIK-III) beziehungsweise 106.3 (HAWIK-IV) liegen die Werte der Stichprobe
deutlich über dem Mittelwert von 100 der Normierungsstichprobe.
Eine weitere Einschränkung ergibt sich durch die große Varianz der Länge des Re-Testintervalls
in der Stichprobe mit langem Intervall. So variiert der Abstand zwischen erster und der zweiter
Testung im langen Intervall deutlich (die SD der Varianz liegt bei etwas mehr als fünf Mona-
ten). Diese große Varianz kann dazu führen, dass die Kinder dieser Teilstichprobe deutlich un-
terschiedliche Lernzuwächse oder allgemeine Reifungsprozesse zwischen beiden Testungen
aufweisen. Möglicherweise kann dies die Ergebnisse des Vergleichs zwischen erster und zwei-
ter Testung im langen Intervall verzerren. Hier wäre es zudem wichtig gewesen, Informationen
über mögliche therapeutische oder medizinische Behandlungen, die Tagesform des Kindes zu
beiden Testzeitpunkten sowie eventuelle Medikation zu erheben. Somit hätte ausgeschlossen
werden können, dass die Unterschiede zwischen den Ergebnissen beider Testungen auf diese
Variablen zurückzuführen sind. Eine Erfassung des Motivationslevels des Kindes während der
beiden Testungen hätte zudem den Einfluss unterschiedlich hoher Motivation des Kindes bei
der Bearbeitung der Aufgaben ausschließen können.
In dieser Studie wurde zum Vergleich der Testversionen auf statistische und methodische
Standardverfahren zurückgegriffen, die auch in vergleichbaren Studien mit Intelligenzskalen
zum Einsatz kamen. Die Durchführung eines komplexeren statistischen Verfahrens wie eines
Strukturgleichungs- bzw. Pfadmodells wäre sinnvoll gewesen, um komplexere Vergleiche zu
ermöglichen, in denen Messfehler und Störvariablen stärkere Berücksichtigung finden. Dies
wurde jedoch zu Gunsten einer Betonung der Vergleiche zwischen einzelnen Testkomponen-
ten verworfen. Es stand demnach weniger die Strukturüberprüfung als vielmehr der inhaltliche
Vergleich der verschiedenen Testkomponenten sowie die Untersuchung der Störeinflüsse im
Vordergrund. Durch die Einzelfalldarstellungen wurde zusätzlich verdeutlicht, welche Bereiche
des Testverfahrens besonders von den inhaltlichen Änderungen zwischen den Testversionen
betroffen sind.
Kapitel 9 Diskussion der Ergebnisse 197
9.8.3 Forschungsperspektiven
In zukünftigen Studien sollte die Stichprobe hinsichtlich des kognitiven Niveaus der Kinder aus-
geglichener gestaltet werden. So sollte versucht werden, Kinder und Jugendliche aus sämtli-
chen Schulformen zu untersuchen, um einen Querschnitt zu erhalten, der die Normierungs-
stichprobe besser repräsentiert. Außerdem wäre es wünschenswert, weniger Varianz in den
Abständen zwischen den Testungen zu erreichen, damit von identischen Lern- und Reifungs-
prozessen von der ersten zur zweiten Testung ausgegangen werden kann.
Zudem kann es sinnvoll sein, den Vergleich beider Testversionen auf Grundlage eines Struktur-
gleichungsmodells vorzunehmen, um Störeinflüsse besser berücksichtigen und simultane auf-
einander bezogene Berechnungen vornehmen zu können, die ein übersichtlicheres Bild über
die strukturellen Veränderungen zwischen beiden Testversionen geben. Sollen die Ergebnisse
eher der Forschung als der praktischen Anwendung dienen, könnte es zusätzlich sinnvoll sein,
die Berechnungen hinsichtlich der Indizes und Gesamtwerte nicht unter Bezugnahme auf die
IQ-Werte, sondern die Wertpunktsummen vorzunehmen. Dies würde eine lineare Abhängig-
keit zwischen den Untertests und den Indizes gewährleisten.
Bei der Untersuchung des Lerneffekts zeigten sich Mittelwertveränderungen, die auf allgemei-
ne Reifungsprozesse und Lernzuwächse zurückgeführt werden können. Diese machten eine
hohe Bildungsabhängigkeit, vor allem in den sprachlichen Untertests wie dem Allgemeinen
Verständnis, deutlich. Demzufolge können die Ergebnisse in diesen Untertests womöglich stark
von der besuchten Klassenstufe des Kindes abhängen. Daher wäre zu überlegen, die Normen
nicht auf Grundlage von Alters- sondern von Klassenstufen zu erheben. So stellt es sich als
bedeutsam dar, ob ein sechsjähriges Kind zum Zeitpunkt der Testung bereits die Schule oder
noch den Kindergarten besucht.
Die Veränderungen vom HAWIK-III zum HAWIK-IV spiegeln die Trends in der Intelligenzfor-
schung wider, auf bestimmte kognitive Bereiche wie der fluiden Intelligenz, dem Arbeitsge-
dächtnis und der Verarbeitungsgeschwindigkeit gesteigerten Wert zu legen. Die Erfassung
dieser Fähigkeiten hat an Bedeutung zugenommen und wurde aus diesem Grund im HAWIK-IV
stärker berücksichtigt, als dies im HAWIK-III der Fall war. Es wird jedoch weiterhin kritisiert,
dass der HAWIK-IV nur wenige der kognitiven Fähigkeiten adäquat erfasst, die in aktuellen
Intelligenztheorien als wichtige Faktoren der Intelligenz erachtet werden. Dies sollte bei der
Entwicklung zukünftiger Testversionen berücksichtigt werden, darf jedoch nicht dazu führen,
den Wechsler-Skalen ihr „Gesicht“ zu nehmen und die Untertests nicht zu berücksichtigen, die
sich als praktisch und klinisch bedeutsam herausgestellt haben.
Zusammenfassung 198
Zusammenfassung
Die Erfassung der Intelligenz zählt zu den wichtigsten Aspekten der psychologischen Leistungs-
diagnostik. Auch wenn weiterhin umstritten ist, wie Intelligenz definiert werden kann, beschäf-
tigen sich unzählige Forschungsarbeiten mit der Struktur der kognitiven Fähigkeiten des Men-
schen. Diese Modelle haben großen Einfluss auf die Entwicklung von Intelligenztestverfahren.
Aufgrund veralteter Normen und neuer Erkenntnisse im Bereich der Intelligenzstrukturfor-
schung stellt es sich als notwendig dar, Intelligenztestverfahren in regelmäßigen Abständen zu
modifizieren und neu zu normieren. Dies gilt auch für die Wechsler-Skalen, die zu den weltweit
wichtigsten Intelligenztests zählen. Für den Testanwender ist es dabei von großer Bedeutung,
inwieweit das modifizierte Verfahren mit seinem Vorgänger vergleichbar ist.
Die vorliegende Studie befasst sich mit dem Vergleich zwischen HAWIK-III (im Jahr 1999 er-
schienen) und HAWIK-IV (im Jahr 2007 erschienen), beides Versionen des Wechsler-
Intelligenztests für Kinder und Jugendliche zwischen 6 und 16 Jahren. Dabei wurden Störein-
flüsse wie der Lern- und Flynn-Effekt untersucht. Beide Störeffekte konnten für die Kinder und
Jugendlichen dieser Studie nachgewiesen werden und müssen demnach bei der Interpretation
der Ergebnisse berücksichtigt werden.
In dieser Studie zeigen sich sehr hohe Korrelationen zwischen den Gesamt-IQ beider Testver-
sionen. Es kann also davon ausgegangen werden, dass beide Versionen dasselbe Konstrukt
erfassen. Auch auf Ebene der Indizes konnten sehr hohe Zusammenhänge nachgewiesen wer-
den. Dabei ergaben sich bei den Indizes höhere Korrelationen, die weniger Veränderungen von
HAWIK-III zu HAWIK-IV aufweisen. Dagegen zeigten diejenigen Indizes niedrigere Zusammen-
hänge, bei denen einschneidende Veränderungen vorgenommen wurden. So lässt die zusätzli-
che Untersuchung der Höhe der Varianzaufklärung der Untertests auf die Indizes die Schluss-
folgerung zu, dass die stark veränderten Indizes nur eingeschränkt miteinander vergleichbar
sind. Die Faktorenstruktur beider Testversionen konnte jedoch repliziert werden.
Um dem Testanwender eine Richtlinie zu bieten, welche HAWIK-IV-Werte zu erwarten sind,
wenn die mit dem HAWIK-III erhobenen Ergebnisse vorliegen, wurden die erwarteten Werte
und ihre Konfidenzintervalle berechnet und für ausgewählte IQ-Werte tabellarisch dargestellt.
An den Zusammenhangsanalysen und Einzelfallbetrachtungen wird deutlich, wie sich die Ent-
scheidung für eines der beiden Testversionen auf die Ergebnisse und damit einhergehenden
Diagnosen auswirken kann. Aufgrund der Ergebnisse der vorliegenden Studie kann die Richtli-
nie aufgestellt werden, im Regelfall den aktuelleren HAWIK-IV dem Vorgängerverfahren HA-
WIK-III vorzuziehen. Einzig im Rahmen der Verlaufsdiagnostik sollte der HAWIK-III weiterhin
Anwendung finden, sofern er bereits in der Eingangsdiagnostik eingesetzt wurde.
Literaturverzeichnis 199
Literaturverzeichnis
Aiken, L. R. (Ed.). (2003). Psychological testing and assessment (11th ed.). Boston: Pear-son.
Alfonso, V. C., Flanagan, D. P. & Radwan, S. (2005). The impact of the Cattell-Horn-Carroll theory on test development and interpretation of cognitive and aca-demic abilities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellec-tual assessment: Theories, tests, and issues (2nd ed., pp. 185-202). New York: Guilford.
Alfonso, V. C., Johnson, A., Patinella, L. & Rader, D. E. (1998). Common WISC-III ex-aminer errors: Evidence from graduate students in training. Psychology in the Schools, 35, 119-125.
Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention. Heidelberg: Springer Medizin.
American Educational Research Association, American Psychological Association & National Council on Measurement in Education (1999). Standards for educa-tional and psychological testing. Washington: Author.
Anastasi, A. & Urbina, S. (Eds.). (1997). Psychological testing (7th ed.). Upper Saddle River: Prentice Hall.
Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer & H. I. Braun (Eds.), Test validity. Hillsdale: Erlbaum.
Baltes, P. B. (1983). Life-span developmental psychology: Observations on history and theory revisited. In R. M. Lerner (Ed.), Developmental psychology: Historical and philosophical perspectives (pp. 79-111). Hillsdale: Erlbaum.
Belter, R. W. & Piotrowski, C. (2001). Current status of doctoral-level training in psy-chological testing. Journal of Clinical Psychology, 57, 717-726.
Beres, K. A., Kaufman, A. S. & Perlman, M. D. (2000). Assessment of child intelligence. In G. Goldstein & M. Hersen (Eds.), Handbook of psychological assessment (3rd ed., pp. 65-96). Kindlington, Oxford, United Kingdom: Elsevier Science.
Bickley, P. G., Keith, T. Z. & Wolfle, L. M. (1995). The Three-Stratum Theory of Cognitive Abilities: Test of the structure of intelligence across the life span. Intelligence, 20, 309-328.
Binet, A. & Simon, T. (1916). The development of intelligence in children (Originally published in 1905). Baltimore: Williams & Wilkins.
Birke, M. & Lehn, B. (in Druck). Intellektuelle Hochbegabung. In F. Petermann & M. Daseking (Hrsg.), Fallbuch zum HAWIK-IV. Göttingen: Hogrefe.
Bjorklund, D. F. & Schneider, W. (2006). Ursprung, Veränderung und Stabilität der In-telligenz im Kindesalter: Entwicklungspsychologische Perspektiven. In W. Schneider & B. Sodian (Hrsg.), Enzyklopädie der Psychologie (Serie V Entwick-lungspsychologie, Bd. 2, S. 770-821). Göttingen: Hogrefe.
Blaha, J. & Wallbrown, F. H. (1996). Hierarchical factor structure of the Wechsler Intel-ligence Scale for Children-III. Psychological Assessment, 8, 214-218.
Literaturverzeichnis 200
Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsy-chiatrie: Ergebnisse einer Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161.
Bondy, C. (1956). Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE). Bern: Huber.
Borsuk, E. R., Watkins, M. W. & Canivez, G. L. (2006). Long-term stability of member-ship in a Wechsler Intelligence Scale for Children-Third Edition (WISC-III) sub-test core profile taxonomy. Journal of Psychoeducational Assessment, 24, 52-68.
Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollst. überarbeitete und aktual. Aufl.). Heidelberg: Springer Medizin.
Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler (4., überarbeitete Aufl.). Heidelberg: Springer Medizin.
Bortz, J. & Döring, N. (Hrsg.). (2002). Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler (3. Aufl.). Berlin: Springer.
Braaten, E. B. & Norman, D. (2006). Intelligence (IQ) testing. Pediatrics in Review, 27, 403-408.
Bracken, B. A. (1988). Ten psychometric reasons why similar tests produce dissimilar results. Journal of School Psychology, 26, 155-166.
Bracken, B. A. (1992). The interpretation of tests. In M. Zeidner & R. Most (Eds.), Psy-chological testing. An inside view (pp. 119-156). Palo Alto: Consulting Psycholo-gists.
Braden, J. P. & Niebling, B. C. (2005). Evaluating the validity evidence for intelligence tests using the joint test standards. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary Intellectual Assessment (2nd ed., pp. 615-630). New York: Guil-ford.
Brody, N. (2000). History of theories and measurements of intelligence. In R. J. Stern-berg (Ed.), Handbook of intelligence (pp. 16-33). Cambridge: Cambridge Univer-sity.
Brody, N. (2003a). Construct validation of the Sternberg Triarchic Abilities Test: Com-ment and reanalysis. Intelligence, 31, 319-329.
Brody, N. (2003b). What Sternberg should have concluded. Intelligence, 31, 339-342.
Brody, N. (2005). To g or not to g - that is the question. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 489-502). Thousand Oaks: Sage.
Bründler, M., Bürkli, M., Christen, S., Müller, W., Sonderegger, P. & Wolf, K. (2007). Schulpsychologie und Begabungsförderung. Ein Beitrag zur Qualitätsentwick-lung und Qualitätssicherung für Schulpsychologische Dienste. Luzern: Vipp-Praxisforschung.
Bühner, M. (2004). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.
Literaturverzeichnis 201
Burt, C. (1949). The structure of the mind; a review of the results of factor analysis. British Journal of Educational Psychology, 19, 176-199.
Calhoun, S. L. & Mayes, S. D. (2005). Processing speed in children with clinical disor-ders. Psychology in the Schools, 42, 333-343.
Camara, W. J., Nathan, J. S. & Puente, A. E. (2000). Psychological test usage: Implica-tions in professional psychology. Professional Psychology: Research and Prac-tice, 31, 141-154.
Canivez, G. L. & Watkins, M. W. (1999). Long-term stability of the Wechsler Intelligence Scale for Children-Third Edition among demographic subgroups: Gender, race/ethnicity, and age. Journal of Psychoeducational Assessment, 17, 300-313.
Carpenter, P. A., Just, M. A. & Shell, P. (1990). What one intelligence test measures: A theoretical account of the processing in the Raven Progressive Matrices Test. Psychological Review, 97, 404-431.
Carroll, J. B. (1992). Cognitive abilities: The state of the art. Psychological Science, 3, 266-270.
Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York: Cambridge University.
Carroll, J. B. (1994). Primary mental abilities theory. In R. J. Sternberg (Ed.), Encyclope-dia of human intelligence (2nd ed., pp. 833-836). New York: Macmillan.
Carroll, J. B. (1997a). Commentary on the Keith and Witta`s hierarchical and cross-age confirmatory factor analysis of the WISC-III. School Psychology Quarterly, 12, 108-109.
Carroll, J. B. (1997b). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and Issues (pp. 122-130). New York: Guilford.
Carroll, J. B. (2003). The higher-stratum structure of cognitive abilities: Current evi-dence supports g and about ten broad factors. In H. Nyborg (Ed.), The scientific structure of general intelligence. Tribute to Arthur R. Jensen. Kidlington, Oxford: Elsevier Science.
Carroll, J. B. (2005). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment- theories, tests, and issues (2nd ed., pp. 69-76). New York: Guilford.
Cascio, W. F. (Ed.). (1991). Applied psychology in personnel management (4th ed.). Up-per Saddle River: Prentice Hall.
Catron, D. W. & Thompson, C. C. (1979). Test-retest gains in WAIS scores after four retest intervals. Journal of Clinical Psychology, 35, 352-357.
Cattell, R. B. (1971). Abilities: Their structure, growth and action. Boston: Houghton Mifflin.
Cattell, R. B. (1987). Intelligence: Its structure, growth and action. Amsterdam: Elsevier.
Cattell, R. B. & Horn, J. L. (1978). A check on the theory of fluid and crystallized intelli-gence with description of new subtest designs. Journal of Educational Mea-surement, 15, 139-164.
Literaturverzeichnis 202
Ceci, S. J. (1991). How much does schooling influence general intelligence and its cog-nitive components? A reassessment of the evidence. Developmental Psycholo-gy, 27, 703-722.
Ceci, S. J. & Williams, W. M. (1997). Schooling, intelligence, and income. American Psy-chologist, 52, 1051-1058.
Channel Wissenschaft. (2006). Menschen werden wieder dümmer. Med-dent-magazin [On-line]. Verfügbar unter: http://www.med-dent-magazin.de/archiv/2006/med-dent-magazin-07-06.pdf [19.12. 2008].
Cohen, J. (1996). Explaining psychological statistics. Pacific Grove: Brooks.
Cole, J. C. & Randall, M. K. (2003). Comparing the cognitive ability models of Spearman, Horn and Cattell, and Carroll. Journal of Psychoeducational Assessment, 21, 160-179.
Colom, R., Abad, F. J., Quiroga, M. Á., Shih, P. C. & Flores-Mendoza, C. (2008). Working memory and intelligence are highly related constructs, but why? Intelligence, 36, 584-606.
Colvin, S. S. (1921). Intelligence and its measurement: A symposium-IV. Journal of Edu-cational Psychology, 12, 136-139.
Conway, A. R. A., Cowan, N., Bunting, M. F., Therriault, D. J. & Minkoff, S. R. B. (2002). A latent variable analysis of working memory capacity, short-term memory ca-pacity, processing speed, and general fluid intelligence. Intelligence, 30, 163-183.
Daniel, M. H. (1997). Intelligence testing: Status and trends. American Psychologist, 52, 1038-1045.
Daniel, M. H. (2007). ‘Scatter’ and the construct validity of FSIQ: Comment on Fiorello et al. (2007). Applied Neuropsychology, 14, 291-295.
Das, J. P., Naglieri, J. A. & Kirby, J. R. (1994). Assessment of cognitive processes: the PASS theory of intelligence. Needham Heights: Allyn & Bacon.
Daseking, M., Janke, N. & Petermann, F. (2006). Intelligenzdiagnostik. Monatsschrift Kinderheilkunde, 154, 314-139.
Daseking, M., Lipsius, M., Petermann, F. & Waldmann, H.-C. (2008). Differenzen im Intelligenzprofil bei Kindern mit Migrationshintergrund: Befunde zum HAWIK-IV. Kindheit und Entwicklung, 17, 76-89.
Daseking, M. & Petermann, F. (2004). Testbesprechung Hamburg-Wechsler-Intelligenztest für Kinder III (HAWIK-III). Kindheit und Entwicklung, 13, 190-194.
Daseking, M., Petermann, F. & Petermann, U. (in Druck). HAWIK-IV: Grundlagen und Auswertungsstrategien. In F. Petermann & M. Daseking (Hrsg.), Fallbuch zum HAWIK-IV. Göttingen: Hogrefe.
Daseking, M., Petermann, F. & Waldmann, H.-C. (2008). Der allgemeine Fähigkeitsin-dex (AFI) – eine Alternative zum Gesamt-Intelligenzquotienten (G-IQ) des HA-WIK-IV? Diagnostica, 54, 211-220.
Daseking, M., Petermann, U. & Petermann, F. (2007). Intelligenzdiagnostik mit dem HAWIK-IV. Kindheit und Entwicklung, 16, 250-259.
Literaturverzeichnis 203
Davidson, J. E. & Downing, C. L. (2000). Contemporary models of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence (pp. 33-49). Cambridge: Cambridge University.
Dearborn, W. F. (1921). Intelligence and its measurement: A symposium-XII. Journal of Educational Psychology, 12, 210-212.
Deary, I. J. & Smith, P. (2004). Intelligence research and assessment in the United King-dom. In R. J. Sternberg (Ed.), International handbook of intelligence (pp. 1-48). New York: Cambridge University.
Deimann, P. & Kastner-Koller, U. (2008). Testbesprechung HAWIK-IV. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 40, 161-165.
Demetriou, A., Mouyi, A. & Spanoudis, G. (2008). Modelling the structure and devel-opment of g. Intelligence, 36, 437-454.
Diehl, J. M. & Staufenbiehl, T. (2007). Statistik mit SPSS für Windows. Version 15. Frank-furt/Main: Klotz.
Donders, J. (1996). Cluster subtypes in the WISC-III standardization sample: Analysis of factor index scores. Psychological Assessment, 8, 312-318.
Donders, J. & Janke, K. (2008). Criterion validity of the Wechsler Intelligence Scale for Children-Fourth Edition after pediatric traumatic brain injury. Journal of the International Neuropsychological Society, 14, 651-655.
Donner, S. (2006). Forscher schlagen Alarm: In den Industrieländern ist der IQ auf Tal-fahrt. Bild der Wissenschaft [On-line]. Verfügbar unter: http://www.wissenschaft.de/wissenschaft/hintergrund/253016.html [19.12. 2008].
Dumont, R. & Willis, J. O. (2004). Use of the Tellegen and Briggs formula to determine the Dumont-Willis Indexes (DWI-1 & DWI-2) for the WISC-IV [On-line]. Verfüg-bar unter: http://alpha.fdu.edu/psychology/WISCIV_DWI.htm [19.12. 2008].
Edwards, A. J. (1994). David Wechsler (1896-1981). In R. J. Sternberg (Ed.), Encyclope-dia of human intelligence (pp. 1134-1143). New York: Macmillan.
Eggert, D. (1975). Hannover Wechsler Intelligenztest für das Vorschulalter. Deutsche Bearbeitung der Wechsler Preschool and Promary Scale of Intelligence. Bern: Huber.
Eid, M. & Petermann, F. (2006). Aufgaben, Zielsetzungen und Strategien der Psycholo-gischen Diagnostik. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologi-schen Diagnostik (S. 15-25). Göttingen: Hogrefe.
Epstein, M. H., Mooney, P., Ryser, G. & Pierce, C. D. (2004). Validity and reliability of the Behavioral and Emotional Rating Scale (2nd ed.): Youth Rating Scale. Re-search on Social Work Practice, 14, 358-367.
Esters, I. G., Ittenbach, R. F. & Han, K. (1997). Today's IQ tests: Are they really better than their historical predecessors. School Psychology Review, 26, 211-223.
Evans, J. J., Floyd, R. G., McGrew, K. S. & Leforgee, M. H. (2002). The relations between measures of Cattell-Horn-Carroll (CHC) cognitive abilities and reading achieve-ment during childhood and adolescence. School Psychology Review, 31, 246-262.
Literaturverzeichnis 204
Eysenck, H. J. (1939). Review of Thurstone`s Primary Mental Abilities. British Journal of Educational Psychology, 9, 270-275.
Falk, R. F., Silverman, L. K. & Moran, D. M. (2004). Using two WISC-IV Indices to identify the gifted [On-line]. Verfügbar unter: http://www.gifteddevelopment.com/PDF_files/WISC-IVIndices.pdf [19.12. 2008].
Fiorello, C. A., Hale, J. B., Holdnack, J. A., Kavanagh, J. A., Terrell, J. & Long, L. (2007). Interpreting intelligence test results for children with disabilities: Is global intel-ligence relevant? Applied Neuropsychology, 14, 2-12.
Fiorello, C. A., Hale, J. B., McGrath, M., Ryan, K. & Quinn, S. (2001). IQ interpretation for children with flat and variable test profiles. Learning and Individual Diffe-rences, 13, 115-125.
Fisseni, H.-J. (2004). Lehrbuch der psychologischen Diagnostik (3., überarbeitete u. er-weiterte Aufl.). Göttingen: Hogrefe.
Flanagan, D. P. & Kaufman, A. S. (2004). Essentials of WISC-IV Assessment. Hoboken: Wiley & Sons.
Flanagan, D. P. & McGrew, K. S. (1998). Interpreting intelligence tests from contempo-rary Gf-Gc theory: Joint confirmatory factor analysis of the WJ-R and KAIT in a non-white sample. Journal of School Psychology, 36, 151-182.
Flanagan, D. P., McGrew, K. S. & Ortiz, S. O. (2000). The Wechsler Intelligence Scales and Gf-Gc theory: A contemporary approach to interpretation. Boston: Allyn & Bacon.
Flanagan, D. P., Ortiz, S. O., Alfonso, V. C. & Mascolo, J. T. (2002). The achievement test desk reference (ADTR): Comprehensive assessment and learning disabilities. Boston: Allyn & Bacon.
Floyd, R. G., Evans, J. J. & McGrew, K. S. (2003). Relations between measures of Cattell-Horn-Carroll (CHC) cognitive abilities and mathematics achievement across the school age years. Psychology in the Schools, 40, 155-171.
Flynn, J. R. (1984). The mean IQ of Americans: Massive gains 1932 to 1978. Psychologi-cal Bulletin, 95, 29-51.
Flynn, J. R. (1999). Searching for justice: The discovery of IQ gains over time. American Psychologist, 54, 5-20.
Flynn, J. R. (2007). What is intelligence? Beyond the Flynn effect. Cambridge: Cam-bridge University.
Frank, G. (1983). The Wechsler enterprise. An assessment of the development, struc-ture, and use of the Wechsler Tests of Intelligence. Oxford: Pergamon.
Freberg, M. E., Vandiver, B. J., Watkins, M. W. & Canivez, G. L. (2008). Significant factor score variability and the validity of the WISC-III Full Scale IQ in predicting later academic achievement. Applied Neuropsychology, 15, 131-139.
Freeman, F. N. (1921). Intelligence and its measurement: A symposium-III. Journal of Educational Psychology, 12, 133-136.
Fritz, A., Preuß, U., Ricken, G. & Schuck, K. D. (2001). Hannover-Wechsler-Intelligenztest im Vorschulalter- Revision (HAWIVA-R). Bern: Huber.
Literaturverzeichnis 205
Fry, A. F. & Hale, S. (1996). Processing speed, working memory, and fluid intelligence: Evidence for a developmental cascade. Psychological Science, 7, 237-241.
Fry, A. F. & Hale, S. (2000). Relationships among processing speed, working memory, and fluid intelligence in children. Biological Psychology, 54, 1-34.
Funke, J. & Vaterrodt-Plünnecke, B. (2004). Was ist Intelligenz? (2. Aufl.). München: Beck.
Gienger, C., Petermann, F. & Petermann, U. (2008). Wie stark hängen die HAWIK-IV-Befunde vom Bildungsstand der Eltern ab? Kindheit und Entwicklung, 17, 90-98.
Gignac, G. E. (2006). Evaluating subtest 'g' saturation levels via the single trait-correlated uniqueness (STCU) SEM approach: Evidence in favor of crystallized subtests as the best indicators of 'g'. Intelligence, 34, 29-46.
Glutting, J. J., McDermott, P. A. & Konold, T. R. (1997). Ontology, structure, and diag-nostic benefits of a normative subtest taxonomy from the WISC-III standardiza-tion sample. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contempo-rary intellectual assessment: Theories, tests, and issues (pp. 349-372). New York: Guilford.
Glutting, J. J., Watkins, M. W. & Youngstrom, E. A. (2003). Multifactored and cross-battery ability assessments: Are they worth the effort? In C. R. Reynolds & R. W. Kamphaus (Eds.), Handbook of psychological and educational assessment of children: Intelligence, aptitude, and achievement (2nd ed., pp. 343-377). New York: Guilford.
Goleman, D. (1995). Emotional intelligence. New York: Bantam.
Grob, A., Petermann, F., Lipsius, M., Costan-Dorigon, J., Petermann, U. & Daseking, M. (2008). Differences in Swiss and German children`s intelligence as measured by the HAWIK-IV. Swiss Journal of Psychology, 67, 113-118.
Groth-Marnat, G. (Ed.). (1997). Handbook of psychological assessment (3rd ed.). New York: Wiley.
Guilford, J. P. & Fruchter, B. (1978). Fundamental statistics in psychology and educa-tion (6th ed.). New York: McGraw-Hill.
Guthke, J. (1999). Intelligenzdaten. In R. S. Jäger & F. Petermann (Hrsg.), Psychologi-sche Diagnostik (Bd. 4, S. 396-412). München: Beltz.
Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Bern: Huber.
Haggerty, M. E. (1921). Intelligence and its Measurement: A symposium-XIII. Journal of Educational Psychology, 12, 212-216.
Hagmann-von Arx, P., Meyer, C. S. & Grob, A. (2008). Assessing intellectual giftedness with the WISC-IV and the IDS. Zeitschrift für Psychologie, 216, 172-179.
Hale, J. B., Fiorello, C. A., Kayanagh, J. A., Hoeppner, J. B. & Gaither, R. A. (2001). WISC-III predictors of academic achievement for children with learning disabilities: Are global and factor scores comparable? School Psychology Quarterly, 16, 31-55.
Hall, J. D., Howerton, D. L. & Bolin, A. U. (2005). The use of testing technicians: Critical issues for professional psychology. International Journal of Testing, 5, 357-375.
Literaturverzeichnis 206
Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK). Bern: Huber.
Heitz, R. P., Unsworth, N. & Engle, R. W. (2005). Working memory capacity, attention control, and fluid intelligence. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 61-77). Thousand Oaks: Sage.
Henmon, V. A. C. (1921). Intelligence and its measurement: A symposium-VIII. Journal of Educational Psychology, 12, 195-198.
Holling, H., Preckel, F. & Vock, M. (2004). Intelligenzdiagnostik. Göttingen: Hogrefe.
Holocher-Ertl, S., Kubinger, K. D. & Hohensinn, C. (2008). Hochbegabungsdiagnostik: HAWIK-IV und AID 2. Kindheit und Entwicklung, 17, 99-106.
Horn, J. L. (1985). Remodeling old models of intelligence. In B. B. Wolman (Ed.), Hand-book of intelligence: Theories, measurement, and applications (pp. 267-300). New York: Wiley.
Horn, J. L. (1988). Thinking about human abilities. In J. R. Nesselroade (Ed.), Handbook of mulitivariate psychology (pp. 267-300). New York: Academic.
Horn, J. L. (1991). Measurement of intellectual capabilities: a review of theory. In K. S. McGrew, J. K. Werder & R. W. Woodcock (Eds.), Woodcock-Johnson Technical Manual. Allen: DLM Teaching.
Horn, J. L. (1994). Theory of fluid and crystallized intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 443-451). New York: Macmillan.
Horn, J. L. & Blanksen, N. (2005). Foundations for better understanding of cognitive ablities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual as-sessment: Theories, tests, and issues (2nd ed., pp. 41-68). New York: Guilford.
Horn, J. L. & Cattell, R. B. (1966). Refinement and test of the theory of fluid and crystal-lized general intelligences. Journal of Educational Psychology, 57, 253-270.
Horn, J. L. & Cattell, R. B. (1967). Age differences in fluid and crystallized intelligence. Acta Psychologica, 26, 107-129.
Horn, J. L. & McArdle, J. J. (2007). Understanding human intelligence since Spearman. In R. Cudeck & R. MacCallum (Eds.), Factor analysis at 100 (pp. 205-248). Mah-wah: Erlbaum.
Horn, J. L. & Noll, J. (1994). A system for understanding cognitive capabilities: A theory and the evidence on which it is based. In D. K. Detterman (Ed.), Current topics in human intelligence (Vol. 4, pp. 151-203). Norwood: Ablex.
Horn, J. L. & Noll, J. (1997). Human cognitive capabilities: Gf-gc theory. In D. P. Flana-gan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assess-ment: Theories, tests, and issues (pp. 53-91). New York: Guilford.
Humphreys, L. G. (1962). The organization of human abilities. American Psychologist, 17, 475-483.
International Test Comission. (2000). International guidelines for test use [On-line]. Verfügbar unter: http:// www.intestcom.org/test_use_full.htm [19.12.2008].
International Test Commission, Commission Internationale des Tests & Berufsverband Deutscher Psychologinnen und Psychologen. (2001). Internationale Richtlinien
Literaturverzeichnis 207
für die Testanwendung. Version 2000. Deutsche Fassung [On-line]. Verfügbar unter: http://ftp.zpid.de/pub/tests/itc_richtlinien.pdf [19.12.2008].
Jacobs, C., Heubrock, D. & Petermann, F. (2002). Testinformation: Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK-III). Diagnostica, 48, 159-162.
Jäger, A. O. (1986). Validität von Intelligenztests. Diagnostica, 32, 272-289.
Jäger, R. S. & Petermann, F. (1999). Einleitung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (4. Aufl., S. 11-13). Weinheim: Beltz.
Janke, K. M. & Donders, J. (2008). Sensitivity of the WISC-IV to pediatric traumatic brain injury. Clinical Neuropsychologist, 22, 446.
Jensen, A. R. (1972). Genetics and education. London: Methuen.
Jensen, A. R. (1998). The g factor: The science of mental ability. Westport: Praeger.
Jensen, A. R. (2002). Psychometric g: Definition and substantiation. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general factor of intelligence. How general is it? (pp. 39-53). Mahwah: Erlbaum.
Jensen, A. R. (2004). Obituary. Intelligence, 32, 1-5.
Johnson Grados, J. & Russo-Garcia, K. A. (1999). Comparison of the Kaufman Brief In-telligence Test and the Wechsler Intelligence Scale for Children—Third Edition in economically disadvantaged African American youth. Journal of Clinical Psy-chology, 55, 1063-1071.
Kähler, W. M. (2008). Statistische Datenanalyse: Verfahren verstehen und mit SPSS gekonnt einsetzen (5. Aufl.). Wiesbaden: Vieweg.
Kail, R. (2000). Speed of Information Processing: Developmental change and links to intelligence. Journal of School Psychology, 38, 51-61.
Kail, R. & Salthouse, T. A. (1994). Processing speed as a mental capacity. Acta Psycho-logica, 86, 199-225.
Kamphaus, R. W. (1993). Clinical assessment of children`s intelligence. Boston: Allyn & Bacon.
Kamphaus, R. W. (Ed.). (2005). Clinical assessment of child and adolescent intelligence (2nd ed.). New York: Springer.
Kamphaus, R. W., Winsor, A. P., Rowe, E. W. & Kim, F. (2005). A history of intelligence test interpretation. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intel-lectual assessment (2nd ed., pp. 23-38). New York: Guilford.
Kanaya, T., Ceci, S. J. & Scullin, M. H. (2005). Age differences within secular IQ trends: An individual growth modeling approach. Intelligence, 33, 613-621.
Kaufman, A. S. (1992). Evaluation of the WISC-III and WPPSI-R for gifted children. Roe-per Review, 14, 154-158.
Kaufman, A. S. (1993). King WISC the Third assumes the throne. Journal of School Psy-chology, 31, 345-354.
Kaufman, A. S. (1994a). Intelligent testing with the WISC-III. New York: Wiley.
Kaufman, A. S. (1994b). Practice effects. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (Vol. 2, pp. 828-833). New York: Macmillan.
Literaturverzeichnis 208
Kaufman, A. S., Flanagan, D. P., Alfonso, V. C. & Mascolo, J. T. (2006). Test Review: Wechsler Intelligence Scale for Children, Fourth Edition (WISC-IV). Journal of Psychoeducational Assessment, 24, 278-295.
Kaufman, A. S. & Kaufman, N. L. (2004). Kaufman Assessment Battery for Children, Second Edition (KABC-II). Circle Pines: AGS.
Kaufman, A. S. & Lichtenberger, E. O. (2006). Assessing adolescent and adult intelli-gence (3rd ed.). Hoboken: Wiley.
Keith, T. Z., Fine, J. G., Taub, G. E., Reynolds, M. R. & Kranzler, J. H. (2006). Higher or-der, multisample, confirmatory factor analysis of the Wechsler Intelligence Scale for Children - Fourth Edition: What does it measure? School Psychology Review, 35, 108-127.
Keith, T. Z. & Witta, E. L. (1997). Hierarchical and cross-age confirmatory factor analysis of the WISC-III: What does it measure? School Psychology Quarterly, 12, 89-107.
Konold, T. R., Kush, J. C. & Canivez, G. L. (1997). Factor replication of the WISC-III in three independent samples of children receiving special education. Journal of Psychoeducational Assessment, 15, 123-137.
Kubinger, K. D. (2006). Psychologische Leistungstests. In F. Petermann & M. Eid (Hrsg.), Handbuch der Psychologischen Diagnostik (S. 118-126). Göttingen: Hogrefe.
Lehrl, S. (2005). Mehrfachwahl-Wortschatz-Intelligenztest MWT-B (5. Aufl.). Balingen: Spitta.
Lepach, A. & Petermann, F. (2007). Battery of Assessment in Children - Merk- und Lern-fähigkeitstest (BASIC-MLT). Bern: Huber.
Lepach, A., Petermann, F. & Schmidt, S. (2008). Comparison of the BASIC-Memory and Learning Test and the WISC-IV under developmental aspects. Zeitschrift für Psy-chologie, 216, 180-186.
Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz.
Linger, M. L., Ray, G. E., Zachar, P., Underhill, A. T. & Lobello, S. G. (2007). Decreasing scoring errors on Wechsler scale vocabulary, comprehension, and similarities subtests: A preliminary study. Psychological Reports, 101, 661-669.
Lipsius, M., Petermann, F. & Daseking, M. (2008). Wie beeinflussen Testleiter die HA-WIK-IV-Befunde? Kindheit und Entwicklung, 17, 107-117.
Loe, S. A., Kadlubek, R. M. & Marks, W. J. (2007). Administration and scoring errors on the WISC-IV among graduate student examiners. Journal of Psychoeducational Assessment, 25, 237-247.
Lynn, R. (2009). What has caused the Flynn effect? Secular increases in the Develop-ment Quotients of infants. Intelligence, 37, 16-24.
Lynn, R. & Harvey, J. (2008). The decline of the world`s IQ. Intelligence, 36, 112-120.
Matarazzo, J. D. (1990). Psychological assessment versus psychological testing: Valida-tion from Binet to the school, clinic, and courtroom. American Psychologist, 45, 999-1017.
Literaturverzeichnis 209
Matarazzo, R. G., Wiens, A. N., Matarazzo, J. D. & Manaugh, T. S. (1973). Test-retest reliability of the WAIS in a normal population. Journal of Clinical Psychology, 29, 194-197.
Mayer, J. D. & Salovey, P. (1993). The intelligence of emotional intelligence. Intelli-gence, 17, 433-442.
Mayes, S. D. & Calhoun, S. L. (2004). Similarities and differences in Wechsler Intelli-gence Scale for Children – Third Edition (WISC-III) profiles: Support for subtest analysis in clinical referrals. The Clinical Neuropsychologist, 18, 559-572.
McCaffrey, R. J., Duff, K. & Westervelt, H. J. (2000). Practitioner’s guide to evaluation change with intellectual assessment instruments. New York: Kluwer.
McDermott, P. A., Fantuzzo, J. W. & Glutting, J. J. (1990). Just say no to subtest analy-sis: A critique on Wechsler theory and practice. Journal of Psychoeducational Assessment, 8, 290-302.
McFie, J. (1975). Assessment of organic intellectual impairment. Oxford: Academic.
McGrew, K. S. (1997). Analysis of the major intelligence batteries according to a pro-posed comprehensive Gf-Gc framework. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary Intellectual Assessment. Theories, tests, and is-sues (pp. 151-174). New York: Guilford
McGrew, K. S. (2005). The Cattell-Horn-Carroll Theory of Cognitive Abilities: Past, present, and future. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary in-tellectual assessment: Theories, tests, and issues (2nd ed., pp. 136-182). New York: Guilford.
McGrew, K. S. & Flanagan, D. P. (1998). The Intelligence Test Desk Reference (ITDR): Gf-Gc cross-battery assessment. Boston: Allyn & Bacon.
McGrew, K. S., Flanagan, D. P., Keith, T. Z. & Vanderwood, M. (1997). Beyond g: The impact of Gf-Gc specific cognitive abilities research on the future use and inte-pretation of intelligence test batteries in the schools. School Psychology Re-view, 26, 189-210.
McGrew, K. S. & Woodcock, R. W. (2001). Technical Manual. Woodcock-Johnson III. Itasca: Riverside.
Moosbrugger, H. & Höfling, V. (2006). Testdurchführung und -auswertung. In F. Peter-mann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 449-456). Göttingen: Hogrefe.
Naglieri, J. A. (1999). Essentials of CAS assessment. New York: Wiley.
Naglieri, J. A. & Das, J. P. (2002). Practical implications of general intelligence and PASS cognitive processes. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general fac-tor of intelligence. How general is it? (pp. 55-84). Mahwah: Erlbaum.
Naglieri, J. A. & Paolitto, A. W. (2005). Ipsative comparisons of WISC-IV index scores. Applied Neuropsychology, 12, 208-211.
Neisser, U. (1979). The concept of intelligence. In R. J. Sternberg & D. K. Detterman (Eds.), Human intelligence: Perspectives on its theory and measurement. Nor-wood: Ablex.
Literaturverzeichnis 210
Neisser, U., Boodoo, G., Bouchard Jr, T. J., Boykin, A. W., Brody, N., Ceci, S. J.et al. (1996). Intelligence: Knowns and unknowns. American Psychologist, 51, 77-101.
Neubauer, A. C. & Knorr, E. (1998). Three paper-and-pencil tests for speed of informa-tion processing: Psychometric properties and correlations with intelligence. In-telligence, 26, 123-151.
Newman, T. M. (2008). Assessment of giftedness in school-age children using measures of intelligence or cognitive abilities. In S. I. Pfeiffer (Ed.), Handbook of gifted-ness in children (pp. 161-176). New York: Springer.
O`Shea, A. G., Harel, B. & Fein, D. (2002). Neuropsychological assessment of the pre-school child. In S. J. Segalowitz & I. Rapin (Eds.), Handbook of Neuropsychology (2 ed., Vol. 8, pp. 249-280). Amsterdam: Elsevier.
Perlow, R., Jattuso, M. & Moore, D. D. (1997). Role of verbal working memory in com-plex skill acquisition. Human Performance, 10, 283-302.
Petermann, F. (2006). Intelligenzdiagnostik. Kindheit und Entwicklung, 15, 71-75.
Petermann, F. & Lepach, A. C. (2007). Klinische Kinderneuropsychologie. Kindheit und Entwicklung, 16, 1-6.
Petermann, F. & Petermann, U. (2008a). Hamburg-Wechsler-Intelligenztest für Kinder-IV (HAWIK-IV) (2. ergänzte Aufl.). Bern: Huber.
Petermann, F. & Petermann, U. (2008b). HAWIK-IV. Kindheit und Entwicklung, 17, 71-75.
Peterson, J. (1921). Intelligence and its measurement: A symposium-IX. Journal of Edu-cational Psychology, 12, 198-201.
Petrill, A. (2005). Behavioral genetics and intelligence. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 165-176). Thousand Oaks: Sage.
Pfeiffer, S. I., Reddy, L. A., Kletzel, J. E., Schmelzer, E. R. & Boyer, L. M. (2000). The prac-titioner's view of IQ testing and profile analysis. School Psychology Quarterly, 15, 376-385.
Phelps, L., McGrew, K. S., Knopik, S. N. & Ford, L. (2005). The general (g), broad, and narrow CHC stratum characteristics of the WJ III and WISC-III tests: A confirma-tory cross-battery investigation. School Psychology Quarterly, 20, 66-88.
Piaget, J. (1984). Psychologie der Intelligenz (8. Aufl. in der vollst. überarbeitete Übers. der 2. Aufl.). Stuttgart: Klett-Cotta.
Pintner, R. (1921). Intelligence and its measurement: A symposium-V. Journal of Edu-cational Psychology, 12, 139-143.
Platt, T. L., Zachar, P., Ray, G. E., Underhill, A. T. & Lobello, S. G. (2007). Does Wechsler Intelligence Scale administration and scoring proficiency improve during as-sessment training? Psychological Reports, 100, 547-555.
Preckel, F. (2003). Diagnostik intellektueller Hochbegabung. Bern: Hogrefe.
Prenzel, M., Baumert, J., Blum, W., Lehmann, R., Leutner, D., Neubrand, M.et al. (Hrsg.). (2004). PISA 2003. Der Bildungsstand der Jugendlichen in Deutschland - Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann.
Literaturverzeichnis 211
Preusche, I. & Leiss, U. (2003). Intelligenztests für Kinder. HAWIK-III, AID-2 und K-ABC im Vergleich. Report Psychologie, 28, 12-26.
Prifitera, A. (1994). Wechsler scales of intelligence. In R. J. Sternberg (Ed.), Encyclope-dia of human intelligence (pp. 1136-1143). New York: Macmillan.
Prigatano, G. P., Gray, J. A. & Gale, S. D. (2008). Individual case analysis of processing speed difficulties in children with and without traumatic brain injury. Clinical Neuropsychologist, 22, 603-619.
Quereshi, M. Y. (1968). Practice effects on the WISC subtest scores and IQ estimates. Journal of Clinical Psychology, 24, 79-85.
Raiford, S. E., Weiss, L. G., Rolfhus, E. L. & Coalson, D. (2005). Technical Report # 4 General Ability Index. San Antonio: Psychological Corporation.
Raven, J., Raven, J. C. & Court, J. H. (1998). Manual for Raven`s progressive matrices and vocabulary scales. Oxford: Oxford Psychologists.
Reddon, J. R., Vander Veen, S. & Reddon, J. E. (2004). Seemingly anomalous Full Scale IQ scores on the WAIS-III and the WISC-III. Current Psychology, 23, 86-94.
Reddon, J. R., Whippler, S. M. & Reddon, J. E. (2007). Seemingly anomalous WISC-IV Full Scale IQ scores in the American and Canadian standardization samples. Current Psychology, 26, 60-69.
Renner, G. (2008). Neuere Testverfahren. Praxis der Kinderpsychologie und Kinderpsy-chiatrie, 57, 154-162.
Renner, G. & Fricke, T. (2001). Der Hamburg-Wechsler-Intelligenztest für Kinder - dritte Auflage (HAWIK-III). Report Psychologie, 26, 460-477.
Reynolds, C. R. & Kaufman, A. S. (1990). Assessment of childrens intelligence with the Wechsler Intelligence Scale for Children - Revised (WISC-R). In C. R. Reynolds & R. W. Kamphaus (Eds.), Handbook of psychological and educational assessment of children: Intelligence and achievement (pp. 127-165). New York: Guilford.
Riccio, C. A., Cohen, M. J., Hall, J. & Ross, C. M. (1997). The third and fourth factors of the WISC-III: What they don't measure. Journal of Psychoeducational Assess-ment, 15, 27-39.
Ricken, G., Fritz, A., Schuck, K. D. & Preuß, U. (2007). Hannover-Wechsler-Intelligenztest für Kinder im Vorschulalter III (HAWIVA-III). Bern: Huber.
Rodgers, J. L. (1998). A critique of the Flynn Effect: Massive IQ gains, methodological artifacts, or both? Intelligence, 26, 337-356.
Roid, G. H. (2003). Stanford-Binet Intelligence Scales, Fifth Edition. Itasca: Riverside.
Roid, G. H. & Pomplun, M. (2005). Interpreting the Stanford-Binet Intelligence Scales, Fifth Edition. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary Intellectual Assessment (2nd ed., pp. 325-343). New York: Guilford.
Russell, E. W. (1992). Comparison of two methods for converting the WAIS to the WAIS-R. Journal of Clinical Psychology, 48, 355-359.
Sabatino, D. A., Spangler, R. S. & Vance, H. B. (1995). The relationship between the Wechsler Intelligence Scale for Children-Revised and the Wechsler Intelligence Scale for Children-III scales and subtests with gifted children. Psychology in the Schools, 32, 18-23.
Literaturverzeichnis 212
Saß, H., Wittchen, H.-U., Zaudig, M. & Houben, I. (2003). Diagnostisches und Statisti-sches Manual psychischer Störungen – Textrevision (DSM-IV-TR). Göttingen: Hogrefe.
Sattler, J. M. (2001). Assessment of children: Cognitive applications (4th ed.). San Diego: Author.
Schaarschmidt, U., Ricken, G., Kieschke, U. & Preuß, U. (2004). Bildbasierter Intelligenz-test für das Vorschulalter (BIVA). Göttingen: Hogrefe.
Schatz, J., Kramer, J. H., Ablin, A. & Matthay, K. K. (2000). Processing speed, working memory, and IQ: A developmental model of cognitive deficits following cranial radiation therapy. Neuropsychology, 14, 189-200.
Schlittgen, R. (2004). Statistische Auswertungen: Standardmethoden und Alternativen mit ihrer Durchführung in R. München: Oldenbourg.
Schorr, A. (1995). Stand und Perspektiven diagnostischer Verfahren in der Praxis. Er-gebnisse einer repräsentativen Befragung westdeutscher Psychologen. Dia-gnostica, 41, 3-20.
Scott, K. A. (2006). Is the GAI a good short form of the WISC-IV?. Marshall University Libraries.
Sheppard, L. D. & Vernon, P. A. (2007). Intelligence and speed of information-processing: A review of 50 years of research. Personality and Individual Differ-ences, 44, 535-551.
Siders, A., Kaufman, A. S. & Reynolds, C. R. (2006). Do practice effects on Wechsler's Performance subtests relate to children's general ability, memory, learning abi-lity, or attention? Applied Neuropsychology, 13, 242-250.
Sparrow, S. S. & Gurland, S. T. (1998). Assessment of gifted children with the WISC-III. In A. Prifitera & D. H. Saklofske (Eds.), WISC-III clinical use and interpretation (pp. 59-72). San Antonio: Harcourt.
Sparrow, S. S., Pfeiffer, S. I. & Newman, T. M. (2005). Assessment of children who are gifted with the WISC-IV. In A. Prifitera, D. H. Saklofske & L. G. Weiss (Eds.), WISCV-IV clinical use and interpretation - scientist-practitioner perspectives (1st ed., pp. 281-299). San Diego: Elsevier.
Spearman, C. (1904). ‘General Intelligence’, objectively determined and measured. American Journal of Psychology, 15, 201-293.
Spearman, C. (1927). The abilities of man: Their nature and measurement. New York: Macmillan.
Spearman, C. (1939). Thurstone`s work reworked. Journal of Educational Psychology, 30, 1-16.
Stankov, L. (2005). g Factor. Issues of design and interpretation. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 279-293). Thousand Oaks: Sage.
Statistisches Bundesamt. (2007). Allgemeinbildende Schulen. Schüler/innen nach Schul-arten [On-line]. Verfügbar unter: http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Content/Statistiken/BildungForschungKultur/Schulen/Tabellen/Content75/AllgemeinbildendeSchulenSchulartenSchueler,templateId=renderPrint.psml [19.12.2008].
Literaturverzeichnis 213
Steck, P. (1997). Psychologische Testverfahren in der Praxis. Ergebnisse einer Umfrage unter Testanwendern. Diagnostica, 43, 267-284.
Stern, W. (1911). Differentielle Psychologie in ihren methodischen Grundlagen. Leipzig: Barth.
Sternberg, R. J. (1985a). Human intelligence: The model is the message. Science, 230, 1111-1118.
Sternberg, R. J. (1985b). Implicit theories of intelligence, creativity, and wisdom. Jour-nal of Personality & Social Psychology, 49, 607-627.
Sternberg, R. J. (1997a). The concept of intelligence and its role in lifelong learning and success. American Psychologist, 52, 1030-1037.
Sternberg, R. J. (1997b). Successful intelligence. New York: Plume.
Sternberg, R. J. (2000a). The ability is not general, and neither are the conclusions. Be-havioral and Brain Sciences, 23, 697-698.
Sternberg, R. J. (2000b). The concept of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence. New York: Cambridge University.
Sternberg, R. J. (2002). Beyond g: The theory of successful intelligence. In R. J. Stern-berg & E. L. Grigorenko (Eds.), The general factor of intelligence: How general is it? (pp. 447-479). Mahwah: Erlbaum.
Sternberg, R. J. (2004). North american approaches to intelligence. In R. J. Sternberg (Ed.), International handbook of intelligence (pp. 411-444). Cambridge: Cam-bridge University.
Sternberg, R. J., Conway, B. E., Ketron, J. L. & Bernstein, M. (1981). People's concep-tions of intelligence. Journal of Personality & Social Psychology, 41, 37-55.
Sternberg, R. J. & Detterman, D. K. (Eds.). (1986). What is intelligence? Contemporary viewpoints on its nature and definition. Norwood: Ablex.
Sternberg, R. J. & Grigorenko, E. L. (Eds.). (2002). General factor of intelligence: How general is it? Mahwah: Erlbaum.
Strauss, E., Spreen, O. & Hunter, M. (2000). Implications of test revisions for research. Psychological Assessment, 12, 237-244.
Sundet, J. M., Barlaug, D. G. & Torjussen, T. M. (2004). The end of the Flynn effect? A study of secular trends in mean intelligence test scores of Norwegian conscripts during half a century. Intelligence, 32, 349-362.
Swanson, H. L. (1996). Individual and age-related differences in children’s working memory. Memory & Cognition, 24, 70-82.
Teasdale, T. W. & Owen, D. R. (1989). Continuing secular increases in intellgence and a stable prevalence of high intelligence levels. Intelligence, 13, 255-262.
Teasdale, T. W. & Owen, D. R. (2008). Secular declines in cognitive test scores: A rever-sal of the Flynn Effect. Intelligence, 36, 121-126.
Tellegen, P. J., Laros, J. A. & Petermann, F. (2007). SON-R 2½-7 Non-verbaler Intelli-genztest. Testmanual mit deutscher Normierung und Validierung. Göttingen: Hogrefe.
Literaturverzeichnis 214
Terman, L. M. (1921). Intelligence and its measurement: A symposium-II. Journal of Educational Psychology, 12, 127-133.
Tewes, U. (1983). Hamburg-Wechsler-Intelligenztest für Kinder, Revision 1983 (HAWIK-R). Bern: Huber.
Tewes, U. (1991). Hamburg-Wechsler-Intelligenztest für Erwachsene - Revision (HAWIE-R). Bern: Huber.
Tewes, U., Rossmann, P. & Schallberger, U. (1999). Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK-III). Bern: Huber.
Tewes, U., Rossmann, P. & Schallberger, U. (2002). Hamburg-Wechsler-Intelligenztest für Kinder - dritte Auflage : HAWIK-III. Bern: Huber.
Tewes, U. & Titze, I. (1994). Hamburg-Wechsler Intelligenztest für Kinder, Revision 1983. HAWIK-R. Handbuch und Testanweisung. Bern: Huber.
Thompson, A. P. & Molly, K. (1993). The stability of WAIS-R IQ for 16-year old students retested after 3 and 8 months. Journal of Clinical Psychology, 49, 891-898.
Thorndike, E. L. (1921). Intelligence and its measurement: A symposium-I. Journal of Educational Psychology, 12, 124-127.
Thurstone, L. L. (1921). Intelligence and its measurement: A symposium-X. Journal of Educational Psychology, 12, 201-207.
Thurstone, L. L. (1938). Primary mental abilities. Chicago: University of Chicago.
Thurstone, L. L. & Thurstone, T. G. (1941). Factorial studies of intelligence. Chicago: University of Chicago.
Titze, I. & Tewes, U. (1994). Messung der Intelligenz bei Kindern mit dem HAWIK-R. Bern: Huber.
Tulsky, D. S. & Price, L. R. (2003). The joint WAIS-III and WMS-III factor structure: De-velopment and cross-validation of a six-factor model of cognitive functioning. Psychological Assessment, 15, 149-162.
Vernon, P. A. (1969). Intelligence and cultural environment. London: Methuen.
Vock, M. & Holling, H. (2006). Intelligenzdiagnostik. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 494-502). Göttingen: Hogrefe.
von Aster, M., Neubauer, A. & Horn, R. (2006). Wechsler Intelligenztest für Erwachsene (WIE). Frankfurt: Harcourt.
Waldmann, H.-C. (2008). Kurzformen des HAWIK-IV: Statistische Bewertung in ver-schiedenen Anwendungsszenarien. Diagnostica, 54, 202-210.
Watkins, M. W. (2005). Diagnostic validity of Wechsler subtest scatter. Learning Dis-abilities: A Contemporary Journal, 3, 18-27.
Watkins, M. W. (2006). Orthogonal higher order structure of the Wechsler Intelligence Scale for Children - Fourth Edition. Psychological Assessment, 18, 123-125.
Watkins, M. W. & Canivez, G. L. (2004). Temporal stability of WISC-III subtest compo-site: Strengths and weaknesses. Psychological Assessment, 16, 133-138.
Watkins, M. W. & Kush, J. C. (1994). Wechsler subtest analysis: The right way, the wrong way, or no way? School Psychology Review, 23, 640-651.
Literaturverzeichnis 215
Watkins, M. W., Lei, P.-W. & Canivez, G. L. (2007). Psychometric intelligence and achievement: A cross-lagged panel analysis. Intelligence, 35, 59-68.
Watkins, M. W., Wilson, S. M., Kotz, K. M., Carbone, M. C. & Babula, T. (2006). Factor structure of the Wechsler Intelligence Scale for Children-Fourth Edition among referred students. Educational and Psychological Measurement, 66, 975-983.
Wechsler, D. (1939a). The measurement of adult intelligence. Baltimore: Williams & Wilkins.
Wechsler, D. (1939b). Wechsler-Bellevue Intelligence Scale. San Antonio: Psychological Corporation.
Wechsler, D. (1940). Non-intellective factors in general intelligence. Psychological Bul-letin, 37, 444-445.
Wechsler, D. (1943). Non-intellective factors in general intelligence. Journal of Abnor-mal and Social Psychology, 38, 101-103.
Wechsler, D. (1944). The measurement of adult intelligence (3rd ed.). Baltimore: Wil-liams & Wilkins.
Wechsler, D. (1946). The Wechsler-Bellevue Intelligence Scale Form II: Manual for ad-ministering and scoring the test. San Antonio: Psychological Corporation.
Wechsler, D. (1949). Wechsler Intelligence Scale for Children. San Antonio: Psychologi-cal Corporation.
Wechsler, D. (1950). Cognitive, conative, and non-intellective intelligence. American Psychologist, 5, 78-83.
Wechsler, D. (1955). Manual for the Wechsler Adult Intelligence Scale. San Antonio: Psychological Corporation.
Wechsler, D. (1958). The measurement and appraisal of adult intelligence (4th ed.). Baltimore: Williams & Wilkins.
Wechsler, D. (1967). Manual for the Wechsler Preschool and Primary Scale of Intelli-gence. San Antonio: Psychological Corporation.
Wechsler, D. (1974). Wechsler Intelligence Scale for Children - Revised. San Antonio: Psychological Corporation.
Wechsler, D. (1975). Intelligence defined and undefined: A relativistic appraisal. Ameri-can Psychologist, 30, 135-139.
Wechsler, D. (1981). Manual for the Wechsler Adult Intelligence Scale - Revised. San Antonio: Psychological Corporation.
Wechsler, D. (1989). Manual for the Wechsler Preschool and Primary Scale of Intelli-gence-revised. San Antonio: Psychological Corporation.
Wechsler, D. (1991). Wechsler Intelligence Scale for Children - Third Edition. San Anto-nio: Psychological Corporation.
Wechsler, D. (1992). Wechsler Intelligence Scale for Children - WISC-III UK Manual. London: Psychological Corporation.
Wechsler, D. (1997). Wechsler Adult Intelligence Scale - Third Edition. San Antonio: Psy-chological Corporation.
Literaturverzeichnis 216
Wechsler, D. (2002). Wechsler Preschool and Primary Scale of Intelligence - Third Edi-tion. San Antonio: Psychological Corporation.
Wechsler, D. (2003a). Wechsler Intelligence Scale for Children - Fourth Edition (WISC-IV). Administration and scoring manual. San Antonio: Psychological Corpora-tion.
Wechsler, D. (2003b). Wechsler Intelligence Scale for Children - Fourth Edition. Tech-nical and interpretative manual. San Antonio: Psychological Corporation.
Weiss, L. G., Saklofske, D. H., Prifitera, A., Chen, H.-Y. & Hildebrand, D. K. (1999). The calculation of the WISC-Ill General Ability Index using Canadian norms. Cana-dian Journal of School Psychology, 14, 1-10.
Weiß, R. H. (2006). Grundintelligenztest Skala 2 - Revision - (CFT 20-R). Göttingen: Ho-grefe.
Wolke, D. & Söhne, B. (1997). Wenn der Schein trügt: Zur kritischen Interpretation von Entwicklungsstudien. Monatsschrift Kinderheilkunde, 145, 444-456.
Woodcock, R. W. (1990). Theoretical foundations of the WJ-R measures of cognitive abilities. Journal of Psychoeducational Assessment, 8, 231-258.
Woodcock, R. W. (1994). Measures of fluid and crystallized theory of intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 452-456). New York: Macmillan.
Woodcock, R. W., McGrew, K. S. & Mather, N. (2001). The Woodcock-Johnson III. Itas-ca: Riverside.
Woodrow, H. (1921). Intelligence and its measurement: A symposium-XI. Journal of Educational Psychology, 12, 207-210.
Zachary, R. A. (1990). Wechsler`s intelligence scales: Theoretical and practical consid-erations. Journal of Psychoeducational Assessment, 8, 276-289.
Zhu, J. & Tulsky, D. S. (2000). Co-norming the WAIS-III and WMS-III: Is there a test-order effect on IQ and memory scores? The Clinical Neuropsychologist, 14, 461-467.
Zhu, J. & Weiss, L. G. (2005). The Wechsler Scales. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 297-324). New York: Guilford.
Zhu, J., Weiss, L. G., Prifitera, A. & Coalson, D. (2004). The Wechsler Intelligence Scales for children and adults. In G. Goldstein & S. R. Beers (Eds.), Comprehensive handbook of psychological assessment (Vol. 1, S. 51-75). Hoboken: Wiley.
Anhang 217
Anhang
Abbildungsverzeichnis Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927) ......................................... 19
Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005) ............................................ 24
Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll, 1992; 1993) ............................................................................................................................................................. 27
Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005) .......................................... 30
Abbildung 3.5: Struktur der Cattell-Horn-Carroll (CHC) Theorie der kognitiven Fähigkeiten (modifiziert nach Daseking, Petermann & Petermann, 2007) ................................................................................ 32
Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S. 86) ............ 47
Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) .................................................................................................................................................. 50
Abbildung 7.1: Design der Studie. .............................................................................................................112
Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen. .....................114
Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen. ..........................114
Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen. .......................115
Abbildung 7.5: Altersverteilung der gematchten Stichprobe. ..................................................................116
Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III. ....................................125
Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III. .................................................126
Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV. ......................................128
Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....132
Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). ...........................................................................................................................................133
Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....133
Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). ...........................................................................................................................................134
Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Intervall). ....134
Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). ...........................................................................................................................................135
Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes Intervall). ..135
Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). ...........................................................................................................................................136
Anhang 218
Tabellenverzeichnis Tabelle 2.1: Übersicht über die wichtigsten Intelligenzvorstellungen (modifiziert nach Sternberg, 1985a)
............................................................................................................................................................. 11
Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick .......................................................................... 45
Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen ........................................................... 46
Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002) ....................................... 48
Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al., 2002) .... 49
Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) ................ 50
Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et al., 2007). ............................................................................................................................................................. 51
Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV ................... 54
Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte Normierungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b). ........................................... 56
Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133). ...... 57
Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zugehörigkeit zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a) ....................................... 73
Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen ................................... 87
Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert nach Wechsler, 2003b, S. 40ff) .................................................................................................................... 91
Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgruppen (modifiziert nach Wechsler, 2003b, S. 40ff) ........................................................................................ 91
Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie. .........................................100
Tabelle 7.1: Abkürzungen der Stichproben. ..............................................................................................112
Tabelle 7.2: Geplante Stichprobenverteilung (n=176). .............................................................................113
Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223). ................................................113
Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp. ..................................115
Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144). ....................................................116
Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144). ...............................................117
Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144). ....................................117
Tabelle 7.8: Abkürzungen der gematchten Stichproben. .........................................................................117
Tabelle 7.9: Eckdaten des HAWIK-III und -IV. ...........................................................................................118
Tabelle 8.1: Deskriptive Angaben des HAWIK-III. .....................................................................................124
Tabelle 8.2: Deskriptive Angaben des HAWIK-IV. .....................................................................................127
Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223). ............129
Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223). ......................130
Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS. ..........130
Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene....................131
Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GK-III (n = 63)...................................................................................................................137
Anhang 219
Tabelle 8.8: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-III (n = 48). ..................................................................................................................137
Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe GK-IV (n = 65)...............................................................................................................................................138
Tabelle 8.10: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-IV (n= 47)....................................................................................................................139
Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach kurzem und langem Intervall. .........................................................................................................................140
Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. .......................................................................................................141
Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. .......................................................................................................141
Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall (n= 93-95). .........................................................................................................................................142
Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28). ........................143
Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenanzahl. .........144
Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenanzahl. ........145
Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren. ............................147
Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren. ........................................148
Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren. ........................................148
Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111). .....................................150
Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112). .....................................150
Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223). .................................151
Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63). .......................................152
Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65). ............................153
Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128). ..........................153
Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48). .............................154
Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47). .......................................155
Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95). ...............................155
Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72). ....................................156
Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72). ....................................157
Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144). ..................................158
Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III. .........................................160
Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III........................................160
Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III. ........................................161
Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III. .................161
Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIK-III. ...........162
Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III. .............162
Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III. ...............163
Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III. ...............163
Anhang 220
Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV. ...............164
Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausgewählte Gesamt-IQ des HAWIK-III...................................................................................................................165
Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Verbal-IQ des HAWIK-III. ..........................................................................................................................................165
Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte Handlungs-IQ des HAWIK-III. ....................................................................................................................................166
Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SV-Werte des HAWIK-III. ..........................................................................................................................................166
Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte WO-IQ-Werte des HAWIK-III ..........................................................................................................................167
Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte UA-IQ-Werte des HAWIK-III ..........................................................................................................................167
Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte AG-IQ-Werte des HAWIK-III ..........................................................................................................................168
Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus den Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002). ...............188
Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe). .................................221
Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe)............................221
Tabelle A3: Interkorrelationen der Untertests des HAWIK-IV (Gesamtstichprobe). ................................222
Tabelle A4: Interkorrelationen der Untertests des HAWIK-IV (gematchte Stichprobe). ..........................223
Tabelle A5: Abkürzungen des HAWIK-IV. ..................................................................................................224
Tabelle A6: Abkürzungen des HAWIK-III. ..................................................................................................224
Tabelle A7: Exploratorische Faktorenanalyse des HAWIK-IV (kurzes Intervall). .......................................225
Tabelle A8: Exploratorische Faktorenanalyse des HAWIK-IV (langes Intervall). .......................................225
Tabelle A9: Exploratorische Faktorenanalyse des HAWIK-III (kurzes Intervall). .......................................225
Tabelle A10: Exploratorische Faktorenanalyse des HAWIK-III (langes Intervall). .....................................225
Tabelle A11: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-III). .................................226
Tabelle A12: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-IV). .................................226
Tabelle A13: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-III). .................................226
Tabelle A14: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-IV). ................................226
Anhang 221
Zusatztabellen Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe). Untertest BE AW ZST GF BO RD MT WT FL AV SS ZN BE AW .33 ZST .11 .12 GF .41 .58 .10 BO .29 .35 .11 .28 RD .15 .52 .15 .37 .31 MT .34 .35 .27 .31 .35 .40 WT .29 .55 .11 .56 .34 .30 .26 FL .31 .26 .13 .22 .35 .24 .48 .24 AV .35 .44 .18 .48 .38 .23 .28 .54 .22 SS .09 .12 .46 .05 .23 .16 .27 .07 .08 .10 ZN .12 .24 .27 .17 .12 .38 .26 .22 .09 .13 .19 Mittelwert 11.1 11.0 11.6 11.8 10.8 11.1 11.1 11.6 9.8 11.2 11.6 9.9 SD 3.0 2.8 3.1 2.8 3.3 2.8 3.2 2.8 3.0 2.0 2.8 2.6
Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6.
Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe). Untertest BE AW ZST GF BO RD MT WT FL AV SS ZN BE AW .39 ZST .17 .11 GF .49 .58 .12 BO .24 .40 .12 .33 RD .17 .51 .17 .38 .35 MT .39 .43 .30 .34 .37 .44 WT .31 .52 .11 .53 .38 .26 .27 FL .32 .34 .16 .29 .37 .26 .51 .31 AV .37 .49 .21 .54 .30 .23 .26 .58 .26 SS .08 .18 .41 .15 .19 .28 .28 .11 .06 .02 ZN .19 .23 .30 .11 .13 .39 .26 .21 .14 .07 .26 Mittelwert 11.1 11.0 11.8 11.7 10.8 10.9 11.2 11.4 9.8 11.2 11.8 9.9 SD 3.0 2.9 3.2 2.8 3.4 2.7 3.3 3.0 3.2 1.9 2.7 2.6
Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6.
Tabe
lle A
3: In
terk
orre
latio
nen
der U
nter
test
s de
s H
AW
IK-IV
(Ges
amts
tichp
robe
). U
nter
test
M
T G
F ZN
BK
ZS
T W
T BZ
F M
Z A
V
SYS
BE
DT
AW
RD
BE
N
MT
G
F .4
1
ZN
.28
.21
BK
.3
1 .4
0 .0
6
ZST
.19
.14
.20
.10
W
T .3
0 .6
5 .2
0 .3
3 .0
8
BZF
.14
.27
.51
.00
.24
.26
M
Z .3
8 .3
4 .3
1 .2
9 .1
3 .2
6 .2
5
AV
.3
3 .4
9 .1
9 .2
2 .1
1 .5
6 .1
4 .3
0
SYS
.35
.20
.18
.18
.60
.14
.21
.31
.14
BE
.4
9 .4
3 .0
4 .4
0 .2
1 .3
5 .1
4 .3
2 .3
5 .2
8
DT
.19
.07
-.01
.14
.34
-.01
.04
.26
.00
.39
.24
A
W
.46
.57
.36
.32
.11
.56
.33
.39
.47
.18
.32
.03
RD
.3
6 .3
6 .4
4 .2
6 .2
4 .3
3 .3
7 .3
6 .2
8 .3
2 .2
3 .1
0 .4
5
BE
N
.26
.60
.18
.35
.05
.63
.18
.31
.47
.16
.45
-.05
.53
.35
M
itte
lwer
t 11
.2
11.1
10
.4
10.9
11
.0
11.0
10
.9
10.6
11
.1
11.0
11
.1
10.9
10
.7
11.0
10
.7
SD
3.0
2.4
2.5
2.4
2.8
2.6
2.3
2.4
2.3
2.6
2.8
2.9
2.5
2.4
2.7
Anm
erku
ngen
: Unt
erte
sts,
die
zu e
inem
Inde
x ge
höre
n, si
nd fe
tt he
rvor
geho
ben.
Abk
ürzu
ngen
sieh
e An
hang
A5
und
A6.
Anhang 222
Tabe
lle A
4: In
terk
orre
latio
nen
der U
nter
test
s de
s H
AW
IK-IV
(gem
atch
te S
tichp
robe
). U
nter
test
M
T G
F ZN
BK
ZS
T W
T BZ
F M
Z A
V
SYS
BE
DT
AW
RD
BE
N
MT
G
F 0.
47
ZN
0.
28
0.24
BK
0.34
0.
37
0.12
ZST
0.21
0.
19
0.23
0.
15
W
T 0.
36
0.65
0.
19
0.34
0.
14
BZ
F 0.
27
0.37
0.
56
0.06
0.
28
0.34
MZ
0.37
0.
39
0.30
0.
36
0.22
0.
29
0.33
AV
0.
37
0.50
0.
21
0.28
0.
11
0.61
0.
24
0.34
SYS
0.41
0.
24
0.26
0.
25
0.55
0.
18
0.33
0.
43
0.13
BE
0.56
0.
50
0.19
0.
40
0.26
0.
45
0.28
0.
41
0.48
0.
37
D
T 0.
18
0.11
0.
02
0.16
0.
37
0.01
0.
14
0.30
-0
.03
0.46
0.
29
A
W
0.51
0.
56
0.35
0.
33
0.11
0.
55
0.41
0.
41
0.49
0.
21
0.39
0.
00
RD
0.
40
0.42
0.
40
0.34
0.
16
0.38
0.
43
0.43
0.
30
0.39
0.
26
0.08
0.
42
BEN
0.
29
0.57
0.
20
0.31
0.
09
0.61
0.
25
0.36
0.
51
0.16
0.
49
-0.0
1 0.
51
0.39
Mit
telw
ert
11.2
10
.9
10.2
10
.8
10.9
10
.8
10.8
10
.5
11.1
11
.0
10.8
10
.6
10.6
10
.8
10.5
SD
3.
1 2.
6 2.
4 2.
3 3.
0 2.
7 2.
3 2.
5 2.
3 2.
7 2.
7 2.
9 2.
5 2.
4 2.
6 An
mer
kung
en: U
nter
test
s, di
e zu
ein
em In
dex
gehö
ren,
sind
fett
herv
orge
hobe
n. A
bkür
zung
en si
ehe
Anha
ng A
5 un
d A6
.
Anhang 223
Tabe
lle A
5: A
bkür
zung
en d
es H
AWIK
-IV.
U
nter
test
/Ind
ex
Abk
ürzu
ng
Untertest
Mos
aik-
Test
M
T G
emei
nsam
keit
en fi
nden
G
F Za
hlen
nac
hspr
eche
n ZN
Bi
ldko
nzep
te
BK
Zahl
en-S
ymbo
l-Tes
t ZS
T W
orts
chat
z-Te
st
WT
Buch
stab
en-Z
ahle
n-Fo
lgen
BZ
F M
atri
zen-
Test
M
Z A
llgem
eine
s V
erst
ändn
is
AV
Sy
mbo
l-Suc
he
SYS
Bild
er e
rgän
zen
BE
Dur
chst
reic
h-Te
st
DT
Allg
emei
nes
Wis
sen
AW
Re
chne
risc
hes
Den
ken
RD
Begr
iffe
erke
nnen
BE
N
Prozesswert
Mos
aik-
Test
ohn
e Ze
itbo
nus
MT-
OZ
Zahl
en n
achs
prec
hen
vorw
ärts
ZN
-V
Zahl
en n
achs
prec
hen
rück
wär
ts
ZN-R
D
urch
stre
ich-
Test
str
uktu
rier
t D
T-S
Dur
chst
reic
h-Te
st u
nstr
uktu
rier
t D
T-U
Index
Spra
chve
rstä
ndni
s SV
W
ahrn
ehm
ungs
gebu
nden
es L
ogi-
sche
s D
enke
n W
LD
Arb
eits
gedä
chtn
is
AG
D
Ver
arbe
itun
gsge
schw
indi
gkei
t V
G
Tabe
lle A
6: A
bkür
zung
en d
es H
AWIK
-III.
U
nter
test
/Ind
ex
Abk
ürzu
ng
Untertest
Bild
erer
gänz
en
BE
Allg
emei
nes
Wis
sen
AW
Za
hlen
-Sym
bol-T
est
ZST
Gem
eins
amke
iten
finde
n G
F Bi
lder
ordn
en
BO
Rech
neri
sche
s D
enke
n RD
M
osai
k-Te
st
MT
Wor
tsch
atz-
Test
W
T Fi
gure
nleg
en
FL
Allg
emei
nes
Ver
stän
dnis
A
V
Sym
bol-S
uche
SS
Za
hlen
nach
spre
chen
ZN
(L
abyr
inth
-Tes
t)
LT
Index- und Gesamtwert
Spra
chlic
hes
Ver
stän
dnis
SV
W
ahrn
ehm
ungs
orga
nisa
tion
W
O
Una
blen
kbar
keit
U
A
Arb
eits
gesc
hwin
digk
eit
AG
V
erba
l-IQ
V
-IQ
H
andl
ungs
-IQ
H
-IQ
Anhang 224
Anhang 225
Tabelle A7: Exploratorische Faktorenana-lyse des HAWIK-IV (kurzes Intervall).
Untertest Faktor
1 2 3 4 WT .83 .21 .02 .03 BEN .77 .05 -.04 .16 GF .72 .25 .09 .19 AV .67 .11 .06 .19 AW .56 .51 .01 .25 ZN .11 .84 .07 .08 RD .30 .62 .17 .28 BZF .24 .61 .33 -.25 ZST .12 .15 .84 -.12 SYS .07 .17 .77 .16 DT -.23 .02 .55 .35 MT .20 .31 .21 .63 BK .32 .00 -.06 .60 BE .36 -.28 .36 .56 MZ .10 .49 .05 .56
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Tabelle A8: Exploratorische Faktorenana-lyse des HAWIK-IV (langes Intervall).
Untertest Faktor
1 2 3 BEN .83 .03 .19 GF .82 .14 .09 WT .82 -.03 .13 AW .75 .00 .26 AV .68 -.05 .11 BE .67 .39 .12 MT .57 .36 .10 BK .55 .34 -.11 SYS .16 .80 .18 DT .01 .79 -.16 ZST -.01 .76 .16 MZ .41 .47 .32 ZN .07 .02 .86 BZF .15 .05 .85 RD .36 .25 .54
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
.
Tabelle A9: Exploratorische Faktorenanalyse des HAWIK-III (kurzes Intervall).
Untertest Faktor
1 2 3 4 AV .76 -.06 .29 .24 WT .73 .26 .10 .06 GF .69 .36 .17 -.16 AW .57 .54 .18 .06 RD .20 .81 .09 .02 MT -.01 .63 .52 .22 ZN .34 .60 -.17 .24 FL .00 .35 .71 .08 BO .26 -.05 .70 .17 BE .24 -.02 .67 -.05 SS -.08 .09 .14 .79 ZST .20 .12 .03 .78
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Tabelle A10: Exploratorische Faktorenana-lyse des HAWIK-III (langes Intervall).
Untertest Faktor
1 2 3 4 WT .84 -.01 .02 .17 GF .83 .09 .16 .05 AV .76 .06 .17 .01 AW .74 -.09 .09 .33 BE .55 .16 .45 .01 ZST .02 .90 .09 .03 SS .06 .83 .02 .24 FL .09 -.11 .89 .11 MT .25 .30 .71 .19 RD .30 .06 .13 .75 ZN -.10 .27 .02 .72 BO .41 .00 .26 .56
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Anhang 226
Tabelle A11: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-III).
Untertest Faktor
1 2 3 4 AW .78 .11 .32 .08 GF .77 .07 .20 -.17 WT .74 .16 .12 .06 AV .64 .25 .04 .18 FL -.02 .78 .31 -.04 BO .28 .70 .01 .21 BE .39 .56 -.10 -.09 ZN .09 -.03 .78 .01 RD .29 .14 .72 .13 MT .20 .47 .57 .16 SS -.01 .01 .05 .86 ZST .07 .07 .11 .82
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Tabelle A12: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-IV).
Untertest Faktor
1 2 3 WT .82 .10 .08 GF .81 .23 .01 AW .76 .15 .14 AV .72 .27 -.04 RD .57 .00 .46 BO .45 .39 .18 FL .17 .81 .07 MT .17 .74 .35 BE .40 .56 -.05 ZN .28 -.20 .75 ZST -.03 .22 .70 SS -.03 .35 .64 Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Tabelle A13: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-III).
Untertest Faktor
1 2 3 4 WT .87 .04 .12 -.03 BEN .81 .14 .19 -.09 GF .79 -.05 .24 .08 AV .68 .03 .08 .02 AW .59 .41 .35 .04 ZN -.06 .87 .06 .05 BZF .09 .70 -.18 .07 RD .16 .64 .35 .09 MT .07 .25 .75 .18 BK .23 -.17 .62 .01 MZ .26 .30 .61 .05 BE .35 -.19 .57 .21 ZST -.05 .20 -.06 .86 SYS .07 .14 .12 .86 DT -.02 -.14 .31 .64
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Tabelle A14: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-IV).
Untertest Faktor
1 2 3 BEN .73 .26 -.04 BE .72 -.06 .33 AV .67 .29 .02 GF .65 .50 .04 BK .65 -.05 .15 WT .63 .50 -.10 MT .62 .15 .24 AW .62 .50 -.11 BZF .07 .81 .22 ZN .17 .76 .13 RD .36 .53 .29 DT -.04 -.14 .78 SYS .21 .20 .71 ZST -.02 .33 .64 MZ .36 .28 .54
Anmerkung: Abkürzungen siehe Anhang A5 und A6.
Hiermit erkläre ich, dass ich die vorliegende Arbeit ohne unerlaubte Hilfe angefertigt, keine
anderen als die angegebenen Quellen und Hilfsmittel verwendet und die den benutzten
Werken wörtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe.
Bremen, den 19.12.2008 Maike Lipsius
Diese Veröffentlichung lag dem Promotionsausschuss Dr. phil der Universität Bremen als Dissertation
vor.
Gutachter: Prof. Dr. Franz Petermann
Gutachter Prof. Dr. Uwe Tewes
Das Kolloquium fand am 16. Juni 2009 statt.