Validitätsstudie zum HAWIK-IV im Vergleich zum...

Validitätsstudie zum

HAWIK-IV im Vergleich zum HAWIK-III

Dissertation zur Erlangung der Doktorwürde

durch den Promotionsausschuss

Dr. phil. der Universität Bremen

vorgelegt von Maike Lipsius

Bremen, im Dezember 2008

1. Gutachter: Prof. Dr. Franz Petermann

2. Gutachter: Prof. Dr. Uwe Tewes

Promotionskolloquium am 16.06.2009

Danksagung

Ohne die Hilfe vieler Menschen wäre diese Arbeit niemals fertig geworden. Es ist mir ein gro-

ßes Anliegen, mich auf diesem Wege bei all denen zu bedanken, die mir tatkräftig zur Seite

standen.

Zunächst möchte ich mich herzlich bei Herrn Prof. Dr. Franz Petermann bedanken, der mir die

Möglichkeit gab, an der Normierung des HAWIK-IV mitzuwirken und im Rahmen dieses Projek-

tes zu promovieren und mich in den letzten vier Jahren dabei stets unterstützt hat.

Mein besonderer Dank gilt Dr. Monika Daseking, die auch bei größter Arbeitsbelastung jeder-

zeit ein offenes Ohr für große und kleine Probleme hatte, stets Interesse zeigte und eine fach-

liche und persönliche Bereicherung für mich war und hoffentlich weiterhin sein wird.

Desweiteren bin ich meinen Kollegen und Kolleginnen des ZKPR sehr dankbar, die mich mit

anregenden Gesprächen, aufbauenden Worten und fachlich kompetenten Tipps täglich beglei-

tet und für eine entspannte und humorvolle Arbeitsatmosphäre gesorgt haben: Julia, Anne,

Julia K., Julia D., Marijke, Sören, Dennis und viele mehr. PD Dr. Hans-Christian Waldmann dan-

ke ich für die methodische Betreuung und die konstruktive kritische Betrachtung des empiri-

schen Teils.

Ein großer Dank geht an die Schulen, Lehrer, Eltern, Kinder und Studenten (hier sei insbeson-

dere der engagierte und kompetente Einsatz von Bea zu erwähnen), die mir mit ihrer Hilfe die

Erstellung dieser Arbeit ermöglicht haben.

Ich danke meinen Freundinnen Helena, Steffi und Andrea, die trotz eigener Belastungen immer

für mich da waren und mich bei der Datenerhebung und der Erstellung der Dissertation un-

terstützt haben. Ebenso danke ich Jan, Jost, Susi, Anne und Julia für die konstruktiven Verbes-

serungsvorschläge.

Antje danke ich für die kompetente Hilfe, dafür, dass sie an den Nutzen dieser Arbeit für die

klinische Anwendung glaubt, für wertvolle Ablenkung und dafür, dass sie sich in meiner

schwersten Zeit als wahre Freundin erwiesen hat.

Schließlich danke ich meiner Familie, die ich von ganzem Herzen liebe! Insbesondere meinen

Eltern, die mir immer das Gefühl gaben, dass sie stolz auf mich sind. Ohne euch wäre nichts

von dem, was ich in meinen Leben bisher erreicht habe, möglich gewesen. Ich hoffe ich konnte

euch in diesem so ereignisreichen Jahr etwas von dem zurückgeben, was ihr mir so viele Jahre

gegeben habt.

Inhaltsverzeichnis I

1 Einleitung .............................................................................................................................. 2

2 Theoretische Grundlagen: Was ist Intelligenz? ..................................................................... 7

2.1 Intelligenzdefinitionen ................................................................................................. 7

2.2 Das Intelligenzkonzept David Wechslers .................................................................. 14

2.3 Zusammenfassung ..................................................................................................... 16

3 Intelligenztheorien und -modelle......................................................................................... 18

3.1 Die General-Faktoren-Theorie von Spearman ........................................................... 18

3.1.1 Bewertung ........................................................................................................... 20

3.1.2 Verbindung zu den Wechsler-Skalen .................................................................. 20

3.2 Das Primärfaktorenmodell von Thurstone ................................................................. 20

3.2.1 Bewertung ........................................................................................................... 21


3.3 Die Gf-Gc-Theorie von Cattell und Horn ................................................................... 22

3.3.1 Fluide Intelligenz (gf) .......................................................................................... 23

3.3.2 Kristalline Intelligenz (gc) ................................................................................... 23

3.3.3 Weiterentwicklung der Gf-Gc-Theorie ................................................................ 24

3.3.4 Bewertung ........................................................................................................... 25


3.4 Die Three-Stratum-Theorie von Carroll .................................................................... 26

3.4.1 Bewertung ........................................................................................................... 27

3.4.2 Unterschiede zur Gf-Gc-Theorie .......................................................................... 28


3.5 Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten .................................. 29

3.5.1 Bewertung ........................................................................................................... 33


3.6 Diskussionen zur Existenz eines g-Faktors................................................................ 36

3.6.1 Was ist g? ............................................................................................................ 36

3.6.2 Pro und Kontra .................................................................................................... 36

3.6.3 Verbindung zur Studie ........................................................................................ 39

Inhaltsverzeichnis II


4 Die Wechsler-Skalen ........................................................................................................... 42

4.1 Die Geschichte der Wechsler-Skalen ......................................................................... 42

4.2 Der HAWIK-III ......................................................................................................... 47

4.3 Der HAWIK-IV ......................................................................................................... 49

4.4 Testgütekriterien des HAWIK-III und HAWIK-IV................................................... 51

4.4.1 Objektivität .......................................................................................................... 52

4.4.1.1 Objektivität im HAWIK-III............................................................................. 52

4.4.1.2 Objektivität im HAWIK-IV ............................................................................ 53

4.4.2 Reliabilität ........................................................................................................... 54

4.4.3 Validität ............................................................................................................... 55

4.4.3.1 Nachweis der internen Struktur ....................................................................... 55

4.4.3.2 Konstruktvalidität ............................................................................................ 57

4.4.4 Normen des HAWIK-III und HAWIK-IV .......................................................... 58

4.4.5 Boden- und Deckeneffekte .................................................................................. 58

4.5 Die Bewertung der Wechsler-Skalen ......................................................................... 59

4.5.1 Fehlende theoretische Bindung ........................................................................... 60

4.5.2 Profilanalysen ...................................................................................................... 61

4.5.3 Weitere Kritikpunkte ........................................................................................... 63

4.5.4 Abschließende Betrachtung der Wechsler-Skalen .............................................. 63

4.6 Bewertung der WISC-IV ........................................................................................... 64

4.6.1 Aktualisierung der theoretischen Grundlagen ..................................................... 64

4.6.2 Anpassung an den Entwicklungsstand der Kinder .............................................. 68

4.6.3 Steigerung der Anwenderfreundlichkeit ............................................................. 68

4.6.4 Zusätzliche Auswertungsmöglichkeiten .............................................................. 69

4.6.5 Schwächen der WISC-IV .................................................................................... 70

4.7 Unterschiede zwischen HAWIK-III und -IV und deren Auswirkung auf die

Vergleichbarkeit beider Testversionen .................................................................................... 71

4.7.1 Allgemeine und strukturelle Veränderungen zwischen beiden Testversionen .... 71

Inhaltsverzeichnis III

4.7.2 Veränderungen in den einzelnen Untertests ........................................................ 72

4.7.2.1 Index Sprachverständnis ................................................................................. 74

4.7.2.2 Index Wahrnehmungsgebundenes Logisches Denken .................................... 79

4.7.2.3 Index Arbeitsgedächtnis .................................................................................. 81

4.7.2.4 Index Verarbeitungsgeschwindigkeit .............................................................. 82


5 Methodische Aspekte bei Vergleichsstudien ...................................................................... 84

5.1 Korrelationsstudien .................................................................................................... 84

5.1.1 Korrelationsstudien zur WISC-III ....................................................................... 84

5.1.2 Korrelationsstudien zum HAWIK-III ................................................................. 85

5.1.3 Korrelationsstudien zur WISC-IV ....................................................................... 86

5.1.4 Korrelationsstudien zum HAWIK-IV ................................................................. 86

5.1.5 Korrelationsstudien mit anderen Testverfahren .................................................. 87

5.2 Störeinflüsse .............................................................................................................. 88

5.2.1 Lerneffekt ............................................................................................................ 90

5.2.2 Flynn-Effekt ........................................................................................................ 94

5.3 Grenzen der Intelligenzdiagnostik ............................................................................. 96


6 Ableitung der Fragestellung und Hypothesen ..................................................................... 99

6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte von HAWIK-III und -IV 100

6.2 Hypothesen zur Faktorenstruktur des HAWIK-III und -IV ..................................... 102

6.3 Hypothesen zum Zusammenhang zwischen HAWIK-III und HAWIK-IV ............. 103

6.3.1 Einfluss der Testvorgabe ................................................................................... 104

6.3.2 Einfluss des Zeitintervalls ................................................................................. 105

6.4 Hypothesen zur Regressionsanalyse ........................................................................ 106

7 Methoden und Datenanalyse ............................................................................................. 111

7.1 Studienablauf ........................................................................................................... 111

7.2 Studiendesign ........................................................................................................... 111

7.3 Stichprobenbeschreibung ......................................................................................... 113

Inhaltsverzeichnis IV

7.3.1 Gesamtstichprobe .............................................................................................. 113

7.3.2 Gematchte Stichprobe ....................................................................................... 115

7.4 Untersuchungsinstrumente ....................................................................................... 117

7.5 Statistische Methoden zur Analyse der Daten ......................................................... 118

7.5.1 t-Tests für abhängige Stichproben ..................................................................... 118

7.5.2 Faktorenanalysen ............................................................................................... 119

7.5.3 Korrelationen ..................................................................................................... 119

7.5.3.1 Zusammengefasste Werte.............................................................................. 120

7.5.4 Regressionsanalysen .......................................................................................... 121

7.5.4.1 Multiple lineare Regression........................................................................... 122

7.5.4.2 Vorhergesagte Werte und Konfidenzintervalle ............................................. 122

8 Ergebnisse ......................................................................................................................... 124

8.1 Explorative Datenanalyse ........................................................................................ 124

8.1.1 Deskriptive Statistiken des HAWIK-III ............................................................ 124

8.1.2 Deskriptive Statistiken des HAWIK-IV ............................................................ 126

8.2 Überprüfung der Mittelwertdifferenzen ................................................................... 129

8.3 Mittelwertvergleich .................................................................................................. 131

8.3.1 Kurzes Intervall ................................................................................................. 132

8.3.2 Langes Intervall ................................................................................................. 134

8.4 Lerneffekt ................................................................................................................ 136

8.5 Flynn-Effekt ............................................................................................................. 142

8.6 Untersuchung der Teststruktur mit Hilfe von Faktorenanalysen ............................. 144

8.6.1 Faktorenanalysen ohne Vorgabe der Faktorenanzahl ........................................ 144

8.6.2 Faktorenanalysen mit Vorgabe der Faktorenanzahl .......................................... 146

8.6.3 Zusammenfassung Faktorenanalysen ................................................................ 149

8.7 Untersuchung des Zusammenhangs mit Hilfe von Korrelationen ........................... 149

8.7.1 Korrelationen der Gesamtstichprobe ................................................................. 149

8.7.2 Korrelationen der Teilstichprobe....................................................................... 156

8.7.3 Zusammenfassung Korrelationsanalysen .......................................................... 158

Inhaltsverzeichnis V

8.8 Regressionsanalysen ................................................................................................ 159

8.8.1 Untersuchung der Varianzaufklärung der HAWIK-III-Untertests .................... 159

8.8.2 Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests .................... 161

8.8.3 Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ ................. 163

8.8.4 Erwartete Werte und Konfidenzintervalle ......................................................... 164

8.8.5 Zusammenfassung der Regressionsanalysen ..................................................... 168

8.9 Zusammenfassung der Ergebnisse ........................................................................... 169

9 Diskussion der Ergebnisse ................................................................................................ 170

9.1 Ergebnisbetrachtung des Mittelwertvergleichs ............................................................... 170

9.2 Ergebnisbetrachtung der Störeinflüsse ............................................................................ 171

9.2.1 Lerneffekt ................................................................................................................. 171

9.2.2 Flynn-Effekt ............................................................................................................. 174

9.3 Ergebnisbetrachtung der Faktorenanalysen..................................................................... 176

9.4 Ergebnisbetrachtung der Korrelationsanalysen ............................................................... 177

9.4.1 Einfluss der Testreihenfolge ..................................................................................... 178

9.4.2 Höhe der Korrelationen der Gesamtstichprobe ........................................................ 178

9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe .............................. 180

9.4.4 Einfluss der Länge des Re-Testintervalls ................................................................. 180

9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen ............................... 181

9.5 Ergebnisbetrachtung der Regressionsanalysen ............................................................... 181

9.5.1 Varianzaufklärung der Untertests des HAWIK-III .................................................. 181

9.5.2 Varianzaufklärung der Untertests des HAWIK-IV .................................................. 184

9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ ...................................................... 185

9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen ................................ 186

9.5.5 Erwartete Werte und Konfidenzintervalle ................................................................ 186

9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung............................................... 187

9.7 Einzelfallbetrachtungen ................................................................................................... 188

9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes ................................ 188

9.7.2 Klinische Relevanz ................................................................................................... 190

Inhaltsverzeichnis VI

9.7.3 Unterschiedliche Normierung .................................................................................. 190

9.7.4 Inhaltliche Veränderungen der Untertests ................................................................ 190

9.7.5 Veränderungen der Untertestreihenfolge ................................................................. 191

9.7.6 Zusammenfassung der Einzelfallbetrachtungen ....................................................... 192

9.8 Ausblick und Einschränkungen ....................................................................................... 192

9.8.1 Perspektiven für die Praxis ....................................................................................... 192

9.8.2 Einschränkungen der Studie ..................................................................................... 195

9.8.3 Forschungsperspektiven ........................................................................................... 197

Zusammenfassung ..................................................................................................................... 198

Literaturverzeichnis ................................................................................................................... 199

Anhang ...................................................................................................................................... 217

Abbildungsverzeichnis .......................................................................................................... 217

Tabellenverzeichnis ............................................................................................................... 218

Zusatztabellen ....................................................................................................................... 221

I Theoretischer Teil

Kapitel 1 Einleitung 2

1 Einleitung

Allgemeines Wissen, Frage 18: „Wie viel Tage hat das Jahr?“

Thilo, 8 Jahre: „Das ist mir doch egal, Hauptsache irgendwann ist Weihnachten!“

Die Intelligenz fasziniert die Menschen seit vielen Jahrhunderten. Bereits 300 v. Chr. fand der

Begriff seine Erwähnung durch den chinesischen Philosophen Lao-Tse, der konstatierte: „Dinge

wahrzunehmen ist der Keim der Intelligenz“. Bis heute wird darüber gerätselt und philoso-

phiert, was Intelligenz eigentlich ist und was einen intelligenten Menschen ausmacht. Sie

nimmt damit eine große Bedeutung in unserem Leben ein, auch wenn dies nicht von allen so

gesehen wird: „Intelligenz ist nur eine zufällige Begleiterscheinung des Lebens, und vielleicht

nicht einmal eine sehr nützliche“, findet der Biochemiker und Sciencefiction-Autor Isaac Asi-

mov.

Unzählige Forschungsarbeiten haben sich der Intelligenz angenommen. Allerdings gibt es bis

heute keine einheitliche Ansicht darüber, was unter Intelligenz zu verstehen ist. Schon Anfang

des vergangenen Jahrhunderts erklärten die Entwickler des ersten Intelligenztests, Binet und

Simon (1916): “Life is so much a conflict of intelligences as a combat of characters” (S. 256). Es

scheinen ebenso viele Intelligenzdefinitionen wie Intelligenzforscher1 zu existieren. In dieser

Arbeit sollen die verschiedenen Definitionen beleuchtet und ihre Gemeinsamkeiten und Un-

terschiede aufgezeigt werden.

Die Erfassung von Intelligenz hat mittlerweile auch Einzug in den Alltag gehalten. Ein Blick in

die Fernsehlandschaft macht deutlich, dass sie in den letzten Jahren geradezu zu einem Mode-

thema avancierte. „Der große IQ-Test“, „Deutschlands klügste Kinder“, „Wie schlau ist

Deutschland?“ – das Rätselraten um das Wissen und die kognitiven Fähigkeiten hat Hochkon-

junktur. Das Internet überhäuft seine Nutzer mit Gratis-IQ-Tests, die vorgeben, innerhalb kür-

zester Zeit anhand weniger Aufgaben einen aussagekräftigen Intelligenzquotienten ermitteln

zu können. Diese Form von IQ-Testung ist jedoch oftmals fragwürdig und so sollte einem über

eine TV-Sendung oder das Internet ermittelten Wert kritisch begegnet werden. Die Entwick-

lung eines wissenschaftlich fundierten Intelligenztests unterliegt strengen Anforderungen, die

in der vorliegenden Arbeit ebenso thematisiert werden wie die Einschränkungen und Grenzen,

die beim Einsatz von Intelligenztests zu beachten sind. Die Intelligenzdiagnostik zählt heute zu

den wichtigsten Bereichen der klinischen Psychologie und bildet den Schwerpunkt psychologi-

scher Leistungsdiagnostik (Petermann, 2006). Der Intelligenzdiagnostik kommt in vielen Berei-

1 Im Folgenden wird zur besseren Lesbarkeit ausschließlich die männliche Form verwendet, gemeint sind jedoch beide Geschlechter.


chen der Psychologie eine wesentliche Bedeutung zu. Sie bildet den Schwerpunkt einer psy-

chologischen Leistungsdiagnostik, die über die Darstellung eines normbasierten und ressour-

cenorientierten Leistungsprofils die Diagnose der kognitiven Leistungsfähigkeit einer Person

ermöglicht (Daseking, Janke & Petermann, 2006). Diesen Stellenwert besitzt sie jedoch noch

nicht so lange wie ihre mehr als hundertjährige Tradition vermuten lässt. Lange Zeit waren

Intelligenztests umstritten. Erst in den letzten Jahrzehnten setzten sie sich als bedeutsames

Diagnoseinstrument durch.

Intelligenztests wie die Wechsler-Skalen kommen in vielen Bereichen zum Einsatz. Dazu gehö-

ren nach Aiken (2003)

die Diagnose von Hoch- und Minderbegabung und die Auswahl intelligenzgeminderter oder hochbegabter Kinder für spezifische Fördermaßnahmen oder Schullaufbahnpla-nungen,

die Prognose beruflicher Leistungen im Bereich der Personalauswahl und -entwicklung in der Arbeits- und Organisationspsychologie,

die Diagnose im klinischen und psychiatrischen Setting,

die Evaluation der Effektivität psychologischer Behandlungen und Interventionen so-wie

die Erforschung der kognitiven Fähigkeiten und der Persönlichkeit.

Der Begriff Diagnostik entstammt dem griechischen Wort diagignostikein, das eine kognitive

Funktion mit den Bedeutungen gründlich kennenlernen, Unterscheiden von Merkmalen und

Beurteilungen vornehmen bezeichnet.

Nach Kubinger (2006) erhebt ein psychologischer Leistungstest „unter standardisierten Bedin-

gungen eine Informationsstichprobe über die Testperson, indem … mit systematisch erstellten

Aufgaben interessierende Verhaltensweisen oder psychische Vorgänge ausgelöst und geprüft

werden“ (S. 118). Er stellt ein Verfahren dar, das nach den Regeln der Testtheorie konstruiert

wurde und eine Stichprobe jener Verhaltensweisen erhebt, die zum Zielmerkmal gehören und

es operational definieren (Fisseni, 2004). Intelligenztests gehören dabei in den Bereich der

Fähigkeitsmessung, wobei Fähigkeiten die psychischen und somatischen Bedingungen ange-

ben, die eine Leistung ermöglichen. Intelligenz als Fähigkeit kann selbst nicht beobachtet wer-

den, sie muss aus der Leistung in der Testsituation erschlossen werden.

Nach Jäger und Petermann (1999) verfolgt psychologische Diagnostik das Ziel, Entscheidungen

und sich daraus ergebende Handlungen zu begründen, zu kontrollieren und zu optimieren. In

Anlehnung daran bezeichnen Eid und Petermann (2006) Diagnostik als „die regelgeleitete

Sammlung und Verarbeitung von gezielt erhobenen Informationen, die für das Verständnis

menschlichen Verhaltens bedeutsam sind“ (S. 16). Dies beinhaltet eine möglichst umfassende

Erhebung relevanter Personendaten sowie die transparente Integration dieser Daten zu einer


wissenschaftlich begründeten Diagnose, die möglichst direkt mit einer adäquaten Intervention

einhergeht (Bölte, Adam-Schwebe, Englert, Schmeck & Poustka, 2000). Um veränderungorien-

tierte Ansätze mehr in den Vordergrund zu stellen, definieren Amelang und Schmidt-Atzert

(2006) als Aufgabe der Psychodiagnostik die Erfassung interindividueller Unterschiede im Ver-

halten und Erleben sowie intraindividueller Merkmale und Veränderungen einschließlich ihrer

jeweils relevanten Bedingungen. Somit werden hinlänglich präzise Vorhersagen künftigen Ver-

haltens und Erlebens sowie deren eventuelle Veränderungen in definierten Situationen mög-

lich.

Ende 2004 bekam das Zentrum für Klinische Psychologie und Rehabilitation der Universität

Bremen den Auftrag, die US-amerikanische Intelligenztestbatterie WISC-IV für den deutsch-

sprachigen Raum zu adaptieren und zu normieren. In den folgenden drei Jahren wurde der

HAWIK-IV in Deutschland, Österreich und der deutschsprachigen Schweiz an über 2 600 Kin-

dern und Jugendlichen im Alter von 6 bis 16 Jahren normiert. 2007 wurde der Test im Huber-

Verlag veröffentlicht.

Parallel zur Normierung wurden diverse Validierungsstudien durchgeführt. Die Validierung

dient einer Spezifikation und Präzisierung der diagnostischen Schlussfolgerungen, die aus sei-

nen Ergebnissen korrekt gezogen werden können. Die Validität eines Testverfahrens gilt als das

wichtigste Gütekriterium (Bortz & Döring, 2002) und demnach als wichtigster Aspekt bei der

Testentwicklung und -evaluation (AERA, 1999; Angoff, 1988). Andere technische und konstruk-

tionstheoretische Gütekriterien wie die Objektivität oder die Reliabilität gelten nur als Voraus-

setzungen zur Steigerung der Validität eines Instruments (Jäger, A. O., 1986).

Zur Validierung des HAWIK-IV wurden beispielsweise regionale Unterschiede zwischen den

Kindern aus Deutschland und der Schweiz untersucht (Grob et al., 2008). Einen ebenso wichti-

gen Beitrag zur Validität des Verfahrens leisten klinische Studien zu Kindern mit Hochbega-

bung, leichter oder mittelgradiger Intelligenzminderung, Lese-Rechtschreibstörung (LRS) und

Aufmerksamkeitsdefizit-/Hyperaktivitätsstörung (ADHS) (Petermann & Petermann, 2008a).

Weitere Studien wurden bereits veröffentlicht oder befinden sich zurzeit in Bearbeitung (Hag-

mann-von Arx, Meyer & Grob, 2008; Holocher-Ertl, Kubinger & Hohensinn, 2008).

Neben der Mitarbeit an der Entwicklung und Normierung des HAWIK-IV bestand die Aufgabe

der Verfasserin der vorliegenden Studie darin, die Gültigkeit des neuen Verfahrens nachzuwei-

sen. Konkret sollte dies mit Hilfe eines Vergleichs zwischen dem Test und seinem Vorgänger-

verfahren, dem HAWIK-III, erfolgen. Bei der Entwicklung neuer Versionen von Testverfahren

stellt die Interpretation einen wichtigen Aspekt dar. Testanwender sollten von einer Vergleich-

barkeit des neuen Testverfahrens mit der vorherigen Version ausgehen können, wenn bei-


spielsweise mit Hilfe des Testverfahrens für eine Verlaufsdiagnostik die Entwicklung eines Pa-

tienten anhand der alten Version (hier HAWIK-III) vor Beginn der Maßnahme und der neuen

Version (hier HAWIK-IV) nach Beendigung der Maßnahme abgebildet werden soll. Abweichun-

gen in der Struktur der Tests und der Intelligenz der Menschen (Flynn-Effekt) führen jedoch zu

einer zu deutlichen Abweichung der neuen von der alten Version eines Testverfahrens, um

eine ausreichende Übereinstimmung garantieren zu können. In dieser Studie soll nun unter-

sucht werden, ob die veränderte Teststruktur, die aktualisierten Normen und die inhaltlichen

Veränderungen in den Untertests die Vergleichbarkeit des aktuellen HAWIK-IV mit dem HA-

WIK-III beeinträchtigen.

Verschiedene Studien legen nahe, dass der HAWIK-III aufgrund sogenannter „Normverschie-

bungen“ überhöhte Werte liefert (Sparrow & Gurland, 1998). Somit kann die kognitive Leis-

tungsfähigkeit eines Kindes fehleingeschätzt (überschätzt) werden. Dies sollte durch die Revi-

sion und Neunormierung behoben werden. Den HAWIK-IV als neuen Maßstab für die Beurtei-

lung individueller Testergebnisse anzulegen, setzt jedoch ein möglichst präzises Wissen über

die möglichen Differenzen zwischen den Testergebnissen beider Versionen voraus. Als Metho-

de zur Untersuchung dieser Differenzen bietet es sich an, beide Testversionen von denselben

Kindern durchführen zu lassen und die Testergebnisse miteinander zu vergleichen. Damit wird

versucht, dem Praktiker eine Richtlinie dafür zu geben, was er zu beachten hat, wenn er bisher

den HAWIK-III angewandt hat und zukünftig mit dem HAWIK-IV arbeiten will.

In den vergangenen Jahrzehnten spielte die dem Testverfahren zugrunde liegende Intelligenz-

theorie bei der Testentwicklung und -interpretation eine immer größere Rolle (Kamphaus,

Winsor, Rowe & Kim, 2005). Aus diesem Grund wird im Folgenden auf die Intelligenztheorien

und -modelle eingegangen, die bei der Entwicklung der Wechsler-Skalen von Bedeutung war-

en. Zwar legte Wechsler seinen Tests explizit keine Theorie zu Grunde, diesen wurden im

Nachhinein aber diverse Intelligenztheorien und -modelle zugeordnet. Dabei sind vor allem

Strukturmodelle zu nennen, die einen hierarchischen Aufbau aufweisen.

Zur Einordnung der Ergebnisse dieser Studie werden bisherige Korrelationsstudien beschrie-

ben, die Hinweise darauf geben können, welche Resultate in der vorliegenden Untersuchung

zu erwarten sind. Außerdem wird ausführlich möglichen Störeinflüssen auf den Vergleich zwi-

schen den Testversionen HAWIK-III und -IV nachgegangen.

Die Wechsler-Skalen zählen zu den meist untersuchten und angewandten Intelligenztestver-

fahren der Welt (Zhu & Weiss, 2005). Sie prägen wie kein anderer Intelligenztest seit nunmehr

siebzig Jahren die Diagnostik von Kleinkindern, Kindern, Jugendlichen und Erwachsenen. Vor

allem dank seiner Skalen gilt David Wechsler als Hauptfigur im Bereich der Testentwicklung in

der zweiten Hälfte des zwanzigsten Jahrhunderts (Edwards, 1994). Da es sich bei dem HAWIK-


IV um den Test handelt, dessen Validität nachgewiesen werden soll, wird auf seine Vor- und

Nachteile besonders eingegangen. So besteht neben vielen positiven Reaktionen auf das ak-

tuelle Verfahren weiterhin diverse Kritik an den Wechsler-Skalen, die nicht unbeachtet gelas-

sen werden kann. Dem HAWIK-IV liegen die bisher größten Änderungen gegenüber einer Vor-

gängerversion zu Grunde. Aus diesem Grund wird ein Vergleich der gegenständlichen Testver-

sionen HAWIK-III und -IV im Hinblick darauf vorgenommen, inwieweit diese inhaltlichen und

strukturellen Veränderungen zu Einschränkungen der Vergleichbarkeit beider Versionen füh-

ren können.

Der Schwerpunkt dieser Arbeit liegt im methodischen Bereich, da weniger ein bestimmtes

psychologisches Konstrukt oder klinisch-psychologisches Krankheitsbild anhand spezifischer

Methoden untersucht wird, als vielmehr die Methode in Form eines Testverfahrens selbst. Im

empirischen Teil werden zunächst neben der Vorstellung des Aufbaus und Designs dieser Vali-

dierungsstudie die Stichprobe und die angewandten statistischen Verfahren beschrieben. Wei-

terhin werden die gemäß den theoretischen Erwartungen aufgestellten Hypothesen unter-

sucht und die Ergebnisse detailliert aufgezeigt.

Abgeschlossen wird die vorliegende Arbeit mit der Diskussion der Ergebnisse, ihrer Einordnung

in den theoretischen Rahmen, der kritischen Bewertung der Studie sowie der Erörterung der

Implikationen der erhaltenen Ergebnisse für die Praxis und den daraus resultierenden Anre-

gungen für zukünftige Forschungsarbeiten.

Kapitel 2 Theoretische Grundlagen: Was ist Intelligenz? 7

2 Theoretische Grundlagen: Was ist Intelligenz?

Allgemeines Verständnis, Frage 5: „Was solltest du tun, wenn du in einem Geschäft eine

Brieftasche oder ein Portemonnaie findest?“

Yannik, 7 Jahre: „Es behalten - ich steh auf Geld!“

Obwohl Intelligenz als das am meisten untersuchte Persönlichkeitsmerkmal in der Psychologie

gilt, gibt es bis heute keine allgemeingültige Definition der Intelligenz (Holling, Preckel & Vock,

2004). Schon vor mehr als 20 Jahren hatte eine Umfrage unter den derzeit bekanntesten Intel-

ligenztheoretikern schon ebenso viele Definitionen ergeben, wie Personen befragt worden

waren (Sternberg & Detterman, 1986).

Nach wie vor besitzt der Begriff Intelligenz keinen allgemein anerkannten, objektiven Inhalt

(Funke & Vaterrodt-Plünnecke, 2004). Der Grund dafür dürfte sein, dass Intelligenz nicht direkt

zu beobachten ist, sie muss vielmehr aus dem Verhalten eines Menschen, wie beispielsweise

beim Lösen von Problemen, abgeleitet werden. Schon durch die verschiedenen Forschungs-

richtungen in Bezug auf die Intelligenzleistungen haben sich unterschiedliche Intelligenzdefini-

tionen entwickelt. Diese spiegeln richtungsbedingt die unterschiedlichen Auffassungen und

Perspektiven der jeweiligen Forscher wider.

Im Folgenden sollen die am weitesten verbreiteten Definitionen von Intelligenz vorgestellt

werden.

2.1 Intelligenzdefinitionen Die Franzosen Binet und Simon (1916), die Anfang des zwanzigsten Jahrhunderts den ersten

Intelligenztest entwickelten, verstanden unter Intelligenz die Fähigkeit, gut urteilen und sich

gut der Umwelt anpassen zu können sowie die Richtung des Bestrebens einer Person und ihre

Fähigkeit zur Selbstkritik. Parallel dazu definierte der deutsche Psychologe und Begründer der

differentiellen Psychologie, William Stern (1911), Intelligenz als die Fähigkeit einer Person, ihr

Denken bewusst auf neue Situationen einstellen und sich deren Anforderungen erfolgreich

anpassen zu können.

Die wohl bekannteste Intelligenzdefinition geht nach Sternberg (2000b) auf Boring zurück, der

1923 vorschlug, Intelligenz als das anzusehen, was Intelligenztests messen. Boring sah dies

jedoch nicht als endgültige Definition an, sondern verstand seinen Vorschlag eher als eine Art

Startpunkt für eine Diskussion, in der diese Definition so lange Bestand habe, bis die wissen-

schaftliche Diskussion es erlaube, sie zu erweitern. Noch heute unterstützen Holling et al.

(2004) Borings Definition, indem sie die Intelligenz als einen theoretischen Begriff beziehung-


sweise ein Konstrukt ansehen, das nicht direkt beobachtbar sei, und die Intelligenz einer Per-

son somit aus ihrem Verhalten in unterschiedlichen Leistungssituationen (also Intelligenztests)

erschlossen werden müsse. Auch nach Jensen ist Intelligenz per Definition das, was Intelligenz-

tests messen (1972).

Diese Definition wurde vielfach kritisiert (Sternberg, 2000b). Da bis zum heutigen Tage noch

nicht vollständig geklärt ist, was genau Intelligenztests messen, wurde sie als wenig hilfreich

eingestuft. Außerdem korrelieren verschiedene Intelligenztests nicht vollständig miteinander

und bilden somit keine Einheit, wie es diese Definition impliziert. Weiterhin wurde diese Defi-

nition als konservativ kritisiert, da sie es niemals möglich machen werde, Intelligenz in einer

Weise zu verstehen, die über die traditionellen Testverfahren hinausgehe. Nach Flynn (2007)

könnte nie ein besserer IQ-Test entwickelt werden, wenn Intelligenz das ist, was aktuelle Intel-

ligenztests messen, da der neue IQ-Test nach dieser Definition eine Abweichung von dem wä-

re, was man bis dahin als Intelligenz zu messen glaubte. Brody (2000) kam zu folgendem

Schluss: „We know how to measure something called intelligence, but we do not know what

has been measured” (S. 30).

Es gehen auch nur wenige Wissenschaftler davon aus, dass IQ-Tests ein reines Maß der Intelli-

genz widerspiegeln. Intelligenz stellt nach Bjorklund und Schneider (2006) vielmehr ein Phä-

nomen dar, das mit Hilfe eines einzelnen Messverfahrens nicht adäquat erfasst werden kann.

1921 fand ein Symposium zur Frage der Definition von Intelligenz statt, an dem 14 Experten

teilnahmen, die folgende Definitionen von Intelligenz einbrachten:

die Stärke guter Antworten aus dem Blickwinkel von Wahrheiten oder Fakten (Thorn-dike, 1921),

die Fähigkeit, abstrakt zu denken (Terman, 1921),

sensorisches Vermögen, Wiedererkennungsvermögen, Schnelligkeit und Bandbreite an Flexibilität beim Assoziieren, Leichtigkeit und Einbildungskraft, Aufmerksamkeitsspan-ne, Schnelligkeit oder Wachheit beim Antworten (Freeman, 1921),

die Fähigkeit, zu lernen oder schon gelernt zu haben sich selbst mit der Umwelt zu ar-rangieren (Colvin, 1921),

die Fähigkeit, sich adäquat an relativ neue Lebenssituationen anzupassen (Pintner, 1921),

die Aufnahmefähigkeit für Wissen und verfügbares Wissen (Henmon, 1921),

ein biologischer Mechanismus, der die Auswirkungen der Komplexität von Stimuli zu-sammenführt und einheitliche Wirkungen im Verhalten bereitstellt (Peterson, 1921),

das Vermögen, instinktive Anpassung zu unterdrücken, diese instinktive Anpassung angesichts des vornehmlich angewendeten Prinzips von Versuch und Irrtum neu zu de-finieren und das Vermögen, die modifizierte instinktive Anpassung in offenem Verhal-ten zum Vorteil des Individuums als sozialem Wesen zu realisieren (Thurstone, 1921),

das Vermögen, sich Vermögen anzueignen (Woodrow, 1921),


das Vermögen, zu lernen oder von Erfahrungen zu profitieren (Dearborn, 1921) sowie

Empfindung, Wahrnehmung, Assoziation, Gedächtnis, Einbildungskraft, Diskriminati-onsfähigkeit, Urteilsvermögen und logisches Denken (Haggerty, 1921).

Als gemeinsame Nenner finden sich nach Sternberg (1997a, 2004) in diesen Definitionen

Fähigkeiten höherer Ordnung (wie abstraktes Denken, Problemlösen und Entschei-dungsfähigkeit),

die Fähigkeit, sich den Anforderungen der Umwelt anzupassen und

die Fähigkeit zu lernen.

Über 60 Jahre später fand ein weiteres Symposium statt, das die Definitionen von 1921 ablö-

sen sollte. Zwei dutzend Forscher auf dem Gebiet der Intelligenz versuchten, eine Definition zu

finden (Sternberg & Detterman, 1986). Wie oben erwähnt, kamen dabei ebenso viele Defini-

tionen wie Teilnehmer des Symposiums heraus. Für Sternberg (1997a) waren bei diesem Tref-

fen die am häufigsten genannten Elemente:

Fähigkeiten höherer Ordnung,

das, was durch die Bildung geschätzt werden kann und

exekutive Prozesse.

Es gab einige Gemeinsamkeiten zwischen beiden Symposien (Sternberg, 2000b). Attribute wie

Anpassung an die Umwelt, basale mentale Prozesse und Denkprozesse höherer Ordnung wie

logisches Denken, Problemlösungsverhalten und Entscheidungsfindung waren in beiden Tref-

fen stark vertreten. Außerdem gab es einige Themen, die in beiden Symposien behandelt wur-

den. Dazu gehörte die Frage, ob Intelligenz eine oder mehrere Facetten hat, die jedoch in bei-

den Treffen nicht einvernehmlich beantwortet werden konnte (siehe dazu Kapitel 3.6), ebenso

wie die Frage, wie weit die Definition von Intelligenz gefasst werden muss. Während einige

Forscher Intelligenz relativ eng im Sinne von biologischen und kognitiven Elementen definier-

ten, sahen andere in ihr auch weiter gefasste Bereiche wie Motivation oder Persönlichkeit.

Auch hinsichtlich dieses Problems konnte keine Lösung gefunden werden.

Es bestanden aber auch deutliche Unterschiede zwischen den Definitionen von 1921 und 1986.

So kam der Metakognition, verstanden als die Fähigkeit sich selbst zu verstehen und zu kon-

trollieren (Sternberg, 2004), 1986 eine Bedeutung zu, die sie 1921 noch nicht eingenommen

hatte. Außerdem wurden beim späteren Treffen die Rolle von Wissen und die Interaktion zwi-

schen Wissen und kognitiven Prozessen stärker in den Vordergrund gestellt. Ebenso lag 1986

der Schwerpunkt bei der Definition von Intelligenz auf der Rolle des Kontextes und im Speziel-

len der Kultur. Auch Baltes (1983) hatte das Aneignen von Wissen als wichtigen Aspekt eines

intelligenten Menschen betrachtet. Für ihn bedeutet Intelligenz nicht nur die Fähigkeit der

Informationsverarbeitung und des logischen Denkens, sondern auch eine Fähigkeit des Aneig-

nens, Organisierens und Gebrauchens von Kulturwissen.


Im Laufe der Jahre kam in vielen Definitionen, wie in der von Wechsler (siehe Kapitel 2.2), dem

Thema der Anpassung eine zunehmende Bedeutung zu. Für Sternberg (1997b) passten sich

Menschen nicht nur der Umgebung an, sondern formten sie auch und suchten sich von Zeit zu

Zeit sogar eine neue Umwelt. Intelligenz reagiere nach ihm nicht nur auf die Umwelt, sondern

forme sie auch aktiv. Sternberg beschrieb Intelligenz als diejenigen kognitiven Fähigkeiten, die

sowohl für die Anpassung an äußere Gegebenheiten als auch für deren Formung und Auswahl

notwendig seien. Da sich die Landschaft des umgebungsbedingten Kontextes im Laufe der Zeit

ändere, setze die angemessene Anpassung, Formung und Auswahl einen lebenslangen Lern-

prozess voraus (Sternberg, 1997a). Ein erfolgreich intelligenter Mensch halte das Gleichge-

wicht zwischen Anpassung, Formung und Auswahl aufrecht, indem er von allem so viel wie

notwendig einbringe (Sternberg, 2004). Für Sternberg stand also das Lernen im Vordergrund,

da er davon ausging, ein Mensch muss erst lernen, wie man sich der Umwelt anpasst, bevor er

sie formen oder sich am Ende eine neue aussuchen kann.

Neisser (1979) vermutete zunächst, Intelligenz könne eher nach Prototypen definiert werden,

es gebe also keine eindeutigen Eigenschaften von intelligenten Menschen, sondern charakte-

ristische Eigenschaften, die typisch für intelligente Menschen seien. Ein intelligenter Mensch

sei demnach jemand, der bestimmte Eigenschaften aufweist. Es gebe für ihn jedoch keine spe-

ziellen Eigenschaften, die als wichtig und ausreichend identifiziert werden könnten, um einen

Menschen als intelligent zu bezeichnen. Später einigten sich Neisser und andere Intelligenzfor-

scher (Neisser et al., 1996) darauf, dass Individuen sich in ihren Fähigkeiten voneinander un-

terschieden, komplexe Ideen zu verstehen, sich effektiv an ihre Umwelt anpassen zu können,

von Erfahrungen zu lernen, verschiedene Formen des Schlussfolgerns anzuwenden und Hin-

dernisse zu bewältigen, in dem sie sich Gedanken machten.

Bei einer Befragung von Professoren verschiedener akademischer Fachbereiche zu ihrer Theo-

rie von Intelligenz hoben sie jeweils die Fähigkeiten hervor, die für ihr Fach besonders wichtig

waren (Sternberg, 1985b). Sternberg zog daraus den Schluss, dass den Intelligenz-Konzepten

von Experten verschiedene Metaphern zu Grunde liegen (1985a, siehe Tabelle 2.1).

Tabe

lle 2

.1: Ü

bers

icht

übe

r die

wic

htig

sten

Inte

llige

nzvo

rste

llung

en (m

odifi

zier

t nac

h St

ernb

erg,

198

5a)

Met

aphe

r V

ertr

eter

H

aupt

frag

e Zu

Gru

nde

lie

gend

e Ei

nhei

t Ty

pisc

he M

etho

de

geog

rafis

ch

Spea

rman

Th

urst

one

Gui

lford

Ca

ttel

l Ve

rnon

Ca

rrol

l

Wel

che

Form

bes

itzt d

as A

b-bi

ld d

es G

eist

es (m

ind -

map

)?

Fakt

or

Fakt

oren

anal

yse

rech

enbe

tont

Je

nsen

H

unt

Ster

nber

g

Wel

che

Info

rmat

ions

proz

esse

un

terl

iege

n In

telli

genz

? el

emen

tare

r In

-fo

rmat

ions

proz

ess

Reak

tions

zeita

naly

se

Prot

okol

lana

lyse

Co

mpu

ters

imul

atio

n

biol

ogis

ch, g

enet

isch

-er

kenn

tnis

theo

reti

sch

Piag

et

Wie

ent

wic

kelt

sich

Inte

llige

nz

als

phyl

ogen

etis

ches

und

on-

toge

netis

ches

Sys

tem

? Sc

hem

a Kl

inis

che

Beob

acht

ung

anth

ropo

logi

sch

Berr

y Co

le

Char

lesw

orth

Wel

che

Form

nim

mt I

ntel

li-ge

nz a

ls k

ultu

relle

En

tdec

kung

an?

Ku

lture

ller K

onte

xt

Inte

rkul

ture

ller

Verg

leic

h

sozi

olog

isch

Vy

gots

ky

Feue

rste

in

Wie

sin

d so

zial

e Pr

ozes

se in

di

e En

twic

klun

g ve

rinn

erlic

ht?

Verm

ittel

te L

erne

r-fa

hrun

g Ko

gniti

ve

Trai

ning

sstu

die

syst

emis

ch

Ster

nber

g W

ie s

teue

rn s

ich

Indi

vidu

en?

Inte

rnal

e In

form

a-tio

nsko

mpo

nent

e Ko

mpo

nent

enan

alys

e Pr

otot

ypan

alys

e



Der Sinn des Gebrauchs solcher Metaphern weist für Sternberg (2000b) einen Zusammenhang

mit dem Verwendungszweck auf. Welche Metapher man am besten übernehmen sollte, hängt

von dem Ziel ab, für das man sie benötigt.

Funke und Vaterrodt-Plünecke (2004) unterscheiden drei verschiedene Ansätze in der Betrach-

tung von Intelligenz: den Ansatz der Informationsverarbeitung sowie den psychometrischen

und den entwicklungspsychologischen Ansatz. Der informations-verarbeitende Ansatz entwi-

ckelte sich aus der experimentellen Psychologie. Anhänger dieser Richtung befassen sich mit

der Erforschung von Prozessen, die für die geistigen Leistungen grundlegende Bedeutung ha-

ben, indem beispielsweise Reaktionszeiten und Gedächtnisleistungen gemessen werden oder

untersucht wird, in welcher Weise der Mensch Gelerntes verarbeitet. Im psychometrischen

Ansatz werden auf der Basis von Tests psychische Merkmale gemessen. Es werden spezielle

statistische Verfahren wie Faktorenanalysen angewendet, um die Testergebnisse zu analysie-

ren. So wird dann eine Schlussfolgerung über die Struktur der Intelligenz abgeleitet. Der ent-

wicklungspsychologische Ansatz geht auf Piaget zurück. Dieser Ansatz beschäftigt sich mit der

kognitiven Entwicklung im Verlauf des Lebens.

Bei einer Studie sowohl unter Experten als auch unter der normalen Bevölkerung der USA zu

ihrer Vorstellung von Intelligenz ergaben sich in beiden Gruppen dieselben drei Faktoren: prak-

tisches Problemlösen, verbale Fähigkeiten und soziale Kompetenz (Sternberg, Conway, Ketron

& Bernstein, 1981). Die Autoren sahen hier bei den ersten beiden Faktoren eine Nähe zur Gf-

Gc-Theorie von Cattell und Horn (siehe Kapitel 3.3) wobei gf für das praktische Problemlösen

und gc für die verbalen Fähigkeiten stehen.

Flynn (2007) war der Ansicht, Intelligenz zu verstehen sei dasselbe, wie das Atom zu verstehen:

man müsse nicht nur verstehen, was die Komponenten zusammenhalte, sondern auch, was sie

voneinander trenne. Für ihn war der g-Faktor, die allgemeine Intelligenz, was die Komponen-

ten von Intelligenz zusammenhalte; was sie trenne, der von ihm untersuchte Flynn-Effekt. Die

allgemeine Intelligenz zeige sich, indem Menschen, die eine überdurchschnittliche kognitive

Fähigkeit haben, zumeist auch in anderen Bereichen besser seien als andere. Sie sei also die

Grundlage, auf der die überdurchschnittlichen Leistungen einer Person in vielen Bereichen

beruhten. Dies gelte beispielsweise auch für den Bereich der Musik. Wir nennen einen Men-

schen musikalisch, wenn er mehrere Instrumente spielen kann, er hat also ein „musical g“

(Flynn, 2007, S. 6). Diese g-Ladungen zeigten das Ausmaß, in dem ein Mensch mit hohem IQ in

einem Untertest die Leistung einer durchschnittlich begabten Person übertreffe. Je höher also

die g-Ladung, desto deutlicher spiegelt der Untertest die höheren Fähigkeiten der begabteren

Person wider.


Flynn (2007) nahm an, um Intelligenz zu verstehen, müsse man zunächst einmal feststellen,

welche Eigenschaften unsere Fähigkeit beeinflussen, ein Problem mit Hilfe des kognitiven In-

halts zu lösen. Für ihn sind das die Folgenden:

Geistige Scharfsinnigkeit: Die Fähigkeit, sofort Lösungsvorschläge für Probleme anbie-ten zu können, mit denen sich niemals zuvor auseinandergesetzt wurde, Probleme, die nicht durch mechanischen Einsatz einer gelernten Methode gelöst werden können und die häufig mehrere kreative alternative Lösungen abverlangen, aus denen gewählt werden muss.

Denkgewohnheiten: Die Weiterentwicklung der Wissenschaft brachte neue Denkge-wohnheiten von enormem Potential mit sich. Sie lösten das Logische und das Hypothe-tische von dem Konkreten ab und werden heutzutage genutzt, um eine ganze Reihe von neuen Problemen anzugehen.

Einstellungen: Sie legen die Basis für das Aneignen von Denkgewohnheiten. Es musste erst gelernt werden, die wissenschaftliche Systematik ernst zu nehmen, bevor der wis-senschaftliche Blickwinkel angenommen werden konnte, durch den heute auf die Welt geschaut wird.

Wissen und Information: Je mehr davon vorhanden ist, desto mehr Probleme können angegangen werden.

Verarbeitungsgeschwindigkeit, mit der man neue Daten aufnehmen kann. Müssen die Probleme innerhalb eines Zeitraums gelöst werden gilt: je schneller desto besser.

Gedächtnis, mit dem Wissen und Informationen abgerufen werden können.

Für Flynn trifft diese Definition die richtige Balance und ist weit genug, um kulturspezifische

Abweichungen und alle gegenwärtigen Intelligenztheorien zuzulassen. Seiner Meinung nach

konzipierten die Entwickler der bedeutendsten Intelligenztests ihre Tests, bewusst oder unbe-

wusst, nach dieser Definition.

Intelligenz steht demnach als Oberbegriff für die hierarchisch strukturierte Gesamtheit ver-

schiedener allgemeiner geistiger Fähigkeiten, die das Niveau und die Qualität der Denkprozes-

se einer Person bestimmen und mit deren Hilfe die für das Handeln wesentlichen Eigenschaf-

ten einer Problemsituation in ihren Zusammenhängen erkannt und die Situation gemäß dieser

Einsicht verändert werden kann (Guthke, 1999). Bei Intelligenz scheint es sich also im Wesent-

lichen um die Fähigkeiten zu handeln, die benötigt werden, um erworbenes Wissen anzuwen-

den, neuartige Probleme effektiv zu lösen und sich somit den Anforderungen der Umwelt an-

zupassen. Demnach gelingt es intelligenten Menschen besser, erfolgreiche Problemlösestrate-

gien zu entwickeln, verschiedene Strategien auf ihre Effektivität hin zu vergleichen und die

ausgewählten Strategien im Alltag erfolgreich umzusetzen (Petermann, 2006).

Da es auch zukünftig keine einheitliche Definition von Intelligenz geben wird, wird die zum

jeweiligen Zeitpunkt anerkannteste Definition von den jeweils aktuellen Intelligenztests ge-

prägt. Schon Spearman (1927), der Entwickler der General-Faktoren-Theorie (siehe Kapitel

3.1), hielt Intelligenz in Wahrheit zu einem Wort mit so vielen Bedeutungen, dass es letzten


Endes gar keine mehr habe. Viele Forscher sehen den fehlenden Konsens auch nicht als nega-

tiv an, da sie der Meinung sind, wissenschaftliche Forschungen beginnen selten mit einer

Übereinstimmung, auch wenn sie manchmal zu einer solchen führen (Neisser et al., 1996).

Zusammenfassend lässt sich immerhin festhalten, dass auch ohne eine einheitliche Definition

im Wesentlichen folgende Fähigkeiten Intelligenz ausmachen:

Schlussfolgerungen ziehen,

planen,

Probleme lösen,

abstrakt denken,

komplexe Ideen verstehen,

schnell verstehen und lernen sowie

aus Erfahrung lernen.

2.2 Das Intelligenzkonzept David Wechslers Da die Wechsler-Skalen Gegenstand dieser Untersuchung sind, soll an dieser Stelle ausführli-

cher auf die Intelligenzdefinition von David Wechsler eingegangen werden, welche die Basis

für die Entwicklung seiner Intelligenztestbatterien darstellt.

David Wechsler war in erster Linie Kliniker, der seine Tests mehr aus dem praktischen Bedürf-

nis heraus entwickelte, seine Patienten zu verstehen, als theoretischen Überlegungen nachzu-

gehen (Prifitera, 1994).

Er entwickelte seine Vorstellung von Intelligenz während seiner Arbeit als Chefpsychologe in

New Yorks Bellevue Psychiatric Hospital. Dabei definierte Wechsler (1944) Intelligenz wie folgt:

“Intelligence is the aggregate or global capacity of the individual to act purposefully, to think

rationally and to deal effectively with his environment“ (S. 3). Damit versuchte er zu vermei-

den, eine Fähigkeit, wie angesehen sie auch immer sei (z. B. abstraktes Schlussfolgern), als

entscheidend oder übermäßig wichtig hervorzuheben und implizierte, dass jeder Untertest

eines Intelligenztests austauschbar sei (Flanagan & Kaufman, 2004). Diese Definition von Intel-

ligenz, von der er bis zuletzt nicht abwich, stellte die Basis dar, auf der er seine Intelligenztest-

verfahren entwickelte (Edwards, 1994).

Nach Wechsler (1939a) stellt die Intelligenz also ein globales Konstrukt dar, da sie das Verhal-

ten eines Individuums als Ganzes bestimmt. Für ihn konnte allgemeine Intelligenz nicht gleich-

gesetzt werden mit intellektueller Fähigkeit, wie weit diese auch immer definiert sei, sondern

musste als eine Manifestation der Persönlichkeit als Ganzes angesehen werden (Wechsler,

1950).


Andererseits war er der Ansicht, die Intelligenz könne als spezifisch dargestellt werden, da sie

aus Elementen oder Fähigkeiten zusammengesetzt sei, die, obwohl nicht völlig unabhängig

voneinander, qualitativ unterscheidbar seien (Wechsler, 1939a). Für Wechsler (1975) ist Intel-

ligenz kein einzelnes und einzigartiges Merkmal, sondern eine vielfältige Einheit, ein Komplex

diverser und vielfacher Komponenten. Testleistungen reflektierten seiner Meinung nach nur

einen Teil dessen, was Intelligenz beinhaltete. Der Versuch, Intelligenztestergebnisse als Ge-

samtfähigkeit zu würdigen, das heißt als die Fähigkeit, alle möglichen Situationen wirkungsvoll

zu bewältigen, war für Wechsler (1943) zum Scheitern verurteilt. Für ihn ermöglichen selbst

die seinerzeit besten Intelligenztests nur eine unvollständige Messung des intelligenten Verhal-

tens als Fähigkeit des Einzelnen. Dies zeigte sich seiner Meinung nach darin, dass sich Men-

schen mit gleichen Testergebnissen in Bezug auf ihr Gesamtfunktionieren hinsichtlich prakti-

scher Kriterien stark voneinander unterschieden.

Damalige Intelligenztests konnten nur einen Teil und nicht alle Fähigkeiten, die bei intelligen-

tem Verhalten eine Rolle spielen, effektiv messen. So vermied es Wechsler, Intelligenz in rein

kognitiven Begriffen zu definieren. Für ihn war der IQ-Wert nicht mit der Intelligenz gleichzu-

setzen (Wechsler, 1950). Seines Erachtens tragen weitere Eigenschaften zu intelligentem Ver-

halten bei, wie die Fähigkeit zu planen, Zielbewusstsein, Begeisterungsfähigkeit, Feldabhängig-

keit und -unabhängigkeit, Impulsivität, Ängstlichkeit und Ausdauer (Wechsler, 1939a). Diese

Eigenschaften könnten die Leistung bei einer Testung, aber auch die Leistungsfähigkeit im täg-

lichen Leben beeinflussen. Wechsler (1975) sah die Intelligenz demnach nicht nur als kognitive

Funktionsfähigkeit, sondern auch als die allgemeine Fähigkeit des Individuums, die Welt, in der

es lebt, zu verstehen und sich in ihr zurechtzufinden:

What we measure with tests is not what tests measure – not information, not spatial percep-tion, not reasoning ability. These are only a means to an end. What intelligence tests measure, what we hope they measure, is something much more important: the capacity of an individual to understand the world about him and his resourcefulness to cope with its challenges. (S. 139)

In der Praxis sollten daher bei der Testinterpretation außer der Intelligenzleistung selbst auch

einige dieser Eigenschaften berücksichtigt werden. Das Messen von Intelligenz gehe über das

Erheben eines Testwertes hinaus und es bedürfe des klinischen Fachwissens und Urteils, um

die vielen Faktoren zu berücksichtigen, die intelligentes Verhalten beeinflussen. Umgekehrt

könnten Menschen mit unterschiedlichen Leistungsniveaus ähnliche Testergebnisse erzielen.

Zu der Aufgabe, die Intelligenz eines Menschen zu beurteilen, gehörte für Wechsler notwendi-

gerweise mehr, als nur Werte eines Intelligenztestes zu erheben (Matarazzo, J. D., 1990). So

könnten zwei Menschen mit den gleichen Testwerten völlig unterschiedlich mit denselben

Umweltanforderungen zu Recht kommen, und zwar aus Gründen, die unabhängig von kogniti-

ven Fähigkeiten seien. Da Faktoren, die nicht von der Intelligenz abhängig seien, die Testleis-

tung beeinflussten, könne es nach Wechsler außerdem sein, dass Menschen mit unterschiedli-


chen kognitiven Fähigkeitsniveaus gleiche oder ähnliche Testergebnisse erzielten (Zhu, Weiss,

Prifitera & Coalson, 2004). Daher gehörte zum Messen von Intelligenz mehr als nur die Be-

trachtung der Intelligenztestergebnisse. Dieser Aspekt wurde von Wechsler (u. a. 1991, 2003b)

stets hervorgehoben.

Schon früh erkannte Wechsler (1940, 1944), dass sich andere nicht-kognitive und nicht-

intellektuelle Faktoren deutlich in den seinerzeit zur Verfügung stehenden Intelligenztests wi-

derspiegelten. Doch den Einfluss solcher Faktoren zu erkennen, war für ihn nur der erste

Schritt. Erforderlich war eine Methode sie zuverlässig zu bewerten. Während seiner Zeit bei

der Armee stellte er fest, dass Intelligenz nicht von der übrigen Persönlichkeit getrennt werden

kann. Für ihn standen Faktoren wie motorische Fertigkeiten, schulische Leistungen und Exeku-

tivfunktionen eng mit Intelligenztestleistungen in Beziehung, diese sollten jedoch idealerweise

mit Testverfahren erfasst werden, die speziell zur Beurteilung dieser Fragestellungen ent-

wickelt wurden (Zhu et al., 2004).

Oftmals wird intelligentes Verhalten als die Kapazität des Menschen angesehen, zu verstehen

und daraus Konsequenzen abzuleiten. So interpretierte Spearman die allgemeine Intelligenz

(den g-Faktor) als die Fähigkeit, zu urteilen, zu verstehen und handeln zu können. Wechsler

(1975), selbst ein Schüler Spearmans, sah dies jedoch als unvollständig an. Um ein Verhalten

als intelligent bezeichnen zu können, muss es für ihn nicht nur rational und zweckmäßig sein,

nicht nur begründet, sondern auch wertvoll und angesehen sein.

Kein Intelligenztest bietet die Möglichkeit, alle kognitiven Funktionsbereiche gleichzeitig auf

praktisch umsetzbare und bedeutsame Weise zu erfassen (Carroll, 1997b). Wechsler ent-

wickelte daher ein Verfahren, das diejenigen Bereiche abdecken sollte, die sich für ihn als

wichtige kognitive Funktionen erwiesen hatten. Für ihn kann Intelligenz am besten mit einer

großen Anzahl von Tests abgebildet werden (1974): „Intelligence can manifest itself in many

forms, and an intelligence scale, to be effective as well as fair, must utilize as many different

languages (tests) as possible“ (S. 5). Für seine Tests wählte er somit eine seiner Ansicht nach

ausreichende Anzahl von Untertests aus, um mit möglichst wenig Zeitaufwand klinisch relevan-

te Informationen über das kognitive Niveau der Person zu erhalten (Zhu et al., 2004).

2.3 Zusammenfassung Das Konstrukt Intelligenz gilt sowohl als meist diskutiertes als auch als meist umstrittenes

Merkmal im Bereich der Persönlichkeitspsychologie. Seit mehr als einem Jahrhundert versu-

chen diverse Intelligenzforscher erfolglos, eine allgemein gültige Intelligenzdefinition zu ent-

wickeln. Dabei spielen sowohl die Fähigkeit zu lernen, die Anpassung an die Umwelt, logisches

Denken, Problemlösung und exekutive Prozesse eine große Rolle. Die jeweils anerkannteste


Intelligenzdefinition hat Einfluss auf die Entwicklung der Intelligenztests dieser Zeit. Zu den

Koryphäen auf dem Bereich der Intelligenzforschung zählen Sternberg und Flynn ebenso wie

David Wechsler, der in diesem Kapitel gesondert betrachtet wurde. Dabei wird auf seine An-

sicht von Intelligenz eingegangen, die er als globale oder spezifische Fähigkeit definiert, zweck-

voll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinander

zu setzen. Zur Erfassung aller Aspekte menschlicher Intelligenz bedarf es für Wechsler mög-

lichst vieler verschiedener Untertests.

Kapitel 3 Intelligenztheorien und -modelle 18

3 Intelligenztheorien und -modelle

Gemeinsamkeiten finden, Frage 9: „Was haben Ellenbogen und Knie gemeinsam?“

Friederike, 11 Jahre: „Das ist da, wo man am meisten drauf fällt.“

Jedem Intelligenzmessinstrument liegt eine Theorie zu Grunde. Diese Theorie kann sowohl

offensichtlich als auch versteckt, sowohl formell und explizit als auch informell und implizit

sein (Sternberg, 2004). Auch die Wechsler-Skalen wurden mit unterschiedlichen Intelligenz-

modellen in Verbindung gebracht. Im Folgenden werden die hierarchischen Modelle vorge-

stellt, die einen expliziten oder impliziten Zusammenhang mit den Intelligenztests von Wech-

sler aufweisen. Es wird jedoch auch auf das nicht-hierarchische Modell von Thurstone einge-

gangen, das ebenfalls einen bedeutsamen Anteil an der Entwicklung der Wechsler-Skalen hat.

Für ausführlichere Betrachtungen sämtlicher Intelligenzmodelle wird auf weiterführende Lite-

ratur verwiesen (u. a. Carroll, 1993; Flanagan, Genshaft & Harrison, 1997, 2005; Holling et al.,

2004). Auf die Darstellung weiterer Modelle, die nicht mit psychometrischen Testverfahren

messbar gemacht werden können wie beispielsweise der Theorie der emotionalen Intelligenz,

die von Mayer und Salovey (1993) eingeführt und von Goleman (1995) populär gemacht wur-

de, wird an dieser Stelle ebenfalls mit dem Verweis auf Überblicksliteratur verzichtet (Gold-

stein & Beers, 2004; Sternberg, 2004; Wilhelm & Engle, 2005).

Seit der ersten Hälfte des vergangenen Jahrhunderts werden Faktorenanalysen zur Erfor-

schung der Struktur menschlicher Verhaltensweisen eingesetzt und kommen vor allem in der

Intelligenzforschung zum Einsatz, in der sie ihren Ursprung haben (Anastasi & Urbina, 1997;

Spearman, 1927). Mit der Entwicklung hierarchischer Intelligenztheorien geht die Entwicklung

der Wechsler-Skalen einher, denen aufgrund ihrer Struktur im Nachhinein stets das zu der

jeweiligen Zeit aktuelle hierarchische Modell zugeordnet wurde. Im Folgenden werden die

hierarchischen Intelligenztheorien vorgestellt, die mit den Wechsler-Tests in Verbindung ge-

bracht wurden.

3.1 Die General-Faktoren-Theorie von Spearman Der britische Forscher Spearman (1904) formulierte mit seiner Zwei-Generalfaktoren-Theorie

die erste explizite Modellvorstellung von Intelligenz. Sie gilt bis heute als die wohl einfluss-

reichste Theorie in der Geschichte der Intelligenzforschung (Sternberg, 2004). Für Spearman

muss das Verständnis für die Unterschiede menschlicher Fähigkeiten auf validen Variablen

basieren. Das Verständnis für kognitive Prinzipien sei Voraussetzung für die Untersuchung von

Intelligenzunterschieden (Deary & Smith, 2004). Er stellte mit Hilfe der von ihm entwickelten


Faktorenanalyse fest, dass verschiedene kognitive Leistungen, die sich bei unterschiedlichen

Erhebungsverfahren zeigen, eng miteinander korrelieren, sie also auf eine gemeinsame Quelle

zurückgeführt werden können (Spearman, 1927). Darauf begründete er die Annahme einer

allgemeinen Intelligenz, der ein allgemeiner, von ihm als general factor (kurz: g) bezeichneter

Faktor, zugrunde liege. Die nicht durch g aufgeklärte Restvarianz bezeichnete Spearman als

spezifische Faktoren (kurz: s). Somit geht die Testleistung nach Spearman immer auf zwei Fak-

toren zurück: die allgemeine Intelligenz (g) und die spezifische Fähigkeit (s), die für die Lösung

der einzelnen Aufgaben erforderlich ist (siehe Abbildung 3.1).

Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927) Anmerkung: Quadrate repräsentieren manifeste Messinstrumente (Tests).

Später modifizierte Spearman die Zwei-Faktoren-Theorie, da er eine Gruppe von Faktoren

vermutete, die zwischen dem universalen g-Faktor und den strikt spezifischen s-Faktoren liege

(Anastasi & Urbina, 1997). Diese als Gruppenfaktoren oder spezielle Gruppenfaktoren be-

zeichneten Fähigkeiten beinhalteten beispielsweise rechnerische, mechanische und sprachli-

che Fähigkeiten.

In seinem viel zitierten Buch The abilities of man: Their nature and measurement vereinte

Spearman die empirischen Ergebnisse seiner bisherigen Studien, legte die Konditionen dar,

unter denen jede Fähigkeit in die zwei oben genannten Faktoren g und s unterteilt werden

kann, und beschrieb Art, Herkunft, Entwicklung und Beziehungen der allgemeinen und der

spezifischen Faktoren (Spearman, 1927). Nach Horn und McArdle (2007) hatte dieses Buch,

mehr noch als seine bisherigen Studien, großen Einfluss auf die Untersuchung menschlicher

Intelligenz.

Betrachtet man die Ideen Spearmans aus dem heutigen Blickwinkel, scheinen seine Vorstel-

lungen von Intelligenz in die heutigen Intelligenzstrukturmodelle eingebettet zu sein. Seine

Vorstellung vom g-Faktor wird oftmals mit der heutigen Vorstellung von gf (siehe Kapitel 3.3.1)

in Verbindung gebracht. Für Horn und McArdle (2007) entspricht Spearmans Vorstellung da-

von, was nicht durch g aufgeklärt wird, dem gc-Faktor (siehe Kapitel 3.3.2) moderner Theorien.


3.1.1 Bewertung

Auch wenn der große Einfluss der Zwei-Faktoren-Theorie auf aktuelle Modelle unbestritten ist,

bietet sie auch Anlass zur Kritik (Ausführliches dazu siehe Kapitel 3.6). So vermuten einige For-

scher wie Gardner oder Sternberg, der g-Faktor in den Intelligenztests sei nur deshalb zu fin-

den, weil diese Tests einzig akademische und relativ künstliche Aufgaben beinhalteten (Stern-

berg, 2004). Für sie werde der g-Faktor geschwächt oder verschwinde sogar gänzlich, wenn

Intelligenztests eine größere Anzahl von Aufgabenfeldern abdecken würden. Betrachte man

die Studien, die einen g-Faktor nachzuweisen scheinen, in Relation zu der Gesamtanzahl der

Studien zur Untersuchung der Intelligenzstruktur, unterstützten sie die Zwei-Faktoren-Theorie

nicht zwangsläufig (Horn & McArdle, 2007; Sternberg, 2000a). Die meisten dieser Studien ver-

wendeten nur eine eingeschränkte Auswahl an Aufgabentypen, Testsituationen und sogar

Testteilnehmern (Sternberg, 2004).

3.1.2 Verbindung zu den Wechsler-Skalen

Ein Intelligenztest, der auf Spearmans Modell begründet wird, muss das übergeordnete Ziel

haben, die allgemeine Intelligenz eines Individuums zu erfassen. Aufgrund der Möglichkeit zur

Ermittlung eines Gesamt-IQ können die Wechsler-Skalen als Beispiel für Testverfahren ange-

führt werden, die einen g-Faktor im Sinne Spearmans abbilden. Auch Wechsler bestätigte den

Einfluss seines Lehrers Spearman auf die Entwicklung seiner Skalen. So wurden die WISC-

Versionen, zumindest bis zur aktuellen WISC-IV, im Allgemeinen dessen Theorie zugeordnet

(siehe z. B. Daseking et al., 2006).

3.2 Das Primärfaktorenmodell von Thurstone Den ersten systematischen Versuch, den Fokus auf Varianzquellen in einer Korrelationsmatrix

kognitiver Fähigkeiten zu legen, die unabhängig von g sind, machte Louis L. Thurstone (1938).

Er entwickelte die Methode der multiplen Faktorenanalyse, um unabhängige Faktoren zu be-

stimmen, die in einer Korrelationsmatrix präsentiert sind. Die Auswahl der Faktoren wurde

durch das Kriterium der einfachen Struktur geleitet, das eine Faktorenstruktur anordnet, bei

der Tests auf einem einzigen Faktor sehr hoch laden und auf den anderen Faktoren eine La-

dung gegen Null aufweisen. Daraus entstanden Zerlegungen der Varianzen eines Tests in ver-

schiedene unabhängige Faktoren. Auf diese Weise kann die Testleistung mit Hilfe eines Profils

von Stärken und Schwächen für jede der Fähigkeiten beschrieben werden. Für Thurstones Stu-

dien wurden 56 verschiedene Tests kognitiver Fähigkeiten 240 Personen vorgegeben. Die er-

haltenen Testwerte wurden mit Hilfe der von Spearman entwickelten Faktorenanalyse unter-

sucht. Es ergaben sich 13 Faktoren, denen Thurstone nach Untersuchung der Faktorladungen

sieben Faktoren mit psychologisch relevanten Interpretationen zuordnete. Diese nebeneinan-


der stehenden Primärfaktoren, die seine Theorie (Theory of primary mental abilities, Thur-

stone, 1938) begründeten, sind

verbales Verständnis oder verbale Fähigkeiten,

Wortflüssigkeit,

schlussfolgerndes Denken, Erkennen von Regelhaftigkeiten,

räumliches Vorstellungsvermögen,

Merkfähigkeit, Kurzzeitgedächtnis,

Rechenfähigkeit und

Wahrnehmungsgeschwindigkeit.

Thurstone und seine Frau (1941) führten drei Jahre nach dieser ersten Studie eine weitere

Untersuchung an 710 Kindern durch, in der sie nach zunächst zehn Faktoren schließlich wie-

derum die selben sieben Faktoren der ersten Untersuchung herausfilterten. Es gab jedoch

einen wichtigen Unterschied zwischen beiden Studien: In der zweiten Studie zeigten sich signi-

fikante Interkorrelationen zwischen den Primärfaktoren, beispielsweise zwischen dem Faktor

Rechenfähigkeit und den beiden verbalen Faktoren verbales Verständnis und Wortflüssigkeit.

Daraufhin untersuchten sie per Faktorenanalyse die Korrelationen zwischen den Primärfakto-

ren und stellten fest, dass die Korrelationen als einzelner allgemeiner Faktor ausgewiesen

werden können, den sie den allgemeinen Faktor zweiter Ordnung nannten. Jedoch sei dieser

Faktor nur für Kinder und nicht zwangsläufig auch für Erwachsene charakteristisch (Carroll,

1994).

Die Theorie der Primärfaktoren stellte zunächst einen Widerspruch zu Spearmans g-Faktor-

Modell dar. Dennoch funktionieren nach Brody (2000) Thurstones Methoden nur, wenn kein g-

Faktor in der Korrelationsmatrix zu finden ist. Sind die meisten Kovarianzen einer Fähigkeiten-

Matrix dem g-Faktor zuzuschreiben, wäre es unmöglich, einfache Strukturen für die voneinan-

der unabhängigen Faktoren zu erhalten. Spearmans Methode, die g-Ladungen verschiedener

Tests zu bestimmen, wäre nicht erfolgreich, wenn große Teile der Kovarianz einer Matrix

Gruppenfaktoren zuzuordnen wären, die unabhängig von g sind.

3.2.1 Bewertung

Thurstone galt als einer der einflussreichsten Kritiker Spearmans. Er gab an, den allgemeinen

Faktor in seinen Daten nicht eindeutig gefunden zu haben, ohne vorher ausgeschlossen zu

haben, ihn zu finden. Für Carroll (1994) waren Spearmans Methoden darauf ausgelegt, keinen

g-Faktor zu finden. Dies sei zum einen einer stark selektiven Stichprobe und zum anderen sei-

nen eingeschränkten faktoriellen Methoden zu verdanken, die keine obliquen, sondern nur

orthogonale Rotationen beinhalteten, die nicht-korrelierende Faktoren voraussetzen. Sowohl


Spearman (1939) als auch Eysenck (1939) analysierten Thurstones Daten mit unterschiedlichen

Methoden und entdeckten einen g-Faktor und andere Faktoren, die annähernd mit den Pri-

märfaktoren von Thurstone übereinstimmten. In den Jahrzehnten nach ihrer Entwicklung ge-

wann die Primärfaktoren-Theorie an Einfluss, vor allem aufgrund der zahlreichen Tests, die

Thurstone und seine Frau auf Basis der Theorie entwickelten. Obwohl auch in diesen Testbat-

terien ein allgemeiner Intelligenzfaktor als Summe aller erzielten Werte geschätzt werden

konnte, lag ihr Schwerpunkt auf der Untersuchung folgender grundlegender Fähigkeiten (Car-

roll, 1994):

Verbale Fähigkeiten,

Wahrnehmungsgeschwindigkeit,

Rechenfähigkeit,

räumliches Vorstellungsvermögen und

schlussfolgerndes Denken.

Bis zu seinem Tod im Jahre 1955 untersuchte Thurstone fortwährend die grundlegenden Fä-

higkeiten des Menschen und stieß dabei stetig auf zusätzliche Faktoren bzw. Variationen sei-

ner sieben Faktoren.


Obwohl das Primärfaktorenmodell heutzutage keine häufige Verwendung findet, begründet es

die Basis für viele aktuelle Modelle wie der Theorie der multiplen Intelligenzen von Gardner,

dem Three-Stratum-Modell von Carroll sowie der Gf-Gc-Theorie von Cattell und Horn und somit

auch dem CHC-Modell, das als theoretischer Hintergrund in die Entwicklung der WISC-IV ein-

floss. Damit hatte es großen Einfluss auf Forschung und Theorie hinsichtlich kognitiver Fähig-

keiten (Horn & McArdle, 2007). Als weiterer wichtiger Beitrag Thurstones gilt die Etablierung

der Faktorenanalyse zur Untersuchung intellektueller Fähigkeiten (Sternberg, 2004).

3.3 Die Gf-Gc-Theorie von Cattell und Horn Die Gf-Gc-Theorie nach Cattell (1971, 1987), einem Schüler Spearmans, gilt neben den Theorien

von Spearman und Thurstone als einflussreichste Intelligenztheorie (Sternberg, 2004). Die Wei-

terentwicklung der durch Cattell in den 1940er Jahren ins Leben gerufenen Theorie erfolgte in

den 1960er Jahren durch Cattell und Horn (1966, 1967). Sie gehen anders als Spearman nicht

von einem übergeordneten Intelligenzfaktor (der allgemeinen Intelligenz oder dem g-Faktor)

aus, sondern sehen die Intelligenz aufgeteilt in zwei voneinander unabhängige Faktoren: die

fluide und die kristalline Intelligenz.


3.3.1 Fluide Intelligenz (gf)

Unter fluider Intelligenz (gf) wird die Fähigkeit verstanden, sich neuen Situationen anzupassen

und neuartige Probleme zu lösen, ohne dabei auf erlerntes Wissen zurückgreifen zu müssen

(Daseking et al., 2006). Darunter werden Fähigkeiten wie schlussfolgerndes, problemlösendes

Denken, räumliches Vorstellungsvermögen, Informationsverarbeitungsgeschwindigkeit, die

Verarbeitung komplexer visueller Reize, abstraktes Denken oder mentale Rotation zusammen-

gefasst.

Jensen (2002) beschreibt gf als die Fähigkeit, auf die zurückgegriffen werde, „wenn man nicht

weiß, was zu tun ist“ (S. 47, Übers. v. Verf.). Sie fließe in neues Lernen und das Lösen neuer

Probleme ein, für die bisher keine spezifischen Algorithmen, Strategien oder Fertigkeiten vor-

handen seien. Fluide Intelligenz wurde dabei als weitgehend von Geburt an vorhanden und

von gesellschaftlichen und kulturellen Einflüssen unabhängig angesehen (Holling et al., 2004).

Dieser Annahme widerspricht jedoch Sternberg (2004). Studien hätten zum einen gezeigt, dass

Tests, die fluide Fähigkeiten messen, häufiger größere Unterschiede zwischen kulturellen

Gruppen zeigten als Tests zur Messung der kristallinen Intelligenz; zum anderen seien diese

Tests auch anfälliger für den Flynn-Effekt (siehe Kapitel 5.2.2). Wenn aber die fluide Intelligenz

im Laufe der Zeit mehr ansteige als die kristalline Intelligenz, kann gf laut Sternberg nicht als

von kulturellen und schulischen Einflüssen unabhängig gesehen werden. Auch Studien von Ceci

(1991; Ceci & Williams, 1997) wiesen einen großen Einfluss der Schule auf jegliche Art von

Testwerten auf.

Die fluide Intelligenz wird mit Hilfe von Tests wie Zahlenfolgen, Analogien und Matrizen erho-

ben (Sternberg, 2004). Außerdem geben sprachfreie Testverfahren wie der SON 2½ - 7 (Telle-

gen, Laros & Petermann, 2007) und der BIVA (Schaarschmidt, Ricken, Kieschke & Preuß, 2004)

oder kulturfreie Testverfahren wie der CFT von Cattell (neueste deutsche Revision CFT 20-R,

Weiß, 2006) und die Raven-Matrizen CPM, SPM und APM (Raven, Raven & Court, 1998) an, die

fluide Intelligenz zu erfassen.

3.3.2 Kristalline Intelligenz (gc)

Die kristalline, allgemeine Intelligenz (gc) repräsentiert kognitive Fertigkeiten, die auf Lerner-

fahrungen und Faktenwissen beruhen und somit bei der Verarbeitung vertrauter Informatio-

nen und der Anwendung von Wissen relevant sind. Sie ist von hoher praktischer Bedeutung für

den Erfolg eines Menschen in Schule, Ausbildung und Beruf (Jensen, 2002).

In einer homogenen Population unter Berücksichtigung des Bildungs- und kulturellen Hinter-

grundes korrelieren gf und gc durchweg hoch miteinander (Jensen, 2002). Nach Cattell (1987)

stellt die fluide Intelligenz die Voraussetzung für die kristalline Intelligenz dar. Eine empirische


Absicherung dafür konnte allerdings nicht gefunden werden. So widerspricht Sternberg (2004)

dieser Annahme, da diese nur Gültigkeit hätte, wenn gf gänzlich unabhängig von äußeren Ein-

flüssen sei, was seinen oben genannten Studien widerspreche.

Testaufgaben, die gc abbilden, sind Wortschatz-Tests sowie Tests zum Leseverständnis und

Allgemeinen Wissen (Sternberg, 2004). Sie wird mit sprachlichen Tests wie dem MWT (Lehrl,

2005) oder den Zusatzmodulen Zahlenfolgen und Wortschatztest des CFT 20 (Weiß, 2006) er-

fasst.

3.3.3 Weiterentwicklung der Gf-Gc-Theorie

Horn erweiterte Cattells ursprüngliche Gf-Gc-Theorie um die Faktoren visuelle Wahrnehmung

(gv), Kurzzeitgedächtnis (gsm), Langzeitabruf (glr), Bearbeitungsgeschwindigkeit (gs), auditive

Verarbeitungsprozesse (ga), mengenbezogene Fähigkeiten (gq) sowie Schnelligkeit bei der

Reaktion und Entscheidungsfindung (gt) (Horn, 1985, 1994). Als relativ neu entdeckte Fähigkeit

identifizierte Horn schließlich den Faktor Lese- und Rechtschreibfähigkeiten (grw).

Unterhalb der obengenannten Faktoren liegen auf der niedrigsten Hierarchieebene circa 40

Faktoren erster Ordnung (siehe Abbildung 3.2). Diese Faktoren entsprechen häufig einzelnen

Untertests (Horn, 1994).

Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005) Anmerkungen: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Messinstrumente (Tests). F steht für die spezifischen kognitiven Fähigkeiten. Zweiseitige Pfeile geben latente Faktorkorrelationen an.

So wurde aus der Gf-Gc-Theorie, bei der Cattell in den Anfängen von zwei Faktoren und in der

Weiterentwicklung mit Horn in den 1960er Jahren von fünf Faktoren ausging, am Ende ein

Modell, das acht oder mehr Faktoren beinhaltet (Bickley, Keith & Wolfle, 1995). Horn und Noll

(1994) bezeichnen sie aus diesem Grund nicht mehr als Theorie der zwei, sondern der vielen

Intelligenzen. Dennoch bleiben fluide und kristalline Intelligenz weiterhin die Kernfaktoren, die

die kognitiven Fähigkeiten auf Grundlage genetischer Faktoren auf der einen und bildungs-

kultureller Möglichkeiten auf der anderen Seite repräsentieren (Horn, 1991).

…etc. T1 T2 T3 T4 T5 T6 T7 T8 T9 T10 T11 T12

F4 F3 F2 F1 …etc.

g1 g2 g3 …etc.


Die erstmalige Einbettung einer Intelligenztheorie in die Entwicklung von Intelligenztests be-

gann 1985 mit einem Treffen von Horn, Carroll und Woodcock (McGrew, 2005). Auf der

Grundlage von Horns Erkenntnissen aus der Gf-Gc-Theorie und Carrolls Faktorenanalyse der

Woodcock-Johnson Psycho-Educational Battery (WJ) entschied Woodcock, das Gf-Gc-Modell

als Basis für die Revision des Woodcock-Johnson (WJ-R) zu verwenden (Woodcock, 1990). Die

WJ-R wurde so die erste Testbatterie, die einige Faktoren der Gf-Gc-Theorie abbildet. Horn

beschrieb seine Erweiterung der Gf-Gc-Theorie erstmals 1991 im Technischen Manual des WJ-

R. Es war die erste aktuelle und verständliche Beschreibung der Theorie in einer für den Dia-

gnostiker zugänglichen Publikation. Damit begann die Umsetzung psychometrischer Intelli-

genztheorien in die Praxis (McGrew, 2005).

3.3.4 Bewertung

In den 1980er und frühen 1990er Jahren hielten viele Forscher das Gf-Gc-Modell für die am

besten empirisch-fundierte psychometrische Intelligenztheorie (McGrew, 2005). So stellte

Carroll (1993) nach seiner umfassenden Faktorenanalyse (siehe 3.4) fest: „[The model] appears

to offer the most well-founded and reasonable approach to an acceptable theory of the struc-

ture of cognitive abilities“ (S. 62).

Auch Cole und Randall (2003) kamen bei einer Untersuchung der Modelle von Spearman, Car-

roll, Horn und Cattell an Daten aus der KAIT und dem WJ-R zu dem Schluss, das Modell von

Horn und Cattell weise nicht nur die signifikant beste Passung zur Struktur der Testverfahren

auf, sondern sei als einziges der drei Modelle geeignet, die Struktur der Tests ausreichend zu

erklären.


Bis zur Mitte der 1980er Jahre spielte die Theorie kaum eine Rolle bei der Entwicklung von

Intelligenztests (Alfonso, Flanagan & Radwan, 2005). Bis dato wurden Intelligenztestbatterien

erst im Nachhinein den jeweils aktuellen Theorien zugeordnet. So entdeckte Matarazzo (1972,

zitiert nach Holling et al., 2004) Überlappungen des Verbalteils2 der Wechsler-Skalen mit der

kristallinen und des Handlungsteils mit der fluiden Intelligenz. Manche sprechen bei Wechslers

Skalen sogar von der Theorie der verbalen und handlungsbezogenen Komponenten der Intelli-

genz (Carroll, 2005, S. 71). Damit wurde die WISC-III als erste Wechsler-Version der Gf-Gc Theo-

rie zugeordnet (z. B. Hale, Fiorello, Kayanagh, Hoeppner & Gaither, 2001). Woodcock (1994)

verbindet den Index Sprachverständnis des HAWIK-III mit dem Gf-Gc-Faktor kristalline Intelli-

genz (gc) und den Index Wahrnehmungsorganisation mit dem Gf-Gc-Faktor Verarbeitung visuel-

2 Auch wenn es sich um die amerikanischen Original-Gesamtwerte, -Indizes und -Untertests handelt, werden in Folgenden zum besseren Verständnis die deutschen Bezeichnungen verwendet.


ler Informationen (gv). Außerdem versteht er den Zahlen-Symbol-Test als Untertest zur Mes-

sung des Faktors Informationsverarbeitungsgeschwindigkeit (gs) und verbindet das Rechneri-

sche Denken mit dem Faktor mengenbezogene Fähigkeiten (gq), den Wortschatz-Test mit dem

Faktor Verständnis-Wissen (gc) und das Zahlennachsprechen mit dem Faktor Kurzzeitgedächt-

nis (gsm). Insgesamt bildet der HAWIK-III jedoch ebenso wie andere Intelligenztestbatterien nur

wenige der über 40 Fähigkeiten erster Ordnung ab (Horn, 1994). Mit der so genannten „Gf Gc

crossbattery assessment“ untersuchten McGrew und Flanagan die Wechsler-Tests auf ihre

theoretische Passung an die Gf-Gc-Theorie und schrieben ihnen dennoch eine valide theoreti-

sche Grundlage zu (Flanagan, McGrew & Ortiz, 2000; McGrew & Flanagan, 1998).

3.4 Die Three-Stratum-Theorie von Carroll Den umfassendsten Überblick im Bezug auf die Struktur kognitiver Fähigkeiten bietet die fak-

torenanalytische Studie von Carroll (1993). Er analysierte 461 Datensätze aus Originalstudien

und bot damit einen Überblick über siebzig Jahre Forschung. Seine Studie wurde von der Frage

beeinflusst, wie man die Theorien von Spearman (es gibt einen g-Faktor) und Cattell und Horn

(es gibt keinen g-Faktor, sondern – mit der fluiden und kristallinen Intelligenz – zwei gleichwer-

tige Faktoren) kombinieren kann. Dabei kam er zu dem Schluss, dass die Intelligenzstruktur am

besten in Form eines Three-Stratum-Modells beschrieben werden könne (Carroll, 1992, siehe

Abbildung 3.3), einem Modell mit drei Hierarchieebenen, die sich in Breite und Allgemeingül-

tigkeit unterscheiden. Damit schließt er sich einer Reihe amerikanischer Wissenschaftler an,

die bereits Mitte des vergangenen Jahrhunderts von einer ähnlichen Struktur der Intelligenz

ausgingen (Burt, 1949; Humphreys, 1962; Vernon, 1969, mehr dazu siehe Anastasi & Urbina,

1997). Die allgemeine Intelligenz wird, vergleichbar mit Spearmans g-Faktor, durch das Stra-

tum III repräsentiert. Sie wird durch komplexe kognitive Prozesse höherer Ordnung bestimmt,

die eine hohe Generalität für den gesamten Bereich kognitiver Fähigkeiten aufweisen (Holling

et al., 2004). Dem darunterliegenden Stratum II werden acht Intelligenzfähigkeiten mittlerer

Generalität (z. B. fluide und kristalline Intelligenz oder visuelle und auditive Wahrnehmung)

zugeordnet, die stark signifikante Ladungen auf dem g-Faktor aufweisen (Carroll, 1993). Diese

acht Fähigkeiten des Stratum II ähneln den Faktoren aus Horns expandiertem Gf-Gc-Modell

(Horn, 1985, siehe Kapitel 3.3). Carroll (1994) wiederum vergleicht sie mit den Fähigkeiten, die

Thurstone in seiner Theorie mehrerer gemeinsamer Fähigkeiten (siehe Kapitel 3.2) als grundle-

gende Fähigkeiten betrachtet. Sie repräsentierten für Carroll (1993) „basic constitutional and

long-standing characteristics of individuals that can govern or influence a great variety of be-

haviors in a given domain“ (S. 634). Die Fähigkeiten des Stratum II beeinflussen wiederum 69

spezifische Fähigkeiten (Stratum I), wobei eine Fähigkeit durchaus von mehreren Stratum-II-


Faktoren beeinflusst sein könne. Die Zuordnung erfolgt danach, welche Fähigkeit der mittleren

Ebene die spezifische Fähigkeit am stärksten bestimmt (Holling et al., 2004).

Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll, 1992; 1993) Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Mess-instrumente (Tests).

Bickley, Keith und Wolfle (1995) weisen darauf hin, dass das Stratum, zu dem ein Faktor ge-

hört, nur eine Reflektion seines Generalisierungsgrades und nicht eine Indikation für die Domi-

nanz über einen niedrigeren Stratum-Faktor ist. Auf der Basis konfirmatorischer Faktorenana-

lysen unterstützten sie die Three-Stratum-Theorie und kamen zusätzlich zu dem Schluss, dass

zwischen Stratum II und III möglicherweise weitere Faktoren liegen. Auch Carroll (1993) ver-

mutete weitere Faktoren zwischen den drei Ebenen.

3.4.1 Bewertung

Viele Forscher sprechen bei Carrolls Arbeit von einem Durchbruch im Bereich der Intelligenz-

forschung und fordern, seine Studie als Grundlage bei der Entwicklung von Intelligenztests zu

berücksichtigen (McGrew, 1997, 2005). McGrew (1997) bewertet Carrolls Arbeit als wichtige

Brücke zwischen theoretischer und empirischer Forschung bei der Entdeckung von Intelligenz-

faktoren sowie der Entwicklung und Interpretation psychoedukativer Testbatterien. Carroll

präsentiere erstmalig eine empirisch basierte Klassifikation der Elemente kognitiver Fähigkei-

ten in einem einzelnen, verständlichen, organisierten und systematischen Rahmen, der es

leichter möglich mache, unterschiedliche Tests innerhalb einer und zwischen mehreren Test-

batterien zu vergleichen (McGrew, 2005).


Stratum III

Stratum II

Stratum I 69 spezifische Fähigkeiten

gsgf gv glr gc ga gq gs

g


Carrolls Ansichten wurden jedoch auch vielfach kritisiert (u. a. Kranzler & Jensen, 1991, 1993;

Sternberg, 2004). Für Sternberg (2004) wird Carrolls Arbeit angesichts ihrer Komplexität weni-

ger Einfluss auf die Messung von Intelligenz haben als einfachere Theorien wie die Gf-Gc-

Theorie. Kognitive Theoretiker wie Sternberg oder Systemtheoretiker wie Gardner bestreiten,

dass die konventionellen psychometrischen Testverfahren, die Carroll für seine Metaanalyse

herangezogen hat, sämtliche Intelligenzbereiche abdecken, die von einer Intelligenztheorie

abzudecken sind (Sternberg, 2004). So beinhalte seine Analyse kaum Studien, die sein Modell

im Hinblick auf psychoneurologische Grundlagen kognitiver Fähigkeiten (Carroll, 1993, S. 660),

den Einfluss von Schule (Carroll, 1993, S. 668) und Trainings- und Interventionseffekten (Car-

roll, 1993, S. 669) unterstützten. Carroll selbst (1993) gibt zu, bei der Auswahl seiner Studien

wenig Aufmerksamkeit auf die Bedeutung, Validität und Nützlichkeit der von ihm identifizier-

ten Fähigkeitsfaktoren gelegt zu haben. Für ihn waren Validitätsstudien eine überdimensionale

und unsichere Literaturansammlung, die vom Hauptziel der Untersuchung nur unnötig ablenk-

te. Anders als Cole und Randall (2003, siehe oben) kamen Flanagan und McGrew (1998) bei

einer Untersuchung zweier gängiger Intelligenztests (WJ-R und KAIT) zu dem Schluss, eine dem

Three-Stratum-Modell ähnliche Grundlage erkläre die Struktur der Tests am besten.

3.4.2 Unterschiede zur Gf-Gc-Theorie

Es bestehen vier wesentliche Unterschiede zwischen der Three-Stratum- und der Gf-Gc-Theorie

(Alfonso et al., 2005):

Die Three-Stratum-Theorie beinhaltet einen g-Faktor,

die Gf-Gc-Theorie beinhaltet quantitatives Wissen und quantitatives Schlussfolgern als sepa-

rate breite Fähigkeiten, während Carroll quantitatives Schlussfolgern als engere Fähigkeiten

unterhalb von gf sieht,

die Gf-Gc-Theorie weist einen breiten Lese- und Rechtschreib-Faktor (grw) auf, während Car-

roll diesen Faktor als engen Faktor unterhalb von gc sieht und

Carroll sieht das Kurzzeitgedächtnis zusammen mit anderen Facetten der Merkfähigkeit

unter dem Faktor gy, während Cattell und Horn das Kurzzeitgedächtnis (gsm) von anderen

Merkfähigkeiten trennen, die sie im Faktor Langzeitabruf (glr) zusammenfassen.

Die Gf-Gc-Theorie und die Three-Stratum-Theorie nehmen einen wichtigen Platz unter den

Intelligenzmodellen ein. Zur Erklärung der Intelligenzstruktur verbinden sie die Positionen von

Spearman und Thurstone und enthalten vielerlei empirische Hinweise zur Unterstützung einer

hierarchischen Intelligenzstruktur (Davidson & Downing, 2000). Außerdem beschreiben und

erklären sie die Testleistung über Zeit und verschiedene Probleme hinweg, sagen diese vorher

und leisten somit einen großen Beitrag zur Erforschung menschlicher Intelligenz.



Auch die Three-Stratum-Theorie wurde mit den Wechsler-Skalen in Verbindung gebracht

(Watkins, Wilson, Kotz, Carbone & Babula, 2006). Nach den Autoren des WISC-IV-Manuals sei

die Einführung zusätzlicher Untertests zur Erfassung des fluiden Denkens dem Einfluss der Gf-

Gc- und der Three-Stratum-Theorie geschuldet (Wechsler, 2003b). Carroll (1993) fand in seinen

faktorenanalytischen Studien heraus, dass der Verbal-IQ der Wechsler-Skalen als ein ungefäh-

res Maß für die kristalline Intelligenz angesehen werden kann. Den Handlungs-IQ verstand er

als ein Maß mit eingeschränkter Validität für die fluide Intelligenz bzw. als ein ungefähres Maß

für den ebenfalls auf Stratum II liegenden Faktor visuelle Wahrnehmung.

3.5 Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten Die Cattell-Horn-Carroll Theorie der kognitiven Fähigkeiten (kurz: CHC-Theorie) integriert die

Gf-Gc-Theorie von Cattell und Horn (Horn & Blanksen, 2005; Horn & Noll, 1997) und die Three-

Statum-Theorie von Carroll (1993, 2005).

Der Anstoß für die Entwicklung der CHC-Theorie begründete sich in dem Problem, dass die Gf-

Gc-Theorie angesichts ihres Namens oftmals fälschlicherweise für ein Zwei-Faktoren-Modell

gehalten wurde. Dieses Kommunikationsproblem, das seit der Publikation des WJ-R im Jahre

1989 bestand, sollte ausgeräumt werden. So entstand 1999 nach einem Treffen der wichtigs-

ten Forscher auf dem Gebiet der Intelligenztheorien (u.a. Horn, Carroll und Woodcock) der

Konsens, einer neuen Theorie den Namen Cattell-Horn-Carroll Theory of Cognitive Abilities zu

geben (McGrew, 2005).

Die Struktur des CHC-Modells unterscheidet sich nicht substantiell von der Three-Stratum-

Theorie (Cole & Randall, 2003, siehe Abbildung 3.3). Anders als bei bisherigen Modellentwick-

lungen stellten für das CHC-Modell nicht nur Faktorenanalysen die Grundlage dar, sondern

auch Studien aus dem Bereich der Entwicklung, Erfolgsprädiktoren, Genetik und Neurokogniti-

on (McGrew, 2005).

Entscheidend für die Weiterentwicklung der Gf-Gc-Theorie und des Three-Stratum-Modells zur

CHC-Theorie war das 1997 erschienene Buch Contemporary Intellectual Assessment von Flana-

gan, Genshaft und Harrison. Es war die erste Veröffentlichung über Intelligenzdiagnostik, in der

die Brücke zwischen der Gf-Gc-Theorie, Carrolls Modell sowie praktischen Untersuchungen und

Interpretationen geschlagen wurde. Außerdem beschrieben Flanagan und McGrew (1997)

darin erstmals die formellen Voraussetzungen und Prinzipien einer Gf-Gc cross-battery assess-

ment. Dabei handelt es sich um die Zusammenstellung von Untertests aus verschiedenen Test-

batterien, durch die die Erfassung sämtlicher nach der Gf-Gc-Theorie vorhandener Intelligenz-

faktoren möglich gemacht werden soll. Damit sollte die systematische und empirische Basis für


die Zusammenstellung einer neuen Testbatterie aus den verschiedenen Intelligenztests ge-

währleistet werden. Daniel (1997) bezeichnete die cross-battery assessment als faszinierende

und kreative Arbeit, die dazu beitrage, kognitive Testverfahren in einen multifaktoriellen Mo-

dellrahmen zu integrieren und in diesem Rahmen zu interpretieren. Die erste Beschreibung

und formelle Operationalisierung einer Untersuchung mit Hilfe der „cross-battery assess-

ment“, die für alle großen Intelligenztestbatterien angewendet werden kann, erschien 1998 in

der Veröffentlichung Intelligence Test Desk Reference (ITDR): Gf-Gc Cross-Battery Assessment

(McGrew & Flanagan). Damit wurde die Verbindung zwischen Intelligenztheorie und -praxis

fortgeführt, die mit der Entwicklung des WJ-Tests auf Basis der Gf-Gc-Theorie begann, und so-

mit der Weg für die CHC-Theorie geebnet (McGrew, 2005).

Größter Streitpunkt zwischen den Entwicklern des CHC-Modells stellt die Existenz der auf dem

Stratum III liegenden allgemeinen Intelligenz dar. Während Carroll sie vehement verteidigt,

wird sie von Horn dementiert (siehe Kapitel 3.6). So wird das Modell mal mit und mal ohne

Stratum III (siehe Alfonso et al., 2005) dargestellt (in Abbildung 3.4 und Abbildung 3.5 durch

ein Fragezeichen gekennzeichnet). Weitere Unterschiede finden sich in der Zuordnung einzel-

ner enger Faktoren zu den breiteren Faktoren. Außerdem nimmt Carroll nur einen Gedächtnis-

faktor an, während Horn einen Kurz- und einen Langzeitgedächtnisfaktor unterscheidet.

Die in Abbildung 3.4 aufgezeigte Struktur des CHC-Modells stellt nur ein Beispiel für die CHC-

Definitionen der Fähigkeiten dar. Jensen (2004) sieht die CHC-Struktur als eine erweiterbare

empirische Theorie an, der durch Ermittlung von bisher ungemessenen oder unbekannten

Fähigkeiten weitere Faktoren auf einer der Ebenen hinzugefügt werden könnten.

Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005) Anmerkung: Kreise repräsentieren latente Faktoren, Quadrate repräsentieren manifeste Mess-instrumente (Tests).


F4 F3 F2 F1 …etc.

g1 g2 g3 …etc.

g?


Derzeit besteht sie aus zehn breiten kognitiven Faktoren (siehe Abbildung 3.5) und mehr als 70

engeren Fähigkeiten (Alfonso et al., 2005). Doch die Theorie bleibt dynamisch und wird konti-

nuierlich verändert. So hat McGrew (2005) dem Faktor Lesen und Schreiben (grw) noch die

Schreibgeschwindigkeit als Einflussfaktor hinzugefügt, der zusätzlich zur Varianzaufklärung des

Faktors beiträgt. Außerdem erweiterte er die Theorie um zusätzliche Stratum-II-Faktoren wie

psychomotorische (gp), olfaktorische (go) oder taktile Fähigkeiten (gh).

Anm

erku

ng: D

ie a

ufge

liste

ten

Fähi

gkei

ten

auf S

trat

um I

stelle

n nu

r ei

ne A

usw

ahl d

ar. I

nsge

sam

t lie

gen

den

Fakt

oren

auf

Str

atum

II m

ehr

als

70 b

asal

e Te

illei

stun

-ge

n zu

grun

de.

Allg

emei

ne In

telli

genz

?

Flui

de

Inte

llige

nz

g f

Reak

tions

-/

Ents

chei

-du

ngsz

eit

g t

Men

gen-

u.

Zahl

en-

wis

sen

g q

Kris

talli

ne

Inte

llige

nz

g c

Lese

n u.

Sc

hrei

ben

g rw

Kurz

zeit-

gedä

chtn

is

g sm

Visu

elle

W

ahrn

eh-

mun

g g v

Aud

itive

W

ahrn

eh-

mun

g g a

Lang

zeitg

e-dä

chtn

is u

. A

bruf

g l

r

Vera

rbei

tung

s-ge

schw

indi

g-ke

it g s

Induktion Quantitatives Schlussfolgern Allgemeines sequentielles Schlussfolgern…

Mathematisches Wissen Rechenleistung

Sprachentwicklung Wortschatz Grammatik Fremdsprachen…

Buchstabierfähigkeit Lesefähigkeit Lesegeschwindigkeit Schreibfähigkeit und -geschwindigkeit…

Merkspanne Arbeitsgedächtnis Lernfähigkeit

Visualisierung Visuelles Gedächtnis Räumliche Beziehungen…

Rhythmus Musik Phonologische Bewusstheit Orten von Geräuschen….

Freier Abruf Flüssigkeit von Assoziationen Wortflüssigkeit Originalität/Flexibilität…

Mustererkennung Bearbeitung einfacher Rechenaufgaben Wahrnehmungsgeschwindigkeit

Geschwindigkeit mentaler Vergleiche Einfache Reaktionsgeschwindigkeit Wahlreaktionen…

Stratum III Stratum II Stratum I

Abb

ildun

g 3.

5: S

trukt

ur d

er C

atte

ll-H

orn-

Car

roll

(CH

C) T

heor

ie d

er k

ogni

tiven

Fäh

igke

iten

(mod

ifizi

ert n

ach

Das

ekin

g, P

eter

man

n &

Pet

erm

ann,

200

7)



3.5.1 Bewertung

Im Jahre 2001 wurde mit den Woodcock-Johnson III Tests of Cognitive Abilities (WJ-III, Wood-

cock, McGrew & Mather, 2001) die erste Testbatterie veröffentlicht, die auf der CHC-Theorie

basiert (McGrew & Woodcock, 2001). Im technischen Manual des Tests wurde zum ersten Mal

eine formale Definition der CHC-Theorie publiziert. Sie führte die Autoren zu folgender

Einschätzung: „CHC taxonomy is the most comprehensive and empirically supported frame-

work available for understanding the structure of human cognitive abilities“ (McGrew &

Woodcock, 2001, S. 9).

Die CHC-Theorie zählt zu den derzeit aktuellsten Intelligenztheorien (McGrew, 2005; Sattler,

2001). Kaufman und Lichtenberger (2006) postulieren: „CHC theory is a strong psychological

theory, as it represents one of the best examples of cumulative science in applied psychology“

(S. 563). Sie gilt heute als verständlichste und empirisch am besten fundierte psychometrische

Theorie kognitiver und akademischer Fähigkeiten und hat seit einigen Jahren einen enormen

Einfluss auf die Messung kognitiver Fähigkeiten und die Interpretation von Intelligenztestleis-

tungen (Alfonso et al., 2005; McGrew, 2005). Flanagan und Kaufman (2004) schreiben dazu:

“With the advent of the 21st century, however, the CHC storm hit and has not changed its

course to date” (S. 14). Neben dem WJ III wurden mit der SB5 (Stanford-Binet - Fifth Edition;

Roid, 2003) und der KABC-II (Kaufman Assessment Battery for Children; Kaufman & Kaufman,

2004) drei der bekanntesten Testverfahren der letzten Jahre das CHC-Modell zu Grunde gelegt.

Niemals zuvor in der Geschichte der Intelligenztestung spielte ein theoretisches Modell eine

derart große Rolle im Bereich der Testentwicklung und -interpretation (Flanagan & Kaufman,

2004).

Trotz des auf der Basis der CHC-Theorie entwickelten WJ III beinhaltet nach Alfonso, Flanagan

und Radwan (2005) keiner der bisher erschienenen Intelligenztests eine ausreichende Anzahl

von Untertests, um alle grundlegenden CHC-Fähigkeiten abzubilden. Dennoch zeigen diese

nicht berücksichtigten Fähigkeiten (wie gf, ga oder glr) einen signifikanten Zusammenhang mit

akademischen Leistungen wie Lesen und Rechnen (McGrew, 2005). Gerade für den Bereich der

Untersuchung von Lernstörungen bedarf es demnach der Durchführung mehrerer Tests, die

zusammen ein genaueres Bild der Fähigkeiten liefern können. Nach Erkenntnissen aus aktuel-

len Studien lassen sich durch das Modell und die Einbeziehung basaler kognitiver Funktionen

(Stratum I) insbesondere auch schulbezogene Leistungen (wie Rechenfähigkeit, Leseleistung

und Fremdsprachenerwerb) zunehmend besser erklären, unabhängig davon, ob ein g-Faktor

angenommen wird oder nicht (McGrew, 2005).

Weitere Studien der letzten Jahre aus unterschiedlichen Bereichen (wie Leistungen von Grund-

schulkindern, neurologische Beeinträchtigungen, Rechenleistungen) unterstützen ebenfalls das


CHC-Modell (z. B. Davis, Finch, Dean & Woodcock, 2005; Proctor, Floyd & Shaver, 2005; Tusing

& Ford, 2004). So können mit den in der CHC-Theorie betonten Fähigkeiten Arbeitsgedächtnis

und Verarbeitungsgeschwindigkeit Vorhersagen für akademischen Erfolg getroffen werden,

letztere vor allem bezogen auf frühe schulische Leistungen (Flanagan, Ortiz, Alfonso & Masco-

lo, 2002; Roid & Pomplun, 2005, siehe auch Kapitel 4.6.1).


In einer Untersuchung mit der WISC-III und dem WJ III erwies sich das CHC-Modell als das am

besten geeignete und zu den Ergebnissen passende Modell (Phelps, McGrew, Knopik & Ford,

2005). Während andere, ebenfalls nicht mehr aktuelle Versionen von Verfahren wie die KAB-C

oder die Wechsler-Tests für Vorschulkinder und Erwachsene nur zwei oder drei der breiten

CHC-Fähigkeiten adäquat messen, wurden der WISC-III vier CHC-Fähigkeiten (gc, gv, gsm und gs)

zugeschrieben (Alfonso et al., 2005). Dennoch stellt sie keine ausreichende Messung der Fä-

higkeiten dar, um die Diskrepanz zwischen aktueller Theorie und Praxis zu verringern.

Ergebnisse konfirmatorischer Faktorenanalysen anderer Wechsler-Tests, wie des aktuellen

Intelligenztests für Erwachsene (WAIS-III) und der Wechsler Memory Scale-III (WMS-III), un-

terstützen das CHC-Modell zusätzlich (Tulsky & Price, 2003).

Auch wenn die Autoren der WISC-IV nicht explizit sagen, dass die Entwicklung der Testrevision

auf den Erkenntnissen der CHC-Theorie basiert, wird sie der WISC-IV schon angesichts der zeit-

nahen Entwicklung implizit zugrundegelegt (Alfonso et al., 2005; Floyd, Bergeron, McCormack,

Anderson & Hargrove-Owens, 2005). Die Autoren der WISC-IV geben praktische Erfahrungen

im Umgang mit den Vorgängerversionen als Grundlage für die Modifikationen von WISC-III zu

WISC-IV an. Sie erkennen jedoch die Erkenntnisse von Cattell, Horn und Carroll an und fühlen

sich durch sie in der Entwicklung neuer Strukturen für die Wechsler-Skalen bestätigt. Neben

der zusätzlichen Einführung von Untertests zur Messung des fluiden Denkens wird auch der

größere Einfluss des Arbeitsgedächtnisses und der Verarbeitungsgeschwindigkeit von den

Testautoren mit den Begründern der CHC-Theorie in Zusammenhang gebracht (Wechsler,

2003b, siehe oben). Insbesondere der Verzicht auf die Zuordnung der Untertests zu Verbal-

und Handlungsteil und die aktuelle Fokussierung auf die vier Index-Werte (Faktoren) lassen auf

einen wesentlichen Einfluss des CHC-Modells auf die Testüberarbeitung schließen (Daseking et

al., 2007).

Keith, Fine, Taub, Reynolds und Kranzler (2006) untersuchten die Struktur der WISC-IV und

wiesen die Erfassung von fünf der zehn Faktoren nach, die sich nach der CHC-Theorie auf der

zweiten Ebene der Intelligenz befinden:

gf (fluide Intelligenz) durch die Untertests Matrizen-Test, Bildkonzepte und Rechneri-

sches Denken,


gc (kristalline Intelligenz) durch die Untertests Wortschatz-Test, Allgemeines Wissen,

Gemeinsamkeiten finden, Allgemeines Verständnis und Begriffe erkennen,

gv (visuelle Verarbeitung) durch die Untertests Mosaik-Test und Bilder ergänzen,

gsm (Kurzzeitgedächtnis) durch die Untertests Zahlen nachsprechen und Buchstaben-

Zahlen-Folgen sowie

gs (Verarbeitungsgeschwindigkeit) durch die Untertests Symbol-Suche, Zahlen-Symbol-

Test und Durchstreich-Test.

Sie kamen zu dem Ergebnis, die WISC-IV spiegelt mehr als ihre Vorgänger die aktuelle For-

schung und Theorie im Bereich der Intelligenzdiagnostik wider und habe sich somit gegenüber

früheren Versionen verbessert. Außerdem stelle die WISC-IV weiterhin ein exzellentes Mess-

instrument für die allgemeine Intelligenz dar (Keith et al., 2006).

Um dem Mangel an Verknüpfung zu aktuellen theoretischen Modellen entgegenzuwirken (sie-

he Kapitel 4.5), stellen Flanagan und Kaufman (2004) im Anhang ihres Buchs Essentials of

WISC-IV Assessment Tabellen zur Interpretation der Untertests der WISC-IV auf Basis des CHC-

Modells bereit. So kann beispielsweise ein Wert für den CHC-Faktor fluides Denken (gf) errech-

net werden, indem die Wertpunkte der Untertests Mosaik-Test, Bildkonzepte und Rechneri-

sches Denken zusammengezählt und zu dem sogenannten gf-Cluster-Wert umgerechnet wer-

den, der einem Index-Wert entspricht. Ebenso wie bei den traditionellen Index- und IQ-Werten

stehen auch hier Konfidenzintervalle und Prozentränge zur Verfügung (siehe Anhang H, Flana-

gan & Kaufman, 2004). Auch Keith et al. (2006) empfehlen diese zusätzliche Auswertung, da

für sie das CHC-basierte Modell eine bessere Erklärung des intellektuellen Konstrukts bietet,

das von der WISC-IV gemessen wird als die vorgegebene Auswertungsstruktur der Testautoren

es ermöglicht. Mit dieser zusätzlichen Auswertungsmöglichkeit wird versucht, die Wissenschaft

der Interpretation kognitiver Fähigkeiten voranzutreiben (Alfonso et al., 2005).

In Bezug auf die vorliegende Arbeit stellt sich die Frage, inwieweit der Einfluss unterschiedli-

cher Intelligenzstrukturmodelle auf die zu untersuchenden Messinstrumente HAWIK-III und -IV

die Vergleichbarkeit beider Testversionen einschränkt. Wie oben beschrieben wird die WISC-III

vor allem mit der Gf-Gc-Theorie in Verbindung gebracht, während die WISC-IV neben der Gf-Gc-

und der Three-Stratum-Theorie mehr Übereinstimmungen mit dem CHC-Modell aufweist als

seine Vorgängerversionen. Die Tests wurden schon angesichts ihrer unterschiedlichen Veröf-

fentlichungszeitpunkte von verschiedenen Theorien beeinflusst. Dies gilt nicht nur für die Test-

struktur, sondern auch für die kognitiven Fähigkeiten, die von den Untertests gemessen wer-

den. So wurde das Rechnerische Denken von der WISC-III zur WISC-IV dahingehend verändert,

weniger die Rechenfähigkeiten als vielmehr das Arbeitsgedächtnis zu erfassen, das nach ak-


tuellen Forschungsbefunden in den aktuellen Theorien einen höheren Stellenwert besitzt

(mehr dazu siehe Kapitel 4.6.1).

3.6 Diskussionen zur Existenz eines g-Faktors

“To g or not to g – that is the question.” Nathan Brody (2005)

3.6.1 Was ist g?

Wohl kaum eine Frage in der Intelligenzforschung wird leidenschaftlicher diskutiert als die

nach der Existenz eines g-Faktors als Repräsentant der allgemeinen, übergeordneten Intelli-

genz eines Menschen. Dies zeigen schon die unzähligen Veröffentlichungen der letzten Jahre,

die sich ausschließlich mit diesem Thema beschäftigen (u. a. Brand, 1996; Davidson & Dow-

ning, 2000; Jensen, 1998; Nyborg, 2003). Für Davidson und Downing (2000) kann erst ein bes-

seres Verständnis von g zu einem besseren Verständnis der Intelligenzstruktur führen. Doch

schon die Frage, was g eigentlich ist, löst Kontroversen aus. Für Jensen (2002) und Carroll

(1993) stellt der g-Faktor die Varianzquelle dar, die den Leistungen in allen kognitiven Tests

gemein sei, wie unterschiedlich sie auch sein mögen. Er sollte nicht als Aufsummierung oder

Durchschnitt individueller Unterschiede in einem kognitiven Test, sondern vielmehr als ein

Destillat dieser Unterschiede gesehen werden. Horn (1988) hingegen hält g für ein rein statisti-

sches Artefakt. Für Brody (2005) könne g am besten als latentes Merkmal verstanden werden,

das mit unterschiedlichen psychometrischen Maßen, die möglicherweise als Hinweise auf ein

latentes Konstrukt entwickelt wurden, zwar in Zusammenhang stehe, konzeptuell und empi-

risch aber von ihnen verschieden sei.

3.6.2 Pro und Kontra

Forscher wie Carroll (1993, 2003) und Jensen (1998, 2002) behaupten, der Generalfaktor re-

präsentiere in ausreichender Weise das, was den breiten Fähigkeiten zu Grunde liege. Auch

Brody (2005) sieht dies als einzig logische Schlussfolgerung an. Außerdem sei der g-Faktor die

einzige kognitive Fähigkeit, die von allen kognitiven Messinstrumenten berührt werde. Aktuel-

le Studien anderer Forscher legen gleichfalls die Existenz eines allgemeinen Intelligenzfaktors

nahe (Johnson, te Nijenhuis & Bouchard Jr, 2008; Visser, Ashton & Vernon, 2006). Nach Jensen

(2002) wiesen die wichtigsten Studien g als ein äußerst stabiles Konstrukt über Methoden,

Tests und Populationen hinweg aus. Die Generalisierbarkeit von g sei bemerkenswert breit,

was die signifikanten Ladungen in Tests mit ganz unterschiedlichen Aufgabentypen wie Wort-

schatz, allgemeine Informationen und Reaktionszeit verdeutlichten. Außerdem weise g nach

Jensen eine hohe externe Validität auf. Dies zeigten Studien, in denen der IQ und Tests kogniti-

ver Fähigkeiten hohe gemeinsame g-Ladungen aufweisen. Daraus schließt Jensen, dass die


Generalisierbarkeit von g für ein breites Spektrum an Prädiktorkriterien zulässig sei. Die Vor-

hersagekraft von IQ-Tests auf Schulleistung und beruflichen Erfolg ist unstrittig. Korrelations-

studien gehen von einem Zusammenhang zwischen IQ-Tests und schulischem Erfolg von unge-

fähr r = .50 aus (Braaten & Norman, 2006). Dabei gilt g als bedeutsamerer Prädiktor als spezifi-

sches Wissen oder spezifische Fertigkeiten. Nach Jensen (2002) wiesen IQ- und Bildungstests

keine praktisch sinnvolle Vorhersagevalidität mehr auf, sobald g statistisch aus diesen Tests

entfernt werden würde. Zwar würden einzelne Faktoren der Tests (wie verbale, numerische,

räumliche etc.) auch zur Vorhersagevalidität beitragen, doch sei dieser Beitrag im Vergleich zu

dem des g-Faktors sehr gering.

In seiner aktuellsten Untersuchung bilanziert Carroll (2003): „Researchers who are concerned

with the structure in one way or another … can be assured that a general factor exists, along

with a series of second-order-factors that measure broad special abilities” (S. 19). Außerdem

sprächen für ihn, ebenso wie für andere Forscher, die Ergebnisse der Intelligenzforschung den

fluiden Fähigkeiten eine deutlich wichtigere Rolle zu als bisher vermutet. Diese Erkenntnis floss

auch in die Entwicklung der WISC-IV mit ein (siehe Kapitel 4.6.1).

Manche sehen g als die bedeutendste messbare Fähigkeit an, da sie den Großteil der Varianz in

mehreren, sowohl akademischen als auch beruflichen Bereichen vorhersage (z. B. Glutting,

Watkins & Youngstrom, 2003). Neisser et al. (1996) argumentieren dagegen, Carrolls hierarchi-

sche Anordnung des g-Faktors bestätige lediglich, dass die Leistungsniveaus eines Menschen in

verschiedenen Testverfahren miteinander korrelierten; das sei zwar konsistent mit der Hypo-

these, ein allgemeiner Faktor wie g liege diesen Korrelationen zugrunde, jedoch kein Beweis

dafür. Die Korrelationen könnten auch aufgrund anderer Faktoren wie Schulbildung zustande

kommen.

Studien zufolge laden auch Messverfahren wie der Sternberg Triarchic Abilities Test (STAT), die

ein g-Faktor-freies Modell als Basis haben, hoch auf einem gemeinsamen Faktor, der mit g

korreliert (Brody, 2003a, 2003b). Auch aktuelle Testverfahren zu praktischer und kreativer

Intelligenz weisen einen positiven Zusammenhang mit g auf (Brody, 2005). Außerdem wiesen

genetische Studien einen gemeinsamen genetischen Einfluss auf die Beziehung zwischen ver-

schiedenen Faktoren zweiter Ordnung auf (Petrill, 2005).

Auf der anderen Seite stehen Forscher wie Horn (1985) und Sternberg (Sternberg, 2002;

Sternberg & Grigorenko, 2002), die es befürworten, den Schwerpunkt auf die unabhängigen

breiten Fähigkeiten zu legen, da sie g für einen vielgestaltigen und relativ bedeutungslosen

Zusammenschluss verschiedener voneinander unabhängiger kognitiver Prozesse halten. Zwar

stimmen Horn und Cattell Carroll hinsichtlich der Korrelationen zwischen Fähigkeiten zu, sehen

diese jedoch nicht als kausalen Einfluss einer allgemeinen Intelligenz, sondern eher als statisti-


sche Regelmäßigkeit an, da es schwer sei, menschliche Aktivitäten zu definieren, die nur mit

einer der Fähigkeiten zweiter Ordnung zusammenhängen (McGrew, 2005). Für Horn und Noll

(1994) kann ein einzelnes wissenschaftliches Konzept ein so vielschichtiges Phänomen wie die

Intelligenz nicht erklären. Sie sehen Intelligenz als eine Mischung aus vielen unterschiedlichen

kognitiven Fähigkeiten an und sprechen sich gegen Carrolls g-Faktor aus, der sich in seinen

Studien, je nach Studie und Testbatterie, als unterschiedlich darstelle und somit nicht eine

allgemeine Intelligenz, sondern unterschiedliche Maße repräsentiere (Horn & Noll, 1997). Nach

Stankov (2005) deuten nur sieben der über 400 Datensätze aus Carrolls Studie auf einen g-

Faktor hin.

Studien aus den Bereichen Entwicklung, Ausbildung, Neurologie und Genetik geben laut Horn

und McArdle (2007) Anlass daran zu zweifeln, ein einzelner, für alle intelligenzabbildenden

Fähigkeiten gültiger Faktor, könne die Varianz individueller Unterschiede abdecken. Dies zeige

sich auch darin, dass die CHC-Fähigkeiten mit nicht-kognitiven Variablen wie Erfolg (z. B. im

Bereich akademischer Leistungen siehe Evans, Floyd, McGrew & Leforgee, 2002; Floyd, Evans

& McGrew, 2003), genetischen Strukturen und neurologischen Funktionen in Verbindung ste-

hen. Da diese Beziehungen so mannigfaltig seien, spreche dies ebenfalls gegen einen einzel-

nen, einheitlichen Grundbestandteil (Horn & Blanksen, 2005). Für Carroll (2003) hingegen ba-

sierten Faktorenanalysen darauf, die Beschaffenheit eines einzelnen Faktors nicht notwendi-

gerweise zu speziellen Charakteristika der in die Korrelationsmatrix involvierten Variablen in

Beziehung zu stellen, sondern nur zu den Charakteristika oder latenten Variablen, die diesen

Variablen ähnlich sind.

Trotz der Ähnlichkeit zwischen den Stratum-II-Faktoren der Three-Stratum-Theorie und Horns

erweiterter Gf-Gc-Theorie widersprach Horn (1991) Carrolls Vorstellungen von Intelligenz, da er

einen g-Faktor auf Stratum III nicht akzeptierte. Er stellte die Theorie auf, dass gf und gc zwi-

schen Stratum II und III liegen und somit einen Großteil der Varianz aufklären. Da gf in fakto-

renanalytischen Studien zur Untersuchung der Ladung auf einen gemeinsamen g-Faktor eine

standardisierte Faktorladung von 1.0 aufwies, müsse Intelligenz mehr sein als g. Carroll (1993)

erklärte sich die Beziehung zwischen den Faktoren g und gf jedoch damit, dass beide in hohem

Maße erblich seien und gf auf Stratum II den höchsten Grad an Erblichkeit aufweise. Für ande-

re repräsentierten g und gf im Wesentlichen die selben Fähigkeiten (Davidson & Downing,

2000). Demgegenüber deuten Studien, die hohe g-Ladungen in den sprachlichen Untertests

aufzeigten, auf hohe Korrelationen von gc und g hin (siehe u. a. Keith et al., 2006). Für Gignac

(2006) schien daher gc als der beste Prädiktor für die allgemeine Intelligenz.

Nach Brody (2000) ergeben sich aus sämtlichen Überlegungen zur Struktur kognitiver Fähigkei-

ten zwei wichtige Erkenntnisse: Erstens zeigen sich hohe Korrelationen nahezu aller Mess-


instrumente kognitiver Funktionen. Matrizen von Fähigkeitsmessinstrumenten besäßen in der

Regel einen Faktor, der ungefähr die Hälfte der Kovarianz aufkläre. Zweitens ergäben sämtli-

che Studien, dass g nicht die gesamte Kovarianz einer Matrix abdecke. Zur Aufklärung sämtli-

cher Beziehungen bedürfe es basalerer Fähigkeitsmessinstrumente. Für Stankov (2005) liefer-

ten Faktorenanalysen jedoch keine konsistenten Informationen über das Ausmaß der g-Varianz

in der Matrix, g-Ladungen verschiedener Tests oder der Definition von g im Hinblick auf die

invarianten Faktorenstrukturen.

Demetriou, Mouyi und Spanoudis (2008) untersuchten 140 Kinder mit Aufgaben zu wichtigen

kognitiven Prozessen unterschiedlicher Komplexität aus den Bereichen Geschwindigkeit, Ar-

beitsgedächtnis, Informationsintegration und Schlussfolgern. Sie gingen daraufhin von hierar-

chisch organisierten Prozessen aus und vermuteten, g könne nicht mit einem dieser Konstruk-

te oder Dimensionen identifiziert werden, sondern würde von unterschiedlichen Prozessen

bestimmt, die auf dynamische Weise miteinander agieren.

Auf gleicher Ebene argumentieren Naglieri und Das (2002). Traditionelle Testverfahren, die

sich auf den g-Faktor begründen, hätten zwar gute Dienste für die Etablierung von Testungen

als einer der wichtigsten Beiträge der Psychologie an die Gesellschaft geleistet, es bedürfe

jedoch einer substantiellen Erneuerung der Konzeptualisierung und Messung von Intelligenz.

Konventionelle g-basierte Theorien seien ihrer Meinung nach unvollständig und in ihrem Nut-

zen eingeschränkt. Sie entwickelten die neuropsychologisch fundierte PASS-Theorie (Das, Nag-

lieri & Kirby, 1994), die sie als Alternative zur allgemeinen Intelligenz ansahen, und zogen sie

bei der Entwicklung eines eigenen Testverfahrens, des CAS (Cognitive Assessment System;

Naglieri, 1999) heran. PASS steht für die vier Elemente Planung (Planning), Aufmerksamkeit

(Attention) sowie simultane und sukzessive Kodierung (Simultaneous and Successive Proces-

sing) als grundlegende kognitive Prozesse der Intelligenz. Sie bilden ein zusammenhängendes

System, das mit den Grundlagen an Wissen und Fertigkeiten eines Individuums interagiert

(Naglieri & Das, 2002).

Die Diskussion um den g-Faktor geht mit der Kontroverse um den Gebrauch von Profilanalysen

einher (siehe Kapitel 4.5). Während die Befürworter des g-Faktors ein klares „just say no“

(McDermott, Fantuzzo & Glutting, 1990) postulieren, sprechen sich dessen Gegner für die An-

wendung der Profilanalyse aus. McGrew, Flanagan, Keith und Vanderwood (1997) kommen

nach einer großangelegten Analyse zu dem Ergebnis: „Just say maybe“ oder „wait just a minu-

te“ (S. 207).

3.6.3 Verbindung zur Studie

Der Streitpunkt um die Existenz eines g-Faktors kommt auch bei der Entwicklung des CHC-

Modells zum Tragen, da bereits die Entwickler dieser Theorie dahingehend unterschiedlicher


Auffassungen sind (siehe Kapitel 3.5) (McGrew, 2005). Für diese Studie stellt sich demnach die

Frage, inwieweit der Vergleich der Ergebnisse beider Testversionen nur unter Berücksichtigung

des Gesamt-IQ (stellvertretend für den g-Faktor) oder zusätzlich auch der Index-Werte (stell-

vertretend für die Faktoren der zweiten Ebene im CHC-Modell) vorgenommen werden sollten.

Für die Wechsler-Versionen wird kontrovers diskutiert, ob die Interpretation des Gesamt-IQ

immer sinnvoll ist, gerade wenn sich große Diskrepanzen im Leistungsprofil des Kindes zeigen.

Die Gegner der Gesamt-IQ-Interpretation bei breit gestreuten Index-Werten sehen ihn als we-

nig valide und damit als unzureichende Beschreibung der Fähigkeiten des Kindes an (Fiorello et

al., 2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale, Fiorello, Kavanagh, Holdnack &

Aloe, 2007). Diese Forscher gehören auch zu denen, die den g-Faktor verneinen. Andere Auto-

ren halten den Gesamt-IQ für ebenso valide wie die Index-Werte – unabhängig von der Höhe

der Streuung zwischen den Index-Werten – und befürworten die Interpretation des Gesamt-IQ

auch bei den Populationen, die sich durch eine hohe Variabilität im Intelligenzprofil auszeich-

nen (Daniel, 2007).

3.7 Zusammenfassung Den Wechsler-Skalen wurden im Laufe der letzten Jahre und Jahrzehnte diverse Intelligenzmo-

delle zu Grunde gelegt. So finden sich in ihnen Aspekte des Primärfaktorenmodells von Thurs-

tone wieder, der Intelligenz aus sieben nebeneinander stehenden Faktoren gebildet sieht,

denen Ähnlichkeiten zu den in den Wechsler-Tests enthaltenen Indizes zugeschrieben werden

können. Einen mindestens ebenso großen Einfluss auf die Entwicklung der Wechsler-Tests

haben hierarchische Intelligenzstrukturmodelle, die einen mehrstufigen Aufbau kognitiver

Fähigkeiten beinhalten. Als ältestes und dennoch weiterhin bedeutendes Modell gilt die Zwei-

Faktoren-Theorie von Spearman, der als erster den Begriff des g-Faktors einbrachte, der bis

heute für viel Diskussionsstoff unter den Intelligenzforschern sorgt. Dabei handelt es sich um

die allgemeine Intelligenz des Menschen, die den spezifischen Fähigkeiten übergeordnet wer-

den kann. Mit Hilfe von Faktorenanalysen definierte Spearman den g-Faktor als die Fähigkeit,

die sämtlichen kognitiven Fähigkeiten des Menschen zugrundeliegt. Da den Wechsler-Tests mit

dem Gesamt-IQ ebenfalls ein übergeordneter Wert entnommen werden kann, wird Wechsler,

der selbst ein Schüler Spearmans war, eine Anlehnung an dessen Auffassung zugeschrieben.

Ein anderes wichtiges Intelligenzmodell wurde von Cattell begründet und später von Cattell

und Horn weiterentwickelt. Die Gf-Gc-Theorie geht anders als Spearman von zwei nebeneinan-

derstehenden Intelligenzfaktoren aus, der fluiden und der kristallinen Intelligenz. Später erwei-

terte Horn die Theorie auf acht oder mehr Faktoren, von denen die fluide und die kristalline

Intelligenz jedoch die Kernfaktoren bleiben. Sie wurden oftmals mit den beiden Skalen Verbal-

und Handlungsteil der Wechsler-Skalen in Verbindung gebracht. Ebenso wie die Gf-Gc-Theorie


beschreibt Wechsler das Three-Stratum-Modell von Carroll als einflussgebend für die Entwick-

lung seiner Skalen. Aus einer umfassenden Faktorenanalyse, die zahlreiche Studien beinhalte-

te, entwickelte Carroll das Three-Stratum-Modell. Es bildet die Intelligenz auf drei Hierarchie-

ebenen ab, der allgemeinen Intelligenz auf der dritten und höchsten Ebene, acht weniger all-

gemeinen Faktoren auf Stratum II und 69 spezifischen Faktoren auf unterster Ebene. Die der-

zeit aktuellste Theorie ist eine Verbindung der Theorien von Cattell, Horn und Carroll, das CHC-

Modell. Es stellt das erste Modell dar, dem Intelligenztests explizit zu Grunde gelegt wurden,

und auch der WISC-IV wird ein impliziter Zusammenhang mit dem CHC-Modell nachgesagt. Es

wird mal mit und mal ohne einen übergeordneten allgemeinen Faktor beschrieben und bein-

haltet ein dynamisches Modell, das immer wieder veränderbar ist. Derzeit liegen acht breitere

oberhalb von ungefähr siebzig spezifischeren Faktoren. Die Diskussion über einen allgemeinen

Faktor an der Spitze des CHC-Modells geht mit dem langjährigen Streit über die Existenz eines

g-Faktors einher. Die Forscher, die einen g-Faktor befürworten, sehen ihn als Quelle der ge-

meinsamen Varianz sämtlicher kognitiven Fähigkeiten. Auf der anderen Seite stehen Forscher,

die den Schwerpunkt auf den breiter gefassten Faktoren sehen und einen g-Faktor dementie-

ren. Dieser Streit hält bis zum heutigen Tage an.

Kapitel 4 Die Wechsler-Skalen 42

4 Die Wechsler-Skalen

Wortschatz-Test, Frage 15: „Was bedeutet anstrengend?“

Miriam, 9 Jahre: „Wenn man Kinder hat, die viele Hobbies haben und man sie dann immer

hin- und herfahren muss.“

Die Wechsler-Skalen zählen seit mehr als einem halben Jahrhundert zu den weltweit bekann-

testen Intelligenztestverfahren (Belter & Piotrowski, 2001; Flanagan et al., 2000; Kaufman,

Flanagan, Alfonso & Mascolo, 2006; Prifitera, 1994; Zhu & Weiss, 2005). Nachgewiesenerma-

ßen sind sie die am häufigsten verwendeten Testverfahren (Camara, Nathan & Puente, 2000;

Schorr, 1995; Steck, 1997) und stehen trotz häufiger Kritik bei klinischen und Schulpsychologen

bei der Erfassung kognitiver Fähigkeiten von Kindern, Jugendlichen und Erwachsenen weiter-

hin an erster Stelle (Zhu et al., 2004). Die Methoden, Konzepte und Verfahrensweisen der Ska-

len haben seit der Mitte des vergangenen Jahrhunderts die Testentwicklung und -erforschung

in der Intelligenzdiagnostik richtungsgebend gesteuert (Flanagan et al., 2000). Sie haben im

klinischen Bereich und in der Forschung bereits eine langjährige Tradition (Kamphaus, 2005).

Flanagan und Kaufman (2004) gehen davon aus, dass die WISC-IV, wie schon ihr Vorgänger, die

WISC-III, das am weitesten verbreitete Intelligenztestverfahren der Welt werden wird.

4.1 Die Geschichte der Wechsler-Skalen Der Einfluss David Wechslers auf die Intelligenzmessung begann in den späten 1930er Jahren

(Kaufman et al., 2006). Seine klinischen und statistischen Kenntnisse, ebenso wie seine um-

fangreiche Erfahrung als Diagnostiker im Ersten Weltkrieg, flossen in seine Vorstellungen von

Intelligenz mit ein. Während dieses Krieges war in den Vereinigten Staaten eine Intelligenzbe-

urteilung zur Auswahl von Rekruten entwickelt worden. Der dort verwendete Test (Army

Alpha) wies zunächst einen hohen sprachlichen Anteil auf. Die eingeschränkte Lesefähigkeit

einiger Rekruten hatte daher die Notwendigkeit einer nonverbalen Beurteilung der Intelligenz

(Army Beta) begründet (Wechsler, 2003b). Wechsler hatte während seiner Arbeit mit den Sol-

daten festgestellt, dass es bei ihnen Diskrepanzen gab zwischen den intellektuellen Kompeten-

zen, die sie im zivilen Leben zeigten, und den Ergebnissen der Testverfahren, mit denen er sie

untersuchte. Daher schienen ihm bisher gängige Intelligenzdefinitionen, auf deren Basis Test-

verfahren wie die Army Alpha und Beta oder der erste Intelligenztest von Binet und Simon

(1905, zitiert nach Wechsler, 2003b) entwickelt wurden, unzureichend zu sein. Somit müsse für

ihn eine ganzheitliche Intelligenzdefinition weiter gefasst werden als bisher (siehe Kapitel 2.2).

Sein Studium in London bei Charles Spearman und Karl Pearson, und dabei vor allem Spear-


mans g-Faktor-Theorie (Spearman, 1904, siehe Kapitel 3.1), hatte zusätzlichen Einfluss auf die

Entwicklung seiner Vorstellung von Intelligenz (Wechsler, 1939a). Auf der Grundlage seiner

langjährigen klinischen Arbeit machte Wechsler es sich dann zum Ziel, Testverfahren zu ent-

wickeln, mit denen auf Basis von verschiedenen Aufgaben dynamische klinische Informationen

erlangt werden können (Flanagan & Kaufman, 2004). So entwickelte er Untertests, die diejeni-

gen kognitiven Aspekte der Intelligenz erheben, die er als bedeutsam erachtete: Sprachver-

ständnis, abstraktes logisches Denken, Wahrnehmungsorganisation, mengenbezogenes Den-

ken, Gedächtnis und Bearbeitungsgeschwindigkeit. Diese werden in aktuellen Intelligenztheo-

rien ebenfalls als bedeutende Aspekte der kognitiven Fähigkeit angesehen (Carroll, 1993,

1997b; Horn, 1991, siehe Kapitel 3).

Auch wenn Wechsler sich für seine Tests viele Ideen von anderen Messinstrumenten auslieh

(Zachary, 1990), stellten sie doch eine bedeutende Innovation dar, mit der ihm ein dauerhafter

Beitrag zur Geschichte der Intelligenzdiagnostik gelang. Zur Entwicklung einer Intelligenztest-

batterie, die verständlicher und nützlicher für den klinischen Gebrauch sowie ökonomisch

sinnvoller war, vereinte er die aus seiner umfangreichen klinischen Erfahrung am besten ge-

eigneten Aspekte aus anderen Arbeiten (Zhu et al., 2004).

Um anders als bisherige Testverfahren sowohl verbale als auch nonverbale Intelligenzleistun-

gen beurteilen zu können, führte Wechsler (1939b) in seinem ersten Intelligenztest, der

Wechsler-Bellevue Intelligence Scale, zusätzlich zu einem allgemeinen Wert gesonderte Werte

für Verbal- und Handlungsskalen ein.

Diese Einteilung stellte eine Innovation dar und gilt als das vielleicht bedeutsamste Merkmal

der Wechsler-Bellevue (Flanagan & Kaufman, 2004). Wechsler (1944) hielt diese Einteilung

selber für einen wertvollen Beitrag seiner Skalen:

Its à priori value is that it makes possible a comparison between a subject`s facility in using words and symbols and his ability to manipulate objects, and to perceive visual patterns. In practice this division is substantiated by differences between posited abilities and various occu-pational aptitudes. ... Apart from their possible relation to vocational aptitudes, differences be-tween verbal and performance test scores, particularly when large, have a special interest for the clinician because such discrepancies are frequently associated with certain types of mental pathology. (S. 146)

Die Aufteilung der Untertests in Verbal- und Handlungsaufgaben führte häufig zu der Annah-

me, Wechsler ginge von einer Zwei-Faktoren-Struktur der Intelligenz aus. Wechsler (1958)

verfolgte dabei jedoch praktische Ziele:

[The grouping of subtests into Verbal and Performance areas] … does not imply that these are the only abilities involved in tests. Nor does it presume that there are different kinds of intelli-gence, e.g., verbal, manipulative, etc. It merely implies that these are different ways in which intelligence may manifest itself. … The subtests are different measures of intelligence, not measures of different kinds of intelligence, and the dichotomy of Verbal and Performance areas is only one of several ways in which the tests could be grouped. (S. 64)


Für Wechsler repräsentierten der Verbal- und der Handlungsteil keine unterschiedlichen Fä-

higkeiten, sondern sie stellten zwei unterschiedliche Sprachen dar, durch die sich die zugrunde

liegende allgemeine Intelligenz ausdrücken kann (Kamphaus, 2005).

Eine weitere Innovation Wechslers war die Berechnung der Ergebnisse anhand eines soge-

nannten Abweichungs-IQ. Vor den Wechsler-Skalen wurde das kognitive Niveau eines Indivi-

duums anhand des Intelligenzalters (IA) geteilt durch das Lebensalter (LA) berechnet

(IQ = IA/LA * 100), ein Konzept, das ursprünglich 1908 von Binet eingeführt worden war (Zhu

et al., 2004). Da sich diese Art der Berechnungen besonders mit steigendem Lebensalter bei

Erwachsenen als sehr fehleranfällig erwiesen hatte und dadurch große Probleme bei der Inter-

pretation der Testergebnisse aufgekommen waren, stellte der Abweichungs-IQ eine wichtige

Neuerung dar, die den Vergleich mit Gleichaltrigen aussagekräftiger und die Interpretation

überschaubarer machte. Mit Hilfe des Abweichungs-IQ wird ein individueller Testwert an dem

Mittelwert und der Streuung einer für die Testperson repräsentativen Altersgruppe standardi-

siert. Dabei legte Wechsler (1939b) den Mittelwert bei 100 und die Standardabweichung bei

+/- 15 fest. Diese Form der Berechnung wird mittlerweile in allen gängigen Intelligenztests, die

einen IQ angeben, verwendet.

Insgesamt stellte die Veröffentlichung der Wechsler-Bellevue Intelligence Scale eine ernst zu

nehmende Konkurrenz für die bis dahin heiligen Binet-Skalen dar (Kamphaus, 2005). Sie bot

eine Reihe von Besonderheiten, die in den ersten Ausgaben der Binet-Skalen nicht verfügbar

waren. Dazu gehörten separate Normen für Kinder und Erwachsene, Standardwerte für die

einzelnen Untertests, die Profilanalysen ermöglichen, ein separater Handlungsteil, der die Un-

tersuchung von Menschen mit sprachlichen oder kulturellen Besonderheiten ermöglichte, und

der Abweichungs-IQ. Diese Vorteile der Wechsler-Tests gegenüber den Binet-Skalen lassen sich

in Wechslers langjähriger klinischer Erfahrung begründen, die Binet als reiner Forscher nicht

aufweisen konnte (Kamphaus, 2005).

Für seine erste Testbatterie für Kinder, die Wechsler Intelligence Scale for Children (WISC,

Wechsler, 1949) – im Deutschen HAWIK (Hardesty & Priester, 1956) – adaptierte er die Unter-

tests, die den HAWIK-Untertests Allgemeines Wissen, Rechnerisches Denken, Gemeinsamkei-

tenfinden, Wortschatz-Test, Zahlennachsprechen, Allgemeines Verständnis, Bilderergänzen,

Bilderordnen, Mosaik-Test, Figurenlegen und Zahlen-Symbol-Test entsprechen, aus der Wechs-

ler-Bellevue. Als zusätzlichen Untertest entwickelte er den Labyrinth-Test. Die Untertests war-

en in Verbal- und Handlungsskalen aufgeteilt und lieferten Werte für einen Verbal-, einen

Handlungs- und einen Gesamt-IQ. Als Intelligenztest für jüngere Kinder folgte 1967 die Wechs-

ler Preschool and Primary Scale of Intelligence (WPPSI, Wechsler, 1967). Ein Überblick über die

Wechsler-Intelligenzskalen kann Tabelle 4.1 entnommen werden.


Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick

Skalen für Erwachsene Skalen für Kinder und

Jugendliche Skalen für Vor- und Grundschulkinder

Wechsler Bellevue I (1939) (Wechsler, 1939b)

Wechsler Bellevue-Form II (1946)

(Wechsler, 1946)

WAIS (1955) (Wechsler, 1955)

WISC (1949) (Wechsler, 1949)

WPPSI (1967) (Wechsler, 1967)

HAWIE (1956) (Bondy, 1956)

HAWIK (1956) (Hardesty & Priester, 1956)

HAWIVA (1975) (Eggert, 1975)

WAIS-R (1981) (Wechsler, 1981)

WISC-R (1974) (Wechsler, 1974)

WPPSI-R (1989) (Wechsler, 1989)

HAWIE-R (1991) (Tewes, 1991)

HAWIK-R (1983) (Tewes, 1983)

WAIS-III (1997) (Wechsler, 1997)

WISC-III (1991) (Wechsler, 1991)

WPPSI-III (2002) (Wechsler, 2002)

WIE (2006) (von Aster, Neubauer &

Horn, 2006)

HAWIK-III (1999) (Tewes, Rossmann & Schallberger, 1999)

HAWIVA-III (2007) (Ricken, Fritz, Schuck

& Preuß, 2007)

WISC-IV (2003)

(Wechsler, 2003a)

HAWIK-IV (2007)

(Petermann & Petermann, 2008a)

Anmerkung: Die deutschen Versionen sind grau unterlegt.

Während ein Ziel bei der Entwicklung der Wechsler-Bellevue war, einen Intelligenztest für Er-

wachsene zu erhalten, der nicht nur eine schwierigere Version eines Intelligenztests für Kinder

ist, sondern explizit für die Messung des kognitiven Leistungsstandes Erwachsener entwickelt

wurde, stellte die WISC das Gegenteil dar, nämlich die vereinfachte Version eines Intelligenz-

tests für Erwachsene. Aus diesem Grund wurde der WISC oft fehlende Kind-Orientierung vor-

geworfen (Anastasi & Urbina, 1997).

Die Eignung des Testverfahrens für Kinder zu verbessern war somit eines der Ziele bei der ers-

ten Neuauflage der WISC. Die Wechsler Intelligence Scale for Children – Revised (WISC-R,

Wechsler, 1974) – im Deutschen HAWIK-R (Tewes & Titze, 1994) – behielt alle Untertests der

WISC bei und erweiterte die Altersspanne von 6 bis 15 auf 6 bis 16 Jahre. Das revidierte Test-

verfahren lieferte weiterhin Werte für den Verbal-, den Handlungs- und den Gesamt-IQ. Wie

sein Vorgänger erfreute sich auch dieser Test großer Popularität. Der Bekanntheitsgrad lag

dabei nicht nur im klinischen, sondern auch im empirischen Bereich, was die über 1 100 Veröf-

fentlichungen zu verschiedenen Aspekten der klinischen Anwendbarkeit und Validität der

WISC-R zum Ausdruck bringen (Reynolds & Kaufman, 1990).

Die Wechsler Intelligence Scale for Children- Third Edition (WISC-III; Wechsler, 1991) – im Deut-

schen HAWIK-III (Tewes et al., 1999) – behielt alle Untertests der WISC-R bei, ergänzt durch

den neuen Untertest Symbol-Suche zur Messung der Bearbeitungsgeschwindigkeit. Zusätzlich


zum Verbal-, Handlungs- und Gesamt-IQ wurden in der WISC-III vier neue – im HAWIK-III SV,

WO, UA und AG genannte – Index-Werte zur genaueren Darstellung enger definierter Bereiche

der kognitiven Funktionen eingeführt (ausführlicheres siehe Kapitel 4.2).

Die aktuelle Version der Wechsler-Skalen, die WISC-IV (Wechsler, 2003a) – im Deutschen HA-

WIK-IV (Petermann & Petermann, 2008a) – beinhaltet die bisher größten Veränderungen ge-

genüber einer vorherigen Version (siehe auch Tabelle 4.2). Sie zeichnet sich nicht nur durch

neue Untertests (Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test

und Begriffe erkennen), sondern auch durch eine strukturelle Änderung der Skalen aus. Zusätz-

lich zum Gesamt-IQ stehen anstelle des Verbal- und Handlungs-IQ vier Index-Werte zur Verfü-

gung, die aus 10 der 15 Untertests berechnet werden können (mehr dazu siehe Kapitel 4.3).

Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen HAWIK HAWIK-R HAWIK-III HAWIK-IV

AW AW AW AW RD RD RD RD GF GF GF GF WT WT WT WT ZN ZN ZN ZN AV AV AV AV BE BE BE BE BO BO BO MT MT MT MT FL FL FL

ZST ZST ZST ZST LT LT LT

SS SYS BK MZ BZF DT BEN

Anmerkung: Abkürzungen siehe Anhang A5 und A6.

Die Feststellung kognitiver Stärken und Schwächen erfolgt über spezifische Testverfahren, mit

denen die Testleistung reliabel und valide erfasst werden kann. Intelligenztests unterscheiden

sich in der Art der Testvorgabe wie folgt (Daseking et al., 2006):

Papier- und Bleistift- vs. computergestützte Tests,

Antworten in freiem Format vs. Mehrfachwahlantworten (multiple choice) und

Schnelligkeit (speed) vs. Richtigkeit (power) der Aufgabenbearbeitung.

Die Intelligenztestbatterien HAWIK-III und -IV stellen sich als Papier- und Bleistiftverfahren mit

Antworten in freiem Format dar. Sie beinhalten sowohl Aufgaben, die auf Schnelligkeit, als

auch Aufgaben, die auf die Richtigkeit der Aufgabenbearbeitung abzielen.


4.2 Der HAWIK-III Die WISC-III erschien 1991 in den USA (Wechsler, 1991) und kam acht Jahre später als HAWIK-

III (Tewes et al., 1999) auf den deutschsprachigen Markt. Die Untertests des HAWIK-III lassen

sich zwei übergeordneten Konstrukten zuordnen: dem Verbal- und dem Handlungsteil3. Dabei

wird der Verbal-IQ auch als Sprachliche Intelligenz und der Handlungs-IQ als Praktische Intelli-

genz bezeichnet (Daseking & Petermann, 2004; Tewes, Rossmann & Schallberger, 2002). Zu-

sätzlich können über verschiedene Untertestkombinationen vier Indizes berechnet werden:

Sprachverständnis (SV), Wahrnehmungsorganisation (WO), Unablenkbarkeit (UA) und Arbeits-

geschwindigkeit (AG). Die hierarchische Struktur des HAWIK-III zeigt Abbildung 4.1.

Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S. 86) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3).

Der HAWIK-III umfasst 13 Untertests, von denen 10 in die Berechnung des Gesamt-IQ und 12

in die Berechnung der Indizes einfließen. Eine inhaltliche Beschreibung der Untertests kann

Tabelle 4.3 entnommen werden. Der Labyrinth-Test wurde in dieser Untersuchung in Anleh-

nung an andere Studien (siehe u. a. Johnson Grados & Russo-Garcia, 1999; Phelps et al., 2005;

Watkins, 2005) nicht berücksichtigt, da er weder in die Gesamt-IQ- noch in die Index-

Berechnung einbezogen wird und somit für die Vergleichbarkeit der Testversionen als unbe-

deutend erscheint.

3 Der Verbal- und Handlungsteil bzw. der Verbal- und Handlungs-IQ werden im Folgenden der Einfach-heit halber als Gesamtwerte bezeichnet, da sie sich aus jeweils zwei Indizes zusammensetzen.

AV

Gesamt-IQ

Verbalteil Handlungsteil

SV UA WO AG

AW GF WT BE BO MT FL RD ZN ZST SS


Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002) Test Beschreibung

BE Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail, das auf dem jeweiligen Bild fehlt.

AW Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte und Persönlichkeiten.

ZST

Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind abstrakte Symbole zuordnet. Es zeichnet in einer begrenzten Zeit die Symbole in die dazugehörigen Figuren bzw. Ziffern, indem es einen Entschlüsselungscode verwen-det.

GF Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen oder beschreiben. Die Begriffe beziehen sich auf Konzepte oder Gegenstände des Alltags.

BO Dem Kind werden Bilderserien in falscher Reihenfolge vorgelegt. Das Kind hat die Aufgabe, sie in eine logisch richtige Reihenfolge zu sortieren, so dass sie eine kurze Geschichte bzw. einen Handlungsablauf wiedergeben.

RD Das Kind löst eine Serie von zunächst mündlich, dann mündlich und schriftlich vorge-gebenen Rechenaufgaben.

MT Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe Muster-vorlagen (Modell oder Bildvorlage) innerhalb einer vorgegebenen Zeitspanne nach-bauen.

WT Das Kind gibt Definitionen für die vom Testleiter vorgegebenen Worte.

FL Jede Aufgabe besteht aus Teilen eines Puzzles, aus denen das Kind eine sinnvolle Figur zusammensetzen muss.

AV Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und sozialen Situationen oder Regeln erfordern.

SS Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet.

ZN Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge (ZN vorwärts) beziehungsweise in umgekehrter Reihenfolge (ZN rückwärts) nachspre-chen soll.


Der HAWIK-III wird, wie sämtliche Wechsler-Intelligenztests, in der diagnostischen Einzelfallun-

tersuchung eingesetzt und ermöglicht die Darstellung eines intraindividuellen Leistungsprofils.

Die von den jeweiligen Untertests erfassten kognitiven Funktionen (Tewes et al., 2002) werden

in Tabelle 4.4 beschrieben.


Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al., 2002) Test Beschreibung der erfassten Funktionen Kerntests (zur Bestimmung der IQ-Werte)

BE Beobachtungsgenauigkeit und Fähigkeit zum Erkennen fehlender Details bei vertrau-ten Objekten, Fähigkeit zwischen wesentlichen und unwesentlichen Details zu unter-scheiden

AW Breite des erworbenen Wissens, Langzeitgedächtnis für Faktenwissen, Interesse und Neugier für kulturspezifische Kenntnisse

ZST Visuomotorische Koordination, Konzentration und Arbeitsgeschwindigkeit, visuelles Kurzzeitgedächtnis

GF Erkennen von unmittelbaren, funktionalen oder abstrakten Beziehungen zwischen Begriffen, Objekten oder Qualitäten auf der Grundlage von Analogiebildungen.

BO Praktisches Urteilsvermögen beim Erkennen von logischen Ereignisfolgen und Ursa-che-Wirkungszusammenhängen, schlussfolgerndes Denken, Aufmerksamkeit für De-tails und Hintergrundinformationen

RD Akustische Merkfähigkeit, Arbeitsgedächtnis, Konzentrationsvermögen und Fähigkeit zur Lösung einfacher Rechenaufgaben im Kopf und unter Zeitdruck

MT Räumliche Wahrnehmung und visuomotorische Koordination, Unterscheidung zwi-schen Teilen und Ganzem beim Erkennen abstrakter visueller Muster

WT Wortkenntnis, Umfang des Wortschatzes, Fähigkeit zur Definition von Begriffen, all-gemeine sprachliche Entwicklung

FL Wiedererkennen von vertrauten Objekten, Erkennen von Beziehungen zwischen Tei-len und dem Ganzen

AV Praktisches Urteilsvermögen, Kenntnis konventioneller sozialer Regeln und ihrer Be-deutungen

Optionale Untertests (zur Bestimmung der Index-Werte)

SS Beobachtungsgenauigkeit und Konzentration, Geschwindigkeit geistiger Verarbei-tungsprozesse

ZN Akustische Merkfähigkeit, Arbeitsgedächtnis, Aufmerksamkeit und Konzentrations-vermögen


4.3 Der HAWIK-IV

Der HAWIK-IV stellt die deutschsprachige Version der WISC-IV dar, die 2003 in den USA er-

schien. Wie oben beschrieben weist er eine deutlich andere hierarchische Struktur auf als bis-

herige HAWIK-Versionen (siehe Abbildung 4.2). Der Gesamt-IQ wird nicht mehr in Verbal- und

Handlungsteil unterteilt, sondern in die vier Indizes Sprachverständnis (SV), Wahrnehmungs-

gebundenes Logisches Denken (WLD), Arbeitsgedächtnis (AGD) und Verarbeitungsgeschwin-

digkeit (VG). Diese werden wiederum mit Hilfe von zwei oder drei Untertests berechnet.


Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Pe-termann, 2008a) Anmerkungen: Abkürzungen siehe Anhang A5 und A6. In Anlehnung an die Intelligenzmodelle wird die Teststruktur in runden und eckigen Kästchen dargestellt (siehe Kapitel 3).

Der HAWIK-IV umfasst 15 Untertests, von denen 10 in die Berechnung der Indexwerte und des

Gesamt-IQ einfließen. Tabelle 4.5 enthält die inhaltliche Beschreibung der Untertests.

Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) Test Beschreibung

MT Mit Hilfe von zweifarbigen Würfeln soll das Kind unterschiedlich komplexe Muster-vorlagen innerhalb einer vorgegebenen Zeitspanne nachbauen.

GF Das Kind soll das Gemeinsame von mündlich vorgegebenen Begriffspaaren benennen oder beschreiben, die sich auf Konzepte oder Gegenstände des Alltags beziehen.

ZN Dem Kind wird eine Serie von Zahlen vorgesprochen, die es in derselben Reihenfolge (ZN-V) beziehungsweise in umgekehrter Reihenfolge (ZN-R) nachsprechen soll.

BK Das Kind soll aus zwei bzw. drei Bildreihen (mit je zwei bis vier Bildern) jeweils ein Bild auswählen, um daraus eine Gruppe mit einer gemeinsamen Eigenschaft zu bilden.

ZST Eine Serie einfacher geometrischer Figuren (ZST-A) oder Ziffern (ZST-B), der das Kind abstrakte Symbole zuordnet. Es zeichnet durch Verwendung eines Entschlüsselungs-codes in einer begrenzten Zeit die Symbole in die dazugehörigen Figuren bzw. Ziffern.

WT Bei den Bildaufgaben benennt das Kind die Bilder, die ihm vorgelegt werden. Bei den verbalen Aufgaben gibt das Kind Definitionen für verschiedene Worte.

BZF Dem Kind werden eine Reihe von Nummern und Buchstaben vorgelesen. Es gibt die Nummern in aufsteigender und die Buchstaben in alphabetischer Reihenfolge wieder.

MZ Das Kind betrachtet eine unvollständige Matrize und wählt das fehlende Teil aus fünf Antwortmöglichkeiten.

AV Das Kind beantwortet Fragen, die das Verständnis von allgemeinen Prinzipien und sozialen Situationen oder Regeln erfordern.

SYS Das Kind vergleicht in einer begrenzten Zeit eine Gruppe von abstrakten Symbolen mit einem Zielsymbol und gibt an, ob sich das Zielsymbol in der Suchgruppe befindet.

BE Das Kind sieht eine Reihe von Bildern und zeigt oder benennt das wichtige Teil/Detail, das auf dem jeweiligen Bild fehlt.

DT Das Kind betrachtet eine unstrukturierte beziehungsweise eine strukturierte Bilder-anordnung und markiert in einer begrenzten Zeit die Zielbilder (Tiere).

AW Das Kind beantwortet Fragen über allgemein bekannte Ereignisse, Sachverhalte, Orte und Persönlichkeiten.

RD Das Kind löst eine Serie von mündlich vorgegebenen Rechenaufgaben.

BEN Das Kind entschlüsselt den allgemeinen Begriff, der mit einer Reihe von Sätzen (Satz-teilen) umschrieben wird.


AV

Gesamt-IQ

SV WLD AGD VG

GF WT MT BK ZST SYS ZN BZF MZ


Wie oben beschrieben, wurden einige Untertests zur Erhebung der HAWIK-IV-Funktionen ent-

wickelt, die in den vergangenen Jahren als wichtige kognitive Fähigkeitsbereiche ermittelt

wurden. Die erfassten Funktionen sämtlicher Untertests werden in Tabelle 4.6 beschrieben.

Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et al., 2007). Test Beschreibung der erfassten Funktionen Kerntests (zur Bestimmung der IQ-Werte)

MT Analyse und Synthetisierung abstrakter visueller Stimuli, nonverbale Konzeptbildung, visuelle Wahrnehmung und Organisation, visuomotorische Koordination, Figur-Grund-Unterscheidung bei visuellen Stimuli

GF Verbales Schlussfolgern und Konzeptbildung, auditives Verständnis, Gedächtnis, ver-baler Ausdruck

ZN

Auditives Kurzzeitgedächtnis; Fertigkeit zur Reihenbildung, Aufmerksamkeit. Zahlen nachsprechen vorwärts: automatisiertes Lernen, Gedächtnis, Aufmerksamkeit. Zahlen nachsprechen rückwärts: Arbeitsgedächtnis, mentale Rotation, visuell-räumliches Vorstellungsvermögen. Wechsel: kognitive Flexibilität

BK Abstraktes kategoriales Denken

ZST Kognitive Verarbeitungsgeschwindigkeit, Kurzzeitgedächtnis, Lernfähigkeit, visuelle Wahrnehmung, visuomotorische Koordination, Fähigkeit zum visuellen Scanning, kognitive Flexibilität, Aufmerksamkeit

WT Wortwissen und Begriffsbildung, Lernfähigkeit, Langzeitgedächtnis, Sprachentwick-lung

BZF Reihenfolgenbildung, mentale Rotation, Aufmerksamkeit, auditives Kurzzeitgedächt-nis, visuell-räumliches Vorstellungsvermögen, Verarbeitungsgeschwindigkeit

MZ Fluide Intelligenz

AV Verbales Schlussfolgern und verbale Konzeptualisierung, sprachliches Verständnis, sprachlicher Ausdruck, Wissen um konventionelle Verhaltensstandards, soziales Ur-teil

SYS Kognitive Verarbeitungsgeschwindigkeit, visuelles Kurzzeitgedächtnis, visuomotori-sche Koordination, kognitive Flexibilität, visuelle Diskrimination, Konzentration

Optionale Untertests (zusätzliche Informationen) BE Visuelle Wahrnehmung und visuelle Organisation DT Verarbeitungsgeschwindigkeit, visuelle selektive Aufmerksamkeit AW Kristalline Intelligenz, allgemeines Faktenwissen, Langzeitgedächtnis

RD Mentale Rotation, Konzentration, Aufmerksamkeit, Kurz- und Langzeitgedächtnis, Rechenfähigkeit

BEN Verbales Schlussfolgern, sprachliches Verständnis, verbale Abstraktion, Bereichswis-sen, Integration und Synthetisierung verschiedener Informationsarten, Generierung alternativer Konzepte


4.4 Testgütekriterien des HAWIK-III und HAWIK-IV Nach Amelang und Schmidt-Atzert (2006) können die Gütekriterien zur Bewertung eines Test-

verfahrens wie folgt aufgegliedert werden:

Kriterien zu den Grundlagen eines Tests (diagnostische Zielsetzung, theoretische Grundlagen und Nachvollziehbarkeit der Testkonstruktion),


Kriterien zur Durchführung eines Tests (Durchführungsobjektivität, Transparenz, Zu-mutbarkeit, Verfälschbarkeit und Störanfälligkeit),

Kriterien zur Verwertung eines Tests (Auswertungsobjektivität, Zuverlässigkeit, Gültig-keit, Normierung, Bandbreite, Informationsausschöpfung und Änderungssensitivität),

Kriterien zur Evaluation eines Tests (Ökonomie, Fairness, Akzeptanz, Vergleichbarkeit und Bewährung) sowie

Kriterien zur äußeren Gestaltung eines Tests.

Dabei kommen den Hauptgütekriterien Objektivität, Reliabilität und Validität zentrale Bedeu-

tung zu.

4.4.1 Objektivität

Die Objektivität eines Intelligenztests ist von großer Bedeutung (Hall, Howerton & Bolin, 2005;

Lipsius, Petermann & Daseking, 2008). Ihr Mangel kann zu Einschränkungen der Aussagekraft

auch dieser Studie führen. Die Objektivität bestimmt sich dabei nach dem Ausmaß, in dem die

Ergebnisse eines Tests unabhängig von der Person des Untersuchungsleiters sind (Amelang &

Schmidt-Atzert, 2006).

Bei umfangreichen Testbatterien wie dem HAWIK-III und -IV führen Fehler des Testleiters in

der Durchführung und Auswertung des Tests bisweilen zu gravierenden Abweichungen zwi-

schen Testergebnis und wahrem Wert. Um dem mangelhaften Umgang mit Testverfahren ent-

gegenzuwirken, haben in der Vergangenheit einige Organisationen Testleitlinien und

-standards entwickelt (Häcker, Leutner & Amelang, 1998; Moosbrugger & Höfling, 2006). Zu

nennen sind vor allem die Standards für pädagogisches und psychologisches Testen, die von

der AERA (American Educational Research Association), der APA (American Psychological Asso-

ciation) und der NCME (National Council on Measurement in Education) entwickelt wurden

(Standards for educational and psychological testing, AERA, APA & NCME, 1999) sowie die

Richtlinien der International Test Commission (International guidelines for test use, ITC, 2000).

Letztgenannte liegen in deutscher Fassung vom BDP (Berufsverband Deutscher Psychologinnen

und Psychologen) vor (2001). Auch die Interpretationsobjektivität ist bei Intelligenztests nicht

immer gegeben. Sie betrifft den Grad der Eindeutigkeit, mit der gleichen Werten (also in die-

sem Fall Testergebnissen) auch gleiche Merkmalsausprägungen (also hier kognitive Fähigkei-

ten) zugeordnet werden (Fisseni, 2004).

4.4.1.1 Objektivität im HAWIK-III

Die Durchführung des HAWIK-III erfolgt weitestgehend anhand standardisierter Materialien.

Im Manual werden keine empirischen Befunde zur Objektivtät berichtet, was auch kritisiert

wird (Renner & Fricke, 2001). Studien zur Durchführungs- und Auswertungsobjektivität des

HAWIK-III kamen übereinstimmend zu dem Ergebnis, dass Testleiter vor allem in den verbalen

Untertests häufig eine große Anzahl sehr unterschiedlicher Fehler machen und somit eine voll-


ständige Objektivität nicht gewährleistet ist (Alfonso, Johnson, Patinella & Rader, 1998; Hall et

al., 2005). Außerdem wurde bemängelt, dass die Antwortbeispiele nicht immer dem aktuellen

Sprachgebrauch der Kinder entsprächen und somit eine Bewertungsentscheidung erschwert

werde. Bei konsequenter Einhaltung der Richtlinien für die Testdurchführung und -auswertung

kann jedoch von einer Durchführungs- und Auswertungsobjektivität ausgegangen werden (Da-

seking & Petermann, 2004; Jacobs, Heubrock & Petermann, 2002). Die oftmals notwendige

parallele Protokollierung und Bewertung sowie der sekundengenaue Umgang mit der Stopp-

uhr erfordern eine intensive Einarbeitung in den Test. Die Auswertung wird durch Beispiele

und Schablonen erleichtert.

4.4.1.2 Objektivität im HAWIK-IV

Zur Reduzierung von Durchführungs- und Bewertungsfehlern wurde das Design des WISC-IV-

Protokollbogens geändert. Eine verkürzte Version der wichtigsten Regeln zu Einstiegsalter,

Umkehr, Abbruch und Bewertung befindet sich für jeden Untertest auf dem Protokollbogen.

Zur Verbesserung der Anwenderfreundlichkeit des Tests wurden die Durchführungsprozeduren

modifiziert. Die Instruktionen an die Testleiter sind kürzer und verständlicher gehalten. Zur

objektiveren Gestaltung der Bewertung wurden zusätzliche Beispielantworten einbezogen. Für

konsistente und klare Durchführung wird außerdem in den Anweisungen bei allen Untertests

ein ähnlicher Wortlaut verwendet. Diese Veränderungen wurden auch für den HAWIK-IV über-

nommen und werden positiv bewertet (Deimann & Kastner-Koller, 2008; Renner, 2008).

Zur Bestimmung angemessener Punktwerte für vielfältige Antworttypen wurden für jene Un-

tertestaufgaben, die elaboriertere Antworten erfordern, eine Reihe von Studien durchgeführt

(siehe dazu Wechsler, 2003b). Dem begrenzten Wortschatz jüngerer Kinder wurde durch die

stärkere Betonung der Bedeutung der Antworten als deren präziser Inhalt Rechnung getragen.

Zur Erleichterung der Bewertung der verbalen Untertests wurden zusätzliche Beispielantwor-

ten in das Manual aufgenommen. Mit dem Überblick über die gravierendsten Durchführungs-

und Auswertungsfehler am Ende des deutschen HAWIK-IV-Manuals wurde ein weiterer sinn-

voller Versuch unternommen, die Objektivität des Tests zu verbessern (Lipsius et al., 2008).

Insgesamt wurde bei der Entwicklung der WISC-IV dem Problem der Testleiterobjektivität

durch anwenderfreundlichere Durchführungsanweisungen begegnet. Dennoch zeigen bisheri-

ge Studien, dass der HAWIK-IV, ebenso wie die WISC-IV, weiterhin ein hohes Fehlerpotential

hinsichtlich der Durchführung, Auswertung und Interpretation birgt (Linger, Ray, Zachar, Un-

derhill & Lobello, 2007; Platt, Zachar, Ray, Underhill & Lobello, 2007). Beispielsweise führten

bei einer Untersuchung zum HAWIK-IV eine fehlerhafte Auswertung der sprachlichen Unter-

tests zu Abweichungen von bis zu 33 IQ-Punkten im SV (Lipsius et al., 2008). In einer Studie zur

WISC-IV (Loe, Kadlubek & Marks, 2007) wiesen 98 % der untersuchten Testprotokolle Fehler

auf; im Schnitt waren es mehr als 25 Fehler pro Test.


4.4.2 Reliabilität

Die Reliabilität beschreibt, wie genau ein Test misst und gibt Auskunft über die situationsüber-

greifende Stabilität und Konsistenz der Testwerte (Bortz & Döring, 2002). Tests mit geringer

Reliabilität beinhalten mehr Messfehler und demzufolge höhere Standardmessfehler als Test-

verfahren mit hoher Reliabilität. Daraus resultieren für Tests mit geringeren Reliabilitäten brei-

tere Konfidenzintervalle, die den wahren Wert umgeben. Damit gilt die Reliabilität als das Va-

rianzverhältnis zwischen wahren und beobachteten Werten (Bühner, 2004). Im Allgemeinen

gelten erst Reliabilitäten ab .80 als ausreichend. Daher wird davon abgeraten, Tests mit Relia-

bilitäten unter .80 für wichtige Screening- oder Diagnose-Entscheidungen zu verwenden (Fla-

nagan & Kaufman, 2004).

Die Reliabilitäten des HAWIK-III und -IV wurden nach der Testhalbierungsmethode bestimmt

und nach Spearman-Brown korrigiert.

Die Reliabilitäten des HAWIK-III und HAWIK-IV (siehe Tabelle 4.7) erweisen sich auf Ebene der

Index-Werte und des Gesamt-IQ als fast identisch. Auf Ebene der Untertests sind jedoch teil-

weise größere Abweichungen zu verzeichnen.

Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV Untertest/Index HAWIK-III HAWIK-IV MT .88 .85 GF .80 .87 ZN .88 .84 ZST .85 .85 WT .88 .90 AV .81 .81 SS/SYS .79 .79 BE .74 .83 AW .85 .85 RD .84 .89 SV/SV .94 .94 WO/WLD .90 .93 UA/AGD .89 .92 AG/VG .87 .87 V-IQ/SV .95 .94 H-IQ/WLD .91 .93 Gesamt-IQ .96 .97

Anmerkungen: Reliabilitäten mit einer Differenz von ≥ .05 sind grau hervorgehoben. Es werden nur die Reliabilitäten der Untertests dargestellt, die in beiden Testversionen vorhanden sind. Abkürzungen siehe Anhang A5 und A6.

Als Untertest mit der am meisten voneinander abweichenden Reliabilität stellt sich das Bilder

ergänzen4 dar, gefolgt vom Gemeinsamkeiten finden.

4 Bezieht sich die Untertestbezeichnung nicht eindeutig auf den Untertest einer bestimmten Testversion wird die Schreibweise des HAWIK-IV verwendet.


Auch wenn sich die Reliabilitäten der Untertests Zahlen-Symbol-Test und Symbol-Suche als

identisch erweisen, kann nicht von einer vergleichbaren Reliabilität ausgegangen werden, da

sie auf unterschiedliche Arten berechnet wurden. Im HAWIK-III wurden sie getrennt für Form A

und B an zwei Altersgruppen von jeweils 75 Kindern geschätzt. Dabei wurde die Anzahl der

richtigen Lösungen der ersten 60 Sekunden mit der Anzahl der richtigen Lösungen der zweiten

60 Sekunden korreliert. Auf die Berechnung der Reliabilitäten nach der Testwiederholungsme-

thode wurde mit dem Hinweis auf die Ergebnisse der WISC-III verzichtet (Tewes et al., 2002).

Im HAWIK-IV wurde dagegen für die Untertests des Index VG die Retest-Reliabilität bestimmt.

Dabei stellt der Koeffizient die Korrelation zwischen den Werten der ersten und der zweiten

Testung von 103 Kindern aus drei Altersstufen dar, korrigiert um die Varianz der Normierungs-

stichprobe.

In den Untertests des Verbalteils im HAWIK-III zeigten sich mit .80 bis .88 höhere Reliabilitäten

als in den Untertests des Handlungsteils mit Werten zwischen .68 und .88. Neben dem in die-

ser Studie nicht berücksichtigten Labyrinth-Test weist Figurenlegen mit .69 die niedrigste Re-

liabilität auf. Die Indizes beinhalten mit Reliabilitäten von.87 bis .94 und die drei übergeordne-

ten IQ-Werte mit .91 bis .96 höhere Reliabilitäten als die Untertests.

Auch im HAWIK-IV fallen die Reliabilitäten der Untertests (.76 bis .91) insgesamt niedriger aus

als die Reliabilitäten der Index-Werte (.87 bis .94) und des Gesamt-IQ (.97). Dies kann damit

begründet werden, dass die Reliabilitätswerte generell höher ausfallen, je mehr Werte in die

Berechnung einfließen.

4.4.3 Validität

Die Überprüfung der Validität (oder Validierung) soll Aufschluss darüber erbringen, welche

Aspekte des Verhaltens vom jeweiligen Instrument erfasst werden und welche Prognosen mit

ihm möglich sind (Lienert & Raatz, 1998). Nur mit einer hohen Validität kann es möglich sein,

einen Test gezielt einzusetzen und sinnvoll zu interpretieren (Holling et al., 2004). Im Folgen-

den wird nur auf die für diese Vergleichsstudie relevanten Validitätsaspekte eingegangen.

4.4.3.1 Nachweis der internen Struktur

Die Überprüfung der internen Struktur gibt den Grad an, in dem die Beziehungen unter Test-

aufgaben und Testkomponenten zu dem Konstrukt passen, auf dem die vorgeschlagenen Test-

interpretationen basieren (Standards for educational and psychological testing, AERA, APA &

NCME, 1999). Interne Validität ist demnach dann gegeben, wenn das Testergebnis den An-

nahmen entspricht, die vorher aufgestellt wurden.


Die interne Struktur wird mit Hilfe von Faktorenanalysen überprüft. Auch in dieser Studie soll

untersucht werden, inwieweit sich die Faktoren, die die beiden Testverfahren zu messen vor-

geben, in den vorliegenden Daten wiederfinden lassen.

Die Werte der mit den Normierungsdaten der WISC-IV durchgeführten exploratorischen Fakto-

renanalyse können Tabelle 4.8 entnommen werden.

Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte Normie-rungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b). Faktor Untertest SV WLD AGD VG WT .87 -.05 .06 .00 AV .78 -.13 .06 .07 BEN .73 .09 -.07 -.01 GF .71 .13 .02 -.02 AW .71 .08 .11 -.06 MT -.06 .78 .04 -.02 MZ -.03 .64 .19 -.04 BE .32 .60 -.26 .02 BK .16 .40 .06 .02 ZN .00 -.03 .67 -.05 BZF .11 -.04 .62 .00 RD .14 .18 .51 .03 ZST -.02 .01 .05 .70 DT .01 -.09 -.11 .65 SYS .01 .17 .08 .54

Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe Anhang A5 und A6.

Faktorenanalysen des HAWIK-III: Zur Prüfung, inwieweit dem HAWIK-III eine ähnliche Fakto-

renstruktur zugrunde liegt wie der WISC-III, deren Struktur anhand von Faktorenanalysen be-

stätigt werden konnte (Näheres dazu siehe Blaha & Wallbrown, 1996; Keith & Witta, 1997;

Konold, Kush & Canivez, 1997; Sattler, 2001), wurden Faktorenanalysen auf Basis der Normie-

rungsstichprobe für vier separate Altersgruppen und die Gesamtstichprobe durchgeführt (Te-

wes et al., 2002). Die Berechnungen erfolgten nach der Maximum-Likelihood-Methode mit

Varimax-Rotation. Zur Überprüfung der Aufteilung in Verbal- und Handlungsteil wurde zu-

nächst eine Faktorenanalyse für eine Zweifaktorenlösung berechnet. Auf der Basis der Ge-

samtstichprobe zeigten sich bei allen Untertests des Verbalteils hohe Ladungen auf dem ersten

Faktor, mit Ausnahme des Zahlennachsprechens, das - ebenso wie die Untertests des Hand-

lungsteils - eine etwas höhere Ladung auf dem zweiten Faktor aufwies. Rechnerisches Denken

lud ebenso wie das Zahlennachsprechen annähernd gleich hoch auf beiden Faktoren. Die Un-

tersuchung der Vier-Faktoren-Struktur auf Index-Ebene wurde für verschiedene Altersgruppen

sowie die Gesamtstichprobe mit unterschiedlichen Abbruchkriterien berechnet, wodurch sich

die Faktorenanzahl und die Faktorenstruktur veränderten. Unter Beschränkung der Extraktion

auf Faktoren mit Eigenwerten von >1, ergaben sich für die Gesamtstichprobe drei Faktoren


(SV, WO und AG). Der Index UA zeigte jedoch einen Eigenwert von deutlich unter 1.0. Auch

wenn die Autoren des HAWIK-III die Ergebnisse mit Abstrichen als empirische Bestätigung für

die vier Faktoren ansahen, wurde die Interpretation der Testergebnisse auf Index-Ebene viel-

fach kritisiert. So konnte nachgewiesen werden, dass insbesondere der Faktor UA nicht explizit

Ablenkbarkeit oder Hyperaktivität erfasst, auch wenn er sehr häufig in dieser Weise und als

Hinweis auf ADHS interpretiert wurde (Naglieri & Paolitto, 2005; Zhu et al., 2004).

Faktorenanalysen des HAWIK-IV: Die von den Testentwicklern vorgegebene Zuordnung der

Untertests zu den vier Indizes konnte auf der Basis der deutschsprachigen Normierungsstich-

probe faktorenanalytisch sowohl für die zehn Kerntests als auch für alle 15 Untertests bestätigt

werden (Petermann & Petermann, 2008a, siehe Tabelle 4.9).

Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133). Faktor Untertest SV WLD AGD VG WT .67 .09 .17 .09 GF .62 .23 .09 .08 AV .61 .13 .11 .17 BEN .60 .10 .15 .14 AW .58 .16 .21 .08 BE .20 .58 .06 .10 MT .09 .55 .10 .20 MZ .03 .53 .26 .12 BK .13 .51 .17 .04 ZN .06 .00 .69 .09 BZF .05 .12 .69 .06 RD .13 .26 .55 .06 SYS .06 -.03 .04 .82 ZST -.01 .08 .05 .76 DT .09 .19 .10 .48 Anmerkungen: Sortiert nach Index und nach Höhe der Faktorladungen. Abkürzungen siehe Anhang A5 und A6.

4.4.3.2 Konstruktvalidität

Die Konstruktvalidität spiegelt die Aussagekraft eines Testwerts als Messung des Ausprägungs-

grades der interessierenden psychologischen Eigenschaft wider (Häcker et al., 1998). Ein Test

ist demnach konstruktvalide, wenn aus dem zu erfassenden Zielkonstrukt Hypothesen ableit-

bar sind, die anhand der Testwerte bestätigt werden können (Bortz & Döring, 2002). Sie be-

schreibt ein Gesamtbild der Validität, das sich beispielsweise aus dem Nachweis des dem Test

zu Grunde liegenden Modells (z. B. durch Prüfung von Strukturannahmen) oder aus anderen

Bestandteilen wie der diskriminanten und der konvergenten Validität eines Tests ergibt. Die

konvergente Validität setzt hohe Korrelationen der Messdaten von Testverfahren voraus, die

dasselbe Konstrukt abbilden. Eine hohe diskriminante Validität liegt hingegen dann vor, wenn

ein Test zu anderen Tests, die andere Konstrukte abbilden, niedrige Zusammenhänge aufweist.


Zur Untersuchung der diskriminanten und konvergenten Validität der WISC- bzw. HAWIK-

Versionen werden in einer Multitrait-Multimethod-Matrix die Interkorrelationen der Unter-

tests angegeben. Dabei wird zum einen davon ausgegangen, dass die Untertests untereinander

zumindest niedrige bis mittlere Korrelationen aufweisen, da sie dem allgemeinen Intelligenz-

faktor g unterliegen. Zweitens werden hohe Interkorrelationen der Untertests erwartet, die zu

einem Index gehören, während bei den Untertests unterschiedlicher Indizes niedrige Interkor-

relationen erwartet werden. Drittens zeigen in bisherigen Studien einige Untertests höhere

Korrelationen mit g als andere Untertests (Keith et al., 2006; Sattler, 2001; Wechsler, 2003b).

Aus diesem Grund ist in den Untertests eine relativ hohe Interkorrelation zu erwarten, die

hoch auf g laden. Diese Hypothesen konnten für sämtliche Wechsler-Skalen bestätigt werden

(für Ausführlicheres soll an dieser Stelle auf die entsprechenden Testmanuale verwiesen wer-

den).

4.4.4 Normen des HAWIK-III und HAWIK-IV

Das Manual des HAWIK-III bietet Testnormen und Umrechnungstabellen für die Altersspanne

von 6;0 bis 16;11 Jahren in Vier-Monats-Intervallen für 33 Altersgruppen mit insgesamt 1 570

Kindern und Jugendlichen. Die Normierung des HAWIK-III erfolgte von 1995 bis 1998 in

Deutschland, Österreich und der deutschsprachigen Schweiz. Auswahl und bildungsspezifische

Zuordnung der Kinder erfolgte nach Angaben des deutschen Statistischen Jahrbuchs (Näheres

dazu siehe Tewes et al., 2002).

Die Normierungsstichprobe des HAWIK-IV, die zwischen März 2005 und Mai 2006 in Deutsch-

land, Österreich und der deutschsprachigen Schweiz erhoben wurde, beinhaltet die Daten von

1 650 Kindern und Jugendlichen im Alter von 6;0 bis 16;11 Jahren, (unter Bezug auf Angaben

des Statistischen Bundesamtes der BRD) geschichtet nach Merkmalen wie Region, Schulform

und Schulabschluss der Eltern. Wie im HAWIK-III wurden die Normtabellen in Vier-Monats-

Intervalle unterteilt.

4.4.5 Boden- und Deckeneffekte

Boden- und Deckeneffekte beeinträchtigen die Beurteilung der wahren Fähigkeiten einer Per-

son durch den Test. Sie führen zu einer niedrigeren Reliabilität und somit zu einem größeren

Messfehler. Beinhaltet ein Test zu wenige sehr leichte und sehr schwierige Aufgaben, kann an

den Randbereichen nicht ausreichend differenziert werden. Da die Skala beispielsweise bei

den Wechsler-Skalen auf die Wertpunkte 1 bis 19 festgelegt wurde, kann in einem Untertest

nicht mehr als drei Standardabweichungen (9 Punkte) vom Mittelwert abgewichen werden.

Aufgrund von Boden- und Deckeneffekten sind einige Testverfahren nicht ausreichend zur

Diagnose von Hoch- oder Minderbegabung geeignet, da aufgrund der Normalverteilung nur

wenige Personen an den Randbereichen getestet wurden und diese somit durch zu wenige


leichte und schwierige Aufgaben nicht ausreichend Ergebnisvarianz aufweisen (Preckel, 2003).

Die beste Differenzierung findet sich für alle Altersstufen im mittleren Leistungsbereich.

Zwar wurde der WISC-III eine recht gute Differenzierung im oberen Bereich zuerkannt (Kauf-

man, 1992), bei Hochbegabten galt dies allerdings nur im Altersbereich 6 bis 14 Jahre. Auch

der HAWIK-III unterscheidet in den extremen Leistungsbereichen nicht in allen Altersgruppen

gleichermaßen hochwertig (Daseking & Petermann, 2004). Die Testautoren weisen auf das

Problem mangelhafter Differenzierung bei geistig retardierten Kindern am unteren (Bodenef-

fekt) und hochbegabten Jugendlichen am oberen Altersrand (Deckeneffekt) hin (Tewes et al.,

2002). Andere Autoren beschreiben ebenfalls die Problematik des Deckeneffektes bei Hochbe-

gabten im HAWIK-III (Bründler et al., 2007; Preusche & Leiss, 2003; Sparrow & Gurland, 1998).

Den Untertests der WISC-IV werden dagegen gute Differenzierungsmöglichkeiten im oberen

und unteren Leistungsbereich attestiert (Flanagan & Kaufman, 2004). Um eine adäquate Abde-

ckung eines weiten Bereiches kognitiver Fähigkeiten sicherzustellen, wurden sowohl leichtere

als auch schwierigere Aufgaben hinzugefügt (z. B. vier Bildaufgaben zum Wortschatz-Test und

15 zusätzliche Aufgaben zur Symbol-Suche-B). Damit sollen nun für sämtliche Kerntests über

alle Altersstufen hinweg Standardwerte bis zu drei SD über dem Mittelwert vorgesehen sein.

Nach den Autoren des HAWIK-IV reicht dessen Differenzierung von sechsjährigen Kindern mit

moderater geistiger Entwicklungsverzögerung bis zu 16-jährigen Kindern mit intellektueller

Hochbegabung (Petermann & Petermann, 2008a). Dafür wurden sowohl Kinder in die Normie-

rung miteinbezogen, die nach den Kriterien des ICD-10 die Diagnose einer leichten oder mit-

telgradigen geistigen Behinderung erhielten als auch Kinder mit einer diagnostizierten intellek-

tuellen Hochbegabung. Auch Renner (2008) attestiert dem HAWIK-IV kaum Boden- und De-

ckeneffekte und sieht somit eine deutliche Verbesserung zum HAWIK-III hinsichtlich der Diffe-

renzierung in den Extrembereichen.

Innerhalb der fünf optionalen Untertests zeigt in der WISC-IV nur das Word Reasoning (ent-

spricht dem Begriffe erkennen) einen leichten Deckeneffekt ab dem Alter 14. Im HAWIK-IV

weist lediglich das Begriffe erkennen und Bilder ergänzen bei Kindern von 16 Jahren einen

leichten Deckeneffekt auf. Da es sich dabei jedoch nur um optionale Untertests handelt, kann

bei der WISC-IV ebenso wie beim HAWIK-IV von einer guten Differenzierung im oberen Rand-

bereich ausgegangen werden, was ihn zu einem der geeignetsten Intelligenztests für Hochbe-

gabte macht (Sparrow, Pfeiffer & Newman, 2005).

4.5 Die Bewertung der Wechsler-Skalen Die Kritik an den Wechsler-Skalen lässt sich in verschiedene Kategorien einteilen.


4.5.1 Fehlende theoretische Bindung

Obwohl überwältigende Nachweise für die klinische Relevanz der Wechsler-Skalen geliefert

werden konnten, wurde immer wieder das Fehlen eines expliziten zu Grunde liegenden theo-

retischen Konzepts moniert (z. B. Beres, Kaufman & Perlman, 2000; Esters, Ittenbach & Han,

1997). So bezeichnen Esters et al. (1997) die WISC-III als Arbeitstier der IQ-Tests, mit dem zwar

viel untersucht werde, jedoch nichts hinsichtlich einer vertretbaren theoretischen Grundlage.

Die Tradition der Wechsler-Skalen ebenso wie ihr Marktanteil ständen sogar einem entspre-

chenden wissenschaftlichen Fortschritt im Wege. „One wonders how much longer it will be

before tradition and market share give way to the new and improved science of psychological

assessment“ (S. 214). Vor allem den Versionen bis zur WISC-III wurde mangelnde Anpassung

an den Stand der Forschung vorgeworfen. Kamphaus (1993) fasste zusammen: „The Wechsler-

III`s history is also its greatest liability. Much has been learned about children`s cognitive de-

velopment since the conceptualization of the Wechsler scales, and yet few of these findings

have been incorporated into revisions” (S. 156).

Nach Sternberg (1993, zitiert nach Prifitera, 1994) sind neuere Intelligenztests, die auf aktuel-

len Theorien basieren, jedoch entweder nicht verfügbar oder weisen nur eingeschränkte Güte-

kriterien auf, weshalb die herkömmlichen Intelligenztests so populär blieben. Außerdem wür-

den seiner Meinung nach Teile der WISC-III tatsächlich relativ zuverlässig solche Konstrukte

erfassen, die auf aktuellen Intelligenztheorien basieren (siehe Kapitel 3). Trotzdem werden die

Wechsler-Skalen immer wieder mit dem Vorwurf konfrontiert, die Interpretation der Tester-

gebnisse bleibe weitgehend der Intuition der Diagnostiker überlassen, da ihnen kein theoreti-

sches, empirisch erprobtes Modell zugrundeliege (Holling et al., 2004). McFie (1975) behauptet

sogar, es sei nur ein glücklicher Zufall, dass viele der Wechsler-Untertests neurologische Rele-

vanz zeigten.

Carroll (1993) bewertete die Wechsler-Skalen im Zuge seiner faktorenanalytischen Studien wie

folgt: „Presently available technology would permit the development of tests and scales that

would be much more adequate for their purpose than the Wechsler scales” (S. 702). Nach Zhu

und Weiss (2005), die an der Entwicklung der WISC-IV beteiligt waren, schlagen die neuen

Versionen der Wechsler-Skalen ebenso wie ihre Vorgänger hingegen eine Brücke zwischen den

Ideen verschiedener Intelligenztheorien. So sei behutsam dafür gesorgt worden, Fortschritte in

den theoretischen und praktischen Grundlagen aus der kognitiven Diagnostik im Test wider-

zuspiegeln. Für Zhu und Weiss seien die modernen Wechsler-Skalen anders als ihre Vorgänger

klar von aktueller klinischer Forschung und theoretischen Entwicklungen geleitet. So sei zum

Beispiel mehr Wert auf die Erfassung fluiden Denkens gelegt worden, nachdem diese Fähigkeit

in vielen Theorien als wichtiger kognitiver Funktionsbereich betont wurde (u. a. Carroll, 1993,

2005).


Auch wenn den Wechsler-Skalen im Nachhinein immer wieder ein theoretisches Konzept zu

Grunde gelegt wurde, geben die Autoren der Testmanuale weiterhin eher pragmatische Grün-

de (wie langjährige klinische Erfahrungen) als Entwicklungsgrundlage an. Durch die indes enge-

re Anbindungen an die Theorie halten Flanagan und Kaufman (2004) die WISC-IV für die be-

deutsamste Neuauflage der Wechsler-Skalen. Dennoch scheiterten die Wechsler-Skalen für

Flanagan et al. (Flanagan & Kaufman, 2004; Flanagan et al., 2000) trotz allen Lobes darin, mit

der aktuellen Intelligenzforschung Schritt zu halten. Für sie sei eine aussagekräftige Interpreta-

tion der Wechsler-Skalen nur möglich, wenn aktuelle Theorien, Forschungsergebnisse und

Messprinzipien integriert würden. Klinisches Urteil und klinische Erfahrung seien allein nicht

ausreichend, um auf sie vertretbare Interpretationen zu gründen. Deshalb bieten Flanagan et

al. alternative theoretisch schlüssige und statistisch nachvollziehbare Interpretationsmöglich-

keiten für die Wechsler-Tests an, basierend auf aktuellen Intelligenztheorien wie der Gf-Gc-

Theorie (Flanagan et al., 2000) oder dem CHC-Modell (Flanagan & Kaufman, 2004).

Für Zhu et al. (2004) sei es jedoch schwer zu glauben, dass Wechsler so viele verschiedene

Skalen entwickeln konnte, die ihre klinische Relevanz nachgewiesen haben, ohne ein ihnen

zugrunde liegendes tiefes Verständnis für die Natur der Intelligenz und ohne dass Wechsler bei

der Entwicklung seiner Skalen von verschiedenen Intelligenztheorien geleitet worden sei. Bei

genauerer Betrachtung seiner Publikationen und Testmanuale zeige sich bei der Entwicklung

jeder seiner Testversionen eine stillschweigende Basierung auf den zu der jeweiligen Zeit ak-

tuellen Theorien (Zhu & Weiss, 2005). Für eine theoretische Fundierung der Wechsler-Tests

spricht die Einbindung gleicher oder ähnlicher Untertests in andere aktuelle Intelligenztests

wie dem Woodcock-Johnson III (WJ-III), der ausdrücklich auf der CHC-Theorie basiert (Wood-

cock et al., 2001).

4.5.2 Profilanalysen

Eine Besonderheit der Wechsler-Skalen ergibt sich aus der Möglichkeit der Berechnung von

Profilanalysen. Sie ermöglichen eine Interpretation des Tests mit Hilfe der Untertestergebnis-

se. Für Kritiker ist der Gebrauch solcher Analysen jedoch eingeschränkt, da die Untertests mög-

licherweise keine Fähigkeiten erfassen, die spezifisch genug seien, um ihre Interpretation zu

rechtfertigen (Prifitera, 1994). Studien ergaben zudem eine deutlich höhere Varianzaufklärung

durch den allgemeinen Intelligenzfaktor als durch die Indizes und Untertests. Somit könne die

Interpretation der Wechsler-Skalen auf Profil-Ebene zu Fehlinterpretationen führen (Glutting,

McDermott & Konold, 1997; McDermott et al., 1990; Watkins, 2006; Watkins & Kush, 1994;

Watkins et al., 2006). Ein weiterer Kritikpunkt an Profilanalysen gründet sich auf Untersu-

chungsergebnisse, die subtest-basierte Stärken und Schwächen als zeitlich instabil und somit

nicht reliabel aufwiesen. Daher sollten Empfehlungen auf dieser Grundlage ebenfalls nicht als


reliabel gelten (Watkins & Canivez, 2004). Auch die American Educational Research Association

(AERA, 1999) spricht sich gegen den Gebrauch von Profilanalysen aus. Da die Erfassung der

allgemeinen Intelligenz eine höhere Vorhersagekraft auf berufliche Leistungen und allgemei-

nes psychisches Wohlbefinden habe als abgegrenzte Teilbereiche der Intelligenz, sei es öko-

nomisch sinnvoller, die Intelligenz in ihrer Gesamtheit zu erheben. Zwar könne die Erhebung

von Teilleistungsbereichen diagnostisch sinnvoll sein, jedoch führten diese Messungen in der

Praxis nicht zwangsweise zu klinisch wertvollen Informationen (Zachary, 1990). Flanagan und

Kaufman (2004) sehen ebenfalls einen Trend hin zu „anti-profile research and writing“ (S. 1).

Andererseits halten viele Kliniker gerade die Unterschiedlichkeit der Untertests für sehr nütz-

lich bei der Diagnosestellung. Gerade Kaufman (1994a) war einer derjenigen, der die Profilana-

lyse für die WISC-III vorschlug. Da kognitive Teilleistungen eng miteinander verknüpft seien,

könnten sie auch nicht isoliert abgerufen werden. Aus diesem Grund sei es sinnvoll, Untertests

zu verwenden, die verschiedene kognitive Fähigkeiten erfassten (Zhu et al., 2004). Donders

(1996) hingegen schlägt vor, ein Testprofil eher auf Index- als auf Untertestebene zu betrach-

ten, da die Reliabilität der Indizes höher ausfällt als die der Untertests. Einige Forscher sahen

durch ihre Studien an klinischen Populationen (u. a. Kindern mit ADHS, Lernstörungen oder

traumatischen Gehirnverletzungen) mit den jeweils aktuellen Wechsler-Tests den Vorteil der

Interpretation auf Index- statt Gesamt-IQ-Ebene als ausreichend erwiesen an (Fiorello et al.,

2007; Fiorello, Hale, McGrath, Ryan & Quinn, 2001; Hale et al., 2001).

Gerade im Hinblick auf klinische Störungsbilder gelten Profilanalysen als sinnvoll (Groth-

Marnat, 1997; Mayes & Calhoun, 2004; Sattler, 2001). In einer Umfrage gaben 89 % der be-

fragten Testanwender an, die Profilanalyse zu verwenden, 70 % der Befragten zählten sie sogar

zu den wichtigsten Merkmalen der Wechsler-Skalen (Pfeiffer, Reddy, Kletzel, Schmelzer &

Boyer, 2000; Titze & Tewes, 1994). Vor allem bei Diagnosestellungen und schulischen Platzie-

rungsentscheidungen wurden sie als sehr nützlich eingestuft. Im schulpsychologischen Bereich

wird die Profilanalyse zudem als geeignetes Mittel angesehen, um unterschiedliche Aspekte in

der Lese- und Rechenleistung von Kindern zu verstehen (McGrew et al., 1997). Zur Diagnose

geistiger Behinderungen wird die Profilanalyse vom Diagnostischen und Statistischen Manual

psychischer Störungen (DSM-IV-TR, Saß, Wittchen, Zaudig & Houben, 2003) überdies sogar

explizit empfohlen. Petermann und Petermann (2008b) empfehlen, die Analyse individueller

Stärken und Schwächen mit Hilfe des HAWIK-IV im Rahmen der Therapieplanung zu berück-

sichtigen.

Die unterschiedlichen Ansichten zum Gebrauch von Profilanalysen hängen eng mit der Vorstel-

lung vom Vorhandensein eines g-Faktors zusammen (siehe Kapitel 3.6). Die Befürworter von

Profilanalysen (z. B. Flanagan & Kaufman, 2004) widersprechen dem g-Faktor (hier in Form des


Gesamt-IQ), während die Kritiker der Profilanalysen (z. B. Jensen, 1998; Watkins & Canivez,

2004) von der Existenz eines g-Faktors ausgehen.

4.5.3 Weitere Kritikpunkte

Nach Prifitera (1994) bemängeln vor allem Schulpsychologen die unzureichende Validität der

Wechsler-Skalen hinsichtlich der Hinweise auf Interventionsansätze. Sie seien nicht dafür ge-

eignet Interventionsstrategien zu entwickeln. Dieser Vorwurf entbehrt jedoch jeglicher Grund-

lage, da Intelligenztests schon im Allgemeinen nicht als geeignet gelten, Diagnosen und somit

auch Behandlungsstrategien aus ihnen abzuleiten (Daseking et al., 2007) und auch nicht dafür

konzipiert wurden. Darauf verweist auch Wechsler (1997, 2003a, 2003b) in seinen Testmanua-

len. Für ihn leisten seine Tests einen Beitrag zur Diagnosestellung und damit auch zur Ablei-

tung von Interventionsstrategien, dies sei jedoch nur in Verbindung mit anderen Testverfahren

und der Erhebung zusätzlicher Informationen durch Verhaltensbeobachtung oder die Anamne-

se der medizinischen und psychosozialen Vorgeschichte sinnvoll (siehe auch Donders, 1996).

Nach Kamphaus (2005) seien die Wechsler-Tests für junge Kinder wenig interessant gestaltet.

Die meisten Untertests (so beispielsweise das Allgemeine Verständnis) seien nur Abwandlun-

gen der Skalen für Erwachsene (WAIS bzw. WIE) und für junge Kinder zu lang.

Zu Wechslers Kritikern zählt auch Frank. In seinem Buch The Wechsler Enterprise (1983) spricht

er den seinerzeit aktuellen Wechsler-Skalen Verbesserungen gegenüber den Binet-Skalen hin-

sichtlich der Erhebung differenzierter kognitiver Leistungen verschiedener psychiatrischer Pa-

tiententypen ab und stellt somit ihren klinischen Nutzen in Frage. Untertests würde nicht ein-

zelne, sondern mehrere kognitive Funktionen gleichzeitig abbilden und die Wechsler-Tests

erfassten insgesamt nur drei der neun kognitiven Faktoren, die nach Thurstone Intelligenz

ausmachten (siehe Kapitel 3.2). Frank (1983) vergleicht die Wechsler-Skalen mit Dinosauriern:

„Too large, cumbersome and illfitted and awkward in the age in which they developed, unable

to remain viable in a psychometric age which has passed it by in conceptualization” (S. 126).

Sieht Frank 1983 die Wechsler-Skalen somit als zum Aussterben verurteilt an, muss allerdings

bedacht werden, dass die Studien, auf die er sein Urteil stützt, nur auf die älteren Testversio-

nen Bezug nehmen und mittlerweile veraltet sind. So spricht er beispielsweise von Studien, die

ergeben hätten, die Wechsler-Skalen seien keine guten Prädiktoren für Schulleistung, was

neuere Studien jedoch widerlegen (siehe Freberg, Vandiver, Watkins & Canivez, 2008; Tewes

et al., 2002; Watkins, Lei & Canivez, 2007).

4.5.4 Abschließende Betrachtung der Wechsler-Skalen

Wie viele andere Autoren sieht auch Kaufman (1993) die Wechsler-Skalen als die am besten

standardisierten Intelligenztestverfahren an. Sie seien leicht anzuwenden, besäßen gute psy-


chometrische Gütekriterien und wiesen Interpretationsansätze auf, die bekannt seien und in

den meisten psychologischen Ausbildungsprogrammen gelehrt werden. Die Gültigkeit der

Wechsler-Skalen wurde außerdem durch die hohe Korrelation mit anderen Messinstrumenten

zur Erfassung kognitiver Fähigkeiten bestätigt (Wechsler, 2003b; Zhu & Weiss, 2005). Mataraz-

zo postuliert im Vorwort des WISC-IV-Manuals (Wechsler, 2003a), dass Revisionen sämtlicher

Wechsler-Skalen aktuelle psychometrische Standards charakterisieren. Für ihn übertreffen

diese Standards die anderer psychologischer Testverfahren.

Ein weiterer positiver Aspekt besteht in der Vielzahl von Veröffentlichungen über die Wechs-

ler-Skalen, die zur praktischen Anwendbarkeit beigetragen haben (Prifitera, 1994). So unter-

stützen mehr als 60 Jahre Forschung und Anwendung den praktischen und klinischen Nutzen

der Wechsler-Skalen bei vielen Fragestellungen, wie der Diagnostik geistiger Behinderung und

Lernstörungen sowie bei klinischen Interventionen (Beres et al., 2000; Zhu et al., 2004).

Zhu et al. (Zhu & Weiss, 2005; Zhu et al., 2004) bezeichnen die Wechsler-Skalen als die am

meisten untersuchten Erhebungsinstrumente. Es steht eine immens große Anzahl an Veröf-

fentlichungen bereit, die sich mit dem klinischen Nutzen und den psychometrischen Eigen-

schaften der Skalen beschäftigen. Für viele Psychologen ist die Langlebigkeit und die häufige

Anwendung der Wechsler-Skalen Zeugnis dafür, dass Wechsler richtige und präzise Vorstellun-

gen der praktischen Bedürfnisse von Klinikern besaß, die Intelligenzdiagnostik betreiben

(Kamphaus, 2005; Zachary, 1990).

So stehen die Wechsler-Skalen trotz all der Kritik und der Innovationen anderer neuer oder

revidierter Intelligenztests nach Flanagan und Kaufman (2004) weiterhin unangefochten an

erster Stelle. Auch die Kritiker Wechslers erkennen den großen Einfluss an, den sie auf die Er-

forschung menschlicher Intelligenz und der Struktur kognitiver Fähigkeiten ausgeübt haben

und weiterhin ausüben. So zollen McDermott und seine Kollegen (1990) trotz ihrer Kritik am

Umgang mit Profilanalysen dem Großteil vom Erbe Wechslers ihren Respekt.

4.6 Bewertung der WISC-IV Die wichtigsten Ziele bei der Entwicklung der WISC-IV waren die Aktualisierung der theoreti-

schen Grundlagen, die Anpassung an den Entwicklungsstand der Kinder, die Verbesserung der

psychometrischen Eigenschaften (siehe Kapitel 4.4) und die Steigerung der Anwenderfreund-

lichkeit.

4.6.1 Aktualisierung der theoretischen Grundlagen

Die WISC-IV gilt als die erste WISC-Version, die grundlegende Verbesserungen gegenüber sei-

nen Vorgängern aufweisen kann (Flanagan & Kaufman, 2004). Dies wird vor allem auf die nä-


here Anlehnung an theoretische Intelligenzmodelle zurückgeführt (Kaufman et al., 2006). Im

Gegensatz zu ihren Vorgängern stellt die WISC-IV ein gutes Messinstrument für die theorie-

und forschungsbasierten Konstrukte fluides Denken und Arbeitsgedächtnis dar, während die

Bereiche Visualisierung und Antwortgeschwindigkeit weniger betont werden. Auch die Auto-

ren der KABC-II kamen anhand von Korrelationsstudien zwischen der KABC-II und der WISC-III

bzw. WISC-IV zu dem Ergebnis, dass beide Wechsler-Versionen unterschiedliche Konstrukte

erfassen (Kaufman & Kaufman, 2004, mehr zu den Unterschieden beider Versionen siehe Kapi-

tel 4.7). Für sie bilden der Handlungsteil und der WO der WISC-III eher visuelle Prozesse ab,

während der WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Den-

kens korreliert (siehe Kapitel 5.1).

Trotzdem werfen Kaufman et al. (2006) der WISC-IV weiterhin vor, sie basiere als einziges ak-

tuelles Intelligenztestverfahren der letzten Jahre nicht explizit auf einer Intelligenztheorie wie

beispielsweise der CHC-Theorie: „This fact alone demonstrates that the inertia of tradition

plays a more powerful role in the revisions of the Wechsler scales than does adherence to con-

temporary theory and research“ (S. 293).

Die Aktualisierung aufgrund der Berücksichtigung der kontemporären theoretischen Grundla-

gen zeigt sich in einer neuen Teststruktur sowie der Betonung der kognitiven Fähigkeitsberei-

che fluides Denken, Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit.

Teststruktur: Als Verbesserung gegenüber der WISC-III gilt die Aufteilung in eine Vier-

Faktoren-Struktur (siehe Kapitel 4.3), die für Flanagan und Kaufman (2004) eine umfassendere

Repräsentation der allgemeinen intellektuellen Fähigkeiten bietet. Nach Zhu und Weiss (2005)

repräsentieren die vier Indizes die Funktionsweise eines Menschen genauer als ein Verbal- und

Handlungsteil. Somit hätten Kliniker verbesserte Möglichkeiten zur Evaluation spezifischer

Aspekte dieser Funktionsweise. Die Auflösung der Unterteilung in Verbal- und Handlungsteil

gilt auch als die größte Abweichung von der Wechsler-Tradition, die nach Meinung vieler Kriti-

ker jedoch ohnehin lange überfällig war, da sie die klinische Aussagekraft einer Diskrepanz

zwischen beiden Teilen nie als eindeutig nachgewiesen sahen (siehe u. a. Flanagan & Kaufman,

2004; Kaufman et al., 2006; Riccio, Cohen, Hall & Ross, 1997).

Fluides Denken: Mehrere Theorien und Studien zur kognitiven Funktionsfähigkeit betonen die

Wichtigkeit des fluiden Denkens (Carroll, 2005; Cattell & Horn, 1978; Zhu et al., 2004). Fluide

Intelligenz beinhaltet mentale Operationen oder Problemlösemethoden, die ein Mensch an-

wenden kann, um relativ neue Aufgaben zu lösen (Flanagan & Kaufman, 2004, siehe auch Kapi-

tel 3.3.1). Aufgaben, die fluides Denken erheben, involvieren den Prozess der „manipulativen

Abstraktionen, Regeln, Verallgemeinerungen und logischen Beziehungen“ (Carroll, 1993, S.

583, Übers. v. Verf.). Sowohl das induktive als auch das deduktive Schlussfolgern werden als


basale Aspekte dieses Bereiches angesehen (McGrew & Flanagan, 1998). Aus der Perspektive

der CHC-Theorie weist das fluide Denken die engste Beziehung aller Faktoren des Stratum II

(Carroll, 1993; McGrew & Flanagan, 1998) zum g-Faktor auf (siehe Kapitel 3.6).

An den vorherigen WISC-Versionen wurde die unzureichende Erfassung des fluiden Denkens

kritisiert (Carroll, 1997a). Aus diesem Grund wurden für die WISC-IV mit Matrizen-Test, Bild-

konzepte und Begriffe erkennen drei neue Untertests zur Messung des fluiden Denkens ent-

wickelt. Bildkonzepte und Begriffe erkennen wurden von der WPPSI-III adaptiert, Matrizen-Test

wurde der WAIS-III und der WPPSI-III entnommen.

Arbeitsgedächtnis: Eine weitere Neuerung bietet die Einführung des Index AGD. Er geht aus

dem Index UA der WISC-III hervor, der Studien zu Folge nicht als valides psychologisches Kons-

trukt gesehen werden konnte (Carroll, 1993; Riccio et al., 1997, siehe auch Kapitel 4.4.3.1). Das

Arbeitsgedächtnis bezeichnet die Fähigkeit, aktiv Informationen zu behalten, mit ihnen Opera-

tionen durchzuführen oder sie zu manipulieren und damit ein Ergebnis zu erzielen. Es weist

namentlich einen Zusammenhang zu einem viel untersuchten Aspekt exekutiver Funktionen

auf (Flanagan & Kaufman, 2004). Aktuelle Forschung ermittelte das Arbeitsgedächtnis als eine

basale Komponente des fluiden Denkens und anderer kognitiver Prozesse höherer Rangord-

nung. Heitz, Unsworth und Engle (2005) sehen die durch Aufmerksamkeitsleistungen vermit-

telte Kapazität des Arbeitsgedächtnisses als einen wichtigen Einflussfaktor auf die fluide Intel-

ligenz. Zudem ist das Arbeitsgedächtnis eng verwandt mit Lernen und Leistung (Fry & Hale,

1996; Perlow, Jattuso & Moore, 1997; Swanson, 1996). Für Conway, Cowan, Bunting, Ther-

riault und Minkoff (2002) könne die Leistungsfähigkeit des Arbeitsgedächtnisses als Grundlage

des g-Faktors angesehen werden. Vor allem die Kurzzeitspeicherung stellte sich als hoch korre-

lierend mit allgemeiner Intelligenz heraus (Colom, Abad, Quiroga, Shih & Flores-Mendoza,

2008).

In der WISC-IV wurden einige Änderungen zur adäquateren Erfassung des Arbeitsgedächtnis-

ses vorgenommen. Buchstaben-Zahlen-Folgen wurde aus der WAIS-III adaptiert, nach Flanagan

und Kaufman (2004) ein valider Test zur Messung des Arbeitsgedächtnisses. Basierend auf der

Forschung zu unterschiedlichen Anforderungen an das Arbeitsgedächtnis für ZN-V und ZN-R

wurden für diese Aufgabenteile separate Prozesswerte eingeführt. Zur Steigerung der Anfor-

derungen an das Arbeitsgedächtnis sowie zur altersangemesseneren Erfassung des für den

Untertest erforderlichen mathematischen Wissens wurde das Rechnerische Denken überarbei-

tet. Außerdem wurde es in den Bereich der optionalen Untertests verlegt, was Flanagan und

Kaufman ebenfalls positiv bewerten, da es weiterhin stark mit rechnerischen Fähigkeiten kor-

reliert und somit kein reines Maß des Arbeitsgedächtnisses darstellt. In Studien zur WISC-IV

weist das Rechnerische Denken die höchste g-Ladung auf und erfasst damit als Untertest den


höchsten Grad an allgemeiner Intelligenz (Keith et al., 2006). In der WISC-IV liegt das Rechneri-

sche Denken nach den Sprach-Untertests Wortschatz-Test, Allgemeines Wissen und Gemein-

samkeiten finden an vierter Stelle hinsichtlich der Höhe seiner g-Ladung (Flanagan & Kaufman,

2004). Auch bei altersseparater Betrachtung weist das Rechnerische Denken g-Ladungen auf,

die mehr mit denen des Index SV als mit denen des AGD übereinstimmen. Eine aktuelle Studie

zum Vergleich des HAWIK-IV mit dem Gedächtnistest BASIC-MLT (Lepach & Petermann, 2007)

offenbarte Korrelationen von r = .59 bis .66 zwischen dem Gedächtnis-Quotienten des BASIC-

MLT und dem AGD des HAWIK-IV (Lepach, Petermann & Schmidt, 2008).

Verarbeitungsgeschwindigkeit: Die Informationsverarbeitungsgeschwindigkeit weist Zusam-

menhänge mit verschiedenen mentalen Prozessen, wie dem effizienten Gebrauch des Arbeits-

gedächtnisses oder der Leseleistung, auf. Eine angestiegene Verarbeitungsgeschwindigkeit

wird mit Veränderungen in der Intelligenz in Verbindung gebracht (Kail, 2000). Nach Fry und

Hale (2000) steigt sie über die Kindheit hinweg bedeutend an, während die Unterschiede in der

Adoleszenz nur noch graduell ausfallen. Dies wird mit der zunehmenden neuronalen Vernet-

zung und somit der Hirnreifung in Verbindung gebracht. Die Verarbeitungsgeschwindigkeit

wurde in faktorenanalytischen Studien als wichtige kognitive Funktion identifiziert (Carroll,

1993, 2005; Horn & Noll, 1997), die außerdem relativ hoch mit g korreliert (Neisser et al.,

1996; Neubauer & Knorr, 1998; Sheppard & Vernon, 2007). Daher sind Messungen dieses

Funktionsbereiches in Wechslers Intelligenztests eingebunden.

Als neuer optionaler Untertest für den Index VG wurde der Durchstreich-Test für die WISC-IV

entwickelt. Ähnliche Untertests haben sich bereits im Rahmen der Diagnostik nach Hirnschädi-

gungen bewährt (Donders & Janke, 2008; Janke & Donders, 2008; Prigatano, Gray & Gale,

2008).

Die Beurteilung der Verarbeitungsgeschwindigkeit erweist sich besonders bei Kindern als sinn-

voll, da sie mit der Entwicklung anderer kognitiver Fähigkeiten, der neurologischen Entwick-

lung und dem Lernen zusammenhängt. Klinische Forschungen im Bereich der kognitiven Ent-

wicklungspsychologie lassen ein dynamisches Zusammenspiel zwischen fluidem Denken, Ar-

beitsgedächtnis und Verarbeitungsgeschwindigkeit vermuten (Calhoun & Mayes, 2005; Car-

penter, Just & Shell, 1990; Fry & Hale, 1996, 2000; Kail & Salthouse, 1994; Schatz, Kramer, Ab-

lin & Matthay, 2000).

Die Betonung des fluiden Denkens, des Gedächtnisses und der Geschwindigkeit bei der Mes-

sung von Intelligenz bezeichnet Matarazzo im Vorwort des WISC-IV-Manuals (Wechsler, 2003a)

deshalb als wichtig, da herausgefunden wurde, dass sie kognitive Voraussetzungen für das

Lernen darstellen und Intelligenz seiner Meinung nach letztendlich vor allem die Fähigkeit zu

lernen widerspiegelt.


Als Schlussfolgerung für diese Studie muss somit festgestellt werden, dass durch die Aktualisie-

rung der theoretischen Grundlagen der HAWIK-III und der HAWIK-IV unterschiedliche kognitive

Fähigkeiten erfassen. Dies kann zu einer Einschränkung der Vergleichbarkeit beider Testversio-

nen führen. Auch die gleichen Untertests beider Versionen erfassen nicht zwangsläufig diesel-

be Fähigkeit. So führen die Veränderungen in der Aufgabenvorgabe beim Rechnerischen Den-

ken zu einer Modifikation hinsichtlich der erforderlichen Fähigkeiten (durch die rein mündliche

Vorgabe ist die Anforderung des Arbeitsgedächtnisses gestiegen).

4.6.2 Anpassung an den Entwicklungsstand der Kinder

Für die WISC-IV wurden in jeden Untertest Lern-, Beispiel- und/oder Übungsaufgaben aufge-

nommen. In den Untertests Buchstaben-Zahlen-Folgen, Bilder ergänzen und Bildkonzepte wird

die Aufgabenstellung durch entsprechende Nachfragen oder Hinweise verdeutlicht. Der ver-

stärkte Einsatz solcher Hilfestellungen soll das Verständnis für die Aufgabenstellung und die

Aufmerksamkeit steigern und folglich ein besseres Bild der Fähigkeiten des Kindes liefern. Au-

ßerdem wurde durch die Verkürzung verbaler Anweisungen, die Unterstützung des Aufgaben-

verständnisses mit Hilfe von Lern- und Übungsaufgaben und durch Rückmeldung der richtigen

Lösung der Einsatzbereich des Tests erweitert, insbesondere bei Kindern mit einer bereits be-

kannten oder vermuteten Intelligenzminderung. Diese Neuerungen bieten dem Testleiter

mehr Spielraum, Kinder zu weiteren Anstrengungen und Überlegungen zu ermuntern (Renner,

2008).

In den Untertests, die nicht in erster Linie zur Messung der Verarbeitungsgeschwindigkeit die-

nen, wurden einige Änderungen zur Reduzierung der Bedeutung des Zeitfaktors vorgenom-

men: Die Untertests Bilderordnen, Figurenlegen und Labyrinth-Test wurden entfernt, die An-

zahl der Aufgaben des Mosaik-Tests mit Zeitbonuspunkten wurde deutlich reduziert und im

Rechnerischen Denken werden keine zusätzlichen Zeitbonuspunkte für sehr schnelle Lösungen

mehr vergeben.

4.6.3 Steigerung der Anwenderfreundlichkeit

In einigen Situationen kann es sinnvoll sein, einen Kerntest durch einen optionalen Untertest

zu ersetzen. So kann sich beispielsweise ein Testleiter, der ein Kind mit feinmotorischen

Schwierigkeiten testet, dafür entscheiden, den Zahlen-Symbol-Test durch den Durchstreich-

Test oder den Mosaik-Test durch das Bilder ergänzen zu ersetzen.

Alle Illustrationen wurden aktualisiert und für Kinder attraktiver gestaltet. Weiterhin wurden

neue Aufgaben entwickelt, um zeitgemäße Situationen und Fragen zu integrieren, kulturbe-

dingte Verzerrungen zu vermeiden sowie die Testfairness zu erhöhen. Einige veraltete Aufga-

ben wurden überarbeitet oder entfernt und das Layout des Stimulusbuches modifiziert.


Da es sich bei dem HAWIK-IV um eine recht aufwändige Testbatterie handelt, wurden außer-

dem mögliche Kurzformen ermittelt (Waldmann, 2008). Die Anwendung einer Kurzform sollte

jedoch nur im Fall einer abgebrochenen Testung zur optimalen Verwertung unvollständiger

Informationen und nicht standardmäßig a priori zur ökonomischeren Handhabung des Tests

erfolgen.

4.6.4 Zusätzliche Auswertungsmöglichkeiten

Der Wegfall des Verbal- und Handlungsteils in der WISC-IV lässt Praktiker Schwierigkeiten bei

der Interpretation von inter- und intraindividuellen Leistungsdiskrepanzen vermuten. Die neue

Teststruktur bietet jedoch zusätzliche Auswertungsmöglichkeiten. Wie oben beschrieben wur-

de bei der Entwicklung der WISC-IV mehr Gewicht auf die Beurteilung des Arbeitsgedächtnis-

ses und der Verarbeitungsgeschwindigkeit gelegt. Dabei handelt es sich um basale kognitive

Prozesse, denen ein hoher Zusammenhang mit der Intelligenz zugesprochen wird, wodurch

auch moderne Konzeptionen Berücksichtigung finden (Petermann & Lepach, 2007). Insbeson-

dere in den Randbereichen der Normverteilung kommt es häufig zu großen Diskrepanzen in-

nerhalb der vier Indizes. Dies lässt die Interpretation des Gesamt-IQ-Wertes in diesen Fällen

zumindest fragwürdig erscheinen (Newman, 2008). Gerade bei Hochbegabung erwies sich der

Gesamt-IQ in der WISC-IV als deutlich niedriger als in vorherigen WISC-Versionen, da diese

Kinder weniger überdurchschnittliche Leistungen in den stärker gewichteten Fähigkeitsberei-

chen Arbeitsgedächtnis und Verarbeitungsgeschwindigkeit zeigte als im Sprachverständnis und

logischen Denken (Falk, Silverman & Moran, 2004). In der Annahme, dass der Gesamt-IQ nicht

immer eine gelungene Schätzung der kognitiven Fähigkeiten des Kindes darstellt, wurden

schon für die WISC-III verschiedene alternative Auswertungsmodelle vorgestellt (Weiss, Sak-

lofske, Prifitera, Chen & Hildebrand, 1999). So bestand die Möglichkeit, die jeweils vier Unter-

tests der Indizes SV und WO in einem allgemeinen Schätzwert kognitiver Leistungen zusam-

menzufassen, um den Einfluss der Untertests Rechnerisches Denken und Zahlen-Symbol-Test

zu reduzieren. Dieser Schätzwert wurde als General Ability Index (GAI), also Allgemeiner Fähig-

keitsindex (AFI), bezeichnet. Damit lässt sich der Einfluss deutlich abweichender Leistungen im

Arbeitsgedächtnis und in der Verarbeitungsgeschwindigkeit auf den Gesamt-IQ reduzieren. Für

den HAWIK-III fehlt diese Auswertungsoption. Auch für die WISC-IV stehen Normtabellen zur

Berechnung des GAI aus den Wertpunktsummen der sechs relevanten Untertests bereit (Rai-

ford, Weiss, Rolfhus & Coalson, 2005). Dabei wird die Wertpunktesumme der drei Kerntests

des SV und des WLD gebildet und in einen neuen Wert, den GAI, umgerechnet. Mit dem HA-

WIK-IV existiert erstmals auch für eine deutsche HAWIK-Version eine Tabelle zur Berechnung

des dem GAI entsprechenden AFI (Daseking, Petermann & Waldmann, 2008). Alternativ kann

der GAI auch durch Summierung der Index-Werte des SV und WLD berechnet werden (Flana-

gan & Kaufman, 2004). Als weitere Auswertungsmöglichkeit steht der Dumont-Willis-Index-1


(DWI-1) bereit, der von Dumont und Willis (2004) auf der Basis der Interkorrelationen der

sechs SV- und WLD-Untertests entwickelt wurde. Zusätzlich entwickelten sie den Dumont-

Willis-Index-2 (DWI-2), der aus den beiden anderen Indizes AGD und VG gebildet wird. Dieser

übergeordnete Index wird auch Cognitive Proficiency Index (CPI, Kognitiver Fertigkeitenindex)

genannt. Die Herausgeber der WISC-IV unterstützen jedoch ausschließlich die Anwendung des

GAI nach Raiford et al. (2005). Ihm wird eine hohe Korrelation mit dem Gesamt-IQ zugespro-

chen und gilt somit als guter Prädiktor für den Gesamt-IQ des HAWIK-IV (Scott, 2006).

4.6.5 Schwächen der WISC-IV

Flanagan und Kaufman (2004) sehen bei der WISC-IV trotz aller Vorteile gegenüber seinen

Vorgängern weiterhin einige Einschränkungen in der Validität. Sie halten diese jedoch nicht für

gravierend und weisen darauf hin, dass sie sich auch in anderen Intelligenztestbatterien finden

lassen. Braden und Niebling (2005) bemängeln, Aufgaben, die sich als verzerrend und unfair

herausgestellt haben, seien zwar entfernt worden, jedoch wurde im Manual keine Zusammen-

fassung der Untersuchungsergebnisse zur Höhe von Aufgabenverzerrungen aufgenommen.

Einige Kliniker kritisieren die Nicht-Berücksichtigung des Untertests Bilderordnen in der WISC-

IV, den sie als klinisch bedeutsam ansahen, da er als einziger Untertest interpersonale Situa-

tionen beinhaltete. Nach Flanagan und Kaufman (2004) hätte der klinisch geprägte David

Wechsler niemals zugestimmt, seine Testbatterie ohne die Möglichkeit der Erfassung interper-

sonaler Situationen zu veröffentlichen.

Ein weiterer Kritikpunkt besteht in der Kulturabhängigkeit der WISC-IV. Nach Flanagan und

Kaufman (2004) scheinen die Autoren zwar alle wichtigen Schritte unternommen zu haben,

eine Verzerrung der Ergebnisse durch kulturelle Unterschiede auszuschließen. Dennoch wer-

den in der WISC-IV keine Angaben zu Wertdifferenzen zwischen ethnischen Gruppen (ebenso

wenig wie zu Geschlechtsunterschieden oder Unterschieden hinsichtlich des sozioökonomi-

schen Status) erwähnt (Braden & Niebling, 2005). Dies scheint für Braden und Niebling (2005)

vor allem im Hinblick auf die umfassende Diskussion über die Kulturabhängigkeit bisheriger

Wechsler-Tests merkwürdig. Für den HAWIK-IV wurden auf Basis der Normierungsstichprobe

die Leistungen deutscher Kinder und der Kinder mit Migrationshintergrund miteinander vergli-

chen (Daseking, Lipsius, Petermann & Waldmann, 2008). Dabei zeigten sich einzig im Matrizen-

Test keine signifikanten Unterschiede zwischen beiden Gruppen, während vor allem in den

sprachlichen Untertests die Kinder mit Migrationshintergrund signifikant schlechtere Ergebnis-

se erzielten als die deutsche Stichprobe. Schon in Studien zu anderen WISC-Versionen erwies

sich besonders der Untertest Allgemeines Verständnis als stark kulturabhängig (Kaufman,

1993). Im Allgemeinen gilt jedoch kein Test als uneingeschränkt kulturfrei (Sattler, 2001). Letz-


ten Endes bleibt es dem Testanwender überlassen zu beurteilen, inwieweit der HAWIK-IV ein

für ihn geeignetes Instrument darstellt.

Auch die neue Teststruktur wird nicht durchweg positiv bewertet. Zwar bietet eine Aufteilung

der kognitiven Funktionsfähigkeit in enger definierte Teilfunktionen, wie in Kapitel 4.6.1 be-

schrieben, deutliche Vorteile. Da aber diese kognitiven Teilleistungen eng miteinander ver-

knüpft und voneinander abhängig sind, können sie nur schwer getrennt voneinander erfasst

werden (Zhu et al., 2004). Selbst eine spezifische Funktion wie die Bearbeitungsgeschwindig-

keit beinhaltet die Fähigkeit, zwischen visuellen Stimuli zu unterscheiden, diese Information zu

verarbeiten und die Reaktion mittels motorischer Fähigkeiten auszuführen. Obwohl faktoren-

analytische Studien das Vorhandensein spezifischer, eng definierter Funktionsbereiche nahe

legen, wird dadurch möglicherweise nicht die Vielfalt der kognitiven Teilleistungen erfasst, die

zur Bearbeitung einer Aufgabe notwendig sind. Für Zhu und Weiss (2005) sei es jedoch sowohl

unmöglich als auch bedeutungslos, reine kognitive Funktionen zu erfassen, auch wenn die

Intelligenzforschung dafür plädiert. Es mag zwar diagnostisch sinnvoll sein, für sich allein ste-

hende Funktionen abzubilden, dies münde jedoch nicht automatisch in klinisch bedeutsame

und praktisch sinnvolle Informationen. Zhu und Weiss halten die Wechsler-Skalen deshalb für

klinisch bedeutsamer als explizit theoriebasierte Intelligenztests.

4.7 Unterschiede zwischen HAWIK-III und -IV und deren Aus-wirkung auf die Vergleichbarkeit beider Testversionen

Wie bereits dargestellt, können viele Faktoren die Vergleichbarkeit zweier Testversionen be-

einträchtigen. Bei dem Vergleich der WAIS-III mit der WAIS-R wurden folgende Abweichungen

als wichtig für die Vergleichbarkeit beider Testversionen festgestellt: Veränderungen auf Un-

tertestebene, der Faktorenstruktur und der Art, in der die Konstrukte erfasst werden (Strauss,

Spreen & Hunter, 2000).

Da die Veränderungen, die bei der Entwicklung der WISC-IV ebenso wie bei dem adaptierten

HAWIK-IV vorgenommen wurden, für diese Vergleichsstudie von entscheidender Bedeutung

sind, soll auf sie im Folgenden ausführlich eingegangen werden.

4.7.1 Allgemeine und strukturelle Veränderungen zwischen beiden Testver-sionen

Die allgemeinen Veränderungen der WISC-IV bzw. des HAWIK-IV sind (Petermann & Peter-

mann, 2008a; Wechsler, 2003b):

die Aktualisierung der strukturellen Grundlage zur Messung von gf und zur zusätzlichen Messung von gsm (durch das Buchstaben-Zahlen-Folgen) und gs (durch den Durchstreich-Test),


die Modifizierung der Bewertungskriterien zur Verbesserung der Übersichtlichkeit,

die Einführung zusätzlicher Aufgaben zur Reduzierung des Boden- und Deckeneffekts,

verständlichere Anweisungen für die Testleiter,

die Aktualisierung der Grafiken zur Steigerung der Attraktivität für Kinder,

gesteigerte Entwicklungsangemessenheit (modifizierte Instruktionen, Lern- und/oder Übungsaufgaben für jeden Untertest),

die Aktualisierung der Normen,

die Entfernung veralteter Aufgaben,

die Erweiterung des Manuals um Interpretationshinweise und ausführlichere Informa-tionen zur Validität,

die Gewichtreduzierung des Testkoffers durch Entfernung der materialreichen Tests und

die Umbenennung des Index Wahrnehmungsorganisation in Wahrnehmungsgebunde-nes Logisches Denken.

Vor allem die strukturellen Neuerungen sind für diese Studie von großer Wichtigkeit. Dabei

handelt es sich um folgende Veränderungen (Flanagan & Kaufman, 2004):

Verbal- und Handlungsteil wurden entfernt,

zur Berechnung der vier Indizes werden nicht mehr 12, sondern nur noch zehn Unter-tests benötigt,

der Index UA wurde durch den Index AGD ersetzt,

das SV setzt sich im HAWIK-IV aus drei anstatt aus vier Untertests zusammen. Der Unter-test Allgemeines Wissen wird ein optionaler Untertest, so dass der Index weniger von Allgemeinbildung und Schulwissen abhängig ist,

das WLD setzt sich zusätzlich zum Mosaik-Test aus zwei neuen Untertests zusammen: Bildkonzepte und Matrizen-Test. Bilder ergänzen ist nur noch ein optionaler Untertest,

der Index AGD setzt sich aus dem Zahlen nachsprechen und dem neuen Untertest Buch-staben-Zahlen-Folgen zusammen. Rechnerisches Denken ist nur noch ein optionaler Un-tertest,

Bilderordnen, Figurenlegen und Labyrinth-Test wurden (u. a. zur Reduzierung der Zeit-abhängigkeit) entfernt sowie

Bildkonzepte, Buchstaben-Zahlen-Folgen, Matrizen-Test, Durchstreich-Test und Begriffe erkennen wurden eingeführt.

4.7.2 Veränderungen in den einzelnen Untertests

Tabelle 4.10 gibt einen Überblick über Veränderungen hinsichtlich der Anzahl der Items, der

Punktevergabe pro Item sowie der Einstiegs-, Umkehr- und Abbruchkriterien. Im Anschluss

werden diese Unterschiede für jeden Untertest getrennt nach Index gesondert aufgeführt.


Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zu-gehörigkeit zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a) SV HAWIK-III HAWIK-IV

GF

Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen Umkehrregel Abbruchkriterium

19 2 1

nein 4

23 2 3 ja 5

WT


30 2 4 ja 4

36 2 3 ja 5

AV


18 2 1

nein 3

21 2 3 ja 4

AW


30 1 4 ja 5

33 1 3 ja 5

WLD HAWIK-III HAWIK-IV

MT


12 7 2 ja 2

14 7 2 ja 3

BE


29 1 4 ja 5

38 1 3 ja 6

AGD HAWIK-III HAWIK-IV

ZN


15 2 1

nein 1

16 2 1

nein 1

RD


24 2 4 ja 3

34 1 3 ja 4

VG HAWIK-III HAWIK-IV

ZST-A/B

Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen/ Umkehrregel Abbruchkriterium (Zeit in Sekunden)

59/119 1 -

120``

59/119 1 -

120``

SS/SYS-A/B

Gesamtzahl der Items Maximale Punktzahl pro Item Einstiegsstufen/ Umkehrregel Abbruchkriterium (Zeit in Sekunden)

45/45 1 -

120``

45/60 1 -

120``

Anmerkungen: Es wurden nur die Untertests berücksichtigt, die in beiden HAWIK-Versionen enthalten sind. Abkürzungen siehe Anhang A5 und A6.


Es können demnach nicht nur Änderungen der Teststruktur zu Einschränkungen der Vergleich-

barkeit beider Testversionen führen. Auch Unterschiede innerhalb einzelner Untertests, die in

beiden Testversionen enthalten sind, können sich auf die Vergleichbarkeit auswirken. Dazu

zählen Änderungen

der Aufgaben, Aufgabenanzahl und der Aufgabenformulierung,

der Bewertung,

der Durchführung,

der Aufgabenreihenfolge,

der Startpunkte,

der Umkehrregel,

des Abbruchkriteriums sowie

der Untertestposition.

Auf diese Änderungen und den damit verbundenen Einfluss auf die Vergleichbarkeit beider

Testversionen wird nun für jeden Untertest, sortiert nach den vier Indizes, getrennt eingegan-

gen.

4.7.2.1 Index Sprachverständnis

Gemeinsamkeiten finden:

a) Aufgaben:

Der Untertest Gemeinsamkeiten finden des HAWIK-IV umfasst 23 Aufgaben, von denen 12 neu

und zwei leicht verändert sind. Die Beispielaufgabe wurde überarbeitet, um vor dem eigentli-

chen Beginn des Untertests eine bewertbare Antwort des Kindes zu erhalten. Dies ersetzt das

korrigierende Feedback, das im HAWIK-III bei nicht-korrekter Antwort der ersten 2-Punkte-

Aufgabe vorgegeben wird. Die Anzahl der 1-Punkt-Aufgaben wurde von fünf auf zwei redu-

ziert. Zur Reduzierung des Deckeneffekts des HAWIK-III wurden zusätzliche Aufgaben mit ho-

hem Schwierigkeitsgrad eingefügt.

b) Bewertung:

Die Bewertungskriterien wurden für alle Aufgaben überarbeitet. So gibt es im HAWIK-IV bei-

spielsweise deutlich mehr Antworten, die einer Nachfrage seitens des Testleiters bedürfen.

Dadurch ist es bei einigen Aufgaben, die in beiden Testversionen enthalten sind, im HAWIK-IV

leichter, die volle Punktzahl zu erhalten. Ein Beispiel stellt die Frage: „Was ist das Gemeinsame

an Apfel und Banane?“ dar. Die Antwort „beides kann man essen“ wird im HAWIK-III mit einem

Punkt ohne Nachfrage, im HAWIK-IV jedoch mit einem Punkt mit Nachfrage bewertet. Das Kind

kann sich demnach im HAWIK-IV mit der zweiten Antwort „beides ist Obst“ noch auf zwei

Punkte verbessern. Dies führt zur Reduzierung des Bodeneffekts.

c) Durchführung:


Während dem Testleiter im HAWIK-III nur erlaubt ist, die Aufgaben einmal vorzulesen, darf er

sie im HAWIK-IV so oft wie notwendig wiederholen. Dies kann zu einer Herabstufung des

Schwierigkeitsgrades führen. Andererseits ist es im HAWIK-III erlaubt, gegebenenfalls Synony-

me für ein dem Kind unbekanntes Wort vorzugeben, was wiederum eine Erleichterung darstel-

len kann.

d) Aufgabenreihenfolge:

Im Gemeinsamkeiten finden zeigen sich Änderungen in der Reihenfolge der Aufgaben. Dadurch

werden Kindern möglicherweise Fragen, die sie in einem Test nicht beantworten können, im

anderen Test gar nicht vorgegeben. Außerdem sorgt in diesem Untertest die veränderte Rei-

henfolge für eine deutliche Änderung des Schwierigkeitsgrades bestimmter Aufgaben. Bei-

spielsweise wird im HAWIK-III die Frage: „Was ist das Gemeinsame bei Katze und Maus?“ nach

den Fragen nach der Gemeinsamkeit von Hemd und Schuh und Schrank und Stuhl vorgegeben

und stellt die erste Aufgabe dar, für die es zwei Punkte gibt. Hier wird von fast allen Kindern

die Antwort „beides sind Tiere“ gegeben. Im HAWIK-IV hingegen wurde in der Normierungs-

version des Testverfahrens die Gemeinsamkeit von Katze und Maus nach der Gemeinsamkeit

von Schmetterling und Biene erfragt. Hier wird die Antwort „beides sind Tiere“ nur mit einem

Punkt bewertet und erst, wenn das Kind auf Nachfrage die differenziertere Antwort „beides

sind Insekten“ anbietet, bekommt es die volle Punktzahl. Wenn dann die Frage nach der Ge-

meinsamkeit von Katze und Maus gestellt wird, denken einige Kinder, die Antwort „beides sind

Tiere“ sei nicht ausreichend und sie geben Antworten wie „beides sind Haustiere“ oder „beide

haben Fell“, die ihnen nur einen Punkt einbringen. Demnach weist die Frage nach der Gemein-

samkeit von Katze und Maus im HAWIK-IV einen höheren Schwierigkeitsgrad auf als im HAWIK-

III.

e) Startpunkte:

Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. So erhalten eini-

ge Kinder im HAWIK-IV zwei Punkte für Aufgaben, die sie im HAWIK-III nicht korrekt beantwor-

ten können, da die Aufgaben im HAWIK-IV vor dem altersspezifischen Startpunkt liegen und

somit so bewertet werden, als seien sie korrekt beantwortet worden. Außerdem könnte dies

bei Kindern ab neun Jahren zu einer Erhöhung der Schwierigkeit des Untertests führen, da sie

weniger Möglichkeiten haben über einfachere Antworten mit dem Lösungsprinzip vertraut zu

werden. Andererseits kann es für diese Kinder von Vorteil sein, durch das Überspringen der

sehr leichten Aufgaben im HAWIK-IV weniger Motivations- und Konzentrationsprobleme zu

bekommen als im Gemeinsamkeitenfinden des HAWIK-III.

f) Umkehrregel:


Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher.

Dies führt allerdings keine wesentlichen Änderungen hinsichtlich der Schwierigkeit mit sich.

g) Abbruchkriterium:

Das Abbruchkriterium wurde für die WISC-IV bzw. den HAWIK-IV von vier auf fünf falsche Auf-

gaben in Folge erhöht. Dies kann das Ergebnis insofern beeinflussen, als ein Kind im HAWIK-IV

durch die richtige Beantwortung von Fragen Punkte erhält, die ihm im HAWIK-III nicht vorge-

geben werden, da der Untertest vorher abgebrochen werden musste.

h) Untertestposition:

Die Verschiebung des Untertests von der vierten auf die zweite Position dürfte keine großen

Auswirkungen auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.

Wortschatz-Test:

a) Aufgaben:

Der Wortschatz-Test des HAWIK-IV beinhaltet 36 Aufgaben, vier Bild- und 32 Wortaufgaben.

17 Wortaufgaben sind neu, und 15 wurden aus dem HAWIK-III übernommen. Ebenso wie dem

Gemeinsamkeiten finden wurden auch dem Wortschatz-Test Aufgaben hinzugefügt, um sowohl

im unteren als auch im oberen Bereich besser differenzieren zu können. Die Bildaufgaben

wurden neu entwickelt, um jungen und leistungsschwachen Kindern die Möglichkeit zu geben,

über einfache Aufgaben das Lösungsprinzip des Untertests zu verstehen. Sie werden allerdings

nur vorgegeben, wenn die Umkehrregel in Kraft tritt. Da dies bei der vorliegenden Stichprobe

nur in wenigen Ausnahmefällen vorkam, kann ein bedeutsamer Einfluss durch diese Verände-

rung ausgeschlossen werden.

b) Bewertung:

Wie für alle sprachlichen Untertests wurden auch für den Wortschatz-Test die Bewertungsre-

geln erheblich modifiziert. So wurden im HAWIK-IV deutlich mehr Nachfragen eingefügt. Au-

ßerdem wurde die Bewertung vieler Aufgaben verändert (beispielsweise gibt die Antwort „ge-

nau“ bei der Beschreibung des Wortes „präzise“ im HAWIK-III die volle Punktzahl, im HAWIK-IV

jedoch nur einen Punkt mit Nachfrage).

c) Durchführung:

Eine weitere Änderung gegenüber seinem Vorgänger besteht im HAWIK-IV in der Möglichkeit

für Kinder ab neun Jahren, die Wörter mitzulesen, die sie beschreiben sollen.

d) und e) Aufgabenreihenfolge und Startpunkte:

Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Aufga-

benreihenfolge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche alters-

spezifische Startpunkte) kommt im Wortschatz-Test zum Tragen.



Das Abbruchkriterium wurde von vier auf fünf falsche Aufgaben in Folge erhöht (zum Einfluss

auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).


Die Verschiebung vom achten auf den sechsten Untertest dürfte keine großen Auswirkungen

auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.

Allgemeines Verständnis:

a) Aufgaben:

Der Untertest Allgemeines Verständnis des HAWIK-IV beinhaltet 21 Aufgaben. 13 wurden hin-

zugefügt, acht Aufgaben ohne oder mit kleinen Veränderungen aus dem HAWIK-III übernom-

men. Auch in diesem Untertest wurden einige Aufgaben weggelassen und zur Reduzierung des

Boden- und Deckeneffektes, vor allem besonders leichte und besonders schwierige Aufgaben

hinzugefügt. Die Frageformulierungen bei den Aufgaben, die in beiden Testversionen enthal-

ten sind, blieben nahezu unverändert. Die einzige Änderung in der Formulierung, die zu einer

Änderung des Schwierigkeitsgrads führen könnte, stellt die Frage „Warum müssen wir Brief-

marken auf Briefe kleben?“ des HAWIK-III gegenüber der offeneren Formulierung „Warum

kleben wir Briefmarken auf Briefe?“ im HAWIK-IV dar.

b) Bewertung:

Die Bewertungskriterien für alle Aufgaben wurden überarbeitet. So müssen beispielsweise bei

der Frage: „Warum ist die Redefreiheit in einer Demokratie so wichtig?“ im HAWIK-IV zwei

richtige Antworten aus zwei unterschiedlichen Konzepten gegeben werden, während im HA-

WIK-III eine Antwort zwei oder nur einen Punkt wert ist, je nachdem, wie hochwertig sie war.

Auch die Einführung zusätzlicher Nachfrageaufforderungen bei vielen Antworten führt zu Ab-

weichungen in der Bewertung.

c) Durchführung:

Eine Änderung in der Durchführung, die zu einer Herabstufung der Schwierigkeit führen kann,

wurde für die Aufgaben eingeführt, die für das Erhalten der vollen Punktzahl zwei Antworten

aus zwei unterschiedlichen allgemeinen Konzepten erfordern (den *-Fragen). Während im

HAWIK-III nur einmal nachgefragt werden darf, nachdem das Kind eine Antwort aus einem

allgemeinen Konzept gegeben hat, muss im HAWIK-IV mehrmals nachgefragt werden, wenn

das Kind auf die erste Nachfrage eine weitere Antwort aus demselben allgemeinen Konzept

gibt. Dadurch erhöht sich die Chance die volle Punktzahl zu erhalten, indem zwei Antworten

aus zwei unterschiedlichen allgemeinen Konzepten gegeben werden.



Wie in allen sprachlichen Untertests bestehen auch im Allgemeinen Verständnis Änderungen in

der Reihenfolge der Aufgaben. Dadurch werden Kindern möglicherweise Fragen, die sie in ei-

nem Test nicht beantworten können, im anderen Test gar nicht vorgegeben.

e) Startpunkte:

Eine weitere Änderung liegt in der Einführung altersspezifischer Startpunkte. Dadurch ist es

möglich, dass einige Kinder im HAWIK-IV zwei Punkte für Aufgaben bekommen, die sie im

HAWIK-III nicht korrekt beantworten können, da die Aufgaben im HAWIK-IV vor dem alters-

spezifischen Startpunkt liegen und somit so bewertet werden, als seien sie korrekt beantwor-

tet worden (für weitere Auswirkungen dieser Veränderung siehe Gemeinsamkeiten finden).

f) Umkehrregel:

Mit der Einführung altersspezifischer Startpunkte geht die Einführung der Umkehrregel einher.

Dies führt allerdings zu keinen wesentlichen Änderungen hinsichtlich der Schwierigkeit.


Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss

auf Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).


Die Verschiebung von der zehnten auf die neunte Position dürfte keine großen Auswirkungen

auf die Vergleichbarkeit der Ergebnisse in beiden Untertestversionen haben.

Allgemeines Wissen:

a) Aufgaben:

Der Untertest Allgemeines Wissen des HAWIK-IV setzt sich aus 33 Fragen zusammen. 13 wur-

den hinzugefügt und 20 Fragen ohne oder mit kleinen Veränderungen aus dem HAWIK-III

übernommen. Wie in allen Untertests wurde auch im Allgemeinen Wissen auf eine Verbesse-

rung der Leistungsdifferenzierung in den intellektuellen Randbereichen Wert gelegt. Dem wur-

de durch Einführung besonders schwieriger und besonders leichter Aufgaben Rechnung getra-

gen. Außerdem führen Unterschiede in der Frageformulierung zu Veränderung des Schwierig-

keitsgrades der Aufgaben. So besitzt beispielsweise die Frage: „Aus welchem Grund rostet

Eisen?“ des HAWIK-III einen anderen Schwierigkeitsgrad als die Frage: „Was lässt Eisen ros-

ten?“ des HAWIK-IV (ein anderes Beispiel stellt die Frage: „Warum haben Pflanzen meistens

grüne Blätter?“ (HAWIK-III) gegenüber der Frage: „Was macht Blätter grün?“ (HAWIK-IV) dar).

b) Bewertung:

Die Bewertungskriterien für einige Aufgaben wurden modifiziert. Dies kann zu Abweichungen

zwischen den Testversionen hinsichtlich der Bewertung des Untertests führen.

c) Durchführung:


Hinsichtlich der Durchführung zeigen sich keine gravierenden Unterschiede zwischen den Test-

versionen.


Auch der mögliche Einfluss auf die Bearbeitungsleistung durch Veränderungen in der Reihen-

folge und der Alterseinstiege (Reduzierung von vier auf drei unterschiedliche altersspezifische

Startpunkte) kommt beim Allgemeinen Wissen zum Tragen.


Das Abbruchkriterium liegt in beiden Versionen bei fünf falschen Antworten in Folge.


Die Verlegung vom zweiten auf den drittletzten (13.) Untertest könnte Einfluss auf die Ver-

gleichbarkeit der Ergebnisse in beiden Testversionen haben. Einerseits ist es möglich, dass die

Leistung eines Kindes im Laufe der Testung angesichts mangelnder Konzentrationsfähigkeit

oder Ermüdungserscheinungen abnimmt, was schlechtere Leistungen im HAWIK-IV zur Folge

haben könnte. Bei Kindern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte

dies zu einer besseren Leistung im Allgemeinen Wissen des HAWIK-IV führen.

4.7.2.2 Index Wahrnehmungsgebundenes Logisches Denken

Mosaik-Test:

a) Aufgaben:

Der Mosaik-Test des HAWIK-IV umfasst 14 Aufgaben. Zehn wurden aus dem HAWIK-III über-

nommen; vier Aufgaben wurden zur Reduzierung des Deckeneffekts hinzugefügt (davon zwei

Aufgaben mit neun Würfeln, die einen hohen Schwierigkeitsgrad aufweisen).

b) Bewertung:

Der Gebrauch von Zeitbonuspunkten im HAWIK-IV wurde beibehalten, jedoch auf die letzten

sechs Aufgaben beschränkt. Daher wird der Gesamtrohwert dieses Untertests für viele jüngere

Kinder keine Zeitbonuspunkte beinhalten. Ergänzend wurde der Gesamtrohwert Mosaik-Test-

ohne Zeitbonus (MT-OZ) eingeführt. Seine Berechnung kann sinnvoll sein bei Kindern mit kör-

perlichen Einschränkungen, Schwierigkeiten mit Problemlösestrategien sowie persönlichen

Eigenschaften (wie beispielsweise Perfektionismus), die die Bearbeitung unter Zeitdruck be-

einflussen (Flanagan & Kaufman, 2004). Da die gesteigerte Schwierigkeit und die Bewertungs-

modifikationen durch den Vergleich mit der Normstichprobe berücksichtigt werden, dürfte

dies keinen Einfluss auf die Vergleichbarkeit der Wertpunkte beider Testversionen haben.

c) Durchführung:

Zur Reduktion der Testdauer und dementsprechend zur Steigerung der Anwenderfreundlich-

keit wurden die Instruktionen verkürzt.



Die Änderungen in der Aufgabenreihenfolge können im Mosaik-Test zu deutlichen Unterschie-

den führen. So wurde das letzte Muster im HAWIK-III zum ersten Muster mit neun Würfeln im

HAWIK-IV. Dies führt zu einem höheren Schwierigkeitsgrad dieser Aufgabe im HAWIK-IV, da

das Kind noch keine Strategien für die Lösung von Aufgaben mit neun Würfeln entwickeln

kann, während es im HAWIK-III vorher schon ähnliche Aufgaben lösen muss, bei denen es be-

reits Lösungsstrategien entwickeln konnte.

f) Umkehrregel:

Auch wenn sich die Umkehrregeln in beiden Testversionen voneinander unterscheiden (im

HAWIK-III wird in aufsteigender Reihenfolge, also erst mit Aufgabe 1 und dann mit Aufgabe 2

vorgegangen und im HAWIK-IV in absteigender Reihenfolge, also erst mit Aufgabe 2 und dann

mit Aufgabe 1), dürfte dies keinen Einfluss auf die Vergleichbarkeit der Ergebnisse beider Test-

versionen haben, zumal in der vorliegenden Studie nur in Ausnahmefällen umgekehrt wurde.


Das Abbruchkriterium wurde von zwei auf drei nicht gelöste Aufgaben in Folge erhöht (zum

Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).


Die Verschiebung des Mosaik-Tests von der siebten auf die erste Position kann einen Einfluss

auf die Ergebnisse in diesem Untertest haben. Einerseits ist es möglich, dass die Leistung eines

Kindes im Laufe der Testung angesichts von mangelnder Konzentration oder Ermüdungser-

scheinungen abnimmt, was bessere Leistungen im HAWIK-IV zur Folge haben kann. Bei Kin-

dern, die zu Beginn der Testung sehr nervös oder ängstlich sind, könnte dies zu einer schlech-

teren Leistung im Mosaik-Test des HAWIK-IV führen.

Bilder ergänzen:

a) Aufgaben:

Der Untertest Bilder ergänzen des HAWIK-IV beinhaltet 38 Aufgaben, 12 neue und 26 Aufga-

ben, die aus dem HAWIK-III beibehalten wurden. Der Schwierigkeitsgrad einzelner Aufgaben

hat sich durch eindeutigere grafische Aufbereitung reduziert. So ist im HAWIK-IV der fehlende

Abfluss der Badewanne (Aufgabe 26) besser ersichtlich als im HAWIK-III (Aufgabe 16), da die

Wanne aus einer anderen Perspektive gezeigt wird.

b) und c) Bewertung und Durchführung:

Hinsichtlich der Bewertung und Durchführung zeigen sich keine gravierenden Veränderungen

zwischen beiden Testversionen.



Auch im Bilder ergänzen kann die Bearbeitungsleistung durch Veränderungen in der Reihenfol-

ge und den Alterseinstiegen (Reduzierung von vier auf drei altersspezifische Startpunkte) be-

einflusst sein.


Das Abbruchkriterium wurde von fünf auf sechs nicht gelöste Aufgaben in Folge erhöht (zum

Einfluss auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).


Die Verlegung vom ersten auf den 11. Untertest könnte Einfluss auf die Vergleichbarkeit der

Ergebnisse in beiden Untertestversionen haben (zur Art des Einflusses siehe Allgemeines Wis-

sen).

4.7.2.3 Index Arbeitsgedächtnis

Zahlen nachsprechen:

a) Aufgaben:

Für das Zahlen nachsprechen vorwärts (ZN-V) des HAWIK-IV wurden 15 Versuche übernommen

und ein neuer Versuch entwickelt. Für das Zahlen nachsprechen rückwärts (ZN-R) wurden

sechs neue Versuche entwickelt und zehn Versuche aus dem HAWIK-III übernommen. Die Ver-

änderungen in den Zahlenreihen sind jedoch zu gering (beim ZN-V wurde beispielsweise nur

einmal eine 6 durch eine 8 ersetzt), um einen Einfluss auf die Vergleichbarkeit beider Testver-

sionen zu haben. Im ZN-R wurden zur Erhöhung des Verständnisses für diese Teilaufgabe bei

leistungsschwachen Kindern zwei zusätzliche Aufgaben mit zwei Zahlen eingefügt. Zur Besse-

rung Differenzierung der Leistung des Kindes wurden die ZN-V- und ZN-R-Prozesswerte sowie

die längste Zahlenspanne vorwärts (LZ-V) und die längste Zahlenspanne rückwärts (LZ-R) einge-

führt. So ermöglicht die Prozessanalyse von ZN-V und ZN-R den Vergleich von Merkspanne

(ZN-V) und Arbeitsgedächtnis (ZN-R) (Flanagan & Kaufman, 2004).

b) bis g) Bewertung, Durchführung, Aufgabenreihenfolge, Startpunkte, Abbruchkriterium:

In diesen Bereichen gibt es keine Unterschiede zwischen HAWIK-III und -IV.


Durch die Verschiebung des Untertests Zahlen nachsprechen von der 12. auf die 3. Position

kann ein Kind unterschiedliche Leistungen in beiden Testversionen zeigen (zur Art des Einflus-

ses siehe Mosaik-Test). Gerade für Leistungen des Arbeitsgedächtnisses, die mit diesem Unter-

test erfasst werden, sind Konzentration und Aufmerksamkeit von zentraler Bedeutung.

Rechnerisches Denken:

a) Aufgaben:

Der Untertest Rechnerisches Denken des HAWIK-IV umfasst 34 Aufgaben. Dabei beinhalten 11

zwar die gleichen mathematischen Rechenaufgaben wie der HAWIK-III, die textliche Einbet-


tung der Rechenaufgaben wurde jedoch überarbeitet. Zur Verbesserung der Boden- und

Deckendifferenzierung wurden außerdem 20 neue Aufgaben entwickelt. Die Aufgaben wurden

so gestaltet, dass die Anforderungen an das Arbeitsgedächtnis erhöht wurden, indem auch die

schwierigen Aufgaben nicht mehr vom Kind gelesen werden können, während gleichzeitig das

mathematische Wissen, das zum Erfüllen der Untertestaufgabe erforderlich ist, altersange-

messener gestaltet wurde.

b) Bewertung:

Die Zeitbonuspunkte für besonders schnelle Bearbeitung der letzten Aufgaben wurden abge-

schafft.

c) Durchführung:

Während im HAWIK-III für die schwierigeren Aufgaben mehr Lösungszeit zur Verfügung steht,

liegt die Zeitgrenze beim HAWIK-IV durchweg bei 30 Sekunden. Die Karten zum Vorlesen der

Aufgaben durch das Kind wurden abgeschafft. Die Vorgabe der Aufgaben erfolgt ausschließlich

durch Vorlesen des Testleiters. Während die ersten Aufgaben im HAWIK-IV bei falscher Durch-

führung eine korrigierende Rückmeldung vorsehen, ist dies im HAWIK-III nicht vorgesehen.


Veränderungen in der Reihenfolge und den Alterseinstiegen (Reduzierung von vier auf drei

unterschiedliche altersspezifische Startpunkte) können die Bearbeitungsleistung im Rechneri-

schen Denken beeinflussen.


Das Abbruchkriterium wurde von drei auf vier falsche Antworten in Folge erhöht (zum Einfluss

auf die Vergleichbarkeit siehe Abbruchkriterium des Gemeinsamkeiten findens).


Durch die Verschiebung des Untertests Rechnerisches Denken von der sechsten auf die vorletz-

te Position können sich deutliche Unterschiede in den Leistungen eines Kindes zwischen bei-

den Testversionen ergeben (zur Art des Einflusses siehe Allgemeines Wissen). Gerade für Leis-

tungen des Arbeitsgedächtnisses, die mit diesem Untertest erhoben werden, sind Konzentrati-

on und Aufmerksamkeit von zentraler Bedeutung.

4.7.2.4 Index Verarbeitungsgeschwindigkeit

Zahlen-Symbol-Test:

In diesem Untertest gibt es keine wesentlichen Unterschiede zwischen HAWIK-III und -IV. Zwar

wurde der Zahlen-Symbol-Test des HAWIK-III farbig und der Zahlen-Symbol-Test des HAWIK-IV

schwarz-weiß gehalten, dies dürfte jedoch keinen Einfluss auf die Vergleichbarkeit der Ergeb-

nisse in beiden Testversionen haben.


Symbol-Suche:

Bei der Version für die sechs- und siebenjährigen Kinder (Version A) gibt es keine Unterschiede

zwischen beiden Tests. Für die älteren Kinder (Version B) wurden für die WISC-IV bzw. den

HAWIK-IV zur Vermeidung eines Deckeneffekts 15 zusätzliche Aufgaben entwickelt.

4.8 Zusammenfassung Die Wechsler-Skalen zählen zu den bedeutendsten und empirisch meist untersuchten Testver-

fahren. Sie weisen eine jahrzehntelange Tradition in der Forschung und der klinischen Diagnos-

tik auf. Wechslers Einfluss auf die Intelligenzforschung begann in den 1930er Jahren und hat

aufgrund seiner zahlreichen Tests weiterhin ungebrochen Bestand. Es besteht Kritik an unter-

schiedlichen Aspekten seiner Testbatterien, dennoch bleibt die Bedeutsamkeit der Wechsler-

Skalen weitgehend unstrittig. Die hier gegenständlichen Intelligenztests HAWIK-III und HAWIK-

IV sind aus dem HAWIK hervorgegangen, einer für das Kindesalter abgewandelten Version der

Wechsler-Bellevue Intelligence Scale. Sie weisen insgesamt überdurchschnittliche psychome-

trische Eigenschaften auf. Dennoch gibt es Einschränkungen, beispielsweise im Hinblick auf die

Objektivität. Unterschiede in den Gütekriterien, wie unterschiedliche Reliabilitätskennwerte,

müssen beim Vergleich beider Testversionen Berücksichtigung finden.

Dem HAWIK-IV liegen die bisher größten Veränderungen gegenüber einer Vorgängerversion

zugrunde. So zeigen sich im HAWIK-III und -IV in vielerlei Hinsicht deutliche Unterschiede, bei-

spielsweise durch die Einführung neuer Untertests, Änderungen der Teststruktur (u. a. Wegfall

des Verbal- und Handlungsteils) sowie die Erfassung unterschiedlicher kognitiver Fähigkeiten.

Auch innerhalb der Untertests, die in beiden Testversionen enthalten sind, haben sich diverse

Veränderungen ergeben. Dazu gehören die Einführung zusätzlicher Aufgaben ebenso wie Mo-

difizierungen der Bewertungskriterien und Durchführungsanweisungen. Diese Änderungen

können die Vergleichbarkeit beider Testversionen beeinträchtigen.

Kapitel 5 Methodische Aspekte bei Vergleichsstudien 84

5 Methodische Aspekte bei Vergleichsstudien

Allgemeines Wissen, Frage 13: „Was tut der Magen?“

Marie, 7 Jahre: „Er passt auf, dass das Essen nicht rausfällt.“

Obwohl stets neue Testverfahren entwickelt werden, gibt es eine Vielzahl von Studien zu Revi-

sionen bereits bestehender Testverfahren und zu neu aufgelegten Testversionen. Ein Messins-

trument zu überarbeiten hat diverse Gründe. Dazu gehören nach Strauss, Spreen und Hunter

(2000)

die Aktualisierung der Normen (siehe Kapitel 4.6),

die Erweiterung der Altersbereiche,

die Bereitstellung zusätzlicher Minderheitenstichproben,

das Entfernen veralteter Items,

die Verbesserung der Güte des Items sowie

die Erhöhung der Testvalidität.

Testrevisionen können auf komplexe Weise die Art der erhaltenen Informationen verändern

und Merkmale, Fähigkeiten und Bedingungen anders als die vorherigen Versionen erheben.

5.1 Korrelationsstudien Die Untersuchung der Korrelationen zwischen den Testwerten und externen Variablen gibt

Hinweise auf die Kriteriumsvalidität des Tests (siehe Kapitel 4.4.3). Die Kriteriumsvalidität ist

hoch, wenn der Test hoch mit anderen Instrumenten korreliert, die dasselbe Konstrukt zu

messen vorgeben.

Auch für die Wechsler-Skalen wurden entsprechende Korrelationsstudien durchgeführt. Um

abschätzen zu können, welche Korrelationen zwischen dem HAWIK-III und -IV in dieser Studie

zu erwarten sind, wird im Folgenden auf vergleichbare Studien eingegangen. Die Studien wur-

den größtenteils während der Normierung der jeweils aktuelleren Testversion in Form von Co-

Normierungsstudien durchgeführt. Korrelationsstudien wurden in den vergangenen drei Jahr-

zehnten im Bereich der Testentwicklung weit verbreitet eingesetzt (Zhu & Tulsky, 2000). Sie

erlauben die gemeinsame Interpretation zweier Tests und verstärken damit deren klinischen

Nutzen.

5.1.1 Korrelationsstudien zur WISC-III

Für die Untersuchung der Korrelation zwischen der WISC-III und der WISC-R wurden die beiden

Tests in ausbalancierter Reihenfolge 206 Kindern im Alter von 6 bis 16 Jahren (Mit-


tel = 11 Jahre) vorgegeben (Wechsler, 1991). Zwischen den beiden Testzeitpunkten lagen

durchschnittlich 21 Tage. Es wurden nur die Korrelationen zwischen den Untertests, die in bei-

den Testversionen vorkommen, und den drei IQ-Gesamtwerten (Verbal-, Handlungs- und Ge-

samt-IQ5) untersucht. Vor allem Verbal- und Gesamt-IQ beider Testversionen korrelierten hoch

miteinander (r = .90 und .89). Die Korrelation zwischen den Handlungs-IQ-Werten lag, wenn

auch etwas niedriger, mit r = .81 ebenfalls sehr hoch. Daraus wurde geschlossen, dass die

WISC-R und die WISC-III ausreichend die selben Konstrukte erfassen.

In Großbritannien wurde die Korrelation zwischen der englischen WISC-III und der WISC-R un-

tersucht, indem die Testergebnisse von 151 der 206 Kindern der amerikanischen Stichprobe

auf die englischen Normen transferiert wurden (Wechsler, 1992). Der Zusammenhang zwi-

schen den Gesamt- und Verbal-IQ erwies sich ebenfalls als deutlich höher als im Handlungs-IQ

(jeweils r = .88 gegenüber .79).

Eine Studie mit 51 hochbegabten Kindern und Jugendlichen zeigte dagegen auf Untertestebe-

ne nur Korrelationen zwischen r = .08 (Figurenlegen) und .59 (Mosaik-Test). Die beiden Verbal-,

Handlungs- und Gesamt-IQ wiesen mit Werten zwischen r = .33 und .37 ebenfalls niedrige Zu-

sammenhänge auf (Sabatino, Spangler & Vance, 1995).

5.1.2 Korrelationsstudien zum HAWIK-III

Im Manual des HAWIK-III wird eine Validitätsstudie mit dem HAWIK-R beschrieben (Tewes et

al., 2002). Zum Vergleich beider Testversionen wurden sie in einer ausbalancierten Reihenfolge

einer Stichprobe von 87 Schweizer Kindern zur Bearbeitung vorgelegt (der Abstand betrug

durchschnittlich 30 Tage). Im Durchschnitt waren die Kinder 10;4 Jahre alt (s = .90 Jahre). Da-

bei wurden ebenfalls nur jene Untertests einbezogen, die in beiden Testversionen enthalten

sind. Im Gesamt-IQ zeigte sich eine Korrelation von r = .88 (nach Anwendung einer Korrektur

hinsichtlich der Varianzeinschränkung des HAWIK-III von r = .92, siehe Kapitel 7.5.3). Dies spre-

che nach Ansicht der Autoren dafür, dass die beiden Tests dasselbe Konstrukt abbilden. Im

Verbal-IQ (r = .80; korrigierter Wert: r = .88) und im Handlungs-IQ (r = .81; korrigierter Wert:

r = .87) lagen die Koeffizienten etwas niedriger. Doch auch diese Werte sprechen noch für eine

diagnostische Äquivalenz beider Tests. Insgesamt stimmen die Befunde mit denen der ameri-

kanischen und englischen Studien überein. Das gilt auch im Wesentlichen für die Zusammen-

hangsuntersuchung der gemeinsamen Untertests. So ergaben sich sowohl im Vergleich der

WISC-III mit der WISC-R als auch im Vergleich des HAWIK-III mit dem HAWIK-R die niedrigsten

Korrelationen im Bilderordnen (r = .42 gegenüber .47; korrigiert: r = .47) und Bilderergänzen

(r = .57 gegenüber .41; korrigiert: r = .65). 5 Wie bereits an anderer Stelle, werden auch hier zum besseren Verständnis die deutschen Bezeichnun-gen der Gesamtwerte, Indizes und Untertests angegeben, auch wenn es sich um amerikanische Studien handelt.


Im Gegensatz zu der amerikanischen Untersuchungsstichprobe zeigten sich allerdings bei den

Schweizer Kindern höhere IQ-Mittelwerte im HAWIK-III als im HAWIK-R (nur bei drei Untertests

des Handlungsteils waren die Mittelwerte des HAWIK-R höher). Die Autoren des HAWIK-III

stellten die Überlegung an, die höheren Mittelwerte im HAWIK-III könnten mit einer größeren

geografischen Streuung der Normierungspopulation des HAWIK-III zusammenhängen (Tewes

et al., 2002).

5.1.3 Korrelationsstudien zur WISC-IV

In der Studie, die für die vorliegende Untersuchung als Vergleichsbasis herangezogen wird,

wurde die Höhe der Korrelationen zwischen WISC-III und WISC-IV an 244 Kindern zwischen 6

und 16 Jahren untersucht (Wechsler, 2003b). Das Re-Testintervall lag durchschnittlich bei 28

Tagen. Zwischen den Gesamt-IQ beider Testversionen ergab sich eine korrigierte Korrelation

von r = .89. Außerdem wurden der VCI (Verbal Comprehension Index, entspricht dem Index SV

des HAWIK-IV) und der PRI (Perceptual Reasoning Index, entspricht dem Index WLD des HA-

WIK-IV) der WISC-IV mit dem Verbal- und dem Handlungs-IQ der WISC-III (n = 244, Alter 6-16)

verglichen. Dabei weist SV mit dem Verbal-IQ Korrelationen von r = .87 und WLD mit dem

Handlungs-IQ Korrelationen von r = .74 auf. Die Indizes korrelieren zwischen r = .72 und .88.

Die Zusammenhänge der Index-Kombinationen POI (entspricht dem Index WO des HAWIK-III)

und PRI sowie FDI (entspricht dem Index UA des HAWIK-III) und WMI (entspricht dem Index

AGD des HAWIK-IV) erweisen sich als niedriger als die Korrelationen der Index-Kombinationen

VCI und VCI sowie PSI (entspricht dem Index AG des HAWIK-III) und PSI (entspricht dem Index

VG des HAWIK-IV). Die Untertests zeigen nur geringfügig niedrigere Zusammenhänge auf. All-

gemeines Verständnis erweist sich als Untertest mit den niedrigsten Korrelationen (r = .62),

während das Allgemeine Wissen mit r = .83 am höchsten korreliert. Insgesamt erweisen sich

die Indexwerte der WISC-III als höher als die entsprechenden Indexwerte der WISC-IV.

5.1.4 Korrelationsstudien zum HAWIK-IV

Für die Vergleichsstudie zwischen HAWIK-IV und seinem Vorgänger, dem HAWIK-III, wurden

100 Kinder und Jugendliche in ausbalancierter Reihenfolge mit beiden Testverfahren unter-

sucht (Petermann & Petermann, 2008a). Der Abstand zwischen beiden Testungen betrug im

Mittel 35 Tage. Die Korrelationen wurden getrennt, in Abhängigkeit von der Reihenfolge der

Testvorgabe, angegeben. Bei den 54 Kindern und Jugendlichen, die den HAWIK-IV zuerst

durchführten zeigte sich eine Korrelation in den Gesamt-IQ beider Testversionen von r = .73.

Im Vergleich der zusammengesetzten IQ-Werte mit den entsprechenden Indizes sowie der

Indizes untereinander ergaben sich Korrelationen zwischen r = .50 und .97. und auf Untertest-

ebene zwischen r = .34 und .79. Die 46 Kinder und Jugendlichen, die zuerst den HAWIK-III vor-

gelegt bekamen, wiesen in den Gesamt-IQ einen Zusammenhang von r = .63 und in den zu-


sammengesetzten IQ-Werten und den Indizes von r = .35 bis .80 auf. Auf Ebene der Untertests

zeigten sich Korrelationen zwischen r = .43 und .72.

Tabelle 5.1 stellt eine Übersicht über die bisherigen Korrelationsstudien zu HAWIK- bzw. WISC-

Versionen dar.

Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen

WISC-R vs.

WISC-III

HAWIK-R vs.

HAWIK-III

WISC-III vs.

WISC-IV

HAWIK-III vs.

HAWIK-IV Untertest oder Index

US/UK unkorr. (korr.) unkorr. (korr.) HAWIK-IV

zuerst HAWIK-III

zuerst r r r r r MT .76 .81 (.84) .77 (.77) .61 .54 GF .74 .48 (.58) .75 (.76) .60 .43 ZN .71 .78 (.81) .79 (.77) .72 .59 ZST .70 .77 (.77) .77 (.76) .72 .72 WT .77 .77 (.88) .78 (.82) .60 .65 AV .67 .44 (.78) .60 (.62) .61 .58 SS/SYS .68 (.67) .34 .57 BE .57 .41 (.65) .62 (.64) .63 .65 AW .80 .64 (.83) .82 (.83) .79 .67 RD .67 .63 (.69) .74 (.74) .72 .52 BO .42 .47 (.47) FL .58 .52 (.73) V-IQ/V-IQ o. SV .90/.88 .80 (.88) .83 (.87) .97 .79 H-IQ/H-IQ o. WLD .61/.79 .81 (.87) .73 (.74) .50 .35 SV/SV .85 (.88) .75 .80 WO/WLD .70 (.72) .53 .37 UA/AGD .74 (.72) .72 .52 AG/VG .81 (.81) .68 .73 Gesamt .89/.88 .88 (.92) .87 (.89) .73 .63


5.1.5 Korrelationsstudien mit anderen Testverfahren

Die Korrelationen zwischen WISC-IV und der Vorschulversion WPPSI-III wurden an 182 sechs-

und siebenjährigen Kindern berechnet (Wechsler, 2003b). Der Gesamt-IQ korrelierte mit

r = .89 (korrigiert). Auf Index-Ebene zeigten sich mit r = .83 die höchsten korrigierten Korrela-

tionen im Vergleich Verbalteil und SV und mit r = .65 die niedrigsten im Vergleich der VG-

Indizes. In den Indizes und dem Gesamt-IQ lagen die Standarddifferenzen (siehe Kapitel

7.5.3.1) zwischen .02 und .10. Auf Untertestebene ergaben sich korrigierte Korrelationen zwi-

schen r = .44 (Bildkonzepte) und .74 (Allgemeines Wissen). Die Standarddifferenzen lagen zwi-

schen .00 (Allgemeines Verständnis) und .29 (Zahlen-Symbol-Test).

Zur Berechnung der Korrelationen zwischen WISC-IV und der Erwachsenenversion WAIS-III

wurden 198 Kinder im Alter von 16 Jahren untersucht (Wechsler, 2003b). Während der Korre-

lationskoeffizient des Gesamt-IQ bei r = .89 lag, erreichten die Indizes Korrelationen von r = .73


(WLD und WO) bis .86 (SV und Verbalteil). Im Hinblick auf die Untertests ergaben sich für die

Symbol-Suche mit r = .56 die niedrigsten und für den Wortschatz-Test mit r = .83 die höchsten

Korrelationen.

Die Korrelationsstudie zwischen WISC-IV und KABC-II wurde an 56 Kindern im Alter von 7 bis

16 Jahren durchgeführt (Kaufman & Kaufman, 2004). Der Gesamt-IQ der WISC-IV korrelierte

dabei hoch mit beiden Gesamtwerten der KABC-II (r = .88 mit dem Mental Processing Index

(MPI) und r = .89 mit dem Fluid-Crystallized Index (FCI) sowie r = .79 mit dem Nonverbal Index

(NVI)). Auf Index-Ebene wies SV mit dem entsprechenden Index Knowledge/Gc mit r = .85 den

höchsten Zusammenhang auf. WLD korrelierte am höchsten mit den entsprechenden Indizes

Planning/Gf und Simultaneous/Gv der KABC-II (r = .69 und .66), AGD mit r = .71 mit dem Index

Sequential/Gsm, der ebenfalls die Leistung des Kurzzeitgedächtnisses erheben soll. VG korre-

lierte mit keinem der KABC-II-Indizes sehr hoch und auch die Korrelationen zu den Gesamtwer-

ten der KABC-II waren mit r = .59 bis .64 die niedrigsten aller vier Indizes.

In einer größer angelegten Studie wurden KABC-II und WISC-III anhand von 119 Kindern im

Alter von 8 bis 13 Jahren verglichen (Kaufman & Kaufman, 2004). Es ergaben sich auf Ebene

der Gesamtwerte niedrigere Zusammenhänge als zwischen K-ABC-II und WISC-IV (zwischen

r = .71 und .77). Verbal-IQ und SV korrelierten hoch mit dem entsprechenden Index Know-

ledge/Gc (r = .82), Handlungs-IQ und WO dagegen relativ niedrig mit dem entsprechenden

Index Simultaneous/Gv (r = .61 und .62). Anders als bei der WISC-IV korrelierten Handlungs-IQ

und WO nur recht niedrig mit dem Index Planning/Gf (r = .54 und .56), was dafür spricht, dass

der Handlungsteil des HAWIK-III eher visuelle Verarbeitung als fluides Denken misst (siehe

Kapitel 3.3.1 sowie Flanagan et al., 2000). UA und AG wiesen niedrige bis moderate Korrelatio-

nen zu den KABC-II-Indizes auf (zwischen r = .13 und .58).

5.2 Störeinflüsse Viele Aspekte können ursächlich dafür sein, dass ein Individuum bei demselben oder einem

ähnlichen Test an zwei Messzeitpunkten deutlich voneinander abweichende Ergebnisse erzielt.

Dies können sowohl intraindividuelle und interpersonale als auch im umweltbezogene und

psychometrische Gründe sein (Bracken, 1992). Während vor allem umweltbezogene und

interpersonale Störeinflüsse relativ gut ausgeschlossen werden können, indem beispielsweise

beide Testungen im selben Raum stattfinden und vom selben Testleiter durchgeführt werden,

ist es kaum möglich, sämtliche psychometrischen Einschränkungen zu vermeiden. Diese Fakto-

ren haben Einfluss auf den Validitätskoeffizienten und können zu unterschiedlichen Ergebnis-

sen in zwei eigentlich ähnlichen Instrumenten führen. Teilweise interagieren sie zusätzlich

miteinander. Einige dieser Faktoren sind nach Wechsler (2003b)


das Zeitintervall zwischen den Testungen,

entwicklungsbedingte Veränderungen und Lernzuwächse während des Zeitintervalls,

strukturelle Unterschiede zwischen den Tests,

Regression zur Mitte von der ersten zur zweiten Testung,

die Reliabilitäten beider Tests,

Erinnerung an die erste Testdurchführung,

unterschiedliches prozedurales Lernen und Übung,

das Motivationslevel des Kindes sowie

der Flynn-Effekt.

Zhu und Weiss (2000) bezeichnen Faktoren wie Übung, Erlernen der Prozeduren und Bekannt-

heit mit der Testsituation als „carry-over“-Effekte. Im Folgenden werden diese Faktoren sowie

die Erinnerung an die erste Testdurchführung zusammenfassend als Lerneffekt bezeichnet und

ausführlich behandelt.

Ergänzend zu den oben genannten Störeinflüssen ging Bracken (1988) auch bei folgenden Fak-

toren davon aus, dass sie bei ähnlichen Tests zu unterschiedlichen Ergebnissen beitragen kön-

nen:

Boden- und Deckeneffekte (siehe Kapitel 4.4.5),

Itemgefälle,

Unterschiede in den Normtabellen,

Untersuchung unterschiedlicher Fähigkeiten durch die Untertests (siehe Kapitel 4.2 und 4.3),

inhaltliche Unterschiede der Tests (siehe Kapitel 4.2 und 4.3) sowie

Repräsentativität der Normstichprobe (siehe Kapitel 4.4.4).

Diese Einflüsse und ihre Interaktionen miteinander müssen bei der Interpretation der Ergeb-

nisse berücksichtigt werden.

Viele dieser Faktoren sind in dieser Studie nicht kontrollierbar. Dazu gehört das Motivationsle-

vel des Kindes ebenso wie entwicklungsbedingte Veränderungen und Lernzuwächse. Letztere

können jedoch zumindest für das kurze Intervall ausgeschlossen werden. Der Einfluss unter-

schiedlicher Normtabellen (dies wäre beispielsweise der Fall, wenn bei den Testversionen un-

terschiedliche Altersspannen in den Normtabellen zusammengefasst wären) auf die Vergleich-

barkeit beider Testversionen kann ebenfalls ausgeschlossen werden, da sich die Struktur der

Normtabellen von HAWIK-III und -IV nicht unterscheidet. Die Normstichprobe kann für beide

Testversionen als gleich repräsentativ angenommen werden.

Das Itemgefälle eines Tests gibt an, wie steil die Items hinsichtlich des Schwierigkeitsniveaus

und der Distanz zwischen den Standardwerten festgelegt wurden (Bracken, 1992). Bei zu stei-


lem Verlauf würde beispielsweise ein erzielter Rohwertpunkt mehr oder weniger entscheiden,

ob ein Kind als minder- oder hochbegabt diagnostiziert wird. In diesem Fall wäre eine Interpre-

tation des Testergebnissen ausgesprochen fragwürdig. In dieser Studie wird von einem ähnli-

chen Itemgefälle beider Testversionen ausgegangen, so dass sich darauf keine Unterschiede

zwischen den Ergebnissen im HAWIK-III und -IV begründen lassen.

Auf das Zeitintervall wird aufgrund des in zwei Abstände unterteilten Untersuchungsdesigns an

diversen Stellen eingegangen. Ausführliche Angaben zu strukturellen und inhaltlichen Unter-

schieden zwischen beiden Testversionen sowie Boden- und Deckeneffekten wurden bereits in

Kapitel 4 aufgeführt. Auch die unterschiedlichen Fähigkeiten, die von den Untertests und Indi-

zes des HAWIK-III und -IV erfasst werden sollen sowie unterschiedliche Reliabilitäten beeinflus-

sen die Vergleichbarkeit beider Testversionen. Sie wurden deshalb im Kapitel 4 gesondert be-

trachtet. In diesem Kapitel soll daher auf folgende der oben aufgeführten Störeinflüsse einge-

gangen werden: den Lerneffekt und den Flynn-Effekt.

5.2.1 Lerneffekt

Einen möglichen Störeinfluss auf den Vergleich zwischen HAWIK-III und -IV stellt der Lerneffekt

dar. Besonders bei den Kindern und Jugendlichen, die mit einem Abstand von einem Monat

mit beiden Testverfahren getestet wurden, kann es aufgrund von Lernerfahrungen und Erinne-

rung zu höheren Werten in der zweiten Testung kommen. Der Lerneffekt entsteht nach Kauf-

man (1994b) durch die Erfahrung, die eine Person durch die erste Testdurchführung gemacht

hat, und geht nicht auf das Feedback des Testleiters oder Weiterentwicklungen der Fähigkei-

ten des Kindes zurück. Er ist vielmehr ein Aspekt des Messinstruments an sich, eine Art syste-

matischer, eingebauter Fehler, der mit den spezifischen Fähigkeiten, die vom Test gemessen

werden, assoziiert ist. Es gibt einige Faktoren, die zum Lerneffekt beitragen. Dazu gehören die

Vertrautheit mit Aufgaben, wie sie in Intelligenztestverfahren vorkommen, die Erfahrung mit

der Lösung solcher Aufgaben und die Entwicklung von Strategien zur Lösung dieser Art von

Problemen (Kaufman, 1994b).

Der Lerneffekt gehört zu den psychometrischen Eigenschaften eines Testverfahrens und sollte

als spezifischer Aspekt der Reliabilität verstanden werden. Obwohl er ausgiebig untersucht und

nachgewiesen werden konnte, wird er nach Kaufman und Lichtenberger (2006) von vielen

Untersuchern bei der Interpretation von Testprofilen unberücksichtigt gelassen. Je länger der

Abstand zwischen beiden Messzeitpunkten ist, desto geringer zeigt sich der Einfluss des Lern-

effekts. Nach langen Intervallen fließen eher andere Störvariablen wie die Zu- oder Abnahme

der erfassten Fähigkeiten in das Ergebnis ein (Kaufman, 1994b). Aus diesem Grund wurde der

Lerneffekt zumeist an kurzen Intervallen untersucht.


Für die WISC-IV wurde an 243 Kindern und Jugendlichen ein möglicher Lerneffekt untersucht.

Das Re-Testintervall lag dabei zwischen 13 und 63 Tagen mit einem durchschnittlichen Abstand

von 32 Tagen (Wechsler, 2003b).

Die folgende Tabelle 5.2 zeigt den Lerneffekt in den Index- und IQ-Werten, sowohl für alle Kin-

der als auch unterteilt in drei Altersgruppen.

Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert nach Wechsler, 2003b, S. 40ff)

Index Alter 6-7 Alter 8-11 Alter 12-16 Gesamt SV +3.4 (.31 SD) +2.2 (.20 SD) +1.7 (.14 SD) +2.1 (.18 SD) WLD +6.4 (.46 SD) +4.2 (.34 SD) +5.4 (.38 SD) +5.2 (.39 SD) AGD +4.7 (.33 SD) +2.8 (.22 SD) +1.6 (.12 SD) +2.6 (.20 SD) VG +10.9 (.72 SD) +8.2 (.60 SD) +4.7 (.35 SD) +7.1 (.51 SD) Gesamt-IQ +8.3 (.62 SD) +5.8 (.53 SD) +3.4 (.34 SD) +5.6 (.46 SD)

Anmerkungen: SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.

Wie die Tabelle 5.2 zeigt, wiesen die Kinder im Alter von sechs bis sieben Jahren die größten

Lerneffekte auf und diese nahmen im Altersverlauf ab. Dies zeigte sich vor allem im Gesamt-

IQ, aber auch in den Indizes mit Ausnahme des WLD. Obwohl der Lerneffekt bei der VG in der

Gruppe der sechs- bis siebenjährigen Kinder mit 10.9 Punkten Zuwachs am höchsten ausfiel,

zeigten sich keinerlei Lerneffekte im optionalen Untertest Durchstreich-Test. Rechnerisches

Denken und Buchstaben-Zahlen-Folgen, beides Untertests des Index AGD, wiesen in der jüngs-

ten Altersgruppe deutliche, in den anderen Altersgruppen jedoch kaum Lerneffekte auf.

Auf Untertestebene wies Bilder ergänzen den größten Lerneffekt auf, gefolgt von den zwei

anderen Untertests des WLD, Bildkonzepte und Mosaik-Test. Tabelle 5.3 zeigt die Untertests

mit relativ großem Ein-Monats-Lerneffekt separat für die drei Altersgruppen.

Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgrup-pen (modifiziert nach Wechsler, 2003b, S. 40ff)

Alter 6-7 Alter 8-11 Alter 12-16 ZST (+0.65 SD) BE (+0.68 SD) BE (+0.58 SD) SYS (+0.62 SD) SYS (+0.52 SD) DT (+0.44 SD) BE (+0.58 SD) BK (+0.52 SD) ZST (+0.40 SD) RD (+0.57 SD) DT (+0.47 SD) MT (+0.40 SD) BK (+0.50 SD) MT (+0.40 SD) BK (+0.35 SD) MT (+0.45 SD) GF (+0.45 SD)

BEN (+0.42 SD) BZF (+0.39 SD)

Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Relativ große Lerneffekte sind hier die Untertests mit einer Standardabweichung von mindestens 0.33 (dies entspricht ungefähr einer Steigerung um einen Wertpunkt, abhängig von der genauen Standardabweichung in jedem Al-ter).

Eine Studie zur WISC-III an 51 Kindern und Jugendlichen im Alter von 11 bis 14 Jahren brachte

bei einem Test-Retest-Intervall zwischen 11 und 19 Tagen mit einem Mittelwert von 13 Tagen


im Handlungsteil Zuwächse von durchschnittlich 13.78 IQ-Punkten hervor (Siders, Kaufman &

Reynolds, 2006). Dies ähnelt den Ergebnissen, die im Testmanual der WISC-III angegeben sind

(Wechsler, 1991, Tabellen 5.3 bis 5.5). Dort erzielten 353 Kinder der Altersgruppen 6 bis 7, 10

bis 11 und 14 bis 15 nach einem Abstand von 12 bis 63 Tagen (Mittelwert 23 Tage) bei der

zweiten Testung zwischen 11.5 und 13.0 Handlungs-IQ-Punkte mehr. Für den Verbal-IQ lag der

Anstieg nur zwischen 1.7 und 3.3 Punkten, im Gesamt-IQ schwankte die Differenz zwischen

beiden Testzeitpunkten zwischen sieben und acht IQ-Punkten. Für Kamphaus (2005) scheint

demnach ein Zugewinn von zwei oder drei Punkten im Verbalteil ein typischer Lerneffekt nach

einer kurzen Zeitspanne zu sein, während im Handlungsteil die Vertrautheit mit den Untertests

durchschnittlich eine weitaus höhere Ergebnissteigerung zur Folge hat. Dies liegt nach Kauf-

man und Lichtenberger (2006) auch an den niedrigeren Reliabilitäten der Untertests des Hand-

lungsteils, da mit geringerer Stabilität und größerem Messfehler deutlichere Änderungen zwi-

schen Test und Re-Test einhergehen.

Für den hohen Lerneffekt im Handlungsteil waren in der Studie zur WISC-III vor allem die Un-

tertests Zahlen-Symbol-Test und Bilderordnen ursächlich (Wechsler, 1991). Hier steigerte sich

der erreichte Wert um bis zu einer Standardabweichung. Ein hoher Lerneffekt im Zahlen-

Symbol-Test zeigte sich auch in der Studie zur WISC-IV, zumindest in der jüngsten und ältesten

Altersgruppe (siehe Tabelle 5.3). Einen ähnlich hohen Anstieg wie im Handlungsteil verzeichne-

ten auf Index-Ebene nur die beiden Indizes WO und AG (Zuwächse von 9 bis 11 Punkten), was

darauf zurückgeführt werden kann, dass der Handlungsteil größtenteils aus den Untertests

dieser beiden Indizes besteht.

Auch in älteren Studien konnten große Lerneffekte nachgewiesen werden, vor allem nach kur-

zen Re-Testintervallen. Im Gegensatz zu bisher genannten Studien zeigten sich bei einer Unter-

suchung mit der WAIS deutlich größere Lerneffekte im Verbal- als im Handlungsteil (11.4 ge-

genüber 4.7) (Catron & Thompson, 1979). Matarazzo, R. G., Wiens, Matarazzo, J. D. und Ma-

naugh (1973) fanden bei 29 Personen nach einem Intervall von 14 bis 22 Wochen einen durch-

schnittlichen Leistungszugewinn von 5.5 Gesamt-IQ-Punkten (Verbal-IQ 5.6 und Handlungs-IQ

4.9). Eine der ersten Studien zu Lerneffekten bei der WISC zeigte nach einem Drei-Monats-

Intervall einen Gesamt-IQ-Zuwachs zwischen 4.3 und 8.1 Punkten, je nach Alter des Kindes

(Quereshi, 1968). Außerdem ergaben sich deutlich größere Lerneffekte im Handlungs- als im

Verbalteil. Im Allgemeinen Verständnis ließ sich, außer bei den jüngsten Kindern, sogar keiner-

lei Unterschied feststellen.

In einer Studie zur WAIS-R wurde an 52 16-Jährigen der Unterschied im IQ-Anstieg zwischen

einer Re-Testung nach drei Monaten und einer Re-Testung nach 18 Monaten untersucht

(Thompson & Molly, 1993). Es zeigten sich deutlich höhere Anstiege bei den Jugendlichen, die


erst nach 18 Monaten zum zweiten Mal getestet wurden (Gesamt-IQ: 10.4, Verbal-IQ: 7.3,

Handlungs-IQ: 12.2 gegenüber 7.0, 3.6 und 10.7 im kurzen Intervall). Da nach Thompson und

Molly der Lerneffekt mit größerem Abstand immer geringer wird, führen sie den größeren

Anstieg nicht auf Lerneffekte, sondern auf Reifungsprozesse und Bildungszuwachs der 16-

Jährigen zurück. Das wurde insbesondere im Allgemeinen Verständnis deutlich, in dem die

Jugendlichen, die nach dem längeren Abstand noch einmal getestet wurden, einen größeren

Zuwachs verzeichneten als die Jugendlichen mit dem kürzeren Intervall. Da sich das Allgemeine

Verständnis (ähnlich wie die anderen verbalen Untertests) als relativ unberührt von Lerneffek-

ten erweist (siehe Quereshi, 1968), muss dieser Anstieg auf diese anderen Effekte zurückzu-

führen sein.

In Studien zur Untersuchung der Stabilität von WISC-III-Profilen ergaben sich bei einem Re-

Testintervall von im Durchschnitt drei Jahren keinerlei nennenswerte Wertpunkt- und IQ-

Wertanstiege (Borsuk, Watkins & Canivez, 2006; Canivez & Watkins, 1999).

Unter Berücksichtigung mehrerer Studien zum Lerneffekt bei den Wechsler-Skalen zeigte sich

im Gesamt-IQ ein Zuwachs von ungefähr sieben Punkten, dabei fiel dieser bei jüngeren etwas

geringer aus als bei älteren Kindern (Kaufman, 1994b). Im Handlungsteil ergaben sich durch-

schnittlich neun Punkte Zuwachs, im Verbalteil nur drei Punkte. Genau wie der Gesamt-IQ hat-

te auch der Handlungsteil einen geringeren Lerneffekt bei den jüngeren Kindern zu verzeich-

nen, im Verbalteil war dies jedoch nicht der Fall.

Auf Basis der oben beschriebenen Studien mit den Wechsler-Skalen kann mithin bei den Hand-

lungsskalen erst nach einem Intervall von ein bis zwei Jahren von keinerlei Lerneffekt ausge-

gangen werden. Für die sprachlichen Untertests gilt dies ab ungefähr einem Jahr (Canivez &

Watkins, 1999; McCaffrey, Duff & Westervelt, 2000; Wechsler, 2003b).

Nach Kaufman und Lichtenberger (2006) lassen sich Lerneffekte besonders in den Untertests

nachweisen, die unabhängig von den schulischen Aufgaben des Kindes sind und demnach

neue, bisher unbekannte Aufgaben darstellen. So ergaben sich im Verbalteil der Wechsler-

Versionen mit dichotomer Unterteilung in Verbal- und Handlungsteil die höchsten Zuwächse in

den Untertests Gemeinsamkeiten finden und Zahlen nachsprechen, da diese Art von Aufgaben

im schulischen Setting weniger gefragt sind. Die Untertests Wortschatz-Test, Rechnerisches

Denken und Allgemeines Verständnis - alles Untertests, die im schulischen Alltag der Kinder

eine große Rolle spielen - wiesen währenddessen durchweg den geringsten Lerneffekt auf.

Dies erklärt auch die deutlich höheren Lerneffekte im Handlungsteil, der Aufgaben beinhaltet,

die dem Kind aus dem schulischen Setting nicht vertraut sind. Durch die erste Vorgabe der

Aufgaben wurden sie dem Kind bekannt und es erinnert sich an die Lösungsstrategien, die

beim ersten Test am besten funktioniert haben. Auch wenn zum zweiten Testzeitpunkt nicht


unbedingt mehr Aufgaben zu lösen sind, so wird für die gelösten Aufgaben oftmals weniger

Zeit benötigt, was angesichts der Vergabe von Zeitbonuspunkten gerade in den Untertests des

Handlungsteils schon zu einem besseren Ergebnis führt.

Zur Berücksichtigung des Lerneffekts in der vorliegenden Studie wurde den Kindern der HA-

WIK-III und der HAWIK-IV in ausbalancierter Reihenfolge vorgegeben (siehe Kapitel 7.2). Den-

noch soll überprüft werden, als wie hoch sich der Lerneffekt in dieser Studie erweist. Anders

als in den oben genannten Studien handelt es sich dabei jedoch um unterschiedliche Testver-

sionen. Somit können neben einem Lerneffekt auch die Veränderungen in den Untertests und

Indizes Einfluss auf die Zuwächse oder Abnahmen haben.

5.2.2 Flynn-Effekt

Der nach dem neuseeländischen Politologen James R. Flynn benannte Flynn-Effekt besagt, dass

Testleistungen in Form einer säkularen Akzeleration über die Jahre hinweg zunehmen (Flynn,

2007; Lynn & Harvey, 2008; Teasdale & Owen, 2008). Das kann bei der Verwendung veralteter

Testnormen bei Intelligenzmessungen zu überhöhten Werten führen (Flynn, 1984, 1999, 2007)

und somit können Entwicklungsbeeinträchtigungen deutlich unterschätzt werden (Wolke &

Söhne, 1997). Dieser Effekt ist insbesondere bei jüngeren Kindern zu beobachten (Kanaya, Ceci

& Scullin, 2005). Aus diesem Grund haben Normen von Intelligenztests spätestens nach 15

Jahren ihre Gültigkeit verloren und sollten durch neue Vergleichswerte ersetzt werden.

Der Flynn-Effekt betrifft eher Tests, die die fluide Intelligenz erfassen (Flynn, 1999, 2007). So

zeigt sich bei Testverfahren wie den Raven-Matrizen ein Leistungsanstieg von bis zu sieben IQ-

Punkten pro Dekade, während der verbale IQ eines Menschen innerhalb von zehn Jahren

durchschnittlich nur um etwa einen halben Punkt ansteigt (Flynn, 2007). Der durchschnittliche

Zugewinn liegt bei circa drei IQ-Punkten pro Jahrzehnt, was seit 1950 mehr als 15 Punkten

(und damit einer Standardabweichung) entspricht. In Deutschland und anderen westlichen

Nationen konnte sogar ein Flynn-Effekt von durchschnittlich fünf IQ-Punkten pro Jahrzehnt

aufgezeigt werden (Kaufman & Lichtenberger, 2006). Gründe dafür können nach Neisser et al.

(1996) Umgebungseinflüsse wie verbesserte Ernährung, kulturelle Änderungen, Erfahrung mit

Tests sowie Veränderungen des Lernverhaltens der Kinder und Erziehungsverhaltens der Eltern

sein. Neueste Studien sehen die Ursache der Leistungssteigerung einzig in der verbesserten

prä- und frühen postnatalen Ernährung (Lynn, 2009). Andere gehen eher von einer verbesser-

ten Förderung sozial benachteiligter Gruppen als Ursache für den Flynn-Effekt aus (Strauss et

al., 2000).

Auch anhand der Wechsler-Skalen wurde der Flynn-Effekt in der Vergangenheit wiederholt

untersucht (Wechsler, 1991). Dabei zeigten sich auf Untertestebene unterschiedlich steile

Wachstumskurven. Für die Untertests Rechnerisches Denken, Wortschatz-Test und Allgemeines


Wissen konnten dabei die geringsten Anstiege verzeichnet werden. Laut Flynn (2007) stiegen

die Werte von der WISC aus dem Jahre 1947 bis zur 2002 erschienenen WISC-IV im Gemein-

samkeiten finden um 24 Punkte, im Allgemeinen Verständnis nur noch um 11 Punkte, im Wort-

schatz-Test um vier Punkte und im Rechnerischen Denken und Allgemeinen Wissen nur um

zwei Punkte. Der Anstieg des Gesamt-IQ liegt nach Flynn in dieser Zeitspanne bei ungefähr 18

Punkten. Somit würden Kinder, die heutzutage mit der WISC und der WISC-IV getestet werden,

in der WISC durchschnittlich 18 IQ-Punkte mehr erhalten als in der WISC-IV.

Zwischen den verschiedenen Versionen der Wechsler-Skalen wurden insgesamt Leistungszu-

wächse von drei bis acht Punkten berichtet, was einem Anstieg von ungefähr 0.3 IQ-Punkten

pro Jahr entspricht (Strauss et al., 2000). Bei einem Vergleich der Mittelwerte von WISC-R und

-III zeigten sich etwa fünf IQ-Punkte weniger im Gesamt-IQ der WISC-III, der Verbal-IQ der

WISC-III lag etwa zwei Punkte und der Handlungs-IQ ungefähr sieben Punkte unter denen der

WISC-R. Danach dürfte beispielsweise ein Kind, das in der WISC-R einen IQ-Wert von 100 er-

reicht hat, in der WISC-III nur noch einen IQ-Wert von 94 bis 96 erreichen. Diese Diskrepanz

nimmt noch zu, je weiter der Wert vom Mittelwert (IQ-Wert 100) entfernt ist. Dabei zeigen

sich im unteren Leistungsbereich deutlich höhere Leistungszuwächse als im oberen (Teasdale

& Owen, 1989).

Die Untersuchung des Leistungsanstiegs bei Hochbegabten mit einem neu entwickelten Test-

instrument weist jedoch auch im oberen Leistungsbereich auf einen Flynn-Effekt hin (Wech-

sler, 1991, 2003b). Die als hochbegabt Identifizierten wiesen im neuen Verfahren einen Ge-

samt-IQ-Mittelwert auf, der deutlich unter der zur Diagnose von Hochbegabung festgelegten

Grenze von 130 IQ-Punkten liegt. So lag der mittlere Gesamt-IQ bei Hochbegabten in der Vali-

dierungsstudie zur WISC-III zunächst nur bei 128.7 (Wechsler, 1991) und in der Studie zur

WISC-IV sogar nur bei 123.5 IQ-Punkten (Wechsler, 2003b).

So unstrittig wie dargestellt, ist der Flynn-Effekt jedoch nicht. Einige Forscher widersprechen

seiner Existenz (Rodgers, 1998). Zumindest sind sich viele Forscher einig, dass der Flynn-Effekt

nachgelassen oder sich sogar umgekehrt hat. Flynns Studien basieren auf Studien bis Ende der

1980er Jahre. Neuere Studien in Skandinavien zeigen eine Stagnation der Intelligenzleistung in

den Industrienationen in den 1990er Jahren und seitdem sogar eine Abnahme, besonders hin-

sichtlich der fluiden Intelligenz (Sundet, Barlaug & Torjussen, 2004; Teasdale & Owen, 2008).

Teasdale, der die Ursache für den Flynn-Effekt in Dänemark in Schulreformen in den 1950er

und 1960er Jahren sieht, führt die Stagnation auf fehlende Verbesserungen im Schulsystem

seit den 1970er Jahren zurück. Flynn selbst erklärt sich den Rückgang mit dem Wohlstand in

den Industrienationen, der zu einer Dekadenz geführt habe (Channel Wissenschaft, 2006). Der

deutsche Intelligenzforscher Lehrl sieht den Rückgang durch die schlechteren Ergebnisse im

PISA-Test 2003 gegenüber denen des PISA-Tests von 2000 bestätigt (Prenzel et al., 2004), führt


ihn jedoch eher auf die Überforderung der modernen Gesellschaft an den Konsumenten zu-

rück, der sich in weniger anspruchsvolle Alternativangebote flüchte und somit sein Gehirn

weniger fordere. Außerdem hält er die Menschen heute für passiver, sie würden Informatio-

nen nicht mehr überdenken, sondern sich nur noch von ihnen berieseln lassen (Donner, 2006).

Die vorliegende Studie kann dazu dienen, Hinweise darauf zu geben, inwiefern sich der Flynn-

Effekt auch noch innerhalb der vergangenen Dekade zeigt oder ob tatsächlich von einer Stag-

nation oder sogar einer Umkehr ausgegangen werden kann.

Eine Möglichkeit, die Testleistung aus zwei Versionen gleichzusetzen, wäre, die mittleren Diffe-

renzen beider Tests voneinander abzuziehen (Russell, 1992). Dieses Verfahren ist jedoch

durchaus problematisch, da die Höhe der Abweichungen stark variieren kann. So zeigte sich in

einer Studie an Kindern mit Lernbehinderung ein IQ-Abfall zwischen WISC-R und WISC-III von

1.35 Punkten, während er bei hochbegabten Kindern bei 18.09 IQ-Punkten lag (Strauss et al.,

2000).

Aus diesem Grund soll in dieser Studie der Flynn-Effekt gesondert für die Kinder und Jugendli-

chen betrachtet werden, die Leistungen in den IQ-Randbereichen zeigten.

5.3 Grenzen der Intelligenzdiagnostik Wie in Kapitel 2.1 ausgeführt handelt es sich bei der Intelligenz um ein schwer greifbares und

sensibles Konstrukt. Im Hinblick auf die Diagnostik von Intelligenz können demnach neben den

mangelhaften Gütekriterien weitere Aspekte die Aussagekraft von Intelligenztests einschrän-

ken. So lassen Intelligenztests lediglich Aussagen über den aktuellen Leistungs- und Entwick-

lungsstand in Form einer Statusdiagnostik zu (Holling et al., 2004). Das Ergebnis hängt dem-

nach teilweise stark von der Tagesform der Person ab und kann zu unterschiedlichen Zeitpunk-

ten zu stark abweichenden Ergebnissen führen. Außerdem wird die Intelligenz besonders im

frühen Lebensalter als relativ instabil angesehen (Braaten & Norman, 2006). Daher gelten In-

telligenzbefunde von Kindergartenkindern allgemein als schwache Prädiktoren für die Vorher-

sage zukünftiger Schulleistungen (O`Shea, Harel & Fein, 2002). Gerade bei jungen Kindern be-

einflussen Störvariablen wie die Person des Untersuchers, die Tagesform oder Änderungen in

der Persönlichkeit des Kindes (z. B. Ablegung kindlicher Schüchternheit oder Unsicherheit) die

Testleistung. Somit sollten Testergebnisse aufgrund der hohen Variabilität im Rahmen der

normalen Entwicklung in den Jahren vor der Einschulung nur mit großer Vorsicht interpretiert

werden (Daseking et al., 2006).

Störvariablen und andere Einflüsse (siehe Kapitel 5.2) können bei jedem Testergebnis zu Mess-

fehlern führen. Daher kann das Ergebnis nur als Annäherung an den wahren Wert gesehen


werden. Um dem entgegenzuwirken, werden Testergebnissen zusätzlich Konfidenz- bzw. Ver-

trauensintervalle zugeordnet.

Intelligenztests bilden nur den Ausschnitt der Intelligenz ab, der der Intelligenzdefinition ent-

spricht, auf dessen Grundlage der Test entwickelt wurde. Daher korrelieren unterschiedliche

Intelligenztests nicht perfekt miteinander. Somit kann ein Mensch in verschiedenen Tests und

gleichbenannten Aufgabenbereichen unterschiedliche Ergebnisse erzielen (Daniel, 1997). Au-

ßerdem gelten bisherige Intelligenztests im Allgemeinen als nicht in der Lage, einzelne kogniti-

ve Prozesse genau abzubilden, die zum Teil in Sekundenbruchteilen ablaufen, aber für höhere

kognitive Prozesse relevant sind (Vock & Holling, 2006).

Besonders wenn der Intelligenztest über sprachliches Aufgabenmaterial verfügt, können Per-

sonen aus bildungsfernen Familien, Menschen mit Migrationshintergrund oder Sprachstörun-

gen benachteiligt sein (Daseking, Lipsius et al., 2008; Gienger, Petermann & Petermann, 2008).

Zusammenfassend muss demnach festgestellt werden, dass psychometrische Testverfahren

diversen Einschränkungen unterliegen, die auch Einfluss auf die Ergebnisse dieser Studie haben

können.

Dennoch ermöglichen Intelligenztests bei Erfüllung der psychometrischen Gütekriterien objek-

tive, reliable, valide und zeitökonomische Messungen sowie die Erfassung von Fähigkeiten, die

nicht durch entsprechende Leistungen im Alltag gezeigt werden (Holling et al., 2004). Sie bie-

ten eine genauere Differenzierung intellektueller Dimensionen als andere Vorgehensweisen,

wie beispielsweise Selbst- oder Fremdeinschätzungen, Beobachtungen oder schulische Leis-

tungsdaten. Außerdem machen die durch eine Normierung errechneten Zahlenwerte einen

intra- und interindividuellen Vergleich der Ausprägung kognitiver Fähigkeiten möglich.

5.4 Zusammenfassung Einige Aspekte müssen bei dem Vergleich zweier Versionen eines Testverfahrens berücksich-

tigt werden. Korrelationsstudien zwischen Wechsler-Versionen oder zwischen Wechsler-Tests

und anderen Intelligenztestverfahren geben Hinweise auf die zu erwartende Höhe der Korrela-

tionen zwischen den Ergebnissen der beiden hier gegenständlichen Testversionen HAWIK-III

und -IV. Innerhalb der Wechsler-Versionen ergaben sich auf Index- und Gesamt-IQ-Ebene Kor-

relationen zwischen r = .61 und .92. Der Untertestvergleich wies Korrelationen zwischen r = .42

und .88 auf. Demnach können für den Vergleich zwischen den Ergebnissen des HAWIK-III und -

IV ähnlich hohe Korrelationen erwartet werden.

In einer Validierungsstudie müssen verschiedene Störvariablen berücksichtigt werden. Dazu

gehören Lerneffekte, also die Erinnerung an die erste Testdurchführung. Außerdem besagt der


Flynn-Effekt, dass das Erhalten eines bestimmten IQ in aktuellen Testversionen mehr Leistung

erfordert als in älteren Versionen, da davon ausgegangen wird, dass der IQ in den vergangenen

Jahrzehnten kontinuierlich gestiegen ist.

Die Intelligenzdiagnostik unterliegt bestimmten Einschränkungen und Grenzen, die sich durch

Störeinflüsse, kulturelle Verzerrungen oder Instabilität der Ergebnisse ergeben können und

auch in dieser Studie zum Tragen kommen.

Kapitel 6 Ableitung der Fragestellung und Hypothesen 99

6 Ableitung der Fragestellung und Hypothesen

Allgemeines Verständnis, Frage 4: „Was sollst du machen, wenn du siehst, dass dicke

Rauchwolken aus dem Fenster des Nachbarhauses kommen?“

Marian, 6 Jahre: „Husten.“

In den vorherigen Kapiteln wurden die zu untersuchenden Messinstrumente HAWIK-III und -IV

vorgestellt, ihr theoretischer Hintergrund beleuchtet und Überlegungen dazu angestellt, wel-

che Störeinflüsse auf die Vergleichbarkeit von Testwerten aus beiden Testverfahren wirken

können. Dabei stellten sich diverse Aspekte heraus, die Anlass bieten, an einer uneinge-

schränkten Vergleichbarkeit beider Testversionen zu zweifeln. Zu den wichtigsten zählen

die unterschiedlichen Forschungsstände zum Zeitpunkt der Testentwicklung,

ein unterschiedliches zu Grunde gelegtes Testmodell,

Veränderungen in der Teststruktur,

Veränderungen innerhalb der Untertests,

der Wegfall alter und die Einführung neuer Untertests sowie

die unterschiedlichen Erscheinungsdaten beider Testversionen (siehe Flynn-Effekt).

Aus diesen Erkenntnissen lassen sich diverse Fragestellungen und Hypothesen zur Vergleich-

barkeit beider Testversionen ableiten. Dafür sollen zunächst mögliche Mittelwertunterschiede

untersucht werden. Außerdem soll versucht werden, die vorgegebene Faktorenstruktur beider

Testversionen zu replizieren. Zur Untersuchung der Höhe des Zusammenhangs werden an-

schließend Korrelationsanalysen durchgeführt. Schließlich soll die Teststruktur mit Hilfe von

Regressionsanalysen weitergehend untersucht werden. Ein Überblick über die Hypothesen

dieser Studie wird in Tabelle 6.1 dargestellt.


Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie. Hypothesen Hypothesen Fragen

6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte 6.1.1-6.1.7 1 & 2

Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.1.1 1 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.1.2-6.1.3 2 Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.1.4-6.1.7

6.2 Überprüfung der Hypothesenstruktur beider Testversionen 6.2.1-6.2.3 3 & 4

Struktur des HAWIK-III 6.2.1 3 Struktur des HAWIK-IV 6.2.2 4 Struktur beider Testversionen 6.2.3

6.3 Zusammenhangshypothesen zur Untersuchung der Korrelation 6.3.1-6.3.7 5 - 8

Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.3.1 5 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.3.2-6.3.3 6 & 7 Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.3.4-6.3.7 8

Unterschiedshypothesen zur Untersuchung des Einflusses der Testreihenfolge

6.3.8-6.3.14 9

Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.3.8 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.3.9-6.3.10 Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.3.11-6.3.14

Unterschiedshypothesen zur Untersuchung des Einflusses des Zeitintervalls

6.3.15-6.3.21 10

Gesamt-IQ des HAWIK-III vs. Gesamt-IQ des HAWIK-IV 6.3.15 Gesamtwerte des HAWIK-III vs. Indizes des HAWIK-IV 6.3.16-6.3.17

Indizes des HAWIK-III vs. Indizes des HAWIK-IV 6.3.18-6.3.21

6.4 Zusammenhangshypothesen zur Untersuchung der Varianzauf-klärung

6.4.1-6.4.16 11 - 13

der Indizes des HAWIK-III durch die Untertests des HAWIK-III 6.4.1-6.4.4 11

der Indizes des HAWIK-III durch die Untertests des HAWIK-IV 6.4.5-6.4.14 12 der Gesamt-IQ durch die Indizes der anderen Testversion 6.4.15-6.4.16 13

6.1 Unterschiedshypothesen zum Vergleich der Mittelwerte von HAWIK-III und -IV

Auf die Formulierung von Hypothesen für die Untertests beider Testversionen wird verzichtet,

da die Interpretation auf Untertestebene äußerst umstritten ist (siehe Kapitel 4.5.2). Dennoch

werden die Ergebnisse der Untertestvergleiche in Kapitel 8 mit angeführt und in die Diskussion

im Kapitel 9 eingebunden, da sie möglicherweise Hinweise über die Ursachen möglicher Diffe-

renzen liefern können (siehe dazu Kapitel 4.7.2).

Bei einem Vergleich eines neuen Testverfahrens mit seinem Vorgänger muss davon ausgegan-

gen werden können, dass die mit beiden Testversionen erzielten Werte (hier der IQ) sich nicht

signifikant voneinander unterscheiden. Die erste inhaltliche Fragestellung dieser Studie lautet

demnach:

Fragestellung 1: Gibt es signifikante Unterschiede zwischen dem Gesamt-IQ des HAWIK-III

und dem Gesamt-IQ des HAWIK-IV?


Dies führt zu folgender statistischer Hypothese:

Hypothese 6.1.1:

H0: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich nicht signifikant vom Mit-telwert des Gesamt-IQ des HAWIK-III.

H1: Der Mittelwert des Gesamt-IQ des HAWIK-IV unterscheidet sich signifikant vom Mittelwert des Gesamt-IQ des HAWIK-III.

Durch den Wegfall des Verbal-und Handlungsteils haben sich neue Strukturen ergeben, die die

Frage aufwerfen, mit welchen Werten des HAWIK-IV diese Gesamtwerte verglichen werden

können. Die Autoren des WISC-IV empfehlen für den Vergleich zwischen HAWIK-III und -IV

dem Verbalteil des HAWIK-III den SV-Index des HAWIK-IV und in ähnlicher Weise dem Hand-

lungsteil des HAWIK-III den WLD-Index des HAWIK-IV gegenüberzustellen, da ihnen ähnliche

Untertests zu Grunde liegen (Wechsler, 2003a). Deshalb wird der Unterschied zwischen diesen

Werten in die vorliegende Untersuchung miteinbezogen.

Da es sich trotz teilweise drastischen Änderungen auf Index-Ebene um den gleichen Test – nur

in unterschiedlichen Versionen – handelt, soll davon ausgegangen werden, dass es in den ent-

sprechenden Indizes beider Versionen keine signifikanten Unterschiede gibt.

Dies führt zu folgender Fragestellung:

Fragestellung 2: Gibt es signifikante Unterschiede zwischen den Index- und Gesamtwerten

des HAWIK-III und denen des HAWIK-IV?

Daraus lassen sich folgende statistische Hypothesen ableiten:

Hypothese 6.1.2:

H0: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterschei-den sich nicht signifikant voneinander.

H1: Die Mittelwerte des Verbalteils des HAWIK-III und des SV-Index des HAWIK-IV unterschei-den sich signifikant voneinander.

Hypothese 6.1.3:

H0: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich nicht signifikant voneinander.

H1: Die Mittelwerte des Handlungsteils des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich signifikant voneinander.

Hypothese 6.1.4:

H0: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich nicht signifi-kant voneinander.

H1: Die Mittelwerte des SV-Index von HAWIK-III und HAWIK-IV unterscheiden sich signifikant voneinander.


Hypothese 6.1.5:

H0: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich nicht signifikant voneinander.

H1: Die Mittelwerte des WO-Index des HAWIK-III und des WLD-Index des HAWIK-IV unter-scheiden sich signifikant voneinander.

Hypothese 6.1.6:

H0: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterschei-den sich nicht signifikant voneinander.

H1: Die Mittelwerte des UA-Index des HAWIK-III und des AGD-Index des HAWIK-IV unterschei-den sich signifikant voneinander.

Hypothese 6.1.7:

H0: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden sich nicht signifikant voneinander.

H1: Die Mittelwerte des AG-Index des HAWIK-III und des VG-Index des HAWIK-IV unterscheiden sich signifikant voneinander.

6.2 Hypothesen zur Faktorenstruktur des HAWIK-III und -IV Damit die vorliegende Stichprobe als repräsentativ angesehen werden kann, sollte sich die

vorgegebene Faktorenstruktur beider Testversionen auch in dieser Untersuchungsstichprobe

wiederfinden lassen. Dies soll mit Hilfe von Faktorenanalysen (ohne und mit Vorgabe der Fak-

torenanzahl) untersucht werden. Dafür lassen sich folgende Fragestellungen ableiten und Hy-

pothesen aufstellen:

Fragestellung 3: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-III in

der vorliegenden Studie replizierbar?

Hypothese 6.2.1:

Aus der exploratorischen Faktorenanalyse des HAWIK-III resultieren die vier vorgegebenen Indizes SV, WO, UA und AG.

Fragestellung 4: Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in

der vorliegenden Studie replizierbar?

Hypothese 6.2.2:

Aus der exploratorischen Faktorenanalyse des HAWIK-IV resultieren die vier vorgegebenen Indizes SV, WLD, AGD und VG.

Ein Hinweis darauf, ob beide Testversionen dasselbe messen, könnte eine Faktorenanalyse

geben, in die alle Untertests des HAWIK-III und -IV einschließen. Resultieren daraus die vier

Faktoren, die der vorgegebenen Struktur beider Testversionen entsprechen, könnte dies dafür

sprechen, dass beide Tests dieselben kognitiven Konstrukte erfassen. Dies spiegelt sich in fol-

gender Hypothese wider:


Hypothese 6.2.3:

Eine Faktorenanalyse unter Einschluss sämtlicher Untertests weist eine Vierfaktorenstruktur auf, mit einem Faktor, der sich aus den Untertests beider SV-Indizes zusammensetzt, einem Faktor, der sich aus den Untertests der Indizes WO und WLD zusammensetzt, einem Faktor, der sich aus den Untertests der Indizes UA und AGD zusammensetzt und einem Faktor, der sich aus den Untertests der Indizes AG und VG zusammensetzt.

6.3 Hypothesen zum Zusammenhang zwischen HAWIK-III und HAWIK-IV

Bisherige Studien zum Vergleich zwischen zwei Testverfahren bzw. -versionen eines Verfahrens

ergaben hohe Zusammenhänge zwischen den entsprechenden Werten beider Verfahren bzw.

Versionen. Die Korrelationen auf Gesamt-IQ-Ebene lagen dabei zwischen r = .88 und .92. Zwar

wird in der Literatur allgemein schon eine Korrelation von r = .50 als hoher Zusammenhang

angesehen (Bortz & Döring, 2006), da es sich bei den vorliegenden Vergleichen jedoch um die

Erfassung des selben Konstrukts handelt und bisherige Studien höhere Korrelationskoeffizien-

ten aufwiesen, soll in dieser Studie auf Gesamt-IQ-Ebene von einer Korrelation von mindestens

r = .80 ausgegangen werden.

Fragestellung 5: Weisen die Gesamt-IQ beider Testversionen einen ebenso hohen Zusam-

menhang auf wie die Gesamt-IQ in vergleichbaren Studien?

Hypothese 6.3.1:

H0: Der Gesamt-IQ des HAWIK-IV korreliert mit r < .80 mit dem Gesamt-IQ des HAWIK-III.

H1: Der Gesamt-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Gesamt-IQ des HAWIK-III.

Der Vergleich der amerikanischen HAWIK-Versionen ergab zwischen Verbalteil und SV eine

Korrelation von r > .80 und zwischen dem Handlungsteil und dem WLD von r > .60. Daraus

ergeben sich folgende Fragestellungen und Hypothesen:

Fragestellung 6: Weist der Index SV des HAWIK-IV einen ebenso hohen Zusammenhang zum

Verbalteil des HAWIK-III auf wie in vergleichbaren Studien?

Hypothese 6.3.2:

H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem Verbalteil des HAWIK-III.

H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem Verbalteil des HAWIK-III.

Fragestellung 7: Weist der Index WLD des HAWIK-IV einen ebenso hohen Zusammenhang

zum Handlungsteil des HAWIK-III auf wie in vergleichbaren Studien?

Hypothese 6.3.3:

H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem Handlungsteil des HAWIK-III.

H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem Handlungsteil des HAWIK-III.


Der Vergleich der Indizes orientiert sich ebenfalls an den Ergebnissen der Korrelationsstudie

zwischen WISC-III und -IV. Dabei lagen die Zusammenhänge der vergleichbaren Indizes zwi-

schen r = .72 und .88, auf Untertest-Ebene schwankten sie zwischen r = .62 und .83. Da sich die

Indizes SV und SV sowie AG und VG gar nicht oder nur unwesentlich voneinander unterschei-

den, wird bei ihnen von höheren Korrelationen ausgegangen als beim Indexvergleich WO mit

WLD sowie UA mit AGD, da diese Indizes sich inhaltlich deutlich voneinander unterscheiden.

Fragestellung 8: Weisen die einander theoretisch entsprechenden Indizes einen ebenso ho-

hen Zusammenhang auf wie in vergleichbaren Studien?

Es werden folgende Hypothesen aufgestellt:

Hypothese 6.3.4:

H0: Der SV-IQ des HAWIK-IV korreliert mit r < .80 mit dem SV-IQ des HAWIK-III.

H1: Der SV-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem SV-IQ des HAWIK-III.

Hypothese 6.3.5:

H0: Der WLD-IQ des HAWIK-IV korreliert mit r < .60 mit dem WO-IQ des HAWIK-III.

H1: Der WLD-IQ des HAWIK-IV korreliert mit r ≥ .60 mit dem WO-IQ des HAWIK-III.

Hypothese 6.3.6:

H0: Der AGD-IQ des HAWIK-IV korreliert mit r < .70 mit dem UA-IQ des HAWIK-III.

H1: Der AGD-IQ des HAWIK-IV korreliert mit r ≥ .70 mit dem UA-IQ des HAWIK-III.

Hypothese 6.3.7:

H0: Der VG-IQ des HAWIK-IV korreliert mit r < .80 mit dem AG-IQ des HAWIK-III.

H1: Der VG-IQ des HAWIK-IV korreliert mit r ≥ .80 mit dem AG-IQ des HAWIK-III.

6.3.1 Einfluss der Testvorgabe

Es stellt sich die Frage, ob die Korrelationen davon beeinflusst werden, welche Testversion

dem Kind zuerst vorgelegt wurde. Daraus ergibt sich folgende Fragestellung:

Fragestellung 9: Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die

Höhe der Korrelationen?

Daher sollen die Korrelationen zunächst getrennt berechnet und dann die Differenz beider

Korrelationen auf Signifikanz überprüft werden. Aus der Fragestellung lassen sich folgende

Hypothesen ableiten:

Hypothese 6.3.8:

H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist nicht signifikant.

H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Testvorgabe ist signifikant.


Hypothese 6.3.9:

H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvor-gabe ist nicht signifikant.

H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Testvor-gabe ist signifikant.

Hypothese 6.3.10:

H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist nicht signifikant.

H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Testvorgabe ist signifikant.

Hypothese 6.3.11:

H0: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist nicht signifikant.

H1: Die Differenz der Korrelationen beider SV-Indizes je nach Testvorgabe ist signifikant.

Hypothese 6.3.12:

H0: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist nicht signifikant.

H1: Die Differenz der Korrelationen des WO und WLD je nach Testvorgabe ist signifikant.

Hypothese 6.3.13:

H0: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist nicht signifikant.

H1: Die Differenz der Korrelationen des UA und AGD je nach Testvorgabe ist signifikant.

Hypothese 6.3.14:

H0: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist nicht signifikant.

H1: Die Differenz der Korrelationen des AG und VG je nach Testvorgabe ist signifikant.

6.3.2 Einfluss des Zeitintervalls

Zudem soll untersucht werden, ob ein Unterschied hinsichtlich der Höhe der Korrelationen

aufgezeigt werden kann, je nachdem, wie groß der Zeitraum zwischen beiden Testungen war.

Die darauf bezogene Fragestellung lautet wie folgt:

Fragestellung 10: Unterscheidet sich die Höhe der Korrelationen - getrennt nach der Länge

des Intervalls zwischen beiden Testungen - signifikant voneinander?

Dies soll anhand der gematchten Stichprobe untersucht werden, da diese Teilstichprobe die

gleiche Anzahl an Kindern in beiden Gruppen aufweist. Für die gematchte Stichprobe stellt sich

demnach die Frage, ob sich die Korrelationen zwischen langem und kurzem Intervall signifikant

unterscheiden. Dies wird anhand folgender Hypothesen untersucht:

Hypothese 6.3.15:

H0: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist nicht signifikant.

H1: Die Differenz der Korrelationen des Gesamt-IQ je nach Zeitintervall ist signifikant.


Hypothese 6.3.16:

H0: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitinter-vall ist nicht signifikant.

H1: Die Differenz der Korrelationen des Verbalteils und des SV des HAWIK-IV je nach Zeitinter-vall ist signifikant.

Hypothese 6.3.17:

H0: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist nicht signifikant.

H1: Die Differenz der Korrelationen des Handlungsteils und des WLD je nach Zeitintervall ist signifikant.

Hypothese 6.3.18:

H0: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist nicht signifikant.

H1: Die Differenz der Korrelationen beider SV-Indizes je nach Zeitintervall ist signifikant.

Hypothese 6.3.19:

H0: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist nicht signifikant.

H1: Die Differenz der Korrelationen des WO und WLD je nach Zeitintervall ist signifikant.

Hypothese 6.3.20:

H0: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist nicht signifikant.

H1: Die Differenz der Korrelationen des UA und AGD je nach Zeitintervall ist signifikant.

Hypothese 6.3.21:

H0: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist nicht signifikant.

H1: Die Differenz der Korrelationen des AG und VG je nach Zeitintervall ist signifikant.

6.4 Hypothesen zur Regressionsanalyse Wie in Kapitel 4.3 aufgeführt, wurde die Untertestzusammensetzung des HAWIK-IV gegenüber

der des HAWIK-III modifiziert. Untertests wie Allgemeines Wissen oder Bilder ergänzen wurden

aus dem obligatorischen Teil entfernt und sind nur noch optionale Untertests, die nicht für die

Berechnung der Indizes und des Gesamt-IQ benötigt werden. Andere Untertests wie Bilderord-

nen oder Figurenlegen wurden gänzlich aus dem Test entfernt. Es stellt sich nun die Frage, ob

diese teilweise aus theoretischen Überlegungen heraus durchgeführten Veränderungen mit

Hilfe dieser Studie auch statistisch untermauert werden können und zwar im Sinne folgender

Fragestellung:

Fragestellung 11: Haben die entfernten oder nur noch optionalen Untertests weniger zur

Varianzaufklärung des Index beigetragen als die Untertests, die zur Berechnung des Gesamt-

IQ des HAWIK-IV vorgegeben sind?

Daraus lassen sich folgende Hypothesen formulieren:


Hypothese 6.4.1 zum Index Sprachverständnis:

H0: Der Untertest AW6 des HAWIK-III trägt gleich viel oder mehr zur Varianzaufklärung des Index SV des HAWIK-III bei als die Untertests GF, WT und AV.

H1: Der Untertest AW des HAWIK-III trägt weniger zur Varianzaufklärung des Index SV des HA-WIK-III bei als die Untertests GF, WT und AV.

Hypothesen 6.4.2 und 6.4.3 zum Index Wahrnehmungsorganisation:

H0: Der Untertest MT des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BE, BO und FL.

H1: Der Untertest MT des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HA-WIK-III bei als die Untertests BE, BO und FL.

H0: Der Untertest BE des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index WO des HAWIK-III bei als die Untertests BO und FL.

H1: Der Untertest BE des HAWIK-III trägt mehr zur Varianzaufklärung des Index WO des HA-WIK-III bei als die Untertests BO und FL.

Hypothese 6.4.4 zum Index Unablenkbarkeit:

H0: Der Untertest ZN des HAWIK-III trägt gleich viel oder weniger zur Varianzaufklärung des Index UA des HAWIK-III bei als der Untertest RD.

H1: Der Untertest ZN des HAWIK-III trägt mehr zur Varianzaufklärung des Index UA des HAWIK-III bei als der Untertest RD.

Sollen die Ergebnisse des HAWIK-III mit denen des HAWIK-IV verglichen werden, wird davon

ausgegangen, dass den sich entsprechenden Indizes dasselbe Konstrukt zu Grunde liegt. Dem-

nach müssten die Untertests des HAWIK-IV eines Index signifikant zur Varianzaufklärung des

entsprechenden Index des HAWIK-III beitragen. Sollte dies nicht der Fall sein, kann geschluss-

folgert werden, dass beide Indizes unterschiedliche Konstrukte bzw. kognitive Fähigkeiten er-

fassen und demnach nicht unbedenklich miteinander vergleichbar sind. Die dazugehörige Fra-

gestellung lautet:

Fragestellung 12: Tragen die Untertests des HAWIK-IV eines Index signifikant zur Varianzauf-

klärung des entsprechenden Index des HAWIK-III bei?

Dabei werden die Hypothesen nur für die Untertests formuliert, die im HAWIK-IV in die Be-

rechnung der Indizes einfließen.

Hypothesen 6.4.5 bis 6.4.7 zum Index Sprachliches Verständnis des HAWIK-III

H0: Der Untertest GF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.

H1: Der Untertest GF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.

6 Aufgrund der häufigen Erwähnung der Untertestnamen in den Hypothesen werden sie an dieser Stelle abgekürzt. Die Erklärungen zu den Abkürzungen befinden sich in Anhang A5 und A6.


H0: Der Untertest WT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.

H1: Der Untertest WT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.

H0: Der Untertest AV des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.

H1: Der Untertest AV des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index SV des HAWIK-III bei.

Hypothesen 6.4.8 bis 6.4.10 zum Index Wahrnehmungsorganisation des HAWIK-III

H0: Der Untertest MT des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.

H1: Der Untertest MT des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.

H0: Der Untertest BK des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.

H1: Der Untertest BK des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.

H0: Der Untertest MZ des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.

H1: Der Untertest MZ des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index WO des HAWIK-III bei.

Hypothesen 6.4.11 und 6.4.12 zum Index Unablenkbarkeit des HAWIK-III

H0: Der Untertest ZN des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.

H1: Der Untertest ZN des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.

H0: Der Untertest BZF des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.

H1: Der Untertest BZF des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index UA des HAWIK-III bei.

Hypothese 6.4.13 und 6.4.14 zum Index Arbeitsgeschwindigkeit des HAWIK-III

H0: Der Untertest ZST des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.

H1: Der Untertest ZST des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.

H0: Der Untertest SYS des HAWIK-IV trägt nicht signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.

H1: Der Untertest SYS des HAWIK-IV trägt signifikant zur Varianzaufklärung des Index AG des HAWIK-III bei.

Mit Hilfe der Korrelation (siehe Hypothese 6.3.1) kann die Höhe des Zusammenhangs der Ge-

samt-IQ beider Testversionen festgestellt werden. Im Folgenden soll untersucht werden, mit


welchen Anteilen die Indizes der einen Testversion zur Varianzaufklärung des Gesamt-IQ der

anderen Testversion beitragen.

Fragestellung 13: Wie viel Varianz des Gesamt-IQ der einen Testversion klären die Indizes der

anderen Testversion auf?

Dies soll Aufschluss darüber geben, welche kognitiven Fähigkeiten der einen Testversion in der

anderen wiederzufinden sind und welche in der anderen Testversion keine signifikante Rolle

spielen.

Hypothese 6.4.15

H0: Die Indizes des HAWIK-IV tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-III bei.

H1: Die Indizes des HAWIK-IV tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HA-WIK-III bei.

Hypothese 6.4.16

H0: Die Indizes des HAWIK-III tragen nicht signifikant zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei.

H1: Die Indizes des HAWIK-III tragen signifikant zur Varianzaufklärung des Gesamt-IQ des HA-WIK-IV bei.

II Empirischer Teil

Kapitel 7 Methoden und Datenanalyse 111

7 Methoden und Datenanalyse

Allgemeines Wissen, Frage 18: „Wer war Christoph Kolumbus?“

David, 11 Jahre: „Der Bruder von dem, der Amerika entdeckt hat.“

Felix, 10 Jahre: „ Der Mann, der Amerika erfunden hat.“

7.1 Studienablauf Die Erhebungen erfolgten von Juni 2006 bis Dezember 2007 in Schulen Bremens und Nieder-

sachsens. Nach der Kontaktaufnahme zu den Schulleitern oder zuständigen Lehrern wurden

die Einverständniserklärungen und Informationsblätter an die von den Lehrern per Zufallsprin-

zip ausgewählten Kinder verteilt.

Eine Testung dauerte in der Regel zwei Schulstunden (circa 90 Minuten) und fand ausnahmslos

am Vormittag statt, in den Grundschulen nur zwischen der ersten und der vierten Stunde, in

den weiterführenden Schulen innerhalb der ersten sechs Schulstunden. Als Belohnung und zur

Aufrechterhaltung der Motivation der Kinder und Jugendlichen wurde ihnen nach der Testung

ein kleines Geschenk überreicht. Die zweiten Testungen erfolgten nach gleicher Prozedur.

Die Testungen wurden größtenteils von der Verfasserin selbst durchgeführt. In Einzelfällen

kamen Studierende zum Einsatz, die vorher von der Verfasserin im Rahmen der Normierung

des HAWIK-IV intensiv geschult und supervidiert wurden und bereits eine große Anzahl an

Testdurchführungen absolviert hatten.

Die Auswertung der Testbögen erfolgte ausschließlich durch die Verfasserin. Da für den HA-

WIK-IV zum Zeitpunkt der Studie noch kein elektronisches Auswerteprogramm zur Verfügung

stand, wurden die Tests mit Hilfe der Normierungstabellen des HAWIK-IV-Manuals (Petermann

& Petermann, 2008a) per Hand ausgewertet. Die Wertpunkte und IQ-Werte wurden in eine

Microsoft Access Datenbank eingegeben und danach in SPSS überführt.

7.2 Studiendesign Aufgrund des Lerneffektes, der die Ergebnisse einer Retest-Studie beeinflussen kann, wurden

zwei unterschiedliche Intervalle zwischen erster und zweiter Testung festgelegt. So wurden

zum ersten Testzeitpunkt (t1) zunächst alle Kinder untersucht. Während der zweite Erhebungs-

zeitpunkt (t2a) für die eine Hälfte der Kinder und Jugendlichen bereits nach etwa einem Monat

erfolgte, wurde für die andere Hälfte der zweite Messzeitpunkt (t2b) nach einem Intervall von

mindestens einem halben Jahr veranschlagt (siehe Abbildung 7.1). Somit sollten zusätzlich zum

in vergleichbaren Studien üblichen Re-Testintervall von etwa einem Monat (siehe Kapitel 5.1)

Daten erhoben werden, in der von weniger Erinnerungseffekt ausgegangen werden kann. Au-


ßerdem wurde ein ausbalanciertes Design festgelegt. Somit sollte einer Hälfte der Kinder und

Jugendlichen zunächst der HAWIK-III und der anderen Hälfte zunächst der HAWIK-IV vorgelegt

werden. Zur besseren Lesbarkeit sollen im Folgenden die unterschiedlichen Stichproben so

bezeichnet werden, wie es der Tabelle 7.1 zu entnehmen ist.

Tabelle 7.1: Abkürzungen der Stichproben. Stichprobe Abkürzungen Gesamtstichprobe G Gesamtstichprobe nach kurzem Intervall GK Gesamtstichprobe nach langem Intervall GL Gesamtstichprobe mit Erstvorgabe HAWIK-III G-III Gesamtstichprobe mit Erstvorgabe HAWIK-IV G-IV Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-III GK-III Gesamtstichprobe nach kurzem Intervall mit Erstvorgabe des HAWIK-IV GK-IV Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-III GL-III Gesamtstichprobe nach langem Intervall mit Erstvorgabe des HAWIK-IV GL-IV

Zur Vermeidung eines Einflusses des Geschlechts sollte zudem eine gleich große Anzahl Jungen

und Mädchen getestet werden.

Abbildung 7.1 veranschaulicht das Design der Studie.

Abbildung 7.1: Design der Studie. Anmerkung: * = Abkürzungen siehe Tabelle 7.1.

Um eine Gleichverteilung hinsichtlich der Testreihenfolge und des Geschlechts der Kinder und

Jugendlichen zu erreichen, wurde eine Stichprobe angestrebt wie sie Tabelle 7.2 zu entnehmen

ist.

t1 t2a t2b

HAWIK-IV

HAWIK-III

Gesamtstichprobe GK* GL*

GL-III*

GL-IV*

GK-III*

GK-IV*

HAWIK-IV

HAWIK-III

HAWIK-III

HAWIK-IV

HAWIK-III

HAWIK-IV

ca. 1 Monat

ca. 6 Monate


Tabelle 7.2: Geplante Stichprobenverteilung (n=176). kurzes Intervall langes Intervall

Alter männlich weiblich männlich weiblich 6 4 4 4 4 7 4 4 4 4 8 4 4 4 4 9 4 4 4 4

10 4 4 4 4 11 4 4 4 4 12 4 4 4 4 13 4 4 4 4 14 4 4 4 4 15 4 4 4 4 16 4 4 4 4

Gesamt 44 44 44 44

7.3 Stichprobenbeschreibung Insgesamt wurden 236 Kinder mit beiden Testverfahren untersucht. Davon wurden 223 Kinder

und Jugendliche in die Untersuchung miteinbezogen, 13 Datensätze konnten auf Grund feh-

lender Werte nicht berücksichtigt werden.

7.3.1 Gesamtstichprobe

Zur weitestgehenden Vermeidung von Verzerrungen wurde auf eine möglichst repräsentative

Gestaltung der Stichprobe Wert gelegt. Tabelle 7.3 gibt die alters- und geschlechtsspezifische

Aufteilung der Stichprobe getrennt nach kurzem und langem Intervall wieder. Die Gesamt-

stichprobe bilden 108 Jungen und 115 Mädchen.

Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223). kurzes Intervall langes Intervall

Alter männlich weiblich männlich weiblich 6 4 5 4 4 7 7 5 4 5 8 5 6 5 4 9 6 4 7 2

10 3 5 4 5 11 4 4 5 4 12 4 6 4 4 13 5 5 4 7 14 6 12 4 4 15 11 7 4 3 16 4 10 4 4

Gesamt 59 69 49 46


Abbildung 7.2 stellt die Stichprobenverteilung unterteilt in das Geschlecht der Kinder und Ju-

gendlichen und Abbildung 7.3 die Stichprobenverteilung unterteilt in die Länge des Intervalls

über die 11 Altersstufen hinweg graphisch dar.

Abbildung 7.2 verdeutlicht die annähernde Gleichverteilung hinsichtlich Alter und Geschlecht.

Einzig in den Altersstufen 9 und 15 überwiegt der Anteil der Jungen, während in den Altersstu-

fen 10, 12, 13, 14 und 16 die Mädchen den größeren Stichprobenanteil ausmachen.

Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen.

Der Abstand zwischen beiden Testungen wies bei 128 Kindern und Jugendlichen durchschnitt-

lich 39 Tage auf (SD = 16 Tage, Minimum 5, Maximum 104 Tage), bei 95 Kindern und Jugendli-

chen lagen durchschnittlich 8 Monate und 18 Tage (SD = 5 Monate und 12 Tage, Minimum 4,

Maximum 24 Monate) zwischen beiden Testungen.

Wie aus Abbildung 7.3 ersichtlich wird, überwiegen bei den älteren Kindern diejenigen, die

nach einem kurzen Intervall erneut getestet wurden. In den anderen Altersbereichen konnte

eine annähernde Gleichverteilung erreicht werden.

Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen.

02468

10121416

6 7 8 9 10 11 12 13 14 15 16

8

11 10

13

79 8 9 10

15

89 10 10

6

108

1012

16

10

14

männlich

weiblich

02468

1012141618

6 7 8 9 10 11 12 13 14 15 16

912 11 10

8 810 10

18 18

14

8 9 9 9 9 9 811

8 7 8kurz

lang


Die Vorgabe der Testversionen erfolgte in ausbalancierter Reihenfolge. So wurde 111 Kindern

zunächst der HAWIK-III und 112 Kindern zunächst der HAWIK-IV vorgelegt. Abbildung 7.4 lässt

sich entnehmen, wie sich die Erstvorgabe in der Gesamtstichprobe über die verschiedenen

Altersstufen hinweg verteilt.

Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen.

Die Daten wurden in mehreren Schulen erhoben, in denen unterschiedliche Schulformen in-

tegriert sind. Tabelle 7.4 zeigt die Verteilung der 223 Kinder und Jugendlichen auf die von ih-

nen besuchten Schulformen.

Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp. Schultyp Häufigkeit Prozent (%) Grundschule 76 34,1 Hauptschule 3 1,3 Realschule 42 18,8 Gymnasium 77 34,5 Gesamtschule 25 11,2 Gesamt 223 100

Die Kinder, die zum Testzeitpunkt die Hauptschule besuchten, machen nur einen geringen

Anteil der Stichprobe aus. Allerdings gehörte ein Großteil der Kinder und Jugendlichen der

Gesamtschule dem Hauptschulzweig an. Die Verteilung auf die anderen Schulformen ent-

spricht annähernd der derzeitigen Verteilung der Kinder in der Bevölkerung auf die jeweiligen

Schulformen (2007 besuchten 33,7 % der Schüler die Grundschule, 10,2 % die Hauptschule,

14 % die Realschule, 26,2 % das Gymnasium und 5,4 % eine integrierten Gesamtschule, siehe

Statistisches Bundesamt, 2007).

7.3.2 Gematchte Stichprobe

Da im langen Intervall die Abstände zwischen beiden Testungen sehr stark variieren, wurde

diese Stichprobe noch einmal in zwei Untergruppen unterteilt: die Gruppe mit einem Re-

Testintervall von vier bis neun Monaten und die Kinder, bei denen 12 bis 24 Monate zwischen

02468

10121416

6 7 8 9 10 11 12 13 14 15 16

7 7

11 11

7

1311 12

10 11 1110

14

9 810

4

79

1614

11 HAWIK-III zuerst

HAWIK-IV zuerst


beiden Testungen liegen. Daraus ergibt sich folgende Verteilung: 72 Kinder weisen ein Intervall

von vier bis neun Monaten auf (Mittelwert = 5.78 Monate, SD = 1.27), bei 23 Kindern lagen 12

bis 24 Monate zwischen beiden Testungen (Mittelwert = 17.3; SD = 3.87).

Um für die Vergleiche zwischen kurzem und langem Intervall (genauer gesagt den 72 Kindern,

die ein Intervall von vier bis neun Monaten aufweisen) eine homogene Stichprobe zu erhalten,

wurde aus der Gruppe des kurzen Intervalls eine zur Gruppe mit dem 4- bis 9-Monats-Intervall

gematchte Stichprobe ermittelt. Die 23 Kinder mit einem Re-Testintervall von mehr als einem

Jahr wurden für diese Teilstichprobe unberücksichtigt gelassen. Somit befinden sich in beiden

Gruppen jeweils 72 Kinder mit gleicher Geschlechts- und Schulformverteilung und annähernd

gleicher Altersverteilung. Außerdem haben in beiden Stichproben die gleiche Anzahl an Kin-

dern erst den HAWIK-III bzw. erst den HAWIK-IV durchgeführt (siehe Abbildung 7.5 und Tabelle

7.5 bis Tabelle 7.7).

Wie die Abbildung 7.5 verdeutlicht, weisen nur in den Altersstufen ab 12 Jahren eine unter-

schiedliche Anzahl an Kindern ein kurzes bzw. langes Test-Retest-Intervall auf.

Abbildung 7.5: Altersverteilung der gematchten Stichprobe.

Die Verteilung auf die unterschiedlichen Schultypen zeigt in beiden Unterstichproben ein iden-

tisches Bild (siehe Tabelle 7.5).

Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144).

Schultyp kurzes

Intervall langes

Intervall Grundschule 28 28 Hauptschule 1 1 Realschule 15 15 Gymnasium 26 26 Gesamtschule 2 2 Gesamt 72 72

0

2

4

6

8

10

6 7 8 9 10 11 12 13 14 15 16

7

9

43

8

6 6 6

9 9

5

7

9

43

8

6

3

98

78

kurz

lang


Während jeweils nur ein Kind die Hauptschule und jeweils zwei Kinder eine Gesamtschule be-

suchten, besuchte der Großteil der Kinder bezogen auf die weiterführenden Schulen das Gym-

nasium. Die Realschule wurde zum Zeitpunkt der Testungen von etwa einem Drittel der älteren

Kinder besucht.

Die folgende Tabelle 7.6 gibt die Geschlechtsverteilung der gematchten Teilstichprobe wieder.

Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144).

Geschlecht kurzes

Intervall langes

Intervall männlich 32 32 weiblich 40 40 Gesamt 72 72

Die prozentuale Verteilung von 44,4 % Jungen gegenüber 55,6 % Mädchen kann als ungefähre

Gleichverteilung hinsichtlich des Geschlechts angesehen werden.

Schließlich gibt Tabelle 7.7 die Unterteilung der Teilstichprobe auf die Reihenfolge der Testvor-

gabe an.

Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144).

Testvorgabe kurzes

Intervall langes

Intervall HAWIK-III zuerst 26 26 HAWIK-IV zuerst 46 46 Gesamt 72 72

Anders als in der Gesamtstichprobe liegt demnach in der Teilstichprobe mit 36,1 % (HAWIK-III

zuerst) gegenüber 63,9 % (HAWIK-IV zuerst) keine vollständig ausbalancierte Reihenfolge vor.

Die Abkürzungen für die gematchte Stichprobe sowie die beiden Unterstichproben kann Tabel-

le 7.8 entnommen werden.

Tabelle 7.8: Abkürzungen der gematchten Stichproben. Stichprobe Abkürzungen Gematchte Stichprobe GemS Gematchte Stichprobe nach kurzem Intervall GemSK Gematchte Stichprobe nach langem Intervall GemSL

7.4 Untersuchungsinstrumente

Da die Untersuchungsinstrumente HAWIK-III und -IV in Kapitel 4 bereits ausführlich vorgestellt

wurden, werden in Tabelle 7.9 lediglich die wichtigsten Eckdaten beider Verfahren zusammen-

gefasst.


Tabelle 7.9: Eckdaten des HAWIK-III und -IV. Kategorien zu Eckdaten HAWIK-III HAWIK-IV Erscheinungsjahr 1999 2007 Normierungsstichprobe 1 570 1 650 Normierungszeitraum 1995 - 1998 2005 - 2006 Reliabilität des Gesamt-IQ .96 .97 Reliabilitäten der Index-Werte .87 - .94 .87 - .94 Reliabilitäten der Untertests .68 - .88 .76 - .91

Objektivität weitestgehend

gegeben weitestgehend

gegeben

Faktorenanalysen Index-Struktur nicht eindeutig bestätigt

Indexstruktur bestätigt

Validierungsstudien im Manual

HAWIK-R vs. -III Lernbehinderung Schulformen Noten/Lehrerurteil ADHS

HAWIK-III vs. -IV Hochbegabung Intelligenzminderung LRS ADHS

Anzahl der Untertests 13 15 Anzahl notwendiger Untertests zur Berechnung des Gesamt-IQ

10 10

Anzahl notwendiger Untertests zur Berechnung der Indizes

12 10

Der Aufbau der Tests sowie die inhaltliche Beschreibung der Untertests können dem vierten

Kapitel entnommen werden.

7.5 Statistische Methoden zur Analyse der Daten Die Analyse der Daten erfolgte mit dem Statistikprogramm SPSS 15.0 für Windows. Das Signifi-

kanz-Niveau wurde auf α = 5 % festgelegt. Da die zu untersuchenden Variablen intervallskaliert

sind und durch die hinreichend große Stichprobe die Voraussetzung der Normalverteilung vor-

liegt, gelten die Bedingungen für die Anwendung parametrischer Testverfahren als erfüllt.

7.5.1 t-Tests für abhängige Stichproben

Zur Überprüfung der Differenz beider Stichproben auf Signifikanz werden t-Tests für abhängige

Stichproben durchgeführt. Es werden Messwertpaare gebildet, in dem die Werte der Unter-

tests, Indizes und des Gesamt-IQ des HAWIK-III mit den Werten der entsprechenden Unter-

tests, Indizes und dem Gesamt-IQ des HAWIK-IV verglichen werden. Dabei wird der ermittelte

t-Wert mit dem für ein Signifikanzniveau von α = 0.05 kritischen t-Wert verglichen.

Da es sich auf Untertest- und Index-Ebene bei den t-Tests um multiple Vergleiche handelt, wird

eine Alpha-Korrektur nach Bonferroni-Holm vorgenommen, die zu einer Anpassung des Alpha-

Niveaus führt (Schlittgen, 2004). Zunächst werden dabei die Signifikanzen der einzelnen Mit-

telwertvergleiche nach ihrer Höhe sortiert. Für den Test, der die deutlichste Signifikanz auf-

weist, wird das Alpha-Niveau α= .05 durch die Anzahl der vorgenommenen Vergleiche dividiert


(bezeichnet mit k). Der Test mit der nächst höheren Signifikanz wird wiederum durch die An-

zahl der verbleibenden Vergleiche, also k-1, dividiert. Erst die Variable mit der geringsten Signi-

fikanz wird somit mit dem ursprünglichen Alpha-Niveau von α= .05 verglichen.

7.5.2 Faktorenanalysen

Das Hauptziel der Faktorenanalyse ist es, einem größeren Variablensatz eine ordnende Struk-

tur zu unterlegen und somit eine Datenreduktion zu erreichen. Dies geschieht, indem Variab-

len gemäß ihrer korrelativen Beziehungen in voneinander unabhängige Gruppen klassifiziert

werden. Somit lassen sich Entscheidungen darüber treffen, welche Variablen gemeinsame und

welche unterschiedliche Informationen erfassen. Man erhält also mit einer Faktorenanalyse

wechselseitig voneinander unabhängige Faktoren, die die Zusammenhänge zwischen den Va-

riablen erklären, die auf einem Faktor liegen (Bortz, 2005).

In dieser Studie soll mit Hilfe der Faktorenanalyse die interne Struktur der Testbatterien HA-

WIK-III und HAWIK-IV untersucht werden. Dabei wird überprüft, inwieweit die erhaltenen La-

dungsmuster zur hypothetischen Struktur beider Testverfahren passen. Dafür wird zunächst

eine Hauptkomponentenanalyse ohne Vorgabe der zu extrahierenden Faktoren durchgeführt.

Zusätzlich wird eine Faktorenanalyse mit Vorgabe der vier testtheoretisch vorhandenen Fakto-

ren durchgeführt. Die Faktorenrotation erfolgt nach dem Varimax-Kriterium (Diehl & Staufen-

biehl, 2007). Aufgrund der nur geringfügigen Unterschiede hinsichtlich der Stichprobengröße

(bei wenigen Untertests weicht sie um ein oder zwei Kinder ab) wird ein paarweiser Fallaus-

schluss vorgenommen.

7.5.3 Korrelationen

Die Berechnung der Höhe des Zusammenhangs in Form von Korrelationen beinhaltet die größ-

te Aussagekraft über die Vergleichbarkeit beider Testversionen. Die Korrelation misst die Stär-

ke des Zusammenhangs zweier Merkmale. Der Grad und die Richtung der linearen statisti-

schen Abhängigkeit zweier intervallskalierter und normalverteilter Merkmale lassen sich mit

Hilfe des Produktmoment-Korrelationskoeffizienten r nach Pearson (Kähler, 2008) berechnen.

Um den Vergleich mit bisherigen Korrelationsstudien zu ermöglichen, wird nicht mit den

Wertpunktsummen sondern den IQ-Werten der Indizes und Gesamtwerte gerechnet, so dass

jedoch nicht von einer linearen Abhängigkeit ausgegangen werden kann (Näheres dazu siehe

Kapitel 7.5.4).

In Anlehnung an die Korrelationstabellen der amerikanischen und deutschen Testmanuale wird

zusätzlich die Standarddifferenz angegeben. Sie stellt die Differenz beider Testmittelwerte

geteilt durch die Quadratwurzel der gepoolten Varianz dar, die mit Hilfe von Cohens (1996)

Formel 10.4 berechnet wird. Die Formel lautet:


wobei .

Die gepoolte Varianz bezeichnet den Durchschnittswert der Stichprobenvarianzen. Die Stan-

darddifferenz gibt demnach an, inwieweit es einen Unterschied macht, ob der HAWIK-III oder

der HAWIK-IV verwendet wird, also sozusagen die Höhe des Effektes der Testauswahl.

Bei der Untersuchung des Lerneffektes in der vorliegenden Arbeit werden die Standarddiffe-

renzen auf anderem Weg berechnet. Da vorher die Differenzen zwischen den Mittelwerten des

ersten und zweiten Tests über die Definition neuer Variablen gebildet werden, liegen nur ein

Mittelwert und eine Standardabweichung vor. Daher wird die Standarddifferenz für den Lern-

effekt berechnet, indem der Mittelwert der Differenzen durch die Standardabweichung geteilt

wird.

7.5.3.1 Zusammengefasste Werte

Die oben beschriebenen Berechnungen gelten nur für die Korrelationsberechnungen getrennt

nach der Erstvorgabe der beiden Testversionen. Die Werte der Korrelationstabellen, in denen

diese beiden Unterstichproben zusammengefasst sind, werden wie folgt berechnet:

Mittelwert: Der zusammengefasste Mittelwert wird aus den Mittelwerten der IQ- und Wert-

punkte der Untertests, Indizes und Gesamtwerte bei Erstvorgabe des HAWIK-III und Erstvorga-

be des HAWIK-IV berechnet.

Standardabweichung: Die zusammengefasste Standardabweichung entspricht der Wurzel der

gepoolten Varianz (siehe oben) der Standardabweichung beider Werte (Erstvorgabe des HA-

WIK-III und des HAWIK-IV).

Korrelationen: Da bei einer Korrelation ein Wert von r = .80 gegenüber einem Wert von r = .40

nicht gleichbedeutend ist mit einem doppelt so hohen Zusammenhang, muss bei einer Mitte-

lung mehrerer Korrelationen eine Standardisierung der Werte mittels einer z-Transformation

erfolgen. Somit werden hohe Korrelationen stärker berücksichtigt als niedrige Korrelationen.

Der zusammengefasste Korrelationskoeffizient errechnet sich aus den Fisher-z-transformierten

Werten beider Korrelationen (Korrelation bei Erstvorgabe HAWIK-III und Korrelation bei Erst-

vorgabe HAWIK-IV), gewichtet an den Freiheitsgeraden. Der daraus resultierende Wert wird

mit Hilfe einer inversen z-Transformation in einen Korrelationswert zurückgeführt. Aus wird

also und aus wird . Die Gewichtung an den Freiheitsgeraden erfolgt über die Formel:

.

Der Wert wird daraufhin per inverser Fisher-z-Transformation zu .

Korrigierte Korrelationen: rkorr stellt die hinsichtlich der Varianzeinschränkung im HAWIK-IV

korrigierten Korrelationswerte dar (Guilford & Fruchter, 1978). Gemäß Cascio (1991) schätzen


korrigierte Koeffizienten den wahren Zusammenhang besser als Koeffizienten ohne Korrektur.

Wenn eine Validierungsstudie eine eingeschränkte Stichprobe aufweist, die nicht den gesam-

ten Umfang möglicher Leistungsbereiche abdeckt, führt eine Korrektur dazu, dass die Werte

eher der Gesamtstichprobe entsprechen. Die Korrekturformel, wie sie für die WISC-IV verwen-

det wurde, lautet:

,

wobei rc dem Korrelationswert der vorliegenden Validierungsstichprobe mit eingeschränkter

Varianz, Sc der Standardabweichung der vorliegenden und Su der SD der Gesamtstichprobe der

HAWIK-IV-Normierung entspricht (Epstein, Mooney, Ryser & Pierce, 2004).

Für den Vergleich HAWIK-R und HAWIK-III wurde die Formel

verwendet (Lienert & Raatz, 1998).

Im Folgenden werden die Ergebnisse beider Korrekturvarianten angegeben, auf Grund der

moderateren Berechnungsweise jedoch nur die nach der amerikanischen Version korrigierten

Werte interpretiert. Da aufgrund diverser Störeinflüsse wie dem Flynn-Effekt (siehe Kapitel

5.2.2) die HAWIK-III-Werte ein weniger valides Abbild der wahren Werte liefern als die Werte

des HAWIK-IV, ihnen also ein größerer Messfehler innewohnt, wird die Korrektur der Korrela-

tionen nur für die Werte des HAWIK-IV vorgenommen.

Signifikanz: Der Signifikanzwert p bezeichnet den Wert, der angibt, ob sich die Differenz zwi-

schen den Korrelationen als signifikant erweist.

7.5.4 Regressionsanalysen

Auch wenn auf die Berechnung in Form einer linearen Regression zurückgegriffen wurde, han-

delt es sich hierbei nicht um eine lineare Regression, da durch die Umrechnung der (linearen)

Wertpunktsummen in IQ-Werte die Linearität zu Gunsten der Standardisierung in einen festge-

legten Wertebereich mit einer Standardabweichung von +/- 15 Wertpunkten nicht gegeben ist.

Somit werden in den Randbereichen die Werte künstlich verändert, um den vorgegebenen

Wertebereich (beim Gesamt-IQ stehen beispielsweise Werte von 40-160 zur Verfügung) abzu-

decken. Im relevanten mittleren Bereich (im Bereich Mittelwert +/- 1 SD liegen 68,27 % der

Gesamtpopulation) kann jedoch von Linearität ausgegangen werden. Auch andere Studien

dieser Art beruhen auf Analysen mit den IQ-Werten, da sie ebenso wie diese Studie das Ziel

verfolgen, dem Praktiker Hilfestellung im Umgang mit dem neuen Testverfahren zu geben und

in der Praxis nicht die Wertpunktsummen, sondern die IQ-Werte herangezogen werden. Bei

der linearen Regression wird im Gegensatz zur Korrelation nicht nur die Höhe des Zusammen-


hangs zwischen zwei Merkmalen, sondern auch die Abhängigkeit eines Merkmals vom anderen

Merkmal untersucht und als linearer Zusammenhang in Form einer Gleichung ausgedrückt

(Bortz, 2005). Hängen zwei Variablen zusammen, kann so die eine Variable auf Basis der ande-

ren vorhergesagt werden. Die Vorhersage wird über folgende lineare Beziehung (Regressions-

gerade) vorgenommen: , wobei dem vorhergesagten Wert, dem Schnitt-

punkt der Geraden mit der -Achse und der Steigung der Geraden entspricht. Ziel einer li-

nearen Regression ist es, eine Gerade zu bestimmen, die den Gesamttrend aller Punkte am

besten wiedergibt. Sie soll demnach so gewählt werden, dass die Abstände zwischen der Gera-

den und den empirisch beobachteten Werten minimiert werden. Die Gerade, die von der Ge-

samtheit aller Punkte den geringsten Abstand aufweist, wird Regressionsgerade genannt. Sie

wird durch folgenden Regressionskoeffizienten charakterisiert:

.

Der Determinationskoeffizient gibt den Varianzanteil der abhängigen Variablen wieder, der

mit der unabhängigen Variablen vorhergesagt bzw. erklärt werden kann:

.

7.5.4.1 Multiple lineare Regression

Wird eine Kriteriumsvariable mit Hilfe mehrerer Prädiktorvariablen vorhergesagt, spricht man

von einer multiplen Regression. Die Aufgabe der multiplen Regressionsrechnung ist es, β-

Koeffizienten zu ermitteln, sogenannte Beta-Gewichte. Zur Überprüfung, welche Prädiktorva-

riable die meiste Varianz einer abhängigen Variablen aufklärt, wird die Einschluss-Methode

gewählt, in der alle Variablen simultan in einem Schritt in die Regressionsgleichung aufge-

nommen werden (Diehl & Staufenbiehl, 2007). Somit wird der Anteil der gemeinsamen Varianz

der Variablen heraus gerechnet. Das Beta-Gewicht spiegelt also den Beitrag eines Prädiktors

zur Vorhersage der unabhängigen Variablen wider.

7.5.4.2 Vorhergesagte Werte und Konfidenzintervalle

In dieser Studie wird mit Hilfe der linearen Regression zusätzlich die Abhängigkeit einer IQ-

Skala des HAWIK-IV (abhängige Variable) von der entsprechenden IQ-Skala des HAWIK-III

(unabhängige Variable) untersucht. Damit soll vorhergesagt werden, welchen HAWIK-IV-Wert

ein Kind voraussichtlich erhält, wenn der entsprechende HAWIK-III-Wert bekannt ist.

Dabei wird der vorhergesagte Wert unter Ausschluss der Konstante in die Gleichung berech-

net. Der Term a wird also immer auf 0 gesetzt (siehe oben) und somit mit Hilfe von SPSS eine

Kurvenanpassung vorgenommen. Der vorhergesagte Wert für jeden empirisch ermittelten IQ-

Wert des HAWIK-III ergibt sich aus der Multiplikation des HAWIK-III-Wertes und der Steigung

der Regressionsgerade, also b (siehe oben). Da nicht sämtliche IQ-Werte des HAWIK-III in der


Stichprobe zu finden sind, werden die empirischen Werte nach Errechnung der Regressionsge-

rade per Hand berechnet.

Zusätzlich soll das 95 %-Konfidenzintervall des zu erwartenden Wertes berechnet werden. Die

Konfidenzintervalle (KI) werden ebenfalls für jeden Wert einzeln per Hand berechnet, in dem

der für jeden vorhergesagten Wert entsprechende Standardfehler ermittelt wird. Dieser wird

in die Gleichung zur Berechnung eines Konfidenzintervalls aufgenommen. Das Konfidenzinter-

vall für einen Wert wird wie folgt berechnet:

, wobei dem erwarteten Wert (also dem HAWIK-IV-IQ-Wert) und

dem z-Wert entsprechend des gewählten Signifikanzniveaus entspricht. Bei einem 95 %-

Konfidenzintervall ergibt sich ein -Wert von 1.96. steht für den Standardfehler, auch

Standardmessfehler genannt, der sich wie folgt berechnet:

, wobei der Standardabweichung der verwendeten Normskala und dem

Reliabilitätskoeffizienten des verwendeten Tests entspricht. Vereinfacht ausgedrückt kann das

95 %-Konfidenzintervall per Hand berechnet werden, indem vom erwarteten Wert die Summe

aus 1.96 multipliziert mit dem jeweiligen Standardfehler abgezogen bzw. hinzugerechnet wird.

Kapitel 8 Ergebnisse 124

8 Ergebnisse

Begriffe erkennen, Frage 13:

„Man findet es in der Natur und es fließt Wasser heraus. Was ist das?“

Alina, 10 Jahre: „Ein Elefant.“

Die Ergebnisse beziehen sich auf die gemäß der theoretischen Erwartungen postulierten Hypo-

thesen (siehe Kapitel 6).

8.1 Explorative Datenanalyse Die explorative Datenanalyse soll zunächst einen Eindruck von der Verteilung der Testwerte

dieser Stichprobe vermitteln und somit Hinweise auf die zu erwartenden Ergebnisse liefern.

8.1.1 Deskriptive Statistiken des HAWIK-III

Die deskriptive Beschreibung der Daten erfolgt auf der Basis der Datensätze von 223 Kindern

und Jugendlichen. Tabelle 8.1 beinhaltet die Extremwerte (Minimum und Maximum) sowie die

Mittelwerte und Standardabweichungen für jeden Untertest und jeden Index- und Gesamt-

Wert des HAWIK-III.

Tabelle 8.1: Deskriptive Angaben des HAWIK-III. Untertest/Index Minimum Maximum M SD BE 3 18 11.1 3.0 AW 3 19 11.0 2.8 ZST 4 19 11.6 3.1 GF 3 19 11.8 2.8 BO 1 19 10.8 3.3 RD 4 19 11.1 2.8 MT 3 19 11.1 3.2 WT 4 19 11.6 2.8 FL 1 18 9.8 3.0 AV 7 19 11.2 2.0 SS 3 19 11.6 2.8 ZN 3 18 9.9 2.6 SV 78 147 110.1 13.7 WO 72 148 105.5 14.4 UA 76 144 103.6 13.2 AG 74 148 109.3 14.6 Verbal-IQ 78 148 108.9 12.9 Handlungs-IQ 71 141 106.9 14.2 Gesamt-IQ 76 141 108.9 13.3

Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.


Wie aus der Tabelle 8.1 ersichtlich, liegen die Untertestmittelwerte des HAWIK-III bis auf ZN7

und FL über dem teststandardisierten Mittelwert 10. GF, WT, ZST und SS zeigen mit einem

Mittelwert von 11.6 die größten Abweichungen vom Wertpunkt 10 auf. Auch die Index- und

Gesamtwerte befinden sich weit oberhalb des festgelegten Altersdurchschnitts von 100. Als

höchster Index erweist sich SV mit einem Mittelwert von 110.1, als niedrigster Index UA mit

103.6 IQ-Punkten im Mittel. Der IQ des Verbalteils liegt leicht über dem des Handlungsteils,

der Gesamtwert weist im Mittel 108.9 IQ-Punkte auf. Zur Veranschaulichung werden in Abbil-

dung 8.1 die Mittelwerte, Standardabweichungen und Ausreißer des Gesamt-, Verbal- und

Handlungs-IQ des HAWIK-III in Form eines Box-Plots graphisch dargestellt.

Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III. Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar.

Der Verbal-IQ weist die geringste Streuung innerhalb der drei Gesamtwerte auf. Außerdem

wird durch die Abbildung 8.1 ersichtlich, dass im Verbal-IQ die Personen, die Werte im Ex-

trembereich erzielten, als statistische Ausreißer gewertet werden können. Abbildung 8.2 illus-

triert die statistischen Kennwerte der HAWIK-III-Indizes SV, WO, UA und AG. Die Box-Plots

veranschaulichen die überdurchschnittlich hohen Testergebnisse in den Indizes SV und AG

sowie die große Streuung in den Indizes WO und AG.

7 Aufgrund der häufigen Erwähnung der Untertests werden in diesem Kapitel ihre Abkürzungen verwen-det. Erklärungen zu den Abkürzungen können Anhang A5 und A6 entnommen werden.


Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III. Anmerkungen: Sternchen (*) stellen statistische Ausreißer dar. Abkürzungen siehe Anhang A5 und A6.

Insgesamt können, bis auf zwei Ausnahmen (FL und ZN), höhere Mittelwerte in den Untertests

und Indizes gegenüber denen der Normierungsstichprobe festgehalten werden. Die Standard-

abweichung der HAWIK-III-Untertests liegt relativ nah an den in der Normierungsstichprobe

festgelegten drei Wertpunkten, einzig AV weist mit 2.0 eine deutlich niedrigere Standardab-

weichung auf. Die Gesamt- und Indexwerte besitzen deutlich niedrigere Standardabweichun-

gen als die Normierungsstichprobe (dort liegt die SD bei circa 15 Wertpunkten).

8.1.2 Deskriptive Statistiken des HAWIK-IV

Die Leistungen der 223 Kinder und Jugendlichen in den Untertests des HAWIK-IV ergeben Mit-

telwerte zwischen 10.4 im ZN und 11.2 im MT (siehe Tabelle 8.2). Von den Prozesswerten

weist einzig ZN-V einen Mittelwert unterhalb von 10 auf, alle anderen Prozesswerte liegen im

Mittel zwischen 10.5 und 11.2 Wertpunkten.


Tabelle 8.2: Deskriptive Angaben des HAWIK-IV. Untertest/Index Minimum Maximum M SD MT 3 19 11.2 3.0 GF 5 18 11.0 2.4 ZN 4 19 10.4 2.5 BK 4 17 10.9 2.4 ZST 4 18 11.0 2.8 WT 5 19 11.0 2.7 BZF 1 18 10.9 2.3 MZ 4 16 10.6 2.4 AV 5 19 11.1 2.4 SYS 2 19 11.0 2.6 BE 1 19 11.1 2.8 DT 4 19 10.9 2.9 AW 4 18 10.7 2.5 RD 2 18 11.1 2.4 BEN 4 18 10.7 2.6 MT-OZ 3 19 11.2 2.9 ZN-V 4 18 9.9 2.7 ZN-R 5 18 10.5 2.5 DT-S 4 18 10.9 2.8 DT-U 2 19 10.8 3.0 SV 77 144 105.7 12.3 WLD 69 133 105.4 12.1 AGD 56 146 102.8 12.3 VG 62 141 105.8 13.7 Gesamt-IQ 64 131 106.3 11.4

Anmerkungen: M = Mittelwert, SD = Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.

Auf Index-Ebene fällt AGD mit einem Mittelwert von 102.8 IQ-Punkten am schlechtesten aus,

alle anderen Indizes weisen Mittelwerte zwischen 105.4 und 105.8 auf. Der höchste Wert wur-

de mit einem Mittelwert von 106.3 im Gesamt-IQ erzielt (zur graphischen Ansicht der Indizes

und des Gesamt-IQ des HAWIK-IV siehe Abbildung 8.3).


Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV. Anmerkungen: Die Sternchen (*) stellen statistische Ausreißer dar. Aufgrund einiger statisti-scher Ausreißer im unteren Leistungsbereich wurde die Skalierung gegenüber den HAWIK-III-Box-Plots nach unten erweitert. Abkürzungen siehe Anhang A5 und A6.

Insgesamt liegen die Mittelwerte der HAWIK-IV-Untertests durchschnittlich circa einen Wert-

punkt oberhalb der Mittelwerte der Normierungsstichprobe. Auch in den Indizes und dem

Gesamt-IQ fallen die Mittelwerte höher aus als in der Normierungsstichprobe, jedoch weniger

deutlich als die entsprechenden Werte des HAWIK-III. Die Standardabweichungen der Unter-

tests sind, außer im MT, durchweg kleiner als die der Normierungsstichprobe. Auch der Ge-

samt-IQ und die Indizes verfügen über deutlich geringere Standardabweichungen, sowohl im

Vergleich zur Normierungsstichprobe als auch in Bezug auf die Gesamt- und Indexwerte des

HAWIK-III.

Bei der Betrachtung der Gesamt-IQ-Punkte beider Testversionen kann mit 25 von 223 Kindern

bei 11,2 % der Untersuchungspopulation eine Differenz von einer Standardabweichung (also

15 IQ-Punkten) oder mehr zwischen beiden Gesamt-IQ aufgezeigt werden. In der gematchten

Stichprobe zeigten 15 von 144 Kindern diese Differenz, was 10,4 % der Stichprobe entspricht.

Auf Ebene der Indizes weisen mit 28 bis 52 Personen (dies entspricht 12,5 % bis 23,3 % der

Stichprobe) noch mehr Kinder einen Unterschied von mindestens einer Standardabweichung

zwischen den entsprechenden Indizes beider Testversionen auf. Dies deutet darauf hin, dass

die Neunormierung zu Veränderungen dessen geführt haben könnte, was der Gesamt-IQ und


die Indizes beinhalten und welche Fähigkeiten mit ihnen abgebildet werden. Dies soll im Fol-

genden genauer untersucht werden.

8.2 Überprüfung der Mittelwertdifferenzen Zur Überprüfung der deskriptiv ersichtlichen Unterschiede werden die Mittelwertdifferenzen

der Index- und Gesamtwerte beider Testversionen mit t-Tests für gepaarte (bzw. abhängige)

Stichproben auf Signifikanz geprüft. Damit sollen die Fragestellung 1: „Gibt es signifikante

Unterschiede zwischen dem Gesamt-Wert des HAWIK-III und dem Gesamt-Wert des HAWIK-

IV?“ und die Fragestellung 2: „Gibt es signifikante Unterschiede zwischen den Index- und

Gesamtwerten des HAWIK-III und denen des HAWIK-IV?“ sowie die dazugehörigen Hypothe-

sen 6.1.1 bis 6.1.7 überprüft werden. Dies wird zunächst auf Grundlage der Gesamtstichprobe

(n = 223) durchgeführt. Tabelle 8.3 zeigt die Mittelwerte und gepaarten Differenzen der Index-

und Gesamtwerte. Wie in Kapitel 6.1 beschrieben, wird empfohlen, den Verbalteil mit dem SV

und den Handlungsteil mit dem WLD des HAWIK-IV zu vergleichen.

Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223). HAWIK-III HAWIK-IV Gepaarte Differenzen

Testpaare M SD M SD M SD p aα G-IQ-III – G-IQ-IV 108.9 13.3 106.3 11.4 2.6 9.2 .000* Verbal-IQ – SV-IV 108.9 12.9 105.7 12.3 3.2 8.5 .000** .025 Handlungs-IQ – WLD 106.9 14.2 105.4 12.1 1.5 12.6 .083 .050 SV – SV 110.1 13.7 105.7 12.3 4.4 8.4 .000** .013 WO – WLD 105.5 14.4 105.4 12.1 0.0 12.8 .967 .050 UA – AGD 103.6 13.2 102.8 12.3 0.8 11.0 .277 .025 AG – VG 109.3 14.6 105.8 13.7 3.4 11.3 .000** .017

Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. G-IQ steht für den Gesamt-IQ, M für den Mittelwert, SD für die Standardabweichung. Weitere Abkürzungen siehe Anhang A5 und A6.

Bezogen auf die Indizes zeigen sich signifikante Mittelwertdifferenzen bei SV und bei AG bzw.

VG. Im Mittelwertvergleich ergaben sich zudem signifikante Differenzen zwischen den Werten

des Verbal-IQ und des SV des HAWIK-IV; zwischen den Werten des Handlungs-IQ und WLD sind

die Unterschiede jedoch nicht signifikant. Die Gesamtwerte beider Verfahren weichen eben-

falls signifikant voneinander ab.

Somit muss die H0 der Hypothesen 6.1.1, 6.1.2, 6.1.4 und 6.1.7 abgelehnt und die Alternativ-

hypothese (H1) angenommen werden. Für die Hypothesen 6.1.3, 6.1.5 und 6.1.6 kann jedoch

die H0 angenommen werden.

Die Tabelle 8.4 stellt die Ergebnisse der t-Tests für gepaarte Stichproben für die Untertests dar.

Auch wenn keine Hypothesen zum Mittelwertvergleich auf der Ebene der Untertests formu-


liert wurden (siehe Kapitel 6), werden sie mit angegeben, um zusätzlichen Aufschluss über die

Ursachen der Differenzen zu erhalten.

Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223). HAWIK-III HAWIK-IV Gepaarte Differenzen

Testpaare M SD M SD M SD p aα BE – BE 11.1 3.0 11.1 2.8 0.0 2.9 .926 .025 AW – AW 11.0 2.8 10.7 2.5 0.3 1.9 .019* .010 ZST – ZST 11.6 3.1 11.0 2.8 0.6 2.4 .001** .006 GF – GF 11.8 2.8 11.0 2.4 0.8 2.3 .000** .005 RD – RD 11.1 2.8 11.1 2.4 0.0 2.3 1.00 .050 MT – MT 11.1 3.2 11.2 3.0 -0.1 2.6 .638 .017 WT – WT 11.6 2.8 11.0 2.7 0.5 2.2 .001** .006 AV – AV 11.2 2.0 11.1 2.4 0.1 2.1 .515 .013 SS – SYS 11.6 2.8 11.0 2.8 0.6 2.7 .001** .008 ZN – ZN 9.9 2.6 10.4 2.5 -0.5 2.2 .001** .007

Anmerkungen: * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. M = Mittelwert, SD = Standardabweichung. Weitere Abkürzun-gen siehe Anhang A5 und A6.

Im Untertestvergleich weisen sechs der zehn gemeinsamen Untertests signifikante Mittelwert-

differenzen auf. Nach der α-Korrektur erweist sich AW jedoch als nicht mehr signifikant. Die

signifikanten Untertests gehören bis auf ZN den in Tabelle 8.3 dargestellten signifikanten Indi-

zes an.

Die t-Tests für abhängige Stichproben wurden zusätzlich mit der gematchten Stichprobe

(GemS, n = 144) durchgeführt. Tabelle 8.5 beinhaltet die Ergebnisse der Prüfung der Mittel-

wertdifferenzen für die Indizes und Gesamtwerte und Tabelle 8.6 für die Untertests beider

Testversionen.

Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS. HAWIK-III HAWIK-IV Differenzen

Testpaare M SD M SD M SD p aα G-IQ III – G-IQ IV 108.8 13.8 105.6 12.2 3.2 9.2 .000* Verbal-IQ – SV IV 108.4 12.9 105.3 12.8 3.1 8.2 .000** .025 Handlungs-IQ – WLD 107.5 15.0 104.8 12.6 2.7 12.4 .009** .050 SV – SV 109.9 13.9 105.3 12.8 4.6 8.2 .000** .013 WO – WLD 105.7 15.1 104.8 12.6 0.9 12.7 .384 .025 UA – AGD 102.8 12.9 102.3 12.5 0.5 10.8 .586 .050 AG – VG 110.4 14.6 105.4 13.9 5.0 10.7 .000** .017

Anmerkungen: siehe Tabelle 8.3.

Die α-Adjustierung führt keinerlei Veränderungen hinsichtlich der Signifikanzen herbei.

Anders als in der Gesamtstichprobe weist in dieser Teilstichprobe neben den beiden SV- und

Geschwindigkeitsindizes AG bzw. VG sowie dem Gesamt-IQ und dem Vergleich des Verbalteils

mit dem SV des HAWIK-IV zusätzlich der Vergleich zwischen dem Handlungsteil und dem WLD

signifikante Wertunterschiede auf.


Auch für die gematchte Stichprobe wurde der Vergleich zusätzlich auf Untertestebene durch-

geführt (siehe Tabelle 8.6).

Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene. HAWIK-III HAWIK-IV Gepaarte Differenzen

Testpaare M SD M SD M SD p aα BE – BE 11.1 3.0 10.8 2.7 0.3 2.9 .223 .013 AW – AW 11.0 2.9 10.6 2.5 0.4 2.0 .019* .010 ZST – ZST 11.8 3.2 10.9 3.0 0.9 2.4 .000** .005 GF – GF 11.7 2.8 10.9 2.6 0.8 2.3 .000** .006 RD – RD 10.8 2.7 10.8 2.4 0.1 2.2 .765 .025 MT – MT 11.2 3.3 11.1 3.1 0.1 2.7 .600 .017 WT – WT 11.4 3.0 10.9 2.7 0.5 2.4 .009* .007 AV – AV 11.2 1.9 11.2 2.4 0.0 2.0 .933 .050 SS – SYS 11.8 2.7 11.0 2.6 0.8 2.6 .001** .006 ZN – ZN 9.9 2.6 10.3 2.4 -0.4 2.2 .017* .008


In der GemS weisen ähnliche Untertestpaarungen signifikante Unterschiede auf wie in der

Gesamtstichprobe. Nach der α-Korrektur gelten die Differenzen der Paarungen von AW, WT

und ZN jedoch als nicht mehr signifikant. Somit weichen nur die Mittelwerte der Untertests

ZST, GF und SS bzw. SYS signifikant voneinander ab. Dies entspricht den Ergebnissen der Tabel-

le 8.5, da die auffälligen Untertests den Indizes angehören, die sich als voneinander signifikant

unterschiedlich erwiesen haben.

Für die gematchte Stichprobe kann festgehalten werden, dass die H0 der Hypothesen 6.1.1,

6.1.2, 6.1.3, 6.1.4 und 6.1.7 abgelehnt und die Alternativhypothese (H1) angenommen werden

muss, während für die Hypothesen 6.1.5 und 6.1.6 die H0 beibehalten werden kann.

Die Ergebnisse der t-Tests zur Überprüfung von Mittelwertdifferenzen zeigen also signifikante

Unterschiede zwischen den Werten beider Testversionen. Damit konnte die Vermutung bestä-

tigt werden, die sich durch die hohe Prozentzahl (mehr als jeder zehnte Vergleich wies eine

Differenz von mehr als 1 SD auf) an Personen, die deutliche Differenzen im Gesamt-IQ beider

Testversionen aufweisen, ergeben hat.

Mögliche Ursachen für diese Differenzen können in den Störvariablen liegen, die in Kapitel 5.2

ausführlich dargestellt wurden. Im Folgenden werden deskriptive Analysen vorgenommen, die

Aufschluss darüber geben sollen, als wie hoch ein möglicher Einfluss dieser Störvariablen auf

die Ergebnisse beider Testversionen anzunehmen ist.

8.3 Mittelwertvergleich Mit den folgenden Analysen soll festgestellt werden, wie die Werte der Untertests und Indizes

ausgefallen sind, je nachdem, welche Testversion zuerst durchgeführt wurde. Es wird also der


Einfluss der Testreihenfolge auf die Ergebnisse beider Testversionen untersucht, indem die

Mittelwerte einer Testversion verglichen werden, in Abhängigkeit davon, welcher Test als ers-

tes durchgeführt wurde. Dabei wird auf Grund eines vermuteten Lerneffekts (siehe Kapitel

5.2.1) davon ausgegangen, dass die Werte derjenigen Testversion höher ausfallen, die als zwei-

tes durchgeführt wurde. Kann dies nicht bestätigt werden, könnten die signifikanten Differen-

zen auf eine nicht repräsentative Stichprobe zurückzuführen sein, in der beispielsweise die

Kinder, die den HAWIK-IV zuerst absolvierten, ein deutlich höheres Leistungsniveau aufweisen

als die Kinder, die den HAWIK-III als ersten Test vorgelegt bekamen. Dies würde die Interpre-

tierbarkeit des vorliegenden Vergleichs einschränken.

Der Mittelwertevergleich erfolgt getrennt nach kurzem und langem Intervall.

8.3.1 Kurzes Intervall

Abbildung 8.4 veranschaulicht die Mittelwerte der HAWIK-III-Untertests nach kurzem Intervall

(GK) getrennt nach dem Testverfahren, das in der ersten Testung verwendet wurde.

Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Inter-vall). Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-III-Werte der Kinder, die den HA-WIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-III-Werte der Kinder, die den HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6.

Bis auf die Untertests RD, WT und FL zeigen alle Untertests dann höhere HAWIK-III-Mittelwerte

auf, wenn der HAWIK-IV zuerst vorgelegt wurde.

9

10

11

12

13

BE AW ZST GF BO RD MT WT FL AV SS ZN

HAWIK-III zuerst

HAWIK-IV zuerst


Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: siehe Abbildung 8.4.

Bezogen auf die HAWIK-III-Index- und -Gesamt-IQ-Werte zeichnen sich in allen Bereichen hö-

here Mittelwerte bei den Kindern ab, die den HAWIK-IV als ersten Test absolvierten (siehe

Abbildung 8.5).

Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Inter-vall). Anmerkungen: Legende: HAWIK-III zuerst = die HAWIK-IV-Werte der Kinder, die den HA-WIK-III zuerst durchführten, HAWIK-IV zuerst = die HAWIK-IV-Werte der Kinder, die den HAWIK-IV zuerst durchführten. Abkürzungen siehe Anhang A5 und A6.

Für die Untertests des HAWIK-IV besitzt im kurzen Intervall nur AV einen geringfügig niedrige-

ren Wert in der Gruppe, die den HAWIK-III zuerst durchgeführt hat (11.0 gegenüber 11.05). In

allen anderen Untertests weist der HAWIK-IV dann höhere Werte auf, wenn vorher der HA-

WIK-III vorgegeben wurde (siehe Abbildung 8.6).

Wie in Abbildung 8.7 ersichtlich, erzielten die Kinder und Jugendlichen, die den HAWIK-III zu-

erst durchführten, auf der Ebene der Indizes und des Gesamt-IQ im HAWIK-IV durchgängig

höhere Mittelwerte. Besonders der Index VG birgt dabei deutlich höhere Werte.

101

103

105

107

109

111

113

HAWIK-III zuerst

HAWIK-IV zuerst

9

10

11

12

13

MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN

HAWIK-III zuerst

HAWIK-IV zuerst


Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). Anmerkungen: siehe Abbildung 8.6.

8.3.2 Langes Intervall

Für das lange Intervall (GL) wurde ebenfalls überprüft, wie sich die Mittelwerte danach unter-

scheiden, welches Testverfahren zuerst durchgeführt wurde.

Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Inter-vall). Anmerkungen: siehe Abbildung 8.4.

Im Mittelwertevergleich der Untertests des HAWIK-III (siehe Abbildung 8.8) weisen die Kinder,

die den HAWIK-III zuerst absolvierten, im WT und FL deutlich höhere und im BO und AV leicht

höhere Werte auf. Alle anderen Untertests sind in der Gruppe besser ausgefallen, die mit dem

HAWIK-IV begonnen hat.

101

103

105

107

109

111

113

Gesamt-IQ SV-IQ WLD-IQ AGD-IQ VG-IQ

HAWIK-III zuerst

HAWIK-IV zuerst

9

10

11

12

13

BE AW ZST GF BO RD MT WT FL AV SS ZN

HAWIK-III zuerst

HAWIK-IV zuerst


Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.4.

Für die Index-Werte, den Verbal-, und Handlungsteil und den Gesamt-IQ des HAWIK-III gilt,

dass die Kinder, denen der HAWIK-IV zum ersten Testzeitpunkt vorgelegt wurde, höhere Mit-

telwerte erzielten (siehe Abbildung 8.9). In der AG offenbart sich der Unterschied besonders

deutlich.

Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes Intervall). Anmerkungen: siehe Abbildung 8.6.

Für die Untertests des HAWIK-IV zeigen sich nur im ZN, MZ und RD höhere Mittelwerte bei den

Kindern, die den HAWIK-IV zuerst vorgelegt bekamen. Wie in Abbildung 8.10 veranschaulicht,

besitzt in allen anderen Untertests die Gruppe höhere Mittelwerte, die den HAWIK-III zuerst

bearbeitete.

Abbildung 8.11 illustriert, dass auch auf der Index-und IQ-Ebene des HAWIK-IV ebenso wie

nach kurzem Intervall auch nach langem Intervall die Gruppe höhere Mittelwerte erlangt, die

den HAWIK-III zuerst durchgeführt hat.

99101103105107109111113115

HAWIK-III zuerst

HAWIK-IV zuerst

9

10

11

12

13

MT GF ZN BK ZST WT BZF MZ AV SYS BE DT AW RD BEN

HAWIK-III zuerst

HAWIK-IV zuerst


Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorga-be (langes Intervall). Anmerkungen: siehe Abbildung 8.6.

Bis auf wenige Ausnahmen auf Untertest-Ebene kann demnach zusammenfassend festgestellt

werden, dass immer der Test höhere Werte aufzeigt, der an zweiter Stelle durchgeführt wur-

de. Es kann also von eine repräsentativen Stichprobe ausgegangen werden. Die Mittelwertver-

gleiche deuten jedoch auf einen Lerneffekt sowohl nach kurzem als auch nach langem Intervall

hin.

8.4 Lerneffekt Zur genaueren Überprüfung eines möglichen Lerneffekts zwischen erster und zweiter Testung

wurden zusätzliche Mittelwertvergleiche vorgenommen. Der Lerneffekt dürfte sich im kurzen

Intervall deutlicher zeigen als im langen Intervall, da sich ein Kind generell besser an die erste

Testung erinnern kann, wenn der Abstand zur zweiten Testung geringer ist.

Dafür wurden zunächst die Mittelwerte der Untertests und Indizes der Teilstichprobe mit ei-

nem kurzen Intervall zwischen beiden Testungen und mit Erstvorgabe des HAWIK-III (GK-III)

verglichen. Tabelle 8.7 enthält die Mittelwerte beider Tests und den Zuwachs bzw. die Abnah-

me der Wert- und IQ-Punkte für das kurze Intervall zwischen erster und zweiter Testung.

101

103

105

107

109

111

113

Gesamt-IQ SV-IQ WLD-IQ AGD-IQ VG-IQ

HAWIK-III zuerst

HAWIK-IV zuerst


Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GK-III (n = 63).

Untertest/Index Mittelwert HAWIK-III

Mittelwert HAWIK-IV

Zuwachs

BE 10.3 11.7 +1.3 AW 10.9 10.8 -0.1 ZST 11.6 12.4 +0.9 GF 11.1 11.1 -0.1 RD 11.4 12.0 +0.6 MT 10.9 12.2 +1.3 WT 11.6 10.8 -0.8 AV 11.1 11.0 -0.1 SS/SYS 11.4 11.8 +0.4 ZN 9.7 10.6 +0.9 SV/SV 108.7 105.1 -3.6 WO/WLD 104.6 107.6 +3.1 UA/AGD 103.8 104.5 +0.7 AG/VG 108.5 111.9 +3.3 Gesamt-IQ 108.0 108.9 +0.8


Innerhalb der Untertests zeigen BE und MT den höchsten Anstieg, gefolgt von ZST und ZN. Die

Index-Kombinationen WO und WLD sowie AG und VG weisen den höchsten Zuwachs auf, wäh-

rend die Kinder im SV des HAWIK-IV durchschnittlich weniger Punkte erreichten als im SV des

HAWIK-III, obwohl sie mit dem HAWIK-III zuerst getestet wurden.

Die Ergebnisse der Kinder aus der Teilstichprobe mit einem langen Re-Testintervall und dem

HAWIK-III als erstem Test (GL-III) können Tabelle 8.8 entnommen werden.

Tabelle 8.8: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-III (n = 48).

Untertest/Index Mittelwert HAWIK-III

Mittelwert HAWIK-IV

Zuwachs

BE 10.9 12.2 +1.3 AW 10.7 11.2 +0.4 ZST 10.2 10.8 +0.6 GF 11.9 12.0 +0.1 RD 10.6 10.4 -0.2 MT 10.6 11.5 +0.9 WT 11.8 11.9 +0.1 AV 11.3 11.4 +0.1 SS/SYS 10.2 11.1 +0.9 ZN 9.2 10.1 +0.9 SV/SV 110.2 109.6 -0.6 WO/WLD 104.2 107.4 +3.2 UA/AGD 100.3 101.8 +1.5 AG/VG 101.0 105.3 +4.3 Gesamt-IQ 106.9 108.1 +1.3



Auch im langen Intervall weist BE den höchsten Wertpunktanstieg auf, gefolgt von MT, SYS und

ZN. Auf Index-Ebene zeigt sich ebenso wie im kurzen Intervall der höchste Anstieg vom AG zum

VG sowie vom WO zum WLD.

Die Mittelwertzuwächse der Stichprobe mit einem kurzen Intervall und der Erstvorgabe des

HAWIK-IV (GK-IV) lassen ebenfalls Leistungssteigerungen vom ersten zum zweiten Test erken-

nen (siehe Tabelle 8.9).

Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe GK-IV (n = 65).

Untertest/Index Mittelwert HAWIK-IV

Mittelwert HAWIK-III

Zuwachs

BE 10.2 11.9 +1.7 AW 10.3 11.3 +1.0 ZST 10.1 12.1 +2.0 GF 10.8 12.1 +1.3 RD 10.8 11.0 +0.2 MT 10.8 11.6 +0.8 WT 10.7 11.5 +0.8 AV 11.0 11.3 +0.2 SYS/SS 10.4 12.3 +1.9 ZN 10.6 10.6 +0.1 SV/SV 104.2 111.0 +6.9 WLD/WO 103.6 108.1 +4.5 AGD/UA 103.0 105.6 +2.6 VG/AG 101.5 112.7 +11.2 Gesamt-IQ 103.9 111.0 +7.0


Insgesamt können größere Unterschiede festgestellt werden als bei Erstvorgabe des HAWIK-III.

Es zeigen sich keinerlei Wertpunktabnahmen von der ersten zur zweiten Testung; wurde der

HAWIK-IV als erster Test durchgeführt, sind die Werte im HAWIK-III also deutlich höher. Die

größte Zunahme erreichten die Werte der Geschwindigkeitsuntertests SS bzw. SYS und ZST,

gefolgt vom BE. Vor allem auf Index-Ebene sind die Werte der zweiten Testung deutlich höher

als die der ersten Testung. AG und VG haben mit einem Unterschied von 11.2 Wertpunkten

den größten Zuwachs zu verzeichnen.

Schließlich werden in Tabelle 8.10 die Zuwächse und Abnahmen in der Teilstichprobe mit ei-

nem langen Re-Testintervall und dem HAWIK-IV als erstem Test (GL-IV) aufgezeigt.


Tabelle 8.10: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-IV (n= 47).

Untertest/Index Mittelwert HAWIK-IV

Mittelwert HAWIK-III

Zuwachs

BE 10.3 11.1 +0.8 AW 10.6 11.1 +0.4 ZST 10.6 12.2 +1.7 GF 10.4 12.2 +1.8 RD 10.8 11.2 +0.4 MT 10.1 11.2 +1.1 WT 11.0 11.3 +0.3 AV 11.2 11.2 +0.0 SYS/SS 10.8 12.4 +1.6 ZN 10.2 9.9 -0.3 SV/SV 104.8 110.9 +6.1 WLD/WO 103.0 104.3 +1.3 AGD/UA 101.6 104.1 +2.6 VG/AG 104.0 113.6 +9.6 Gesamt-IQ 104.2 109.1 +4.9


Auch im langen Intervall zeigen sich deutlichere Unterschiede als bei Erstvorgabe des HAWIK-

III, alles in allem jedoch niedrigere als im kurzen Intervall. Hier existiert die größte Zunahme im

GF, gefolgt von den Untertests der Geschwindigkeitsindizes: ZST und SYS. Wie in den anderen

Stichproben zeigt sich auch bei den Kindern der Stichprobe GL-IV mit fast zehn Wertpunkten

der größte Anstieg von VG zu AG.

Für einen Überblick über die Höhe des Lerneffekts im kurzen und langen Intervall insgesamt

wurden für jeden Untertest und jeden Index neue Variablen berechnet. Dafür wurden bei den

Kindern, die den HAWIK-III zuerst durchführten (G-III), die Werte des HAWIK-III von denen des

HAWIK-IV, und bei denen, die erst den HAWIK-IV durchführten (G-IV), die Werte des HAWIK-IV

von denen des HAWIK-III abgezogen wurden. Es wurde also immer die Werte der ersten von

der zweiten Testung abgezogen. So ergibt sich für jeden Untertest und Index ein Differenzbet-

rag für jedes Kind. Die mittleren Differenzen stellen den durchschnittlichen Wertpunkt- bzw.

IQ-Zuwachs von der ersten zur zweiten Testung dar und werden in Tabelle 8.11 aufgezeigt.


Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach kurzem und langem Intervall.

Untertest/Index Zuwachs kurzes Intervall (n=127)

Std.-diff. Zuwachs langes Intervall (n=95)

Std.-diff.

BE +1.6 +0.7 +1.1 +0.4 AW +0.4 +0.2 +0.4 +0.2 ZST +1.4 +0.7 +1.1 +0.5 GF +0.6 +0.3 +0.9 +0.4 RD +0.4 +0.2 +0.1 +0.0 MT +1.1 +0.5 +1.0 +0.4 WT +0.1 +0.0 +0.2 +0.1 AV 0.0 +0.0 +0.1 +0.0 SS/SYS +1.2 +0.5 +1.3 +0.5 ZN +0.5 +0.2 +0.3 +0.1 SV/SV +1.7 +0.2 +2.7 +0.3 WO/WLD +3.8 +0.3 +2.3 +0.2 UA/AGD +1.7 +0.2 +2.0 +0.2 AG/VG +7.4 +0.8 +7.1 +0.8 Gesamt-IQ +4.0 +0.4 +3.1 +0.4

Anmerkungen: Std.-diff. = Standarddifferenz. Berechnung siehe Kapitel 7.5.3. Abkürzungen siehe Anhang A5 und A6.

Die Wertzuwächse fallen im kurzen Intervall zwar etwas höher aus als im langen Intervall, ins-

gesamt haben jedoch unabhängig von der Länge des Intervalls die gleichen Untertests und

Indizes hohe oder niedrige Zunahmen zu verzeichnen. In beiden Intervallen weisen die Werte

den höchsten Anstieg im Index VG auf. Hinsichtlich der Untertests zeigen in beiden Intervallen

die Werte des AV und RD die geringsten und die Werte des BE, ZST und SS bzw. SYS die

höchsten Zuwächse.

Studien besagen, dass sich der Lerneffekt bei jüngeren Kindern deutlicher zeigt als bei älteren

Kindern (siehe Kapitel 5.2.1). Dies soll im Folgenden untersucht werden. Tabelle 8.12 präsen-

tiert die durchschnittlichen Mittelwertdifferenzen nach kurzem Re-Testintervall, aufgeteilt in

die drei Altersgruppen 6 bis 7, 8 bis 11 und 12 bis 16 Jahre.


Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen.

Untertest/Index Alter 6-7

(n=20) Std.-diff.

Alter 8-11 (n=37)

Std.-diff. Alter 12-16

(n=70) Std.-diff.

BE +0.1 0.0 +1.9 +0.8 +1.8 +0.8 AW +0.6 +0.3 +0.6 +0.3 +0.3 +0.2 ZST +1.5 +0.6 +1.2 +0.6 +1.5 +0.7 GF +0.6 +0.2 +0.9 +0.3 +0.5 +0.3 RD +0.3 +0.1 -0.1 0.0 +0.6 +0.3 MT +0.5 +0.2 +1.0 +0.4 +1.3 +0.6 WT -0.1 0.0 -0.1 0.0 +0.2 +0.1 AV -0.2 -0.1 -0.2 -0.1 +0.2 +0.1 SS/SYS +1.7 +0.6 +1.5 +0.6 +0.9 +0.4 ZN +0.6 +0.3 +0.8 +0.4 +0.3 +0.1 SV/SV +1.1 +0.1 +1.1 +0.1 +2.3 +0.3 WO/WLD +0.4 0.0 +3.4 +0.2 +5.0 +0.4 UA/AGD +4.1 +0.4 +1.5 +0.1 +1.2 +0.1 AG/VG +8.6 +0.8 +7.7 +0.8 +6.9 +0.7 Gesamt-IQ +3.5 +0.4 +3.1 +0.3 +4.6 +0.5


Wie der Tabelle 8.12 entnommen werden kann, offenbaren nur in den Index-Kombinationen

UA und AGD sowie AG und VG die jüngsten Kinder den höchsten Zuwachs. In den anderen

Indizes und im Gesamt-IQ haben die Jugendlichen zwischen 12 und 16 Jahren am deutlichsten

von der ersten Testung profitiert.

Abschließend sind aus der Tabelle 8.13 die Mittelwertzuwächse bzw. -abnahmen nach langem

Intervall ersichtlich, wiederum unterteilt in die drei Altersgruppen.

Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen.

Untertest/Index Alter 6-7

(n=17) Std.-diff.

Alter 8-11 (n=36)

Std.-diff. Alter 12-16

(n=42) Std.-diff.

BE 0.0 0.0 +1.4 +0.5 +1.2 +0.5 AW +1.0 +0.4 +0.3 +0.1 +0.3 +0.2 ZST +0.9 +0.4 +0.4 +0.2 +1.8 +0.9 GF +1.5 +0.6 +0.5 +0.2 +1.1 +0.5 RD +0.2 +0.1 -0.2 -0.1 +0.3 +0.1 MT +0.1 +0.1 +0.4 +0.2 +1.8 +0.7 WT -0.2 -0.1 +0.3 +0.1 +0.2 +0.1 AV -0.1 0.0 -0.2 -0.1 +0.4 +0.2 SS/SYS +2.0 +0.7 +1.2 +0.5 +1.1 +0.5 ZN +0.1 0.0 +0.1 0.0 +0.5 +0.2 SV/SV +4.7 +0.5 +0.6 +0.1 +3.8 +0.6 WO/WLD -0.5 0.0 +1.8 +0.1 +3.8 +0.3 UA/AGD +4.5 +0.4 -1.4 -0.1 +4.0 +0.4 AG/VG +8.7 +0.8 +5.0 +0.6 +8.3 +1.0 Gesamt-IQ +3.8 +0.4 +0.6 +0.1 +5.0 +0.6



Im langen Intervall birgt die Gruppe der 12- bis 16-Jährigen im Gesamt-IQ und der Indexkom-

bination WO und WLD den höchsten Zuwachs. In den anderen Indizes kann bei den jüngsten

Kindern der höchste Anstieg aufgezeigt werden.

Zusammenfassend lässt sich somit ein Lerneffekt feststellen. Vor allem in den Geschwindig-

keitsindizes AG bzw. VG profitieren die Kinder und Jugendlichen deutlich von der ersten Tes-

tung. Nach kurzem Intervall wird ein etwas deutlicherer Zuwachs ersichtlich als nach langem

Intervall. Während nach kurzem Intervall die jüngste Altersstufe in den Gedächtnis- und Ge-

schwindigkeitsindizes den höchsten Zuwachs aufweist und in den anderen Indexkombinatio-

nen die ältesten Kinder am meisten von der ersten Testung profitierten, haben im langen

Intervall, bis auf in den Indexkombination WO und WLD, immer die 6- bis 7-Jährigen den

höchsten Anstieg zu verzeichnen.

8.5 Flynn-Effekt Ein weiterer möglicher Störeinfluss auf die Ergebnisse des Mittelwertvergleichs stellt der

Flynn-Effekt dar (siehe Kapitel 5.2.2). Zur Untersuchung des Flynn-Effekts werden nur die Kin-

der der Stichprobe mit langem Re-Testintervall ausgewählt, da bei ihnen der Lerneffekt weni-

ger zum Tragen kommt (siehe Kapitel 8.4). Da der Lerneffekt, wie oben gezeigt, jedoch auch im

langen Intervall nachgewiesen werden konnte, kann mit Hilfe dieser Studie kein eindeutiger

Nachweis oder Gegenbeweis für die Existenz des Flynn-Effekts geboten werden.

Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall (n= 93-95).

HAWIK-III HAWIK-IV Untertest/Index M SD M SD Differenz Std.-diff. BE 11.0 2.9 11.3 3.0 +0.3 0.09 AW 10.9 3.0 10.9 2.6 +0.0 -0.01 ZST 11.2 3.0 10.7 2.8 -0.5 -0.17 GF 12.0 3.2 11.2 2.6 -0.8 -0.29 RD 10.9 2.7 10.6 2.3 -0.3 -0.12 MT 10.9 3.3 10.8 3.2 -0.1 -0.04 WT 11.6 3.2 11.5 2.8 -0.1 -0.04 AV 11.2 2.2 11.3 2.5 0.0 0.01 SS/SYS 11.3 3.1 11.0 2.6 -0.4 -0.13 ZN 9.6 2.4 10.2 2.3 +0.6 0.25 SV/SV 110.5 15.6 107.2 13.2 -3.3 -0.23 WO/WLD 104.2 14.6 105.2 12.8 +1.0 0.07 UA/AGD 102.2 12.5 101.7 11.2 -0.5 -0.04 AG/VG 107.3 15.7 104.8 13.7 -2.5 -0.17 Gesamt-IQ 108.0 14.2 106.2 11.6 -1.8 -0.14

Anmerkungen: M = Mittelwert, SD = Standardabweichung, Std.-diff. = Standarddifferenz. Be-rechnung der Standarddifferenz siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und A6.


Tabelle 8.14 stellt die Mittelwerte und Wertpunkt- und IQ-Zuwächse bzw. -Abnahmen der GL

dar. Dabei scheint nur in einigen Bereichen ein Flynn-Effekt erkennbar zu sein. Die deutlichste

IQ-Abnahme zeigt sich im Vergleich der SV-Indizes und der Geschwindigkeitsindizes AG und

VG.

Wie in Kapitel 5.2.2 beschrieben zeigt sich der Flynn-Effekt vor allem in den Randbereichen des

kognitiven Leistungsspektrums. Auf einen Vergleich zu Kindern aus dem extrem niedrigen Leis-

tungsbereich muss an dieser Stelle aufgrund der geringen Anzahl an Kindern mit einem Ge-

samt-IQ unter 85 in dieser Stichprobe verzichtet werden. Somit werden an dieser Stelle die

Ergebnisse der Kinder und Jugendlichen noch einmal gesondert betrachtet, die im HAWIK-III

einen Gesamt-IQ von ≥ 115 erzielten (siehe Tabelle 8.15). Wie die Tabelle 8.15 verdeutlicht

lassen sich Anzeichen für eine Normverschiebung zwischen HAWIK-III und -IV erkennen.

Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28).

HAWIK-III HAWIK-IV Untertest/Index M SD M SD Differenz Std.-diff. BE 13.2 2.3 12.9 2.4 -0.3 -0.11 AW 13.8 2.1 13.2 2.3 -0.6 -0.28 ZST 12.1 3.2 11.4 2.7 -0.7 -0.24 GF 14.9 2.5 12.9 2.0 -2.0 -0.87 RD 13.3 2.0 11.8 2.0 -1.5 -0.75 MT 13.5 2.7 12.8 2.8 -0.8 -0.27 WT 14.0 2.4 13.6 2.2 -0.4 -0.19 AV 13.0 2.4 12.8 2.3 -0.2 -0.08 SS/SYS 12.4 2.9 12.0 2.1 -0.4 -0.15 ZN 10.6 2.3 11.1 2.0 0.5 0.23 SV/SV 127.3 11.4 118.0 10.4 -9.2 -0.85 WO/WLD 120.1 10.2 114.8 9.8 -5.3 -0.53 UA/AGD 112.4 10.9 107.7 9.7 -4.7 -0.45 AG/VG 112.7 16.7 109.3 12.0 -3.4 -0.23 Gesamt-IQ 125.9 6.9 116.9 7.8 -9.0 -1.23


Auf Untertestebene sind die Wertpunkte bei den leistungsstarken Kindern und Jugendlichen

vor allem im GF und RD gesunken. Der Gesamt-IQ und das SV liegen im HAWIK-III circa 9 Punk-

te höher als im HAWIK-IV.

Insgesamt können die Störeinflüsse Lern- und Flynn-Effekt zur Erklärung der signifikanten Dif-

ferenzen zwischen den meisten Index- und Untertestwerten beider Testversionen beitragen

(mehr dazu siehe Kapitel 9.2).


8.6 Untersuchung der Teststruktur mit Hilfe von Faktorenana-lysen

Im Folgenden werden Faktorenanalysen berechnet, die Hinweise auf die Struktur der zu unter-

suchenden Testverfahren und die Höhe der Ladungen auf den von den Testautoren benannten

Faktoren liefern sollen. Damit wird der Frage 3: „Ist die von den Testautoren vorgegebene

Faktorenstruktur des HAWIK-III in der vorliegenden Studie replizierbar?“ und der Frage 4:

„Ist die von den Testautoren vorgegebene Faktorenstruktur des HAWIK-IV in der vorliegen-

den Studie replizierbar?“ nachgegangen. Gleichzeitig werden die dazugehörigen Hypothesen

6.2.1 bis 6.2.3 untersucht.

8.6.1 Faktorenanalysen ohne Vorgabe der Faktorenanzahl

Zur Untersuchung der Struktur beider Testversionen wird die Faktorenanalyse zunächst ohne

Vorgabe der Faktorenanzahl durchgeführt.

Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenan-zahl.

Untertest Faktor

1 2 3 AW .78 .20 .13 WT .77 .19 .01 GF .77 .23 -.02 AV .63 .32 .01 RD .56 .09 .40 FL .08 .79 .06 MT .21 .64 .38 BE .32 .58 -.03 BO .32 .57 .13 ZST .00 .15 .75 SS -.07 .20 .74 ZN .38 -.15 .60

Anmerkungen: Die Untertests sind sortiert nach Höhe der Faktorladungen. Details zur Berech-nung siehe Kapitel 7.5.2. Abkürzungen siehe Anhang A5 und A6.

Die Tabelle 8.16 zeigt eine Drei-Faktoren-Struktur des HAWIK-III.

Somit muss an dieser Stelle die Hypothese 6.2.1 abgelehnt werden.

Den ersten Faktor bilden die Untertests des Index SV und der Untertest RD. Auf dem zweiten

Faktor laden die Untertests des Index WO und auf dem dritten Faktor die Untertests des Index

AG und der Untertest ZN. RD weist ebenfalls relativ hohe Ladungen auf dem dritten Faktor auf.

Für die 15 Untertests des HAWIK-IV wurde ebenfalls eine explorative Faktorenanalyse berech-

net. Tabelle 8.17 stellt die erhaltene Faktorenstruktur des HAWIK-IV ohne Faktorenvorgabe

dar.


Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenan-zahl.

Untertest Faktor

1 2 3 BEN .79 -.05 .14 WT .78 -.08 .22 GF .77 .09 .20 AW .68 .00 .40 AV .67 -.02 .15 BE .62 .43 -.12 BK .57 .24 -.14 MT .50 .40 .18 MZ .40 .37 .31 SYS .12 .77 .21 DT -.01 .74 -.11 ZST -.03 .71 .27 ZN .10 .06 .83 BZF .09 .10 .78 RD .36 .24 .58


Wie schon im HAWIK-III zeigen sich auch für den HAWIK-IV nur drei Faktoren.

Die Hypothese 6.2.2 muss somit ebenfalls abgelehnt werden.

Die Untertests des SV und des WLD können dem ersten Faktor zugeordnet werden. Der zweite

Faktor setzt sich aus Untertests des Index VG zusammen und auf dem dritten Faktor laden die

Untertests des Index AGD.

Aufgrund des bereits festgestellten großen Einflusses des Re-Testintervalls und der Testreihen-

folge (siehe Lern- und Flynn-Effekt) werden die Faktorenanalysen zusätzlich getrennt nach

Höhe des Intervalls sowie getrennt nach Reihenfolge der Testvorgabe durchgeführt.

Unterteilung in Intervall:

Im HAWIK-IV zeigen sich im kurzen Intervall genau die vier Faktoren, wie sie theoretisch vorge-

geben werden (siehe Anhang A7). Im langen Intervall ergeben sich jedoch nur drei Faktoren,

die auch nur teilweise mit der Struktur des HAWIK-IV übereinstimmen (siehe Anhang A8).

Die Faktorenanalyse der HAWIK-III-Untertests weist im langen Intervall nahezu theoriekonfor-

me Ergebnisse auf, einzig BO ist eher den Untertests des UA, RD und ZN, zuzuordnen als den

anderen Untertests des WO (siehe Anhang A10). Im kurzen Intervall kann MT dem Faktor, auf

dem die Untertests des UQ laden, eher zugeordnet werden als dem Faktor, auf dem sich die

Untertests des WO befinden (siehe Anhang A9).

Unterteilung in Testreihenfolge:

Die Faktorenanalyse der HAWIK-III-Untertests mit der Stichprobe, die den HAWIK-III zuerst

bearbeitet hat (siehe Anhang A11) weist vier Faktoren auf, allerdings insofern abweichend von


der vorgegebenen Teststruktur, als dass MT etwas mehr auf dem UA-Faktor lädt als auf dem

WO-Faktor (das selbe Ergebnis zeigte sich schon für die Stichprobe, die ein kurzes Intervall

zwischen den Testungen aufwies, siehe oben). In der Stichprobe, die den HAWIK-IV zuerst ab-

solvierte, bilden die Untertests des HAWIK-III lediglich drei Faktoren, in denen die theoriegelei-

teten Faktoren nur bedingt wiederzufinden sind (siehe Anhang A12). So lädt BO mehr auf dem

SV-Faktor als auf dem Faktor der WO-Untertests. Außerdem bilden die Untertests des Index

AG einen gemeinsamen Faktor mit dem ZN.

Die Ergebnisse der Untertests des HAWIK-IV der Kinder, die zuerst den HAWIK-III vorgelegt

bekamen, bilden exakt die vier Faktoren, die dem Test theoretisch zu Grunde liegen (siehe

Anhang A13). Wurde jedoch zuerst der HAWIK-IV durchgeführt, laden die Untertests des HA-

WIK-IV auf drei Faktoren, von denen einzig der Faktor AGD erkennbar ist (siehe Anhang A14).

Zusammenfassend kann somit festgestellt werden, dass sich bei den Untertests des HAWIK-IV

im kurzen Intervall und bei Erstvorgabe des HAWIK-III die vier von den Testautoren vorgege-

benen Faktoren wiederfinden lassen, ohne dass eine Faktorenanzahl vorgegeben wurde. In

diesen Teilstichproben könnte demnach die Hypothese angenommen werden.

8.6.2 Faktorenanalysen mit Vorgabe der Faktorenanzahl

Im Folgenden wird vor der Berechnung der Faktorenanalysen festgelegt, dass sich vier Fakto-

ren ergeben sollen. Dies entspricht der vorgegebenen Teststruktur beider HAWIK-Versionen.

Indem zunächst eine Faktorenanalyse mit Vorgabe von vier Faktoren berechnet wird, in die

sämtliche Untertests beider Testversionen einbezogen werden, soll ein Eindruck davon vermit-

telt werden, wie hoch die Untertests beider Testversionen gemeinsam auf die ihnen zu Grunde

liegenden Faktoren laden. In Tabelle 8.18 werden die Ergebnisse dieser Faktorenanalyse dar-

gestellt.


Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren.

Untertest Faktor

1 2 3 4 WT-IV .80 .15 .15 .00 WT-III .78 .06 .20 .07 BEN-IV .73 .23 .12 -.03 GF-III .73 .20 .15 -.01 AV-III .72 .10 .00 .19 GF-IV .71 .30 .17 .01 AV-IV .70 .20 .01 .07 AW-III .66 .25 .35 -.05 AW-IV .63 .27 .38 -.05 MT-IV .14 .78 .26 .07 MT-III .14 .71 .24 .16 BE-IV .31 .66 -.09 .14 FL-III .13 .64 .05 .05 BE-III .36 .44 -.06 .07 MZ-IV .19 .44 .35 .19 BK-IV .28 .43 .02 .06 BO-III .39 .39 .03 .18 ZN-IV .10 .01 .81 .07 ZN-III .02 .01 .78 .14 BZF-IV .16 .00 .69 .14 RD-IV .28 .24 .61 .17 RD-III .27 .34 .60 .01 ZST-III .04 .03 .20 .81 ZST-IV .06 .01 .16 .80 SYS-IV .10 .24 .14 .77 SS-III .03 .04 .12 .65 DT-IV -.04 .23 -.10 .58


Die vier Faktoren entsprechen der von den WISC-Entwicklern vorgegebenen Teststruktur. Der

erste Faktor beinhaltet die Untertests der beiden als SV bezeichneten Indizes, der zweite Fak-

tor besteht aus den Untertest des WO und des WLD, der dritte Faktor beinhaltet die Unter-

tests der Indizes UA und AGD und der vierte Faktor bildet sich aus den Untertests der Indizes

AG und VG.

Die Hypothese 6.2.3 kann somit angenommen werden.

Allerdings kann BO sowohl dem ersten als auch dem zweiten Faktor zugeordnet werden. Auch

die beiden Versionen des BE laden zusätzlich mit mehr als .30 auf dem ersten Faktor, der die

Untertests des SV beinhaltet.

Im Folgenden soll für jede Testversion getrennt die von den Testautoren vorgegebene Test-

struktur untersucht werden. Dafür werden jeweils vier Faktoren vorgegeben, da dies der theo-

retisch festgelegten Anzahl entspricht.


Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren.

Untertest Faktor

1 2 3 4 WT .79 .09 .19 .02 AV .78 .16 -.04 .17 GF .77 .16 .21 -.04 AW .66 .20 .45 -.03 FL .08 .85 .08 -.02 MT .13 .71 .33 .23 BO .37 .53 .06 .14 BE .45 .49 -.11 .08 RD .24 .25 .78 .00 ZN .08 -.02 .75 .27 ZST .08 .07 .13 .83 SS .02 .13 .09 .82


Werden die vier Faktoren vorgeben, lässt sich die Teststruktur des HAWIK-III (siehe Tabelle

8.19) im vorliegenden Datensatz wiederfinden.

Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.1 somit angenommen werden.

Der erste Faktor setzt sich aus den Untertests des SV zusammen, der zweite aus den Unter-

tests des WO, der dritte aus den Untertests des UA-Index und der vierte Faktor aus den Unter-

tests des AG. BE kann jedoch wie schon bei der Analyse unter Berücksichtigung aller Untertests

beider Versionen (siehe Tabelle 8.18) fast gleich gut dem ersten als auch dem zweiten Faktor

zugeordnet werden. AW zeigt neben dem Sprachfaktor ebenfalls hohe Ladungen auf dem Fak-

tor, der die Untertests des UA-Index beinhaltet.

Die Ergebnisse der Faktorenanalyse für die HAWIK-IV-Untertests werden in der folgenden Ta-

belle 8.20 dargestellt.

Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren.

Untertest Faktor

1 2 3 4 WT .84 .16 .12 .00 BEN .79 .09 .22 -.01 AV .74 .09 .09 .07 GF .73 .16 .30 .09 AW .61 .39 .31 -.04 ZN .08 .85 .10 .02 BZF .18 .76 -.07 .16 RD .24 .60 .34 .14 BK .27 -.08 .68 .00 MT .21 .23 .67 .17 MZ .12 .37 .62 .14 BE .43 -.11 .55 .30 ZST .10 .21 -.08 .84 SYS .11 .18 .18 .79 DT -.14 -.09 .31 .66



Wie aus der Tabelle 8.20 ersichtlich, lässt sich auch für den HAWIK-IV bei Vorgabe der vier

Faktoren die testtheoretische Faktorenstruktur replizieren. Den ersten Faktor bilden die Unter-

tests des SV, den zweiten die Untertests des AGD, dem dritten lassen sich die Untertests des

WLD und dem vierten Faktor die Untertests des VG zuordnen.

Mit Vorgabe von vier Faktoren kann die Hypothese 6.2.2 somit angenommen werden.

Wie bei der Faktorenanalyse der HAWIK-III-Untertests laden auch bei der Analyse der HAWIK-

IV-Untertests AW relativ hoch auf dem Faktor, der die AGD-Untertests beinhaltet und BE auf

dem Faktor, der sich aus den Untertests des Index SV zusammensetzt.

8.6.3 Zusammenfassung Faktorenanalysen

Faktorenanalysen ohne Vorgabe der Faktorenanzahl konnten die vier Faktoren des HAWIK-III

und HAWIK-IV nur teilweise nachweisen. Anhand von Faktorenanalysen mit Vorgabe der Fak-

torenanzahl können die Hypothesen zur Faktorenstruktur beider Versionen jedoch bestätigt

werden. Sowohl die Untersuchung sämtlicher Untertests beider Testversionen als auch die

separaten Analysen der Tests weisen die Vier-Faktoren-Struktur auf, wie sie von den Entwick-

lern vorgegeben wurde. Dabei stellt sich heraus, dass die Untertests BE und BO ebenfalls hoch

auf dem Sprachverständnis-Faktor laden und AW zusätzlich auf dem Gedächtnis-Faktor hohe

Ladungen aufweist. Während die bezüglich der Faktorenstruktur beider Testversionen aufges-

tellten Hypothesen also nach der Berechnung ohne Faktorenvorgabe abgelehnt werden müs-

sen, können sie anhand einer Faktorenanalyse mit Vorgabe der vier testeigenen Faktoren an-

genommen werden. Insgesamt konnte demnach die Struktur des HAWIK-III und des HAWIK-IV

repliziert werden.

8.7 Untersuchung des Zusammenhangs mit Hilfe von Korrela-tionen

Die Untersuchung der Korrelationen gibt Aufschluss über die Höhe und Richtung des Zusam-

menhangs der Untertests und Indizes beider Testversionen. Die Fragestellungen 5 bis 8 be-

schäftigen sich mit der Höhe der Korrelationen der sich entsprechenden Werte. Im Folgenden

soll also geklärt werden, ob sich die Korrelationen zwischen den sich entsprechenden Werten

als ebenso hoch erweisen, wie es sich in vergleichbaren Studien darstellte.

8.7.1 Korrelationen der Gesamtstichprobe

Wie im Manual des HAWIK-IV werden die Korrelationen zwischen beiden Testversionen zu-

nächst getrennt in Abhängigkeit von der Reihenfolge der Testvorgabe angegeben. Tabelle 8.21

zeigt die Korrelationen zwischen HAWIK-III und -IV der G-III und Tabelle 8.22 die Korrelationen

der G-IV.


Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 111 11.9 2.9 MT 111 10.8 2.9 .38 .68 GF 111 11.5 2.3 GF 111 11.4 2.6 .00 .57 ZN 111 10.4 2.3 ZN 111 9.5 2.4 .37 .59 ZST 111 11.7 2.7 ZST 111 11.0 2.8 .28 .77 WT 111 11.3 2.6 WT 111 11.7 2.6 -.16 .64 AV 111 11.2 2.1 AV 111 11.2 2.0 -.01 .40 SYS 109 11.5 2.6 SS 109 10.9 2.7 .22 .57 BE 111 11.9 2.7 BE 111 10.6 2.7 .50 .55 AW 110 11.0 2.4 AW 110 10.8 2.8 .06 .74 RD 110 11.3 2.1 RD 110 11.0 2.9 .10 .53 SV 111 107.0 11.5 Verbal-IQ 111 108.2 12.3 -.10 .75 WLD 111 107.5 11.7 Handlungs-IQ 111 105.1 13.0 .19 .50 SV 111 107.0 11.5 SV 111 109.3 12.9 -.19 .79 WLD 111 107.5 11.7 WO 111 104.4 13.5 .25 .48 AGD 111 103.3 11.3 UA 111 102.3 13.0 .08 .61 VG 109 109.0 13.7 AG 109 105.3 13.7 .27 .81 Gesamt-IQ 111 108.5 9.8 Gesamt-IQ 111 107.5 12.5 .09 .73 Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, Std.-diff. = Standarddifferenz, r = Höhe der Korrelation. Zur Berechnung der Standarddifferenz siehe Kapitel 7.5.3. Weitere Abkürzungen siehe Anhang A5 und A6.

Die Gesamt-IQ beider Testversionen korrelieren mit r = .73. Auf Index-Ebene weisen die Ver-

gleiche zwischen WLD und Handlungs-IQ sowie zwischen WLD und WO in der G-III die niedrigs-

ten Korrelationen auf. Die höchsten Korrelationen zeigen sich dagegen zwischen den Indizes

VG und AG. Der Untertest AV weist mit r = .40 mit Abstand die niedrigste, der nicht veränderte

ZST bei erneuter Testung mit r = .77 die höchste Korrelation auf. Die beiden Versionen des AW

korrelieren mit r = .74 ebenfalls hoch miteinander.

Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 112 10.5 2.9 MT 112 11.4 3.4 -.30 .72 GF 112 10.6 2.4 GF 112 12.1 2.9 -.57 .68 ZN 112 10.4 2.7 ZN 112 10.3 2.7 .03 .68 ZST 112 10.3 2.8 ZST 112 12.2 3.3 -.61 .75 WT 112 10.8 2.7 WT 112 11.4 3.1 -.21 .69 AV 112 11.1 2.6 AV 112 11.3 2.0 -.06 .70 SYS 112 10.6 2.5 SS 112 12.4 2.6 -.68 .56 BE 111 10.2 2.6 BE 111 11.5 3.2 -.46 .61 AW 111 10.5 2.6 AW 111 11.2 2.7 -.28 .75 RD 112 10.8 2.6 RD 112 11.1 2.6 -.10 .68 SV 112 104.4 13.0 Verbal-IQ 112 109.6 13.5 -.39 .81 WLD 112 103.3 12.3 Handlungs-IQ 112 108.6 15.2 -.38 .66 SV 112 104.4 13.0 SV 112 111.0 14.5 -.48 .83 WLD 112 103.3 12.3 WO 112 106.5 15.3 -.23 .64 AGD 112 102.4 13.2 UA 112 105.0 13.3 -.20 .66 VG 112 102.6 12.9 AG 112 113.1 14.5 -.76 .79 Gesamt-IQ 112 104.0 12.3 Gesamt-IQ 112 110.2 14.1 -.47 .81 Anmerkungen: siehe Tabelle 8.21.


In der G-IV erweist sich die Korrelation im Gesamt-IQ mit r = .81 als etwas höher als in der G-III.

Ebenso hoch korreliert der SV des HAWIK-IV mit dem Verbal-IQ, die beiden SV-Indizes weisen

mit r = .83 die höchsten Korrelationen auf. Insgesamt liegen die Korrelationen in der G-IV hö-

her als in der G-III. Auch auf Untertestebene zeigen sich ähnlich hohe oder höhere Korrelatio-

nen. Die niedrigste Korrelation weisen die beiden Symbol-Suche-Untertests mit r = .56 und die

höchsten die AW-Untertests mit r = .75 auf.

Die folgende Tabelle 8.23 beinhaltet die Verteilungskennwerte der Testergebnisse sowie der

Korrelationen zwischen HAWIK-III und -IV. Erläuterungen zur Berechnung der gemittelten Wer-

te aus G-III und G-IV befinden sich in Kapitel 7.5.3.1.

Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223). HAWIK-IV N M SD HAWIK-III N M SD St.-diff. r rcorr

1 rcorr2 p aα

MT 223 11.2 2.9 MT 223 11.1 3.1 .03 .70 .74 .77 .512 .013 GF 223 11.0 2.4 GF 223 11.8 2.8 -.29 .63 .73 .81 .182 .006 ZN 223 10.4 2.5 ZN 223 9.9 2.6 .19 .64 .70 .76 .280 .007 ZST 223 11.0 2.7 ZST 223 11.6 3.0 -.19 .76 .79 .80 .759 .017 WT 223 11.0 2.7 WT 223 11.6 2.8 -.19 .67 .75 .81 .462 .008 AV 223 11.1 2.4 AV 223 11.2 2.0 -.04 .57 .67 .77 .001** .005 SYS 221 11.0 2.6 SS 221 11.6 2.7 -.22 .57 .63 .71 .944 .050 BE 222 11.1 2.6 BE 222 11.1 2.9 -.01 .58 .63 .69 .485 .010 AW 221 10.7 2.5 AW 221 11.0 2.8 -.12 .75 .81 .84 .922 .025 RD 222 11.1 2.4 RD 223 11.1 2.8 .00 .61 .71 .79 .070 .006 SV 223 105.7 12.3 V-IQ 223 108.9 12.9 -.25 .78 .87 .89 .260 .050 WLD 223 105.4 12.0 H-IQ 223 106.9 14.2 -.11 .58 .68 .78 .076 .025 SV 223 105.7 12.3 SV 223 110.1 13.7 -.34 .81 .88 .90 .326 .017 WLD 223 105.4 12.0 WO 223 105.4 14.4 .00 .57 .67 .78 .077 .013 AGD 223 102.8 12.3 UA 223 103.6 13.2 -.06 .64 .72 .79 .569 .025 VG 221 105.8 13.3 AG 221 109.2 14.1 -.24 .80 .84 .85 .639 .050 Gesamt-IQ 223 106.3 11.2 Gesamt-IQ 223 108.9 13.3 -.21 .77 .87 .90 .155 Anmerkungen: N = Anzahl der Personen, M = Mittelwert, SD = Standardabweichung, St.-diff. = Standarddifferenz, r = Höhe der Korrelation, rcorr

1 und rcorr2 = korrigierte Korrelationen

(Formeln siehe 7.5.3.1), p = Signifikanz der Differenzen * = signifikantes Ergebnis auf dem .05-Signifikanzniveau. aα = jeweiliges α-adjustiertes Signifikanzniveau nach Bonferroni-Holm. ** = signifikantes Ergebnis auf dem adjustierten Signifikanzniveau. Ausführliche Angaben zur Berech-nung der Werte siehe Kapitel 7.5.3.1. Weitere Abkürzungen siehe Anhang A5 und A6.

Der Gesamt-IQ beider Testversionen korreliert - nach der Korrektur, wie sie für den amerikani-

schen Vergleich WISC-III und WISC-IV vorgenommen wurde (rcorr1, siehe Kapitel 7.5.3.1) - mit

r = .87. Der SV und der Verbalteil korrelieren ebenso hoch, während der WLD mit dem Hand-

lungs-IQ mit r = .68 nach Korrektur einen niedrigeren Zusammenhang aufweist. Die korrigier-

ten Korrelationen der Indexvergleiche liegen zwischen r = .67 und .88. Innerhalb der Untertests

zeigen sich korrigierte Korrelationen von r = .63 bis .81.

Die Fragestellungen 5 bis 8 können somit bejaht und die H1 der zugehörigen Hypothesen 6.3.1

bis 6.3.7 angenommen werden.


Zusätzlich lässt sich anhand der Ergebnisse, die in Tabelle 8.23 dargestellt sind, die Fragestel-

lung 9: „Hat die Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der

Korrelationen?“ beantworten. Die einzige Korrelation, die sich je nach dem zuerst vorgelegten

Testverfahren signifikant unterscheidet, weist der Untertest AV auf. In der G-III korrelieren die

beiden AV-Untertests nur mit r = .40, in der G-IV jedoch mit r = .70. Dies führt zu einem signifi-

kanten Unterschied hinsichtlich der Höhe der Korrelation, je nachdem, welcher Test den Kin-

dern und Jugendlichen der Gesamtstichprobe zuerst vorgelegt wurde.

Innerhalb der Indizes und Gesamtwerte sind keine signifikanten Unterschiede dieser Art fest-

zustellen. Die Fragestellung 9 kann somit verneint und die H1 der Hypothesen 6.3.8 bis 6.3.14

angenommen werden.

Auch wenn die Frage nach dem Einfluss des Zeitintervalls zwischen beiden Testungen an der

gematchten Teilstichprobe untersucht werden soll (siehe Kapitel 7.3.2), werden im Folgenden

auch für die Gesamtstichprobe die Korrelationen getrennt nach der Länge des Re-Testintervalls

geprüft. In Tabelle 8.24 bis Tabelle 8.26 befinden sich die Angaben für die GK zunächst ge-

trennt nach Testvorgabe und dann gemeinsam.

Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 12.2 2.8 MT 10.9 2.9 .78 .71 GF 11.1 2.2 GF 11.1 2.4 -.04 .55 ZN 10.6 2.5 ZN 9.7 2.6 .56 .68 ZST 12.4 2.5 ZST 11.6 3.0 .52 .77 WT 10.8 2.5 WT 11.6 2.5 -.49 .64 AV 11.0 2.2 AV 11.1 1.9 -.09 .48 SYS 11.8 2.8 SS 11.4 2.5 .25 .63 BE 11.7 2.4 BE 10.3 2.8 .83 .64 AW 10.8 2.5 AW 10.9 2.7 -.05 .73 RD 12.0 2.1 RD 11.4 3.1 .38 .60 SV 105.1 11.5 Verbal-IQ 108.0 11.9 -.86 .78 WLD 107.6 11.1 Handlungs-IQ 106.2 14.1 .39 .51 SV 105.1 11.5 SV 108.7 12.2 -1.05 .82 WLD 107.6 11.1 WO 104.6 14.4 .86 .48 AGD 104.5 12.7 UA 103.8 14.0 .18 .67 VG 111.9 13.7 AG 108.5 13.6 .90 .82 Gesamt-IQ 108.9 10.3 Gesamt-IQ 108.0 12.9 .24 .75 Anmerkungen: siehe Tabelle 8.21.

Der Gesamt-IQ beider Testversionen korreliert in dieser Teilstichprobe mit r = .75. Wie schon in

der Gesamtstichprobe (G-III, siehe Tabelle 8.21) weisen die Kombinationen WLD und Hand-

lungs-IQ sowie WLD und WO auch dann die niedrigsten Zusammenhänge auf, wenn der HA-

WIK-III zuerst durchgeführt wurde. Die höchsten Korrelationen zeigen sich zwischen den Indi-

zes VG und AG und den SV-Indizes. Der AV-Vergleich weist mit r = .48 ebenso wie in der G-III


die niedrigste Korrelation auf. Der Untertest ZST des HAWIK-III und des HAWIK-IV zeigt mit

r = .77 identische Korrelationen zur G-III.

Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 65 10.8 2.6 MT 65 11.6 3.1 -.48 .69 GF 65 10.8 2.3 GF 65 12.1 2.4 -.86 .61 ZN 65 10.6 2.8 ZN 65 10.6 2.7 -.05 .77 ZST 65 10.1 2.7 ZST 65 12.1 3.3 -1.16 .75 WT 65 10.7 2.6 WT 65 11.5 2.6 -.53 .68 AV 65 11.0 2.3 AV 65 11.3 1.9 -.16 .67 SYS 65 10.4 2.2 SS 65 12.3 2.5 -1.21 .39 BE 64 10.2 2.5 BE 64 11.9 3.1 -1.07 .64 AW 64 10.3 2.4 AW 64 11.3 2.7 -.59 .75 RD 65 10.8 2.6 RD 65 11.0 2.6 -.10 .66 SV 65 104.2 11.7 Verbal-IQ 65 109.5 11.9 -1.56 .74 WLD 65 103.6 12.0 Handlungs-IQ 65 109.8 14.0 -1.74 .55 SV 65 104.2 11.7 SV 65 111.0 12.2 -1.99 .77 WLD 65 103.6 12.0 WO 65 108.1 14.1 -1.25 .55 AGD 65 103.0 13.3 UA 65 105.6 13.5 -.72 .71 VG 65 101.5 11.7 AG 65 112.7 13.5 -3.15 .73 Gesamt-IQ 65 103.9 11.6 Gesamt-IQ 65 111.0 12.4 -2.03 .75 Anmerkungen: siehe Tabelle 8.21.

Die GK-IV weist ebenso wie die G-IV (siehe Tabelle 8.22) im Gesamt-IQ sowie in den sprachli-

chen Index- und Gesamtwerten die höchsten Zusammenhänge auf. Auf Untertestebene zeigen

sich auch hier ähnlich hohe oder höhere Korrelationen wie bei den Kindern der GK-III (siehe

Tabelle 8.24). Als auffallend niedrig offenbart sich mit r = .39 der Zusammenhang zwischen den

Versionen der Symbol-Suche.

Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128). HAWIK-IV N M SD HAWIK-III N M SD St.-diff. r rcorr

1 rcorr2 p aα

MT 128 11.5 2.7 MT 128 11.2 3.0 .09 .70 .76 .80 .871 .025 GF 128 10.9 2.2 GF 128 11.6 2.4 -.30 .58 .71 .81 .584 .007 ZN 128 10.6 2.6 ZN 128 10.2 2.7 .15 .73 .77 .80 .276 .006 ZST 128 11.3 2.6 ZST 128 11.8 3.1 -.20 .76 .81 .83 .827 .017 WT 128 10.7 2.5 WT 128 11.6 2.6 -.32 .66 .76 .83 .666 .010 AV 128 11.0 2.3 AV 128 11.2 1.9 -.09 .59 .70 .80 .101 .006 SYS 128 11.1 2.5 SS 128 11.8 2.5 -.29 .52 .59 .70 .073 .005 BE 127 10.9 2.4 BE 128 11.1 2.9 -.08 .64 .71 .78 .968 .050 AW 127 10.6 2.4 AW 128 11.1 2.7 -.20 .74 .81 .84 .745 .013 RD 128 11.4 2.3 RD 128 11.2 2.9 .08 .63 .73 .80 .605 .008 SV 128 104.6 11.6 V-IQ 128 108.8 11.9 -.35 .76 .86 .89 .595 .025 WLD 128 105.6 11.5 H-IQ 128 108.0 14.1 -.19 .53 .65 .78 .738 .050 SV 128 104.6 11.6 SV 128 109.8 12.2 -.44 .80 .89 .91 .447 .017 WLD 128 105.6 11.5 WO 128 106.3 14.2 -.06 .51 .63 .77 .589 .025 AGD 128 103.7 13.0 UA 128 104.7 13.7 -.07 .69 .75 .80 .622 .050 VG 128 106.7 12.7 AG 128 110.6 13.5 -.30 .78 .82 .85 .220 .013 Gesamt-IQ 128 106.4 11.0 Gesamt-IQ 128 109.5 12.7 -.26 .75 .86 .89 .970 Anmerkungen: siehe Tabelle 8.23.


In der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen aufweist (GK), ergibt sich

zwischen den beiden Gesamt-IQ eine korrigierte Korrelation von r = .86. Auch hier zeigen sich

die niedrigsten Zusammenhänge bezogen auf die Indizes zwischen WLD und Handlungsteil

sowie WLD und WO. Insgesamt unterscheiden sich die Korrelationen der Gesamtstichprobe

(siehe Tabelle 8.23) und der GK (siehe Tabelle 8.26) nur unwesentlich voneinander. Einzig die

Untertests ZN und BE weisen in der GK etwas höhere Korrelationen zwischen HAWIK-III und -IV

auf als in der Gesamtstichprobe (r = .70 gegenüber .77 im ZN und r = .63 gegenüber .71 im BE).

Die niedrigsten Zusammenhänge offenbaren die Untertests SYS und SS mit r = .59 nach Korrek-

tur.

Tabelle 8.27 und Tabelle 8.28 beinhalten die Angaben der Korrelationsberechnungen für die

Stichprobe, bei der ein langes Intervall zwischen beiden Testungen lag (GL), getrennt nach der

Reihenfolge der Testvorgabe. Die Ergebnisse die zusammengefassten Berechnungen beider

Teilstichproben lassen sich Tabelle 8.29 entnehmen.

Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48). HAWIK-IV N M SD HAWIK-III N M SD Std.-diff. r MT 48 11.5 2.9 MT 48 10.6 2.9 .50 .64 GF 48 12.0 2.3 GF 48 11.9 2.8 .06 .58 ZN 48 10.1 2.0 ZN 48 9.2 2.1 .59 .40 ZST 48 10.8 2.7 ZST 48 10.2 2.3 .40 .74 WT 48 11.9 2.6 WT 48 11.8 2.7 .04 .66 AV 48 11.4 1.9 AV 48 11.3 2.2 .07 .31 SYS 46 11.1 2.3 SS 46 10.2 2.9 .57 .48 BE 48 12.2 3.0 BE 48 10.9 2.5 .79 .44 AW 47 11.2 2.2 AW 47 10.7 3.1 .24 .79 RD 47 10.4 1.8 RD 47 10.6 2.7 -.13 .38 SV 48 109.6 11.2 Verbal-IQ 48 108.4 12.9 .35 .75 WLD 48 107.4 12.6 Handlungs-IQ 48 103.7 11.4 1.06 .50 SV 48 109.6 11.2 SV 48 110.2 13.9 -.17 .76 WLD 48 107.4 12.6 WO 48 104.2 12.3 .91 .50 AGD 48 101.8 9.1 UA 48 100.3 11.5 .47 .48 VG 48 105.3 12.9 AG 46 101.0 12.7 1.29 .78 Gesamt-IQ 48 108.1 9.2 Gesamt-IQ 48 106.9 12.1 .40 .69 Anmerkungen: siehe Tabelle 8.21.

Die GL-III offenbart auf Untertestebene zum Teil niedrige Korrelationen. So weisen die Hälfte

der Untertestvergleiche Korrelationen unter r = .50 auf. Der Vergleich Handlungsteil und WLD

zeigt mit r = .50 identische Korrelationen wie der Vergleich zwischen WO und WLD. Nur der

Vergleich zwischen UA und AGD ergab mit r = .48 noch niedrigere Zusammenhänge zwischen

beiden den Geschwindigkeits-Indizes beider Testversionen.


Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 10.1 3.4 MT 11.2 3.7 -.60 .75 GF 10.4 2.7 GF 12.2 3.5 -1.02 .75 ZN 10.2 2.5 ZN 9.9 2.7 .19 .53 ZST 10.6 2.9 ZST 12.2 3.3 -.94 .75 WT 11.0 3.0 WT 11.3 3.7 -.16 .72 AV 11.2 2.9 AV 11.2 2.3 -.03 .73 SYS 10.8 2.9 SS 12.4 2.8 -.97 .72 BE 10.3 2.8 BE 11.1 3.3 -.46 .59 AW 10.6 2.9 AW 11.1 2.9 -.26 .76 RD 10.8 2.6 RD 11.2 2.7 -.24 .72 SV 104.8 14.7 Verbal-IQ 109.7 15.5 -1.26 .87 WLD 103.0 12.8 Handlungs-IQ 106.9 16.7 -1.03 .57 SV 104.8 14.7 SV 110.9 17.4 -1.53 .88 WLD 103.0 12.8 WO 104.3 16.8 -.34 .76 AGD 101.6 13.2 UA 104.1 13.3 -.71 .58 VG 104.0 14.4 AG 113.6 16.0 -2.45 .85 Gesamt-IQ 104.2 13.4 Gesamt-IQ 109.1 16.1 -1.28 .86 Anmerkungen: siehe Tabelle 8.21.

Die GL-IV weist deutlich höhere Korrelationen auf als die GL-III. So liegen alle Untertestverglei-

che über r = .50. Innerhalb der Indizes und Gesamtwerte offenbaren nur die Vergleiche zwi-

schen Handlungsteil und WLD sowie zwischen UA und AGD Korrelationen unter r = .70. Die

Gesamt-IQ korrelieren mit r = .86 ebenfalls deutlich höher als in der GL-III.

Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95). HAWIK-IV N M SD HAWIK-III N M SD St.-diff. r rcorr

1 rcorr2 p aα

MT 95 10.8 3.1 MT 95 10.9 3.3 -.04 .70 .71 .72 .306 .008 GF 95 11.2 2.5 GF 95 12.0 3.2 -.29 .68 .75 .81 .133 .007 ZN 95 10.2 2.3 ZN 95 9.6 2.4 .24 .47 .57 .73 .457 .013 ZST 95 10.7 2.8 ZST 95 11.2 2.8 -.18 .75 .77 .78 .976 .050 WT 95 11.4 2.8 WT 95 11.6 3.2 -.04 .69 .76 .81 .567 .017 AV 95 11.3 2.5 AV 95 11.2 2.2 .01 .55 .63 .73 .005** .005 SYS 93 11.0 2.6 SS 93 11.3 2.9 -.13 .62 .67 .72 .065 .006 BE 95 11.2 2.9 BE 95 11.0 2.9 .09 .52 .53 .57 .332 .010 AW 94 10.9 2.6 AW 94 10.9 3.0 -.01 .77 .82 .84 .709 .025 RD 94 10.6 2.3 RD 94 10.9 2.7 -.12 .57 .68 .79 .017* .006 SV 95 107.2 13.0 V-IQ 95 109.0 14.3 -.13 .82 .88 .89 .074 .050 WLD 95 105.2 12.7 H-IQ 95 105.3 14.3 -.01 .66 .73 .79 .023** .025 SV 95 107.2 13.0 SV 95 110.5 15.7 -.23 .83 .89 .90 .066 .017 WLD 95 105.2 12.7 WO 95 104.2 14.7 .07 .64 .72 .78 .040* .013 AGD 95 101.7 11.3 UA 95 102.2 12.4 -.05 .53 .66 .79 .497 .050 VG 93 104.8 13.8 AG 93 107.3 14.5 -.17 .82 .84 .85 .303 .025 Gesamt-IQ 95 106.2 11.5 Gesamt-IQ 95 108.0 14.2 -.14 .79 .88 .90 .031 Anmerkungen: siehe Tabelle 8.23.

Da sich in der GL-IV deutlich höhere Zusammenhänge zeigen als in der GL-III, erweisen sich

einige Korrelationen in ihrer Höhe als voneinander signifikant verschieden. Innerhalb der Un-

tertests ist dies für AV und RD zu vermerken, allerdings zeigt sich nach einer α-Adjustierung

lediglich AV als weiterhin signifikant. Auf Indexebene stellt sich einzig der Vergleich WLD und


WO ohne α-Adjustierung je nach Testvorgabe als signifikant voneinander abweichend dar. Die

Korrelationen des Vergleichs Handlungsteil und WLD sowie der Gesamt-IQ erweisen sich eben-

so als voneinander signifikant divergent. Verglichen mit der Stichprobe, die nach einem kurzen

Intervall erneut getestet wurde (GK, siehe Tabelle 8.26), ergeben sich insgesamt in der GL ähn-

lich hohe Korrelationen. Der Gesamt-IQ-Vergleich erweist sich mit .88 nach Korrektur als etwas

höher als in der GK. Innerhalb der Indizes und der Gesamtwerte unterscheiden sich die Korre-

lationen unter Berücksichtigung der Testreihenfolge im langen Intervall maximal um r = .09

(der Vergleich zwischen WO und WLD weist in der GL, der Vergleich zwischen AGD und UA in

der GK etwas höhere Korrelationen auf). Die Korrelationen der Untertests unterscheiden sich

um maximal r = .20. Die mit Abstand größte Differenz zwischen den Werten der Kinder mit

kurzem und denen mit langem Intervall hinsichtlich der Höhe der Korrelationen weisen ZN

(.20) und BE (.18) auf. Die Korrelationen dieser beiden Untertests liegen sowohl deutlich un-

terhalb derer der GK als auch (wenn auch weniger deutlich) derer der Gesamtstichprobe.

8.7.2 Korrelationen der Teilstichprobe

Mit Hilfe der gematchten Teilstichprobe soll die Fragestellung 10: „Unterscheidet sich die

Höhe der Korrelationen, getrennt nach der Länge des Intervalls zwischen beiden Testungen,

signifikant voneinander?“ untersucht werden.

Tabelle 8.30 stellt die Korrelationen zwischen beiden Testversionen für die gematchte Stich-

probe mit einem kurzen Re-Testintervall (GemSK) und Tabelle 8.31 für die gematchte Stich-

probe mit einem langen Re-Testintervall (GemSL) dar.

Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 11.8 3.0 MT 11.6 3.0 .10 .62 GF 10.9 2.5 GF 11.7 2.4 -.48 .60 ZN 10.5 2.5 ZN 10.0 2.7 .28 .73 ZST 11.0 3.0 ZST 12.1 3.3 -.62 .72 WT 10.7 2.7 WT 11.5 2.5 -.50 .65 AV 11.2 2.1 AV 11.3 1.7 -.09 .54 SYS 11.2 2.6 SS 11.9 2.4 -.47 .38 BE 10.9 2.7 BE 11.3 3.0 -.22 .53 AW 10.8 2.4 AW 11.5 2.7 -.46 .72 RD 11.1 2.4 RD 10.9 2.7 .10 .59 SV 104.7 11.9 Verbal-IQ 109.1 11.4 -1.27 .76 WLD 106.3 12.1 Handlungs-IQ 109.7 14.4 -.94 .53 SV 104.7 11.9 SV 110.6 11.8 -1.70 .80 WLD 106.3 12.1 WO 107.8 14.5 -.41 .50 AGD 103.2 13.2 UA 103.4 13.6 -.06 .72 VG 106.1 14.0 AG 111.7 13.2 -1.52 .69 Gesamt-IQ 106.4 12.2 Gesamt-IQ 110.5 12.6 -1.18 .73 Anmerkungen: siehe Tabelle 8.21.


Ebenso wie in der GK (siehe Tabelle 8.26) zeigen sich auch in der gematchten Stichprobe mit

kurzem Intervall (GemSK) die niedrigsten Index-Korrelationen zwischen WLD und Handlungs-

teil sowie WLD und WO. Auch die niedrigsten Zusammenhänge in den Untertests SYS und SS

sind in beiden Stichproben zu finden, in der gematchten Stichprobe kommen sie sogar noch

deutlicher zum Vorschein (r = .38 in der GemSK gegenüber .52 in der GK vor Korrektur).

Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72). HAWIK-IV M SD HAWIK-III M SD Std.-diff. r MT 10.4 3.2 MT 10.8 3.6 -.22 .67 GF 10.9 2.7 GF 11.8 3.1 -.52 .64 ZN 10.1 2.4 ZN 9.7 2.4 .28 .48 ZST 10.8 2.9 ZST 11.5 3.1 -.44 .68 WT 11.1 2.7 WT 11.3 3.4 -.13 .69 AV 11.3 2.7 AV 11.2 2.0 .06 .62 SYS 10.9 2.6 SS 11.6 3.0 -.46 .62 BE 10.7 2.7 BE 10.9 3.0 -.12 .47 AW 10.5 2.6 AW 10.6 3.0 -.05 .72 RD 10.5 2.3 RD 10.7 2.7 -.17 .65 SV 105.8 13.6 Verbal-IQ 107.6 14.2 -.48 .83 WLD 103.2 13.0 Handlungs-IQ 105.2 15.3 -.54 .67 SV 105.8 13.6 SV 109.2 15.8 -.86 .83 WLD 103.2 13.0 WO 103.5 15.4 -.09 .66 AGD 101.4 11.7 UA 102.2 12.3 -.22 .53 VG 104.8 13.9 AG 109.2 15.9 -1.14 .75 Gesamt-IQ 104.8 12.2 Gesamt-IQ 107.1 14.8 -.62 .78 Anmerkungen: siehe Tabelle 8.21.

Die GemSL und die GL (siehe Tabelle 8.29) offenbaren ähnliche Korrelationen. Auch in der ge-

matchten Stichprobe mit langem Intervall (GemSL) weisen die Vergleiche zwischen den Ver-

sionen des ZN und BE einen niedrigen Zusammenhang auf. Auch die niedrigen Korrelationen

im Vergleich zwischen AGD und UA ebenso wie die hohen Korrelationen im Vergleich der SV-

Indizes sowie des Verbalteils mit dem SV des HAWIK-IV decken sich mit den Ergebnissen aus

der GL. Die beiden Gesamt-IQ korrelieren mit r = .78 nahezu identisch zu den beiden Gesamt-

IQ in der GL vor Korrektur.

Mit derselben Rechenprozedur wie in der Gesamtstichprobe ergaben sich für die gesamte ge-

matchte Stichprobe (GemS) folgende zusammengefasste Korrelationen, Standarddifferenzen

und deren Signifikanzen (siehe Tabelle 8.32).


Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144). HAWIK-IV M SD HAWIK-III M SD St.-diff. r rcorr

1 rcorr2 p aα

MT 11.1 3.1 MT 11.2 3.3 -.04 .65 .67 .69 .585 .007 GF 10.9 2.6 GF 11.7 2.8 -.30 .62 .69 .76 .681 .017 ZN 10.3 2.4 ZN 9.9 2.6 .18 .62 .70 .77 .014* .005 ZST 10.9 3.0 ZST 11.8 3.2 -.30 .70 .71 .71 .649 .010 WT 10.9 2.7 WT 11.4 3.0 -.18 .67 .75 .80 .683 .025 AV 11.2 2.4 AV 11.2 1.9 -.01 .58 .67 .77 .497 .006 SYS 11.0 2.6 SS 11.8 2.7 -.28 .51 .56 .66 .066 .006 BE 10.8 2.7 BE 11.1 3.0 -.10 .50 .54 .62 .655 .013 AW 10.6 2.5 AW 11.0 2.8 -.15 .72 .78 .81 .954 .050 RD 10.8 2.3 RD 10.8 2.7 -.02 .62 .72 .80 .591 .008 SV 105.3 12.8 V-IQ 108.4 12.9 -.24 .80 .86 .89 .294 .050 WLD 104.8 12.6 H-IQ 107.5 14.9 -.20 .60 .69 .77 .174 .025 SV 105.3 12.8 SV 109.9 13.9 -.34 .82 .88 .90 .603 .050 WLD 104.8 12.6 WO 105.7 15.0 -.07 .59 .67 .76 .171 .017 AGD 102.3 12.5 UA 102.8 13.0 -.04 .63 .72 .79 .077 .013 VG 105.4 13.9 AG 110.4 14.6 -.35 .72 .75 .77 .472 .025 Gesamt-IQ 105.6 12.2 Gesamt-IQ 108.8 13.7 -.25 .76 .84 .87 .526 Anmerkungen: siehe Tabelle 8.23.

Die Korrelationen der Gesamt-IQ erweisen sich auch in der gematchten Stichprobe mit r = .84

nach Korrektur (rcorr1) als hoch. Ebenso ergeben sich hohe Zusammenhänge zwischen dem SV

des HAWIK-IV und dem Verbalteil sowie beiden SV-Indizes.

Mit dem ZN erweist es sich die Differenz der Korrelationen nur bei einem Test als signifikant

voneinander unterschiedlich, je nach dem Abstand zwischen beiden Testungen, allerdings le-

diglich vor einer α-Adjustierung. Nach einem kurzen Re-Testintervall korrelieren die Untertests

ZN des HAWIK-III und -IV deutlich niedriger miteinander als nach langem Intervall.

Da sich innerhalb der Indizes und der Gesamtwerte keine signifikanten Differenzen hinsichtlich

der Korrelationen feststellen lassen, können die Fragestellung 10 verneinend beantwortet und

die Hypothesen 6.3.15 bis 6.3.21 somit angenommen werden.

8.7.3 Zusammenfassung Korrelationsanalysen

Insgesamt lässt sich festhalten, dass die beiden Testversionen durchweg hoch miteinander

korrelieren. Es zeigen sich dabei höhere Zusammenhänge auf Ebene der Indizes und Gesamt-

werte als auf Untertestebene. In der Gesamtstichprobe weisen die Indexpaare WLD und WO,

AGD und UA sowie der Vergleich zwischen dem Handlungsteil und dem WLD deutlich geringe-

re Korrelationen auf als die Indexpaare SV und SV, VG und AG sowie der Vergleich zwischen

Verbalteil und SV des HAWIK-IV. Dieses Ergebnis zeigt sich sowohl unter Berücksichtigung der

Gesamtstichprobe als auch in den Berechnungen, die in ein kurzes und ein langes Re-

Testintervall unterteilt wurden. Außerdem erwies es sich in der Gesamtstichprobe einzig im

Untertest AV als bedeutsam, welcher Test zuerst vorgegeben wurde. Somit kann für die Ge-

samtstichprobe die Frage verneint werden, ob innerhalb der Indizes und Gesamtwerte die


Reihenfolge der Testvorgabe einen signifikanten Einfluss auf die Höhe der Korrelationen hat.

Während sich jedoch in der Stichprobe, die ein kurzes Intervall zwischen beiden Testungen

aufweist, keinerlei signifikante Differenzen je nach Testvorgabe zeigten, stellt es sich bei den

Kindern und Jugendlichen mit langem Re-Testintervall sowohl im AV als auch im Gesamt-IQ

und im Vergleich zwischen Handlungsteil und WLD (auch nach Alpha-Korrektur) als signifikant

unterschiedlich dar, welcher Test zuerst vorgegeben wurde.

Verglichen mit den Werten der Gesamtstichprobe weisen die Kinder und Jugendlichen der

gematchten Stichprobe in den meisten Untertests gleichhohe oder etwas geringere Korrelatio-

nen auf. Die Höhe der Korrelation beider Gesamt-IQ-Vergleiche ist mit r = .87 gegenüber .84

nahezu identisch. Die Korrelationen der Indexvergleiche erweisen sich in beiden Stichproben -

außer im Vergleich AG versus VG - ebenfalls als identisch (dort weist die gematchte Stichprobe

mit r = .75 eine geringere Korrelation auf als die Gesamtstichprobe mit r = .84).

Es ergeben sich aus den Korrelationsberechnungen demnach insgesamt höhere Zusammen-

hänge zwischen den sprachlichen Index- und Gesamtwerten und den Geschwindigkeitsindizes

als zwischen den handlungsbezogenen Index-und Gesamtwerten und denen, die Gedächtnis-

leistungen beinhalten. Die Untersuchung des Einflusses des Testintervalls auf die Korrelationen

zeigte in der gematchten Stichprobe keine signifikanten Differenzen innerhalb der Indizes und

der Gesamtwerte des HAWIK-III und -IV. Die entsprechende Fragestellung kann somit verneint

werden.

8.8 Regressionsanalysen Die lineare Regression gibt Aufschluss über die Höhe der Varianzaufklärung der Untertests in

Bezug auf die Indizes sowie der Indizes auf den Gesamt-IQ. Zusätzlich soll mit Hilfe der Regres-

sionsanalyse berechnet werden, welche Index- und Gesamtwerte vor der Durchführung des

HAWIK-IV zu erwarten sind, je nachdem, welche Werte bei der Testung mit dem HAWIK-III

erzielt wurden.

8.8.1 Untersuchung der Varianzaufklärung der HAWIK-III-Untertests

Zunächst soll versucht werden, die Fragestellung 11: „Haben die entfernten oder nur noch

optionalen Untertests weniger zur Varianzaufklärung des Index beigetragen als die Unter-

tests, die zur Berechnung des Gesamt-IQ des HAWIK-IV vorgegeben sind?“ zu beantworten.

Dafür wird untersucht, wie viel Varianz des jeweiligen Index die Untertests aufklären, wie gut

sie also als Prädiktoren für den Index dienen. Damit können möglicherweise Rückschlüsse dar-

auf gezogen werden, aus welchen Gründen einige Untertests nicht in den HAWIK-IV über-

nommen wurden oder nur noch optionale Untertests darstellen. Es wird davon ausgegangen,


dass die Untertests, die weiterhin oder im HAWIK-IV erstmals zum Kernteil der Testbatterie

gehören, mehr zur Varianzaufklärung des Index beitragen als die Untertests, die im HAWIK-IV

nicht mehr enthalten oder nur noch optional durchzuführen sind.

Für den SV-Index des HAWIK-III wurde die Hypothese 6.4.1 formuliert. Die Ergebnisse der Hy-

pothesenprüfung sind Tabelle 8.33 zu entnehmen.

Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p

GF 1.668 .035 .338 48.209 .000 AW 1.649 .034 .335 48.693 .000 WT 1.554 .034 .322 45.146 .000 AV 1.656 .044 .244 37.418 .000

Anmerkungen: Abhängige Variable: SV des HAWIK-III, b = unstandardisierter Regressions-koeffizient, Std.-Fehler = Standardfehler von b, Beta = standardisierter Regressionskoeffizient, entspricht dem β-Gewicht, T = Wert zur Signifikanzprüfung, p = zweiseitiger Signifikanzwert (5 %-Niveau). Sortiert nach Höhe von Beta. Weitere Abkürzungen siehe Anhang A5 und A6.

In der linearen Regression erweist sich GF als der Untertest, der die meiste Varianz des SV-

Index des HAWIK-III aufklärt, gefolgt vom AW und WT. Am wenigsten trägt AV zur Varianzauf-

klärung bei. Da die Untertests GF, WT und AV des HAWIK-IV jedoch in den SV des HAWIK-IV

einfließen und der AW nur als optionaler Untertest dient, muss die H1 der Hypothese 6.4.1

abgelehnt und die Alternativhypothese (H0) angenommen werden.

In Tabelle 8.34 werden die Ergebnisse der linearen Regression mit dem Index WO als abhängi-

ge Variable und den Untertests des WO als Prädiktoren angegeben. Dies dient der Überprü-

fung der Hypothesen 6.4.2 und 6.4.3.

Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p

BO 1.597 .026 .369 62.227 .000 MT 1.560 .028 .363 56.553 .000 FL 1.611 .030 .338 53.252 .000 BE 1.659 .029 .321 54.898 .000

Anmerkungen: Abhängige Variable: WO des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.

Insgesamt weisen alle Untertests ein ähnlich hohes β-Gewicht auf. Sie sind demnach alle unge-

fähr gleich hoch an der Varianzaufklärung des WO beteiligt. Dennoch zeigen nicht die ebenfalls

im HAWIK-IV vorhandenen Untertests MT und BE, sondern der im HAWIK-IV nicht berücksich-

tigte Untertest BO den höchsten Varianzaufklärungsanteil. Am wenigsten trägt BE zur Varianz-

aufklärung des Index bei. Folglich müssen die H1 der Hypothesen 6.4.2 und 6.4.3 abgelehnt

werden.

Weiterhin wird die UA hinsichtlich der Vorhersagekraft der Prädiktoren, also der Untertests

des Index, untersucht. Damit soll die Hypothese 6.4.4 überprüft werden.


Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III. Untertests b Std.-Fehler Beta T p

RD 2.964 .024 .621 122.057 .000 ZN 2.940 .026 .581 114.108 .000

Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.

Anders als sich durch die Verlegung des RD in den optionalen und des ZN in den obligatori-

schen Teil des HAWIK-IV vermuten lässt, trägt RD mehr zur Varianzaufklärung des Index UA bei

als ZN. Folglich muss auch die H1 der Hypothese 6.4.4 abgelehnt werden.

8.8.2 Untersuchung der Varianzaufklärung der HAWIK-IV-Untertests

Zur Beantwortung der Frage 12: „Tragen die Untertests des HAWIK-IV eines Index signifikant

zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei?“ werden zusätzliche

Regressionsanalysen durchgeführt. Hiermit soll untersucht werden, inwieweit die Untertests

des HAWIK-IV signifikant zur Varianzaufklärung des entsprechenden Index des HAWIK-III bei-

tragen. Erweist sich die Varianzaufklärung sämtlicher Kernuntertests des HAWIK-IV als signifi-

kant für die dazugehörigen Indizes des HAWIK-III, kann davon ausgegangen werden, dass die

Indizes beider Testversionen dieselben Konstrukte bzw. kognitiven Fähigkeiten erfassen und

somit bedenkenlos miteinander verglichen werden können. Mit der H1 der Hypothesen 6.4.5

bis 6.4.14 wird demnach die Vermutung aufgestellt, dass die Kernuntertests des HAWIK-IV

signifikant zur Varianzaufklärung des Index des HAWIK-III beitragen.

Dabei werden zunächst die Hypothesen 6.4.5 bis 6.4.7 untersucht, indem der Index SV des

HAWIK-III als abhängige Variable dient und die SV-Untertests des HAWIK-IV die unabhängigen

Variablen bilden. Es soll demnach die Höhe ihrer Varianzaufklärung auf die abhängige Variable

geprüft werden. Die Ergebnisse dieser linearen Regression sind Tabelle 8.36 zu entnehmen.

Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III. Untertests des

HAWIK-IV b Std.-Fehler Beta T p

AW 1.555 .278 .279 5.582 .000 WT 1.383 .300 .267 4.616 .000 GF 1.254 .313 .219 4.002 .000 AV 0.921 .283 .155 3.248 .001

BEN 0.566 .273 .109 2.071 .040 Anmerkungen: Abhängige Variable: SV des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.

Da die drei SV-Kernuntertests des HAWIK-IV, namentlich GF, WT und AV, signifikant zur Va-

rianzaufklärung des entsprechenden Index des HAWIK-IV beitragen, kann die H1 der Hypothe-

sen 6.4.5, 6.4.6 und 6.4.7 angenommen werden. Insgesamt werden mit den fünf Untertests

des Index SV des HAWIK-IV fast 70 % der Varianz des Index SV des HAWIK-III aufgeklärt

(r2 = .695).


Zur Entscheidung, ob für die Hypothesen 6.4.8 bis 6.4.10 die H1 oder die H0 angenommen

werden muss, dienen die Ergebnisse, die Tabelle 8.37 zu entnehmen sind. Sie zeigt die lineare

Regression mit dem Index WO als abhängiger und den Untertests des WLD als unabhängige

Variablen.

Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIK-III.

Untertests des HAWIK-IV

b Std.-Fehler Beta T p

MT 1.970 .304 .407 6.486 .000 BE 1.403 .328 .268 4.274 .000 MZ 0.640 .353 .106 1.811 .072 BK -0.021 .346 -.004 -0.061 .952

Anmerkungen: Abhängige Variable: WO des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.

Lediglich MT und BE zeigen signifikante Beiträge zur Varianzaufklärung des WO. Folglich kann

mit dem MT nur einer der drei Kerntests des WLD signifikant zur Varianzaufklärung des WO

beitragen. Somit kann nur für die Hypothese 6.4.8 die H1 angenommen werden, während sie

bezogen auf die Hypothesen 6.4.9 und 6.4.10 abgelehnt werden muss. Die vier Untertests des

WLD klären zusammen nicht einmal die Hälfte der Varianz des WO auf (r2 = .404).

Die Ergebnisse der Analyse der gemeinsamen Varianz der Untertests des Index AGD des HA-

WIK-IV und des Index UA des HAWIK-III werden in Tabelle 8.38 dargestellt. Die Hypothesen

6.4.11 und 6.4.12 beziehen sich auf die Frage, inwieweit die Untertests des AGD signifikant zur

Varianzaufklärung des Index UA beitragen können.

Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III. Untertests des


RD 2.024 .302 .363 6.713 .000 ZN 1.812 .311 .340 5.819 .000 BZF 1.089 .331 .186 3.293 .001

Anmerkungen: Abhängige Variable: UA des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.

Alle drei Untertests des AGD leisten einen signifikanten Beitrag zur Varianzaufklärung des UA.

Insgesamt klären sie über 50 % der Varianz des Index auf (r2 = .507). Die H1 der entsprechen-

den Hypothesen 6.4.11 und 6.4.12 kann somit angenommen werden. Es zeigt sich jedoch für

den optionalen Untertest RD ein deutlich höheres ß-Gewicht als für den Kerntest BZF.

Schließlich wird der HAWIK-III Index AG untersucht. Die dazugehörigen Hypothesen 6.4.13 und

6.4.14 können überprüft werden, indem die Höhe der Varianzaufklärung der Untertests des

entsprechenden HAWIK-IV-Index VG auf die AG berechnet wird.


Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III. Untertests des


ZST 1.912 .321 .371 5.952 .000 SYS 2.063 .354 .370 5.834 .000 DT .294 .270 .059 1.090 .277

Anmerkungen: Abhängige Variable: AG des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.

Tabelle 8.39 stellt die Ergebnisse der linearen Regression dar. Die beiden schon im AG vorhan-

denen Untertests ZST und SYS des HAWIK-IV tragen signifikant zur Varianzaufklärung des HA-

WIK-III-Index bei. Damit kann die H1 der Hypothesen 6.4.13 und 6.4.14 angenommen werden.

Die zusätzliche Aufklärung durch den optionalen Untertest DT ist dagegen minimal. Alle drei

Untertests zusammen klären etwas weniger als die Hälfte der Varianz des Index AG auf

(r2 = .473).

8.8.3 Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ

Nachdem in den bisherigen Regressionsrechnungen die Untertests als Prädiktoren eingesetzt

wurden, soll im Folgenden die Vorhersagekraft der Indizes auf die Gesamt-IQ betrachtet wer-

den. Damit soll folgende Fragestellung 13 beantwortet werden: „Wie viel Varianz des Gesamt-

IQ der einen Testversion klären die Indizes der anderen Testversion auf?“ Dies soll Rück-

schlüsse darüber zulassen, inwiefern die Indizes beider Testversionen die gleichen kognitiven

Fähigkeiten erfassen.

Daraus resultieren zwei Hypothesen, die mit Hilfe der linearen Regression untersucht werden.

Hypothese 6.4.15 bezieht sich auf die Höhe der Varianzaufklärung der Indizes des HAWIK-IV

auf den Gesamt-IQ des HAWIK-III. Das Ergebnis wird in Tabelle 8.40 dargestellt.

Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III. Indizes des HAWIK-IV


SV .570 .054 .525 10.560 .000 WLD .306 .056 .278 5.439 .000 VG .136 .045 .139 3.029 .003

AGD .070 .050 .065 1.398 .164 Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-III. Weitere Erklärungen siehe Tabelle 8.33.

Es wird ersichtlich, dass der Index SV des HAWIK-IV mit mehr als der Hälfte den höchsten Teil

der Varianz des Gesamt-IQ des HAWIK-III aufklärt, gefolgt vom WLD und VG. Der Index AGD

leistet keinen signifikanten Beitrag zur Varianzaufklärung des Gesamt-IQ des HAWIK-III. Damit

muss Hypothese 6.4.15 abgelehnt werden. Alle Indizes gemeinsam klären etwa 60 % der Va-

rianz des HAWIK-III-Gesamt-IQ auf (r2 = .602).


Hypothese 6.4.16, die aus der Fragestellung 13 resultiert, bezieht sich auf die Indizes des HA-

WIK-III und deren Anteil an der Varianzaufklärung des Gesamt-IQ des HAWIK-IV. Die Werte der

vier Indizes lassen sich der Tabelle 8.41 entnehmen.

Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV. Indizes des HAWIK-III


SV .343 .045 .414 7.679 .000 UA .198 .044 .230 4.545 .000 AG .177 .036 .227 4.871 .000 WO .148 .042 .188 3.518 .001

Anmerkungen: Abhängige Variable: Gesamt-IQ des HAWIK-IV. Weitere Erklärungen siehe Tabelle 8.33.

Die vier Indizes des HAWIK-III tragen durchweg signifikant zur Varianzaufklärung des Gesamt-

IQ des HAWIK-IV bei. Hypothese 6.4.16 kann demzufolge angenommen werden. Auch in dieser

Regression stellt sich das SV als wichtigster Index zur Varianzaufklärung des Gesamt-IQ dar.

Allerdings klären die vier Indizes gemeinsam etwas weniger Varianz des HAWIK-IV auf als die

vier Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III (r2 = .581). Der Index WO trägt am

wenigsten zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV bei.

8.8.4 Erwartete Werte und Konfidenzintervalle

Für den Praktiker ist es wichtig zu wissen, welcher HAWIK-IV-Wert zu erwarten ist, wenn ein

bestimmter Wert im HAWIK-III erreicht wurde. Dabei kann auf Grund veralteter Normen im

HAWIK-III und dem damit einhergehenden Flynn-Effekt (siehe Kapitel 5.2.2) vermutet werden,

dass die zu erwartenden Werte des HAWIK-IV etwas unterhalb der Werte des HAWIK-III liegen.

Ein Kind, mit dem beide Verfahren durchgeführt werden, dürfte demnach im HAWIK-III etwas

höhere Werte erzielen als im HAWIK-IV.

Zur Bestimmung der zu erwartenden Werte und deren Konfidenzintervalle wurde eine Regres-

sionsanalyse durchgeführt (Näheres dazu siehe Kapitel 7.5.4.2). Aufgrund der eingeschränkten

Streuung in der vorliegenden Stichprobe wurden die Werte nur für den Bereich zwischen 85 (d.

h. eine Standardabweichung unterhalb des Mittelwertes) und 130 (d. h. zwei Standardabwei-

chungen oberhalb des Mittelwertes) berechnet.

Die folgenden Tabellen bieten für ausgewählte Werte des HAWIK-III die zu erwartenden Werte

der entsprechenden Indizes des HAWIK-IV und dem dazugehörigen Konfidenzintervall. Zu-

nächst erfolgt dies, wie in Tabelle 8.42 dargestellt, auf Ebene des Gesamt-IQ. Bei einem Beta-

Gewicht von .971 ergibt sich für die Berechnung der zu erwartenden Werte folgende Glei-

chung: Gesamt-IQ des HAWIK-IV = 0 + .971 Gesamt-IQ des HAWIK-III.


Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausge-wählte Gesamt-IQ des HAWIK-III.

Gesamt-IQ des HAWIK-III

Gesamt-IQ des HAWIK-IV

95 %- Konfidenzintervall

85 83 80-85 90 87 85-90 95 92 90-94

100 97 96-99 105 102 101-103 110 107 106-108 115 112 110-113 120 117 115-118 125 121 119-123 130 126 124-129

Die im HAWIK-IV zu erwartenden Gesamtwerte liegen zwei bis vier IQ-Punkte unter denen des

HAWIK-III-Gesamt-IQ. Der Wertebereich des Konfidenzintervalls unterscheidet sich in Abhän-

gigkeit zur Nähe zum empirischen Mittelwert (108.9, siehe Tabelle 8.1). Während sich also für

die HAWIK-III-Gesamt-IQ 105 und 110 ein Konfidenzintervall von zwei IQ-Punkten berechnen

lässt, vergrößert sich das Intervall, je mehr sich der Ausgangswert vom empirischen Mittelwert

der Stichprobe entfernt. An den Randbereichen des IQ umfassen die Intervalle für den erwar-

teten Gesamt-IQ des HAWIK-IV fünf IQ-Punkte. Dies hängt damit zusammen, dass der Stan-

dardfehler (Messfehler) größer wird, je niedriger die Reliabilitäten sind. Da die Kinder und Ju-

gendlichen in den Randbereichen in der Regel weniger Ergebnisvarianz aufweisen (die leis-

tungsstarken Kinder beantworten alles richtig, die leistungsschwachen Kinder alles falsch),

zeigen sich dort niedrigere Reliabilitäten.

Dasselbe zeigt sich in den Tabellen 9.43 bis 9.48, die die erwarteten Werte für die Indexwerte

des HAWIK-IV darstellen, basierend auf den Gesamt- und Indexwerten des HAWIK-III.

Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Ver-bal-IQ des HAWIK-III.

Verbal-IQ SV des

HAWIK-IV 95 %-

Konfidenzintervall 85 82 80-85 90 87 85-89 95 92 90-94

100 97 95-98 105 102 101-103 110 106 105-107 115 111 110-112 120 116 115-118 125 121 119-123 130 126 123-128

Auch der Vergleich zwischen dem Verbal-IQ des HAWIK-III und dem SV-IQ des HAWIK-IV

(Tabelle 8.43) weist unterschiedlich breite Konfidenzintervalle auf. Es ergibt sich ein ß-Gewicht


von .968. Somit wurden die erwarteten Werte auf Grundlage der Gleichung SV-IQ des HAWIK-

IV = 0 + .968 Verbal-IQ des HAWIK-III berechnet. Mit zwei IQ-Punkten liegen die kleinsten

Intervalle im Verbal-IQ zwischen 105 und 115 und in den dazugehörigen erwarteten SV-IQ-

Werten zwischen 102 und 111. Insgesamt liegen die zu erwartenden SV-Werte drei bis vier

Punkte unterhalb der im Verbalteil erzielten Werte.

Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte Handlungs-IQ des HAWIK-III.

Handlungs-IQ WLD 95 %-


100 98 96-100 105 103 101-104 110 107 106-109 115 112 110-114 120 117 115-120 125 122 119-126 130 127 122-132

Die Konfidenzintervalle des vorhergesagten WLD bei Kenntnis des Handlungs-IQ-Wertes

(Tabelle 8.44) sind insgesamt breiter als im Gesamt- und SV-IQ. Das kleinste Intervall umfasst

drei IQ-Punkte (Handlungs-IQ von 105 und 110). Die vorhergesagten Werte des WLD sind zwei

bis drei IQ-Punkte unterhalb des im Handlungsteil erzielten Ergebnisses anzusiedeln. Aus ei-

nem ß-Gewicht von .977 resultiert folgende Gleichung: WLD des HAWIK-IV = 0 + .977 Hand-

lungs-IQ des HAWIK-III.

Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SV-Werte des HAWIK-III.

SV des HAWIK-III

SV des HAWIK-IV

95 %- Konfidenzintervall

85 81 79-84 90 86 84-88 95 91 89-93

100 96 94-97 105 100 99-101 110 105 104-106 115 110 109-111 120 115 113-116 125 120 118-121 130 124 122-126

Wie Tabelle 8.45 zeigt, liegen die zu erwartenden SV-Werte des HAWIK-IV vier bis fünf IQ-

Punkte unterhalb der Werte des SV des HAWIK-III. Auf Grundlage eines ß-Gewichts von .956

ergibt sich zur Berechnung der erwarteten Werte die Gleichung SV-IQ des HAWIK-IV = 0 + .956

SV-IQ des HAWIK-III. Das mit zwei IQ-Punkten kleinste Intervall zeigt sich bei einem SV im

HAWIK-IV von 100.


Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte WO-IQ-Werte des HAWIK-III

WO WLD 95 %-


100 99 97-101 105 104 103-105 110 109 107-110 115 114 112-116 120 119 116-122 125 124 120-128 130 129 124-134

Die vorhergesagten Werte des WLD liegen durchweg einen IQ-Punkt unterhalb der Werte des

WO. Die geringe Abweichung hängt mit dem hohen ß-Gewicht von .99 zusammen. Somit wur-

den die erwarteten Werte auf Grundlage der Gleichung WLD-IQ des HAWIK-IV = 0 + .99 WO-

IQ des HAWIK-III berechnet. Wie in Tabelle 8.46 ersichtlich, zeigen sich außerdem in den Rand-

bereichen mit zehn IQ-Punkten sehr breite Konfidenzintervalle. Dies deckt sich mit den Ergeb-

nissen der erwarteten WLD-Werte bei Kenntnis des Handlungs-IQ-Wertes (siehe Tabelle 8.44).

Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte UA-IQ-Werte des HAWIK-III

UA AGD 95 %-


100 99 97-100 105 104 102-105 110 108 107-110 115 113 111-115 120 118 116-121 125 123 120-127 130 128 124-132

Gilt der Index UA als Prädiktor für den Index AGD, können ein bis zwei IQ-Punkte weniger er-

wartet werden (siehe Tabelle 8.47). Die Vertrauensbereiche umfassen im mittleren IQ-Bereich

drei und in den Randbereichen sechs bis acht IQ-Punkte. Bei einem ß-Gewicht von .986 wur-

den die erwarteten Werte auf Grundlage der Gleichung AGD-IQ des HAWIK-IV = 0 + .986 UA-

IQ des HAWIK-III berechnet.

Abschließend werden in Tabelle 8.48 die zu erwartenden Werte für die VG des HAWIK-IV dar-

gestellt, sofern der AG-Wert des HAWIK-III bekannt ist.


Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte AG-IQ-Werte des HAWIK-III

AG VG 95 %-


100 96 94-98 105 101 100-103 110 106 105-107 115 111 109-112 120 116 114-118 125 120 118-123 130 125 122-128

Soll die Leistung eines Kindes in der Arbeitsgeschwindigkeit erneut erfasst werden, kann mit

einem Wert gerechnet werden, das im Durchschnitt drei bis fünf IQ-Punkte unter dem der

ersten Testung liegt. Wie aus der Tabelle 8.48 ersichtlich wird, umfasst das Konfidenzintervall

des VG-Index zwischen zwei und sieben IQ-Punkte. Durch ein ß-Gewicht von .963 stellt sich die

Gleichung wie folgt dar: VG-IQ des HAWIK-IV = 0 + .963 AG-IQ des HAWIK-III.

Insgesamt kann somit die Hypothese bestätigt werden, dass die zu erwartenden Werte im

HAWIK-IV durchweg leicht unterhalb der Werte des HAWIK-III liegen.

8.8.5 Zusammenfassung der Regressionsanalysen

In der Analyse der Teststruktur des HAWIK-III erweist sich AV in Bezug auf den SV-Index als

wenig zur Varianzaufklärung beitragend. Somit muss in der dazugehörigen Hypothese 6.4.1 die

H1 abgelehnt werden. Auch in den Indizes WO und UA zeigen sich andere Ergebnisse als erwar-

tet. So trägt im Index WO wider Erwarten nicht MT am meisten zur Varianzaufklärung des In-

dex bei und BE weist sogar den geringsten Beitrag zur Varianzaufklärung auf. In der UA lässt RD

ein höheres Beta-Gewicht erkennen als ZN.

Für den SV-Index kann die Frage, ob die Untertests des HAWIK-IV signifikant zur Varianzaufklä-

rung des SV des HAWIK-III beitragen, positiv beantwortet werden. Mit dem MT steuert nur ein

Kerntest des WLD signifikant zur Varianzaufklärung des WO bei. Bezüglich des Index UA kön-

nen die Hypothesen jedoch angenommen werden, da sich alle Kernuntertests des Index AGD

signifikant an der Varianzaufklärung des Index UA beteiligen. Dies gilt auch für den Index AG,

für den die HAWIK-IV-Untertests ZST und SYS signifikante Varianzaufklärung leisten.

Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ offenbarte signifikante

Beiträge zur Varianzaufklärung der HAWIK-III-Indizes auf den HAWIK-IV-Gesamt-IQ. Zum HA-

WIK-III-Gesamt-IQ tragen jedoch nicht alle Indizes des HAWIK-IV signifikant zur Varianzaufklä-

rung bei.


8.9 Zusammenfassung der Ergebnisse Die Ergebnisse der Mittelwertvergleiche erwiesen sich als weitestgehend hypothesenkonform.

Bis auf wenige Ausnahmen erbrachte immer der Test höhere Werte, der als zweiter Test

durchgeführt wurde. Die Untersuchung des Einflusses der Störvariablen ergab einen schwa-

chen Lerneffekt, der sich nach kurzem Intervall etwas deutlicher zeigte als nach langem Inter-

vall. Einzig in den Geschwindigkeitsuntertests und -indizes konnte ein deutlicherer Wertzu-

wachs von der ersten zur zweiten Testung gefunden werden. In gewissem Rahmen kann der

Flynn-Effekt von HAWIK-III zu HAWIK-IV ebenfalls nachgewiesen werden. Die Faktorenanalysen

mit Vorgabe der vier testtheoretischen Faktoren replizieren die Vier-Faktorenstruktur beider

Testversionen. Über sämtliche Korrelationsanalysen hinweg können die Korrelationen in den

zusammengefassten Stichproben mit höheren Korrelationen auf Ebene der Indizes und Ge-

samtwerte als auf Ebene der Untertests durchweg als hoch bezeichnet werden. Außerdem

zeigen sich höhere Zusammenhänge zwischen den sprachlichen Index- und Gesamtwerten

ebenso wie den Geschwindigkeitsindizes als zwischen den handlungsbezogenen Index-und

Gesamtwerten und dem Vergleich UA und AGD. Anhand der Regressionsanalysen können die

hinsichtlich der Untersuchung der HAWIK-III-Teststruktur getroffenen Annahmen nicht bestä-

tigt werden. Mit dem MT steuert nur ein Kerntest des WLD signifikant zur Varianzaufklärung

des WO bei. Die Untersuchung der Vorhersagekraft der Indizes auf den Gesamt-IQ zeigt, dass

sämtliche Indizes des HAWIK-III zur Aufklärung des HAWIK-IV-Gesamt-IQ, jedoch nicht alle

Indizes des HAWIK-IV signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ beitragen.

Wie zu erwarten war, offenbaren sich die erwarteten Werte im HAWIK-IV bei Kenntnis des

HAWIK-III durchweg als etwas niedriger als die entsprechenden IQ-Werte des HAWIK-III.

Kapitel 9 Diskussion der Ergebnisse 170

9 Diskussion der Ergebnisse

Begriffe erkennen, Frage 12: „Es kann den Geschmack von Essen verbessern

und man findet es im Meer. Was ist das?“

Carlotta, 8 Jahre: „Ein Bratfisch.“

Wie in den bisherigen Kapiteln aufgezeigt wurde, stellt der Vergleich zweier Versionen eines

Testverfahrens einen wichtigen Beitrag zum Validitätsnachweis des aktuellen Testverfahrens

dar. Durch die inhaltlichen und strukturellen Unterschiede der hier untersuchten Intelligenz-

tests HAWIK-III und -IV ist es von hoher praktischer Relevanz, inwieweit beide Testversionen

dasselbe erfassen und dementsprechend die Ergebnisse beider Versionen uneingeschränkt

nebeneinandergestellt werden dürfen. Im Folgenden sollen die in Kapitel 8 vorgestellten Er-

gebnisse separat betrachtet werden.

9.1 Ergebnisbetrachtung des Mittelwertvergleichs Die Überprüfung der Mittelwertdifferenzen von HAWIK-III und -IV ergab signifikante Abwei-

chungen im Gesamt-IQ, im Vergleich zwischen Verbalteil des HAWIK-III und dem Sprachver-

ständnis (SV) des HAWIK-IV sowie im Vergleich der SV-Indizes und der beiden Geschwindig-

keitsindizes Arbeitsgeschwindigkeit (AG) und Verarbeitungsgeschwindigkeit (VG). Auch einige

Untertests unterscheiden sich signifikant voneinander. Diverse Phänomene und Einflüsse kön-

nen ursächlich für diese statistisch auffälligen Unterschiede sein. So lässt die signifikante Diffe-

renz zwischen den Indizes AG und VG vermuten, dass sich die Kinder und Jugendlichen in der

zweiten Testung an die Aufgabenstellung erinnerten und aus diesem Grund mehr Aufgaben

bearbeiten konnten. Da sich die Untertests dieser Indizes in beiden Testversionen nicht oder

nur unwesentlich voneinander unterscheiden, können die unterschiedlichen Leistungen ver-

mutlich eher auf veränderte Bedingungen wie Vorerfahrungen aus der ersten Testung oder

unterschiedliche Normen zurückgeführt werden. Aus diesem Grund wurden die Differenzen im

Hinblick auf mögliche Störeinflüsse genauer untersucht.

Da die Tests in ausbalancierter Reihenfolge vorgegeben wurden, wird ein Lerneffekt in beiden

Tests gleichermaßen vermutet und kann somit nicht ursächlich für die signifikanten Mittel-

wertunterschiede sein. Dennoch wurde der Einfluss der Testreihenfolge genauer untersucht,

um sicherzustellen, dass keine Verzerrungen der Ergebnisse durch eine nicht repräsentative

Stichprobe vorliegt, also beispielsweise die Kinder ein deutlich höheres Leistungsniveau auf-

weisen, die den HAWIK-IV zuerst vorgelegt bekamen, als die Kinder, die zuerst den HAWIK-III

durchführten oder umgekehrt.


In diesem Mittelwertevergleich (siehe Kapitel 8.3) weist, bis auf Ausnahmen in wenigen Unter-

tests, immer der Test höhere Werte auf, der als zweites durchgeführt wurde. Somit scheinen

trotz der nicht gänzlich normalverteilten Stichprobe (siehe Kapitel 7.3) keine bedeutsamen

Stichprobenverzerrungen vorzuliegen, die die Interpretierbarkeit der Ergebnisse einschränken.

Sie deuten vielmehr auf einen Lerneffekt hin, der sowohl nach kurzem als auch nach langem

Intervall besteht.

9.2 Ergebnisbetrachtung der Störeinflüsse

9.2.1 Lerneffekt

Dieser Lerneffekt wurde daraufhin genauer untersucht. Dabei wurde von einem deutlicheren

Lerneffekt nach kurzem Intervall als nach langem ausgegangen.

Die in Tabelle 8.7 und Tabelle 8.8 dargestellten Mittelwertvergleiche zwischen HAWIK-III und

-IV bei Erstvorgabe des HAWIK-III weisen im kurzen und langen Intervall hohe Zunahmen in

den Index-Kombinationen Wahrnehmungsorganisation (WO) und Wahrnehmungsgebundenes

Logisches Denken (WLD) sowie AG und VG auf. Dies deckt sich mit den Ergebnissen der Studie

zur WISC-IV (siehe Tabelle 5.3). Während in der amerikanischen Studie jedoch die WISC-IV

zweimal vorgegeben wurde, und es sich somit in beiden Testungen um dieselben Indizes han-

delt (WLD und WLD bzw. VG und VG), wird der Lerneffekt in dieser Studie an unterschiedlichen

Indizes untersucht. Daher müssen die Mittelwertzuwächse in den Indizes WO und WLD in die-

ser Studie nicht zwangsläufig auf einen Lerneffekt hindeuten, sondern lassen vielmehr vermu-

ten, dass sie durch die unterschiedliche Untertestzusammensetzung entstanden sind. Da es

sich bei den Indizes AG und VG jedoch um identische Untertestkombinationen handelt, kann

für diesen Vergleich ein Lerneffekt festgehalten werden. Dies kann eine Erklärung für die signi-

fikanten Mittelwertdifferenzen in den t-Tests (Tabelle 8.3 und Tabelle 8.5) darstellen.

Die Abnahme der erzielten IQ-Punkte im Index SV zwischen erster und zweiter Testung lässt

sich möglicherweise ebenfalls auf die unterschiedliche Untertestzusammensetzung zurückfüh-

ren (Näheres siehe Kapitel 9.7). Außerdem kann die unterschiedliche Normierung beider Test-

versionen zu abweichenden Testergebnissen führen, die nicht auf den Lerneffekt zurückzufüh-

ren sind (siehe auch Kapitel 9.6 und 9.7.3). Auch der ebenfalls untersuchte Flynn-Effekt kann

dabei von Bedeutung sein, der dem Lerneffekt entgegenwirkt.

Schließlich muss berücksichtigt werden, dass es sich durch die Unterteilung in ein kurzes und

ein langes Intervall sowie in eine Stichprobe, die zuerst den HAWIK-III und eine andere, die

zuerst den HAWIK-IV durchführte, um deutlich kleinere Stichproben handelt als bei der Unter-

suchung des Lerneffekts in der WISC-IV (die Teilstichproben dieser Stichprobe liegen zwischen

n = 47 und 127, für die WISC-IV wurde der Lerneffekt an 243 Kindern untersucht).


In Bezug auf die Untertests, die in beiden Versionen enthalten sind, zeigen sich im Bilder er-

gänzen und Mosaik-Test die größten Zuwächse, gefolgt vom Zahlen-Symbol-Test und Zahlen

nachsprechen. Bis auf Zahlen nachsprechen gehören diese Untertests auch in der WISC-IV-

Studie zu den Untertests mit der größten Wertpunktzunahme. Vor allem Bilder ergänzen

scheint einen hohen Wiedererkennungswert zu besitzen, der zu besseren Ergebnissen in der

zweiten Testdurchführung führt. Dem Zahlen nachsprechen kommt eine besondere Position

zu. Für diesen Untertest ergeben sich auch dann höhere Werte im HAWIK-IV, wenn diese Test-

version zuerst durchgeführt wurde. Hier scheint nicht der Lerneffekt für den großen Zuwachs

verantwortlich zu sein. Vielmehr kann dies möglicherweise auf die unterschiedlichen Positio-

nen des Untertests innerhalb der beiden Testbatterien zurückgeführt werden (siehe Kapitel

9.7.5). Die Kinder scheinen von der Verschiebung des Untertests von der elften auf die dritte

Testposition zu profitieren. Kaufman und Lichtenberger (2006) sehen jedoch auch das Zahlen

nachsprechen als stark vom Lerneffekt beeinflusst an, da der Untertest schulunabhängige Leis-

tungen erfordert, die generell einem größeren Lerneffekt unterliegen (siehe Kapitel 5.2.1).

Nach kurzem Intervall zeigen sich bei den meisten Untertests und Indizes etwas höhere Mit-

telwertzunahmen als nach langem Intervall. In einigen Indizes und Untertests lässt sich jedoch

auch nach dem längeren Re-Testintervall ein größerer Anstieg feststellen. Dies deckt sich mit

der Studie von Thompson und Molly (1993) und kann eventuell auf Reifungsprozesse und all-

gemeine Lernzuwächse zurückgeführt werden. So ist beispielsweise das Sprachverständnis, das

nach langem Intervall eine größere Zunahme aufweist, sehr bildungsabhängig und kann aus

diesem Grund stark schwanken, je nach derzeitigem schulischen Themenschwerpunkt der Kin-

der und Jugendlichen.

Wird der HAWIK-IV zuerst vorgegeben, zeigen sich insgesamt deutlich höhere Zuwächse von

der ersten zur zweiten Testung. Vor allem die Geschwindigkeitsindizes verzeichnen mit einem

Anstieg um mehr als zehn IQ-Punkte nach kurzem Intervall (siehe Tabelle 8.9) und knapp 10 IQ-

Punkten nach langem Intervall (siehe Tabelle 8.10) eine deutliche Zunahme. Hier scheint eine

Aufsummierung von Flynn- und Lerneffekt die Ursache zu sein. Anders als bei Erstvorgabe des

HAWIK-III erweisen sich die Werte des SV auch bei Erstvorgabe des HAWIK-IV als deutlich hö-

her im HAWIK-III als im HAWIK-IV. Allerdings stellt diese Reihenfolge nicht die gängige Praxis

dar, da es im diagnostischen Prozess lediglich vorkommen kann, dass der HAWIK-IV durchge-

führt wird, nachdem bereits ein HAWIK-III erfolgte und nicht umgekehrt.

Am deutlichsten wird die Höhe des Lerneffekts anhand der Berechnung ersichtlich, deren Er-

gebnisse in Tabelle 8.11 dargestellt sind. Hier wurden für jeden Untertest und jeden Index

neue Variablen berechnet, in dem bei den Kindern, die den HAWIK-III zuerst durchführen, die

Werte des HAWIK-III von denen des HAWIK-IV, und bei denen, die erst den HAWIK-IV durch-


führten, die Werte des HAWIK-IV von denen des HAWIK-III abgezogen wurden. Daraus resul-

tierte ein Differenzbetrag für jedes Kind aus dem die mittleren Differenzen berechnet wurden,

die den durchschnittlichen Wertpunkt- bzw. IQ-Zuwachs von der ersten zur zweiten Testung

widerspiegeln. Es zeigen sich fast identisch hohe Wertzuwächse unabhängig von der Höhe des

Re-Testintervalls. Der Abstand scheint also keinen Einfluss auf die Höhe des Lerneffekts zu

haben. Wie schon in den bisherigen Berechnungen zeigt sich die größte Leistungssteigerung in

den Untertests zur Erfassung der Verarbeitungsgeschwindigkeit. Hier scheinen die Vertrautheit

mit dem Lösungsprinzip der Aufgabe und der Übungseffekt einen besonders hohen Einfluss auf

die Testleistung zu haben. Dagegen scheinen Kinder bei Aufgaben, die das Arbeitsgedächtnis

erfordern, nicht von der ersten Testung zu profitieren. Auch wenn die Kinder bei erneuter

Testvorgabe das Lösungsprinzip erinnern, erleichtert es ihnen nicht die Bearbeitung der Aufga-

ben, da sie sich nicht an die konkreten Fragen (z. B. die Textaufgaben beim Rechnerischen Den-

ken) beziehungsweise Aufgaben (z. B. die konkreten Buchstaben und Zahlen beim Buchstaben-

Zahlen-Folgen) erinnern können. Während die Zunahmen im einzigen, beiden Indizes WO und

WLD gemeinsamen Untertest Mosaik-Test in beiden Re-Testintervallen nahezu identisch sind,

zeigen sich im kurzen und langen Intervall unterschiedliche Zuwächse im Vergleich dieser Indi-

zes. Hierfür scheinen demnach die anderen Untertests beider Indizes ursächlich zu sein. Somit

kann dieser Vergleich keinen Aufschluss über einen Lerneffekt und den Einfluss des Re-

Testintervalls auf einen Leistungszuwachs im Bereich der Wahrnehmung und des logischen

Denkens geben.

In sämtlichen Studien zum Lerneffekt zeigt sich keinerlei Wertpunktzuwachs im Allgemeinen

Verständnis. Dies deckt sich mit bisherigen Studien zum Lerneffekt (Quereshi, 1968).

Die Ergebnisse hinsichtlich der Höhe des Lerneffektes in unterschiedlichen Altersstufen decken

sich nur teilweise mit denen der Studie zur WISC-IV (siehe Kapitel 5.2.1 sowie Tabelle 8.12 und

Tabelle 8.13). Während in der WISC-IV-Studie die jüngste Altersgruppe zumeist die höchste

Leistungssteigerung aufweist, kann das in der vorliegenden Studie im kurzen Intervall nur für

die Indexkombinationen Unablenkbarkeit (UA) und Arbeitsgedächtnis (AGD) sowie AG und VG

bestätigt werden. Diese unterschiedlichen Ergebnisse lassen sich jedoch zum einen mit den

sehr unterschiedlichen Gruppengrößen und zum anderen mit der insgesamt geringeren Stich-

probengröße in der vorliegenden Studie erklären. Außerdem kann beispielsweise der Anstieg

der Zunahme im Altersverlauf in den Indizes WO und WLD mit Entwicklungsschüben zwischen

beiden Testungen erklärt werden, die zu einer Leistungssteigerung im Bereich der Wahrneh-

mung, des räumlichen Vorstellungsvermögens und des logischen Denkens führen können. Ge-

rade während der Pubertät kann es zu sprunghaften Leistungsanstiegen im logischen Denken

kommen, da nach Piaget (1984) in diesem Alter die Frontallappen ausgereift sind, die mit logi-


schem Denken zusammenhängen und sich die kognitiven Leistungen im Alter von 12 bis 14

Jahren von konkret-operationalem zu abstrakt-logischem Denken entwickeln. Somit hat auch

die unterschiedliche Untertestzusammensetzung beider Indizes einen Einfluss auf das Ergeb-

nis. Im HAWIK-III ist das logische Denken weniger repräsentiert als im HAWIK-IV.

Aus diesem Grund soll abschließend noch einmal darauf hingewiesen werden, dass es sich

anders als in den im fünften Kapitel beschriebenen Studien um einen Vergleich unterschiedli-

cher Testversionen handelt. Demnach kann für die meisten Vergleiche an dieser Stelle kein

eindeutiger Beweis oder Gegenbeweis für einen Lerneffekt gegeben werden.

9.2.2 Flynn-Effekt

Die Mittelwerte beider Tests (siehe Tabelle 8.1 und Tabelle 8.2) deuten auf einen Flynn-Effekt

hin. Auf Basis der gesamten Stichprobe kommt es auf Ebene des Gesamt-IQ zu einem Absinken

um ca. 2.5 IQ-Punkte von HAWIK-III (108.9) auf HAWIK-IV (106.3). Auf Index-Ebene zeigt sich

die größte Differenz im Sprachverständnis (105.7 im SV des HAWIK-IV gegenüber 110.1 im SV

des HAWIK-III). Der Vergleich der Indizes WO und WLD, die fluides Denken erfassen, offenbart

fast gleich hohe Werte und kann demnach keine besseren Leistungen der Kinder im HAWIK-III

aufweisen. Dies kann jedoch auch mit der unterschiedlichen Untertestzusammensetzung die-

ser Indizes erklärt werden. Die Werte des neuen Index VG, der kaum verändert wurde, liegen

wiederum ca. 3.5 IQ-Punkte unter denen des AG-Index (105.8 gegenüber 109.3).

Zur genaueren Untersuchung des Flynn-Effekts wurden nur die Werte des langen Intervalls

betrachtet, in dem sich der Einfluss des Lerneffekts weniger zeigte als im kurzen Intervall. Da

sich jedoch auch im langen Intervall ein Lerneffekt nachweisen ließ, sollten die Ergebnisse mit

Vorsicht interpretiert werden. Jedoch basieren die Studien zum Flynn-Effekt auf der Stichpro-

be, die ein ausbalanciertes Design hinsichtlich der Reihenfolge der Testvorgabe aufweist. Da-

her kann der Lerneffekt in dieser Studie vernachlässigt werden.

Zwar wurde die Erfassung des fluiden Denkens erst im HAWIK-IV durch die Einführung der

Untertests Matrizen-Test, Bildkonzepte und Begriffe erkennen adäquat ermöglicht, dennoch

kann die These, diese Tests seien vom Flynn-Effekt betroffen, an dieser Stelle bestätigt wer-

den. So zeigt sich innerhalb der Untertests die größte Differenz im Gemeinsamkeiten finden,

hier sinkt der Mittelwert um .75 von HAWIK-III zu HAWIK-IV. Gemeinsamkeiten finden gilt als

der Untertest, der innerhalb der SV-Untertests den höchsten Anteil an fluidem Denken erfor-

dert (Flanagan & Kaufman, 2004). Neben den Indizes WLD und WO erfordert auch die Bearbei-

tung der Geschwindigkeitsindizes VG und AG, fluides Denken. Zwischen dem AG-Index des

HAWIK-III und dem VG-Index des HAWIK-IV zeigt sich in dieser Teilstudie (Kinder mit langem

Re-Testintervall) ein Absinken um 2.5 IQ-Punkte von HAWIK-III zu HAWIK-IV, der auf Grund der


ausbalancierten Reihenfolge der Testvorgabe nicht auf einen Lerneffekt zurückgeführt werden

kann.

Das Absinken des IQ im SV um etwas mehr als drei Wertpunkte stimmt mit der Annahme

überein, dass der Flynn-Effekt im Bereich der kristallinen Intelligenz zu einem Rückgang von

drei Punkten pro Dekade führt. Das Arbeitsgedächtnis scheint dagegen nicht vom Flynn-Effekt

betroffen zu sein.

Der Anstieg vom WO des HAWIK-III zum WLD des HAWIK-IV lässt sich wie oben schon ange-

deutet auf die unterschiedliche Untertestzusammensetzung beider Indizes zurückführen. Da

die Indizes mit dem Mosaik-Test nur einen gemeinsamen Untertest aufweisen, kann ein Ver-

gleich dieser Werte nicht zur Untersuchung des Flynn-Effekts herangezogen werden. Durch die

höheren Werte im WLD als im WO ist auch das Absinken im Gesamt-IQ nicht sehr deutlich

ausgefallen. Somit hätte sich bei einer größeren inhaltlichen Übereinstimmung beider Testver-

fahren voraussichtlich ein deutlicherer Unterschied im Gesamt-IQ gezeigt.

Neben dem WLD-Index zeigen auch einige Untertests im Mittel höhere Werte im HAWIK-IV.

Diese Untertests scheinen von anderen Störvariablen bzw. Veränderungen beeinflusst zu sein,

so beispielsweise die Mittelwerte des Untertests Zahlen nachsprechen, die im HAWIK-III einen

halben Wertpunkt niedriger ausfallen als im HAWIK-IV. Dies kann mit der unterschiedlichen

Position des Untertests in der Testbatterie erklärt werden (siehe Kapitel 4 und 9.7.5).

Mit der Untersuchung des Flynn-Effekts an Kindern aus dem oberen Leistungsbereich lässt sich

die Annahme bestätigen, dass das Absinken des IQ besonders in den Randbereichen intellek-

tueller Fähigkeiten auftritt (auf Indexebene sinken die Werte um 3.4 bis 9.2 IQ-Punkte ab, der

Gesamt-IQ des HAWIK-IV weist durchschnittlich neun IQ-Punkte weniger auf als der Gesamt-IQ

des HAWIK-III, siehe Tabelle 8.15). Außerdem spiegeln die Ergebnisse dieses Vergleichs die

typischen Leistungsprofile überdurchschnittlich bzw. hoch begabter Kinder wider. Gemäß Stu-

dien mit Hochbegabten weisen Kinder am oberen Leistungsbereich besonders hohe Werte in

den Bereichen der Sprache und des logischen Denkens auf, während sie im Gedächtnis und in

der Geschwindigkeit eher durchschnittlich abschneiden (siehe Kapitel 4.6.4 und Daseking, Pe-

termann et al., 2008). Das deutliche Absinken des Gesamt-IQ wurde auch in Studien zu Hoch-

begabung berichtet und mit der im HAWIK-IV erhöhten Berücksichtigung der Erfassung von

Gedächtnis- und Geschwindigkeitsleistungen begründet (siehe Kapitel 4.6.4 und Birke & Lehn,

in Druck; Falk et al., 2004).

Insgesamt können demnach die Ergebnisse einiger Forscher nicht bestätigt werden, der IQ-

Zuwachs habe in den vergangenen Jahren stagniert oder es sei sogar ein Absinken des IQ zu

erkennen. Nach den Ergebnissen dieser Studie kann auch für das vergangene Jahrzehnt ein

Anstieg der kognitiven Leistungen deutscher Kinder und Jugendlichen verzeichnet werden.


Somit bestätigen diese Ergebnisse die Notwendigkeit, Intelligenztestverfahren nach einem

gewissen Abstand neu zu normieren. Die Steigerung der kognitiven Fähigkeiten von Kindern

und Jugendlichen, die sich auch in dieser Studie gezeigt hat, spricht dafür, das jeweils aktuelle

Testverfahren zu präferieren.

9.3 Ergebnisbetrachtung der Faktorenanalysen Während die Faktorenanalysen ohne Vorgabe von Faktoren uneinheitliche Ergebnisse zeigen,

replizieren die im achten Kapitel angeführten Faktorenanalysen mit Vorgabe der Faktoren die

vorgegebene Faktorenstruktur beider Testversionen. Sowohl für die Faktorenanalyse mit sämt-

lichen in der Studie durchgeführten Untertests (siehe Tabelle 8.18) als auch für die Faktoren-

analysen getrennt für die Untertests des HAWIK-III und -IV (siehe Tabelle 8.19 und Tabelle

8.20) können demnach die aufgestellten Hypothesen angenommen werden. Auffällig dabei ist,

dass der Untertest Bilder ergänzen ebenfalls hoch auf dem Faktor lädt, der die Untertests des

SV beinhaltet. Außerdem weist das Allgemeine Wissen zusätzlich zum Sprachverständnis-

Faktor auch auf dem Gedächtnisfaktor hohe Ladungen auf. Die hohe Ladung des Untertests

Bilder ergänzen auf dem Sprachfaktor deckt sich mit der in Kapitel 4.4.3.1 vorgestellten Fakto-

renanalyse der WISC-IV (Wechsler, 2003b). Interkorrelationsstudien der WISC-IV (Wechsler,

2003b) und des HAWIK-IV (Petermann & Petermann, 2008a) weisen ebensolche Ergebnisse

auf. Die Testautoren führen dies auf den Gebrauch verbaler Vermittlungsformen beim Lösen

von Problemen und der Antwortformulierung bei dieser Art von Aufgaben zurück (dies gilt in

gleicher Hinsicht für den Untertest Bildkonzepte, der sowohl für die WISC-IV als auch für den

HAWIK-IV mittlere bis hohe Korrelationen mit den Sprachuntertests aufweist). Auch die Inter-

korrelationen der vorliegenden Studie offenbaren einen hohen Zusammenhang (bis zu r = .50)

zwischen Bilder ergänzen und den Untertests des SV, sowohl für den HAWIK-III als auch für den

HAWIK-IV (siehe Anhang A1 und A3).

Die hohen Ladungen des Allgemeinen Wissens auf dem Faktor, der die Untertests beinhaltet,

die Gedächtnisleistungen abbilden, entsprechen ebenso den Angaben der Testentwickler des

HAWIK-III und -IV, beim Allgemeinen Wissen werde zusätzlich zu anderen kognitiven Fähigkei-

ten auch auf Leistungen des Langzeitgedächtnisses zurückgegriffen (siehe auch Flanagan &

Kaufman, 2004). Genauso beinhaltet das Rechnerische Denken Fähigkeiten des Langzeitge-

dächtnisses, was die hohen Interkorrelationen beider Untertests (zwischen r = .42 und .52,

siehe Anhang A3 und A4) erklärt.

Die Ergebnisse der Faktorenanalyse, in die alle Untertests beider Testversionen einbezogen

wurden, lassen vermuten, dass der Vergleich der Indizes WO und WLD genauso wie der Ver-

gleich der Indizes UA und AGD legitim ist, da die dazugehörigen Untertests auf einen gemein-

samen Faktor laden (siehe Tabelle 8.18). Zwar laden Bilderordnen und Bilder ergänzen eben-


falls hoch auf dem sprachlichen Faktor, dennoch wurden sie dem wahrnehmungsbezogenen

Faktor zugeordnet. Die anderen Untertests, die nur in einer Testversion enthalten sind, also

Figurenlegen, Bildkonzepte und Matrizen-Test, können diesem Faktor jedoch eindeutiger zu-

geordnet werden.

Insgesamt zeigen sich in dieser Studie zum Teil deutlich höhere Faktorladungen als in bisheri-

gen Studien zur WISC-IV und WISC-III bzw. zum HAWIK-III und HAWIK-IV. Bezogen auf die

WISC-IV wird dies besonders in den Untertests Bildkonzepte und Symbol-Suche deutlich. Im

Vergleich zur HAWIK-IV-Normierungsstichprobe zeigt die vorliegende Stichprobe - außer im

Allgemeinen Wissen - in allen sprachlichen Untertests sowie in den Untertests Durchstreich-

Test und Zahlen nachsprechen höhere Ladungen auf dem entsprechenden Faktor. Die Fakto-

renstruktur des HAWIK-III lässt sich auf Basis der vorliegenden Stichprobe eindeutiger replizie-

ren als in der Untersuchung, die im HAWIK-III-Manual beschrieben wird (Tewes et al., 2002).

Wie schon bei der HAWIK-III-Studie kann das Zahlennachsprechen des HAWIK-III auch in der

vorliegenden Untersuchung nicht eindeutig einem Faktor zugeordnet werden. Die relativ ge-

ringe Ladung (.38) des Zahlennachsprechens auf dem Faktor, auf dem die Untertests des Ver-

balteils liegen (siehe Tabelle 8.16), spricht gegen eine Aufteilung in Verbal- und Handlungsteil,

wie sie im HAWIK-III vorgesehen ist.

9.4 Ergebnisbetrachtung der Korrelationsanalysen Folgende Erkenntnisse lassen sich aus der Untersuchung der Korrelationen von HAWIK-III und

HAWIK-IV festhalten:

die Testreihenfolge hat keinen Einfluss auf die Höhe der Korrelationen der Indizes und

Gesamtwerte,

beide Tests korrelieren insgesamt hoch miteinander,

die beiden Gesamt-IQ korrelieren in den zusammengefassten Korrelationsanalysen

(Mittelung der Korrelationen bei HAWIK-III als erstem und HAWIK-IV als erstem Test)

durchweg mit r > .80,

der Verbalteil des HAWIK-III korreliert höher mit dem SV des HAWIK-IV als der Hand-

lungsteil des HAWIK-III mit dem WLD des HAWIK-IV,

die Indexpaare des Sprachverständnisses und der Verarbeitungsgeschwindigkeit korre-

lieren höher als die Indexpaare WO und WLD sowie AGD und UA,

die Indizes korrelieren insgesamt höher miteinander als die Untertests,

die gematchte Stichprobe weist ähnliche Korrelationen auf wie die Gesamtstichprobe

sowie

die Länge des Re-Testintervalls hat keinen Einfluss auf die Höhe der Korrelationen in

der gematchten Stichprobe.


Diese Ergebnisse sollen im Folgenden diskutiert werden.

9.4.1 Einfluss der Testreihenfolge

Bevor die Korrelationen zwischen beiden Testversionen anhand der Gesamttabellen interpre-

tiert wird, soll zunächst darauf eingegangen werden, ob die Differenz der Korrelationen signifi-

kant ist, je nachdem, welche Testversion zuerst vorgelegt wurde (Fragestellung 9, Hypothesen

6.3.8 bis 6.3.14).

In der Stichprobe mit langem Re-Testintervall zeigt sich teilweise ein signifikanter Einfluss der

Testreihenfolge auf die Höhe der Korrelation. Grund dafür sind die in einigen Untertests und

Indizes auffällig niedrigeren Korrelationen in der Stichprobe, der zuerst der HAWIK-III vorgelegt

wurde (siehe Tabelle 8.27). Möglicherweise liegt in dieser Teilstichprobe ein Stichprobeneffekt

vor, dessen Ursache nicht weiter nachvollzogen werden kann.

Bei der Betrachtung der Gesamtstichprobe zeigt sich jedoch einzig im Allgemeinen Verständnis

ein signifikanter Unterschied bezüglich der Testvorgabe (siehe Tabelle 8.23). Dies ist auf die

mit r = .40 relativ niedrigen Korrelationen zwischen beiden Versionen des Untertests bei Erst-

vorgabe des HAWIK-III zurückzuführen (siehe Tabelle 8.21). Auch im Vergleich zwischen HA-

WIK-R und HAWIK-III zeigt das Allgemeine Verständnis mit r = .41 vor Korrektur die niedrigste

Korrelation innerhalb der Untertests (Tewes et al., 2002). Die Indizes und Gesamtwerte weisen

jedoch hinsichtlich des Einflusses der Testreihenfolge keine signifikanten Unterschiede auf. Die

Korrelationen werden somit nicht signifikant von der Testreihenfolge beeinflusst. Dank des

ausbalancierten Versuchsdesign können demzufolge die zusammengefassten Korrelationswer-

te interpretiert werden und müssen nicht separat danach betrachtet werden, welche Testver-

sion dem Kind zuerst vorgegeben wurde. Damit ist es legitim, bei der Interpretation der Korre-

lationen zwischen HAWIK-III und HAWIK-IV auf die Gesamttabellen zurückzugreifen.

9.4.2 Höhe der Korrelationen der Gesamtstichprobe

Angesichts der in Kapitel 8.7 vorgestellten Korrelationsanalysen kann durchweg die Hypothese

(H1) angenommen werden. Die Korrelationen erweisen sich als ebenso hoch wie in bisherigen

Studien, die sich mit einem Vergleich der entsprechenden amerikanischen Testversionen

WISC-III und WISC-IV bzw. ähnlicher Vergleiche beschäftigten. Dabei richtet sich die Interpreta-

tion der Ergebnisse nach den korrigierten Korrelationen. Diese Korrekturen vorzunehmen ist

mit der nicht vollständig normalverteilten Stichprobenverteilung (siehe Kapitel 7.3) und damit

zu begründen, dass auch in vergleichbaren Studien diese Korrekturen vorgenommen wurden.

Allerdings konnten die Korrekturen in dieser Studie nur für die SD der HAWIK-IV-Normierungs-

stichprobe vorgenommen werden, da die genauen Standardabweichungen der HAWIK-III-

Werte aus dem HAWIK-III-Manual nicht ersichtlich sind. Dies gibt Anlass zu der Vermutung,


dass die Korrelationen noch höher ausgefallen wären, wenn sich die Standardabweichungen

der Mittelwerte im HAWIK-III als niedriger darstellen als im HAWIK-IV.

Die Ergebnisse der Gesamtstichprobe dieser Studie (siehe Tabelle 8.23) ähneln denen aus dem

Vergleich zwischen WISC-III und WISC-IV (Wechsler, 2003b). So unterscheiden sich die Gesamt-

IQ-Korrelationen nur geringfügig (r = .87 gegenüber .89). Der Vergleich zwischen den über-

geordneten Gesamtwerten des HAWIK-III und den entsprechenden Indizes des HAWIK-IV weist

im Indexpaar Handlungs-IQ und WLD in der amerikanischen Studie etwas höhere Korrelationen

auf (r = .74 in der WISC-Studie gegenüber r = .68 in dieser Studie). In der Paarung Verbal-IQ

und SV erweist sich der Zusammenhang jedoch als identisch (jeweils r = .87). Innerhalb der

Indizes zeigen der Vergleich der SV-Indizes mit r = .88 sowie der Vergleich zwischen UA und

AGD mit r = .72 identische Korrelationen in beiden Studien. Für die Indexpaarung WO und WLD

zeigen sich in der amerikanischen Studie (r = .72 gegenüber .67), für den Vergleich zwischen

AG und VG dagegen in der vorliegenden Studie (r = .84 gegenüber .81) etwas höhere Korrela-

tionen. Auf Untertestebene weisen in beiden Studien die gleichen drei Untertestpaarungen

lediglich Korrelationen unter r = .70 auf, namentlich Allgemeines Verständnis, Symbol-Suche

und Bilder ergänzen. Außerdem erweist sich das Allgemeine Wissen jeweils als der Untertest

mit den höchsten Korrelationen (r = .83 und .81). Insgesamt kann die vorliegende Untersu-

chung somit die Ergebnisse bisheriger Studien bestätigen.

Anhand der Stichprobe G-III (dies stellt die üblicherweise vorgenommene Reihenfolge dar, erst

den HAWIK-III und dann den HAWIK-IV durchzuführen) soll veranschaulicht werden, wie sich

die unterschiedlichen Zusammensetzungen der Untertests zu einem Index auf die Höhe der

Korrelationen auswirken (siehe Tabelle 8.21): In dieser Stichprobe weisen die Vergleiche zwi-

schen WO und WLD sowie zwischen Handlungsteil und WLD die niedrigsten Zusammenhänge

(r = .48 und .50) auf. Diese Indizes bzw. Gesamtwerte resultieren aus einer stark voneinander

abweichenden Untertestzusammensetzung. So besitzen WLD und WO beziehungsweise WLD

und Handlungsteil mit dem Mosaik-Test nur einen gemeinsamen Untertest. Auf der anderen

Seite lassen sich die hohen Korrelationen zwischen VG und AG (r = .81) mit der identischen

Untertestzusammensetzung (Symbol-Suche und Zahlen-Symbol-Test) erklären. Es zeigt sich

also beispielhaft an dieser Stichprobe, dass dort hohe Korrelationen festzustellen sind, wo

wenige Veränderungen vorgenommen wurden und demgegenüber niedrigere Zusammenhän-

ge dort zu finden sind, wo große Veränderungen zwischen beiden Testversionen erfolgten.

Bei Betrachtung der Stichprobe mit kurzem Re-Testintervall (siehe Tabelle 8.26) offenbart der

Vergleich zwischen der Symbol-Suche des HAWIK-III und der des HAWIK-IV mit r = .59 nach

Korrektur die niedrigsten Korrelationen. Dies ist auf eine Korrelation von nur r = .39 bei den

Kindern zurückzuführen, die den HAWIK-IV zuerst bearbeiteten. Hier kann die niedrige Korrela-


tion eventuell auf Motivationsprobleme zurückgeführt werden. Die Symbol-Suche stellt einen

Untertest mit monotonen Aufgaben dar, da sie die Verarbeitungsgeschwindigkeit ohne Reizan-

regungen erheben soll. Bei den Kindern, die den Test zweimal innerhalb kurzer Zeit durchführ-

ten, stellt die Motivation bei der Leistungsfähigkeit in diesem Untertest einen wichtigen Aspekt

dar. Demnach scheint die Stichprobe GK-IV mehr als andere Stichproben aus Kindern zusam-

mengesetzt zu sein, die Probleme haben, sich bei der Wiederholung reizarmer Aufgaben er-

neut zu motivieren. Auch eine Veränderung der Rohwerteverteilung (siehe Kapitel 9.6) kann

die niedrige Korrelation verursacht haben. Dennoch korrelieren die Indizes AG und VG insge-

samt hoch miteinander (r = .82). Dies lässt sich auf die mit r = .81 hohe Korrelation im anderen

Geschwindigkeitsuntertest, Zahlen-Symbol-Test zurückführen. Auch in der Gesamtstichprobe

und der Stichprobe mit langem Re-Testintervall zeigen sich sehr hohe Zusammenhänge zwi-

schen den beiden Geschwindigkeits-Indizes.

9.4.3 Vergleich zwischen der gematchten und der Gesamtstichprobe

Beim Vergleich zwischen den Ergebnissen der gematchten Stichprobe und der Gesamtstich-

probe (Tabelle 8.23 und Tabelle 8.32) wird deutlich, dass die Korrelationen der gematchten

Stichprobe entweder gleich hoch oder etwas niedriger sind als die der Gesamtstichprobe. Die

niedrigeren Werte können zum einen mit dem geringeren Stichprobenumfang erklärt werden,

zum anderen ist eine mögliche Ursache die unterschiedliche Aufteilung der Stichprobe hin-

sichtlich der Reihenfolge der Testvorgabe (26 Kinder haben den HAWIK-III und 46 den HAWIK-

IV zuerst durchgeführt). Die insgesamt ähnlichen und zum Teil sogar identischen Korrelationen

sprechen jedoch dafür, dass sich die Größe der Stichprobe nicht entscheidend die Höhe der

Korrelationen beeinflusst. Demnach können die ähnlich hohen Korrelationen zwischen dieser

und bisheriger Studien nicht allein auf der ähnlich hohen Stichprobengröße beruhen. Folgen-

des Gesamtergebnis kann somit als aussagekräftig gelten: Aufgrund der hohen Zusammenhän-

ge sind die beiden Testversionen HAWIK-III und -IV miteinander vergleichbar.

9.4.4 Einfluss der Länge des Re-Testintervalls

Mit der Fragestellung 10 wurde der Einfluss des Intervalls zwischen beiden Testungen unter-

sucht. Dies erfolgte anhand der gematchten Stichprobe, in der gleich viele Kinder ein langes

und ein kurzes Intervall aufweisen (jeweils 72 Kinder). Dabei zeigt sich nur zwischen den Korre-

lationen des Untertests Zahlen nachsprechen (und dies auch nur vor der α-Adjustierung) ein

signifikanter Unterschied je nach Länge des Re-Testintervalls (siehe Tabelle 8.30 und Tabelle

8.32). Dies ist auf eine mit r = .48 relativ niedrige Korrelation in der Stichprobe mit langem Re-

Testintervall (GemSL) zurückzuführen. Möglicherweise liegt die Ursache für diese niedrige Kor-

relation in einem Stichprobeneffekt, der an dieser Stelle nicht inhaltlich interpretiert werden

kann.


9.4.5 Abschließende Ergebnisbetrachtung der Korrelationsanalysen

Die Untersuchung des Zusammenhangs beider Testversionen weist sehr hohe Korrelationen

zwischen den Gesamt-IQ auf. Dies lässt den Schluss zu, dass beide Testversionen das gleiche

Konstrukt (allgemeine Intelligenz im Sinne eines g-Faktors) erfassen und demnach miteinander

verglichen werden können. Die Interpretation dieses Ergebnisses für die Praxis wird in Kapitel

9.8.1 diskutiert. Auch der Vergleich der Indizes, innerhalb derer geringe oder keine inhaltlichen

Veränderungen vorgenommen wurden, scheint dank hoher Korrelationen zulässig. Die niedri-

geren Korrelationen zwischen WLD und WO sowie AGD und UA bestätigen die Angaben der

Testautoren der WISC-IV, dass der Schwerpunkt der von den Indizes erfassten kognitiven Fä-

higkeiten auf Grund modifizierter Modellvorstellungen von Intelligenz verändert wurde

(Wechsler, 2003b). Der Vergleich dieser Indizes kann demnach nicht generell vorgenommen

werden (siehe auch Kapitel 9.7). Aufgrund der niedrigeren und uneinheitlichen Korrelationen

auf Ebene der Untertests stellt sich ein Vergleich auf Untertestebene als zumindest fragwürdig

dar. Untertests weisen allgemein aufgrund der geringeren Informationsmenge, die in den Un-

tertest-Wert einfließt, einen höheren Messfehler und somit niedrigere Reliabilitäten auf (siehe

Kapitel 4.4.2). Je mehr Informationen jedoch in einen Wert einfließen, desto höher sind die

Reliabilitäten. Daraus kann gefolgert werden, dass nur der Gesamt-IQ und eingeschränkt noch

die Indizes ein wirklich aussagekräftiges Abbild der kognitiven Leistungen geben. Die höheren

Reliabilitäten sprechen dafür, den Schwerpunkt bei der Interpretation auf den Gesamt-IQ zu

legen und erst im zweiten Schritt die Interpretation der Indizes vorzunehmen. Die Ergebnisse

in den Untertests sollten demnach nur für die Analyse der Stärken und Schwächen eines Kin-

des herangezogen werden (siehe auch Daseking, Petermann & Petermann, in Druck). Zudem

besitzen die Untertests des HAWIK-III und des HAWIK-IV teilweise unterschiedliche Reliabilitä-

ten (siehe Tabelle 4.7, Kapitel 4.4.2). Dies kann ein Grund dafür sein, weshalb Kinder auch

beim Vergleich identischer Untertests unterschiedliche Werte erzielen, die nicht auf einen

Lern- oder Flynn-Effekt zurückgeführt werden können. Daraus sollte ebenfalls resultieren, von

einem Vergleich auf Untertestebene abzusehen.

9.5 Ergebnisbetrachtung der Regressionsanalysen

9.5.1 Varianzaufklärung der Untertests des HAWIK-III

Regressionsanalytisch wurde geprüft, inwieweit sich die Veränderungen auf Untertestebene

zwischen HAWIK-III und -IV (die Entfernung einiger Untertests aus dem Gesamttest oder die

Verschiebung einiger Untertests in den optionalen Teil) mit der Höhe der Varianzaufklärung

der Untertests des HAWIK-III auf den entsprechenden HAWIK-III-Index erklären lassen.


In der Regressionsanalyse der SV-Untertests des HAWIK-III trägt das Allgemeine Verständnis

deutlich weniger zur Varianzaufklärung des Index bei als es die Teststruktur des HAWIK-IV

vermuten lassen würde. Das Allgemeine Wissen hat als nur noch optionaler Untertest mehr

Anteil an der Varianzaufklärung als die Kerntests Allgemeines Verständnis und Wortschatz-Test

(siehe Tabelle 8.33). Schon in anderen Analysen dieser Studie erwies sich das Allgemeine Ver-

ständnis als auffällig. So zeigt es beispielsweise als einziger Untertest signifikant unterschiedli-

che Korrelationen, je nachdem, welcher Test zuerst durchgeführt wurde (siehe Tabelle 8.23).

Auch im Mittelwertvergleich zeigt die Stichprobe des kurzen Intervalls, die den HAWIK-III zu-

erst durchführte (GK-III), einen geringfügig niedrigeren Wert im Allgemeinen Verständnis des

HAWIK-IV, obwohl sie aufgrund der Erinnerung an die erste Durchführung einen höheren Wert

hätte erreichen müssen (siehe Abbildung 8.6). Dies könnte mit dem auffälligen Ergebnis in der

Regressionsanalyse zusammenhängen. Das Allgemeine Wissen erweist sich hingegen als Unter-

test mit den höchsten Korrelationswerten sowohl in dieser Studie als auch im Vergleich der

amerikanischen WISC-IV mit ihrem Vorgängerverfahren, der WISC-III (Wechsler, 2003b). Die

Verlegung des Allgemeinen Wissens in den optionalen Teil des HAWIK-IV scheint demnach

nicht aus statistischen Gründen vorgenommen worden zu sein. Vielmehr können inhaltliche

Überlegungen als mögliche Ursachen für die Verlegung des Untertests in den optionalen Teil

herangezogen werden. So weist das Allgemeine Wissen eine hohe Bildungsabhängigkeit auf

(siehe dazu Daseking, Lipsius et al., 2008). Zwar ist auch das Allgemeine Verständnis als bil-

dungsabhängig einzustufen, jedoch wird mit diesem Untertest vor allem das Wissen über so-

ziale Situationen erfragt, welches schulformübergreifend vorhanden sein sollte. Aus diesem

Grund erscheint es wichtiger, das Allgemeine Verständnis und nicht das Allgemeine Wissen in

den Kernteil des Index SV aufzunehmen. Da jedoch die Regressionsanalyse eine hohe Varianz-

aufklärung des Allgemeinen Wissens des Index SV zeigt und sowohl ein gutes Messinstrument

für kristalline Intelligenz darstellt als auch hoch mit dem g-Faktor korreliert, sollte es als zusätz-

liche Informationsquelle zur Feststellung der kognitiven Leistungsfähigkeit weiterhin mit erho-

ben werden.

Die Regressionsanalyse der WO-Untertests (siehe Tabelle 8.34) weist für alle vier Untertests

ähnlich hohe β-Gewichte auf. Da jedoch der Mosaik-Test etwas niedrigere Werte zeigt als Figu-

renlegen und Bilderergänzen am wenigsten zur Varianzaufklärung des WO beiträgt, muss die

Hypothese (H1) abgelehnt werden. Die geringste Varianzaufklärung des Untertests Bilderer-

gänzen auf den WO unterstützt die Entscheidung, den Untertest im HAWIK-IV vom Kernteil in

den Zusatzteil zu verlegen. Wie schon im Allgemeinen Wissen haben jedoch auch hinsichtlich

des Bilderordnens andere Ursachen den Wegfall des Untertests veranlasst. Zum einen erwies

sich das Bilderordnen als sehr fehlerlastig hinsichtlich der Durchführung, die sehr komplex und

demnach viel Übung seitens des Testleiters erfordert. Desweiteren wird die relativ niedrige


Reliabilität für die Entfernung des Bilderordnens verantwortlich gemacht, die nach den eben-

falls nicht berücksichtigten Untertests Labyrinth-Test (.70) und Figurenlegen (.69) mit .76 am

niedrigsten ausfiel (Wechsler, 1992). In dieser Studie zeigt Bilderordnen mit keinem Untertest

Interkorrelationen von mehr als r = .40 (siehe Anhang A1 und A2). Wie schon erwähnt, wird

der Wegfall des Bilderordnens jedoch auch kritisiert und vermutet, dass ihn Wechsler niemals

befürwortet hätte, da ihm das Erfassen sozialer Fertigkeiten, wie es mit diesem Untertest mög-

lich ist, wichtig war (Flanagan & Kaufman, 2004). Als Hauptargument für den Verzicht auf die

Untertests Bilderordnen und Figurenlegen sowie der Verlegung des Untertests Bilderergänzen

in den optionalen Teil des HAWIK-IV gilt jedoch der reduzierte Einfluss der Zeitkomponente

(siehe Kapitel 4.7.1 und Flanagan & Kaufman, 2004).

Im dritten Schritt wurden die Untertests des Index UA mit Hilfe der Regressionsanalyse unter-

sucht. Auch für diesen Index muss die Hypothese (H1) abgelehnt werden, da sich das Rechneri-

sche Denken als wichtiger für die Varianzaufklärung des Index erweist als das Zahlennachspre-

chen (siehe Tabelle 8.35). Somit wird die Unablenkbarkeit vermutlich besser durch den Unter-

test Rechnerisches Denken erfasst als durch das Zahlennachsprechen, das scheinbar eher eine

reine Messung des Arbeitsgedächtnisses als der Unablenkbarkeit darstellt. Wie in Kapitel

4.4.3.1 erwähnt, wird die Index-Bezeichnung Unablenkbarkeit im HAWIK-III als irreführend

angesehen, da der Index nicht explizit Ablenkbarkeit oder Hyperaktivität erfasst (siehe Naglieri

& Paolitto, 2005; Zhu et al., 2004). Bei der exploratorischen Faktorenanalyse des HAWIK-III

(siehe Tabelle 8.16) laden beide Untertests ebenfalls nicht auf einem gemeinsamen Faktor

(Rechnerisches Denken lädt auf dem SV-Faktor und Zahlennachsprechen bildet mit den Ge-

schwindigkeitsuntertests Zahlen-Symbol-Test und Symbol-Suche einen eigenen Faktor). Die

Untertests Rechnerisches Denken und Zahlennachsprechen scheinen im HAWIK-III demnach

unterschiedliche Fähigkeiten abzubilden. Auch die Interkorrelationen von nur .38 (Gesamt-

stichprobe, siehe Anhang A1) beziehungsweise .39 (gematchte Stichprobe, siehe Anhang A2)

deuten darauf hin.

Da sich das Zahlen nachsprechen inhaltlich nicht verändert hat, muss es auf das Rechnerische

Denken sowie den neuen Untertest Buchstaben-Zahlen-Folgen zurückzuführen sein, dass die

Indizes UA und AGD unterschiedliche Fähigkeiten erfassen. Wie in Kapitel 4 beschrieben, ha-

ben neue Erkenntnisse im Bereich der Intelligenzforschung zu einer Modifizierung der Unter-

tests dahingehend geführt, welche kognitiven Funktionen mit ihnen erhoben werden. Auch

das Rechnerische Denken erfasst in beiden Versionen unterschiedliche kognitive Fähigkeiten

(siehe Kapitel 4.2 und 4.3 sowie Tabelle 4.4 und Tabelle 4.6). Durch das Fehlen der optischen

Vorgabe der Rechenaufgaben in Form von Aufgabenkarten zielt das Rechnerische Denken im

HAWIK-IV mehr auf die Erfassung des Kurz- und Langzeitgedächtnisses ab als im HAWIK-III.

Dies zeigt sich auch durch die Ladung der beiden Versionen des Rechnerischen Denkens auf


unterschiedlichen Faktoren in den Faktorenanalysen ohne Vorgabe der Faktorenanzahl (weite-

re Analysen zur inhaltlichen Veränderung der Untertests siehe Kapitel 9.7.4). Mit der Regressi-

onsanalyse konnte demnach die eingeschränkte Vergleichbarkeit beider Testversionen durch

diese inhaltlichen Veränderungen verdeutlicht werden.

9.5.2 Varianzaufklärung der Untertests des HAWIK-IV

Desweiteren wurde mit Hilfe der Regressionsanalyse untersucht, inwieweit die Untertests des

HAWIK-IV zur Varianzaufklärung des entsprechenden HAWIK-III-Index beitragen. Sollten sich

sämtliche Kernuntertests des HAWIK-IV als relevant für die Varianzaufklärung der HAWIK-III-

Indizes erweisen, würde dies die Vergleichbarkeit beider Testversionen unterstützen.

Für den Index Sprachverständis kann anhand der in Tabelle 8.36 vorgestellten Regressionsana-

lyse davon ausgegangen werden, dass die Untertests des HAWIK-III mit einer Varianzaufklä-

rung von insgesamt fast 70 % annähernd dieselben Fähigkeiten abbilden wie der Index SV des

HAWIK-III. Die drei Kernuntertests des HAWIK-IV tragen signifikant zur Varianzaufklärung des

Index SV des HAWIK-III bei. Bei einem Vergleich der beiden SV-Indizes muss demnach nur mit

einer geringen Abweichung der Testergebnisse auf Grund inhaltlicher Veränderungen beider

Testversionen ausgegangen werden.

Anders verhält es sich im Index WO des HAWIK-III. Hier zeigen sich anhand der Regressions-

analyse der Untertests des WLD (siehe Tabelle 8.37), dass die Kerntests des WLD nicht durch-

weg bedeutsam zur Varianzaufklärung des WO beitragen. Die beiden neuen Untertests Bild-

konzepte und Matrizen-Test leisten keinen signifikanten Beitrag zur Varianzaufklärung des WO.

Insgesamt zeigt sich mit etwas mehr als 40 % der geringste Varianzaufklärungsanteil innerhalb

der vier Indizes. Nach den Ergebnissen der Korrelationsanalysen kann nunmehr auch anhand

der Regressionsanalysen verdeutlicht werden, dass WO und WLD nicht dieselben kognitiven

Fähigkeiten erheben und daher nicht uneingeschränkt miteinander verglichen werden sollten.

Wie in Kapitel 4.6.1 dargestellt, kamen auch die Autoren der KABC-II anhand von Korrelations-

studien zwischen der KABC-II und der WISC-III bzw. WISC-IV zu dem Ergebnis, dass beide

Wechsler-Versionen unterschiedliche Konstrukte erfassen (Kaufman & Kaufman, 2004). Ihrer

Meinung nach bilden der Handlungsteil und der WO eher visuelle Prozesse ab, während der

Index WLD der WISC-IV hoch mit den KABC-II-Untertests zur Messung des fluiden Denkens

korreliert.

Die Untertests des AGD klären nur die Hälfte der Varianz des entsprechenden HAWIK-III-Index

UA auf (siehe Tabelle 8.38). Auch zwischen den Indizes AGD und UA muss demnach von einer

eingeschränkten Vergleichbarkeit ausgegangen werden. Aufgrund der geringen Varianzaufklä-

rung des Untertests Buchstaben-Zahlen-Folgen scheint der Index UA nicht so explizit das Ar-


beitsgedächtnis zu erfassen, wie dies durch die Buchstaben-Zahlen-Folgen und den entspre-

chenden Index AGD gewährleistet zu sein scheint.

Trotz der (bis auf den Durchstreich-Test) identischen Untertests klären die Untertests des Index

VG weniger als die Hälfte der Varianz des Index AG auf (siehe Tabelle 8.39). Hier scheinen, wie

oben schon beschrieben, andere Einflüsse wie der Lerneffekt oder die Wertverschiebung (sie-

he Kapitel 9.2.1 und 9.6) ursächlich zu sein. Der Durchstreich-Test trägt nicht signifikant zur

Varianzaufklärung bei. Auch die niedrigen Interkorrelationen mit den anderen VG-Untertests,

also dem Zahlen-Symbol-Test und der Symbol-Suche des HAWIK-IV (.34 und .39, siehe Anhang

A3), deuten auf die Erfassung anderer Fähigkeiten des Durchstreich-Tests hin als es von den

anderen Untertests des Verarbeitungsgeschwindigkeits-Index erfolgt.

9.5.3 Vorhersagekraft der Indizes auf den Gesamt-IQ

Zusätzlich wurde regressionsanalytisch untersucht, wie viel Varianz des Gesamt-IQ der einen

Testversion von den Indizes der anderen Testversion aufgeklärt wird (siehe Tabelle 8.40 und

Tabelle 8.41). Dieses Vorgehen soll Rückschlüsse darüber liefern, inwieweit die beiden Testver-

sionen durch Aufklärung gemeinsamer Varianz die gleichen kognitiven Leistungen abbilden.

Bei der Untersuchung des Gesamt-IQ des HAWIK-III erweist sich das SV des HAWIK-III als wich-

tigster Faktor zur Aufklärung der Varianz des Gesamt-IQ. Dies lässt sich darauf zurückführen,

dass mit dem Gemeinsamkeiten finden, dem Wortschatz-Test und dem Allgemeinen Verständ-

nis sämtliche Untertests des SV des HAWIK-IV in den Gesamt-IQ des HAWIK-III einfließen.

Der ebenfalls hohe Varianzaufklärungsanteil des WLD auf den HAWIK-III-Gesamt-IQ kann mit

dem hohen Beitrag der Untertests Mosaik-Test und Bilder ergänzen des HAWIK-IV zur Varianz-

aufklärung des WO (siehe Tabelle 8.37) erklärt werden. Beide Untertests fließen in den Ge-

samt-IQ des HAWIK-III ein. Die Untertests Bildkonzepte und Matrizen-Test tragen jedoch nicht

signifikant zur Varianzaufklärung des WO (siehe Tabelle 8.37) bei. Daher kann trotz der Ergeb-

nisse der Regressionsanalyse zum Gesamt-IQ des HAWIK-III geschlussfolgert werden, dass WO

und WLD nicht dieselben kognitiven Fähigkeiten erfassen.

Der Index AGD trägt nicht signifikant zur Varianzaufklärung des HAWIK-III-Gesamt-IQ bei. Dies

deckt sich mit den Ergebnissen der Korrelationsanalysen. Damit wird ein weiteres Argument

dafür geliefert, UA und AGD nicht miteinander zu vergleichen, da sie unterschiedliche Fähigkei-

ten erfassen. Hier zeigt sich erneut, dass das Überarbeitungsziel der Entwickler der WISC-IV

erreicht wurde, der Erfassung des Arbeitsgedächtnisses einen größeren Stellenwert einzuräu-

men als dies in der WISC-III bzw. dem HAWIK-III der Fall war.

Zur Varianzaufklärung des Gesamt-IQ des HAWIK-IV leisten sämtliche HAWIK-III-Indizes einen

signifikanten Beitrag. Auch hier erweist sich das SV als wichtigster Faktor. Dennoch kann von


allen vier Indizes insgesamt nur 58 % der Varianz des Gesamt-IQ aufgeklärt werden. Ein Grund

dafür, dass in beiden Studien die Geschwindigkeitsindizes nur relativ wenig Varianz aufklären,

obwohl sie inhaltlich beinahe identisch sind, könnte in der Verschiebung hinsichtlich der Roh-

wertverteilung auf die Wertpunkte liegen (siehe Kapitel 9.6).

Sowohl die Varianzaufklärung des HAWIK-III-Gesamt-IQ durch die Indizes des HAWIK-IV als

auch die Varianzaufklärung des HAWIK-IV-Gesamt-IQ durch die Indizes des HAWIK-III liegt so-

mit lediglich bei etwa 60 %. Demnach kann circa 40 % der Varianz nicht erklärt werden. Dies

spricht dafür, beide Testversionen nur begrenzt miteinander zu vergleichen.

Bei der Interpretation der Einflüsse der Indizes auf den Gesamt-IQ muss jedoch folgende, als

scheinbar abweichender IQ (seemingly anomalous IQ, Reddon, Whippler & Reddon, 2007) be-

zeichnete testspezifische Besonderheit berücksichtigt werden: In einigen Fällen liegt der Ge-

samt-IQ im oberen Leistungsbereich oberhalb und im unteren Leistungsbereich unterhalb der

Werte der Indizes (siehe dazu Reddon, Vander Veen & Reddon, 2004; Reddon et al., 2007). Der

Wertebereich des Gesamt-IQ ist größer (die Werte reichen von 40 bis 160) als der Wertebe-

reich der Indizes (bei den Indizes SV und WLD liegen die Werte zwischen 45 und 155 und in der

AGD und der VG zwischen 50 und 150). Daher zeigt sich das Phänomen häufiger an den Rand-

bereichen der IQ-Normalverteilung. In einer Untersuchung mit der WISC-IV wurde dieser ab-

weichende IQ bei 1 % der Fälle festgestellt (Reddon et al., 2007). Dies hängt mit der Regression

zur Mitte zusammen. Die Regression zur Mitte zählt zu den Störeinflüssen, die die Vergleich-

barkeit zweier Tests beeinträchtigen können (siehe Kapitel 5.2). Sie kann dazu führen, dass die

Abhängigkeit zwischen Indizes und Gesamt-IQ kaum interpretiert werden kann. Da die Regres-

sion zur Mitte jedoch nur extrem selten vorkommt, kann ein großer Einfluss auf die Ergebnisse

dieser Untersuchung ausgeschlossen werden.

9.5.4 Abschließende Ergebnisbetrachtung der Regressionsanalysen

Insgesamt lassen die Ergebnisse der Regressionsanalysen darauf schließen, dass die unter-

schiedlichen Vorstellungen von Intelligenz, die in die Entwicklung beider Testversionen einge-

flossen sind, deren Vergleichbarkeit beeinträchtigen. Es soll an dieser Stelle jedoch erneut dar-

auf hingewiesen werden, dass die Berechnung der Varianzaufklärung der Indizes durch die

Untertests verzerrt ist. Bei den Indizes handelt es sich um IQ-Werte, die künstlich erzeugt wor-

den sind und keinen linearen Zusammenhang zu den Wertpunkten der Untertests aufweisen

(siehe Kapitel 7.5.4).

9.5.5 Erwartete Werte und Konfidenzintervalle

Die Ergebnisse der Vorhersage des HAWIK-IV-Konfidenzintervalls unter Kenntnis des entspre-

chenden HAWIK-III-Wertes unterstützen die Existenz eines Flynn-Effekts, der zu einer Über-


schätzung der Leistung eines Kindes führt, wenn es aktuell noch mit dem HAWIK-III getestet

wird. Dies hängt damit zusammen, dass bei der Berechnung der Konfidenzintervalle die Kons-

tante auf 0 festgelegt wurde (siehe Kapitel 7.5.4.2). So ergeben sich durchweg niedrigere vor-

hergesagte Werte im HAWIK-IV, was sich mit den von den WISC-IV-Autoren angegebenen er-

warteten WISC-IV-Werten deckt (Wechsler, 2003b) und dem Flynn-Effekt (siehe Kapitel 5.2.2)

zuzusprechen ist. Diese erwarteten Werte und Konfidenzintervalle sollen dem Testanwender

verdeutlichen, von welchen Werten sie bei einer Testung mit dem HAWIK-IV ausgehen kön-

nen, wenn bereits der HAWIK-III durchgeführt wurde. Liegen die Werte außerhalb der Konfi-

denzintervalle weist dies auf ein zur HAWIK-III-Testung abweichendes Leistungsprofil hin. Die

Veränderungen können jedoch auch durch die spezifischen Stärken und Schwächen des Kindes

entstanden sein, die durch die Verschiebung der erfassten Fähigkeiten mehr oder weniger

betont werden (siehe Kapitel 9.7.1). Zudem sollten die anderen Ergebnisse dieser Studie, wie

Lerneffekte - vor allem im Bereich der Erfassung von Verarbeitungsgeschwindigkeit - berück-

sichtigt werden.

9.6 Unterschiede in der Rohwerte- und Wertpunktverteilung An den Untertests Zahlen-Symbol-Test und Symbol-Suche, die sich von HAWIK-III zu HAWIK-IV

inhaltlich nicht verändert haben (mit der Ausnahme, dass die Symbol-Suche für die Kinder zwi-

schen 9 und 16 Jahren zur Reduzierung des Deckeneffekts im HAWIK-IV 15 zusätzliche Aufga-

ben aufweist), soll im Folgenden exemplarisch dargestellt werden, dass unterschiedliche Er-

gebnisse in beiden Testversionen nicht zwangsläufig mit einer veränderten Leistung des Kindes

einhergehen. Vielmehr basieren unterschiedliche Rohwertverteilungen auf der Wertpunktbe-

rechnung. Tabelle 9.1 stellt einen Auszug aus den Umrechnungstabellen des HAWIK-III und -IV

dar, der die unterschiedliche Einstufung der erzielten Rohwerte in Wertpunkte verdeutlicht.

Wie aus Tabelle 9.1 ersichtlich wird, zeigen sich im mittleren Leistungsbereich (10 Wertpunkte)

keine deutlichen Unterschiede hinsichtlich der für einen Wertpunkt von 10 notwendigen Roh-

werte. Einzig die 16;8- bis 16;11-Jährigen müssen in der Symbol-Suche für 10 Wertpunkte im

HAWIK-IV drei Rohwertpunkte mehr erzielen als im HAWIK-III (35-36 im HAWIK-IV gegenüber

32-33 im HAWIK-III). Besonders deutlich wird die Rohwertverschiebung jedoch an den Randbe-

reichen. So erhalten die Kinder der jüngsten Altersgruppe im HAWIK-III für 10 Rohwerte im

Zahlen-Symbol-Test nur 1 Wertpunkt, während gleichaltrige Kinder im HAWIK-IV schon für 3

Rohwerte 2 Wertpunkte erhalten (für 10 Rohwerte würden sie 4 Wertpunkte bekommen). Den

ältesten Kindern werden im Zahlen-Symbol-Test des HAWIK-IV für 33 Rohwerte schon 2 Wert-

punkte vergeben, während die Kinder desselben Alters im HAWIK-III 37 Rohwerte erreichen

müssen, um 2 Wertpunkte zu erhalten. Hier haben demnach die Kinder der Normierungsstich-

probe des HAWIK-IV schlechter abgeschnitten als die der Normierungsstichprobe des HAWIK-


III. Der entgegengesetzte Trend zeigt sich am oberen Leistungsrand der Symbol-Suche. So be-

nötigen die 6;0- bis 6;3-Jährigen beispielsweise 40 Rohwerte in der Symbol-Suche des HAWIK-

IV, um die maximalen 19 Wertpunkte zu erhalten, während die gleichaltrigen Kinder im HA-

WIK-III nur 29 Rohwerte für 19 Wertpunkte benötigen.

Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus den Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002).

Altersstufe HAWIK-

III HAWIK-

IV HAWIK-

III HAWIK-

IV HAWIK-

III HAWIK-

IV Wertpunkte 1 WP 1 WP 10 WP 10 WP 19 WP 19 WP

ZST

6;0-6;3 0-10 0-2 27-30 28-31 61-65 61-65 9;0-9;3 0-14 0-10 37-39 36-38 60-119 65-119

12;0-12;3 0-22 0-18 48-52 49-52 81-119 86-119 16;8-16;11 0-36 0-32 66-70 69-72 100-119 110-119

SS/SYS

6;0-6;3 0 0 15 13-14 29-45 40-45 9;0-9;3 0-5 0-4 20-21 20 34-45 37-60

12;0-12;3 0-8 0-8 25-26 26-27 44-45 46-60

16;8-16;11 0-14 0-15 32-33 35-36 45 (ab 18 WP)

55-60

Anmerkungen: Abkürzungen siehe Anhang A5 und A6. Die grau unterlegten Wertpunkbereiche repräsentieren deutliche Verschiebungen zwischen beiden Testversionen.

Die Rohwerteverteilung hat sich demzufolge trotz inhaltlich identischer Untertests zum Teil

deutlich verändert. Dies hängt mit der Standardisierung der erzielten Rohwerte in Wertpunkte

mit einem Wertpunktmittel von 10 und einer Standardabweichung von +/- 3 zusammen. Wer-

den für den HAWIK-IV mehr Rohwerte für dieselben Wertpunkte benötigt als für den HAWIK-

III, kann jedoch auch der Flynn-Effekt ursächlich sein.

Schlussfolgernd daraus ist also ein Anstieg oder Abfall in den Wertpunkten zwischen dem HA-

WIK-III und dem HAWIK-IV nicht zwangsläufig mit einer Verbesserung bzw. Verschlechterung

der Leistung in der dem Untertest zugrunde liegenden Fähigkeit zu begründen. Dies ist vom

Anwender bei der Interpretation der Testergebnisse unbedingt zu beachten.

9.7 Einzelfallbetrachtungen Im Folgenden soll anhand der Ergebnisse einzelner Testpersonen aufgezeigt werden, welche

Schwierigkeiten bei der Vergleichbarkeit zweier unterschiedlicher Versionen eines Tests beste-

hen und wie Störvariablen (siehe Kapitel 5.2) die Testergebnisse beeinflussen können.

9.7.1 Veränderungen in der Untertestzusammensetzung der Indizes

Wie in Kapitel 4 dargestellt, können Differenzen im HAWIK-III und -IV auf strukturelle Verände-

rungen, wie unterschiedliche Untertestzusammensetzungen der Indizes beider Tests, zurück-

geführt werden. Ein 16-jähriges Mädchen erhält weit überdurchschnittliche IQ-Werte im Hand-

lungsteil und im Index WO (141 und 142) des HAWIK-III, jedoch nur einen durchschnittlichen


IQ-Wert im entsprechenden HAWIK-IV-Index WLD (106). Dies kann auf die unterschiedliche

Untertestzusammensetzung beider Test zurückgeführt werden. So erzielt sie im HAWIK-III 19

Punkte im Bilderordnen, in den WLD-Untertests Bildkonzepte und Matrizen-Test jedoch nur 10

beziehungsweise 11 Punkte. Dies deutet auf Stärken des Mädchens eher im sozialen Bereich

als im logischen Denken und räumlichen Vorstellungsvermögen hin.

Ein achtjähriges Mädchen erhält im HAWIK-III einen Gesamt-IQ von 115 und im HAWIK-IV ei-

nen Gesamt-IQ von 93. Der Unterschied beträgt demnach 22 IQ-Punkte (also fast 1.5 SD) und

kann nicht auf den Lerneffekt zurückgeführt werden, da das Kind zuerst den HAWIK-III durch-

führte. Die Ursache für diese hohe Differenz liegt vor allem an den Untertests des WO bzw. des

WLD: Der WO-IQ des Mädchens beträgt 118, der WLD-IQ jedoch nur 98. Dies lässt sich eben-

falls auf die unterschiedliche Untertestzusammensetzung zurückführen. Während das Mäd-

chen überdurchschnittliche Werte im Bilderordnen und Figurenlegen erzielt (jeweils 16 Wert-

punkte), schneidet es in den neuen Untertests Bildkonzepte und Matrizen-Test mit jeweils 9

Punkten nur durchschnittlich ab.

Bei einem zehnjährigen Jungen führen durchschnittliche Werte in den Untertests Bildkonzepte

und Matrizen-Test und weit überdurchschnittliche Werte im Bilderordnen und Figurenlegen zu

einer Differenz von 23 Wertpunkten (112 gegenüber 135), was ihm auf handlungsbezogener

Ebene im HAWIK-III die Diagnose einer Hochbegabung, im HAWIK-IV jedoch nur einer norma-

len Begabung einbringen würde.

Ein achtjähriges Mädchen erzielt im WLD nur 69 IQ-Punkte gegenüber 100 IQ-Punkten im WO.

Es würde somit im HAWIK-IV hinsichtlich der Fähigkeit zum wahrnehmungsgebundenen logi-

schen Denken an der Grenze zur Intelligenzminderung liegen, die Fähigkeit zur Wahrneh-

mungsorganisation im HAWIK-III würde jedoch als absolut durchschnittlich gelten.

Auch in anderen Indizes führt die unterschiedliche Untertestzusammensetzung zu stark abwei-

chenden Ergebnissen. So erhält ein zehnjähriges Mädchen beim UA-Index des HAWIK-III 88 IQ-

Punkte, beim entsprechenden HAWIK-IV-Index AGD jedoch einen IQ-Wert von 120. Dies ist

zum Teil darauf zurückzuführen, dass sich das Rechnerische Denken als schwächster Untertest

des Mädchens erweist, das im HAWIK-III in den Index einfließt und im HAWIK-IV nur noch op-

tional eingesetzt wird. Bei einem 13-jährigen Mädchen macht die Auslagerung des Rechneri-

schen Denkens zu einem optionalen Untertest einen Unterschied zwischen den entsprechen-

den Indizes von 22 Wertpunkten aus (98 im UA gegenüber 120 im AGD). Dies zeigt sich auch in

umgekehrter Hinsicht bei Kindern, deren Stärke das rechnerische Denken darstellt. Sie schnei-

den im Index UA besser ab als im AGD. Bei anderen Kindern ist der große Unterschied zwi-

schen diesen beiden Indizes dadurch zu erklären, dass sie Schwierigkeiten mit dem Untertest

Buchstaben-Zahlen-Folgen hatten und daher im HAWIK-IV schlechter abschnitten als im HA-


WIK-III, obwohl sie im Zahlen nachsprechen und Rechnerischen Denken der beiden Testversio-

nen die gleichen Wertpunkte erreichten.

Auch im SV sind solche Abweichungen zu beobachten. Ein achtjähriger Junge erzielt im HAWIK-

III einen SV-IQ von 147 und im HAWIK-IV von 126. Der Grund für die Abweichung liegt im Un-

tertest Allgemeines Wissen, der mit jeweils 18 Wertpunkten seinen besten Untertest darstellt,

im HAWIK-IV jedoch nur noch ein optionaler Untertest ist.

Wie diese Beispiele verdeutlichen, sollte beim Vergleich beider Tests die unterschiedliche Un-

tertestzusammensetzung berücksichtigt werden, die teilweise gänzlich unterschiedliche Fähig-

keiten erfassen.

9.7.2 Klinische Relevanz

Die Folgen, die daraus resultieren, welche der beiden Testversionen HAWIK-III und HAWIK-IV

zur Intelligenzdiagnostik herangezogen werden, verdeutlicht folgendes Beispiel: Ein siebenjäh-

riger Junge erzielt im HAWIK-III einen Gesamt-IQ von 77, im HAWIK-IV erhält er jedoch nur 64

IQ-Punkte. Wäre das Kind im Zuge einer diagnostischen Abklärung mit dem HAWIK-III getestet

worden, wäre eine Lernbehinderung diagnostiziert worden, während die Leistung im HAWIK-IV

im Bereich einer leichten geistigen Behinderung liegt. Allerdings wurde bei diesem Kind der

HAWIK-IV zuerst durchgeführt, so dass der Unterschied vermutlich auch durch den Lerneffekt

erklärt werden kann.

9.7.3 Unterschiedliche Normierung

Manche Differenzen können mit der unterschiedlichen Normierung beider Testversionen be-

gründet werden. So erhält ein Kind, das im Wortschatz-Test des HAWIK-III nur zwei Rohwerte

mehr erreicht als im HAWIK-IV, dafür im HAWIK-III neun Wertpunkte mehr. Ein achtjähriges

Kind erhält im Wortschatz-Test des HAWIK-III für die Hälfte der möglichen Rohwerte (30 von

60) schon die maximale Punktzahl (19 Wertpunkte). Hier liegen die Ursachen für die Differenz

also nicht im Lerneffekt oder anderen Störvariablen, sondern in der Normierung des HAWIK-III.

Dieses Phänomen zeigt sich teilweise auch im Gemeinsamkeiten finden.

9.7.4 Inhaltliche Veränderungen der Untertests

Unter Bezugnahme auf die Aktualisierung der theoretischen Grundlagen wurden im HAWIK-IV

einige Änderungen vorgenommen (siehe Kapitel 4.5.1). Welchen Einfluss diese Änderungen

auf die Vergleichbarkeit beider Testversionen haben können, soll an einigen Beispielen aufge-

zeigt werden. So weisen die Ergebnisse eines zwölfjährigen Jungen im Mosaik-Test eine Diffe-

renz von fünf Wertpunkten zwischen HAWIK-III und -IV (6 und 11 Wertpunkte) auf. Da der

HAWIK-IV zuerst vorgelegt wurde, kann die Differenz nicht im Lerneffekt begründet sein. Die

Untertestprofile beider Tests, die unterdurchschnittliche Ergebnisse bei zeitabhängigen Unter-


tests wie Figurenlegen oder Zahlen-Symbol-Test aufweisen, deuten darauf hin, dass das Ergeb-

nis aus der Verringerung der Zeitkomponente im Mosaik-Test des HAWIK-IV resultiert. Das

Kind scheint Schwierigkeiten mit Zeitbegrenzungen zu haben und kam deshalb beim Mosaik-

Test trotz gleich viel gelöster Aufgaben zu mehr Wertpunkten im HAWIK-IV, da es im HAWIK-III

keine Zeitbonuspunkte erhielt und somit schlechter abschnitt als andere Kinder seines Alters,

die Zeitbonuspunkte erhielten.

9.7.5 Veränderungen der Untertestreihenfolge

Ein Untertest, bei dem die unterschiedliche Position im Test zu deutlich voneinander abwei-

chenden Testergebnissen führen kann, stellt das Zahlen nachsprechen dar, das von der letzten

auf die dritte Position vorverlegt wurde. Insgesamt weisen 11 Kinder und Jugendliche dieser

Stichprobe (das entspricht knapp 5 % der Gesamtstichprobe) mehr als drei Wertpunkte (also

mehr als eine Standardabweichung) Differenz zwischen beiden Zahlen nachsprechen-

Untertests auf und zeigen dabei die bessere Leistung in dem Test, den sie zuerst durchführten,

was bei ihnen den Lerneffekt als Ursache ausschließt. Der Großteil dieser Kinder (acht von elf)

zeigt schlechtere Leistungen im HAWIK-III, obwohl sie den HAWIK-IV zuerst durchführten und

demnach im HAWIK-III angesichts des Lerneffekts besser hätten sein müssen. Dies deutet da-

rauf hin, dass hier die ungünstigere Untertestposition des Zahlennachsprechens im HAWIK-III

(Ermüdung, mangelnde Konzentration, Motivation etc. zum Ende der Testung) den Ausschlag

für die deutlich geringere Wertpunktzahl gegeben hat.

Ein weiterer Untertest, der eine deutlich andere Position eingenommen hat, ist der Mosaik-

Test, der von der siebten auf die erste Stelle verschoben wurde. Diese Veränderung erweist

sich vor allem bei ängstlichen Kindern als bedeutsam, da sie zu Beginn der Testung oftmals

noch unsicher sind und dementsprechend schwächere Leistungen zeigen. So erreicht ein

sechsjähriges Mädchen bei Erstvorgabe des HAWIK-IV im Mosaik-Test dieser Testversion 6

Punkte und im HAWIK-III 11 Punkte. Insgesamt weist das Profil zum einen steigende Werte zur

Mitte der HAWIK-IV-Testung und zum anderen schlechtere zu Beginn des HAWIK-III auf (5

Punkte im Allgemeinen Wissen und 7 Punkte im Bilderergänzen). Es scheinen demzufolge per-

sönlichkeitsspezifische Charaktereigenschaften des Mädchens zu stark voneinander abwei-

chende Leistungen im gleichen Untertest in beiden Testversionen zu führen. Gleiches ergibt

sich bei einem elfjährigen Mädchen, dessen Ergebnisse im Bilder ergänzen acht Wertpunkte

Differenz aufweisen (9 Wertpunkte im HAWIK-III, in dem der Test an erster Position vorgege-

ben wird gegenüber 17 Wertpunkte im HAWIK-IV, in dem der Test die 11. Position belegt). Da

der HAWIK-IV vor dem HAWIK-III durchgeführt wurde, kann die Differenz nicht auf Lerneffekte

zurückgeführt werden. Vielmehr scheinen Startschwierigkeiten, beispielsweise auf Testangst

begründet, ursächlich zu sein.


9.7.6 Zusammenfassung der Einzelfallbetrachtungen

An den Analysen einzelner Testergebnisse konnten die Auswirkungen der Veränderungen zwi-

schen HAWIK-III und -IV auf die Vergleichbarkeit beider Testergebnisse demonstriert werden.

Im Einzelfall können demnach durch die unterschiedlichen Testversionen erhebliche Ergebnis-

differenzen auftreten. Dabei erweisen sich in den Einzelfalldarstellungen folgende Unterschie-

de als ursächlich für die stark voneinander abweichenden Ergebnisse:

Veränderungen in der Untertestzusammensetzung der Indizes,

die unterschiedliche Normierung beider Testversionen,

inhaltliche Veränderungen der Untertests sowie

Veränderungen der Untertestreihenfolge.

Wie die Analysen aufgezeigt haben, kann die Entscheidung für eine Testversion vereinzelnd

sogar die Diagnosestellung beeinflussen.

Insgesamt sollten die Analysen den Anwender dazu veranlassen – auch wenn sich insgesamt

hohe Korrelationen zwischen beiden Testversionen ergeben haben –im Einzelfall die Ergebnis-

se vorsichtig zu interpretieren. Schließlich können sich im Einzelfall auch dann Effekte zeigen,

wenn sie sich in der Gruppe nicht nachweisen lassen. Zhu und Tulsky (2000) empfehlen, sich

sensibel für Effekte wie Testreihenfolge und unterschiedliche situative Bedingungen zu zeigen.

Die abweichenden Ergebnisse einzelner Befunde deuten außerdem auf die Bedeutsamkeit von

Störeinflüssen wie der Tagesform oder der Motivation der Testperson hin. Damit unterstützt

diese Studie die Kritik an der Intelligenzdiagnostik, sie sei nur als Statusdiagnostik zu bewerten,

die lediglich Aussagen über den jeweils aktuellen Leistungs- und Entwicklungsstand zulasse

(siehe Kapitel 5.3).

9.8 Ausblick und Einschränkungen Obwohl sich zunächst die Testentwickler verantwortlich für Validitätsnachweise zeigen, liegt es

letztendlich in der Hand des Testanwenders, für sich herauszufinden, inwieweit diese Nach-

weise die Anwendung des Tests für den ihm angedachten Zweck ausreichend unterstützen

(Wechsler, 2003b).

9.8.1 Perspektiven für die Praxis

Aufgrund der Interpretationsprobleme und dem Mangel an ausreichender Forschung zum

Thema der Vergleichbarkeit zweier Testversionen empfehlen Strauss et al. (2000) den Testan-

wendern – je nach Zweck ihrer Untersuchung – eine Kombination von Richtlinien. Im Folgen-

den werden nur die Richtlinien angegeben, die für die hier gegenständliche Art von Testrevisi-

on gültig sind:


Konnte eine Normverschiebung (z. B. durch einen großen Flynn-Effekt) nachgewiesen

werden, sollte die überarbeitete Version verwendet werden.

Erfasst die aktuellere Version erfolgreich neue und bedeutsame Konstrukte, ist sie der

älteren Version klar vorzuziehen.

Sind neue Normen vorhanden, sollten nur diese verwendet werden.

Bei Vorher-Nachher-Testungen sollte immer die gleiche Version verwendet werden.

Entscheidungsregeln, die auf unterschiedlichen Testversionen beruhen, sollten ver-

mieden werden.

Wenn die Faktorenstrukturen voneinander abweichen, sollte beim Vergleich beider

Versionen die Interpretation der Gesamtwerte vermieden werden. Es sollte sich nur

auf die Komponenten beschränkt werden, die in beiden Versionen äquivalent erschei-

nen.

Es sollten generell stets mehrere Messinstrumente zur Messung eines Konstrukts ver-

wendet werden.

Unter Bezugnahme auf diese Kriterien sollte im Hinblick auf den HAWIK im Regelfall immer der

HAWIK-IV zum Einsatz kommen. So zeigt sich ein Flynn-Effekt im Vergleich des HAWIK-IV mit

seinem Vorgängerverfahren, dem HAWIK-III. Wie in Kapitel 5.2.2 ausführlich geschildert, kann

die Verwendung älterer Testversionen angesichts des Flynn-Effekts in eine geringere Anzahl an

Diagnosen von Entwicklungsbeeinträchtigungen münden, so dass vorhandene Beeinträchti-

gungen nicht ernst genommen werden (Strauss et al., 2000). Testergebnisse sollten auf norma-

tiven Informationen basieren, die sowohl aktuell als auch repräsentativ für die jeweilige Popu-

lation sind. Es wird davon ausgegangen, dass Normen von Intelligenztests spätestens nach 15

Jahren als ungültig gelten und durch neue Vergleichswerte zu ersetzen sind (Kanaya et al.,

2005). Die Normen des HAWIK-III wurden zwischen 1995 und 1998 erhoben. Demnach sind die

erhobenen HAWIK-III-Werte mittlerweile bis zu 14 Jahre alt.

Außerdem konnte nachgewiesen werden, dass für die WISC-IV und damit auch den HAWIK-IV

erfolgreich Änderungen in der Erfassung kognitiver Fähigkeiten vorgenommen wurden, die als

wichtige Konstrukte im Bereich der Intelligenzdiagnostik gelten. Einzig im Bereich der Ver-

laufsdiagnostik, beispielsweise bei Testungen vor und nach einer Therapie, ist es angebracht,

erneut auf den HAWIK-III zurückzugreifen, wenn er bereits vor der Maßnahme durchgeführt

wurde. Nur so können Veränderungen im Leistungsprofil des Kindes auf tatsächliche Leis-

tungsveränderungen zurückgeführt werden, ohne dass Verzerrungen wie Unterschiede in den

Tests oder veraltete Normen berücksichtigt werden müssen. Allerdings müssen in diesem Fall

mögliche Lerneffekte unbedingt berücksichtigt werden. Liegt die erste Testung mehrere Jahre

zurück, kann zwar ein Lerneffekt ausgeschlossen werden, jedoch kann dann bereits der Flynn-

Effekt zum Tragen kommen. Auch die Einzelfallbetrachtungen zeigen gravierende Auswirkun-


gen auf die Ergebnisse durch Veränderungen in den Untertests und der Teststruktur. In Einzel-

fällen kann dies Folgen für Schulformentscheidungen, Diagnosestellungen oder Therapiepla-

nungen haben. Daher sollte bei einer Wiederholungstestung für die Katamnese unbedingt auf

das ursprünglich eingesetzte Verfahren zurückgegriffen werden.

Analysen zum Zusammenhang beider Versionen ergaben jedoch hohe Korrelationen. Somit

scheinen der HAWIK-III und -IV trotz inhaltlicher und struktureller Unterschiede dasselbe Kons-

trukt zu erfassen. Unter Berücksichtigung der Erkenntnisse, die aus der vorliegenden Studie

gezogen werden können, scheint es demnach zulässig, die Ergebnisse beider Testversionen

miteinander zu vergleichen. Als Richtlinie sollten dabei die erwarteten Werte und ihre Konfi-

denzintervalle (siehe Kapitel 8.8.4) herangezogen werden. Sie bieten eine praktische Hilfestel-

lung bei der Einschätzung der Ergebnisse hinsichtlich potentieller Veränderungen der Leistun-

gen eines Kindes nach einer psychologischen und/oder medizinischen Behandlung oder päda-

gogischen Maßnahme.

Auch wenn in den Faktorenanalysen, in die sämtliche Untertests beider Testversionen einbe-

zogen wurden, sowohl die Untertests des WO und WLD als auch die Untertests der Indizes UA

und AGD auf einem gemeinsamen Faktor laden, scheint auf Grund der anderen Ergebnissen

dieser Studie (z. B. Regressionsanalysen und Korrelationen) ein Vergleich dieser Indizes zumin-

dest nur eingeschränkt möglich zu sein. Dabei liegen die Veränderungen nicht nur in den un-

terschiedlichen Untertests, sondern auch in den damit verbundenen unterschiedlichen kogni-

tiven Fähigkeiten, die in den Indizes erfasst werden (siehe Tabelle 4.4 und Tabelle 4.6).

Außerdem scheinen identische Wertpunkte, beispielsweise in den Indizes WO und WLD, nicht

gleichbedeutend damit zu sein, dass das Kind in beiden Indizes identische Leistungen gezeigt

hat oder dass die Tests dasselbe messen. Genauso bedeutet eine IQ-Steigerung von WO zu

WLD nicht zwangsläufig eine Verbesserung der Leistung des Kindes. Durch die Standardisie-

rung auf ein Mittel von 10 Wert- bzw. 100 IQ-Punkten bedeuten jeweils 10 Wertpunkte bzw.

ein IQ von 100 in beiden Testversionen lediglich, dass das Kind verglichen mit Kindern des glei-

chen Alters ein durchschnittliches kognitives Niveau aufweist.

Für die Praxis kann aus den Regressions- und Korrelationsanalysen dieser Studie zudem die

Schlussfolgerung abgeleitet werden, dass es sinnvoll ist, einige optionale Untertests weiterhin

durchzuführen, im Besonderen das Allgemeine Wissen. Dieser Untertest erweist sich sowohl in

der vorliegenden als auch in anderen Studien als aussagekräftiger Untertest zur Erfassung kris-

talliner und allgemeiner Intelligenz. Ein zusätzlicher Informationsgewinn durch die Durchfüh-

rung der optionalen Untertests Durchstreich-Test und Begriffe erkennen konnte dahingegen

anhand der Ergebnisse dieser Studie nicht nachgewiesen werden.


In den Analysen dieser Studie stellen sich die Ergebnisse der Untertests als deutlich heteroge-

ner dar als die der Indizes und des Gesamt-IQ. Demnach stellt sich die Interpretation der über-

geordneten Werte als aussagekräftiger dar als die Interpretation der Untertests. Wie in der

Diskussion über einen g-Faktor (siehe Kapitel 3.6) dargestellt, sprechen sich diverse Forscher

gegen eine Interpretation des Gesamt-IQ im Sinne eines g-Faktors aus. Fällt die Entscheidung

bei der Testwahl zur Erfassung der kognitiven Leistungen eines Kindes jedoch auf einen Wechs-

ler-Test, stellt die Interpretation des Gesamt-IQ zwangsläufig einen wichtigen Aspekt dar. Da

sich der g-Faktor jedoch als Konstrukt aus vielen Teilfunktionen zusammensetzt, wird bei einer

großen Abweichung innerhalb der Indizes (mehr als 1.5 SD Differenz zwischen zwei Indizes)

davon abgeraten, den Gesamt-IQ zu interpretieren (mehr dazu siehe Daseking et al., in Druck;

Flanagan & Kaufman, 2004)

9.8.2 Einschränkungen der Studie

Intelligenztests unterliegen diversen Einschränkungen (siehe Kapitel 5.3), die auch für die Er-

gebnisse dieser Studie berücksichtigt werden müssen. Mit Hilfe der Einzelfallbetrachtungen

konnte verdeutlicht werden, wie stark ein Testergebnis von Störvariablen beeinflusst werden

kann. So können vor allem die Daten der jüngeren Kinder nicht als frei von Störeinflüssen - wie

einer unterschiedlichen Tagesform, dem Motivationslevel oder Persönlichkeitsveränderungen

des Kindes - gesehen werden. Dies gilt vor allem für die Kinder, die erst nach einem längeren

Zeitraum erneut getestet wurden. Für diese Stichprobe können auch Lernzuwächse zu verzerr-

ten Ergebnissen geführt haben.

Jedoch können die Gütekriterien beider Testversionen als ausreichend erfüllt betrachtet wer-

den und dürften somit generell nicht zu einer Verzerrung der Ergebnisse beitragen. Lediglich

die Objektivität der Wechsler-Skalen sollte kritisch gesehen werden (siehe Kapitel 4.4.1). So

kann die Durchführungsobjektivität nicht vollständig gewährleistet werden. Da die Testungen

dieser Studie jedoch größtenteils von der Verfasserin sowie von wenigen erfahrenen, intensiv

geschulten und supervidierten Testleitern durchgeführt wurden, konnten Fehler in der Test-

durchführung minimiert werden. Einschränkungen in der Auswertungsobjektivität können

weitestgehend ausgeschlossen werden, da die Testprotokolle nur von der Verfasserin ausge-

wertet wurden, die an der Entstehung des Manuals beteiligt war und im Zuge der Normierung

ausgiebig mit dem Test und den Auswertungsrichtlinien vertraut wurde.

Neben den allgemeinen Einschränkungen hinsichtlich der Interpretation von Intelligenztests

führt auch das Design dieser Studie zu einigen Einschränkungen, die bei der Interpretation der

Ergebnisse beachtet werden sollten.

So erweist sich die Stichprobe durch die Unterteilung in Untergruppen teilweise als relativ

klein. Vor allem die Analysen in der gematchten Stichprobe können aus diesem Grund nur als


eingeschränkt aussagefähig gelten. Bei der Berechnung der erwarteten Werte (siehe Kapitel

8.8.4) musste aufgrund fehlender Daten für einige Werte auf eine künstliche Umrechnung per

Hand zurückgegriffen werden (siehe auch 7.5.4.2). Da die Gesamtstichprobe jedoch einen ähn-

lichen Umfang wie vergleichbare Studien aufweist und diese den wichtigsten Ergebnissen und

Interpretationen zu Grunde liegt, kann ihr Umfang insgesamt als ausreichend betrachtet wer-

den.

Allerdings ergeben sich Einschränkungen in der Interpretierbarkeit, da die Intelligenztester-

gebnisse der vorliegenden Stichprobe insgesamt zu gut ausgefallen sind. Mit einem mittleren

IQ von 108.9 (HAWIK-III) beziehungsweise 106.3 (HAWIK-IV) liegen die Werte der Stichprobe

deutlich über dem Mittelwert von 100 der Normierungsstichprobe.

Eine weitere Einschränkung ergibt sich durch die große Varianz der Länge des Re-Testintervalls

in der Stichprobe mit langem Intervall. So variiert der Abstand zwischen erster und der zweiter

Testung im langen Intervall deutlich (die SD der Varianz liegt bei etwas mehr als fünf Mona-

ten). Diese große Varianz kann dazu führen, dass die Kinder dieser Teilstichprobe deutlich un-

terschiedliche Lernzuwächse oder allgemeine Reifungsprozesse zwischen beiden Testungen

aufweisen. Möglicherweise kann dies die Ergebnisse des Vergleichs zwischen erster und zwei-

ter Testung im langen Intervall verzerren. Hier wäre es zudem wichtig gewesen, Informationen

über mögliche therapeutische oder medizinische Behandlungen, die Tagesform des Kindes zu

beiden Testzeitpunkten sowie eventuelle Medikation zu erheben. Somit hätte ausgeschlossen

werden können, dass die Unterschiede zwischen den Ergebnissen beider Testungen auf diese

Variablen zurückzuführen sind. Eine Erfassung des Motivationslevels des Kindes während der

beiden Testungen hätte zudem den Einfluss unterschiedlich hoher Motivation des Kindes bei

der Bearbeitung der Aufgaben ausschließen können.

In dieser Studie wurde zum Vergleich der Testversionen auf statistische und methodische

Standardverfahren zurückgegriffen, die auch in vergleichbaren Studien mit Intelligenzskalen

zum Einsatz kamen. Die Durchführung eines komplexeren statistischen Verfahrens wie eines

Strukturgleichungs- bzw. Pfadmodells wäre sinnvoll gewesen, um komplexere Vergleiche zu

ermöglichen, in denen Messfehler und Störvariablen stärkere Berücksichtigung finden. Dies

wurde jedoch zu Gunsten einer Betonung der Vergleiche zwischen einzelnen Testkomponen-

ten verworfen. Es stand demnach weniger die Strukturüberprüfung als vielmehr der inhaltliche

Vergleich der verschiedenen Testkomponenten sowie die Untersuchung der Störeinflüsse im

Vordergrund. Durch die Einzelfalldarstellungen wurde zusätzlich verdeutlicht, welche Bereiche

des Testverfahrens besonders von den inhaltlichen Änderungen zwischen den Testversionen

betroffen sind.


9.8.3 Forschungsperspektiven

In zukünftigen Studien sollte die Stichprobe hinsichtlich des kognitiven Niveaus der Kinder aus-

geglichener gestaltet werden. So sollte versucht werden, Kinder und Jugendliche aus sämtli-

chen Schulformen zu untersuchen, um einen Querschnitt zu erhalten, der die Normierungs-

stichprobe besser repräsentiert. Außerdem wäre es wünschenswert, weniger Varianz in den

Abständen zwischen den Testungen zu erreichen, damit von identischen Lern- und Reifungs-

prozessen von der ersten zur zweiten Testung ausgegangen werden kann.

Zudem kann es sinnvoll sein, den Vergleich beider Testversionen auf Grundlage eines Struktur-

gleichungsmodells vorzunehmen, um Störeinflüsse besser berücksichtigen und simultane auf-

einander bezogene Berechnungen vornehmen zu können, die ein übersichtlicheres Bild über

die strukturellen Veränderungen zwischen beiden Testversionen geben. Sollen die Ergebnisse

eher der Forschung als der praktischen Anwendung dienen, könnte es zusätzlich sinnvoll sein,

die Berechnungen hinsichtlich der Indizes und Gesamtwerte nicht unter Bezugnahme auf die

IQ-Werte, sondern die Wertpunktsummen vorzunehmen. Dies würde eine lineare Abhängig-

keit zwischen den Untertests und den Indizes gewährleisten.

Bei der Untersuchung des Lerneffekts zeigten sich Mittelwertveränderungen, die auf allgemei-

ne Reifungsprozesse und Lernzuwächse zurückgeführt werden können. Diese machten eine

hohe Bildungsabhängigkeit, vor allem in den sprachlichen Untertests wie dem Allgemeinen

Verständnis, deutlich. Demzufolge können die Ergebnisse in diesen Untertests womöglich stark

von der besuchten Klassenstufe des Kindes abhängen. Daher wäre zu überlegen, die Normen

nicht auf Grundlage von Alters- sondern von Klassenstufen zu erheben. So stellt es sich als

bedeutsam dar, ob ein sechsjähriges Kind zum Zeitpunkt der Testung bereits die Schule oder

noch den Kindergarten besucht.

Die Veränderungen vom HAWIK-III zum HAWIK-IV spiegeln die Trends in der Intelligenzfor-

schung wider, auf bestimmte kognitive Bereiche wie der fluiden Intelligenz, dem Arbeitsge-

dächtnis und der Verarbeitungsgeschwindigkeit gesteigerten Wert zu legen. Die Erfassung

dieser Fähigkeiten hat an Bedeutung zugenommen und wurde aus diesem Grund im HAWIK-IV

stärker berücksichtigt, als dies im HAWIK-III der Fall war. Es wird jedoch weiterhin kritisiert,

dass der HAWIK-IV nur wenige der kognitiven Fähigkeiten adäquat erfasst, die in aktuellen

Intelligenztheorien als wichtige Faktoren der Intelligenz erachtet werden. Dies sollte bei der

Entwicklung zukünftiger Testversionen berücksichtigt werden, darf jedoch nicht dazu führen,

den Wechsler-Skalen ihr „Gesicht“ zu nehmen und die Untertests nicht zu berücksichtigen, die

sich als praktisch und klinisch bedeutsam herausgestellt haben.

Zusammenfassung 198

Zusammenfassung

Die Erfassung der Intelligenz zählt zu den wichtigsten Aspekten der psychologischen Leistungs-

diagnostik. Auch wenn weiterhin umstritten ist, wie Intelligenz definiert werden kann, beschäf-

tigen sich unzählige Forschungsarbeiten mit der Struktur der kognitiven Fähigkeiten des Men-

schen. Diese Modelle haben großen Einfluss auf die Entwicklung von Intelligenztestverfahren.

Aufgrund veralteter Normen und neuer Erkenntnisse im Bereich der Intelligenzstrukturfor-

schung stellt es sich als notwendig dar, Intelligenztestverfahren in regelmäßigen Abständen zu

modifizieren und neu zu normieren. Dies gilt auch für die Wechsler-Skalen, die zu den weltweit

wichtigsten Intelligenztests zählen. Für den Testanwender ist es dabei von großer Bedeutung,

inwieweit das modifizierte Verfahren mit seinem Vorgänger vergleichbar ist.

Die vorliegende Studie befasst sich mit dem Vergleich zwischen HAWIK-III (im Jahr 1999 er-

schienen) und HAWIK-IV (im Jahr 2007 erschienen), beides Versionen des Wechsler-

Intelligenztests für Kinder und Jugendliche zwischen 6 und 16 Jahren. Dabei wurden Störein-

flüsse wie der Lern- und Flynn-Effekt untersucht. Beide Störeffekte konnten für die Kinder und

Jugendlichen dieser Studie nachgewiesen werden und müssen demnach bei der Interpretation

der Ergebnisse berücksichtigt werden.

In dieser Studie zeigen sich sehr hohe Korrelationen zwischen den Gesamt-IQ beider Testver-

sionen. Es kann also davon ausgegangen werden, dass beide Versionen dasselbe Konstrukt

erfassen. Auch auf Ebene der Indizes konnten sehr hohe Zusammenhänge nachgewiesen wer-

den. Dabei ergaben sich bei den Indizes höhere Korrelationen, die weniger Veränderungen von

HAWIK-III zu HAWIK-IV aufweisen. Dagegen zeigten diejenigen Indizes niedrigere Zusammen-

hänge, bei denen einschneidende Veränderungen vorgenommen wurden. So lässt die zusätzli-

che Untersuchung der Höhe der Varianzaufklärung der Untertests auf die Indizes die Schluss-

folgerung zu, dass die stark veränderten Indizes nur eingeschränkt miteinander vergleichbar

sind. Die Faktorenstruktur beider Testversionen konnte jedoch repliziert werden.

Um dem Testanwender eine Richtlinie zu bieten, welche HAWIK-IV-Werte zu erwarten sind,

wenn die mit dem HAWIK-III erhobenen Ergebnisse vorliegen, wurden die erwarteten Werte

und ihre Konfidenzintervalle berechnet und für ausgewählte IQ-Werte tabellarisch dargestellt.

An den Zusammenhangsanalysen und Einzelfallbetrachtungen wird deutlich, wie sich die Ent-

scheidung für eines der beiden Testversionen auf die Ergebnisse und damit einhergehenden

Diagnosen auswirken kann. Aufgrund der Ergebnisse der vorliegenden Studie kann die Richtli-

nie aufgestellt werden, im Regelfall den aktuelleren HAWIK-IV dem Vorgängerverfahren HA-

WIK-III vorzuziehen. Einzig im Rahmen der Verlaufsdiagnostik sollte der HAWIK-III weiterhin

Anwendung finden, sofern er bereits in der Eingangsdiagnostik eingesetzt wurde.

Literaturverzeichnis 199

Literaturverzeichnis

Aiken, L. R. (Ed.). (2003). Psychological testing and assessment (11th ed.). Boston: Pear-son.

Alfonso, V. C., Flanagan, D. P. & Radwan, S. (2005). The impact of the Cattell-Horn-Carroll theory on test development and interpretation of cognitive and aca-demic abilities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellec-tual assessment: Theories, tests, and issues (2nd ed., pp. 185-202). New York: Guilford.

Alfonso, V. C., Johnson, A., Patinella, L. & Rader, D. E. (1998). Common WISC-III ex-aminer errors: Evidence from graduate students in training. Psychology in the Schools, 35, 119-125.

Amelang, M. & Schmidt-Atzert, L. (2006). Psychologische Diagnostik und Intervention. Heidelberg: Springer Medizin.

American Educational Research Association, American Psychological Association & National Council on Measurement in Education (1999). Standards for educa-tional and psychological testing. Washington: Author.

Anastasi, A. & Urbina, S. (Eds.). (1997). Psychological testing (7th ed.). Upper Saddle River: Prentice Hall.

Angoff, W. H. (1988). Validity: An evolving concept. In H. Wainer & H. I. Braun (Eds.), Test validity. Hillsdale: Erlbaum.

Baltes, P. B. (1983). Life-span developmental psychology: Observations on history and theory revisited. In R. M. Lerner (Ed.), Developmental psychology: Historical and philosophical perspectives (pp. 79-111). Hillsdale: Erlbaum.

Belter, R. W. & Piotrowski, C. (2001). Current status of doctoral-level training in psy-chological testing. Journal of Clinical Psychology, 57, 717-726.

Beres, K. A., Kaufman, A. S. & Perlman, M. D. (2000). Assessment of child intelligence. In G. Goldstein & M. Hersen (Eds.), Handbook of psychological assessment (3rd ed., pp. 65-96). Kindlington, Oxford, United Kingdom: Elsevier Science.

Bickley, P. G., Keith, T. Z. & Wolfle, L. M. (1995). The Three-Stratum Theory of Cognitive Abilities: Test of the structure of intelligence across the life span. Intelligence, 20, 309-328.

Binet, A. & Simon, T. (1916). The development of intelligence in children (Originally published in 1905). Baltimore: Williams & Wilkins.

Birke, M. & Lehn, B. (in Druck). Intellektuelle Hochbegabung. In F. Petermann & M. Daseking (Hrsg.), Fallbuch zum HAWIK-IV. Göttingen: Hogrefe.

Bjorklund, D. F. & Schneider, W. (2006). Ursprung, Veränderung und Stabilität der In-telligenz im Kindesalter: Entwicklungspsychologische Perspektiven. In W. Schneider & B. Sodian (Hrsg.), Enzyklopädie der Psychologie (Serie V Entwick-lungspsychologie, Bd. 2, S. 770-821). Göttingen: Hogrefe.

Blaha, J. & Wallbrown, F. H. (1996). Hierarchical factor structure of the Wechsler Intel-ligence Scale for Children-III. Psychological Assessment, 8, 214-218.


Bölte, S., Adam-Schwebe, S., Englert, E., Schmeck, K. & Poustka, F. (2000). Zur Praxis der psychologischen Testdiagnostik in der deutschen Kinder- und Jugendpsy-chiatrie: Ergebnisse einer Umfrage. Zeitschrift für Kinder- und Jugendpsychiatrie und Psychotherapie, 28, 151-161.

Bondy, C. (1956). Hamburg-Wechsler-Intelligenztest für Erwachsene (HAWIE). Bern: Huber.

Borsuk, E. R., Watkins, M. W. & Canivez, G. L. (2006). Long-term stability of member-ship in a Wechsler Intelligence Scale for Children-Third Edition (WISC-III) sub-test core profile taxonomy. Journal of Psychoeducational Assessment, 24, 52-68.

Bortz, J. (2005). Statistik für Human- und Sozialwissenschaftler (6., vollst. überarbeitete und aktual. Aufl.). Heidelberg: Springer Medizin.

Bortz, J. & Döring, N. (2006). Forschungsmethoden und Evaluation: für Human- und Sozialwissenschaftler (4., überarbeitete Aufl.). Heidelberg: Springer Medizin.

Bortz, J. & Döring, N. (Hrsg.). (2002). Forschungsmethoden und Evaluation. Für Human- und Sozialwissenschaftler (3. Aufl.). Berlin: Springer.

Braaten, E. B. & Norman, D. (2006). Intelligence (IQ) testing. Pediatrics in Review, 27, 403-408.

Bracken, B. A. (1988). Ten psychometric reasons why similar tests produce dissimilar results. Journal of School Psychology, 26, 155-166.

Bracken, B. A. (1992). The interpretation of tests. In M. Zeidner & R. Most (Eds.), Psy-chological testing. An inside view (pp. 119-156). Palo Alto: Consulting Psycholo-gists.

Braden, J. P. & Niebling, B. C. (2005). Evaluating the validity evidence for intelligence tests using the joint test standards. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary Intellectual Assessment (2nd ed., pp. 615-630). New York: Guil-ford.

Brody, N. (2000). History of theories and measurements of intelligence. In R. J. Stern-berg (Ed.), Handbook of intelligence (pp. 16-33). Cambridge: Cambridge Univer-sity.

Brody, N. (2003a). Construct validation of the Sternberg Triarchic Abilities Test: Com-ment and reanalysis. Intelligence, 31, 319-329.

Brody, N. (2003b). What Sternberg should have concluded. Intelligence, 31, 339-342.

Brody, N. (2005). To g or not to g - that is the question. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 489-502). Thousand Oaks: Sage.

Bründler, M., Bürkli, M., Christen, S., Müller, W., Sonderegger, P. & Wolf, K. (2007). Schulpsychologie und Begabungsförderung. Ein Beitrag zur Qualitätsentwick-lung und Qualitätssicherung für Schulpsychologische Dienste. Luzern: Vipp-Praxisforschung.

Bühner, M. (2004). Einführung in die Test- und Fragebogenkonstruktion. München: Pearson Studium.


Burt, C. (1949). The structure of the mind; a review of the results of factor analysis. British Journal of Educational Psychology, 19, 176-199.

Calhoun, S. L. & Mayes, S. D. (2005). Processing speed in children with clinical disor-ders. Psychology in the Schools, 42, 333-343.

Camara, W. J., Nathan, J. S. & Puente, A. E. (2000). Psychological test usage: Implica-tions in professional psychology. Professional Psychology: Research and Prac-tice, 31, 141-154.

Canivez, G. L. & Watkins, M. W. (1999). Long-term stability of the Wechsler Intelligence Scale for Children-Third Edition among demographic subgroups: Gender, race/ethnicity, and age. Journal of Psychoeducational Assessment, 17, 300-313.

Carpenter, P. A., Just, M. A. & Shell, P. (1990). What one intelligence test measures: A theoretical account of the processing in the Raven Progressive Matrices Test. Psychological Review, 97, 404-431.

Carroll, J. B. (1992). Cognitive abilities: The state of the art. Psychological Science, 3, 266-270.

Carroll, J. B. (1993). Human cognitive abilities: A survey of factor-analytic studies. New York: Cambridge University.

Carroll, J. B. (1994). Primary mental abilities theory. In R. J. Sternberg (Ed.), Encyclope-dia of human intelligence (2nd ed., pp. 833-836). New York: Macmillan.

Carroll, J. B. (1997a). Commentary on the Keith and Witta`s hierarchical and cross-age confirmatory factor analysis of the WISC-III. School Psychology Quarterly, 12, 108-109.

Carroll, J. B. (1997b). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and Issues (pp. 122-130). New York: Guilford.

Carroll, J. B. (2003). The higher-stratum structure of cognitive abilities: Current evi-dence supports g and about ten broad factors. In H. Nyborg (Ed.), The scientific structure of general intelligence. Tribute to Arthur R. Jensen. Kidlington, Oxford: Elsevier Science.

Carroll, J. B. (2005). The Three-Stratum Theory of Cognitive Abilities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment- theories, tests, and issues (2nd ed., pp. 69-76). New York: Guilford.

Cascio, W. F. (Ed.). (1991). Applied psychology in personnel management (4th ed.). Up-per Saddle River: Prentice Hall.

Catron, D. W. & Thompson, C. C. (1979). Test-retest gains in WAIS scores after four retest intervals. Journal of Clinical Psychology, 35, 352-357.

Cattell, R. B. (1971). Abilities: Their structure, growth and action. Boston: Houghton Mifflin.

Cattell, R. B. (1987). Intelligence: Its structure, growth and action. Amsterdam: Elsevier.

Cattell, R. B. & Horn, J. L. (1978). A check on the theory of fluid and crystallized intelli-gence with description of new subtest designs. Journal of Educational Mea-surement, 15, 139-164.


Ceci, S. J. (1991). How much does schooling influence general intelligence and its cog-nitive components? A reassessment of the evidence. Developmental Psycholo-gy, 27, 703-722.

Ceci, S. J. & Williams, W. M. (1997). Schooling, intelligence, and income. American Psy-chologist, 52, 1051-1058.

Channel Wissenschaft. (2006). Menschen werden wieder dümmer. Med-dent-magazin [On-line]. Verfügbar unter: http://www.med-dent-magazin.de/archiv/2006/med-dent-magazin-07-06.pdf [19.12. 2008].

Cohen, J. (1996). Explaining psychological statistics. Pacific Grove: Brooks.

Cole, J. C. & Randall, M. K. (2003). Comparing the cognitive ability models of Spearman, Horn and Cattell, and Carroll. Journal of Psychoeducational Assessment, 21, 160-179.

Colom, R., Abad, F. J., Quiroga, M. Á., Shih, P. C. & Flores-Mendoza, C. (2008). Working memory and intelligence are highly related constructs, but why? Intelligence, 36, 584-606.

Colvin, S. S. (1921). Intelligence and its measurement: A symposium-IV. Journal of Edu-cational Psychology, 12, 136-139.

Conway, A. R. A., Cowan, N., Bunting, M. F., Therriault, D. J. & Minkoff, S. R. B. (2002). A latent variable analysis of working memory capacity, short-term memory ca-pacity, processing speed, and general fluid intelligence. Intelligence, 30, 163-183.

Daniel, M. H. (1997). Intelligence testing: Status and trends. American Psychologist, 52, 1038-1045.

Daniel, M. H. (2007). ‘Scatter’ and the construct validity of FSIQ: Comment on Fiorello et al. (2007). Applied Neuropsychology, 14, 291-295.

Das, J. P., Naglieri, J. A. & Kirby, J. R. (1994). Assessment of cognitive processes: the PASS theory of intelligence. Needham Heights: Allyn & Bacon.

Daseking, M., Janke, N. & Petermann, F. (2006). Intelligenzdiagnostik. Monatsschrift Kinderheilkunde, 154, 314-139.

Daseking, M., Lipsius, M., Petermann, F. & Waldmann, H.-C. (2008). Differenzen im Intelligenzprofil bei Kindern mit Migrationshintergrund: Befunde zum HAWIK-IV. Kindheit und Entwicklung, 17, 76-89.

Daseking, M. & Petermann, F. (2004). Testbesprechung Hamburg-Wechsler-Intelligenztest für Kinder III (HAWIK-III). Kindheit und Entwicklung, 13, 190-194.

Daseking, M., Petermann, F. & Petermann, U. (in Druck). HAWIK-IV: Grundlagen und Auswertungsstrategien. In F. Petermann & M. Daseking (Hrsg.), Fallbuch zum HAWIK-IV. Göttingen: Hogrefe.

Daseking, M., Petermann, F. & Waldmann, H.-C. (2008). Der allgemeine Fähigkeitsin-dex (AFI) – eine Alternative zum Gesamt-Intelligenzquotienten (G-IQ) des HA-WIK-IV? Diagnostica, 54, 211-220.

Daseking, M., Petermann, U. & Petermann, F. (2007). Intelligenzdiagnostik mit dem HAWIK-IV. Kindheit und Entwicklung, 16, 250-259.


Davidson, J. E. & Downing, C. L. (2000). Contemporary models of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence (pp. 33-49). Cambridge: Cambridge University.

Dearborn, W. F. (1921). Intelligence and its measurement: A symposium-XII. Journal of Educational Psychology, 12, 210-212.

Deary, I. J. & Smith, P. (2004). Intelligence research and assessment in the United King-dom. In R. J. Sternberg (Ed.), International handbook of intelligence (pp. 1-48). New York: Cambridge University.

Deimann, P. & Kastner-Koller, U. (2008). Testbesprechung HAWIK-IV. Zeitschrift für Entwicklungspsychologie und Pädagogische Psychologie, 40, 161-165.

Demetriou, A., Mouyi, A. & Spanoudis, G. (2008). Modelling the structure and devel-opment of g. Intelligence, 36, 437-454.

Diehl, J. M. & Staufenbiehl, T. (2007). Statistik mit SPSS für Windows. Version 15. Frank-furt/Main: Klotz.

Donders, J. (1996). Cluster subtypes in the WISC-III standardization sample: Analysis of factor index scores. Psychological Assessment, 8, 312-318.

Donders, J. & Janke, K. (2008). Criterion validity of the Wechsler Intelligence Scale for Children-Fourth Edition after pediatric traumatic brain injury. Journal of the International Neuropsychological Society, 14, 651-655.

Donner, S. (2006). Forscher schlagen Alarm: In den Industrieländern ist der IQ auf Tal-fahrt. Bild der Wissenschaft [On-line]. Verfügbar unter: http://www.wissenschaft.de/wissenschaft/hintergrund/253016.html [19.12. 2008].

Dumont, R. & Willis, J. O. (2004). Use of the Tellegen and Briggs formula to determine the Dumont-Willis Indexes (DWI-1 & DWI-2) for the WISC-IV [On-line]. Verfüg-bar unter: http://alpha.fdu.edu/psychology/WISCIV_DWI.htm [19.12. 2008].

Edwards, A. J. (1994). David Wechsler (1896-1981). In R. J. Sternberg (Ed.), Encyclope-dia of human intelligence (pp. 1134-1143). New York: Macmillan.

Eggert, D. (1975). Hannover Wechsler Intelligenztest für das Vorschulalter. Deutsche Bearbeitung der Wechsler Preschool and Promary Scale of Intelligence. Bern: Huber.

Eid, M. & Petermann, F. (2006). Aufgaben, Zielsetzungen und Strategien der Psycholo-gischen Diagnostik. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologi-schen Diagnostik (S. 15-25). Göttingen: Hogrefe.

Epstein, M. H., Mooney, P., Ryser, G. & Pierce, C. D. (2004). Validity and reliability of the Behavioral and Emotional Rating Scale (2nd ed.): Youth Rating Scale. Re-search on Social Work Practice, 14, 358-367.

Esters, I. G., Ittenbach, R. F. & Han, K. (1997). Today's IQ tests: Are they really better than their historical predecessors. School Psychology Review, 26, 211-223.

Evans, J. J., Floyd, R. G., McGrew, K. S. & Leforgee, M. H. (2002). The relations between measures of Cattell-Horn-Carroll (CHC) cognitive abilities and reading achieve-ment during childhood and adolescence. School Psychology Review, 31, 246-262.


Eysenck, H. J. (1939). Review of Thurstone`s Primary Mental Abilities. British Journal of Educational Psychology, 9, 270-275.

Falk, R. F., Silverman, L. K. & Moran, D. M. (2004). Using two WISC-IV Indices to identify the gifted [On-line]. Verfügbar unter: http://www.gifteddevelopment.com/PDF_files/WISC-IVIndices.pdf [19.12. 2008].

Fiorello, C. A., Hale, J. B., Holdnack, J. A., Kavanagh, J. A., Terrell, J. & Long, L. (2007). Interpreting intelligence test results for children with disabilities: Is global intel-ligence relevant? Applied Neuropsychology, 14, 2-12.

Fiorello, C. A., Hale, J. B., McGrath, M., Ryan, K. & Quinn, S. (2001). IQ interpretation for children with flat and variable test profiles. Learning and Individual Diffe-rences, 13, 115-125.

Fisseni, H.-J. (2004). Lehrbuch der psychologischen Diagnostik (3., überarbeitete u. er-weiterte Aufl.). Göttingen: Hogrefe.

Flanagan, D. P. & Kaufman, A. S. (2004). Essentials of WISC-IV Assessment. Hoboken: Wiley & Sons.

Flanagan, D. P. & McGrew, K. S. (1998). Interpreting intelligence tests from contempo-rary Gf-Gc theory: Joint confirmatory factor analysis of the WJ-R and KAIT in a non-white sample. Journal of School Psychology, 36, 151-182.

Flanagan, D. P., McGrew, K. S. & Ortiz, S. O. (2000). The Wechsler Intelligence Scales and Gf-Gc theory: A contemporary approach to interpretation. Boston: Allyn & Bacon.

Flanagan, D. P., Ortiz, S. O., Alfonso, V. C. & Mascolo, J. T. (2002). The achievement test desk reference (ADTR): Comprehensive assessment and learning disabilities. Boston: Allyn & Bacon.

Floyd, R. G., Evans, J. J. & McGrew, K. S. (2003). Relations between measures of Cattell-Horn-Carroll (CHC) cognitive abilities and mathematics achievement across the school age years. Psychology in the Schools, 40, 155-171.

Flynn, J. R. (1984). The mean IQ of Americans: Massive gains 1932 to 1978. Psychologi-cal Bulletin, 95, 29-51.

Flynn, J. R. (1999). Searching for justice: The discovery of IQ gains over time. American Psychologist, 54, 5-20.

Flynn, J. R. (2007). What is intelligence? Beyond the Flynn effect. Cambridge: Cam-bridge University.

Frank, G. (1983). The Wechsler enterprise. An assessment of the development, struc-ture, and use of the Wechsler Tests of Intelligence. Oxford: Pergamon.

Freberg, M. E., Vandiver, B. J., Watkins, M. W. & Canivez, G. L. (2008). Significant factor score variability and the validity of the WISC-III Full Scale IQ in predicting later academic achievement. Applied Neuropsychology, 15, 131-139.

Freeman, F. N. (1921). Intelligence and its measurement: A symposium-III. Journal of Educational Psychology, 12, 133-136.

Fritz, A., Preuß, U., Ricken, G. & Schuck, K. D. (2001). Hannover-Wechsler-Intelligenztest im Vorschulalter- Revision (HAWIVA-R). Bern: Huber.


Fry, A. F. & Hale, S. (1996). Processing speed, working memory, and fluid intelligence: Evidence for a developmental cascade. Psychological Science, 7, 237-241.

Fry, A. F. & Hale, S. (2000). Relationships among processing speed, working memory, and fluid intelligence in children. Biological Psychology, 54, 1-34.

Funke, J. & Vaterrodt-Plünnecke, B. (2004). Was ist Intelligenz? (2. Aufl.). München: Beck.

Gienger, C., Petermann, F. & Petermann, U. (2008). Wie stark hängen die HAWIK-IV-Befunde vom Bildungsstand der Eltern ab? Kindheit und Entwicklung, 17, 90-98.

Gignac, G. E. (2006). Evaluating subtest 'g' saturation levels via the single trait-correlated uniqueness (STCU) SEM approach: Evidence in favor of crystallized subtests as the best indicators of 'g'. Intelligence, 34, 29-46.

Glutting, J. J., McDermott, P. A. & Konold, T. R. (1997). Ontology, structure, and diag-nostic benefits of a normative subtest taxonomy from the WISC-III standardiza-tion sample. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contempo-rary intellectual assessment: Theories, tests, and issues (pp. 349-372). New York: Guilford.

Glutting, J. J., Watkins, M. W. & Youngstrom, E. A. (2003). Multifactored and cross-battery ability assessments: Are they worth the effort? In C. R. Reynolds & R. W. Kamphaus (Eds.), Handbook of psychological and educational assessment of children: Intelligence, aptitude, and achievement (2nd ed., pp. 343-377). New York: Guilford.

Goleman, D. (1995). Emotional intelligence. New York: Bantam.

Grob, A., Petermann, F., Lipsius, M., Costan-Dorigon, J., Petermann, U. & Daseking, M. (2008). Differences in Swiss and German children`s intelligence as measured by the HAWIK-IV. Swiss Journal of Psychology, 67, 113-118.

Groth-Marnat, G. (Ed.). (1997). Handbook of psychological assessment (3rd ed.). New York: Wiley.

Guilford, J. P. & Fruchter, B. (1978). Fundamental statistics in psychology and educa-tion (6th ed.). New York: McGraw-Hill.

Guthke, J. (1999). Intelligenzdaten. In R. S. Jäger & F. Petermann (Hrsg.), Psychologi-sche Diagnostik (Bd. 4, S. 396-412). München: Beltz.

Häcker, H., Leutner, D. & Amelang, M. (Hrsg.). (1998). Standards für pädagogisches und psychologisches Testen. Bern: Huber.

Haggerty, M. E. (1921). Intelligence and its Measurement: A symposium-XIII. Journal of Educational Psychology, 12, 212-216.

Hagmann-von Arx, P., Meyer, C. S. & Grob, A. (2008). Assessing intellectual giftedness with the WISC-IV and the IDS. Zeitschrift für Psychologie, 216, 172-179.

Hale, J. B., Fiorello, C. A., Kayanagh, J. A., Hoeppner, J. B. & Gaither, R. A. (2001). WISC-III predictors of academic achievement for children with learning disabilities: Are global and factor scores comparable? School Psychology Quarterly, 16, 31-55.

Hall, J. D., Howerton, D. L. & Bolin, A. U. (2005). The use of testing technicians: Critical issues for professional psychology. International Journal of Testing, 5, 357-375.


Hardesty, F. P. & Priester, H. J. (1956). Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK). Bern: Huber.

Heitz, R. P., Unsworth, N. & Engle, R. W. (2005). Working memory capacity, attention control, and fluid intelligence. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 61-77). Thousand Oaks: Sage.

Henmon, V. A. C. (1921). Intelligence and its measurement: A symposium-VIII. Journal of Educational Psychology, 12, 195-198.

Holling, H., Preckel, F. & Vock, M. (2004). Intelligenzdiagnostik. Göttingen: Hogrefe.

Holocher-Ertl, S., Kubinger, K. D. & Hohensinn, C. (2008). Hochbegabungsdiagnostik: HAWIK-IV und AID 2. Kindheit und Entwicklung, 17, 99-106.

Horn, J. L. (1985). Remodeling old models of intelligence. In B. B. Wolman (Ed.), Hand-book of intelligence: Theories, measurement, and applications (pp. 267-300). New York: Wiley.

Horn, J. L. (1988). Thinking about human abilities. In J. R. Nesselroade (Ed.), Handbook of mulitivariate psychology (pp. 267-300). New York: Academic.

Horn, J. L. (1991). Measurement of intellectual capabilities: a review of theory. In K. S. McGrew, J. K. Werder & R. W. Woodcock (Eds.), Woodcock-Johnson Technical Manual. Allen: DLM Teaching.

Horn, J. L. (1994). Theory of fluid and crystallized intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 443-451). New York: Macmillan.

Horn, J. L. & Blanksen, N. (2005). Foundations for better understanding of cognitive ablities. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual as-sessment: Theories, tests, and issues (2nd ed., pp. 41-68). New York: Guilford.

Horn, J. L. & Cattell, R. B. (1966). Refinement and test of the theory of fluid and crystal-lized general intelligences. Journal of Educational Psychology, 57, 253-270.

Horn, J. L. & Cattell, R. B. (1967). Age differences in fluid and crystallized intelligence. Acta Psychologica, 26, 107-129.

Horn, J. L. & McArdle, J. J. (2007). Understanding human intelligence since Spearman. In R. Cudeck & R. MacCallum (Eds.), Factor analysis at 100 (pp. 205-248). Mah-wah: Erlbaum.

Horn, J. L. & Noll, J. (1994). A system for understanding cognitive capabilities: A theory and the evidence on which it is based. In D. K. Detterman (Ed.), Current topics in human intelligence (Vol. 4, pp. 151-203). Norwood: Ablex.

Horn, J. L. & Noll, J. (1997). Human cognitive capabilities: Gf-gc theory. In D. P. Flana-gan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary intellectual assess-ment: Theories, tests, and issues (pp. 53-91). New York: Guilford.

Humphreys, L. G. (1962). The organization of human abilities. American Psychologist, 17, 475-483.

International Test Comission. (2000). International guidelines for test use [On-line]. Verfügbar unter: http:// www.intestcom.org/test_use_full.htm [19.12.2008].

International Test Commission, Commission Internationale des Tests & Berufsverband Deutscher Psychologinnen und Psychologen. (2001). Internationale Richtlinien


für die Testanwendung. Version 2000. Deutsche Fassung [On-line]. Verfügbar unter: http://ftp.zpid.de/pub/tests/itc_richtlinien.pdf [19.12.2008].

Jacobs, C., Heubrock, D. & Petermann, F. (2002). Testinformation: Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK-III). Diagnostica, 48, 159-162.

Jäger, A. O. (1986). Validität von Intelligenztests. Diagnostica, 32, 272-289.

Jäger, R. S. & Petermann, F. (1999). Einleitung. In R. S. Jäger & F. Petermann (Hrsg.), Psychologische Diagnostik (4. Aufl., S. 11-13). Weinheim: Beltz.

Janke, K. M. & Donders, J. (2008). Sensitivity of the WISC-IV to pediatric traumatic brain injury. Clinical Neuropsychologist, 22, 446.

Jensen, A. R. (1972). Genetics and education. London: Methuen.

Jensen, A. R. (1998). The g factor: The science of mental ability. Westport: Praeger.

Jensen, A. R. (2002). Psychometric g: Definition and substantiation. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general factor of intelligence. How general is it? (pp. 39-53). Mahwah: Erlbaum.

Jensen, A. R. (2004). Obituary. Intelligence, 32, 1-5.

Johnson Grados, J. & Russo-Garcia, K. A. (1999). Comparison of the Kaufman Brief In-telligence Test and the Wechsler Intelligence Scale for Children—Third Edition in economically disadvantaged African American youth. Journal of Clinical Psy-chology, 55, 1063-1071.

Kähler, W. M. (2008). Statistische Datenanalyse: Verfahren verstehen und mit SPSS gekonnt einsetzen (5. Aufl.). Wiesbaden: Vieweg.

Kail, R. (2000). Speed of Information Processing: Developmental change and links to intelligence. Journal of School Psychology, 38, 51-61.

Kail, R. & Salthouse, T. A. (1994). Processing speed as a mental capacity. Acta Psycho-logica, 86, 199-225.

Kamphaus, R. W. (1993). Clinical assessment of children`s intelligence. Boston: Allyn & Bacon.

Kamphaus, R. W. (Ed.). (2005). Clinical assessment of child and adolescent intelligence (2nd ed.). New York: Springer.

Kamphaus, R. W., Winsor, A. P., Rowe, E. W. & Kim, F. (2005). A history of intelligence test interpretation. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intel-lectual assessment (2nd ed., pp. 23-38). New York: Guilford.

Kanaya, T., Ceci, S. J. & Scullin, M. H. (2005). Age differences within secular IQ trends: An individual growth modeling approach. Intelligence, 33, 613-621.

Kaufman, A. S. (1992). Evaluation of the WISC-III and WPPSI-R for gifted children. Roe-per Review, 14, 154-158.

Kaufman, A. S. (1993). King WISC the Third assumes the throne. Journal of School Psy-chology, 31, 345-354.

Kaufman, A. S. (1994a). Intelligent testing with the WISC-III. New York: Wiley.

Kaufman, A. S. (1994b). Practice effects. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (Vol. 2, pp. 828-833). New York: Macmillan.


Kaufman, A. S., Flanagan, D. P., Alfonso, V. C. & Mascolo, J. T. (2006). Test Review: Wechsler Intelligence Scale for Children, Fourth Edition (WISC-IV). Journal of Psychoeducational Assessment, 24, 278-295.

Kaufman, A. S. & Kaufman, N. L. (2004). Kaufman Assessment Battery for Children, Second Edition (KABC-II). Circle Pines: AGS.

Kaufman, A. S. & Lichtenberger, E. O. (2006). Assessing adolescent and adult intelli-gence (3rd ed.). Hoboken: Wiley.

Keith, T. Z., Fine, J. G., Taub, G. E., Reynolds, M. R. & Kranzler, J. H. (2006). Higher or-der, multisample, confirmatory factor analysis of the Wechsler Intelligence Scale for Children - Fourth Edition: What does it measure? School Psychology Review, 35, 108-127.

Keith, T. Z. & Witta, E. L. (1997). Hierarchical and cross-age confirmatory factor analysis of the WISC-III: What does it measure? School Psychology Quarterly, 12, 89-107.

Konold, T. R., Kush, J. C. & Canivez, G. L. (1997). Factor replication of the WISC-III in three independent samples of children receiving special education. Journal of Psychoeducational Assessment, 15, 123-137.

Kubinger, K. D. (2006). Psychologische Leistungstests. In F. Petermann & M. Eid (Hrsg.), Handbuch der Psychologischen Diagnostik (S. 118-126). Göttingen: Hogrefe.

Lehrl, S. (2005). Mehrfachwahl-Wortschatz-Intelligenztest MWT-B (5. Aufl.). Balingen: Spitta.

Lepach, A. & Petermann, F. (2007). Battery of Assessment in Children - Merk- und Lern-fähigkeitstest (BASIC-MLT). Bern: Huber.

Lepach, A., Petermann, F. & Schmidt, S. (2008). Comparison of the BASIC-Memory and Learning Test and the WISC-IV under developmental aspects. Zeitschrift für Psy-chologie, 216, 180-186.

Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Aufl.). Weinheim: Beltz.

Linger, M. L., Ray, G. E., Zachar, P., Underhill, A. T. & Lobello, S. G. (2007). Decreasing scoring errors on Wechsler scale vocabulary, comprehension, and similarities subtests: A preliminary study. Psychological Reports, 101, 661-669.

Lipsius, M., Petermann, F. & Daseking, M. (2008). Wie beeinflussen Testleiter die HA-WIK-IV-Befunde? Kindheit und Entwicklung, 17, 107-117.

Loe, S. A., Kadlubek, R. M. & Marks, W. J. (2007). Administration and scoring errors on the WISC-IV among graduate student examiners. Journal of Psychoeducational Assessment, 25, 237-247.

Lynn, R. (2009). What has caused the Flynn effect? Secular increases in the Develop-ment Quotients of infants. Intelligence, 37, 16-24.

Lynn, R. & Harvey, J. (2008). The decline of the world`s IQ. Intelligence, 36, 112-120.

Matarazzo, J. D. (1990). Psychological assessment versus psychological testing: Valida-tion from Binet to the school, clinic, and courtroom. American Psychologist, 45, 999-1017.


Matarazzo, R. G., Wiens, A. N., Matarazzo, J. D. & Manaugh, T. S. (1973). Test-retest reliability of the WAIS in a normal population. Journal of Clinical Psychology, 29, 194-197.

Mayer, J. D. & Salovey, P. (1993). The intelligence of emotional intelligence. Intelli-gence, 17, 433-442.

Mayes, S. D. & Calhoun, S. L. (2004). Similarities and differences in Wechsler Intelli-gence Scale for Children – Third Edition (WISC-III) profiles: Support for subtest analysis in clinical referrals. The Clinical Neuropsychologist, 18, 559-572.

McCaffrey, R. J., Duff, K. & Westervelt, H. J. (2000). Practitioner’s guide to evaluation change with intellectual assessment instruments. New York: Kluwer.

McDermott, P. A., Fantuzzo, J. W. & Glutting, J. J. (1990). Just say no to subtest analy-sis: A critique on Wechsler theory and practice. Journal of Psychoeducational Assessment, 8, 290-302.

McFie, J. (1975). Assessment of organic intellectual impairment. Oxford: Academic.

McGrew, K. S. (1997). Analysis of the major intelligence batteries according to a pro-posed comprehensive Gf-Gc framework. In D. P. Flanagan, J. L. Genshaft & P. L. Harrison (Eds.), Contemporary Intellectual Assessment. Theories, tests, and is-sues (pp. 151-174). New York: Guilford

McGrew, K. S. (2005). The Cattell-Horn-Carroll Theory of Cognitive Abilities: Past, present, and future. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary in-tellectual assessment: Theories, tests, and issues (2nd ed., pp. 136-182). New York: Guilford.

McGrew, K. S. & Flanagan, D. P. (1998). The Intelligence Test Desk Reference (ITDR): Gf-Gc cross-battery assessment. Boston: Allyn & Bacon.

McGrew, K. S., Flanagan, D. P., Keith, T. Z. & Vanderwood, M. (1997). Beyond g: The impact of Gf-Gc specific cognitive abilities research on the future use and inte-pretation of intelligence test batteries in the schools. School Psychology Re-view, 26, 189-210.

McGrew, K. S. & Woodcock, R. W. (2001). Technical Manual. Woodcock-Johnson III. Itasca: Riverside.

Moosbrugger, H. & Höfling, V. (2006). Testdurchführung und -auswertung. In F. Peter-mann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 449-456). Göttingen: Hogrefe.

Naglieri, J. A. (1999). Essentials of CAS assessment. New York: Wiley.

Naglieri, J. A. & Das, J. P. (2002). Practical implications of general intelligence and PASS cognitive processes. In R. J. Sternberg & E. L. Grigorenko (Eds.), The general fac-tor of intelligence. How general is it? (pp. 55-84). Mahwah: Erlbaum.

Naglieri, J. A. & Paolitto, A. W. (2005). Ipsative comparisons of WISC-IV index scores. Applied Neuropsychology, 12, 208-211.

Neisser, U. (1979). The concept of intelligence. In R. J. Sternberg & D. K. Detterman (Eds.), Human intelligence: Perspectives on its theory and measurement. Nor-wood: Ablex.


Neisser, U., Boodoo, G., Bouchard Jr, T. J., Boykin, A. W., Brody, N., Ceci, S. J.et al. (1996). Intelligence: Knowns and unknowns. American Psychologist, 51, 77-101.

Neubauer, A. C. & Knorr, E. (1998). Three paper-and-pencil tests for speed of informa-tion processing: Psychometric properties and correlations with intelligence. In-telligence, 26, 123-151.

Newman, T. M. (2008). Assessment of giftedness in school-age children using measures of intelligence or cognitive abilities. In S. I. Pfeiffer (Ed.), Handbook of gifted-ness in children (pp. 161-176). New York: Springer.

O`Shea, A. G., Harel, B. & Fein, D. (2002). Neuropsychological assessment of the pre-school child. In S. J. Segalowitz & I. Rapin (Eds.), Handbook of Neuropsychology (2 ed., Vol. 8, pp. 249-280). Amsterdam: Elsevier.

Perlow, R., Jattuso, M. & Moore, D. D. (1997). Role of verbal working memory in com-plex skill acquisition. Human Performance, 10, 283-302.

Petermann, F. (2006). Intelligenzdiagnostik. Kindheit und Entwicklung, 15, 71-75.

Petermann, F. & Lepach, A. C. (2007). Klinische Kinderneuropsychologie. Kindheit und Entwicklung, 16, 1-6.

Petermann, F. & Petermann, U. (2008a). Hamburg-Wechsler-Intelligenztest für Kinder-IV (HAWIK-IV) (2. ergänzte Aufl.). Bern: Huber.

Petermann, F. & Petermann, U. (2008b). HAWIK-IV. Kindheit und Entwicklung, 17, 71-75.

Peterson, J. (1921). Intelligence and its measurement: A symposium-IX. Journal of Edu-cational Psychology, 12, 198-201.

Petrill, A. (2005). Behavioral genetics and intelligence. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 165-176). Thousand Oaks: Sage.

Pfeiffer, S. I., Reddy, L. A., Kletzel, J. E., Schmelzer, E. R. & Boyer, L. M. (2000). The prac-titioner's view of IQ testing and profile analysis. School Psychology Quarterly, 15, 376-385.

Phelps, L., McGrew, K. S., Knopik, S. N. & Ford, L. (2005). The general (g), broad, and narrow CHC stratum characteristics of the WJ III and WISC-III tests: A confirma-tory cross-battery investigation. School Psychology Quarterly, 20, 66-88.

Piaget, J. (1984). Psychologie der Intelligenz (8. Aufl. in der vollst. überarbeitete Übers. der 2. Aufl.). Stuttgart: Klett-Cotta.

Pintner, R. (1921). Intelligence and its measurement: A symposium-V. Journal of Edu-cational Psychology, 12, 139-143.

Platt, T. L., Zachar, P., Ray, G. E., Underhill, A. T. & Lobello, S. G. (2007). Does Wechsler Intelligence Scale administration and scoring proficiency improve during as-sessment training? Psychological Reports, 100, 547-555.

Preckel, F. (2003). Diagnostik intellektueller Hochbegabung. Bern: Hogrefe.

Prenzel, M., Baumert, J., Blum, W., Lehmann, R., Leutner, D., Neubrand, M.et al. (Hrsg.). (2004). PISA 2003. Der Bildungsstand der Jugendlichen in Deutschland - Ergebnisse des zweiten internationalen Vergleichs. Münster: Waxmann.


Preusche, I. & Leiss, U. (2003). Intelligenztests für Kinder. HAWIK-III, AID-2 und K-ABC im Vergleich. Report Psychologie, 28, 12-26.

Prifitera, A. (1994). Wechsler scales of intelligence. In R. J. Sternberg (Ed.), Encyclope-dia of human intelligence (pp. 1136-1143). New York: Macmillan.

Prigatano, G. P., Gray, J. A. & Gale, S. D. (2008). Individual case analysis of processing speed difficulties in children with and without traumatic brain injury. Clinical Neuropsychologist, 22, 603-619.

Quereshi, M. Y. (1968). Practice effects on the WISC subtest scores and IQ estimates. Journal of Clinical Psychology, 24, 79-85.

Raiford, S. E., Weiss, L. G., Rolfhus, E. L. & Coalson, D. (2005). Technical Report # 4 General Ability Index. San Antonio: Psychological Corporation.

Raven, J., Raven, J. C. & Court, J. H. (1998). Manual for Raven`s progressive matrices and vocabulary scales. Oxford: Oxford Psychologists.

Reddon, J. R., Vander Veen, S. & Reddon, J. E. (2004). Seemingly anomalous Full Scale IQ scores on the WAIS-III and the WISC-III. Current Psychology, 23, 86-94.

Reddon, J. R., Whippler, S. M. & Reddon, J. E. (2007). Seemingly anomalous WISC-IV Full Scale IQ scores in the American and Canadian standardization samples. Current Psychology, 26, 60-69.

Renner, G. (2008). Neuere Testverfahren. Praxis der Kinderpsychologie und Kinderpsy-chiatrie, 57, 154-162.

Renner, G. & Fricke, T. (2001). Der Hamburg-Wechsler-Intelligenztest für Kinder - dritte Auflage (HAWIK-III). Report Psychologie, 26, 460-477.

Reynolds, C. R. & Kaufman, A. S. (1990). Assessment of childrens intelligence with the Wechsler Intelligence Scale for Children - Revised (WISC-R). In C. R. Reynolds & R. W. Kamphaus (Eds.), Handbook of psychological and educational assessment of children: Intelligence and achievement (pp. 127-165). New York: Guilford.

Riccio, C. A., Cohen, M. J., Hall, J. & Ross, C. M. (1997). The third and fourth factors of the WISC-III: What they don't measure. Journal of Psychoeducational Assess-ment, 15, 27-39.

Ricken, G., Fritz, A., Schuck, K. D. & Preuß, U. (2007). Hannover-Wechsler-Intelligenztest für Kinder im Vorschulalter III (HAWIVA-III). Bern: Huber.

Rodgers, J. L. (1998). A critique of the Flynn Effect: Massive IQ gains, methodological artifacts, or both? Intelligence, 26, 337-356.

Roid, G. H. (2003). Stanford-Binet Intelligence Scales, Fifth Edition. Itasca: Riverside.

Roid, G. H. & Pomplun, M. (2005). Interpreting the Stanford-Binet Intelligence Scales, Fifth Edition. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary Intellectual Assessment (2nd ed., pp. 325-343). New York: Guilford.

Russell, E. W. (1992). Comparison of two methods for converting the WAIS to the WAIS-R. Journal of Clinical Psychology, 48, 355-359.

Sabatino, D. A., Spangler, R. S. & Vance, H. B. (1995). The relationship between the Wechsler Intelligence Scale for Children-Revised and the Wechsler Intelligence Scale for Children-III scales and subtests with gifted children. Psychology in the Schools, 32, 18-23.


Saß, H., Wittchen, H.-U., Zaudig, M. & Houben, I. (2003). Diagnostisches und Statisti-sches Manual psychischer Störungen – Textrevision (DSM-IV-TR). Göttingen: Hogrefe.

Sattler, J. M. (2001). Assessment of children: Cognitive applications (4th ed.). San Diego: Author.

Schaarschmidt, U., Ricken, G., Kieschke, U. & Preuß, U. (2004). Bildbasierter Intelligenz-test für das Vorschulalter (BIVA). Göttingen: Hogrefe.

Schatz, J., Kramer, J. H., Ablin, A. & Matthay, K. K. (2000). Processing speed, working memory, and IQ: A developmental model of cognitive deficits following cranial radiation therapy. Neuropsychology, 14, 189-200.

Schlittgen, R. (2004). Statistische Auswertungen: Standardmethoden und Alternativen mit ihrer Durchführung in R. München: Oldenbourg.

Schorr, A. (1995). Stand und Perspektiven diagnostischer Verfahren in der Praxis. Er-gebnisse einer repräsentativen Befragung westdeutscher Psychologen. Dia-gnostica, 41, 3-20.

Scott, K. A. (2006). Is the GAI a good short form of the WISC-IV?. Marshall University Libraries.

Sheppard, L. D. & Vernon, P. A. (2007). Intelligence and speed of information-processing: A review of 50 years of research. Personality and Individual Differ-ences, 44, 535-551.

Siders, A., Kaufman, A. S. & Reynolds, C. R. (2006). Do practice effects on Wechsler's Performance subtests relate to children's general ability, memory, learning abi-lity, or attention? Applied Neuropsychology, 13, 242-250.

Sparrow, S. S. & Gurland, S. T. (1998). Assessment of gifted children with the WISC-III. In A. Prifitera & D. H. Saklofske (Eds.), WISC-III clinical use and interpretation (pp. 59-72). San Antonio: Harcourt.

Sparrow, S. S., Pfeiffer, S. I. & Newman, T. M. (2005). Assessment of children who are gifted with the WISC-IV. In A. Prifitera, D. H. Saklofske & L. G. Weiss (Eds.), WISCV-IV clinical use and interpretation - scientist-practitioner perspectives (1st ed., pp. 281-299). San Diego: Elsevier.

Spearman, C. (1904). ‘General Intelligence’, objectively determined and measured. American Journal of Psychology, 15, 201-293.

Spearman, C. (1927). The abilities of man: Their nature and measurement. New York: Macmillan.

Spearman, C. (1939). Thurstone`s work reworked. Journal of Educational Psychology, 30, 1-16.

Stankov, L. (2005). g Factor. Issues of design and interpretation. In O. Wilhelm & R. W. Engle (Eds.), Handbook of understanding and measuring intelligence (pp. 279-293). Thousand Oaks: Sage.

Statistisches Bundesamt. (2007). Allgemeinbildende Schulen. Schüler/innen nach Schul-arten [On-line]. Verfügbar unter: http://www.destatis.de/jetspeed/portal/cms/Sites/destatis/Internet/DE/Content/Statistiken/BildungForschungKultur/Schulen/Tabellen/Content75/AllgemeinbildendeSchulenSchulartenSchueler,templateId=renderPrint.psml [19.12.2008].


Steck, P. (1997). Psychologische Testverfahren in der Praxis. Ergebnisse einer Umfrage unter Testanwendern. Diagnostica, 43, 267-284.

Stern, W. (1911). Differentielle Psychologie in ihren methodischen Grundlagen. Leipzig: Barth.

Sternberg, R. J. (1985a). Human intelligence: The model is the message. Science, 230, 1111-1118.

Sternberg, R. J. (1985b). Implicit theories of intelligence, creativity, and wisdom. Jour-nal of Personality & Social Psychology, 49, 607-627.

Sternberg, R. J. (1997a). The concept of intelligence and its role in lifelong learning and success. American Psychologist, 52, 1030-1037.

Sternberg, R. J. (1997b). Successful intelligence. New York: Plume.

Sternberg, R. J. (2000a). The ability is not general, and neither are the conclusions. Be-havioral and Brain Sciences, 23, 697-698.

Sternberg, R. J. (2000b). The concept of intelligence. In R. J. Sternberg (Ed.), Handbook of intelligence. New York: Cambridge University.

Sternberg, R. J. (2002). Beyond g: The theory of successful intelligence. In R. J. Stern-berg & E. L. Grigorenko (Eds.), The general factor of intelligence: How general is it? (pp. 447-479). Mahwah: Erlbaum.

Sternberg, R. J. (2004). North american approaches to intelligence. In R. J. Sternberg (Ed.), International handbook of intelligence (pp. 411-444). Cambridge: Cam-bridge University.

Sternberg, R. J., Conway, B. E., Ketron, J. L. & Bernstein, M. (1981). People's concep-tions of intelligence. Journal of Personality & Social Psychology, 41, 37-55.

Sternberg, R. J. & Detterman, D. K. (Eds.). (1986). What is intelligence? Contemporary viewpoints on its nature and definition. Norwood: Ablex.

Sternberg, R. J. & Grigorenko, E. L. (Eds.). (2002). General factor of intelligence: How general is it? Mahwah: Erlbaum.

Strauss, E., Spreen, O. & Hunter, M. (2000). Implications of test revisions for research. Psychological Assessment, 12, 237-244.

Sundet, J. M., Barlaug, D. G. & Torjussen, T. M. (2004). The end of the Flynn effect? A study of secular trends in mean intelligence test scores of Norwegian conscripts during half a century. Intelligence, 32, 349-362.

Swanson, H. L. (1996). Individual and age-related differences in children’s working memory. Memory & Cognition, 24, 70-82.

Teasdale, T. W. & Owen, D. R. (1989). Continuing secular increases in intellgence and a stable prevalence of high intelligence levels. Intelligence, 13, 255-262.

Teasdale, T. W. & Owen, D. R. (2008). Secular declines in cognitive test scores: A rever-sal of the Flynn Effect. Intelligence, 36, 121-126.

Tellegen, P. J., Laros, J. A. & Petermann, F. (2007). SON-R 2½-7 Non-verbaler Intelli-genztest. Testmanual mit deutscher Normierung und Validierung. Göttingen: Hogrefe.


Terman, L. M. (1921). Intelligence and its measurement: A symposium-II. Journal of Educational Psychology, 12, 127-133.

Tewes, U. (1983). Hamburg-Wechsler-Intelligenztest für Kinder, Revision 1983 (HAWIK-R). Bern: Huber.

Tewes, U. (1991). Hamburg-Wechsler-Intelligenztest für Erwachsene - Revision (HAWIE-R). Bern: Huber.

Tewes, U., Rossmann, P. & Schallberger, U. (1999). Hamburg-Wechsler-Intelligenztest für Kinder (HAWIK-III). Bern: Huber.

Tewes, U., Rossmann, P. & Schallberger, U. (2002). Hamburg-Wechsler-Intelligenztest für Kinder - dritte Auflage : HAWIK-III. Bern: Huber.

Tewes, U. & Titze, I. (1994). Hamburg-Wechsler Intelligenztest für Kinder, Revision 1983. HAWIK-R. Handbuch und Testanweisung. Bern: Huber.

Thompson, A. P. & Molly, K. (1993). The stability of WAIS-R IQ for 16-year old students retested after 3 and 8 months. Journal of Clinical Psychology, 49, 891-898.

Thorndike, E. L. (1921). Intelligence and its measurement: A symposium-I. Journal of Educational Psychology, 12, 124-127.

Thurstone, L. L. (1921). Intelligence and its measurement: A symposium-X. Journal of Educational Psychology, 12, 201-207.

Thurstone, L. L. (1938). Primary mental abilities. Chicago: University of Chicago.

Thurstone, L. L. & Thurstone, T. G. (1941). Factorial studies of intelligence. Chicago: University of Chicago.

Titze, I. & Tewes, U. (1994). Messung der Intelligenz bei Kindern mit dem HAWIK-R. Bern: Huber.

Tulsky, D. S. & Price, L. R. (2003). The joint WAIS-III and WMS-III factor structure: De-velopment and cross-validation of a six-factor model of cognitive functioning. Psychological Assessment, 15, 149-162.

Vernon, P. A. (1969). Intelligence and cultural environment. London: Methuen.

Vock, M. & Holling, H. (2006). Intelligenzdiagnostik. In F. Petermann & M. Eid (Hrsg.), Handbuch der psychologischen Diagnostik (S. 494-502). Göttingen: Hogrefe.

von Aster, M., Neubauer, A. & Horn, R. (2006). Wechsler Intelligenztest für Erwachsene (WIE). Frankfurt: Harcourt.

Waldmann, H.-C. (2008). Kurzformen des HAWIK-IV: Statistische Bewertung in ver-schiedenen Anwendungsszenarien. Diagnostica, 54, 202-210.

Watkins, M. W. (2005). Diagnostic validity of Wechsler subtest scatter. Learning Dis-abilities: A Contemporary Journal, 3, 18-27.

Watkins, M. W. (2006). Orthogonal higher order structure of the Wechsler Intelligence Scale for Children - Fourth Edition. Psychological Assessment, 18, 123-125.

Watkins, M. W. & Canivez, G. L. (2004). Temporal stability of WISC-III subtest compo-site: Strengths and weaknesses. Psychological Assessment, 16, 133-138.

Watkins, M. W. & Kush, J. C. (1994). Wechsler subtest analysis: The right way, the wrong way, or no way? School Psychology Review, 23, 640-651.


Watkins, M. W., Lei, P.-W. & Canivez, G. L. (2007). Psychometric intelligence and achievement: A cross-lagged panel analysis. Intelligence, 35, 59-68.

Watkins, M. W., Wilson, S. M., Kotz, K. M., Carbone, M. C. & Babula, T. (2006). Factor structure of the Wechsler Intelligence Scale for Children-Fourth Edition among referred students. Educational and Psychological Measurement, 66, 975-983.

Wechsler, D. (1939a). The measurement of adult intelligence. Baltimore: Williams & Wilkins.

Wechsler, D. (1939b). Wechsler-Bellevue Intelligence Scale. San Antonio: Psychological Corporation.

Wechsler, D. (1940). Non-intellective factors in general intelligence. Psychological Bul-letin, 37, 444-445.

Wechsler, D. (1943). Non-intellective factors in general intelligence. Journal of Abnor-mal and Social Psychology, 38, 101-103.

Wechsler, D. (1944). The measurement of adult intelligence (3rd ed.). Baltimore: Wil-liams & Wilkins.

Wechsler, D. (1946). The Wechsler-Bellevue Intelligence Scale Form II: Manual for ad-ministering and scoring the test. San Antonio: Psychological Corporation.

Wechsler, D. (1949). Wechsler Intelligence Scale for Children. San Antonio: Psychologi-cal Corporation.

Wechsler, D. (1950). Cognitive, conative, and non-intellective intelligence. American Psychologist, 5, 78-83.

Wechsler, D. (1955). Manual for the Wechsler Adult Intelligence Scale. San Antonio: Psychological Corporation.

Wechsler, D. (1958). The measurement and appraisal of adult intelligence (4th ed.). Baltimore: Williams & Wilkins.

Wechsler, D. (1967). Manual for the Wechsler Preschool and Primary Scale of Intelli-gence. San Antonio: Psychological Corporation.

Wechsler, D. (1974). Wechsler Intelligence Scale for Children - Revised. San Antonio: Psychological Corporation.

Wechsler, D. (1975). Intelligence defined and undefined: A relativistic appraisal. Ameri-can Psychologist, 30, 135-139.

Wechsler, D. (1981). Manual for the Wechsler Adult Intelligence Scale - Revised. San Antonio: Psychological Corporation.

Wechsler, D. (1989). Manual for the Wechsler Preschool and Primary Scale of Intelli-gence-revised. San Antonio: Psychological Corporation.

Wechsler, D. (1991). Wechsler Intelligence Scale for Children - Third Edition. San Anto-nio: Psychological Corporation.

Wechsler, D. (1992). Wechsler Intelligence Scale for Children - WISC-III UK Manual. London: Psychological Corporation.

Wechsler, D. (1997). Wechsler Adult Intelligence Scale - Third Edition. San Antonio: Psy-chological Corporation.


Wechsler, D. (2002). Wechsler Preschool and Primary Scale of Intelligence - Third Edi-tion. San Antonio: Psychological Corporation.

Wechsler, D. (2003a). Wechsler Intelligence Scale for Children - Fourth Edition (WISC-IV). Administration and scoring manual. San Antonio: Psychological Corpora-tion.

Wechsler, D. (2003b). Wechsler Intelligence Scale for Children - Fourth Edition. Tech-nical and interpretative manual. San Antonio: Psychological Corporation.

Weiss, L. G., Saklofske, D. H., Prifitera, A., Chen, H.-Y. & Hildebrand, D. K. (1999). The calculation of the WISC-Ill General Ability Index using Canadian norms. Cana-dian Journal of School Psychology, 14, 1-10.

Weiß, R. H. (2006). Grundintelligenztest Skala 2 - Revision - (CFT 20-R). Göttingen: Ho-grefe.

Wolke, D. & Söhne, B. (1997). Wenn der Schein trügt: Zur kritischen Interpretation von Entwicklungsstudien. Monatsschrift Kinderheilkunde, 145, 444-456.

Woodcock, R. W. (1990). Theoretical foundations of the WJ-R measures of cognitive abilities. Journal of Psychoeducational Assessment, 8, 231-258.

Woodcock, R. W. (1994). Measures of fluid and crystallized theory of intelligence. In R. J. Sternberg (Ed.), Encyclopedia of human intelligence (pp. 452-456). New York: Macmillan.

Woodcock, R. W., McGrew, K. S. & Mather, N. (2001). The Woodcock-Johnson III. Itas-ca: Riverside.

Woodrow, H. (1921). Intelligence and its measurement: A symposium-XI. Journal of Educational Psychology, 12, 207-210.

Zachary, R. A. (1990). Wechsler`s intelligence scales: Theoretical and practical consid-erations. Journal of Psychoeducational Assessment, 8, 276-289.

Zhu, J. & Tulsky, D. S. (2000). Co-norming the WAIS-III and WMS-III: Is there a test-order effect on IQ and memory scores? The Clinical Neuropsychologist, 14, 461-467.

Zhu, J. & Weiss, L. G. (2005). The Wechsler Scales. In D. P. Flanagan & P. L. Harrison (Eds.), Contemporary intellectual assessment: Theories, tests, and issues (2nd ed., pp. 297-324). New York: Guilford.

Zhu, J., Weiss, L. G., Prifitera, A. & Coalson, D. (2004). The Wechsler Intelligence Scales for children and adults. In G. Goldstein & S. R. Beers (Eds.), Comprehensive handbook of psychological assessment (Vol. 1, S. 51-75). Hoboken: Wiley.

Anhang 217

Anhang

Abbildungsverzeichnis Abbildung 3.1: Das Zwei-Faktoren-Modell (modifiziert nach Spearman, 1927) ......................................... 19

Abbildung 3.2: Cattell-Horn Gf-Gc-Modell (modifiziert nach McGrew, 2005) ............................................ 24

Abbildung 3.3: Three-Stratum-Theorie der kognitiven Fähigkeiten (modifiziert nach Carroll, 1992; 1993) ............................................................................................................................................................. 27

Abbildung 3.4: Cattell-Horn-Carroll-Modell (modifiziert nach McGrew, 2005) .......................................... 30

Abbildung 3.5: Struktur der Cattell-Horn-Carroll (CHC) Theorie der kognitiven Fähigkeiten (modifiziert nach Daseking, Petermann & Petermann, 2007) ................................................................................ 32

Abbildung 4.1: Hierarchische Struktur des HAWIK-III (modifiziert nach Tewes et al., 2002, S. 86) ............ 47

Abbildung 4.2: Die hierarchische Struktur des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) .................................................................................................................................................. 50

Abbildung 7.1: Design der Studie. .............................................................................................................112

Abbildung 7.2: Geschlechtsverteilung der Gesamtstichprobe über die 11 Altersgruppen. .....................114

Abbildung 7.3: Aufteilung der Länge des Re-Testintervalls über die 11 Altersgruppen. ..........................114

Abbildung 7.4: Verteilung der Reihenfolge der Testvorgabe über die 11 Altersgruppen. .......................115

Abbildung 7.5: Altersverteilung der gematchten Stichprobe. ..................................................................116

Abbildung 8.1: Box-Plot des Gesamt-, Verbal- und Handlungs-IQ des HAWIK-III. ....................................125

Abbildung 8.2: Box-Plot der Indizes SV, WO, UA und AG des HAWIK-III. .................................................126

Abbildung 8.3: Box-Plot des Gesamt-IQ, SV, WLD, AGD und VG des HAWIK-IV. ......................................128

Abbildung 8.4: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....132

Abbildung 8.5: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). ...........................................................................................................................................133

Abbildung 8.6: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (kurzes Intervall). ....133

Abbildung 8.7: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (kurzes Intervall). ...........................................................................................................................................134

Abbildung 8.8: Mittelwerte der HAWIK-III-Untertests getrennt nach Testvorgabe (langes Intervall). ....134

Abbildung 8.9: Mittelwerte der HAWIK-III-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). ...........................................................................................................................................135

Abbildung 8.10: Mittelwerte der HAWIK-IV-Untertests getrennt nach Testvorgabe (langes Intervall). ..135

Abbildung 8.11: Mittelwerte der HAWIK-IV-Index- und Gesamtwerte getrennt nach Testvorgabe (langes Intervall). ...........................................................................................................................................136

Anhang 218

Tabellenverzeichnis Tabelle 2.1: Übersicht über die wichtigsten Intelligenzvorstellungen (modifiziert nach Sternberg, 1985a)

............................................................................................................................................................. 11

Tabelle 4.1: Die Wechsler-Intelligenzskalen im Überblick .......................................................................... 45

Tabelle 4.2: Untertestzusammensetzungen der HAWIK-Versionen ........................................................... 46

Tabelle 4.3: Die Untertests des HAWIK-III (modifiziert nach Tewes et al., 2002) ....................................... 48

Tabelle 4.4: Die erfassten Funktionen der HAWIK-III-Untertests (modifiziert nach Tewes et al., 2002) .... 49

Tabelle 4.5: Die Untertests des HAWIK-IV (modifiziert nach Petermann & Petermann, 2008a) ................ 50

Tabelle 4.6: Die erfassten Funktionen der HAWIK-IV-Untertests (modifiziert nach Daseking et al., 2007). ............................................................................................................................................................. 51

Tabelle 4.7: Reliabilitäten der Untertests, Indizes und des Gesamt-IQ des HAWIK-III und -IV ................... 54

Tabelle 4.8: Exploratorische Faktorenanalyse für alle 15 WISC-IV Untertests (gesamte Normierungsstichprobe, n = 1525) (modifiziert nach Wechsler, 2003b). ........................................... 56

Tabelle 4.9: Exploratorische Faktorenanalyse für alle 15 Untertests des HAWIK-IV (gesamte Normierungsstichprobe, n = 1650) (modifiziert nach Petermann & Petermann, 2008a, S. 133). ...... 57

Tabelle 4.10: Unterschiede und Gemeinsamkeiten von HAWIK-III und -IV (geordnet nach Zugehörigkeit zu den HAWIK-Indizes, modifiziert nach Petermann & Petermann, 2008a) ....................................... 73

Tabelle 5.1: Ergebnisse der Korrelationsstudien zu HAWIK- bzw. WISC-Versionen ................................... 87

Tabelle 5.2: Ein-Monats-Lerneffekt für die WISC-IV-Index- und IQ-Werte (n = 243) (modifiziert nach Wechsler, 2003b, S. 40ff) .................................................................................................................... 91

Tabelle 5.3: Untertests mit relativ großem Ein-Monats-Lerneffekt getrennt in drei Altersgruppen (modifiziert nach Wechsler, 2003b, S. 40ff) ........................................................................................ 91

Tabelle 6.1: Überblick über die Hypothesen und Fragestellungen der Studie. .........................................100

Tabelle 7.1: Abkürzungen der Stichproben. ..............................................................................................112

Tabelle 7.2: Geplante Stichprobenverteilung (n=176). .............................................................................113

Tabelle 7.3: Zusammensetzung der Untersuchungsstichprobe (n= 223). ................................................113

Tabelle 7.4: Verteilung der Untersuchungsstichprobe nach besuchtem Schultyp. ..................................115

Tabelle 7.5: Schultypverteilung der gematchten Stichprobe (n= 144). ....................................................116

Tabelle 7.6: Geschlechtsverteilung der gematchten Stichprobe (n= 144). ...............................................117

Tabelle 7.7: Reihenfolge der Testvorgabe der gematchten Stichprobe (n= 144). ....................................117

Tabelle 7.8: Abkürzungen der gematchten Stichproben. .........................................................................117

Tabelle 7.9: Eckdaten des HAWIK-III und -IV. ...........................................................................................118

Tabelle 8.1: Deskriptive Angaben des HAWIK-III. .....................................................................................124

Tabelle 8.2: Deskriptive Angaben des HAWIK-IV. .....................................................................................127

Tabelle 8.3: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ (n = 223). ............129

Tabelle 8.4: t-Test zur Prüfung der Mittelwertdifferenzen auf Untertestebene (n = 223). ......................130

Tabelle 8.5: t-Test zur Prüfung der Mittelwertdifferenzen der Index- und Gesamt-IQ der GemS. ..........130

Tabelle 8.6: t-Test zur Prüfung der Mittelwertedifferenzen der GemS auf Untertestebene....................131

Tabelle 8.7: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GK-III (n = 63)...................................................................................................................137

Anhang 219

Tabelle 8.8: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-III (n = 48). ..................................................................................................................137

Tabelle 8.9: Mittelwerte und Mittelwertzuwächse zwischen HAWIK-III und -IV bei der Stichprobe GK-IV (n = 65)...............................................................................................................................................138

Tabelle 8.10: Mittelwerte und Mittelwertzuwächse bzw. -abnahmen zwischen HAWIK-III und -IV bei der Stichprobe GL-IV (n= 47)....................................................................................................................139

Tabelle 8.11: Mittelwertzuwächse bzw. -abnahmen der Untertests und Indizes getrennt nach kurzem und langem Intervall. .........................................................................................................................140

Tabelle 8.12: Mittelwertzuwächse bzw. -abnahmen nach kurzem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. .......................................................................................................141

Tabelle 8.13: Mittelwertzuwächse bzw. -abnahmen nach langem Intervall der Untertests und Indizes unterteilt in drei Altersgruppen. .......................................................................................................141

Tabelle 8.14: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall (n= 93-95). .........................................................................................................................................142

Tabelle 8.15: Mittelwerte und Mittelwertdifferenzen zwischen HAWIK-III und -IV nach langem Intervall bei Kindern und Jugendlichen mit einem HAWIK-III-Gesamt-IQ von ≥ 115 (n = 28). ........................143

Tabelle 8.16: Exploratorische Faktorenanalyse des HAWIK-III ohne Vorgabe der Faktorenanzahl. .........144

Tabelle 8.17: Exploratorische Faktorenanalyse des HAWIK-IV ohne Vorgabe der Faktorenanzahl. ........145

Tabelle 8.18: Faktorenanalyse des HAWIK-III und -IV mit Vorgabe von vier Faktoren. ............................147

Tabelle 8.19: Faktorenanalyse des HAWIK-III mit Vorgabe von vier Faktoren. ........................................148

Tabelle 8.20: Faktorenanalyse des HAWIK-IV mit Vorgabe von vier Faktoren. ........................................148

Tabelle 8.21: Korrelationen zwischen HAWIK-III und -IV (G-III, n = 109 bis 111). .....................................150

Tabelle 8.22: Korrelationen zwischen HAWIK-IV und -III (G-IV, n = 111 bis 112). .....................................150

Tabelle 8.23: Korrelationen zwischen HAWIK-III und -IV gesamt (n = 221 bis 223). .................................151

Tabelle 8.24: Korrelationen zwischen HAWIK-III und -IV für die GK-III (n = 63). .......................................152

Tabelle 8.25: Korrelationen zwischen HAWIK-IV und -III für die GK-IV (n = 64 bis 65). ............................153

Tabelle 8.26: Korrelationen zwischen HAWIK-III und -IV (GK gesamt, n = 127 bis 128). ..........................153

Tabelle 8.27: Korrelationen zwischen HAWIK-III und -IV für die GL-III (n = 46 bis 48). .............................154

Tabelle 8.28: Korrelationen zwischen HAWIK-IV und -III für die GL-IV (n = 47). .......................................155

Tabelle 8.29: Korrelationen zwischen HAWIK-IV und -III (GL gesamt, n = 93 bis 95). ...............................155

Tabelle 8.30: Korrelationen zwischen HAWIK-III und -IV für die GemSK (n = 72). ....................................156

Tabelle 8.31: Korrelationen zwischen HAWIK-IV und -III für die GemSL (n = 72). ....................................157

Tabelle 8.32: Korrelationen zwischen HAWIK-IV und -III (GemS gesamt, n = 144). ..................................158

Tabelle 8.33: Lineare Regression der Untertests des SV-Index des HAWIK-III. .........................................160

Tabelle 8.34: Lineare Regression der Untertests des WO-Index des HAWIK-III........................................160

Tabelle 8.35: Lineare Regression der Untertests des UA-Index des HAWIK-III. ........................................161

Tabelle 8.36: Varianzaufklärung der SV-Untertests des HAWIK-IV auf den SV des HAWIK-III. .................161

Tabelle 8.37: Varianzaufklärung der WLD-Untertests des HAWIK-IV auf den WO des HAWIK-III. ...........162

Tabelle 8.38: Varianzaufklärung der AGD-Untertests des HAWIK-IV auf den UA des HAWIK-III. .............162

Tabelle 8.39: Varianzaufklärung der VG-Untertests des HAWIK-IV auf den AG des HAWIK-III. ...............163

Tabelle 8.40: Varianzaufklärung der Indizes des HAWIK-IV auf den Gesamt-IQ des HAWIK-III. ...............163

Anhang 220

Tabelle 8.41: Varianzaufklärung der Indizes des HAWIK-III auf den Gesamt-IQ des HAWIK-IV. ...............164

Tabelle 8.42: Erwartete Werte und Wertebereiche des Gesamt-IQ des HAWIK-IV für ausgewählte Gesamt-IQ des HAWIK-III...................................................................................................................165

Tabelle 8.43: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte Verbal-IQ des HAWIK-III. ..........................................................................................................................................165

Tabelle 8.44: Erwartete Werte und Wertebereiche des WLD des HAWIK-IV für ausgewählte Handlungs-IQ des HAWIK-III. ....................................................................................................................................166

Tabelle 8.45: Erwartete Werte und Wertebereiche des SV des HAWIK-IV für ausgewählte SV-Werte des HAWIK-III. ..........................................................................................................................................166

Tabelle 8.46: Erwartete Werte und Wertebereiche des WLD-IQ des HAWIK-IV für ausgewählte WO-IQ-Werte des HAWIK-III ..........................................................................................................................167

Tabelle 8.47: Erwartete Werte und Wertebereiche des AGD-IQ des HAWIK-IV für ausgewählte UA-IQ-Werte des HAWIK-III ..........................................................................................................................167

Tabelle 8.48: Erwartete Werte und Wertebereiche des VG-IQ des HAWIK-IV für ausgewählte AG-IQ-Werte des HAWIK-III ..........................................................................................................................168

Tabelle 9.1: Normtabellenauszug der Untertests Zahlen-Symbol-Test und Symbol-Suche aus den Manualen des HAWIK-III und -IV (Petermann & Petermann, 2008a; Tewes et al., 2002). ...............188

Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe). .................................221

Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe)............................221

Tabelle A3: Interkorrelationen der Untertests des HAWIK-IV (Gesamtstichprobe). ................................222

Tabelle A4: Interkorrelationen der Untertests des HAWIK-IV (gematchte Stichprobe). ..........................223

Tabelle A5: Abkürzungen des HAWIK-IV. ..................................................................................................224

Tabelle A6: Abkürzungen des HAWIK-III. ..................................................................................................224

Tabelle A7: Exploratorische Faktorenanalyse des HAWIK-IV (kurzes Intervall). .......................................225

Tabelle A8: Exploratorische Faktorenanalyse des HAWIK-IV (langes Intervall). .......................................225

Tabelle A9: Exploratorische Faktorenanalyse des HAWIK-III (kurzes Intervall). .......................................225

Tabelle A10: Exploratorische Faktorenanalyse des HAWIK-III (langes Intervall). .....................................225

Tabelle A11: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-III). .................................226

Tabelle A12: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-IV). .................................226

Tabelle A13: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-III). .................................226

Tabelle A14: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-IV). ................................226

Anhang 221

Zusatztabellen Tabelle A1: Interkorrelationen der Untertests des HAWIK-III (Gesamtstichprobe). Untertest BE AW ZST GF BO RD MT WT FL AV SS ZN BE AW .33 ZST .11 .12 GF .41 .58 .10 BO .29 .35 .11 .28 RD .15 .52 .15 .37 .31 MT .34 .35 .27 .31 .35 .40 WT .29 .55 .11 .56 .34 .30 .26 FL .31 .26 .13 .22 .35 .24 .48 .24 AV .35 .44 .18 .48 .38 .23 .28 .54 .22 SS .09 .12 .46 .05 .23 .16 .27 .07 .08 .10 ZN .12 .24 .27 .17 .12 .38 .26 .22 .09 .13 .19 Mittelwert 11.1 11.0 11.6 11.8 10.8 11.1 11.1 11.6 9.8 11.2 11.6 9.9 SD 3.0 2.8 3.1 2.8 3.3 2.8 3.2 2.8 3.0 2.0 2.8 2.6

Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6.

Tabelle A2: Interkorrelationen der Untertests des HAWIK-III (gematchte Stichprobe). Untertest BE AW ZST GF BO RD MT WT FL AV SS ZN BE AW .39 ZST .17 .11 GF .49 .58 .12 BO .24 .40 .12 .33 RD .17 .51 .17 .38 .35 MT .39 .43 .30 .34 .37 .44 WT .31 .52 .11 .53 .38 .26 .27 FL .32 .34 .16 .29 .37 .26 .51 .31 AV .37 .49 .21 .54 .30 .23 .26 .58 .26 SS .08 .18 .41 .15 .19 .28 .28 .11 .06 .02 ZN .19 .23 .30 .11 .13 .39 .26 .21 .14 .07 .26 Mittelwert 11.1 11.0 11.8 11.7 10.8 10.9 11.2 11.4 9.8 11.2 11.8 9.9 SD 3.0 2.9 3.2 2.8 3.4 2.7 3.3 3.0 3.2 1.9 2.7 2.6

Anmerkungen: Untertests, die zu einem Index gehören, sind fett hervorgehoben. Abkürzungen siehe Anhang A5 und A6.

Tabe

lle A

3: In

terk

orre

latio

nen

der U

nter

test

s de

s H

AW

IK-IV

(Ges

amts

tichp

robe

). U

nter

test

M

T G

F ZN

BK

ZS

T W

T BZ

F M

Z A

V

SYS

BE

DT

AW

RD

BE

N

MT

G

F .4

1

ZN

.28

.21

BK

.3

1 .4

0 .0

6

ZST

.19

.14

.20

.10

W

T .3

0 .6

5 .2

0 .3

3 .0

8

BZF

.14

.27

.51

.00

.24

.26

M

Z .3

8 .3

4 .3

1 .2

9 .1

3 .2

6 .2

5

AV

.3

3 .4

9 .1

9 .2

2 .1

1 .5

6 .1

4 .3

0

SYS

.35

.20

.18

.18

.60

.14

.21

.31

.14

BE

.4

9 .4

3 .0

4 .4

0 .2

1 .3

5 .1

4 .3

2 .3

5 .2

8

DT

.19

.07

-.01

.14

.34

-.01

.04

.26

.00

.39

.24

A

W

.46

.57

.36

.32

.11

.56

.33

.39

.47

.18

.32

.03

RD

.3

6 .3

6 .4

4 .2

6 .2

4 .3

3 .3

7 .3

6 .2

8 .3

2 .2

3 .1

0 .4

5

BE

N

.26

.60

.18

.35

.05

.63

.18

.31

.47

.16

.45

-.05

.53

.35

M

itte

lwer

t 11

.2

11.1

10

.4

10.9

11

.0

11.0

10

.9

10.6

11

.1

11.0

11

.1

10.9

10

.7

11.0

10

.7

SD

3.0

2.4

2.5

2.4

2.8

2.6

2.3

2.4

2.3

2.6

2.8

2.9

2.5

2.4

2.7

Anm

erku

ngen

: Unt

erte

sts,

die

zu e

inem

Inde

x ge

höre

n, si

nd fe

tt he

rvor

geho

ben.

Abk

ürzu

ngen

sieh

e An

hang

A5

und

A6.

Anhang 222

Tabe

lle A

4: In

terk

orre

latio

nen

der U

nter

test

s de

s H

AW

IK-IV

(gem

atch

te S

tichp

robe

). U

nter

test

M

T G

F ZN

BK

ZS

T W

T BZ

F M

Z A

V

SYS

BE

DT

AW

RD

BE

N

MT

G

F 0.

47

ZN

0.

28

0.24

BK

0.34

0.

37

0.12

ZST

0.21

0.

19

0.23

0.

15

W

T 0.

36

0.65

0.

19

0.34

0.

14

BZ

F 0.

27

0.37

0.

56

0.06

0.

28

0.34

MZ

0.37

0.

39

0.30

0.

36

0.22

0.

29

0.33

AV

0.

37

0.50

0.

21

0.28

0.

11

0.61

0.

24

0.34

SYS

0.41

0.

24

0.26

0.

25

0.55

0.

18

0.33

0.

43

0.13

BE

0.56

0.

50

0.19

0.

40

0.26

0.

45

0.28

0.

41

0.48

0.

37

D

T 0.

18

0.11

0.

02

0.16

0.

37

0.01

0.

14

0.30

-0

.03

0.46

0.

29

A

W

0.51

0.

56

0.35

0.

33

0.11

0.

55

0.41

0.

41

0.49

0.

21

0.39

0.

00

RD

0.

40

0.42

0.

40

0.34

0.

16

0.38

0.

43

0.43

0.

30

0.39

0.

26

0.08

0.

42

BEN

0.

29

0.57

0.

20

0.31

0.

09

0.61

0.

25

0.36

0.

51

0.16

0.

49

-0.0

1 0.

51

0.39

Mit

telw

ert

11.2

10

.9

10.2

10

.8

10.9

10

.8

10.8

10

.5

11.1

11

.0

10.8

10

.6

10.6

10

.8

10.5

SD

3.

1 2.

6 2.

4 2.

3 3.

0 2.

7 2.

3 2.

5 2.

3 2.

7 2.

7 2.

9 2.

5 2.

4 2.

6 An

mer

kung

en: U

nter

test

s, di

e zu

ein

em In

dex

gehö

ren,

sind

fett

herv

orge

hobe

n. A

bkür

zung

en si

ehe

Anha

ng A

5 un

d A6

.

Anhang 223

Tabe

lle A

5: A

bkür

zung

en d

es H

AWIK

-IV.

U

nter

test

/Ind

ex

Abk

ürzu

ng

Untertest

Mos

aik-

Test

M

T G

emei

nsam

keit

en fi

nden

G

F Za

hlen

nac

hspr

eche

n ZN

Bi

ldko

nzep

te

BK

Zahl

en-S

ymbo

l-Tes

t ZS

T W

orts

chat

z-Te

st

WT

Buch

stab

en-Z

ahle

n-Fo

lgen

BZ

F M

atri

zen-

Test

M

Z A

llgem

eine

s V

erst

ändn

is

AV

Sy

mbo

l-Suc

he

SYS

Bild

er e

rgän

zen

BE

Dur

chst

reic

h-Te

st

DT

Allg

emei

nes

Wis

sen

AW

Re

chne

risc

hes

Den

ken

RD

Begr

iffe

erke

nnen

BE

N

Prozesswert

Mos

aik-

Test

ohn

e Ze

itbo

nus

MT-

OZ

Zahl

en n

achs

prec

hen

vorw

ärts

ZN

-V

Zahl

en n

achs

prec

hen

rück

wär

ts

ZN-R

D

urch

stre

ich-

Test

str

uktu

rier

t D

T-S

Dur

chst

reic

h-Te

st u

nstr

uktu

rier

t D

T-U

Index

Spra

chve

rstä

ndni

s SV

W

ahrn

ehm

ungs

gebu

nden

es L

ogi-

sche

s D

enke

n W

LD

Arb

eits

gedä

chtn

is

AG

D

Ver

arbe

itun

gsge

schw

indi

gkei

t V

G

Tabe

lle A

6: A

bkür

zung

en d

es H

AWIK

-III.

U

nter

test

/Ind

ex

Abk

ürzu

ng

Untertest

Bild

erer

gänz

en

BE

Allg

emei

nes

Wis

sen

AW

Za

hlen

-Sym

bol-T

est

ZST

Gem

eins

amke

iten

finde

n G

F Bi

lder

ordn

en

BO

Rech

neri

sche

s D

enke

n RD

M

osai

k-Te

st

MT

Wor

tsch

atz-

Test

W

T Fi

gure

nleg

en

FL

Allg

emei

nes

Ver

stän

dnis

A

V

Sym

bol-S

uche

SS

Za

hlen

nach

spre

chen

ZN

(L

abyr

inth

-Tes

t)

LT

Index- und Gesamtwert

Spra

chlic

hes

Ver

stän

dnis

SV

W

ahrn

ehm

ungs

orga

nisa

tion

W

O

Una

blen

kbar

keit

U

A

Arb

eits

gesc

hwin

digk

eit

AG

V

erba

l-IQ

V

-IQ

H

andl

ungs

-IQ

H

-IQ

Anhang 224

Anhang 225

Tabelle A7: Exploratorische Faktorenana-lyse des HAWIK-IV (kurzes Intervall).

Untertest Faktor

1 2 3 4 WT .83 .21 .02 .03 BEN .77 .05 -.04 .16 GF .72 .25 .09 .19 AV .67 .11 .06 .19 AW .56 .51 .01 .25 ZN .11 .84 .07 .08 RD .30 .62 .17 .28 BZF .24 .61 .33 -.25 ZST .12 .15 .84 -.12 SYS .07 .17 .77 .16 DT -.23 .02 .55 .35 MT .20 .31 .21 .63 BK .32 .00 -.06 .60 BE .36 -.28 .36 .56 MZ .10 .49 .05 .56


Tabelle A8: Exploratorische Faktorenana-lyse des HAWIK-IV (langes Intervall).

Untertest Faktor

1 2 3 BEN .83 .03 .19 GF .82 .14 .09 WT .82 -.03 .13 AW .75 .00 .26 AV .68 -.05 .11 BE .67 .39 .12 MT .57 .36 .10 BK .55 .34 -.11 SYS .16 .80 .18 DT .01 .79 -.16 ZST -.01 .76 .16 MZ .41 .47 .32 ZN .07 .02 .86 BZF .15 .05 .85 RD .36 .25 .54


.

Tabelle A9: Exploratorische Faktorenanalyse des HAWIK-III (kurzes Intervall).

Untertest Faktor

1 2 3 4 AV .76 -.06 .29 .24 WT .73 .26 .10 .06 GF .69 .36 .17 -.16 AW .57 .54 .18 .06 RD .20 .81 .09 .02 MT -.01 .63 .52 .22 ZN .34 .60 -.17 .24 FL .00 .35 .71 .08 BO .26 -.05 .70 .17 BE .24 -.02 .67 -.05 SS -.08 .09 .14 .79 ZST .20 .12 .03 .78


Tabelle A10: Exploratorische Faktorenana-lyse des HAWIK-III (langes Intervall).

Untertest Faktor

1 2 3 4 WT .84 -.01 .02 .17 GF .83 .09 .16 .05 AV .76 .06 .17 .01 AW .74 -.09 .09 .33 BE .55 .16 .45 .01 ZST .02 .90 .09 .03 SS .06 .83 .02 .24 FL .09 -.11 .89 .11 MT .25 .30 .71 .19 RD .30 .06 .13 .75 ZN -.10 .27 .02 .72 BO .41 .00 .26 .56


Anhang 226

Tabelle A11: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-III).

Untertest Faktor

1 2 3 4 AW .78 .11 .32 .08 GF .77 .07 .20 -.17 WT .74 .16 .12 .06 AV .64 .25 .04 .18 FL -.02 .78 .31 -.04 BO .28 .70 .01 .21 BE .39 .56 -.10 -.09 ZN .09 -.03 .78 .01 RD .29 .14 .72 .13 MT .20 .47 .57 .16 SS -.01 .01 .05 .86 ZST .07 .07 .11 .82


Tabelle A12: Explorative Faktorenanalyse des HAWIK-III (Erstvorgabe HAWIK-IV).

Untertest Faktor

1 2 3 WT .82 .10 .08 GF .81 .23 .01 AW .76 .15 .14 AV .72 .27 -.04 RD .57 .00 .46 BO .45 .39 .18 FL .17 .81 .07 MT .17 .74 .35 BE .40 .56 -.05 ZN .28 -.20 .75 ZST -.03 .22 .70 SS -.03 .35 .64 Anmerkung: Abkürzungen siehe Anhang A5 und A6.

Tabelle A13: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-III).

Untertest Faktor

1 2 3 4 WT .87 .04 .12 -.03 BEN .81 .14 .19 -.09 GF .79 -.05 .24 .08 AV .68 .03 .08 .02 AW .59 .41 .35 .04 ZN -.06 .87 .06 .05 BZF .09 .70 -.18 .07 RD .16 .64 .35 .09 MT .07 .25 .75 .18 BK .23 -.17 .62 .01 MZ .26 .30 .61 .05 BE .35 -.19 .57 .21 ZST -.05 .20 -.06 .86 SYS .07 .14 .12 .86 DT -.02 -.14 .31 .64


Tabelle A14: Explorative Faktorenanalyse des HAWIK-IV (Erstvorgabe HAWIK-IV).

Untertest Faktor

1 2 3 BEN .73 .26 -.04 BE .72 -.06 .33 AV .67 .29 .02 GF .65 .50 .04 BK .65 -.05 .15 WT .63 .50 -.10 MT .62 .15 .24 AW .62 .50 -.11 BZF .07 .81 .22 ZN .17 .76 .13 RD .36 .53 .29 DT -.04 -.14 .78 SYS .21 .20 .71 ZST -.02 .33 .64 MZ .36 .28 .54


Hiermit erkläre ich, dass ich die vorliegende Arbeit ohne unerlaubte Hilfe angefertigt, keine

anderen als die angegebenen Quellen und Hilfsmittel verwendet und die den benutzten

Werken wörtlich oder inhaltlich entnommenen Stellen als solche kenntlich gemacht habe.

Bremen, den 19.12.2008 Maike Lipsius

Diese Veröffentlichung lag dem Promotionsausschuss Dr. phil der Universität Bremen als Dissertation

vor.

Gutachter: Prof. Dr. Franz Petermann

Gutachter Prof. Dr. Uwe Tewes

Das Kolloquium fand am 16. Juni 2009 statt.

Validitätsstudie zum HAWIK-IV im Vergleich zum...

Documents

Transcript of Validitätsstudie zum HAWIK-IV im Vergleich zum...