Der Hamburg-Wechsler- Intelligenztest für Kinder · lich verbal bearbeitet werden und mehr oder...

13
472 reportpsychologie ‹30› 11/12|2005 Der Hamburg-Wechsler- Intelligenztest für Kinder Dritte Version, 1999 (HAWIK-III)* Barbara Schober, Markus Dresel & Kurt A. Heller

Transcript of Der Hamburg-Wechsler- Intelligenztest für Kinder · lich verbal bearbeitet werden und mehr oder...

472

repo

rtpsy

cholo

gie

‹30›

11/1

2|20

05

Der Hamburg-Wechsler-Intelligenztest für KinderDritte Version, 1999 (HAWIK-III)*Barbara Schober, Markus Dresel & Kurt A. Heller

n Der HAWIK-III (Hamburg-Wechsler-Intelligenz-test für Kinder – Dritte Version, 1999) ist die neu-

este deutschsprachige Form für das Kindes- und Ju-gendalter der von David Wechsler auch für das Vor-schul- und Erwachsenenalter entwickelten Intelligenz-skalen, die sowohl im angloamerikanischen wie auch imeuropäischen Raum große Verbreitung gefunden haben.Die vorgelegte Neubearbeitung löst damit den vor 17Jahren erschienenen Vorgänger HAWIK-R (Tewes, 1983)ab. Anlass für die Neubearbeitung war neben der An-passung an die bereits im Jahr 1991 erschienene dritteVersion des amerikanischen Originals, der Wechsler In-telligence Scale for Children (WISC-III; Wechsler, 1991),vor allem die notwendig gewordene Neueichung desVerfahrens. Diese ergab sich aus Sicht der Testautorenzunächst aus dem Umstand, dass die Normen, die ausder Zeit vor der deutschen Wiedervereinigung stam-men, aufgrund der Unterschiede zwischen den Bil-dungssystemen der beiden Teile Deutschlands nicht oh-ne weiteres auf die neuen Bundesländer übertragenwerden konnten (wobei die Meinungen in der Literaturhier divergieren). Vor allem ergibt sich auch aus dembekannten Effekt des epochalen Zugewinns von Intelli-genzwerten (Flynn, 1987; speziell zum HAWIK vgl.Schallberger, 1987) die Erfordernis, Intelligenztests in re-gelmäßigen Abständen zu aktualisieren. Überdies sollteder Test mit der Neubearbeitung im Vergleich zum HA-WIK-R (wieder) stärker an das amerikanische Originalangelehnt werden, in dem u.a. auf der Basis der Fakto-renstruktur des Tests vier neue Indexwerte eingeführtwurden.Die vorliegende Testbesprechung verfolgt vor allemzwei Intentionen: Einerseits werden unter »relativerPerspektive« die Neubearbeitung des Tests und damiteinhergehende Veränderungen im Vergleich zur Vor-gängerversion beurteilt. Dies dürfte vor allem im Inte-resse derjenigen Leser und Leserinnen liegen, die denHAWIK-R bereits kennen. Zum anderen soll aber derHAWIK-III auch unter »absoluter Perspektive« bewer-tet werden, um jenen Lesern eine Einordnung des Ver-fahrens zu ermöglichen, die keine Erfahrungen mit denfrüheren Versionen gemacht haben. Beiden Betrach-tungsweisen wird der Kriterienkatalog für die Beurtei-lung psychologischer Tests des Testkuratoriums der Fö-deration deutscher Psychologenverbände (1986) zu-grunde gelegt.

1. Testgrundlage1.1 Diagnostische ZielsetzungDie diagnostische Zielsetzung des HAWIK-III beschrei-ben die Testherausgeber als »Individualtest zur Unter-suchung der kognitiven Entwicklung von Kindern undJugendlichen« (S. 21)1 und – im Rahmen der Erläute-rung des Intelligenzkonzepts Wechslers – als »eine Rei-he von Skalen, um möglichst unterschiedliche geistigeFähigkeiten zu erfassen, die jedoch gemeinsam die all-gemeine geistige Begabung des Kindes widerspiegelnsollten« (S. 21). Entsprechend der oben erläuterten

Motivation zur Neubearbeitung ist die diagnostischeZielsetzung des Tests gegenüber früheren Versionenunverändert: Der HAWIK-III soll einerseits ein Ge-samtmaß der geistigen Fähigkeiten liefern und ande-rerseits anhand verschiedener Teilleistungswerte Auf-schluss über das individuelle Profil dieser Fähigkeitengeben. Die Herausgeber beschreiben ausführlich, dassdie mit dem Test erfassten geistigen Fähigkeiten nurals Teilbereich der – von Wechsler sehr global konzi-pierten – Intelligenz aufgefasst werden. Sie erläutern,welche Aspekte intelligenten Handelns damit nichtabgedeckt werden, weisen auf die (partielle) Erfah-rungs- und Kulturabhängigkeit der erfassten Merkma-le hin und betonen als Konsequenz daraus die Erfor-dernis, bei der Intelligenzdiagnostik auch andereMerkmale als die geistige Leistungsfähigkeit einzube-ziehen. Der HAWIK-III eignet sich vor allem zur Statusdiag-nostik, für Veränderungsmessungen ist er nur in einge-schränktem Maße sinnvoll verwendbar (vgl. 3.7). ImRahmen von statusdiagnostischen Fragestellungen istdas für Einzelfalluntersuchungen entwickelte Verfah-ren jedoch in einem breiten Anwendungsbereich ein-setzbar (vgl. 3.5). Die Testautoren weisen allerdingsdarauf hin, dass der HAWIK-III jenseits von »zwei bisdrei Standardabweichungen« (S. 31) abseits der Alters-norm weniger gut differenziert, und empfehlen in die-sem Fall, den Test lediglich als Screening-Verfahreneinzusetzen.

Das Verfahren ist für den Altersbereich von 6;0 bis16;11 Jahren geeicht. Gegenüber seinem Vorgänger, demHAWIK-R, verfügt der HAWIK-III damit über einen umein Jahr erweiterten Normierungsbereich. Innerhalb dergesamten Reihe der deutschsprachigen Wechsler-Testsergeben sich somit – von den Testherausgebern auf-grund der beschriebenen Einschränkung auf den »Nor-malbereich« bzw. zu erwartender Boden- und Deckef-fekte bewusst hergestellte – altersmäßige Überlappun-gen. Im unteren Bereich betragen diese ein halbes Jahrmit dem Hannover-Wechsler-Intelligenztest für das Vor-schulalter (HAWIVA; Schuck & Eggert, 1975)2, im oberenBereich ein Jahr mit dem Hamburg-Wechsler-Intelli-genztest für Erwachsene (HAWIE-R; Tewes, 1991). Bei zuerwartender starker Unter- bzw. Überforderung in denentsprechenden Altersbereichen sollte erwogen wer-den, ob nicht anstelle des HAWIK-III der Einsatz des je-weils alternativ zur Verfügung stehenden Verfahrens in-diziert ist.

Der vorliegende Test wurde gemeinsam fürDeutschland, die deutschsprachige Schweiz und Ös-terreich bearbeitet und geeicht.

1.2 Theoretische GrundlagenDer HAWIK-III basiert – ebenso wie alle anderen bishe-rigen Wechsler-Tests – auf einer pragmatischen, d.h. stär-ker an der Messung als an einer adäquaten Differenzie-rung des Konstrukts orientierten, Intelligenzkonzeption.Die Testherausgeber zitieren dazu die zugrunde gelegteIntelligenzdefinition Wechslers aus dem Jahr 1956: Intel-ligenz sei »die zusammengesetzte oder globale Fähigkeitdes Individuums, zweckvoll zu handeln, vernünftig zu

r e p o r t fachwissenschaftlicher teil

473

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

1 Zitate ohne genaue Quellenangabe beziehen sichauf das Manual zum HAWIK-III (Tewes, Rossmann & Schallberger, 1999).

2 Der HAWIVA wird nachAngaben der Herausgeber desHAWIK-III derzeit einerNeubearbeitung unterzogen.

* Tewes, U., Rossmann, P. & Schallberger, U. (Hrsg.) (1999). Hamburg-Wechsler-Intelligenztest für Kinder – Dritte Version, HAWIK-III.Bern: Huber. Testmaterial komplett: 844 €

denken und sich mit seiner Umgebung wirkungsvoll aus-einander zu setzen« (S. 21). Intelligenz wird damit alsübergeordnetes Merkmal verstanden, das in unter-schiedlichen Fähigkeiten zum Ausdruck kommt undgleichzeitig als die Summe von (gleich gewichteten) Ein-zelaspekten erfasst werden kann. Die im HAWIK-III ent-haltenen Skalen erfassen dementsprechend, so die He-rausgeber, die geistige Entwicklung von Kindern aus un-terschiedlicher Perspektive. Die Reihe der Untertests solleine »nach Möglichkeit [...] breitgefächerte Stichprobe«(S. 21) darstellen, ein Anspruch, alle Aspekte der Intelli-genz zu erfassen, wird damit nicht verfolgt. Die durchWechsler ursprünglich vorgenommene Auswahl von elfUntertests (die eine Teilmenge der im HAWIK-III enthal-tenen 13 Tests darstellen) erfolgte dementsprechend vorallem nach messtechnischen Kriterien (Kubinger, 1983).Die Beibehaltung der daraus resultierenden, inhaltlich»mehr oder weniger willkürliche[n] Auswahl der [...] In-telligenzfaktoren« (Heller & Perleth, 2000, S. 134) wirdvon den Testherausgebern vor allem mit der Bewährungund Verbreitung des Verfahrens, mit den engen Vorga-ben der amerikanischen Herausgeber der WISC und miteiner Ablehnung von »überzogenen theoretischen An-forderungen« (S. 4) im deutschsprachigen Raum be-gründet. Auch wenn diese Argumentation zumindest inTeilen nachvollziehbar ist, verwundert es, dass – im Ge-gensatz zur Vorgängerversion – für die einzelnen Unter-tests nicht angegeben ist, auf welche speziellen Fähig-keitsbereiche sich diese beziehen, ihre inhaltliche Be-deutung also nicht klargestellt wird. Diese mangelndetheoretische Anbindung auf Untertestebene ist umsoverwunderlicher, als mit dem HAWIK-III ebenso wie mitdem HAWIK-R individuelle Leistungsprofile erfasst undinterpretiert werden sollen. Die Testherausgeber erläu-tern, dass »die meisten Kinder ein ihnen eigenes charak-teristisches Leistungsprofil« (S. 22) in den mit den Unter-tests erfassten Fähigkeiten aufweisen.

Die Annahme, dass die Fähigkeit eines Kindes, denAnforderungen der Umwelt gerecht zu werden – ebensowie seine Leistung in einem Intelligenztest –, auch vonnichtintellektuellen Determinanten der Intelligenz be-einflusst wird, wird in das zugrunde liegende Intelligenz-konzept (und dessen Darstellung im Manual) explizit miteinbezogen. Diesem theoretischen Postulat stehen je-doch im Handbuch vergleichbar wenig konkrete und di-rekte Operationalisierungen gegenüber (vgl. 2.5).

1.3 TestaufbauDer HAWIK-III umfasst 13 verschiedene Untertests, wo-bei die Aufgaben (Items) von sechs Skalen ausschließ-lich verbal bearbeitet werden und mehr oder wenigererfahrungsabhängige Fähigkeiten erfassen. Diese Ska-len sind einem so genannten Verbalteil zugeordnet. DieAufgaben der übrigen sieben Skalen bilden den so ge-nannten Handlungsteil und erfassen die Fähigkeitendes Kindes im Umgang mit konkreten Materialien inweitgehend sprachfreier Form. Gegenüber dem HA-WIK-R wurde – in Analogie zum WISC-III – der Hand-lungsteil um zwei Tests erweitert, den Labyrinthtestund die Symbolsuche. Der Labyrinthtest war bereits infrüheren amerikanischen Vorlagen des HAWIK (WISC;

Wechsler, 1949; WISC-R; Wechsler, 1974) enthalten,wurde jedoch aus messtechnischen Gründen nicht inden HAWIK-R aufgenommen. Die Symbolsuche wurdeintegriert, um einen der – noch zu erläuternden – Fak-toren des WISC-III (»freedom of distractibility«, über-setzt mit »Unablenkbarkeit«) zu stärken.

In Tabelle 1 (S. 475) sind Beschreibungen der ein-zelnen Untertests, die Angaben, die das Manual zudiesen macht, sowie die Änderungen gegenüber demHAWIK-R zusammengefasst. Weiterhin finden sich da-rin Abkürzungen für die Subtests, wie sie im Folgen-den Verwendung finden.

Während die Untertests des Verbalteils außer demRD ohne Zeitbegrenzung vorgegeben werden, erfolgtdie Bearbeitung aller Untertests des Handlungsteils un-ter Zeitdruck. In der Durchführung werden die Tests desHandlungs- und Verbalteils abgewechselt. Mit Ausnah-me von GF, AV, ZN und FL werden bei den Subtests al-tersspezifische Einstiegsstufen ausgewiesen oder zweiunterschiedliche Formen für jüngere und ältere Kinderzur Verfügung gestellt (ZS und SyS). Für alle Subtests au-ßer dem FL sind zudem auf die Fehlerzahl in Folge oderauf ein Zeitlimit bezogene Abbruchkriterien spezifiziert.Einige Tests des Verbalteils (GF, WT und AV) erforderneine mehrstufige Antwortbeurteilung (Vergabe von 0, 1oder 2 Punkten) in Abhängigkeit von der inhaltlichenQualität der Antwort (z.B. nach der Tiefe des Begriffs-verständnisses beim AV). Bei einigen Tests werden Bo-nuspunkte für schnelle Lösungen vergeben; auf diemesstheoretischen Probleme in diesem Zusammenhang(s. z.B. Kubinger, 1988) wird jedoch nicht eingegangen.

Alle Antworten des getesteten Kindes (und bei Un-tertests mit Zeitgrenzen die dafür benötigten Zeiten) wer-den auf einem Protokollbogen festgehalten. Die Bewer-tung der Antworten, insbesondere bei Aufgaben, die eindifferenziertes Testleiter(innen)urteil erfordern (AW, AVund GF), kann in den meisten Fällen nachträglich erfolgen.

Die Rohwerte werden auf der Ebene der Untertestsanhand von altersspezifischen Tabellen in so genannteWertpunkte übertragen, deren Verteilung einen Mittel-wert von 10 und eine Standardabweichung von 3 besitzt.Bei vollständiger Bearbeitung der Untertests können dieentsprechenden Wertpunkte zu insgesamt sieben ver-schiedenen Wertpunktsummen aufaddiert werden, diewiederum anhand von Tabellen in IQ- und Indexwert-Äquivalente umgesetzt werden. Wie auch schon im HA-WIK-R ist die Berechnung eines Verbal-, eines Hand-lungs- und eines Gesamt-IQs möglich. In die Berechnungdes Verbal-IQs gehen die Wertpunkte der UntertestsAW, GF, RD, WT und AV ein, in die Berechnung desHandlungs-IQs die Untertests BE, ZS, BO, MT und FL.Der Untertest ZN kann anstelle irgendeines anderenTests des Verbalteils und der Untertest LT anstelle ir-gendeines Tests des Handlungsteils in die Berechnungeingehen (vgl. 1.4). Zur Bildung des Gesamt-IQs werdendie Wertpunktsummen von Verbal- und Handlungs-IQaddiert und in ein IQ-Wert-Äquivalent umgesetzt, wobeiauch diesbezüglich die messmethodische Problematiknicht thematisiert wird (Kubinger, 1988; Moosbrugger,1997). Gegenüber seinem Vorgänger erlaubt der HAWIK-III zusätzlich die Bildung der vier Indexwerte Sprachli-

474

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

AdresseDR. BARBARA SCHOBER

Institut für Wirtschaftspsychologie,Bildungspsychologie und EvaluationUniversität WienUniversitätsstraße 7A - 1010 WienE [email protected]

r e p o r t fachwissenschaftlicher teil

475

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

Untertest Anzahl derItems HAWIK-R/HAWIK-III

Beschreibung Änderungen gegenüber demHAWIK-R a, b, c

Verbalteil

Allgemeines Wissen (AW)

33/30 Eine Serie von Wissensfragen, mit denen geprüftwird, ob dem Kind bestimmte Ereignisse, Sachverhalte, Orte und Persönlichkeiten bekannt sind.

20 neue Items, Angabe von vier altersspezifischen Einstiegsstufen, Aufweitung des Abbruchkriteriums von vier auf fünf Fehler in Folge

Gemeinsamkeitenfinden (GF)

25/19 Das Kind wird gefragt, was das Gemeinsame anzwei Begriffen ist, die sich auf Gegenstände oderKonzepte des Alltags beziehen.

deutliche Reduktion der Itemzahl, 15 neue Items, Auswei-tung des Abbruchkriteriums von drei auf vier Fehler in Fol-ge, Einführung von Nachfragemöglichkeiten bei bestimm-ten Antworten

RechnerischesDenken (RD)

29/24 Eine Serie von Rechenaufgaben, die das Kind imKopf lösen muss.

16 neue Items, Verschärfung des Abbruchkriteriums vonvier auf drei Fehler in Folge, Einführung von Zeitbonus-punkten bei den acht schwierigsten Aufgaben

Wortschatz-Test(WT)

44/30 Eine Serie von Wörtern, die dem Kind vorgege-ben werden und die es definieren soll.

deutliche Reduktion der Itemzahl, 20 neue Items, Erhöhungder Anzahl der altersspezifischen Einstiegsstufen von zweiauf vier, (Wieder-)Einführung von 0-, 1- und 2-Punkt-Ant-worten, Einführung von Nachfragemöglichkeiten bei be-stimmten Antworten

Allgemeines Verständnis (AV)

20/18 Eine Serie von Fragen, mit deren Beantwortungdas Kind zeigen soll, ob es in der Lage ist, Alltagsprobleme zu lösen, und ob es soziale Regeln und Konzepte versteht.

15 neue Items, (Wieder-)Einführung von 0-, 1- und 2-Punkt-Antworten, Einführung von Nachfragemöglichkeiten bei bestimmten Antworten

Tabelle 1: Die Untertests des HAWIK-III und die Änderungen gegenüber dem HAWIK-R gemäß den Angaben im Manual (Tewes, Rossmann & Schallberger, 1999).

Zahlennachspre-chen (ZN)

14/15 Eine Serie von Ziffernfolgen, die das Kind teils inderselben und teils in der entgegengesetzten Rei-henfolge nachsprechen muss.

ein neues Item

Handlungsteil

Bilderergänzen(BE)

33/29 Eine Serie von Abbildungen, in denen jeweils einwichtiges Detail fehlt, das vom Kind zu identifi-zieren ist.

alle Items sind neu, Erhöhung der Anzahl der altersspezifi-schen Einstiegsstufen von zwei auf vier, Aufweitung desAbbruchkriteriums von drei auf fünf Fehler in Folge, mehr-farbige Vorlagen

Zahlen-Symbol-Test (ZS)

Form A:45/59,

Form B:93/119

Eine Serie einfacher Formen (Form A; jüngereKinder) oder Ziffern (Form B; ältere Kinder), diemit Symbolen gepaart sind. Das Kind zeichnetdie Symbole in die Formen oder unter die Ziffern,wobei es sich an einem Zuordnungsschlüssel ori-entieren muss.

deutliche Aufstockung der Itemzahl

Bilderordnen (BO) 12/14 Dem Kind werden Bilderserien, die einen Hand-lungsablauf wiedergeben, in einer falschen Rei-henfolge vorgelegt. Es hat die Aufgabe, sie in ei-ne logisch richtige Folge umzuordnen.

acht neue Items, mehrfarbige Vorlagen

Mosaik-Test (MT) 17/12 Eine Serie von geometrischen Mustern, die von ihm mit Hilfe von zweifarbigenWürfeln nachgebaut werden müssen.

deutliche Reduktion der Itemzahl, zwei neue Items, dieFarben der Würfel wurden von Rot-Weiß-Blau-Gelb aufRot-Weiß reduziert

Figurenlegen (FL) 10/5 Jede Aufgabe besteht aus Teilen eines Puzzles, aus denen das Kind eine sinnvolleFigur zusammensetzen muss.

deutliche Reduktion der Itemzahl, alle Items sind neu, Abschaffung des Abbruchkriteriums, die Puzzleteile weisennun Oberflächenzeichnungen auf und müssen ohne Vorlagezusammengesetzt werden

Symbolsuche (SyS) Form A und B: je -/45

Gepaarte Gruppen von abstrakten Formen undSymbolen, die das Kind daraufhin vergleichenmuss, ob beide Gruppen ein gemeinsames Sym-bol enthalten. Es gibt unterschiedliche Formenfür jüngere und ältere Kinder.

neuer Untertest

Labyrinth-Test (LT) -/10 Eine Serie von unterschiedlich komplex gezeich-neten Labyrinthen, die das Kind zu lösen hat, in-dem es mit einem Bleistift eine Linie vom Zen-trum zum Ausgang zieht

neuer Untertest

a Alle 231 neuen Items entstammen der WISC-III. Von den insgesamt 81 übernommenen Items sind 20 Items des Verbalteils originäre Itemsder deutschen Version, die nicht in der WISC-III eingesetzt werden.b Alle Durchführungsanweisungen und alle Subtests des Verbalteils wurden mit alternativen Formulierungen für Österreich und dieSchweiz versehen, falls dies die regionalen Sprachgegebenheiten erforderten.c Die Durchführungs- und Auswertungsanleitungen wurden gegenüber dem HAWIK-R wesentlich genauer spezifiziert.

ches Verständnis (SV; gebildet aus AW, GF, WT und AV),Wahrnehmungsorganisation (WO; gebildet aus BE, BO,MT und FL), Unablenkbarkeit (UA; gebildet aus RD undZN) sowie Arbeitsgeschwindigkeit (AG; gebildet aus ZSund SyS). Zusätzlich können bei unvollständiger Bearbei-tung die Ergebnisse von vier Untertests auf eine fünf-Test-Basis hochgerechnet und das »Testalter« auf Sub-testebene bestimmt werden.

Ein größerer Teil des Manuals widmet sich derquantitativen Interpretation der Wertpunkt-, IQ-Wert-und Indexwert-Profile. Aus Tabellen können die Signifi-kanzniveaus der Differenz zwischen Handlungs- und Ver-bal-IQ, von paarweisen Indexwert-Vergleichen, von Dif-ferenzen zwischen einem einzelnen Untertestergebnisund verschiedenen Untertestkombinationen sowie vonpaarweisen Untertestvergleichen abgelesen werden.Sehr hilfreich für die Interpretation signifikanter Diffe-renzen sind darüber hinaus Angaben dazu, wie häufigderartige Differenzen in der Population zu erwarten sind.Denn erst durch die Kenntnis des Signifikanzniveaus ei-ner Differenz und der Häufigkeit ihres Vorkommens kanndie Bedeutsamkeit einer bestimmten Profilschwankungabgeschätzt werden. Schließlich kann einer zusätzlichenTabelle die Häufigkeit des Vorkommens verschiedenerDifferenzen zwischen den beiden Untertesthälften »ZNvorwärts« und »ZN rückwärts« entnommen werden – ei-ne Differenz, die sich in der Diagnostik von Hirnleis-tungsstörungen als bedeutsam erwiesen hat (S. 98).

1.4 Nachvollziehbarkeit der TestkonstruktionZur Konstruktion des Tests auf Skalenebene wird be-tont, dass der HAWIK-III enger als der Vorgänger amamerikanischen Original konzipiert wurde. Wie bereitsausgeführt, wird die Gesamtleistung in der vorliegendenVersion des Tests wie auch schon bei den Vorgängern inForm eines Gesamt-, eines Handlungs- und eines Ver-bal-IQs erfasst. Eine Beschreibung konkreter Arbeits-schritte oder Argumente für diese Testkonstruktionsucht man im Testmanual jedoch vergeblich. Auch hin-sichtlich der Auswahl der Subtests zur Messung des»geistigen Leistungsvermögens« (S. 24) berufen sich dieTestherausgeber auf die Enge zur WISC-III und die tra-ditionelle Konzeption der Wechsler-Skalen, wobei eineBegründung für die schon im HAWIK-R enthaltenenSubtests und ihre Zusammenstellung offenbar nichtmehr für nötig erachtet wird. Dies wurde bereits vonWillich und Friese (1994) am HAWIK-R kritisiert. Auf diestärkere Anbindung an die WISC-III und die damit ver-bundenen Neuerungen wird allerdings genauer einge-gangen: Zum einen sollte damit eine höhere internatio-nale Vergleichbarkeit des Verfahrens erreicht werden,zum anderen sahen die Autoren die Schwächen desWISC-R weitgehend behoben (S. 24), so dass vor demHintergrund der Aktualisierungen und psychometri-schen Verbesserungen in der WISC-III eine möglichsteng daran angelehnte deutsche Fassung vertretbar er-schien. Aus der Angleichung an die amerikanische Fas-sung resultierten die Aufnahme zweier neuer Subtests(LT und SyS) und die Möglichkeit der Berechnung neu-er Leistungsindizes. Außer methodischen Argumenten –wie der verbesserten inneren Konsistenz – sowie der

Verwendung der beiden Subtests für die Berechnungder neuen Indizes erfährt man zum inhaltlichen Gewinndurch diese Tests nur sehr wenig, wobei zumindest Fak-torenanalysen hier informativ wären. Die nunmehr dreiSubtests (einer war bereits im HAWIK-R enthalten), diestandardmäßig nicht in die IQ-Bildung einfließen (ZN,SyS und LT), haben zum einen die schon erwähnte Auf-gabe, zur Berechnung der verschiedenen neuen Indizesbeizutragen, zum anderen sollen sie das »Gesamtbildabrunden« (S. 28). Schließlich können zwei davon je-den beliebigen Untertest des Verbalteils (ZN) bzw.Handlungsteils (LT) ersetzen. Die Frage, was diese Er-setzbarkeit für die inhaltliche Relevanz einzelner Sub-tests bedeutet und was die »Abrundung des Gesamt-bilds« konkret zu bedeuten hat, bleibt ebenso offen wiedie Schritte der Testkonstruktion, die diesen Empfeh-lungen zugrunde liegen. Die vier neuen Indizes SV, WO,UA und AG orientieren sich nach Angaben des Hand-buchs an den »Erfahrungen mit der WISC-III« (S. 29)und werden letztlich faktorenanalytisch aus dem Ameri-kanischen begründet (vgl. auch 3.3). Alles in allem kannsomit auch für den HAWIK-III Willich und Friese (1994)weitgehend zugestimmt werden, die schon für den HA-WIK-R konstatierten, dass es offenbar vor allem »prag-matische und traditionelle Erfahrungswerte« (S. 176)sind, die die Skalenzusammenstellung begründen. Die-se mögen wohl irgendwie theoriegeleitet sein, explizitdargelegt werden die Argumente jedoch nicht.

Hinsichtlich der Zusammenstellung auf Itemebenewird ebenfalls die größtmögliche Nähe zur WISC-III he-rausgestellt. Dieser Maxime folgend, wurden im Hand-lungsteil bis auf ein Item (beim BE das Telefon, dem dasKabel fehlt) alle übernommen. Für den Verbalteil wur-den alle Items übersetzt, nach kulturellen Anforderun-gen zum Teil etwas verändert und zunächst je Subtestum drei bis sechs Items verschiedener Schwierigkeitsgra-de aus dem HAWIK-R erweitert. Der neu generierteItempool wurde einer Vorstudie unterzogen, jedoch auf-grund statistischer und inhaltlicher Kriterien nicht kom-plett in die endgültige Version des HAWIK-III aufgenom-men. Nach wie vor ist zu kritisieren, dass bis auf wenigegenauere Argumente (z.B. für das FL, S. 42) so gut wiekeine Angaben über Gründe für die Wahl bestimmterItems gemacht werden. Vor allem vermisst man imHandbuch Itemkennwerte, wie mittlere Schwierigkeits-indizes oder Trennschärfen, die die Auswahl der letztlicheingesetzten Items nachvollziehbar machen (vgl. die Kri-tik von Moosbrugger [1997] am HAWIK-R) sowie insbe-sondere Analysen nach dem Rasch-Modell (s. auch Ku-binger, 1999; Steuer, 1988). Die scheinbar verlagsrechtli-che Begründung für den Verzicht auf die Konstruktionrasch-homogener Untertests (S. 5) bleibt hier eher un-befriedigend. Immerhin werden durch die Gegenüber-stellung von HAWIK-R und HAWIK-III wesentliche Än-derungen erkennbar (vgl. Tabelle 1).

2. Testdurchführung2.1 DurchführungsobjektivitätEs muss »bedacht werden, dass die Person des Diagnos-tizierenden selbst den ausschlaggebenden Faktor für jedeDiagnose darstellt« (S. 22). Mit diesem Satz machen die

476

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

Autoren auf ein prinzipielles Problem eines im Dialogstattfindenden Individualtests wie des HAWIK-III auf-merksam. Individualtestdaten können letztlich nie völligunabhängig von der Testleitungsperson sein. Durch aus-führliche Richtlinien zur Testdurchführung (z.B. zur Test-zeit, räumlichen Situation, Verwendung der Stoppuhroder Gestaltung der Beziehung zwischen Testleiter/in undKind) wird jedoch eine größtmögliche Standardisierungangestrebt. Auch wird auf die Notwendigkeit der Einhal-tung der einzelnen Durchführungsanweisungen mehrfachhingewiesen. Im Vergleich zum HAWIK-R sind Einstiegs-und Abbruchskriterien sowohl auf dem Protokollbogenals auch im Handbuch noch übersichtlicher und deutli-cher gemacht. Auch wird genau spezifiziert, wann beiwelchem Test wie oft und was nachgefragt werden darf,welche Hilfen gegeben werden dürfen und wie man Lö-sungen am geschicktesten protokolliert. Was die wörtlichvorzutragenden Instruktionen für die Untertests im Ma-nual betrifft, so trägt die erstmals farbige Gestaltung derdirekten Anweisungen zur Übersichtlichkeit bei. Freilichist dieser Teil so umfangreich geworden und mit so vielenKommentaren versehen, dass während der Testung sehrviel geblättert werden muss, um die letztlich nur wenigenrelevanten Formulierungen vor sich zu haben. Es stelltsich die Frage, ob hier nicht eine tabellarische Darstellungeffektiver wäre. So besteht die Gefahr, dass ein von 26 auf128 Seiten (im Vergleich zum HAWIK-R) ausgedehnter In-struktionsteil (in den der Auswertungsteil nun integriertist) trotz bester Absicht zum Bumerang wird, weil mansich mehr und mehr in den Unterteilungen und Kom-mentaren verliert.

Der alles in allem – auch durch Abdruck der erlaub-ten Hilfen bei einigen Untertests und den Platz für Be-merkungen zum Testverhalten – durchaus gut zu hand-habende Protokollbogen hat aber auch einige (neue)Probleme bzw. Fehler, die bei der nächsten Version desTests beseitigt werden sollten, um die Durchführungsob-jektivität zu verbessern. So stimmen die Anweisungenzum Testeinstieg für 8-jährige beim MT auf dem Bogenmit denen im Handbuch nicht überein. Für das FL wirdim Handbuch darauf hingewiesen, dass auf dem Proto-kollbogen die richtigen Schnittstellen durch einen Kreiszu kennzeichnen seien (S. 205); leider sind diese dortaber nicht abgebildet. Abgesehen davon ist es bei derGestaltung des LT nur schwer möglich, den Anweisun-gen Folge zu leisten, nämlich diesen so zu falten, dassdas Kind nur je ein Labyrinth vor sich hat: Es handelt sichhierbei um ein achtseitiges Testheft, bei dem teilweisezwei Faltungen vorgenommen werden müssten.

Das erheblich umfangreicher gewordene Hand-buch zum HAWIK-III beinhaltet insgesamt viele Anwei-sungen und Hinweise, die die Durchführung des Testsbesser standardisieren sollen. Dennoch gilt nach wie vorbzw. in Anbetracht der vielen Kommentare zwischenden Anweisungen vielleicht sogar mehr denn je, dassdie Anforderungen an den/die Testleiter/in für eine kor-rekte Durchführung sehr hoch sind.

2.2 TransparenzDas Kriterium der Transparenz bzw. Durchschaubarkeitist für den HAWIK-III wie auch für seine Vorgänger

quasi testimmanent nur teilweise erfüllt. Einerseitswird zwar durch kindgerechte Anweisungen und Bei-spielaufgaben sowie den mehrfachen Hinweis imHandbuch auf die notwendige Sicherung des Instruk-tionsverständnisses die Spezifität der Untertests trans-parent. Deren Messfunktion bleibt andererseits aberan vielen Stellen unklar. Hinsichtlich dieses Aspektswären standardisierte Instruktionen wünschenswert.Eine völlige Sicherung der Transparenz für einen Intel-ligenztest wie den vorliegenden ist gerade bei jünge-ren Kindern jedoch nie zu erreichen (Gutezeit, 1989).

2.3 ZumutbarkeitEin explizites Anliegen der Neubearbeitung war es, dieTestsituation für Kinder interessanter zu gestalten (S.26). Zum einen spiegelt sich dies in einer modifiziertenTestreihenfolge wider: Je im Wechsel werden ein Hand-lungs- und ein Verbalttest durchgeführt, wodurch die –teilweise am HAWIK-R kritisierte – Frustrationsgefahram Testende (mit FL und BO direkt hintereinander) nun-mehr reduziert sein dürfte. Zum anderen sind die Test-materialien nun bunt und etwas liebevoller gestaltet(z.B. beim BO oder BE). Auch die altersspezifischen Ein-stiegsstufen, die neuen Umkehrregeln und die differen-zierten Abbruchkriterien (vgl. 1.3) tragen dazu bei, dieTestung nicht unnötig langweilig oder frustrierend zu ge-stalten. Dennoch muss der Test nach wie vor als sehr auf-wändig beurteilt werden. Gerade für jüngere Kinder isteine Testung, die in der Regel wohl kaum mit 85 Minu-ten (S. 58), sondern eher (wie auch schon die Vorgän-gerversion) mit durchschnittlich zwei Stunden zu veran-schlagen sein dürfte, psychisch wie physisch sehr bean-spruchend. Immerhin sind für die Komplettdurchfüh-rung zwei Subtests hinzugekommen. Zweifelsohne istdie ständige Interaktion mit dem/der Testleiter/in hierhilfreich (Willich & Friese, 1994). Problematisch ist abernach wie vor der Hinweis, dass keinerlei Rückmeldungüber die Richtigkeit der Lösungen gegeben werden darf(S. 61 f); besonders jüngere Kinder fragen oft danachund haben das Bedürfnis, ihre Leistungen einzuordnen.Genauere Vorschläge im Handbuch zum Umgang mitdiesem Bedürfnis wären deshalb (auch im Sinne derDurchführungsobjektivität) hilfreich.

2.4 VerfälschbarkeitAls Leistungstest ist der HAWIK-III nur in relativ gerin-gem Maße anfällig dafür, von Verfälschungstendenzenbeeinflusst zu werden. Auch in den bei Kindern undJugendlichen vermutlich eher seltenen Fällen, in de-nen eine Person eine besonders geringe Leistungsfä-higkeit bescheinigt haben möchte, bietet der HAWIK-III durch die permanente Interaktion mit dem/derTestleiter/in gewisse Möglichkeiten der Kontrolle.

2.5 StöranfälligkeitSchon in der Einleitung des Handbuchs (S. 22) wird,Bezug nehmend auf Wechslers Intelligenzkonzept, be-tont, dass Einstellungen und andere nichtintellektuel-le Faktoren wie Ängstlichkeit, Ausdauer, Konzentrati-on, Impulsivität oder Zielstrebigkeit wichtige Determi-nanten intelligenten Verhaltens seien. Derartige As-

478

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

pekte werden durch standardisierte IQ-Tests in der Re-gel nicht explizit erfasst, jedoch haben sie nach diesemVerständnis deutlichen Einfluss auf die Testleistungen.An verschiedenen Stellen des HAWIK-III lässt sich er-kennen, dass solche Einflussgrößen sowie situativeMerkmale bedacht bzw. zumindest zu kontrollierenversucht werden. So sind beispielsweise die bereits er-wähnten genauen Vorgaben zur Gestaltung der Bezie-hung zum Kind und zur Reaktion auf dessen möglicheUnruhe in der Testsituation, zur Handhabung derStoppuhr (um den durch sie entstehenden Leistungs-druck zu reduzieren) oder auch die Anregung, dasTestverhalten des Kindes hinsichtlich seiner Reaktio-nen auf Misserfolge zu protokollieren, als Maßnahmenzu sehen, die derartigen Faktoren Rechnung tragensollen. Etwas problematisch diesbezüglich sind hinge-gen die aus Objektivitätsgründen sicher sinnvollenstrikten Regelungen bezüglich des Nachfragens oderauch der (Nicht-)Rückmeldung von Ergebnissen. FürKinder, die sehr unsicher oder ängstlich sind, könntenbesonders hieraus Einschränkungen entstehen, die esbei der Interpretation zu bedenken gilt.

Überdies bietet der Test durch den Vergleich ver-schiedener Subtests bzw. Subtestkombinationen (z.B.der ersten und der zweiten Testhälfte) die Möglichkeit,Hinweise auf wichtige Leistungseinflüsse wie dasDurchhaltevermögen oder den Umgang mit Zeitdruckzu erhalten. Genauere Angaben hierzu finden sich imHandbuch des HAWIK-III aber leider nicht (vgl. 3.6).

3. Testverwertung3.1 AuswertungsobjektivitätFür die Subtests des Handlungsteils des HAWIK-III kannauf Ebene der Rohpunkteberechnung eine relativ hoheAuswertungsobjektivität angenommen werden, was fürden Verbalteil nicht ohne weiteres zutrifft. Hier wurdeversucht, durch ein ausführliches Kapitel im Testhand-buch zur Auswertung von AV, GF und WT die grund-sätzlichen Kriterien klarer zu machen als im HAWIK-R(S. 72 f). Überdies wurden die Antwortkategorien und -beispiele mit Punktezuordnungen direkt an die Fragenangegliedert und mit Symbolen dafür versehen, wannein Nachfragen indiziert ist. Dennoch bleibt in diesenSubtests (an einigen Stellen) immer noch ein relativ gro-ßer Spielraum, etwa bei der Beurteilung der Frage,wann eine Lösung völlig unbrauchbar ist (hier ist keinNachfragen erlaubt). So kommt man beispielsweise inSchwierigkeiten, wenn ein Junge auf die Frage, was ertun soll, wenn er von einem kleineren Jungen geschla-gen wird (AV, Item 8), für jüngere Altersstufen durchausnicht unerwartet antwortet, er informiere die Lehrkraft.Diese Antwort ist nicht mit einem Nachfragesymbolversehen, und die Entscheidung, ob sie mit einem Punktbewertet wird, dürfte aufgrund der Kriterien wenig ein-deutig ausfallen. (Abgesehen davon könnte man sichfragen, welcher Aspekt von »Allgemeinem Verständnis«hier gemessen wird.) Eine Einschränkung der Auswer-tungsobjektivität ergibt sich auch aus der etwas irrefüh-renden Gestaltung der Rohpunkte-/Wertpunktetabelleauf der zweiten Seite des Protokollbogens. Hierin liegtinsofern eine Fehlerquelle, als die Tabelle das Einbe-

rechnen der Zusatztests ZN, SyS und LT in die IQ-Wert-punktesummen nahe legt; genau diese sollen aber fürdie IQ-Berechnung nicht herangezogen werden. Auchsollten (Tipp-)Fehler in den Tabellen für die altersspezi-fische Wertpunktberechnung in einer weiteren Versionkorrigiert werden (z.B. auf S. 265, in Tabelle A1: Hier be-kommen Kinder im Labyrinth-Test mit 12 Rohpunktenwahlweise 7 oder 9 Wertpunkte). Studien zur Auswer-tungsübereinstimmung für den HAWIK-III liegen bishernicht vor; die Literatur zu Auswertungsfehlern bei derWISC-III lässt jedoch nach wie vor gewisse Schwierig-keiten vermuten (Klassen & Kishor, 1996).

Insgesamt wurde die Auswertungsobjektivitätdes HAWIK-III im Vergleich zum HAWIK-R vermutlichgesteigert. Aufgrund der neuen Möglichkeit, Subtestsgegeneinander auszutauschen, dürfte jedoch die Inter-pretationsobjektivität beeinträchtigt sein. Für einekorrekte Interpretation der Testergebnisse muss ange-geben werden, welche Untertests verwendet wurden,denn HAWIK-III-IQ ist nicht unbedingt gleich HAWIK-III-IQ. Die angegebenen Signifikanzgrenzen für dieUnterschiede zwischen Handlungs- und Verbal-IQ so-wie zwischen einzelnen Subtests sichern die Profilin-terpretation besser als in früheren Versionen. Hinwei-se zur qualitativen Interpretation fehlen jedoch weit-gehend. Wie z.B. ein besonders hoher Wert in einemSubtest inhaltlich auszuwerten ist, bleibt dem Wissender jeweiligen Person überlassen – im HAWIK-R wur-den diesem Problem immerhin noch einige Seiten desHandbuchs gewidmet, im HAWIK-III nur noch einehalbe Seite (vgl. 3.6).

3.2 ZuverlässigkeitDie Ergebnisse der Reliabilitätsanalysen liegen in Formvon Testhalbierungskoeffizienten, Standardmessfeh-lern, Vertrauensintervallen, Interkorrelationen zwi-schen den Subtests (Homogenität) und Korrelationender Subtests mit den einzelnen Wertpunktsummen(Trennschärfen) vor. Analysen zur Retest-Reliabilitätbzw. zur Stabilität wurden im Rahmen der Neubearbei-tung im Gegensatz zur Vorgängerversion und zurWISC-III nicht durchgeführt. (Die dortigen Ergebnisselassen eine – durch Erinnerungseffekte bedingte – hoheStabilität bei sehr kurzen Testabständen, jedoch ehergeringe Zusammenhänge bei längeren Zeiträumen ver-muten, worauf auch die Testherausgeber verweisen.)

Für die Vorgängerversion war die Messgenauigkeitder Untertests mit einer Schätzung der internen Konsis-tenz belegt. Beim HAWIK-III beziehen sich die Testher-ausgeber analog zur amerikanischen Originalausgabe aufdie Split-Half-Methode. Zur Schätzung der Reliabilitätder einzelnen Untertests (außer ZS und SyS) wurden die-se nach elf ganzjährigen Altersgruppen getrennt, nachder Odd-Even-Methode halbiert und die Interkorrelatio-nen der beiden Testhälften nach Spearman-Brown korri-giert. Die Werte variieren zwischen .56 und .93, die überdie Altersgruppen gemittelten Werte zwischen .68 und.88 (Median .81)3. Die niedrigsten Werte erzielen derneue LT (rtt=.56-.89) und der Untertest FL (rtt=.59-.76),wobei die Messgenauigkeit vor allem in den höheren Al-tersstufen reduziert ist. Der Untertest BO, der im HA-

r e p o r t fachwissenschaftlicher teil

479

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

3 Diese und alle folgendenAngaben des Medians sind Ergebnisse von Analysen der Testrezen-sent(inn)en und nicht imManual des HAWIK-IIIaufgeführt.

WIK-R vor allem in höheren Altersstufen eher ungenaueMessungen lieferte, weist inzwischen zufriedenstellendeGenauigkeiten auf (rtt=.68-.82). Auf die beiden reinenGeschwindigkeitstests ZS und SyS ist die Testhalbierungnach der Odd-Even-Methode nicht anwendbar, da diesezu einer erheblichen Überschätzung der Messzuverläs-sigkeit führen würde. Zur Bestimmung der Reliabilitäts-koeffizienten wurden diese beiden Tests in einer Teil-stichprobe mit jeweils 75 Kindern im Alter von 7 oder 11Jahren nach der Testzeit halbiert und die resultierendenKorrelationen zwischen erster und zweiter Testhälftewiederum nach Spearman-Brown korrigiert (ZS: rtt=.83-.86, SyS: rtt=.77-.80). Insgesamt liegen die Untertestre-liabilitäten damit nicht über denen des HAWIK-R(rtt=.67-.89, Median .86). Bedenkt man, dass Schätzun-gen nach der Split-Half-Methode zu höheren Kennwer-ten führen, wie einer der Testherausgeber selbst in derVorgängerversion bemerkte (Tewes, 1985), kann davonausgegangen werden, dass die Messgenauigkeit im Ver-gleich zur Vorgängerversion eher etwas reduziert ist. Ins-gesamt liegen die Zuverlässigkeiten der Untertests je-doch – bis auf einige altersspezifische Ausnahmen – imzufrieden stellenden bis oberen Bereich.

Die Messgenauigkeiten der drei IQ-Werte wur-den in den einzelnen Altersgruppen mit der Formelvon Mosier (vgl. Lienert & Raatz, 1998) für gleiche Ge-wichtsfaktoren geschätzt und liegen im oberen und fürIntelligenztestbatterien üblichen Bereich (Verbal-IQ:rtt=.91-.96, Handlungs-IQ: rtt=.89-.94, Gesamt-IQ:rtt=.94-.97). Die Reliabilitätskennwerte der vier Index-werte – nach dem gleichen Verfahren geschätzt – lie-gen geringfügig niedriger (rtt=.83-.96), sind aber eben-falls als hoch zu bezeichnen.

Die Standardmessfehler der einzelnen Untertests– berechnet für die einzelnen Altersstufen auf der Ba-sis der Split-Half-Schätzungen nach Lienert und Raatz(1998) – liegen zwischen 0.79 und 2.16 Wertpunkten(WP). Die über die Altersstufen hinweg gemitteltenFehlerwerte variieren zwischen 1.04 und 1.73 WP (Me-dian 1.33 WP). Der analog berechnete Standardmess-fehler der drei IQ-Werte liegt für die verschiedenen Al-tersgruppen im Bereich 2.60 bis 4.97 IQ-Punkte (IQP;Mittelwert: Verbal-IQ: 3.53 IQP; Handlungs-IQ: 4.45IQP; Gesamt-IQ: 3.10 IQP). Entsprechend der etwasniedrigeren Reliabilitäten der Indexwerte liegen derenStandardmessfehler etwas höher (gemittelte Werte imBereich 3.78 bis 5.37 IQP). Zur Berechnung der für das90%- und das 95%-Niveau angegebenen Vertrauens-intervalle wurden anstelle der Standardmessfehler dieStandardschätzfehler herangezogen, woraus etwaskleinere und unsymmetrische Intervalle resultieren(Lienert & Raatz, 1998).

Die Interkorrelationen zwischen den Subtests va-riieren stark. Sie liegen, getrennt für elf Jahrgangsgrup-pen berechnet, zwischen .00 und .81 und, gemitteltüber alle Altersgruppen, zwischen .18 und .66 (Median.36). Wie auch schon in früheren Versionen des HAWIKtreten die stärksten Zusammenhänge zwischen den Un-tertests des Verbalteils auf, wobei hier nochmals diehohen Korrelationen mit dem Verbalteil insgesamt auf-fallen. Insgesamt ist der HAWIK-III als relativ homoge-

nes Verfahren zu bezeichnen, wobei die Interkorrela-tionen der Subtests ein – entsprechend der theoreti-schen Konzeption – intendiertes Merkmal des Testsdarstellen. Allerdings vermisst man eine Interpretationder Interkorrelationen, die wohl zugunsten der Be-schreibung von Faktorenanalysen im Zusammenhangmit der (unten zu erläuternden) Konstruktvalidität re-dundant erschien. Gleiches gilt für die Korrelationender Subtests mit den jeweiligen Wertpunktsummen,die insgesamt relativ hoch ausfallen: Jeweils über dieKorrelationen der elf Jahrgangsgruppen gemittelt, lie-gen sie für den Verbalteil zwischen .72 und .86, für denHandlungsteil zwischen .61 und 80 und für den Ge-samtwert zwischen .52 und .78 (Median .69). Die Kor-relationen mit den Wertpunktsummen der vier Index-werte fallen teilweise noch höher aus (SV: r=.80 bis.88; WO: r=.75 bis .82; UA: r=.84 bis .85; AG: rs=.88).

Im Zusammenhang mit der messtechnischen Güteder Skalen werden schließlich die oben bereits genann-ten Möglichkeiten der statistischen Absicherung vonDifferenzen in den Ergebnisprofilen erläutert. Die jeweilsfür das 5%- und 15%-Niveau angegebenen kritischenDifferenzen zwischen zwei Ergebniswerten bzw. einemWert und dem Mittelwert einer Gruppe von Wertenwurden auf der Basis des Standardmessfehlers der jewei-ligen Differenzen berechnet. Auf die nicht vorgenomme-ne α-Adjustierung bei den paarweisen Vergleichen voneinzelnen Untertests wird hingewiesen.

3.3 GültigkeitEiner der zentralen Kritikpunkte am HAWIK-R war derim Handbuch nicht und im Begleitband (Titze & Te-wes, 1984, 1987, 1994) nicht ausreichend erbrachte Be-leg seiner Validität (z.B. Willich & Friese, 1994). DieserKritik wurde bei der Neubearbeitung des HAWIK of-fensichtlich versucht Rechnung zu tragen, wenngleichnoch weitere Studien zur kriterialen, zur klinischenund insbesondere zur prognostischen Gültigkeit von-nöten sind. (Zu Letzterer kann bislang lediglich festge-stellt werden, dass aufgrund der vermuteten geringenStabilitäten Schuleignungsfeststellungen auf der Basisvon HAWIK-III-Ergebnissen sehr fragwürdig erschei-nen; vgl. Heller & Perleth, 2000). So werden zur Kon-struktvalidität Untersuchungen zur Faktorstruktur desTests und Interkorrelationen zwischen den IQ- und In-dexwerten berichtet. Zur Kriteriumsvalidität werdenMittelwertunterschiede zwischen verschiedenenSchultypen und Zusammenhangsanalysen mit Schul-noten und Intelligenzurteilen von Lehrern dargestellt.Die klinische Validität wurde in einer Teilstichprobeuntersucht, die aus Kindern mit diagnostizierter hyper-kinetischer Störung bestand.

Die Faktorenanalysen zur Konstruktvalidierung derIQ- und Indexwerte wurden durchwegs nach der Maxi-mum-Likelihood-Methode mit Varimax-Rotation sowohlfür die Gesamtnormierungsstichprobe als auch für vier Al-tersgruppen getrennt berechnet, wobei Ergebnisse derbei dieser konfirmatorischen Vorgehensweise möglichenModellanpassungstests nicht berichtet werden. Die Vali-dität der beiden Konstrukte Verbal- und Handlungs-IQbegründen die Testherausgeber mit erzwungenen Zwei-

480

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

3 Diese und alle folgendenAngaben des Medians sind Ergebnisse von Analysen der Testrezen-sent(inn)en und nicht imManual des HAWIK-IIIaufgeführt.

Faktoren-Lösungen, die zwischen 39% und 48% der Va-rianz aufklärten und Eigenwerte lieferten, die durchwegshöher als 2.4 lagen. Die Faktorladungen wiesen nur teil-weise die erwartete Struktur auf: Vor allem die Unter-tests, die den beiden Indizes UA und AG zugeordnet sind,wiesen niedrige oder uneindeutige Ladungen auf. Bemer-kenswert ist zudem, dass die Faktorladungen des ZN unddes LT nur wenige substanzielle Ladungen (a≥.50) aufdem zugeordneten Faktor aufweisen. Die Möglichkeit,einen beliebigen Test des Verbalteils durch das ZN und ei-nen beliebigen Test des Handlungsteils durch den LT zuersetzen (S. 28), erscheint somit fragwürdig. Die fakto-rielle Validität der vier Indexwerte wurde mit verschiede-nen Abbruchkriterien bestimmt, wobei aus der Beschrei-bung nicht klar hervorgeht, welches Kriterium bei wel-cher Analyse Verwendung fand: Es wird bemerkt, dassbei Verwendung des Eigenwertkriteriums zwischen dreiund fünf Faktoren resultieren; berichtet werden jedochdie Faktorenstrukturen derjenigen Auswertungen, die diejeweils in den Indexwert eingehenden Untertests »ambesten repräsentieren« (S. 103). Dennoch scheinen Lö-sungen mit mehr als zwei Faktoren die Struktur des HA-WIK-III besser zu beschreiben: Insgesamt erklären dieden Indexwerten entsprechenden Faktoren zwischen47% und 67% der Varianz und liefern deutlich kleinere Ei-genwerte als die Zwei-Faktoren-Lösung. Die IndexwerteSV, WO und AG lassen sich zudem relativ gut replizieren.Das Konstrukt »Unablenkbarkeit« kann dagegen wenigergut nachgewiesen werden. Die Testherausgeber betonenjedoch, dass in der Gesamtstichprobe die ersten vier Fak-toren einer Fünf-Faktoren-Lösung den vier Indizes ent-sprechen und die Varianzaufklärung des vierten Faktors(UA) mit 6% Varianzaufklärung zwar sehr schwach, abernoch deutlich stärker als in der WISC-III ist, bei der die-ser nur 2 bis 3% der Varianz erklärt. Zusammenfassendsprechen die Ergebnisse der Faktorenanalysen sehr wohldafür, »die Testleistung des Kindes nicht ausschließlich alsGesamt-IQ zu beschreiben« (S. 103), die Sinnhaftigkeitvon Verbal- und Handlungs-IQ wird jedoch nicht ausrei-chend belegt. Viel sinnvoller erscheint die Bildung dervier Indexwerte, die sich nicht nur sauberer nachweisenlassen und mehr Varianz aufklären, sondern auch unter-einander geringere – über Wertpunktsummen berechne-te und Jahrgangsgruppen gemittelte – Korrelationen auf-weisen (r=.38 bis .61, Median .48) als Verbal- und Hand-lungs-IQ (r=.64). Zudem sprechen die außerordentlichhohen Korrelation des SV mit dem Verbal-IQ einerseits(r=.98) und der WO mit dem Handlungs-IQ andererseits(r=.97) für eine gewisse Redundanz der beiden IQ-Werte.

Hinsichtlich der als besonders gewichtig zu beur-teilenden kriterialen Validität (Testkuratorium, 1986)werden zunächst – gesondert für die drei in die Normie-rung einbezogenen Staaten – in Teilen der Normstich-probe (insgesamt N=909) Unterschiede zwischen ver-schiedenen Schultypen angeführt, wobei sich inDeutschland in allen, in Österreich und in der Schweiz inden meisten Fällen die erwarteten Unterschiede zeigten.Für einen Teil der österreichischen (N=212) und derSchweizer (N=166) Normierungsstichprobe wurden dieTestwerte mit den Schulnoten in den Fächern Mathema-tik und Deutsch sowie dem Gesamtnotendurchschnitt

korreliert. Diese Analysen ergaben mittlere Zusammen-hänge mit dem Verbal-IQ (r=.26 bis .50, Median .42)und dem Gesamt-IQ (r=.30 bis .52, Median .41) sowieetwas niedrigere Zusammenhänge mit dem Handlungs-IQ (r=.15 bis .38, Median .31). Die Herausgeber bemer-ken, dass die Zusammenhänge »von einer Größenord-nung sind, wie sie bei Intelligenztests allgemein beob-achtet werden« (S. 110). Auch wenn im Vergleich zu ei-ner Untersuchung von Blanke (1984; zitiert nach Titze &Tewes, 1984) mit dem HAWIK-R die Korrelationen mitdem Verbalteil etwas niedriger ausfallen, muss von einer– nach wie vor vorhandenen – Schulgebundenheit desVerbalteils (vgl. Amelang & Zielinski, 2002) gesprochenwerden. Bei den Testungen, die die Rezensent(inn)enmit dem HAWIK-III durchführten, waren dementspre-chend Aussagen wie: »Das haben wir noch nicht ge-habt!«, nicht selten zu hören. In der österreichischenTeilstichprobe wurden zusätzlich die vier Indexwerte indie Analysen eingesetzt, wobei sich hier schwache bismittlere Zusammenhänge mit den Schulnoten ergaben(SV: r=.27 bis .44, Median .37; WO: r=.13 bis .35, Medi-an .22; UA: r=.23 bis .39, Median .33; AG: r=.16 bis .26,Median .24), die höchsten wiederum mit dem SV. DasIntelligenzurteil der Lehrperson (in der Schweizer Teil-stichprobe miterhoben) korrelierte mit den drei IQ-Wer-ten in mittlerer Höhe (r=.33 bis .64, Median .49).

Zur klinischen Validität werden die Ergebnisse ei-ner getrennten Studie berichtet, in der 41 Kinder mit derDiagnose »hyperkinetische Störung« mit dem HAWIK-III sowie einer deutschen Übersetzung der »Child Beha-vior Checklist« (Achenbach, 1991), mit der sich u.a. dasAusmaß der Hyperaktivität abschätzen lässt, untersuchtwurden. Diese Kinder wiesen einen niedrigeren Verbal-als Handlungs-IQ und eine im Vergleich zur Wahrneh-mungsorganisation verminderte Arbeitsgeschwindig-keit, jedoch keine signifikante Verminderung der Unab-lenkbarkeit auf. Die Arbeitsgeschwindigkeit war zudemumso stärker beeinträchtigt, je höher das Ausmaß derHyperaktivität war.

3.4 NormierungDie Normierungsstichprobe für den HAWIK-III um-fasste insgesamt 1570 Kinder und Jugendliche, wobeider Mädchenanteil insgesamt bei 50% lag. 990 Pro-band(inn)en stammten aus Deutschland, davon 19%aus den neuen Bundesländern. Erstmals flossen auchDaten aus Österreich (N=300) und der deutschsprachi-gen Schweiz (N=280) in die Normierung ein. Die Be-rücksichtigung von Proband(inn)en aus dem komplet-ten deutschsprachigen Raum ist zweifellos positiv imVergleich zu einigen anderen Verfahren und als Fort-schritt gegenüber der Vorgängerversion zu bewerten(Willich & Friese, 1994). Da auch in den Itemformulie-rungen nationale Spezifika bedacht wurden, erübrigtsich vermutlich für den HAWIK-III eine umfangreicheAdaptation (was für frühere Versionen nötig war, z.B.von Bründler & Schallberger, 1988). Die prozentualeZusammensetzung der Stichprobe dürfte in etwa pro-portional zu den Bevölkerungszahlen sein, die Grund-lagen für die Stichprobenschichtung werden im Hand-buch allerdings nicht weiter ausgeführt.

481

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

r e p o r t fachwissenschaftlicher teil

Insgesamt finden sich – auch im Vergleich zum HA-WIK-R – relativ wenig Informationen zu den Merkmalender Stichprobe und ihrer Repräsentativität: Man erfährtzwar neben der Altersverteilung, dass die bildungsspezi-fische Zuordnung nach Schultyp erfolgte und die ent-sprechenden Zahlen den jeweiligen Schulstatistiken ausden drei Staaten entnommen seien, weitere Angaben,beispielsweise zur Kontrolle von sozialen Schichteffektenoder zur Stadt-Land-Verteilung, sucht man vergeblich.Lediglich über die Repräsentativität der Schweizer Stich-probe wird etwas genauer informiert, wobei die Motiva-tion für diese exemplarischen Ausführungen eher speku-lativ bleibt. Die erwähnte Zuordnung der Stichprobe zuSchultypen findet sich separat für die Staaten und Alters-stufen in Tabellen dargestellt. Es ist jedoch schwierignachzuvollziehen, weshalb in der deutschen Stichprobefast 60% der 12-jährigen in Grundschulen gehen und nur3,3% der 11-jährigen in ein Gymnasium, kein Kind dieserAltersstufe aber die Hauptschule besucht. Hier scheinenBundesländerspezifika zu greifen, die eine genauere Be-schreibung der Stichprobe hinsichtlich dieser Frage er-fordern. Schließlich wurden Gesamtschulen in der Nor-mierung offenbar nicht berücksichtigt sowie Real- undHauptschulen zusammengefasst betrachtet.

Im Vergleich zum HAWIK-R wurde der Altersbe-reich der Eichstichprobe um einen Jahrgang erweitertund umfasst nun 11 Jahre (zwischen 6 und 16;11 Jahren).Diese Altersstufen sind relativ ausgeglichen mit durch-schnittlich 143 Schüler(inne)n besetzt. Damit handelt essich im Mittel um 46 Schüler(innen) weniger als beimHAWIK-R, so dass die Zellbesetzungen für die notwen-dige altersspezifische Normenberechnung nur als grenz-wertig vertretbar erscheinen (Krauth, 1995). Noch pro-blematischer wird dieser Aspekt, wenn man bedenkt,dass wie schon im HAWIK-R eine (entwicklungspsycho-logisch sinnvolle) Aufteilung in Viermonatsgruppen vor-genommen wird, auf deren Basis die Wertpunktzuord-nung erfolgt. Die daraus resultierende Basis für die IQ-Berechnung liegt bei 35 bis 60 Kindern (Mittelwert 48).Diese Zahlen sind auch hier geringer als die schon imHAWIK-R nicht unkritisierten Zellenbesetzungen (vgl.Heller & Perleth, 2000). Überdies zeichnen sich die soentstehenden drei Normentabellen pro Jahrgang wieschon die des Vorgängers des HAWIK-III »weder durchgleichmäßige Besetzung noch durch eigene Reliabilitäts-angaben« aus (Willich & Friese, 1994).

Die häufig bemängelte Differenzierungsschwächedes HAWIK-R bei jüngeren und leistungsschwächerenKindern (z.B. Heller & Perleth, 2000; Ahrbeck, Lom-matzsch & Schuck, 1984) wurde laut Handbuch bei derNeubearbeitung reduziert, indem darauf geachtet wur-de, dass die Itemschwierigkeit besser streut und einzel-ne Leistungsgruppen nicht mehr benachteiligt würden(S. 26). Wo und in welcher Form dies umgesetzt wurde,würde man sich allerdings genauer erörtert wünschen.Betrachtet man die Verteilung in der Normierungsstich-probe, so ist der Anteil an Sonderschüler(inne)n nachwie vor in einigen Altersbereichen sehr gering. (In derGruppe der 6-jährigen in der deutschen Stichprobe dürf-te das ein(e) Schüler(in) sein.) Darüber hinaus legen dieWertpunktäquivalente die Vermutung nahe, dass die Va-

rianz der Rohwerte auch im HAWIK-III zumindest für ei-nige Altersgruppen eher gering war. So entsprechen vorallem im Verbalteil bei jüngeren Altersstufen schon sehrwenige Rohpunkte relativ vielen Wertpunkten; eine Dif-ferenz von einem Rohpunkt ist teilweise einer Differenzvon mehr als einem Wertpunkt äquivalent. Klarheit überdie Frage der besseren Differenzierung in den Extrembe-reichen könnte die Angabe der (altersspezifischen) Ver-teilungskennwerte für die Rohwerte geben; Informatio-nen hierzu fehlen aber im neuen Handbuch ebenso wiein dem der Vorgängerversion (vgl. die Kritik von Ahr-beck, Lommatzsch & Schuck, 1984).

Insgesamt kann der HAWIK-III somit zwar im Gro-ßen und Ganzen als durchaus sorgfältig normiert be-zeichnet werden (dies indiziert auch die Flächentrans-formation bei der Rohwertetransformation), im Detailaber bleiben nach wie vor Fragen offen und mancheNormierungsrichtlinien unberücksichtigt. Auch die an-gekündigte Reduzierung der Benachteiligung leistungs-schwächerer Gruppen würde man sich deutlicher nach-vollziehbar wünschen; aufgrund der erkennbaren Wertekommt man eher zu dem Schluss, dass der Einsatz desTests eigentlich nur im mittleren Leistungsbereich ver-tretbar ist. Positiv ist, dass die Autoren die beschränkteAussagekraft des Tests bei Kindern und Jugendlichenmit nicht deutscher Muttersprache4 klarstellen und dieMöglichkeiten einer dennoch sinnvollen Verwendungerörtern. Ein Aspekt, der zu diesem Zeitpunkt für diedeutsche Version noch unklar, für Praktiker(innen) abersehr bedeutsam ist, ist der der epochalen Normenver-schiebung zum HAWIK-R (»IQ-Gain« oder »Flynn-Ef-fekt«; Flynn, 1987; Schallberger, 1987), den es analog zurWISC-III (Slate & Saarnio, 1995) noch zu quantifizierengilt (vgl. hierzu auch Schubert & Berlach, 1982).

3.5 BandbreiteFür welche grundsätzlichen Fragestellungen sich der HA-WIK-III eignet, wurde bereits unter 1.1 angesprochen: Erkann als Intelligenzdiagnostikum für vielfältige Fragestel-lungen in der pädagogisch- wie auch der klinisch- oderneuropsychologischen Forschung und Praxis sinnvolleingesetzt werden. Die Möglichkeit, empirisch fundierteInformationen über Leistungsprofile zu gewinnen, ist da-bei im Vergleich zum HAWIK-R deutlich verbessert wor-den (vgl. 3.6). Der HAWIK-III beschränkt sich altersmä-ßig auf Kinder und Jugendliche zwischen 6 und 16;11 Jah-ren, kulturell und sprachlich auf Deutschland, Österreichund die deutschsprachige Schweiz. Testresultate vonProband(inn)en mit nicht deutscher Muttersprache soll-ten (auch hinsichtlich des Handlungs-IQ) nach wie vorsehr vorsichtig interpretiert werden. Der Test findet seine sinnvollste Anwendung im mittle-ren Leistungsbereich, über Personen aus dem besondershohen wie auch dem besonders niedrigen Leistungs-spektrum können nur eingeschränkt Aussagen getroffenwerden (S. 30f.). Zu Recht weisen die Testautoren daraufhin, dass gegenüber Selektionsentscheidungen im Rah-men einer Sonderschulzuweisung, die auf der Basis vonkritischen Testwerten erfolgen, sowohl unter statistisch-methodischer als auch unter pädagogischer Hinsicht»schwerwiegende Bedenken anzumelden« sind (S. 31).

482

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

4 Abgesehen davon,dass der Ausdruck»fremde Muttersprache« im Handbuch etwasseltsam anmutet.

3.6 InformationsausschöpfungDie Zahl der Indikatoren und Indizes ist im HAWIK-IIIbedingt durch die Zusatztests, die vier neuen Indexwer-te mit IQ-Skala sowie die Signifikanzangaben zu Diffe-renzen zwischen diesen und zwischen einzelnen Sub-tests, im Vergleich zum HAWIK-R gestiegen. (Insgesamtkönnen sieben IQ-Werte auf dem Protokollbogen einge-tragen werden.) Noch mehr als in der Vorgängerversionfehlen aber im Handbuch Angaben, wie diese Indikato-ren inhaltlich einzuordnen sind. Zu den viel diskutiertenMöglichkeiten der Profilinterpretation, die im HAWIK-IIIzugenommen haben, werden wiederum nur spärlicheAngaben gemacht. Für die volle Ausschöpfung der mög-lichen Informationen – vor allem in inhaltlicher Hinsicht– muss deshalb nach wie vor auf Sekundärliteratur zu-rückgegriffen werden, die sich derzeit ausschließlich aufden HAWIK-R bezieht (z.B. Titze & Tewes, 1987). Es stelltsich an dieser Stelle die Frage, ob es sinnvoll ist, diequantitativen Testinformationen immer weiter auszudif-ferenzieren, gleichzeitig aber deren sinnvolle Interpreta-tion von der Lektüre weiterer Bücher – neben einem 330Seiten langen Handbuch – abhängig zu machen.

3.7 ÄnderungssensitivitätDie Einsatzmöglichkeiten des HAWIK-III für Mehrfach-testungen sind begrenzt und nur für wenige Fragestel-lungen sinnvoll. Da keine Parallelformen vorliegen, istbei kürzeren Zeitabständen mit Erinnerungseffekten zurechnen, bei längeren sind Veränderungen durch alters-bedingte Entwicklungseffekte überlagert. Beispielsweisekann die Effizienz von Fördermaßnahmen nur sehr be-dingt mit Hilfe des HAWIK-III beurteilt werden, währendfür ein nach einiger Zeit wiederholtes Verorten der Leis-tungsfähigkeit von Proband(inn)en im altersentspre-chenden Leistungsspektrum durchaus interessante Hin-weise gewonnen werden können.

4. Testevaluation4.1 ÖkonomieVor dem Hintergrund der langen Durchführungsdauer(vgl. 2.3), der notwendigen Qualifizierung von Testlei-ter(inne)n, der hohen einmaligen und laufenden Kos-ten des Tests (der Testkoffer mit Material, 25 Protokoll-bögen, je 25 Testheften LT und SyS und Manual kostet844 EUR; pro weiterer Testung sind dann für Proto-kollbogen und für die Testhefte LT und SyS 6,54 EURzu veranschlagen), aber auch der partiellen Redundanzeinzelner Untertests (vgl. 3.3) ist die Ökonomie desTests nach wie vor als eher gering einzuschätzen (vgl.Willich & Friese, 1994).

4.2 FairnessBei der Normierung wurden die Mitglieder von verschie-denen, im Zusammenhang mit der Testfairness relevan-ten Gruppen (Alters- und Geschlechtsgruppen, Gruppender Schulzugehörigkeit und der regionalen Herkunft),die durch das Testverfahren potenziell in systematischerWeise diskriminiert werden könnten, quotiert in dieStichprobe aufgenommen (vgl. aber 3.4). Damit ist zwareine wichtige Grundlage eines fairen Tests erbracht,nicht jedoch der Nachweis dafür. Angaben etwa darüber,

ob der HAWIK-III bei Angehörigen verschiedener Grup-pen bei gleichen Testergebnissen zu gleichen Vorhersa-gen hinsichtlich eines oder mehrerer Außenkriterienführt (Cleary, 1968), werden im Manual nicht gemacht.Hier wären zusätzliche Analysen bzw. Studien wün-schenswert, zumal dem HAWIK-R verschiedentlich un-terstellt wurde, dass er Kinder aus niedrigen soziokultu-rellen Schichten aufgrund deren mangelnder Förderungzusätzlich benachteilige. Auch wenn diese Kritik am HA-WIK-R größtenteils ausgeräumt wurde (vgl. Willich &Friese, 1994), bedeutet das nicht, dass derartige Benach-teiligungen für den HAWIK-III nicht vorhanden seinkönnten. Darüber hinaus sollte auch die (empirisch ge-stützte) Vermutung einer Benachteiligung von Mädchenmit der WISC-III (Slate, 1998) Anlass für Untersuchungender Testfairness sein.

4.3 AkzeptanzBislang liegen – abgesehen von einzelnen Beiträgen inelektronischen Foren – kaum kontrollierte Erfahrungendazu vor, in welchem Umfang sich »subjektive Meinun-gen, Bewertungen oder gesellschaftspolitische Überzeu-gungen« (Testkuratorium, 1986) im HAWIK-III-Tester-gebnis niederschlagen. Die große Verbreitung des Ver-fahrens, die teilweise sehr kritischen Bewertungen desHAWIK-R sowie das nach der Revision im Jahr 1983 viel-fach diskutierte Phänomen des »IQ-Gains« lassen jedochgroßes Interesse an der Klärung dieser Fragen auch ge-genüber der Neubearbeitung erwarten. Die gesell-schaftspolitische Kritik an den Iteminhalten einzelnerUntertests, wie etwa ein dem BO zugrunde liegendesfrauenfeindliches Weltbild (Sührig & Sührig, 1984), ist vordem Hintergrund größtenteils neuer Items teilweisewohl hinfällig. Die aus dem amerikanischen Originalübernommenen Items bieten möglicherweise aber An-lass für neuerliche Ideologiekritik, wie etwa die sehr ang-loamerikanisch geprägten Items des genannten Unter-tests vermuten lassen.

4.4 Übereinstimmung mit anderen UntersuchungsverfahrenIm Manual finden sich lediglich Angaben zur Vergleich-barkeit des HAWIK-III mit seinem Vorgänger und mitder WISC-III. Ausführlich werden die testkonstruktivenUnterschiede zum HAWIK-R und die Beibehaltung dertheoretischen Grundlagen des Tests erläutert. Die wich-tigsten Neuerungen betreffen die engere Anlehnung andas amerikanische Original, damit einhergehend dieAufnahme zweier neuer Untertests (SyS und LT) und dieÜbernahme der meisten Items des WISC-III sowie diebreiter angelegte Normierung. Darüber hinausgehendeUnterschiede zum Vorgänger des HAWIK-III können Ta-belle 1 entnommen werden. Da es sich beim HAWIK-IIIum eine Neubearbeitung eines »traditionsreichen« Testshandelt, ist er kein grundsätzlich neues Verfahren.

4.5 BewährungDerzeit kann noch keine Aussage zur Bewährung desVerfahrens getroffen werden. Es bleibt zu hoffen, dassdie »systematische Aufarbeitung und Bewertung dermit dem Test gesammelten Erfahrungen« (Testkurato-

483

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

r e p o r t fachwissenschaftlicher teil

rium, 1986, S. 360) in den kommenden Neuauflagendes Manuals zeitnaher erfolgt als beim HAWIK-R (vgl.Willich & Friese, 1994).

5. Äußere TestgestaltungDer Gestaltung der Testmaterialien kann als recht pro-band(inn)enfreundlich bezeichnet werden (vgl. auch2.3). Die Herausgeber haben sicher nicht Unrecht,wenn sie behaupten, »den meisten Kindern macht dieBearbeitung des HAWIK-III Spaß« (S. 60). Nicht ganzverständlich ist allerdings (auch in Anbetracht desenorm gestiegenen Preises), warum für den MT aufzweifarbige Plastikwürfel zurückgegriffen wurde.

Das Testmanual ist in einer leicht verständlichen

Sprache verfasst. Im (etwas zu umfangreichen) Durch-führungsteil sind wörtliche Anweisungen farblich her-vorgehoben, die Bewertungskriterien aller Tests sindnun enthalten. Angesichts sehr spärlicher und keines-wegs ausreichender Informationen zur inhaltlichen In-terpretation der Testergebnisse (vgl. 3.6), kann dasManual letztlich jedoch nur als eingeschränkt benut-zer(innen)freundlich bezeichnet werden.

Im Gegensatz dazu ist der Protokollbogen nach derNeubearbeitung deutlich verbessert worden. Insbeson-dere ist nun für die Antwortprotokollierung sowie fürsonstige Bemerkungen mehr Platz vorgesehen. Ferner istdie Angabe von Prozenträngen und Vertrauensinterval-len positiv hervorzuheben.

484

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

Ohne Zweifel wird der HAWIK-III wie auch schon sei-ne Vorgänger eine wichtige Rolle in der deutschspra-chigen Intelligenz- und Leistungsdiagnostik für dasKindes- und Jugendalter spielen. Er steht in der Tradi-tion einer über verschiedene Revisionen hinweg opti-mierten und bewährten Testform. Unter Beibehaltungder Vorteile seiner Vorversionen wurden einige ihrerSchwächen erkennbar verringert. Der HAWIK-III lässtsich als insgesamt reliables Instrument bezeichnen,über dessen Gültigkeit man deutlich mehr erfährt, alsdies noch für den HAWIK-R der Fall war – auch wennweitere Angaben (z.B. zur prognostischen Validität)sehr wünschenswert wären. Die Durchführungs- undAuswertungsobjektivität sowie die Testgestaltungwurden deutlich verbessert. Vier neue Leistungsindi-zes und die statistische Absicherung von Profildifferen-zen sind begrüßenswerte Erweiterungen.

Trotz wesentlicher Neuerungen – z.B. auch der re-gionalen Erweiterung der Normstichprobe – sind ausmethodischer Sicht beim Einsatz des Verfahrens einigekritische Punkte zu beachten. So fehlen nach wie vorAngaben zu den Kennwerten der Rohwerteverteilungoder zu den Itemanalysen, so dass die Nachvollziehbar-keit der Testkonstruktion eingeschränkt ist. Dies giltauch für inhaltliche Konstruktionsargumente. Überdieswürde man sich genauere Informationen über die Eich-stichprobe und ihre Repräsentativität wünschen, da sietrotz des erweiterten Normierungsbereichs des Testskleiner ist als die des HAWIK-R, was bei der altersspe-zifischen IQ-Berechnung problematisch wird. Dass Sta-bilitätsangaben fehlen, dürfte Anwender(innen) ebensounbefriedigt lassen, wie die Tatsache, dass die Ergeb-nisse der berichteten Faktorenanalysen bei genauer Be-trachtung eher für eine ausschließliche Berechnung vonvier Indizes als für einen Verbal- und einen Handlungs-IQ sprechen. Hierbei ist außerdem zu bemerken, dassder Indexwert »Unablenkbarkeit« weiterer theoreti-scher wie testkonstruktiver Klärung bedarf. Alles in al-lem ist der HAWIK-III ein Instrument, das sehr hoheAnforderungen an die Anwender(innen) stellt. Gegen-über den vielen Durchführungsanweisungen und dar-gestellten quantitativen Auswertungsmöglichkeiten ineinem wesentlich umfangreicher ausgefallenen Hand-

buch wurden die inhaltlich-qualitativen Interpretati-onshilfen bedauerlicherweise reduziert.

Für eine erschöpfende Bewertung des Verfahrensfehlen derzeit zweifelsohne noch die nötigen Erfahrun-gen und Informationen. Doch bleibt festzuhalten, dassder HAWIK-III sicherlich für viele, insbesondere kli-nisch- und pädagogisch-psychologische Fragestellun-gen hilfreich sein wird, wenngleich er nach wie vor fürdie Diagnostik im oberen und unteren Leistungsspek-trum nur sehr eingeschränkt geeignet erscheint. Darü-ber hinaus bestehen einige Defizite, die teilweiseschon am HAWIK-R kritisiert worden sind und durchpräzisere Angaben ausgeräumt werden könnten. Diesesollten von den Autoren in einer Zusatzpublikationbzw. einer späteren Neuauflage des Manuals berück-sichtigt werden, ebenso die Korrektur einiger Fehlerim Manual und Protokollbogen. Auch in Anbetrachtdes hohen Preises ließe sich dann die Anwendung desHAWIK-III uneingeschränkter empfehlen.

Z U S A M M E N F A S S U N G

Achenbach, T. M. (1991). Manual for the Child Behavior Checklist and Revi-sed Child Behavior Checklist. Burlington, VT. (Autor deutsch: Achenbach, T.M. & Arbeitsgruppe Kinder-, Jugendlichen- und Familiendiagnostik. Deut-sche Child Behavior Checklist. Köln: Universitätsklinik und Poliklinik für Psy-chiatrie und Psychotherapie des Kindes- und Jugendalters.)Ahrbeck, B., Lommatzsch, E.-M. & Schuck, K. D. (1984). Der »neue« HA-WIK – Ein »neues« Verfahren der sonderpädagogischen Diagnostikzeitschriftfür Heilpädagogik, 35 (1), 49-58.Amelang, M. & Zielinski, W. (2002) Psychologische Diagnostik und Inter-vention. (3., korr., aktualisierte und überarb. Auflage). Berlin: Springer. Bründler, M. & Schallberger, U. (1988). HAWIK-R, Ergänzungsband zumHandbuch mit Testanweisungen und Normentabellen für die deutschsprachi-ge Schweiz. Bern: Huber. Cleary, T. A. (1968). Testbias: Prediction of grades of negro and white studentsin integrated colleges. Journal of Educational Measurement, 5, 115-124.Flynn, J. R. (1984). The mean of IQ of Americans. Massive gains 1932 to1978. Psychological Bulletin, 95, 29-51. Gutezeit, G. (1989). Eine Beurteilung des »Frostig Entwicklungstest der visu-ellen Wahrnehmung« (FEW). Diagnostica, 35, 372-380.Heller, K. A. & Perleth, Ch. (2000). Informationsquellen und Meßinstrumen-te. In K.A. Heller (Hrsg.), Begabungsdiagnostik in der Schul- und Erziehungs-beratung (2. Auflage); S. 96-216. Bern: Huber. Klassen, R. M. & Kishor, N. (1996). A comparative analysis of practitioners`errors on WISC-R and WISC-III. Canadian Journal of School Psychology, 12(1), 35-43.Krauth, J. (1995). Testkonstruktion und Testtheorie. Weinheim: Beltz.Kubinger, K. (Hrsg.) (1983). Der HAWIK – Möglichkeiten und Grenzen sei-ner Anwendung. Weinheim: Beltz.Kubinger, K. D. (1988). Moderne Testtheorie. Ein Abriß samt neusten Beiträ-gen. München: Psychologie Verlags Union.Kubinger, K. D. (1999). Testtheorie: Probabilistische Modelle. In R. Jäger &F. Petermann (Hrsg.), Psychologische Diagnostik (4. Auflage); S. 322-334.München: Psychologie Verlags Union.Lienert, G. A. & Raatz, U. (1998). Testaufbau und Testanalyse (6. Auflage).Weinheim: Beltz.Moosbrugger, H. (1997). Testrezension zu Hamburg-Wechsler-Intelligenztestfür Kinder, Revision 1983 (HAWIK-R). Zeitschrift für Differentielle und Diag-nostische Psychologie, 18, 69-71.Schallberger, U. (1987). HAWIK und HAWIK-R: Ein empirischer Vergleich.Diagnostica, 33, 1-13.Schubert, M. & Berlach, G. (1982). Neue Richtlinien zur Interpretation desHamburg-Wechsler-Intelligenztests für Kinder (HAWIK). Zeitschrift für Klini-sche Psychologie, 11(4), 253-279.Schuck, K. D. & Eggert, D. (Hrsg.) (1975). Hamburg-Wechsler-Intelligenz-Test für das Vorschulalter (HAWIVA). Bern: Huber.Slate, J. R. & Saarnio, D. A. (1995). Differences between WISC-III and WISC-R IQs: A preliminary investigation. Journal of Psychoeducational Assessment,13 (4), 340-346.Slate, J. R. (1998). Sex Differences in WISC-III IQs: Time for separate norms-Journal of Psychology, 132, 677-679.Steuer, O. (1988). HAWIK und HAWIK-R: Testtheoretische Analysen des HA-WIK und seiner revidierten Form als Wiederholungsstudie und Weiterfüh-rung der Arbeit von Kubinger (1983). Wien: Grund- und Integrativwissen-schaftliche Fakultät der Universität Wien.Testkuratorium der Föderation deutscher Psychologenverbände (1986).Beschreibung der einzelnen Kriterien für die Testbeurteilung. Diagnostica, 32,358-360.Tewes, U. (Hrsg.) (1983). Hamburg-Wechsler-Intelligenz-Test für Kinder. Re-vision 1983 (HAWIK-R). Bern: Huber.Tewes, U. (Hrsg.) (1985). Hamburg-Wechsler-Intelligenz-Test für Kinder. Re-vision 1983. Handbuch und Testanweisung (3. korr. Auflage). Bern: Huber.Tewes, U. (Hrsg.) (1991). Hamburg-Wechsler-Intelligenz-Test für Erwachse-ne. Revision 1991 (HAWIE-R). Bern: Huber.Tewes, U., Rossmann, P. & Schallberger, U. (1999). HAWIK-III; Manual.Bern: Huber. Titze, I. & Tewes, U. (1984). Messung der Intelligenz bei Kindern mit demHAWIK-R. Bern: Huber.Titze, I. & Tewes, U. (1987). Messung der Intelligenz bei Kindern mit demHAWIK-R (2. Aufl.). Bern: Huber. Titze, I. & Tewes, U. (1994). Messung der Intelligenz bei Kindern mit demHAWIK-R. (3. vollständig überarbeitete Auflage). Bern: Huber.Wechsler, D. (1949). Manual for the Wechsler Intelligence Scale for Children.New York: The Psychological Corporation. Wechsler, D. (1974). Manual for the Wechsler Intelligence Scale for Children– Revised. San Antonio: The Psychological Corporation. Wechsler, D. (1991). Manual for the Wechsler Intelligence Scale for Children– Third Edition. San Antonio, TX: The Psychological Corporation.Willich, O. & Friese, H.-J. (1994). Aus der Arbeit des Testkuratoriums; DerHamburg-Wechsler-Intelligenztest für Kinder; Revision 1983 (HAWIK-R). Di-agnostica, 40, 172-189.

L I T E R A T U R

r e p o r t fachwissenschaftlicher teil

485

repo

rtpsy

cholo

gie

‹30›

11/

12|2

005

VAN-DEN-HO-EK75X256