Auf Goldmünzenjagd: Psychometrische Kennwerte ... · tes Verständnis des Stellenwertprinzips und...

20
123 Empirische Sonderpädagogik, 2017, Nr. 2, S. 123-142 ISSN 1869-4845 (Print) · ISSN 1869-4934 (Internet) Auf Goldmünzenjagd: Psychometrische Kennwerte verschiedener Scoringansätze bei computergestützter Lernverlaufsdiagnostik im Bereich Mathematik Christin Schwenk 1 , Jörg-Tobias Kuhn 1 , Daniela Gühne 2 , Philipp Doebler 2 & Heinz Holling 1 1 Westfälische Wilhelms-Universität Münster 2 Technische Universität Dortmund Zusammenfassung In diesem Beitrag wird der computergestützte Lernverlaufstest „Goldmünzenjagd“ vorgestellt, der in ein Online-Training für Kinder mit Rechenschwierigkeiten eingebettet ist. Der nach dem robust indicator-Ansatz konstruierte Test bildet den Lernfortschritt in zwei wichtigen mathema- tischen Basiskompetenzen ab: dem arithmetischen Faktenwissen (Addition bzw. Subtraktion bis 20) und dem Zahlenordnen (Zahlenreihen mit drei Elementen bis 100). Mit einem High speed, high stakes-Scoring wird die Bearbeitungseffizienz bewertet. Dieses Scoring verknüpft Ge- schwindigkeit und Präzision zu einem Gewinn oder Verlust von Goldmünzen auf Itemebene und zeigte sich in einer Feldstudie mit N = 241 Grundschulkindern (Klassenstufe 2 bis 4) so- wohl in der Reliabilität (r = .87-.93) als auch in der Kriteriumsvalidität (r = .51) den klassischen Geschwindigkeits- und Präzisions-Scorings überlegen. Die individuellen Ergebnisse in den Lern- verlaufstests waren zudem änderungssensitiv für die statusdiagnostische Entwicklung der Kin- der: Für alle drei untersuchten Scorings ergab sich eine inkrementelle Varianzaufklärung der Leistung nach dem Training durch Parameter individueller Lernverläufe (random intercept: Aus- gangspunkt Lernverlaufstest, random slope: Zuwachs Lernverlaufstest). Der vorgestellte Lernver- laufstest eignet sich damit als reliables und valides Tool zur formativen Evaluation der Leistungs- entwicklung von Grundschulkindern in basalen mathematischen Kompetenzbereichen. Insbe- sondere für rechenschwache Kinder bietet das Goldmünzen-Scoring eine direkt ersichtliche An- reizstruktur, die schlechter Performanz aufgrund von Motivationsdefiziten vorbeugen kann, so- wie die Entwicklung von zählenden hin zu abrufbasierten Rechenstrategien fördert. Aus diesen Gründen ist auch eine Implementation des Verfahrens in den inklusiven Unterricht denkbar. Schlagwörter: Lernverlaufsdiagnostik, Mathematik, computergestützte Diagnostik, Speed-accu- racy-tradeoff, Scoring Auf Goldmünzenjagd: Vergleich verschiedener Scorings

Transcript of Auf Goldmünzenjagd: Psychometrische Kennwerte ... · tes Verständnis des Stellenwertprinzips und...

123

Empirische Sonderpädagogik, 2017, Nr. 2, S. 123-142ISSN 1869-4845 (Print) · ISSN 1869-4934 (Internet)

Auf Goldmünzenjagd:

Psychometrische Kennwerte verschiedener

Scoringansätze bei computergestützter

Lernverlaufsdiagnostik im Bereich Mathematik

Christin Schwenk1, Jörg-Tobias Kuhn1, Daniela Gühne2,

Philipp Doebler2 & Heinz Holling1

1 Westfälische Wilhelms-Universität Münster2 Technische Universität Dortmund

Zusammenfassung

In diesem Beitrag wird der computergestützte Lernverlaufstest „Goldmünzenjagd“ vorgestellt,der in ein Online-Training für Kinder mit Rechenschwierigkeiten eingebettet ist. Der nach demrobust indicator-Ansatz konstruierte Test bildet den Lernfortschritt in zwei wichtigen mathema-tischen Basiskompetenzen ab: dem arithmetischen Faktenwissen (Addition bzw. Subtraktion bis20) und dem Zahlenordnen (Zahlenreihen mit drei Elementen bis 100). Mit einem High speed,high stakes-Scoring wird die Bearbeitungseffizienz bewertet. Dieses Scoring verknüpft Ge-schwindigkeit und Präzision zu einem Gewinn oder Verlust von Goldmünzen auf Itemebeneund zeigte sich in einer Feldstudie mit N = 241 Grundschulkindern (Klassenstufe 2 bis 4) so-wohl in der Reliabilität (r = .87-.93) als auch in der Kriteriumsvalidität (r = .51) den klassischenGeschwindigkeits- und Präzisions-Scorings überlegen. Die individuellen Ergebnisse in den Lern-verlaufstests waren zudem änderungssensitiv für die statusdiagnostische Entwicklung der Kin-der: Für alle drei untersuchten Scorings ergab sich eine inkrementelle Varianzaufklärung derLeistung nach dem Training durch Parameter individueller Lernverläufe (random intercept: Aus-gangspunkt Lernverlaufstest, random slope: Zuwachs Lernverlaufstest). Der vorgestellte Lernver-laufstest eignet sich damit als reliables und valides Tool zur formativen Evaluation der Leistungs-entwicklung von Grundschulkindern in basalen mathematischen Kompetenzbereichen. Insbe-sondere für rechenschwache Kinder bietet das Goldmünzen-Scoring eine direkt ersichtliche An-reizstruktur, die schlechter Performanz aufgrund von Motivationsdefiziten vorbeugen kann, so-wie die Entwicklung von zählenden hin zu abrufbasierten Rechenstrategien fördert. Aus diesenGründen ist auch eine Implementation des Verfahrens in den inklusiven Unterricht denkbar.

Schlagwörter: Lernverlaufsdiagnostik, Mathematik, computergestützte Diagnostik, Speed-accu-racy-tradeoff, Scoring

Auf Goldmünzenjagd: Vergleich verschiedener Scorings

124 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

We are going on a gold coin hunt: Psychometric properties of different

scorings in computer-based progress monitoring of mathematics ability

Abstract

Based on the robust indicator approach, a new progress monitoring instrument was developedand embedded into an online training for children with mathematical learning difficulties. Thetest captures the development in two basic mathematical competences: arithmetic fact knowl-edge (addition and subtraction up to 20) and numerical order processing (up to 100). Accordingto the “high speed, high stakes” principle, speed and precision performance are combined intoa single efficiency score on item level, expressed as the earnings or losses of gold coins. In afield study with primary school children (N = 241, grades 2 to 4), this new efficiency scoringshowed both a higher reliability (r = .87-.93) and criterion validity (r = .51) than simple speedor precision scorings. Moreover, individual results in the progress monitoring test were sensitiveto the sample’s performance gains related to the training: For all three scorings, parameters ofindividual progress trajectories (random intercepts and random slopes) were predictive for post-training performance. Taken together, the new progress monitoring test qualifies as a reliableand valid tool for the formative assessment of primary school children’s learning progress in ba-sic mathematical abilities. Especially for low achieving children, the gold coin scoring offers anattractive incentive that should prevent low performance due to low motivation and foster theutilization of retrieval-based solution strategies. Hence, the test and training system could be im-plemented into remedial classroom practice.

Key words: learning progress monitoring, mathematics, computer-based diagnostics, speed-ac-curacy tradeoff, scoring

der durch die Lehrpläne definierten Kompe-tenzen zu messen. So kann die Entwicklungeinzelner Schülerinnen und Schüler sowohlkriteriumsorientiert – an den Lernzielen –als auch im Hinblick auf eine soziale oderauch individuelle Bezugsnorm „evaluiert“werden. Hierfür existiert bereits eine über-schaubare Menge publizierter deutschspra-chiger Lernverlaufstests für den Bereich Le-sen (computergestützt: Souvignier, Förster& Salaschek, 2014) und Rechnen (paperand pencil: Strathmann & Klauer, 2010,2012; computergestützt: Souvignier et al.,2014). Bedenkt man die sonderpädagogi-schen Hintergründe von Lernverlaufsdiag-nostik, die im englischsprachigen Bereichals Curriculum-based Measurement (CBM;Deno, 1985) bezeichnet wird, dann sollten„Breitbandtests“ für gesamte Klassenstufeninhaltlich in zweierlei Hinsicht ergänzt wer-den: erstens bezüglich der Zielgruppe, ander die Verfahren ausgerichtet sind, undzweitens bezüglich der Kompetenzen, diefür die Entwicklung ebendieser Zielgruppe

Spätestens seitdem der aus den USA stam-mende Response-to-Intervention-Ansatz(RTI) auch in Deutschland theoretisch dis-kutiert und modellhaft in die Schulpraxisimplementiert wurde (Voß et al., 2016), be-steht Einigkeit darüber, dass individualisier-te Prävention und Förderung nur durch re-gelmäßige Verlaufsdiagnostik gesteuert wer-den kann. Historisch wurzelt das Konzeptder Lernverlaufsdiagnostik in der Abgren-zung einer solchen formativen von einersummativen, statusdiagnotischen Evaluati-on. Diese Unterscheidung wird bereits seiteinigen Jahrzehnten in der pädagogisch-psychologischen Forschung getroffen (Klau-er, 2014). Während Statusdiagnostik Klassi-fikations- und Selektionsentscheidungen er-möglicht, dient die Lernverlaufsmessungder „Dokumentation des Lernfortschritts imVerlauf der Zeit“ (Klauer, 2006, S. 17), so-wie als Grundlage für die Planung von För-dermaßnahmen. Dabei ist es durchaus inte-ressant, die Lernentwicklung gesamter, he-terogener Schulklassen formativ hinsichtlich

125Auf Goldmünzenjagd: Vergleich verschiedener Scorings

prädiktiv sind. Das bedeutet, dass Lernver-laufsdiagnostika frühe, valide und robusteIndikatoren für den sonderpädagogisch rele-vanten Leistungsbereich abdecken sollten,für die sich Aufgabenmengen anhand klarerKonstruktionsregeln definieren lassen. Einebedeutende Zielgruppe mit Förderbedarfbilden dabei Grundschulkinder mit einerEntwicklungsstörung oder -schwäche im Le-sen, Rechtschreiben oder in Mathematik.

Die Definition der relevanten Aufgaben-menge(n) ist auf zwei Wegen möglich(Fuchs, 2004). Ein Ansatz ist das curriculumsampling, wonach repräsentativ Aufgabenaus dem klassenspezifischen Curriculumabgeleitet werden. Dieses deduktive Vorge-hen zeichnet sich durch eine hohe Lehrziel-validität aus und ist in dieser Hinsicht fürLehrkräfte unmittelbar informativ. Demge-genüber steht der robust indicator-Ansatz,nach dem auch der hier vorgestellte Lern-verlaufstest „Goldmünzenjagd“ konstruiertwurde. Die Auswahl der Testaufgaben er-folgt dabei stärker induktiv als beim curricu-lum sampling. Es werden Kompetenzenbzw. Aufgaben ausgewählt, die sich empi-risch als prädiktiv valide für die Gesamtleis-tung im interessierenden Bereich erwiesenhaben. Der größte Vorteil des robust indica-tor-Ansatzes, der sich daraus ergibt, ist seineFlexibilität. Derart konstruierte Tests sindnahtlos über Klassenstufen hinweg einsetz-bar und bieten deshalb das Potenzial einerDifferenzierung im Anfangsunterricht, so-wie fortlaufend in den unteren Leistungsbe-reichen (Foegen, Jiban & Deno, 2007; vgl.Walter, 2010 bzw. Walter, 2013 für Test-verfahren der Lesegeschwindigkeit und desLeseverständnisses). Motivational spielt dasKonzept des Overlearnings bei solcheneher einfachen Aufgaben eine wichtige Rol-le. Es meint die Verbesserung der Sicherheitund Geschwindigkeit bei bereits ausgepräg-ter Präzision, um die Lernfreude lernschwa-cher Kinder zu fördern (Klauer, 2006). InÜberblicksartikeln (Fuchs, 2004; Foegen etal., 2007) werden beide Konstruktionswei-sen (curriculum sampling und robust indi-cator approach) unter dem Oberbegriff

„CBM“ zusammengefasst. Allerdings ist dieBegriffswahl nicht ganz eindeutig, woraufauch in der Literatur verwiesen wird (Klau-er, 2006; Klauer, 2014).

Der internetbasierte Lernverlaufstest„Goldmünzenjagd“, der in diesem Beitragvorgestellt wird, orientiert sich an basalenKompetenzen, die für Kinder mit besonde-rem Förderbedarf in Mathematik eine He-rausforderung darstellen. In der Literaturwerden drei verbreitete Typen von CBM-Verfahren, die verschiedene Leistungsberei-che der Primarstufenmathematik erfassen,unterschieden: arithmetisches Basiswissen(z. B. Zählen, Mengenvergleich, fehlendeZahlen in Zahlenreihen ergänzen), dieGrundrechenarten sowie Anwendungsauf-gaben (Schätzen und Rechnen mit Größen,Sachaufgaben; Hosp, Hosp & Howell,2007; Voß, 2016). Insbesondere Kompeten-zen aus den ersten beiden Bereichen habensich als frühe, robuste Indikatoren für dieEntwicklung arithmetischer Leistung erwie-sen. Aus dem Bereich des arithmetischenBasiswissens wird die ordinale Zahlenverar-beitung über die Klassenstufen 1-6 hinwegzum erklärungsstärksten basisnumerischenPrädiktor für die arithmetische Leistung (Ly-ons & Ansari, 2015; Lyons, Price, Vaessen,Blomert & Ansari, 2014). Diese Kompetenz,die sich im Grundschulalter entwickelt, isteng mit dem Verstehen von Zahlensymbo-len verknüpft. Sie wird wiederum bedingtdurch den individuellen Entwicklungsgraddes Stellenwertverständnisses. Ein ausgereif-tes Verständnis des Stellenwertprinzips undder sequentiellen Bündelung von Einernund Zehnern ist nicht zwingend nötig, umordinale Vergleiche zweistelliger Zahlenvornehmen zu können. Solche Vergleichesind aber besonders dann korrekt und effi-zient möglich, wenn ein sicheres Unter-scheiden von Zehnern und Einern gelingtund gleichzeitig in eine symbolische Stel-lenwertnotation transkodiert werden kann(Fuson et al., 1997).

Im Bereich der Grundrechenarten ist dasSpeichern und der Abruf von einfachen Re-chenfakten aus dem Langzeitgedächtnis be-

126 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

deutend für die Entwicklung effizienternicht-zählender Rechenstrategien. Vor die-sem Hintergrund ist die große interindividu-elle Varianz im Faktenwissen von Grund-schulkindern – sowohl in der Gesamtpopu-lation (Jordan, Hanich & Kaplan, 2003) alsauch unter Kindern mit einer Rechenstö-rung (Geary, 2004; Geary, Hoard & Bailey,2012) – und die Persistenz von schwachen,durchschnittlichen und effizienten Verar-beitungsprofilen im Faktenabruf (Vanbinst,Ceulemans, Ghesquière & De Smedt, 2015)beachtlich. Diese Fähigkeitsbereiche bildenwichtige Ansatzpunkte für evidenzbasierteInterventionsbausteine (vgl. Kaufmann,Handl & Thöny, 2003; Fuchs et al., 2009;Powell, Fuchs, Fuchs, Cirino & Fletcher,2009; Wißmann, Heine, Handl & Jacobs,2013 für Trainings des Faktenabrufs) – unddamit kann Lernverlaufsdiagnostik, die sol-che grundlegenden robust indicators er-fasst, zu einem Instrument für die Evaluati-on von Interventionseffekten jenseits des in-haltlich vorangeschrittenen Regelunterrichtswerden.

Zusammenfassend haben Aufgaben ausden Gruppen arithmetisches Basiswissenund Grundrechenarten, neben den empiri-schen Belegen für ihre prädiktive Validitätfür die arithmetische Leistung, gegenüberder Gruppe der Anwendungsaufgaben(Hosp et al., 2007) den Vorteil der Auswer-tungsökonomie und -objektivität. Vergli-chen mit Sachaufgaben sind die Anforde-rungen eindimensionaler. Es wird also nicht– bzw. in geringerem Maße – zusätzlichModellierungs- und Sprachkompetenz vo-rausgesetzt, die für das Lösen von Sachauf-gaben notwendig ist. Dadurch sind sie auchfür Kinder mit komorbiden Lernschwierig-keiten aussagekräftig.

Technisch wird die Qualität von Lern-verlaufstests an den Anforderungen einereinfachen Wiederholbarkeit, identischenSchwierigkeit, hohen Durchführungs- undAuswertungsökonomie und psychometri-scher Güte gemessen. Diese Kriterien sindvor allem dann gut umsetzbar, wenn dasGenerieren, Administrieren und Auswerten

der Tests computergestützt erfolgt, undwenn mithilfe systematischer Konstruktions-regeln flexibel hypothetisch beliebig vielezufällige Aufgabenstichproben – und damitschwierigkeitshomogene Tests – erzeugtwerden können. Testtheoretische und psy-chometrische Probleme, die scheinbardurch ein zufälliges item sampling auftre-ten, d. h. dadurch, dass jedes Individuumzu Testzeitpunkt t eine eigene Itemstichpro-be bearbeitet, lassen sich durch eine generi-sche Testkonzeption auflösen, nach der Lö-sungskompetenz nicht mehr auf Grundlagevon einzelnen Aufgaben, sondern aufGrundlage von Aufgabentypen definiertwird (Rohwer, 2015). Im Falle einer voll-ständig zufälligen Itemauswahl auf indivi-dueller Ebene können derartig konstruierteTests nach dem Binomialmodell ausgewer-tet werden (Klauer, 2011), bei dem die Per-sonenfähigkeit dem Anteil korrekt gelösterAufgaben entspricht.

Je nach Testkonstruktion bieten sich ver-schiedene Scorings an, um die Leistung inLernverlaufstests zu bewerten. Wenn essich um Power-Tests handelt (vgl. LVD-M 2-4, Strathmann & Klauer, 2012), ist vor allemdie Präzision von Interesse, die standardmä-ßig als Anteil korrekter Antworten an derMenge der bearbeiteten Aufgaben definiertwird. Bei Speed-Tests lässt sich zusätzlichdie Anzahl bearbeiteter Aufgaben, also dieGeschwindigkeit, interpretieren. Beide Sco-ring-Varianten betonen einen Leistungs-aspekt. Effizienz-Maße hingegen kombinie-ren die Aspekte. Sie können als Präzisions-maß, das für die Bearbeitungsgeschwindig-keit gewichtet wird, aufgefasst werden undhaben somit den Vorteil der Sparsamkeit,da sie beide Informationen zu einem Kenn-wert verdichten. Damit geht als Limitationeinher, dass keine differenzierten Aussagenzu individuellen speed-accuracy tradeoffsgetroffen werden können, sodass die klassi-schen Maße zusätzliche diagnostische Infor-mationen beitragen können. Ein solcher Ef-fizienz-Index, die Bearbeitungsflüssigkeit,wurde von Voß (2016) für ein CBM-Instru-ment mit Additions- und Subtraktionsaufga-

127Auf Goldmünzenjagd: Vergleich verschiedener Scorings

ben im Zahlenraum bis 20 nach einer For-mel bestimmt, die die Präzision im Ver-gleich zur Geschwindigkeit im doppeltenMaße gewichtet. Der von Voß (2016) be-rechnete Index bezieht sich auf die gesamteAufgabenmenge. Eine Möglichkeit, die Be-arbeitungseffizienz bereits auf Itemebenezu bewerten, ergibt sich aus dem sogenann-ten high speed, high stakes-Scoring (HSHS;Klinkenberg, Straatemeier & van der Maas,2011; Maris & Van der Maas, 2012). Test-theoretisch sind aus dieser Perspektiveschnelle Antworten informativer als lang-sam gegebene Antworten (Maris & Van derMaas, 2012). Im HSHS-Ansatz müssen Ver-suchspersonen die Aufgaben nicht nur kor-rekt, sondern gleichzeitig auch schnell undsomit effizient bearbeiten, damit eine hoheFähigkeitsausprägung angenommen wird.Deshalb werden schnelle Richtigantwortendurch mehr Punkte belohnt als langsame,und schnelle Falschantworten (z. B. durchRaten) durch höheren Punktabzug bestraftals langsamere. Im hier vorgestellten Lern-verlaufstest „Goldmünzenjagd“ erfolgt die-se Verrechnung von Geschwindigkeit undPräzision während der Testbearbeitung undist für die teilnehmenden Kinder durch denGewinn oder Verlust von Münzen sichtbar.Ein vergleichbares Scoring wurde bereits indem niederländischen adaptiven Test- undTrainingssystem The Maths Garden umge-setzt (Klinkenberg et al., 2011).

Zusammenfassend werden mit diesemBeitrag zwei Ziele verfolgt: erstens die Vor-stellung eines computergestützten robust-indicator-basierten Lernverlaufstests, dersich für die interventionsbegleitende Diag-nostik rechenschwacher Kinder eignet. Da-bei soll die HSHS-Scoring-Methode, die Ge-schwindigkeit und Präzision kombiniert,beschrieben und psychometrisch mit klassi-schen Scorings verglichen werden. DerLernverlaufstest ist in ein computergestütz-tes Training für rechenschwache Kinder ein-gebettet. Deshalb soll zweitens die Prädikti-vität der damit gemessenen Lernverläufe fürdie Leistungsentwicklung der Grundschul-kinder, die an dem Training teilgenommen

haben, untersucht werden. Diese Analysensind verwandt mit dem Konzept der Ände-rungssensitivität (Klauer & Strathmann,2013). Hierfür wird neben der Gesamtgrup-pe auch eine Teilgruppe der Kinder betrach-tet, deren mathematische Leistung im basis-numerischen und arithmetischen Eingangs-screening im unteren Normquartil1 und da-mit im Risikobereich für eine Rechenschwä-che lag.

Methode

Der computergestützte Lernverlaufstest„Goldmünzenjagd“ ist an ein Online-Trai-ning für Kinder mit Rechenschwierigkeitengekoppelt (Kuhn & Holling, 2014). Als Kri-terium für die Validierung diente ein com-putergestütztes, statusdiagnostisches Scree-ning (CODY; Kuhn, Raddatz, Holling & Do-bel, 2013). Dieser Test wurde zu Beginndes Trainings durchgeführt (CODYprä) undnach Abschluss der selbst gewählten Trai-ningsdauer (M = 30.94, SD = 0.94 Trai-ningstage) wiederholt (CODYpost).

Online-Training

Das Online-Training (Kuhn & Holling,2014), das konzeptuell an das Screening an-knüpft, kombiniert Aufgaben aus siebenteils überlappenden Bereichen: Zahl-Grö-ßen-Verknüpfung, Zahlenstrahlschätzaufga-ben, Teil-Ganzes-Verständnis, Dezimalsys-tem/Transkodieren, mathematisches Fakten-wissen und Rechnen, Mathematisieren/

1 Das untere Normquartil, d. h. PR ≤ 25, liegtoberhalb des Cut-Off-Wertes, der im klinischenKontext zur Identifikation von Kindern mit einerLernstörung angelegt wird. Dort wird i. d. R. eineSchwelle von -1 SD (PR ≤ 16), -1.5 SD (PR ≤ 7)oder noch geringer gewählt. Im Forschungskon-text ist die PR-25-Schwelle durchaus gängig. Neben der klinisch relevanten Gruppe wird da-durch eine Risikogruppe („low achievers“, meist11 ≤ PR < 25, z. B. Geary, 2013) miteinge-schlossen. Dies erhöht die Stichprobengröße unddamit auch die Power, d. h. statistische Belastbar-keit, von Analysen.

128 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

Textaufgaben sowie Arbeitsgedächtnis. DieKinder bearbeiten pro Trainingseinheit zweidieser Aufgaben jeweils 10 Minuten langund verbringen zusätzliche 10 Minuten miteiner Rahmengeschichte in der Phantasie-welt Talasia. Das Training ist adaptiv, so-dass jedem Kind eingangs auf Grundlageseines Ergebnisses im CODY-Screening ei-nes von vier spezifischen Testprofilen zuge-ordnet wird: basisnumerisch, Rechnen, Ar-beitsgedächtnis oder ausgeglichen. Darausergibt sich eine schwerpunktmäßige Aus-wahl von Aufgaben, die die im Screeningermittelten Defizite trainieren. Innerhalbder einzelnen Aufgaben wird das Schwie-rigkeitslevel blockweise adaptiert, sodass je-des Kind Items der Schwierigkeit erhält, fürdie es eine mittlere Lösungsquote von etwa80%, welche für den Lernerfolg günstig ist(Jansen et al., 2013), erreicht. Die Anmel-dung erfolgt über eine Online-Plattform(www.meistercody.com/de/talasia) und istkostenpflichtig. Standardmäßig wird einTrainingsumfang von 30 Einheiten (fünfmalpro Woche über einen Zeitraum von 6 Wo-chen hinweg) empfohlen, danach kann je-doch beliebig weiter trainiert werden. Wirk-samkeitsnachweise für frühere (Kuhn &Holling, 2014) sowie die aktuelle Versiondes Trainings (Kuhn, 2016; Kuhn et al.,2017) liegen in Form von Evaluationsstudi-en mit Kontrollgruppen und basisnumeri-schen sowie curricularen und nicht-curricu-laren Kriterien vor.

Statusdiagnostik

Das CODY-Screening, das in dieser Studiezur Statusdiagnostik eingesetzt wurde,deckt vier faktorenanalytisch bestätigte Leis-tungsbereiche ab, die zu einem Gesamtsco-re integriert werden: basale Zahlenverarbei-tung (Mengenvergleiche, Zählen), komple-xe Zahlenverarbeitung (Zahlenstrahl, Zah-lensteine, Transkodieren, fehlende Zahl inZahlenreihen), Rechnen (Addition, Subtrak-tion, Multiplikation, Platzhalteraufgaben)und Arbeitsgedächtnis (Matrixspanne). DieRetest-Reliabilität nach zwei Wochen be-

trägt rtt = .88. Es liegen klassen- und halb-jahresspezifische Normen für den Gesamt-und die vier Skalenwerte vor. Für eine nähe-re Beschreibung der Testaufgaben wird aufdie Studien von Kuhn et al. (2013) bzw.Raddatz, Kuhn, Holling, Moll und Dobel(2016) verwiesen. Den Erziehungsberech-tigten der teilnehmenden Kinder wurdeempfohlen, das Screening als Einstufungs-test vor Beginn und als Abschlusstest am En-de der Trainingszeit durchzuführen. DieTestzeitpunkte waren jedoch frei wählbar.Dies führt dazu, dass den einzelnen Analy-sen, die in diesem Artikel berichtetet wer-den, unterschiedliche Stichproben zugrun-de gelegt wurden (s. Abschnitt Stichprobe).

Lernverlaufstest

Der Lernverlaufstest, der das erste Mal vorder fünften Einheit des oben beschriebenenTrainings automatisch startet, folgt der Storyeiner Goldmünzenjagd. Die hier verdientenGoldmünzen können die Kinder am Endeder Trainingseinheit als Zahlungsmittel zurGestaltung ihres virtuellen Palastgartenseinsetzen. Die Verlaufstests erfolgen im Ab-stand von fünf Trainingssessions, was einerFrequenz von einer Testung pro Woche ent-spricht (vgl. Fuchs, Fuchs, Hamlett, Phillips& Bentz, 1994; Fuchs, Compton, Fuchs,Paulsen, Bryant & Hamlett, 2005), wennwie empfohlen trainiert wird. Sie setzensich stets aus drei repräsentativen Aufgaben-typen zusammen, die unabhängig von klas-senstufenspezifischen Curricula als robustindicators der arithmetischen Entwicklungbelegt sind: Additionsfakten, Subtraktions-fakten und Zahlenordnen. Alle drei Aufga-bentypen werden nacheinander zu Beginndes Tests anhand von Beispielen erläutert,dann folgen ohne Unterbrechung die Trials,die jeweils durch einen Fixationsstern (500ms) getrennt werden. Die reine Testzeit proAufgabentyp beträgt 90 Sekunden, insge-samt also viereinhalb Minuten. Die Additi-ons- und Subtraktionsaufgaben bestehenaus zwei Teilmengen: a) ohne Zehnerüber-gang (E + E = E und E - E = E bzw. E + E

129Auf Goldmünzenjagd: Vergleich verschiedener Scorings

= 10 und 10 - E = E) und b) mit Zehner-übergang im Zahlenraum bis 20 (E + E =ZE und ZE - E = E), die durchmischt präsen-tiert werden. Die Antworteingabe erfolgtper Tastatur oder Anklicken einer Ziffern-leiste, eine Korrektur einmal eingegebenerWerte ist nicht möglich. Die Items des Sub-tests Zahlenordnen bestehen aus jeweils ei-nem zweistelligen Zahlentriple, für das an-gegeben werden soll, ob es korrekt geord-net ist oder nicht (Lyons & Ansari, 2015). Eskommen drei unterschiedliche Itemtypenvor: kongruente, für die der Zehner immergrößer ist als der Einer (z. B. 32, 61, 54), in-kongruente, die ein bis zwei Elemente mit Z< E enthalten (z. B. 23, 71, 45), und Kon-trollitems, für die alle drei Zehner identischsind (z. B. 42, 46, 49). Die Aufgabentypenwerden randomisiert präsentiert, Kontrolli-tems jedoch seltener (jedes dritte bis fünfteItem). Die Hälfte der Triple im Aufgaben-pool ist richtig, die andere Hälfte falsch ge-ordnet. Die Eingabe erfolgt, indem ein Häk-chen oder ein Kreuz angeklickt wird.

Im Sinne einer generischen Testkon-struktion (Rohwer, 2015) werden die Itemspro Testzeitpunkt und Kind zufällig aus demdurch die Konstruktionsregeln definiertenPool möglicher Aufgaben gezogen. Bei Ad-ditions- und Subtraktionsaufgaben ist es auf-grund der beschränkten Aufgabenmengefolglich hypothetisch möglich, dass sicheinzelne Items wiederholen, allerdings erstdann, wenn innerhalb der beschränktenTestzeit alle konstruierten Aufgaben bereitseinmal vorgegeben wurden. Im Anschlussan jeden Lerntest erhalten die Erziehungs-berechtigten eine Ergebniszusammenfas-sung per Mail (s. Abbildung 1).

Scorings

Klassischerweise wird für jedes Kind proAufgabentyp und Testtag die Anzahl bear-beiteter Aufgaben und der Anteil korrekterLösungen bestimmt. In dieser Studie wirdzusätzlich die Effizienz durch ein HSHS-Sco-ring bewertet, das die Kinder live für jedebearbeitete Aufgabe durch einen Gewinn

oder Verlust von Goldmünzen nachvollzie-hen können (s. Abbildung 1). Durch diesesMünzscoring werden Antworten mit hohemInformationswert, d. h. schnelle Richtigant-worten (z. B. effizienter Faktenabruf) oderschnelle Falschantworten (z. B. Raten) be-sonders stark gewichtet. Richtigantwortenwerden direkt mit dem Gewinn von Mün-zen belohnt, Falschantworten sind mit ei-nem entsprechenden Münzverlust verbun-den, sodass schnelles Raten negative Konse-quenzen hat. Die Staffelung der Münzge-winne bzw. -verluste abhängig von der Ant-wortzeit beginnt mit fünf Münzen bei einerZeitgrenze von 3.5 Sekunden, bis zu dervon Faktenabruf aus dem Langzeitgedächt-nis ausgegangen wird (Andersson, 2010),und wird in 3-Sekunden-Intervallen fortge-setzt. Für eine richtige Antwort in höchstens8 Sekunden würden beispielsweise dreiMünzen gutgeschrieben, für eine Falschant-wort nach 5 Sekunden vier Münzen abgezo-gen. Antwortzeiten von 12.5 Sekunden oderlänger entsprechen einer Münze. Als Scorewird die Summe aus Münzgewinnen und -verlusten über alle bearbeiteten Items hin-weg bestimmt, wobei sehr selten auftretendeNegativscores in der internen Rechnung be-rücksichtigt werden, im Endergebnis für dieKinder jedoch auf Null gesetzt werden.

Stichprobe

Es liegen Lernverlaufsdaten von insgesamt241 Kindern der Klassenstufen 2 bis 4 vor(s. Tabelle 1), die im Zeitraum zwischenOktober 2015 und August 2016 von ihrenErziehungsberechtigten für das CODY-Trai-ning angemeldet wurden. 233 Kinder (97%)absolvierten den Lernverlaufstest bis zumEnde der regulär vorgesehenen Trainings-dauer, d. h. bis Trainingstag 30. Danachfuhr nur ein kleiner Teil der Stichprobe mitder Intervention, und damit auch der Lern-verlaufsdiagnostik, fort (n = 292 bis Trai-ningstag 35, n = 4 bis Trainingstag 50). Die

2 Teilstichproben werden in diesem Beitrag mit ngekennzeichnet, die gesamte Stichprobe mit N.

130 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

Abbildung 1: Screenshots zum Goldmünzen-Scoring für alle drei Aufgabentypen und Feedback

Addition a) ohne Zehnerübergang

b) mit Zehnerübergang

Subtraktion a) ohne Zehnerübergang

b) mit Zehnerübergang

Zahlenordnen a) kongruentes Item

b) inkongruentes Item

Feedback a) spielintern b) per E-Mail an die Erziehungsberechtigten

[…] Für jede Antwort kann Musterkind maximal fünf Münzen gewinnen. Je langsamer dein Kind antwortet, desto weniger Münzen kommen hinzu. Für eine falsche Antwort werden sogar Münzen abgezogen. […] Heute hat Musterkind xx Aufgaben bearbeitet. Davon wurden xx richtig beantwortet. Dies entspricht einem Anteil richtiger Antworten von xx Prozent. Dafür gab es xx Münzen. Durchschnittlich beantworten Grundschul-kinder etwa 23 Aufgaben beim Lerntest richtig und erhalten dafür 58 Münzen.

Reliabilität des Lernverlaufstests wurde mitder gesamten Stichprobe überprüft. Für dieanschließenden Fragestellungen wurde dieStichprobe nach inhaltlichen Gesichtspunk-ten eingeschränkt. Um die Kriteriumsvalidi-tät mit dem Statusdiagnostikum (CODY-

Screening, s.o.) zu untersuchen, wurdennur die n = 174 Kinder ausgewählt, die dasEinstufungsscreening (CODYprä) innerhalbder ersten fünf Trainingseinheiten und da-mit in zeitlicher Nähe zum ersten Lernver-laufstest durchgeführt hatten.

131Auf Goldmünzenjagd: Vergleich verschiedener Scorings

Für die Analysen zur Änderungssensiti-vität und zur Prädiktivität der Lernverläufefür die Leistungsentwicklung wurden alle n = 127 Kinder berücksichtigt, die das Ein-stufungs- und Abschlussscreening zeitplan-konform durchlaufen hatten (im Folgenden:zeitplankonforme Stichprobe). Ausgewähltwurden hierfür wie bei den Analysen zurKriteriumsvalidität diejenigen Kinder, derenEinstufungstest in den ersten fünf Trainings-tagen erfolgte. Zusätzlich wurden nur dieFälle eingeschlossen, in denen der Ab-schlusstest (CODYpost) – wegen der empfoh-lenen Standarddauer von 30 Einheiten – 25bis 30 Trainingstage später erfolgt war. Diese Kinder bearbeiteten im ersten Lern-test im Mittel 29.04 (SD = 7.36) Aufgaben,davon 73.83% (SD = 14.69%) korrekt undverdienten dafür 58.72 (SD = 46.00) Mün-zen. Schließlich wurden diese Analysen miteiner leistungsschwachen Teilstichprobe (n = 33), die beim Einstufungstest ein Er-gebnis im unteren Normquartil (PR ≤ 25)erzielt hatte, wiederholt. In dieser Subgrup-pe wurden im ersten Lerntest im Mittel25.06 (SD = 7.45) Aufgaben bearbeitet, da-von 64.44% (SD = 15.54%) korrekt, für ins-gesamt 28.58 (SD = 25.82) Münzen.

Statistische Auswertung

Für alle hier beschriebenen Analysen wurdedie Statistiksoftware R (Version 3.3.2; R Co-re Team, 2016) mit den unten genanntenPaketen verwendet. In einem ersten Schrittwurden die Lernverläufe pro Scoring gra-fisch dargestellt. Innerhalb der Scoringswurde zwischen den drei Subtests (Additi-on, Subtraktion, Zahlenordnen) differen-

ziert, um zu untersuchen, inwiefern qualita-tive Unterschiede zwischen den Anforde-rungsbereichen bestehen. In einem zweitenSchritt wurden die drei verschiedenen Sco-rings (Geschwindigkeit, Präzision und Effi-zienz) psychometrisch, bezüglich ihrer Re-liabilität und Kriteriumsvalidität verglichen.Dabei wird zwischen Subtests, und für dieKriteriumsvalidität auch zwischen Klassen-stufen, differenziert. Für den Anteil korrek-ter Antworten (Präzision) und die Anzahlgewonnener Münzen (Effizienz) wurde dieSpearman-Brown-korrigierte Split-Half-Re-liabilität mit Odd-Even-Split berechnet. Dafür die Anzahl bearbeiteter Items (Ge-schwindigkeit) keine sinnvolle Split-Half-Reliabilität bestimmt werden kann, wirdhierfür die Retest-Reliabilität für die jeweilsaufeinander folgenden Testzeitpunkte, alsoz. B. für Trainingstag 5 und 10, berichtet.Die Kriteriumsvalidität wurde als die Korre-lation der Scores im ersten Lernverlaufstestmit dem statusdiagnostischen Einstufungs-screening (CODYprä) bestimmt. In einemdritten Schritt sollte die Änderungssensitivi-tät des Lernverlaufstests untersucht werden.Dazu wurden zunächst für alle drei Sco-rings mit der Funktion lmer aus dem R-Paketlme4 (Bates, Maechler, Bolker & Walker,2015) unter Verwendung eines Restricted-Maximum-Likelihood-Schätzers (REML) se-parate Random-Intercept-Random-Slope-Modelle angepasst. Neben dem Gesamtsco-re wurden auch die Scores der Subtests alsabhängige Variablen verwendet. Für jedesKind resultierten Schätzungen des Inter-cepts (ri, individuelles Ausgangsniveau) unddes Steigungsparameters (rs, individuellerLernverlauf) als bedingte Mittelwerte der

Gesamt-Stichprobe (N = 241)

Zeitplankonforme Stichprobea

Gesamt (n = 127) PR ≤ 25 (n = 33)

Geschlecht (% Mädchen) 63.90% 71.65% 78.79%

Klassenstufe (2/3/4) (152/58/31) (86/24/17) (18/10/5)

Tabelle 1: Stichprobe

Anmerkungen: a Einstufungstest (CODYprä) in den ersten 5 Trainingseinheiten, Abschlusstest (CODYpost) 25-30 Einheiten nach Prätest; PR ≤ 25: Subgruppe mit einem Prozentrang ≤ 25 im CODY-Prätest.

132 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

zufälligen Effekte. Die Standardabweichun-gen und Korrelationen der verschiedenenrandom effects sind in Tabelle 2 dargestellt.

Diese Parameter wurden schließlich, zu-sätzlich zur Leistung im Einstufungsscree-ning (CODYprä), in vollstandardisierten mul-tiplen Regressionsmodellen als Prädiktorenverwendet, um die Leistung im Abschluss-test (CODYpost) vorherzusagen. Dafür wur-den schrittweise drei Modelle spezifiziertund hinsichtlich der inkrementellen Vari-anzaufklärung verglichen: Das Baseline-Modell 0, das nur die Leistung im Einstu-fungsscreening als Prädiktor enthält, Modell1 mit den aggregierten, auf dem jeweiligenGesamtscore des Lernverlaufstests basieren-den random intercepts und random slopessowie Modell 2, das diese Parameter für dieLernverlaufssubtests (Addition, Subtraktion,Zahlenordnen) differenziert:Modell 0: CODYpost ~ CODYprä

Modell 1: CODYpost ~ CODYprä + rigesamt +rsgesamt

Modell 2: CODYpost ~ CODYprä + riAdd +rsAdd + riSub+ rsSub + riZO+ rsZO

Um den relativen Beitrag der einzelnen Prä-diktoren zur gesamten Varianzaufklärungzu schätzen, wurden anschließend pro Sco-ring Dominanzanalysen mit dem R-Paket re-laimpo (Grömping, 2006) durchgeführt. Da-bei werden alle möglichen Konstellationender Prädiktoren in einer multiplen Regressi-on berücksichtigt. In einem vierten explora-tiven Schritt wurden die Lernverläufe (ran-dom slopes) von zwei Teilgruppen derjeni-gen Kinder, die beim Einstufungsscreeningim unteren Normquartil lagen, verglichen:eine Gruppe mit statusdiagnostischer Ver-besserung und eine Gruppe ohne Verbesse-rung infolge des Trainings. Effekte einer In-tervention (Verbesserung, Verschlechte-rung, keine Veränderung) können mithilfedes Reliable Change Index (RC; Jacobson &Truax, 1991; Jabrayilov, Emons & Sijtsma,2016) klassifiziert werden: der Differenzaus Prä- und Posttest-Score, die an der Relia-bilität des Tests standardisiert wird. Verän-derungen, für die |RC| ≥ 1.645 gilt (waseinem zweiseitigen 10%-Signifikanzniveauentspricht), werden als statistisch bedeut-sam angesehen (Jabrayilov et al., 2016). Ei-

Geschwindigkeit Präzision Effizienz

SD r(ri, rs) SD r(ri, rs) SD r(ri, rs)

rigesamt 6.85

-0.36**

0.12

-0.05

43.67

0.23rsgesamt 0.15 0.002 0.95

Residuum 3.28 0.10 24.16

riAdd 2.64

-0.45**

0.16

-0.46

14.20

0.09rsAdd 0.06 0.005 0.50

Residuum 1.51 0.15 11.49

riSub 2.65

-0.30

0.18

-0.59

16.12

0.10rsSub 0.04 0.004 0.36

Residuum 1.78 0.19 13.36

riZO 2.06

-0.29

0.15

-0.31

19.49

-0.17rsZO 0.06 0.003 0.45

Residuum 1.60 0.12 13.91

Tabelle 2: Variabilität (SD) und Korrelation der random effects

Anmerkung: ri = random intercept im Lerntest, rs = random slope; Add = Addition, Sub = Subtraktion,ZO = Zahlenordnen; *p < .05.,**p < .01

133Auf Goldmünzenjagd: Vergleich verschiedener Scorings

ne klinische Verbesserung liegt vor, wenndas Ergebnis des Prätests in einen kritischenBereich fällt (d. h. hier PR ≤ 25), das desPosttests hingegen aber nicht mehr, eineVerschlechterung im umgekehrten Fall. Sta-tistische und klinische Veränderungen kön-nen, müssen aber nicht, gleichzeitig auftre-ten. Zum Beispiel wäre eine klinische Ver-besserung auf ein Leistungsniveau außer-halb des definierten Risikobereichs mög-lich, ohne statistisch bedeutsam zu sein.

Ergebnisse

Lernverläufe

Bevor die Ergebnisse der Analysen zu Relia-bilität, Validität und Änderungssensitivitätder Scorings berichtet werden, sollen zu-nächst die Lernverläufe für die drei Sco-rings, und innerhalb jedes Scorings für diedrei Subtests, betrachtet werden (Abbildung2). Dabei wird die Gesamtgruppe und zu-

Gesamtgruppe PR 25

Ges

chw

indi

gkei

t Pr

äzis

ion

Effiz

ienz

Abbildung 2: Geschwindigkeit, Präzision und Effizienz pro Subtest (Add = Addition, Sub = Subtrak-tion, ZO = Zahlenordnen) für die gesamte Stichprobe (N = 241) und die Subgruppe im unteren Leis-tungsquartil des Einstufungsscreenings (CODYprä PR≤25, n = 65), Mittelwerte und 95%-Konfidenz-intervalle pro Testzeitpunkt

134 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

sätzlich die leistungsschwächste Subgruppe(PR ≤ 25), d. h. die Zielgruppe des Testsund Trainings, dargestellt. Unter dem Ge-schwindigkeitsscoring zeigt sich eine Über-legenheit des Subtests Zahlenordnen. So-wohl die Gesamtgruppe als auch die Teil-gruppe bearbeiteten mehr Aufgaben ausdiesem Anforderungsbereich als aus denbeiden Subtests zum arithmetischen Fakten-wissen. Die Lernverläufe unterscheiden sichim Spezifischen zwar statistisch bedeutsamzwischen den Subtests (p < .001 in der Ge-samtgruppe, aber p > .05 in der Subgrup-pe) 3. Qualitativ betrachtet ähneln die Mus-ter sich allerdings stark. Gleiches gilt auchfür das Präzisionsscoring (p < .001 in derGesamtgruppe, p < .05 in der Subgruppe)und Effizienzscoring (p < .001 in der Ge-samtgruppe, aber p > .05 in der Subgrup-pe). Unter diesen beiden Scorings fallen dievergleichsweise geringen Werte im Bereichder Subtraktionsaufgaben auf. Sowohl dieGesamtgruppe als auch die Teilgruppe be-arbeitete die Subtraktionsaufgaben im Ver-gleich zu den anderen beiden Subtests we-niger präzise und weniger effizient. Für dieleistungsschwache Subgruppe zeigen sichim Präzisions- und Effizienzscoring – andersals für die Geschwindigkeit – über alle In-haltsbereiche hinweg zudem weniger kon-stante Lernzuwächse.

Psychometrische Analysen

Im Vergleich der drei Scorings ist dasMünzscoring (Effizienz) am reliabelsten(relsplithalf = .87-.93, Tabelle 3) und weist diehöchste Kriteriumsvalidität auf (r = .51). ImVergleich der Subtests schneidet das Zah-lenordnen in der Kriteriumsvalidität und inder Reliabilität unter dem Effizienzscoringvergleichsweise am schwächsten ab. DieKriteriumsvaliditäten fallen innerhalb dereinzelnen Jahrgangsstufen, insbesondere fürKlasse 4, deutlich höher aus (.38-.85) alsüber die gesamte Stichprobe hinweg.

Änderungssensitivität

Im Folgenden werden pro Scoring die dreioben beschriebenen Modelle verglichen(Tabelle 4): Die Modelle mit den Lerntest-Variablen (random intercepts und randomslopes) klären über das Baseline-Modell, dasnur die Leistung im Einstufungsscreening(CODYprä) enthält, hinaus zwischen 1.3%und 4.3% zusätzliche Varianz auf. Diese in-krementelle Varianzaufklärung fällt, außerfür Modell 2 das Präzisionsscorings, signifi-kant aus. Die Dominanzanalyse (Grömping,2006) zeigt, dass für alle drei Scorings dieLeistung im Einstufungsscreening der stärks-te Prädiktor (Geschwindigkeit: 36.19%, Prä-zision: 28.52%, Effizienz: 25%) ist. Unterdem Präzisionsscoring ist die Eingangsleis-tung im Lerntest (random intercept) derzweitwichtigste Prädiktor (14.89%), und dieEntwicklung im Lerntest (random slope) derdrittwichtigste (2.44%). Unter den Ge-schwindigkeits- und Effizienzscorings unter-scheiden sich random intercept (7.20%bzw. 12.29%) und random slope (3.72%bzw. 10.10 %) nicht statistisch signifikant inihrem Beitrag zur Varianzaufklärung. Unterden einzelnen Lernverlaufssubtests (Additi-on, Subtraktion, Zahlenordnen) zeigten sichkeine herausstechenden Prädiktoren, sodassdie Modellparameter der Modelle 2 nichtberichtet werden.

In einem letzten Schritt wurde explo-rativ für die leistungsschwache Subgruppe

3 Dies wurde mit einem Modellvergleich mittels Li-kelihood-Ratio-Test überprüft. Verglichen wurdenje zwei Modelle, mit dem Ergebnis in der jeweili-gen Scoring-Methode als abhängige Variable. DasBaseline-Modell enthält den Haupteffekt des Sub-tests (d. h. die konstante Über- oder Unterlegen-heit in den einzelnen Inhaltsbereichen) gleicher-maßen als festen und zufälligen Effekt. Es wurdeverglichen mit einem Modell, das zusätzlich dieInteraktion zwischen Subtest und Trainingstag (d.h. die Unterschiede in den Lernverläufen zwi-schen den Subtests) beinhaltet. Fällt der Test sig-nifikant aus, dann kann von einem inkrementel-len Effekt der Interaktion ausgegangen werden.Dieser entspricht einer Abhängigkeit des Lernver-laufs vom Subtest.

135Auf Goldmünzenjagd: Vergleich verschiedener Scorings

Reliabilität (N = 241) Kriteriumsvalidität (n = 174)Lerntest Nr. 1 2 3 4 5 6 Korrelation Lerntest 1 mit CODYprä

Geschwindigkeit (gesamt) - .79 .78 .76 .76 .80 .43 (K2: .51, K3: .50, K4: .79)

Add - .66 .66 .64 .68 .72 .44 (K2: .52, K3: .38, K4: .70)

Sub - .67 .69 .62 .66 .69 .39 (K2: .51, K3: .50, K4: .79)

ZO - .66 .62 .65 .64 .65 .28 (K2: .33, K3: .33, K4: .59)

Präzision (gesamt) .72 .84 .82 .78 .86 .83 .39 (K2: .45, K3: .38, K4: .60)

Add .50 .64 .69 .62 .69 .73 .32 (K2: .38, K3: .26, K4: .46)

Sub .49 .70 .66 .66 .66 .68 .28 (K2: .30, K3: .34, K4: .34)

ZO .56 .68 .61 .71 .66 .68 .22 (K2: .25, K3: .11, K4: .42)

Effizienz (gesamt) .87 .91 .90 .90 .93 .90 .51 (K2: .61, K3: .58, K4: .85)

Add .82 .86 .86 .83 .88 .89 .47 (K2: .54, K3: .43, K4: .77)

Sub .81 .87 .84 .82 .90 .83 .41 (K2: .45, K3: .42, K4: .68)

ZO .69 .73 .71 .79 .75 .76 .31 (K2: .33, K3: .35, K4: .57)

Anmerkung: Die Kriteriumsvalidität wurde mit der Teilgruppe, die das Screening in den ersten 5 Trainings-einheiten und damit in zeitlicher Nähe zum ersten Lernverlaufstest absolviert hatte, bestimmt; Add = Addi-tion, Sub = Subtraktion, ZO = Zahlenordnen, K2 = Klasse 2 (n = 114), K3 = Klasse 3 (n = 38), K4 = Klasse4 (n = 22)

Tabelle 3: Psychometrischer Vergleich der Scorings

β SE tBaselineModell 0 (R²adjustiert = 0.418)

CODYprä 0.65*** 0.07 9.57

Anzahl bearbeiteter Aufgaben (Geschwindigkeit)Modell 1 (R²adjustiert = 0.458; ΔR² = 0.040**)

CODYprä 0.63*** 0.08 8.23

rigesamt 0.10 0.08 1.22

rsgesamt 0.22** 0.07 3.31

Modell 2 (R²adjustiert = 0.450; ΔR² = 0.032**)

Anteil korrekter Lösungen (Präzision)Modell 1 (R²adjustiert = 0.445; ΔR² = 0.027*)

CODYprä 0.51*** 0.08 6.16

rigesamt 0.22* 0.09 2.48

rsgesamt 0.04 0.07 0.48

Modell 2 (R²adjustiert = 0.431; ΔR² = 0.013)

Anzahl Münzen (Effizienz)Modell 1 (R²adjustiert = 0.461; ΔR² = 0.043***)

CODYprä 0.48*** 0.09 5.64

rigesamt 0.13 0.09 1.43

rsgesamt 0.18* 0.08 2.19

Modell 2 (R²adjustiert = 0.451; Δ R² = 0.033*)

Anmerkung: Vollstandardisierte Lösung, daher Intercept in allen Modellen = 0. ri = random intercept im Lern-test, rs = random slope, Δ R² stets im Vergleich zum Baseline-Modell 0; *p < 0.05, **p < .01, *** p < .001

Tabelle 4: Regressionsmodelle zur Vorhersage der Leistung nach dem Training (n = 127)

136 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

(n = 33) untersucht, wie die Entwicklungim Lerntest (random slope) mit den statusdi-agnostischen Interventionseffekten zusam-menhängt. Nach Jabrayilov et al. (2016) las-sen sich sieben Zustände unterscheiden, diedie Entwicklung von statusdiagnostischemPrä- zu Posttest qualifizieren. Die erstendrei bezeichnen eine Verbesserung in nurklinischer (n = 5), nur statistischer (n = 1)oder beiderlei (n = 14) Hinsicht und die fol-genden vier eine entsprechende rein klini-sche (n = 0, hier per definitionem nichtmöglich), rein statistische (n = 2) oder klini-sche und statistische (n = 0, hier per defini-tionem nicht möglich) Verschlechterungoder keine Veränderung (n = 11). Für alledrei Scorings finden sich deskriptiv betrach-tet günstigere mittlere Lernverläufe (= posi-tivere slopes) in der Gruppe mit Verbesse-rung (n = 20) im Vergleich zur Gruppe ohne Verbesserung (n = 13), wobei der Ef-fekt nur für das Effizienzscoring statistischvom Zufall unterscheidbar ist (d = 0.80, p = .04).

Diskussion

In diesem Beitrag wurde der computerge-stützte Lernverlaufstest „Goldmünzenjagd“,der in ein Online-Training für Grundschul-kinder mit Rechenschwierigkeiten eingebet-tet ist, vorgestellt. Da es sich bei der „Gold-münzenjagd“ um ein computergestütztesVerfahren mit automatischer Administrationund Auswertung handelt, ist die Durchfüh-rungs- und Auswertungsobjektivität hoch.Gleichzeitig ist eine unmittelbare Ergebnis-rückmeldung an Eltern, Lehrkräfte oderLerntherapeutinnen und –therapeuten mög-lich. Der Test wurde im Sinne des robust in-dicator-Ansatzes (Fuchs, 2004) konstruiertund bildet den Lernfortschritt im arithmeti-schen Faktenwissen (Addition und Subtrak-tion) sowie im Zahlenordnen ab. Für alledrei Inhaltsbereiche zeigten sich ähnlicheVerlaufsmuster (vgl. Abbildung 2), wennauch vergleichsweise höhere Geschwindig-keiten im Zahlenordnen und eine ver-

gleichsweise geringere Präzision und Effi-zienz bei den Subtraktionsaufgaben.

Die beiden klassischen Scoring-Varian-ten, die Anzahl bearbeiteter Aufgaben undder Anteil korrekter Lösungen, wurden miteiner neuen HSHS-Scoringvariante, die Ge-schwindigkeit und Präzision auf Itemebenekombiniert und als Gewinn oder Verlustvon Goldmünzen abbildet, verglichen. Zu-sammenfassend zeigen die Analysen, dassder beschriebene Lernverlaufstest ein reliab-les und valides Tool zur formativen Evalua-tion der Leistungsentwicklung von Grund-schulkindern in basalen mathematischenKompetenzbereichen ist. Von allen dreiScorings erwies sich das Münzscoring amreliabelsten, wobei die Splithalf-Reliabilitiä-ten ab dem zweiten Testzeitpunkt mit Wer-ten über .90 am oberen Rand des von Klau-er (2006) berichteten Bereichs liegen. DieKriteriumsvaliditäten für die Scorings liegenmit .39-.51 etwas unterhalb des typischenBereichs (Klauer, 2006). Als Kriterium wur-de allerdings in unserer Studie kein klassi-scher Schulleistungstest, sondern ein Scree-ning mit basisnumerischem und verglichenmit dem Lernverlaufstest stärker nicht-sym-bolischem Schwerpunkt (Kuhn et al., 2013)herangezogen. Dieses CODY-Screening istgenauso wie der Lernverlaufstest an die In-tervention gekoppelt. Bemerkenswert ist,dass die Kriteriumsvaliditäten innerhalb dereinzelnen Klassenstufen deutlich höher aus-fallen als für die Gesamtstichprobe allerKlassenstufen (vgl. Tabelle 3). Dieser Be-fund kann dadurch erklärt werden, dass dieKorrelation von normierten (aus demCODY-Screening) und nicht-normiertenWerten (aus dem Lernverlaufstest) zu kon-servativen Schätzungen psychometrischerEigenschaften führt. Die Variation in denLerntestwerten, die auf die Klassenstufe zu-rückgeht, bleibt in den Analysen mit denRohwerten der Gesamtstichprobe entspre-chend unkontrolliert. Dies scheint folglichauch bei einem nach dem robust indicator-Ansatz und somit per definitionem relativcurriculumsunabhängigen Verfahren eineRolle zu spielen. Dabei ist jedoch zu beden-

137Auf Goldmünzenjagd: Vergleich verschiedener Scorings

ken, dass kognitive Effekte, die auf das Alterder Kinder zurückgehen und nicht mit demCurriculum zusammenhängen (z. B. Effi-zienz der Informationsverarbeitung), mitder Klassenstufe konfundiert sind. Im Ver-gleich der Inhaltsbereiche fallen die psycho-metrischen Kennwerte für den Subtest Zah-lenordnen am geringsten aus. Dieser Be-fund lässt sich durch den, relativ zu den Ad-ditions- und Subtraktionsaufgaben, hetero-generen Itempool erklären. Außerdem un-terscheidet sich der Subtest Zahlenordnenim Antwortformat von den beiden Rechen-faktensubtests. Während die Ergebnisse derAdditions- und Subtraktionsaufgaben überein offenes Antwortformat eingetragen wer-den müssen, ist beim Zahlenordnen eine di-chotome Auswahl zu treffen, die potentielldurch Ratetendenzen beeinflusst wird.

Um die Änderungssensitivität zu unter-suchen, wurde die Prädiktivität der indivi-duellen Ergebnisse in den Lernverlaufstestsfür die statusdiagnostische Entwicklung ana-lysiert: Für alle drei Scorings zeigte sich ei-ne inkrementelle Bedeutsamkeit individuel-ler Lernverläufe über den Einfluss des status-diagnostischen Ausgangsniveaus hinaus.Dies spricht dafür, dass der Lernverlaufstestden Anspruch der Änderungssensitivität er-füllt. Die Aussage wird durch den Vergleichzweier Teilgruppen unter den leistungs-schwächsten der teilnehmenden Kinder (al-so der Hauptzielgruppe für das Training)unterstützt. Für die Teilgruppe, die sich inFolge des Trainings im statusdiagnostischenCODY-Test verbessert hatte, zeigten sichpositivere Lernverläufe in der „Goldmün-zenjagd“ als für die Teilgruppe ohne Ver-besserung im CODY-Posttest. Im Vergleichder Scorings zeigte sich, dass in der Ge-schwindigkeit und Effizienz (Münzen) vorallem die unterschiedlichen Lernverläufe ei-nen Erklärungswert für die Leistung am En-de der Intervention hatten, während unterdem Präzisionsscoring eher das Ausgangsni-veau im Lerntest prädiktiv für die statusdiag-nostische Entwicklung war. Dieser Befundist plausibel, wenn man ihn in Zusammen-hang mit dem Konzept des Overlearnings

(z. B. Klauer, 2006) betrachtet: Wenn be-reits ein ausgeprägtes Präzisionsniveau er-reicht ist, ist vor allem bei lernschwachenKindern eine zusätzliche Verbesserung derSicherheit und Geschwindigkeit anzustre-ben. Um diesen Lernprozess zu unterstüt-zen, bietet das Münzscoring eine direkt er-sichtliche Anreizstruktur, die schlechter Per-formanz aufgrund von Motivationsdefizitenvorbeugen sollte („Can’t do“- statt „Won’tdo“-Assessment, vgl. Voß, 2016). Gleich-zeitig soll diese Form der operanten Kondi-tionierung zu einem schnellen, flüssigenFaktenabruf statt zum langsamen zählendenRechen motivieren, und damit zu einer effi-zienteren Rechenstrategie, die für die weite-re arithmetische Entwicklung bedeutsam ist,führen. Insgesamt zeigte sich, dass in deruntersuchten Stichprobe eine effektivereAutomatisierung einfacher Rechenfaktenund Zahlenverarbeitung mit einem besse-ren Ansprechen auf die computerbasierteFörderung verbunden war. Die Ergebnissereihen sich damit in die bisher überschau-bare Befundlage ein, die belegt, dass selbstin höheren Klassenstufen die Effizienz ma-thematischen Faktenabrufs sowie ordinalerZahlenverarbeitung (inkrementelle) Validi-tät besitzt (z. B. Lyons et al., 2014; Nelson,Parker & Zaslofsky, 2016).

Limitationen

Neben den oben besprochenen Vorteilenimpliziert der robust indicator-Ansatz zurKonstruktion von Lernverlaufsdiagnostikaauch einige Limitationen, die nicht uner-wähnt bleiben sollen. Dem großen Informa-tionswert für Schülerinnen und Schüler imunteren Leistungsbereich steht ein einge-schränkter Nutzen für die Lernstandsevalua-tion auf Klassenebene entgegen. Insbeson-dere können über kompakte, simple Indika-toren (Anzahl korrekt gelesener Worte proZeit im Lesen, Effizienz beim Lösen von Ad-ditions- und Subtraktionsaufgaben im ma-thematischen Bereich etc.) keine übergeord-neten Prozesse wie Strategiewissen erfasstwerden. Aus der Leistungsentwicklung im

138 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

Verlauf der „Goldmünzenjagd“ lassen sichdementsprechend keine expliziten Aussa-gen hierüber ableiten. Implizit kann jedochdie zunehmende Geschwindigkeit und Effi-zienz als Indikator für einen verstärkten Ge-dächtnisabruf von Rechenfakten angesehenwerden. Als eine weitere Limitation ist zuerwähnen, dass die hier berichteten Datenin einer Feldstudie gewonnen wurden, dieeinerseits eine hohe ökologische Validitätbietet, bei der aber andererseits keine kon-trollierten, standardisierten Durchführungs-bedingungen hergestellt werden konnten.Weil die Evaluation des Trainings nicht imVordergrund stand, wurde keine untrainier-te Kontrollgruppe erhoben, an der die Inter-ventionseffekte relativiert werden könnten.Die Analysen zur klinischen und statisti-schen Verbesserung sind deshalb explorativzu verstehen und dürfen wegen der gerin-gen statistischen Power nicht überinterpre-tiert werden.

Fuchs (2004) beschreibt drei Stadien derCBM-Forschung. In einem ersten Stadiumgeht es darum, neu entwickelte Verlaufsdi-agnostika hinsichtlich ihrer psychometri-schen Güte zu überprüfen. An dieser Stelleunterscheidet sich die Forschung nicht vonder Evaluation statusdiagnostischer Tests. Ineinem zweiten Stadium geht es um denNachweis, dass die Tests auch dazu geeig-net sind, Lernentwicklungen abzubilden.Hier stellen sich beispielsweise die For-schungsfragen nach der Variabilität bei wie-derholten Messungen, der Variabilität umtypische Zuwachsraten sowie der Validitätder Slopes als Maß für den Lernzuwachs inder entsprechenden Domäne. Für diese bei-den Stadien des neu entwickelten Lerntests„Goldmünzenjagd“ liefert die hier berichte-te Studie erste Evidenz. Daran sollte ein drit-tes Stadium anschließen, in dem die Imple-mentation des neuen Instruments im Lehr-kontext untersucht wird. Implementations-forschung aus diesem Stadium steht für denvorgestellten Lerntest noch aus.

Implikationen für Forschung undPraxis

Aus den Limitationen dieser Studie ergebensich eine Reihe weiterführender For-schungsfragen: Erstens haben auf psycho-metrischer Ebene die Vergleiche der Kriteri-umsvaliditäten gezeigt, dass bessere Kenn-werte innerhalb von Klassenstufen als überKlassenstufen hinweg erreicht werden. Wieoben bereits diskutiert, spricht dies dafür,dass Berechnungen mit den Rohwerten derLernverlaufstests zu konservativen Schät-zungen der psychometrischen Parameterführen. Ein Forschungsdesiderat bestehtdeshalb in einer Normierungsstudie, diesystematisch Schülerinnen und Schüler ausunterschiedlichen Altersgruppen ein-schließt. Dabei sollten auch weiteren Krite-rien zur Validierung einbezogen werden,insbesondere curriculare Testverfahren inAbgrenzung zum hier eingesetzten Scree-ning mit basisnumerischem Schwerpunkt.Zweitens wären die Aussagen zur Ände-rungssensitivität des Verfahrens belastbarer,wenn sie sich in Studien mit Kontrollgrup-pen replizieren ließen. Das bedeutet kon-kret, dass das hier verwendete Untersu-chungsdesign mit einer Fördergruppe umeine unbehandelte Kontrollgruppe ergänztwerden sollte, um wie bei Klauer undStrathmann (2013) die Lernverläufe beiderGruppen vergleichen zu können. Drittensstehen Nachweise für die praktische Gültig-keit, Nutzung und Nützlichkeit des Verfah-rens in weiteren als dem hier untersuchtenprivaten Kontext aus. Dies betrifft zum ei-nen die Validierung im schulischen oderförderpädagogischen Bereich. In diesemFall sollte die „Goldmünzenjagd“ währendeines regulären Unterrichtszeitraums ohnedas spezifische CODY-Training eingesetztund die damit erfassten Lernverläufe ausge-wertet werden. Als Validierungskriteriumwären in diesem Setting statusdiagnostischeVeränderungsmaße gleichermaßen wie dieUrteile der pädagogischen Fachkräfte denk-bar. Mit einer entsprechenden Studie ließesich die Frage beantworten, ob der Lernver-

139Auf Goldmünzenjagd: Vergleich verschiedener Scorings

laufstest, der als interventionsbegleitendesInstrument konzipiert wurde, auch jenseitsdes Interventionskontextes informativ ist.

An solche Modellversuche knüpfen Fra-gestellungen der Implementationsforschungan, die beantwortet werden müssen, bevoreine flächendeckende Implementationdenkbar ist (Hasselhorn, Köller, Maaz &Zimmer, 2014): Wie wird der relative Nut-zen, die Komplexität und Durchführbarkeitdieser Art von Diagnostik eingeschätzt? Vonwelchen Merkmalen der Fachkräfte (z. B.Einstellungen), der Institution (z. B. techni-sche Infrastruktur) oder des Umfeldes (z. B.implementationsbegleitende Fortbildungs-angebote) ist dies abhängig? Welche Krite-rien sind aussagekräftig, um den Implemen-tationserfolg zu erfassen: die Geschwindig-keit, das Ausmaß oder die Tiefe der Veran-kerung? Welche Erfolgsmaße interessierenaufseiten der pädagogischen Fachkräfteoder der Schülerinnen und Schüler? Wiewirken sich schließlich die gemessenenLernverläufe auf instruktionale Entscheidun-gen im Sinne adaptiver Förderung aus undwie werden Ausgangs- und Zieldaten ver-knüpft (Klauer, 2006)?

Schlussfolgerung

Ähnlich wie LEVUMI (Gebhardt, Diehl &Mühling, 2015) für den Bereich Lesen istdie „Goldmünzenjagd“ als niedrigschwelligeinsetzbares, internetbasiertes Verlaufsdiag-nostikum für den basalen mathematischenBereich gedacht. Durch die robust indica-tor-Konstruktion handelt es sich um kein imengeren Sinne curriculumsbasiertes Instru-ment, sondern um ein Verfahren, das überverschiedene Klassenstufen hinweg, insbe-sondere bei Kindern im unteren Leistungs-bereich, eingesetzt werden kann. Eine Ver-knüpfung mit klassenstufenspezifischenLehrplänen ist nicht vorgenommen worden:Die „Goldmünzenjagd“ wurde explizit fürrechenschwache Kinder mit dem Ziel kon-zipiert, einerseits änderungssensitiv zu sein,andererseits diese oft in ihren rechnerischenFertigkeiten und ihrem Selbstbild stark be-

nachteiligten Kinder zu motivieren. Die Be-sonderheiten der „Goldmünzenjagd“ beste-hen zum einen in der direkten Verzahnungmit einer Intervention und zum anderen indem effizienzbezogenen HSHS-Scoring, dasbei hier guter psychometrischer Qualität eindirektes Feedback über die Kombinationvon Präzision und Geschwindigkeit bietet.Für bestimmte diagnostische Fragestellun-gen kann es sich trotzdem anbieten, eineder beiden Komponenten – Präzision oderGeschwindigkeit – im Einzelnen zu be-trachten. Während die Stichprobe dieserStudie den Verlaufstest begleitend zum Trai-ning zuhause durchgeführt hat, wäre zu-künftig ebenso eine Implementation desVerfahrens in den institutionellen Förder-kontext und inklusiven Unterricht denkbar.Solche Modellversuche sollten durch syste-matische Implementationsforschung beglei-tet werden.

Förderung

Diese Publikation ist im Rahmen einesdurch das BMBF geförderten Projekts ent-standen (Förderkennzeichen 01-GJ1302).

Literatur

Andersson, U. (2010). Skill development indifferent components of arithmetic andbasic cognitive functions: Findings from a3-year longitudinal study of children withdifferent types of learning difficulties.Journal of Educational Psychology, 102,115-134.

Bates, D., Maechler, M., Bolker, B. & Walker,S. (2015). Fitting Linear Mixed-Effects Mo-dels Using lme4. Journal of StatisticalSoftware, 67, 1-48.

Deno, S. L. (1985). Curriculum-based measu-rement: The emerging alternative. Excep-tional Children, 52, 219-232.

Foegen, A., Jiban, C. & Deno, S. (2007). Pro-gress monitoring measures in mathema-

140 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

tics: A review of the literature. The Journalof Special Education, 41, 121-139.

Fuchs, L. S. (2004). The past. present. and fu-ture of curriculum-based measurement re-search. School Psychology Review, 33,188-193.

Fuchs, L. S., Compton, D. L., Fuchs, D., Paul-sen, K., Bryant, J. D. & Hamlett, C. L.(2005). The prevention, identification,and cognitive determinants of math diffi-culty. Journal of Educational Psychology,97, 493-513.

Fuchs, L. S., Fuchs, D., Hamlett, C. L., Phillips,N. B. & Bentz, J. (1994). Classwide curri-culum-based measurement: Helping ge-neral educators meet the challenge of stu-dent diversity. Exceptional Children, 60,518-537.

Fuchs, L. S., Powell, S. R., Seethaler, P. M., Ci-rino, P. T., Fletcher, J. M., Fuchs, D., …Zumeta, R. O. (2009). Remediating Num-ber Combination and Word Problem De-ficits Among Students With MathematicsDifficulties: A Randomized Control Trial.Journal of Educational Psychology, 101,561–576.

Fuson, K. C., Wearne, D., Hiebert, J. C., Mur-ray, H. G., Human, P. G., Olivier, A. I.,Carpenter, T. & Fennema, E. (1997). Chil-dren’s conceptual structures for multidigitnumbers and methods of multidigit addi-tion and subtraction. Journal for Researchin Mathematics Education, 28, 130-162.

Geary, D. C. (2004). Mathematics and lear-ning disabilities. Journal of Learning Dis-abilities, 37, 4–15.

Geary, D. C. (2013). Early foundations for ma-thematics learning and their relations tolearning disabilities. Current Directions inPsychological Science, 22, 23-27.

Geary, D. C., Hoard, M. K. & Bailey, D. H.(2012). Fact retrieval deficits in low achie-ving children and children with mathema-tical learning disability, Journal of Lear-ning Disabilities, 45, 291–307.

Gebhardt, M., Diehl, K. & Mühling, A. (2015).Online-Lernverlaufsmessung für alleSchülerinnen und Schüler in inklusiven

Klassen. Zeitschrift für Heilpädagogik, 66,444-453.

Grömping, U. (2006). Relative importance forlinear regression in R: the package relaim-po. Journal of Statistical Software, 17, 1-27.

Hasselhorn, M., Köller, O., Maaz, K. & Zim-mer, K. (2014). Implementation wirksa-mer Handlungskonzepte im Bildungsbe-reich als Forschungsaufgabe. Psychologi-sche Rundschau, 65, 140-149.

Hosp, M. K., Hosp, J. L. & Howell, K. W.(2007). The ABCs of CBM. A practicalguide to curriculum-based measurement(The Guilford practical intervention in theschools series). New York: Guilford Press.

Jabrayilov, R., Emons, W. H. & Sijtsma, K.(2016). Comparison of Classical TestTheory and Item Response Theory in Indi-vidual Change Assessment. Applied Psy-chological Measurement, 40, 559-572.

Jacobson, N. S. & Truax, P. (1991). Clinicalsignificance: A statistical approach to defi-ning meaningful change in psychotherapyresearch. Journal of Consulting and Clini-cal Psychology, 59, 12-19.

Jansen, B. R. J., Louwerse, J., Straatemeier, M.,Van der Ven, S. H. G., Klinkenberg, S. &Van der Maas, H. L. J. (2013). The influen-ce of experiencing success in math onmath anxiety, perceived math compe-tence, and math performance. Learningand Individual Differences, 24, 190-197.

Jordan, N.C., Hanich, L.B. & Kaplan, D.(2003). Arithmetic fact mastery in youngchildren: A longitudinal investigation.Journal of Experimental Child Psycholo-gy, 85, 103-119.

Kaufmann, L., Handl, P. & Thöny, B. (2003).Evaluation of a numeracy interventionprogram focusing on basic numericalknowledge and conceptual knowledge: Apilot study. Journal of Learning Disabili-ties, 36, 564-573.

Klauer, K. J. (2006). Erfassung des Lernfort-schritts durch curriculumbasierte Mes-sung. Heilpädagogische Forschung, 32,16-26.

141Auf Goldmünzenjagd: Vergleich verschiedener Scorings

Klauer, K. J. (2011). Lernverlaufsdiagnostik-Konzept, Schwierigkeiten und Möglich-keiten. Empirische Sonderpädagogik, 3,207-224.

Klauer, K. J. (2014). Formative Leistungsdiag-nostik: Historischer Hintergrund und Wei-terentwicklung zur Lernverlaufsdiagnos-tik. In M. Hasselhorn, U. Trautwein & W.Schneider (Hrsg.), Lernverlaufsdiagnostik(Vol. N.F. Band 12) (S. 1-17). Göttingen:Hogrefe.

Klauer, K. J. & Strathmann, A. M. (2013). Lern-verlaufsdiagnostik Mathematik: Test aufÄnderungssensibilität bei rechenschwa-chen Grundschülern. Psychologie in Er-ziehung und Unterricht, 60, 241-252.

Klinkenberg, S., Straatemeier, M. & Van derMaas, H. (2011). Computer adaptivepractice of maths ability using a new itemresponse model for on the fly ability anddifficulty estimation. Computers & Educa-tion, 57, 1813-1824.

Kuhn, J.-T. (2016). Meister CODY: Computer-basiertes Trainingsprogramm für Grund-schulkinder mit Rechenschwierigkeiten.Beitrag auf dem 6. Frankfurter Forum(März 2016), Frankfurt am Main. Onlineverfügbar unter: https://www.testzentra-le.de/veranstaltungen/frankfurter-forum/6-frankfurter-forum-2016.

Kuhn, J.-T. & Holling, H. (2014). Number sen-se or working memory? The effect of twocomputer-based trainings on mathemati-cal skills in elementary school. Advancesin Cognitive Psychology, 10, 59-67.

Kuhn, J.-T., Raddatz, J., Holling, H. & Dobel,C. (2013). Dyskalkulie vs. Rechenschwä-che: Basisnumerische Verarbeitung in derGrundschule. Lernen und Lernstörungen,2, 229-247.

Kuhn, J.-T., Schwenk, C., Strehle, L. M., Rad-datz, J., Dobel, C. & Holling, H. (2017).Evaluation of a computer-based trainingfor enhancing arithmetic skills in math-disabled children. Vortrag auf der 17.EARLI Conference (August/September2017), Tampere.

Lyons, I. M. & Ansari, D. (2015). NumericalOrder Processing in Children: From Re-

versing the Distance-Effect to PredictingArithmetic. Mind, Brain, and Education,9, 207-221.

Lyons, I. M., Price, G. R., Vaessen, A., Blo-mert, L. & Ansari, D. (2014). Numericalpredictors of arithmetic success in grades1–6. Developmental Science, 17, 714-726.

Maris, G. & Van der Maas, H. (2012). Speed-accuracy response models: Scoring rulesbased on response time and accuracy.Psychometrika, 77, 615-633.

Nelson, P. M., Parker, D. C. & Zaslofsky, A. F.(2016). The relative value of growth inmath fact skills across late elementary andmiddle school. Assessment for EffectiveIntervention, 41, 184-192.

Powell, S. R., Fuchs, L. S., Fuchs, D., Cirino,P. T. & Fletcher, J. M. (2009). Effects ofFact Retrieval Tutoring on Third-GradeStudents with Math Difficulties with andwithout Reading Difficulties. LearningDisabilities Research & Practice, 24, 1-11.

R Core Team (2016). R: A language and envi-ronment for statistical computing. R Foun-dation for Statistical Computing, Wien.https://www.R-project.org/.

Raddatz, J., Kuhn, J. T., Holling, H., Moll, K. &Dobel, C. (2016). Comorbidity of arith-metic and reading disorder: Basic numberprocessing and calculation in childrenwith learning impairments. Journal ofLearning Disabilities, 50, 298-308.

Rohwer, G. (2015). Bemerkungen zu einemTestverfahren für Lernfortschritte. Journalfor Educational Research Online, 7, 147-156.

Souvignier, E., Förster, N. & Salaschek, M.(2014). quop: Ein Ansatz internetbasierterLernverlaufsdiagnostik mit Testkonzeptenfür Lesen und Mathematik. In M. Hassel-horn, U. Trautwein & W. Schneider(Hrsg.), Lernverlaufsdiagnostik (Vol. N.F.Band 12). Göttingen: Hogrefe.

Strathmann, A. M. & Klauer, K. J. (2010). Lern-verlaufsdiagnostik: Ein Ansatz zur länger-fristigen Lernfortschrittsmessung. Zeit-schrift für Entwicklungspsychologie undPädagogische Psychologie, 42, 111-122.

142 Christin Schwenk, Jörg-Tobias Kuhn, Daniela Gühne, Philipp Doebler & Heinz Holling

Strathmann, A. M. & Klauer, K. J. (2012). LVD-M 2-4. Lernverlaufsdiagnostik-Mathema-tik für zweite bis vierte Klassen (HogrefeSchultests). Göttingen: Hogrefe.

Vanbinst, K., Ceulemans, E., Ghesquière, P. &De Smedt, B. (2015). Profiles of children’sarithmetic fact development: A model-ba-sed clustering approach. Journal of Experi-mental Child Psychology, 133, 29-46.

Voß, S. (2016). Rechengeschwindigkeit, -prä-zision oder -flüssigkeit? Zur Vorhersageund Förderung der Rechenleistungen vonErstklässlern. Heilpädagogische For-schung, 42, 13-24.

Voß, S., Blumenthal, Y., Mahlau, K., Marten,K., Diehl, K., Sikora, S. & Hartke, B.(2016). Der Response-to-Intervention-An-satz in der Praxis. Evaluationsergebnissezum Rügener Inklusionsmodell. Münster:Waxmann.

Walter, J. (2010). LDL. Lernfortschrittsdiagnos-tik Lesen. Ein curriculumsbasiertes Ver-fahren (Deutsch Schultests). Göttingen:Hogrefe.

Walter, J. (2013). VSL. Verlaufsdiagnostik sin-nerfassenden Lesens. (Hogrefe Schul-tests). Göttingen: Hogrefe.

Wißmann, J., Heine, A., Handl, P. & Jacobs,A. M. (2013). Förderung von Kindern mitisolierter Rechenschwäche und kombi-nierter Rechen-und Leseschwäche: Eva-luation eines numerischen Förderpro-gramms für Grundschüler. Lernen undLernstörungen, 2, 91-109.

Christin Schwenk, M.Sc.Westfälische Wilhelms-UniversitätMünsterInstitut für PsychologieFliednerstraße 2148149 Mü[email protected]

Erstmalig eingereicht: 28.02.2017Überarbeitung eingereicht: 09.06.2017Angenommen: 01.08.2017