Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit...

22
171 Gabriele Kaiser INTERNATIONALE VERGLEICHSUNTERSUCHUNGEN IM MATHE- MATIKUNTERRICHT - EINE AUSEINANDERSETZUNG MIT IHREN MÖGLICHKEITEN UND GRENZEN Zusammenfassung: Die Arbeit setzt sich mit den Möglichkeiten und Grenzen internationaler Vergleichsstudien auseinander. Im ersten Teil werden am Beispiel der Third International Mathe- matics and Science Study (TIMSS) quantitativ-statistische Vergleichsstudien analysiert. So wird zunächst die methodologische Basis solcher Studien aufgezeigt, um dann die Grenzen solcher Studien sowie ihre Möglichkeiten zu analysieren. Der zweite Teil des Beitrags setzt sich mit qua- litativ angelegten Vergleichsstudien auseinander. Dabei erfolgt eine Analyse der Grenzen und Möglichkeiten solcher Studien am Beispiel der TIMSS Videostudieund der TIMSS Fallstudie. Abschließend werden möglicheKonsequenzen dieserAnalysen diskutiert. Abstract: The paper analysesthe possibi!ities and !imitationsof international comparativestudies. The first part discusses quantitative-statistical comparativestudies using the example of the Third International Mathematics and Science Study (TIMSS). Firstly, the methodological basis of such studies is described. These reflections allow to analysethe limitationsand possibilities of interna- tional comparisons. The second part ofthe paper refersto the restrictions and chancesof qualitati- ve comparativc studies exemplified with two studies, the TIMSS Videostudy and the TIMSS Case Study. Finally possible consequencesofthese analyses are discussed. o. Einleitung Nationale und internationale Vergleichsuntersuchungen haben seit der Publikation der Ergebnisse der Third International Mathematics and Science Study (TIMSS) Hochkon- junktur. Es sind bereits eine Reihe weiterer Vergleichsuntersuchungen beschlossen und derzeit in der Durchführung begriffen, so Z.B. die OECD-Studie PISA (Programme for International Student Assessment), an der Deutschland teilnimmt, oder TIMSS-Repeat, eine Replikation der TIMSS-Studie, an der insbesondere auch lateinamerikanische Län- der teilnehmen sollen. Auch auf nationaler Ebene werden derzeit eine Reihe weiterer Vergleichsuntersuchungen diskutiert wie Z.B. die Studie Bildungsverläufe und psycho- soziale Entwicklung im Jugendalter (BIJU-Studie). Auf regionaler Ebene werden eben- falls seit einigen Jahren Vergleichsstudien durchgefiihrt, wie die Studie "Aspekte der Lernausgangslage und der Lernentwicklung von Schülerinnen und Schülern an Hambur- ger Schulen" (LAU) oder die Studie an Brandenburger Schulen "Qualitätsuntersuchung an Schulen zum Unterricht in Mathematik" (QuaSUM). Diese regionalen, nationalen und internationalen Vergleichsstudien hatten bereits enorme bildungspolitische Konsequen- zen: So hat 1997 die Kultusministerkonferenz in den sog. Konstanzer Beschlüssen die Durchführung regelmäßiger länderübergreifender Vergleichsuntersuchungen zum Lern- und Leistungsstand von Schülerinnen und Schülern beschlossen, Ein Leistungsvergleich zwischen den Bundesländern wird erstmalig im Rahmen von PISA erfolgen. Einige Bundesländer wie Nordrhein-Westfalen, Hamburg und Bremen haben darüber hinaus bereits die Einführung von Vergleichsarbeiten in verschiedenen Jahrgangsstufen in den (JMD 21 (2000) H. 3/4, S. 171-192)

Transcript of Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit...

Page 1: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

171

Gabriele Kaiser

INTERNATIONALE VERGLEICHSUNTERSUCHUNGEN IM MATHE­MATIKUNTERRICHT - EINE AUSEINANDERSETZUNG MIT IHRENMÖGLICHKEITEN UND GRENZEN

Zusammenfassung: Die Arbeit setzt sich mit den Möglichkeiten und Grenzen internationalerVergleichsstudien auseinander. Im ersten Teil werden am Beispiel der Third International Mathe­matics and Science Study (TIMSS) quantitativ-statistische Vergleichsstudien analysiert. So wirdzunächst die methodologische Basis solcher Studien aufgezeigt, um dann die Grenzen solcherStudien sowie ihre Möglichkeiten zu analysieren. Der zweite Teil des Beitrags setzt sich mit qua­litativ angelegten Vergleichsstudien auseinander. Dabei erfolgt eine Analyse der Grenzen undMöglichkeiten solcher Studien am Beispiel der TIMSS Videostudie und der TIMSS Fallstudie.Abschließend werden möglicheKonsequenzen dieserAnalysen diskutiert.

Abstract: The paper analyses the possibi!ities and !imitationsof international comparativestudies.The first part discusses quantitative-statistical comparativestudies using the example of the ThirdInternational Mathematics and Science Study (TIMSS). Firstly, the methodological basis of suchstudies is described. These reflections allow to analyse the limitations and possibilities of interna­tional comparisons.The second part ofthe paper refers to the restrictions and chancesof qualitati­ve comparativc studies exemplifiedwith two studies, the TIMSS Videostudyand the TIMSS CaseStudy. Finally possible consequencesofthese analyses are discussed.

o. Einleitung

Nationale und internationale Vergleichsuntersuchungen haben seit der Publikation derErgebnisse der Third International Mathematics and Science Study (TIMSS) Hochkon­junktur. Es sind bereits eine Reihe weiterer Vergleichsuntersuchungen beschlossen undderzeit in der Durchführung begriffen, so Z.B. die OECD-Studie PISA (Programme forInternational Student Assessment), an der Deutschland teilnimmt, oder TIMSS-Repeat,eine Replikation der TIMSS-Studie, an der insbesondere auch lateinamerikanische Län­der teilnehmen sollen. Auch auf nationaler Ebene werden derzeit eine Reihe weitererVergleichsuntersuchungen diskutiert wie Z.B. die Studie Bildungsverläufe und psycho­soziale Entwicklung im Jugendalter (BIJU-Studie). Auf regionaler Ebene werden eben­falls seit einigen Jahren Vergleichsstudien durchgefiihrt, wie die Studie "Aspekte derLernausgangslage und der Lernentwicklung von Schülerinnen und Schülern an Hambur­ger Schulen" (LAU) oder die Studie an Brandenburger Schulen "Qualitätsuntersuchungan Schulen zum Unterricht in Mathematik" (QuaSUM). Diese regionalen, nationalen undinternationalen Vergleichsstudien hatten bereits enorme bildungspolitische Konsequen­zen: So hat 1997 die Kultusministerkonferenz in den sog. Konstanzer Beschlüssen dieDurchführung regelmäßiger länderübergreifender Vergleichsuntersuchungen zum Lern­und Leistungsstand von Schülerinnen und Schülern beschlossen, Ein Leistungsvergleichzwischen den Bundesländern wird erstmalig im Rahmen von PISA erfolgen. EinigeBundesländer wie Nordrhein-Westfalen, Hamburg und Bremen haben darüber hinausbereits die Einführung von Vergleichsarbeiten in verschiedenen Jahrgangsstufen in den

(JMD 21 (2000) H. 3/4, S. 171-192)

Page 2: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

172 G. Kaiser

Hauptfachern beschlossen und arbeiten an deren Realisierung. Diese bildungspolitischenMaßnahmen werden legitimiert unter Bezug auf die Ergebnisse internationaler und nati­onaler Vergleichsuntersuchungen, derzeit hauptsächlich TIMSS und BIJU.Eine grundlegende Auseinandersetzung mit den Möglichkeiten und Grenzen solcherStudien ist daher sowohl aus fachdidaktischer wie aus erziehungswissenschaftlicherSicht nötig und bisher erst ansatzweise geführt worden.

Die Auseinandersetzung beschränkt sich aus Umfangsgründen auf internationale Ver­gleichsuntersuchungen, da die Möglichkeiten und Grenzen nationaler und internationalerStudien sehr unterschiedlich einzuschätzen sind. Bei dieser Auseinandersetzung ist einedifferenzierte Betrachtungsweise nötig. Die TIMS-Studie - auf die sich die Analysekonzentrieren wird, da sie die bisher größte und derzeit auch bedeutsamste internationaleVergleichsuntersuchung darstellt - weist ein hochkomplexes Design auf. Aufgrund deran vorangegangenen Untersuchungen geübten Kritik, wie mangelnde curriculare Vali­dität der Items,Beschränkung auf die Leistungsentwicklung, fehlende Möglichkeiten derInterpretation der Daten, wurde für TIMSS folgendes Design entwickelt. Neben derquantitativ-statistisch angelegten Leistungsstudie wurden verschiedene stärker qua­litativ orientierte Ergänzungsstudien durchgeführt wie eine Video-Studie zum Unter­richt in Japan-USA-Deutschland, Curriculumstudien sowie eine ethnographisch orien­tierte Fallstudie in denselben Ländern, die u.a. als Interpretationshintergrund der Datender Leistungsstudie dienen sollen. Damit basiert TIMSS auf gegensätzlichen wissen­schaftstheoretischen Ansätzen, die getrennt zu analysieren sind.Die folgenden Analysen beschränken sich auf Vergleichsstudien zum Mathematikunter­richt bzw. auf die auf den Mathematikunterricht bezogenen Teile von TIMSS. Inwieweitdie Aussagen auf Studien zu anderen Fächern übertragbar sind, muß gesondert unter­sucht werden.

1. Möglichkeiten und Grenzen quantitativ-statistischer internationalerVergleichsuntersuchungen

Im folgenden soll nur auf einige wenige Ergebnisse der TIMSS-Leistungsstudien hinge­wiesen werden, da die Ergebnisse weitestgehend bekannt sind und bereits an vielenStellen referiert wurden.

1.1. Ausgewählte Ergebnisse der TIMSS-Leistungsstudie

An der 1994-95 durchgeführten TIMS-Leistungsstudie haben mehr als eine halbe Milli­on Lernende aus über 40 Ländern teilgenommen. TIMSS erhob die Leistungen von dreiPopulationen, und zwar aus der Primarstufe, dem unteren und dem oberen Sekundarbe­reich für den mathematischen und naturwissenschaftlichen Unterricht.An der Primarstufenstudie (Jg. 3-4) hat Deutschland nicht teilgenommen. Die Kinderaus asiatischen Ländern erreichten die besten Ergebnisse; Leistungen im oberen Bereicherzielten auch die Kinder aus den Niederlanden, Tschechien und Österreich (siehe Mulliset al., 1997).In der Studie aus dem unteren Sekundarbereich (Jg. 7-8) erzielten ebenfalls Jugendli­che aus den asiatischen Ländern die besten Leistungen (siehe Beaton et al., 1996). DieLeistungen der deutschen Jugendlichen lagen nahe am internationalen Mittelwert in

Page 3: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 173

einer breiten Mittelgruppe, u.a. zusammen mit den angelsächsischen Ländern (vgl. Bau­mertlLehmann et al., 1997).Im Rahmen der Studie aus dem oberen Sekundarbereich (Jg. 12-13), an der keineasiatischen Länder teilgenommen haben, wurden mehrere Teilstudien durchgefiihrt: Indem Bereich der grundlegenden mathematisch-naturwissenschaftlichen Fähigkeiten(,,mathematics and science literacy" genannt) erzielten die deutschen Jugendlichendurchschnittliche Leistungen. In den Tests für Lernende mit einer Vertiefung in Mathe­matik ("advanced mathematics" genannt), an dem in Deutschland alle Lernenden dergymnasialen Oberstufe mit einem Grund- oder Leistungskurs in Mathematik teilnahmen,erbrachten die deutschen Jugendlichen unterdurchschnittliche Leistungen (siehe Mulliset al., 1998 für die internationalen und Baumert/Bos/Watermann, 1998 fiir die deutschenErgebnisse).

Im folgenden soll in einem Exkurs die methodologische Basis solcher quantitativ­statistischen Studien skizziert werden, um auf dieser Basis zu verdeutlichen, welche Artvon Aussagen diese Studien erlauben bzw. nicht erlauben.Unter quantitativ-statistisch orientierten Studien werden im folgenden solche Studienverstanden, die im Rahmen eines quantitativ-statistischen Forschungsparadigmas entwi­ckelt wurden und damit auf explizit ausgewiesenen theoretischen Modellen beruhen, wiesie entweder die klassische oder die derzeit aktuelle und als Weiterentwicklung gedachteprobabilistische Testtheorie bereitstellen.

1.2. Methodologischer Exkurs zur klassischen und probabilistischen Testtheorie

Ausgangspunkt der in den Zwanziger- und Dreißigerjahren entstandenen klassischenTesttheorie waren Bedürfnisse der differentiellen Psychologie. Ihre Intention war es,Individuen mit möglichst großer Zuverlässigkeit hinsichtlich bestimmter Eigenschaftenvoneinander zu unterscheiden. Daher standen Probleme der Abschätzung des Fehlers,die bei der Messung von Eigenschaften wie Intelligenz gemacht wurden, und Maßnah­men zur Erhöhung der Zuverlässigkeit der Messungen im Vordergrund ihrer Betrachtun­gen. Der feste Glaube daran, daß den aus dem Alltagsleben stammenden und auch impsychologischen Jargon üblichen Eigenschaftsbezeichnungen wie "Intelligenz", "Bega­bung" quantifizierbare Eigenschaftsdimensionen der Versuchspersonen entsprechen, ließkeinen Zweifel daran aufkommen, daß ein psychologisches Testergebnis ähnlich wieeine physikalisch-technische Messung als Summe eines "wahren Wertes" und eines.Fehlers" verstanden werden kann. Dabei unterscheiden sich - gemäß diesem Ansatz ­psychologische Testungen von physikalisch-technischen Messungen hauptsächlich durchihre Unwiederholbarkeit unter gleichen Bedingungen. Die klassische Testtheorie setzte ­indem sie lediglich an der Meßgenauigkeit interessiert war - die Definition und Existenzder zu messenden Eigenschaften und Dimensionen voraus. Persönlichkeitstheorien aber,die die zu messenden Eigenschaften und Dimensionen, z.B. Intelligenz, definieren undbeschreiben, fehlen bzw. beruhen ihrerseits auf eben solchen Testergebnissen, womit derCirculus vitiosus geschlossen ist.

Der grundlegende Begriff, auf dem die klassische Testtheorie aufbaut, ist also der des"wahren Wertes", dessen Existenz postuliert wird. Weiter wird die Testung einer Personmit einem Test als fehlerhaft angesehen, so daß sich daher jeder empirische Meßwertvom wahren Wert durch einen ,,Meßfehler" unterscheidet. Das grundlegende Axiom

Page 4: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

174 G. Kaiser

lautet dann, daß sich der Testwert additiv aus dem wahren Wert und dem Meßfehlerzusammensetzt.

Die klassische Testtheorie wird wegen ihrer begrenzten Anwendungsmöglichkeiten undaus formalen Gründen heftig kritisiert. Dabei bereitet insbesondere die psychologischeInterpretation des wahren Werts große Schwierigkeiten. Während die Testtheorie an­nimmt, daß der aus einem Test erschlossene wahre Wert eine fixe, psychologische Ei­genschaft einer Person anzeigt, variiert diese Eigenschaft tatsächlich in Abhängigkeitvon der Personenstichprobe, an welcher der Test standardisiert wurde.Insgesamt kann die klassische Testtheorie durch ihre verfahrenstechnische Orientierungals Fehlertheorie der Problematik psychologischer Messungen nicht gerecht werden (fürDetails siehe u.a. Walter, 1991; für eine umfassendere Auseinandersetzung mit derProblematik der Messung pädagogischer Leistungen vgl. Kaiser, 1999b).

Im folgenden wird nun die probabilistische Testtheorie skizziert, die beansprucht, dieMängel der klassischen Testtheorie zu beheben. Der probabilistische Charakter diesestheoretischen Ansatzes besagt, daß vom beobachteten Verhalten einer Person, d.h. vonihren Testantworten, nur mit einer gewissen Wahrscheinlichkeit auf die interessierenden,nicht beobachtbaren Eigenschaften der Person - z.B. mathematische Fähigkeiten - ge­schlossen werden kann. Zwischen dem manifesten Verhalten und der latenten Größebesteht daher eine kategoriale Differenz. Im Prinzip muß daher das Verhältnis zwischendem latenten Merkmal - den mathematischen Fähigkeiten - und dem beobachtbarenIndikator - den Testleistungen - theoretisch durch eine inhaltliche Theorie geklärt wer­den.Innerhalb des probabilistischen Testmodells wird von der Annahme ausgegangen, daßdas aktuelle Verhalten außer vom sog. ,,zufall" - das sind die Summe aller unkontrol­lierbaren, fluktuierenden Einflüsse - vor allem von zwei Parametern abhängt: von derCharakteristik des Reizes oder der Situation und von den latenten Eigenschaften derPerson, wie sie zum Zeitpunkt der Beobachtung bestehen bzw. so weit sie für die Art desuntersuchten Verhaltens relevant sind.Dies impliziert im Kontext der Messung mathematischer Leistungen die Annahme, daßdie Wahrscheinlichkeit für die richtige Beantwortung eines Items nur von der mathema­tischen Fähigkeit der Testperson und der Itemschwierigkeit abhängt.

Mit diesen sehr allgemeinen Annahmen ist natürlich eine Fülle von Modellen möglich.Im folgenden wird kurz auf das Modell von Rasch eingegangen, auf dem alle weiterenModelle basieren. Das Rasch-Modell modelliert den Zusammenhang zwischen derWahrscheinlichkeit, ein Item richtig zu beantworten, und der Fähigkeit der Person sowieder Itemschwierigkeit unter Rückgriff auf die logistische Funktion.Das Rasch-Modell basiert auf starken Annahmen, u.a. auf der Annahme der Eindimen­sionalität der gemessenen Leistung, d.h. daß die Leistungen einer Versuchsperson inallen Items auf dieselbe latente Fähigkeit - in unserem Fall mathematische Fähigkeit ­zurückgeführt werden können.

Als besonderer Vorzug des Rasch-Modells wird hervorgehoben, daß es sogenannte"spezifisch objektive" Vergleiche gestattet. "Spezifische Objektivität" heißt, daß eineindeutiger Vergleich zweier beliebiger Personen möglich ist, unabhängig davon, welcheTeilstichprobe von Items aus dem gesamten Itempool eines Tests dafür verwendet wird.

Page 5: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen-----

175

Diese spezifische Objektivität gilt allerdings nur für modellkonforme Items bzw. Popu­lationen, was empirisch überprüft werden muß. Dabei werden modell unverträglicheTestaufgaben bzw. modellunverträgliche Personengruppen in einem Trial-and-Error­Verfahren so lange eliminiert, bis man Items bzw. Populationen erhält, die die Voraus­setzungen des Rasch-Modells erfüllen. Diese Selektion ist "technisch" bedingt und be­rücksichtigt keine inhaltlichen Gründe, warum gewisse Items oder Personengruppenmodellunverträglich sind (für Details siehe u.a. Walter, 1991).

Modelle der probabilistischen Testtheorie haben in den letzten Jahren im Rahmen derSchulleistungsmessung eine hohe Bedeutung erlangt; so werden sie u.a. in TIMSS, aberauch in der BIJU-Studie angewandt und sind auch für die PISA-Studie geplant. Diefolgenden Ausführungen konzentrieren sich auf die Anwendung des Rasch-Modells inder TIMS-Studie, und zwar genauer auf die Darstellung der Leistungen der deutschenJugendlichen (siehe BaumertlLehmann et al., 1997).In der TIMS-Studie wurden unter Nutzung des Rasch-Modells globale Fähigkeitsmaßefür Mathematik berechnet. Damit wird nach dem Anspruch von BaumertlLehmann et al.(1997) "eine für alle Teilnehmerstaaten gemeinsame Skala definiert, die interkulturelleVergleiche erlaubt." (S. 65)Zu welcher Art von Aussagen BaumertlLehmann u.a. nun aufgrund der Verwendung desRasch-Modells kommen, wird im folgenden exemplarisch an einem Beispiel aus demSachgebiet Zahlen und Zahlverständnis verdeutlicht (siehe Abbildung auf der folgendenSeite).Auf einer Fähigkeitsskala sind die mittleren Leistungen von Lernenden des 8. Jahrgangsder unterschiedlichen Schulformen in Deutschland eingetragen. Den Beispielaufgabenwerden Fähigkeitsniveaus zugeordnet, die erreicht sein müssen, um die Aufgabe miteiner 65%igen Wahrscheinlichkeit lösen zu können. Die Abbildung wird dann wie folgterläutert: ,,Abbildung C2 illustriert, daß die Grundrechenarten in der 8. Klasse auf demdurchschnittlichen Fähigkeitsniveau von Hauptschülern mit ,einiger Sicherheit' be­herrscht werden (Beispiel I) ... Verständnis von Brüchen kann erst auf Realschulniveauerwartet werden (Beispiel 2). Die Lösung einer Aufgabe, die Beherrschung von Klam­merausdrücken und die Addition gleichnamiger Brüche erfordert, gelingt erst bei gym­nasialem Niveau (Beispiel 3)." (BaumertlLehmann et al., 1997, S .68)

1.3. Reflexion der Probleme und Grenzen

Die Probleme und Grenzen solcher Vergleichsstudien werden von drei verschiedenenPerspektiven her beleuchtet:

(1) Perspektive der meßtheoretischen KritikWolfe (1999) weist in statistischen Detailanalysen auf die Abhängigkeit der Ergebnisseinternationaler Vergleichsstudien von der Auswahl der verwendeten Items hin. Diesbedeutet, daß bei Selektion anderer Items die Resultate zwischen den Ländern andersausfallen. Wolfe (1999) bezeichnet dies als internationalen Meßfehler ("internationalmeasurement error"). Weiter zeigt er in seinen Analysen, daß bei Berücksichtigung an­derer Themengebiete bzw. anderer Wichtung der Themengebiete - wie sie beispielsweisedurch die Anzahl der berücksichtigten Items vorgenommen wird - sich die Resultate

Page 6: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

176 G. Kaiser----------- ---------- ----------------------

Aus: Baumert, 1. & Lehmann, R. u.a. (1997), S. 69.

Abbildung C2: Beispiele für Aufgaben aus dem Sachgebiet Zahlenund Zahlenverständnis nach Schwierigkeit

J, 4)

12

--..i 5

I8'51617:jii

5'611TI"

A. 16.251D. 17.65 IC. 18.7510_ 23.751

DerT.mkeinesAuto~ faßt351 Benzin. D:as Auto\'CrhrnuchI7.5lauf100km, Eine Fahn über 250 km wurde mit vollemBenzintankbegonnen.WicvielBenzin ist am Endeder Fahrt noch imT:ank?

E.

D.

C.

DerPreiseinerDoseBohnen wird von60 Pfennig Mur 75 pr.:nnigerhöhl.UmwievielProzenti51der Preisgcs[i~gcn~

A.

A. ISI\-B. 201\-C. 25<;1-D. 3<Yk

71

In) Subtrahiere: (.000- 2J69

oo.:m

47) B.

;.701 Drei FUnflei der Kindereiner KIa.~SC' sind Mödch~n. Wenn.5Mädchenund

W5 Jungen dazukommen.welcheder folgendenAusugen überdie KJOlSSCi~ dann wahr?

A. In der Kressegibt es.mehr MiidchcR ::als Jungen.ß. Es gibt gleich vieleJungen wie:Mädchenin der Klasse.C In der Klassel!ibles mehrJungen als Mädchen.D. Aurgronddieser In(onnatioo kann mlJn nichtsagen. ob es mehr

M~chcn oder mehrJungen in der Kh1S!öe gibt.

Fähigkeit

750

"0700

'0.321\

~

..

600~

f-GymliasTuiil-...

(0.50'0.

Realschule-----500

GesamtsCf.üiä l-.---- ..

Hauptschule (D.a71

400

l ,..(0.81'0.

300

A. ~J69

B. J7~2

C. 3631D. 3531 (1'

Anm.: Die drei Werte an den Verbindern geben das für eine 6Spro7.entigeLösungswahrscheinlichkeit erforderliche Fähigkeitsniveau und inKlammern die relativen Läsungshäufigkeiten in Jahrgangssmfe 8/7 inDeutschland wieder.

Page 7: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 177

ändern und damit die Rangfolge zwischen den Ländern. Er bezeichnet dies als interna­tionales Meßvorurteil ("international measurement bias"). Wolfe (1999) weist daraufhin,daß der internationale Meßfehler bzw. das internationale Meßvorurteil in der Regel un­terschätzt bzw. nicht berücksichtigt wird. Diese Kritik verdeutlicht die Eingeschränktheitder als Stärke von Rasch-Modellen diskutierten spezifischen Objektivität, denn die spe­zifische Objektivität beinhaltet lediglich die Unabhängigkeit der Testergebnisse von deraus der Gesamtstichprobe gezogenen Sub-Stichprobe der Items bzw. Personen. Damitwerden zwar Verallgemeinerungen auf die mittels des gesamten Itempools getestetenFähigkeiten möglich, es kann jedoch nicht die Unabhängigkeit von den insgesamt selek­tierten Items bzw. der Personenstichprobe gewährleistet werden.

(2) Perspektive der curricularen Aspekte

Durch Expertenbefragungen im Rahmen der sog. "Test-Curriculum Matehing Analysis"hat TIMSS sichergestellt, daß die in TIMSS verwendeten Items in den Curricula derbeteiligten Länder vorkommen (siehe Beaton, 1998). Dies schließt allerdings zum einennicht aus, daß es gewisse Unterschiede in der curricularen Nähe der TIMSS-Items beiverschiedenen Ländern gibt'. Zum anderen macht diese bei TIMSS immer wieder be­tonte curriculare Validität der Itemsjedoch keine Aussagen darüber, inwieweit die Testsdie einzelnen Schwerpunktsetzungen der Curricula so vieler unterschiedlicher Länderadäquat widerspiegeln. Wolfe (1999) zeigt in seinen Analysen, daß enge Beziehungenzwischen den erzielten Testleistungen und den Lerngelegenheiten (als "opportunity tolearn" bezeichnet) bestehen. Dies impliziert, daß die Testergebnisse um so besser sind, jedichter ein Test am realisierten Curriculum ist. Weiter hat Wolfe in seinen Analysenaufgezeigt, daß die Schwierigkeit von Items in kulturell verwandten Ländern - Z.B. denangelsächsischen Ländern - stark korrelieren, in kulturell sehr unterschiedlichen Län­dern wird die Schwierigkeit von Items jedoch sehr unterschiedlich eingestuft. Damitstellt sich die Frage, ob das Problem der adäquaten Berücksichtigung der Curricula sovieler Länder aus sehr unterschiedlichen Kulturkreisen überhaupt lösbar isr',

(3) Perspektive der inhaltlichen Präzisierung der zu messenden Konstrukte

Zunächst zum Problem der Eindimensionalität der zu messenden Fähigkeitsdimension,d.h. der Annahme, daß die Tests nur eine einzige latente Fähigkeitsdimension, hier ma­thematische Fähigkeit, messen. Aufgrund von Kritik an dieser Annahme wurden ver­schiedene Faktorenanalysen durchgeführt, die zu folgenden Ergebnissen führten: Kno­cheILind (2000) stellen fest, daß die TIMSS-Daten ersichtlich mehrere Faktoren abtes­ten, wobei jedoch ein Faktor bei weitem am bedeutendsten ist. Sie halten daher appro­ximativ eine eindimensionale Beschreibung der TIMSS-Daten für möglich. Am Max­Planck-Institut für Bildungsforschung wurden ebenfalls Faktorenanalysen fUrdie einzel­nen in TIMSS abgetesteten Themengebiete durchgeführt, dabei ließen sich die unter­schiedlichen mathematischen Sachgebiete wie Algebra oder Geometrie nicht durchFaktorenanalysen trennen. Köller (1998) schließt daraus: "Die Ergebnisse deuten m.E.darauf hin, daß im Mathematik- wie auch im Fremdsprachenunterricht offenbar nicht

I So weist u.a. Sawada (1999) darauf hin, daß die TIMSS-Items deutlich stärker das japanischeCurriculum abbilden als dies international der Fall ist.2 Auf das Problem der adäquaten Übersetzung von Items, das noch nicht als gelöst angesehenwerden kann, möchte ich hier nicht eingehen und verweise dazu auf die entsprechenden Ausfiih­rungen bei van der Linden (1998) und Ercikan (1998).

Page 8: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

178 G. Kaiser

einzelne Teilfertigkeiten oder -fähigkeiten sondern ganze Fähigkeitssyndrome trainiertwerden, so daß in empirischen Untersuchungen Teilkomponenten analytisch nicht trenn­bar sind." (S. 89f)

McKnight und Schmidt' äußern auf der Basis von umfangreichen Untersuchungen derTIMSS-Daten die Vermutung, daß das TIMSS zugrundeliegende methodologische Vor­gehen die Erfassung mathematischer Einzelfähigkeiten gar nicht erlaubt und insbesonde­re nicht in der Lage ist, die Auswirkungen curricularer Differenzen zu erfassen. Siekommen in ihren Analysen zu der Abhängigkeit der TIMSS-Ranglisten von den curri­cularen Schwerpunktsetzungen der beteiligten Länder, der Art der Items und den ver­schiedenen mathematischen Themengebieten zu folgenden Ergebnissen: "Comprehensi­ve, highly aggregated achievement measures (for example, Mathematics) have beenshown unlikely to produce striking variations in student attainment. Country ranks ontotal scores have been seen to be relatively robust to changes in test content, even chan­ges directed at greater curricular relevance. Unfortunately, other analyses suggest thatthis robustness is likely a consequence of high levels of aggregation and of broad, shal­low domain sampling." (Schmidt/Jakwerth/McKnight, 1998, S. 523)Folgt man dieser Argumentation, dann sind die eben referierten Ergebnisse zur Eindi­mensionalitätsannahme bzw. zur Annahme von Fähigkeitssyndromen Produkt der sol­chen Studien zugrundeliegenden Forschungsmethodologie.Insgesamt ist allerdings festzustellen, daß - selbst wenn von der Eindimensionalität desKonstrukts ausgegangen werden könnte - die inhaltliche Frage nach wie vor ungeklärtbleibt, welche Fähigkeiten unter dieses Fähigkeitssyndrom zu subsumieren sind. Fakto­renanalysen können per se zu keinen inhaltlichen Interpretationen dessen führen, wasgetestet wird.

In der Darstellung der Grundzüge der probabilistischen Testtheorie wurde aufgezeigt,daß eine inhaltliche Theorie nötig ist, die das Verhältnis zwischen dem latenten Merkmalund dem beobachtbaren Indikator klärt, die die verwendeten Konstrukte wie ,,mathema­tische Fähigkeiten" oder ,,mathematical literacy" inhaltlich präzisiert. Solche Theorienexistieren derzeit noch nicht, ebensowenig wie ein Konsens innerhalb der Mathematik­didaktik, was unter ,,mathematical literacy" oder mathematischer Grundbildung zu ver­stehen ist. In der Darstellung von BaumertlLehmann et al. (1997) wird ein solcher Kon­sens postuliert, es wird von ,,mathematischer Literalität" gesprochen, allerdings ohnetiefergehende Präzisierungen.Die Entwicklung solcher Basistheorien kann nur durch fachdidaktische Analysen ge­leistet werden, die einen inhaltlichen Zusammenhang zwischen den beobachteten Vari­ablen und dem zugrundeliegenden Konstrukt herstellen und diese Fähigkeitskonstruktein empirischen Detailanalysen inhaltlich füllen. Dabei muß die Mathematikdidaktik - alsinhaltliche Bezugsdisziplin - solche Basistheorien vor der Entwicklung von Tests bereit­stellen, um zu erreichen, daß die Items nach inhaltlichen und nicht nach meßtheoreti­sehen Anforderungen ausgewählt werden. In allen großen internationalen Vergleichsun­tersuchungen der letzten Jahre dominierten in der letzten Instanz die meßtheoretischenAnforderungen über inhaltliche Aspekte bei der Itementwicklung, die Bezugsdisziplinen

3 McKnight und Schmidt waren beide an zentraler Stelle mit der Durchführung von SIMS undTIMSS in den USA beteiligt.

Page 9: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 179

konnten jeweils erst nach der Durchführung der Tests die vorliegenden Daten interpre­tieren mit all ihren inhaltlichen und formalen Unzulänglichkeiten.

Abschließend möchte ich noch kurz einige Forderungen darstellen, die Schmidt/­Jakwerth/McKnight (1998) als Konsequenz ihrer Analysen für einen angemessen Um­gang mit großen internationalen Vergleichsstudien aufstellen: Sie fordern die Berück­sichtigung größerer stofflicher Tiefe anstelle breiter und damit notwendigerweise ober­flächlicher Berücksichtigung mathematischer Themengebiete. Des weiteren warnen sievor hochaggregierten Daten, die sie prinzipiell fiir verzerrend halten; sie schreiben:"High levels of aggregation are fundamentally distorting. They are prone to misleadinglysimplistic interpretations that misguide educational policy." (S. 524) Ferner plädieren siefiir die Berücksichtigung curricularer und bildungsbezogener Daten zu den Lemmög­lichkeiten innerhalb der beteiligten Länder, was ggf. den Verzicht auf große, globaleBeschreibungen erzwingen und eher kleinere, inhaltsbezogene Beschreibungen ermögli­chen würde. "Content truly does make a difference, especially in the search for relevantempirical findings to effectively guide educational policy." (S. 525)

1.4. Reflexion der Möglichkeiten

Im folgenden setze ich mich nun mit den Möglichkeiten quantitativ-statistischer interna­tionaler Vergleichsuntersuchungen auseinander, die in Fülle vorhanden sind, wenn dieoben skizzierten Einschränkungen und Relativierungen berücksichtigt werden. Diesbedeutet insbesondere einen Verzicht auf so allgemeine Aussagen, wie sie in dem skiz­zierten Beispiel zu den Leistungen der deutschen Jugendlichen gegeben werden, und dieBerücksichtigung der eingeschränkten Gültigkeit der Aussagen. Global gesehen könnensolche Vergleichsstudien einen großen Beitrag zur Entwicklung empirisch abgesicherterVeränderungsvorschläge des Mathematikunterrichts leisten.Dies soll in drei Richtungen detailliert werden: Solche Studien sind geeignet,• Defizite und Stärken des Mathematikunterrichts einzelner Länder aufzuzeigen;• Zusammenhänge zwischen dem Curriculum eines Landes und den erzielten Leis­

tungen zu verdeutlichen;• allgemeine Zusammenhänge wie z.B. die Frage der Geschlechtsabhängigkeit ma­

thematischer Leistungen zu analysieren.Dazu sind fachdidaktisch orientierte Analysen nötig, die sich nicht auf die Gesamtergeb­nisse beschränken, sondern Einzelitems bzw. Gruppen von Items berücksichtigen.

Zunächst zum ersten Aspekt, dem Aufweis der Defizite und Stärken des Mathematik­unterrichts eines Landes: Von verschiedenen mathematikdidaktischen Arbeitsgruppenz.B. Neubrand/Neubrand/Sibberns (1998) oder Blum/Wiegand (1998) wurden Detail­analysen der TIMSS-Daten fiir die Sekundarstufe I durchgeführt, Diese Analysen, indenen die Lösungshäufigkeit von Einzelitems der deutschen Lernenden mit dem interna­tionalen Durchschnitt verglichen wurden, weisen daraufhin, daß deutsche Lernende eherdann Schwierigkeiten haben, eine Aufgabe zu lösen• wenn eine flexible Verbindung über mehrere Sachgebiete hinweg erforderlich ist;• wenn bei der Problemlösung mehrere Schritte miteinander zu kombinieren sind;• wenn der Umgang mit Ungewohntem verlangt wird.Die deutschen Lernenden haben ihre Stärken hingegen bei

Page 10: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

180 G. Kaiser

• einfachen algorithmischen Verfahrensweisen;• bei der Reproduktion von Faktenwissen;• bei einschrittigen, mittels Alltagskonzeptionen lösbaren Aufgaben.Gründe für die festgestellten Stärken und Schwächen deutscher Lernender können nichtdurch eine weitere Analyse der Daten der Leistungsstudie gefunden werden, sondernmüssen auf unterrichtsbezogene Vergleichsstudien zurückgreifen, wie Z.B. die TIMSS­Videostudie. Solche Studien weisen u.a. darauf hin, daß im deutschen Mathematikunter­richt die Ausführung von Kalkülen und von schematischen Lösungsverfahren dominiert,daß Realitätsbezüge eher selten hergestellt werden und aktives, selbständiges Problemlö­sen nur selten vorkommt. Diese Studien können Erklärungshypothesen für die in dendidaktisch orientierten Analysen deutlich gewordenen Defizite der deutschen Lernendenliefern, auf deren Basis dann Anregungen zur Veränderung des deutschen Mathematik­unterrichts gewonnen werden können. So erscheinen unterrichtliche Veränderungenu.a. in folgenden Bereichen nötig:• der hohen Bedeutung von Kalkülen sowie von routinemäßigen Lösungen von Stan­

dardaufgaben im Unterricht;• den fehlenden Verbindungen mathematischer Begriffe mit Situationen aus Alltag

und Umwelt.Diese Forderungen sind in der didaktischen Literatur wohlbekannt und wurden bereitsvor solchen Analysen formuliert, Der Fortschritt gegenüber rein nonnativ fomuliertenAnsätzen ist dahingehend zu sehen, daß nun detailliert bekannt ist, wo die Stärken undSchwächen der Lernenden liegen und daher fundierte, empirisch abgesicherte Verände­rungsvorschläge entwickelt werden können. Allerdings ist zu berücksichtigen, daß dieseAnalysen nur Aussagen derart erlauben, wie: ,Deutsche Lernende haben Probleme beiNichtstandard-Aufgaben, was vermutlich - als ein Faktor unter anderen - durch die hoheBedeutung solcher Standardaufgaben im deutschen Mathematikunterricht verursacht ist.Bei einer entsprechenden Veränderung des Unterrichts sind Verbesserungen der Leis­tungen der deutschen Lernenden in einem gewissen Umfang zu erwarten.' Stärkere Aus­sagen lassen diese eben skizzierten Analysen nicht zu, da zwischen den Unterrichtsbeo­bachtungen der qualitativen Studien und den didaktischen Detailanalysen keine Kausal­beziehungen bestehen. Dies ist für pädagogische Prozesse in der Regel ein Allgemein­platz, wird jedoch in vielen pädagogischen Argumentationen nicht berücksichtigt (siehedazu auch die grundlegenden Ausführungen von Ramseier, 1997).

Nun zum zweiten Aspekt, dem Zusammenhang zwischen dem Curriculum eines Lan­des und den erzielten Leistungen: McKnight/Valverde (1999) haben Detailanalysen derTIMSS-Daten für die Themengebiete Geometrie und Algebra durchgeführt, die curricu­lare Unterschiede zwischen den einzelnen Ländern berücksichtigen. Ihre Ergebnisseweisen auf folgendes hin:• Der Zeitpunkt und die Dauer der Behandlung geometrischer Themengebiete beein­

flussen die Leistungen bei geometrischen Sachverhalten im Rahmen mathemati­. scher Grundbildung positiv, d.h. frühere und längere Behandlung geometrischerSachverhalte führt zu besseren Leistungen.

• In der Algebra ist die Situation komplexer: So korrelieren hohe Leistungen in derAlgebra positiv mit der Dauer ihrer Unterrichtung und negativ mit einem frühenZeitpunkt des Beginns des Unterrichts. McKnight/Valverde (1999) schließen dar­aus, daß ein Balanceakt zwischen der Bereitstellung ausreichender Unterrichtungs­dauer und der nicht zu frühen Behandlung algebraischer Themengebiete nötig ist.

Page 11: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 181

Die in der Ergänzungsstudie zu TIMSS durchgeführten Schulbuch- und Curriculumana­lysen machen deutlich, daß nicht nur im Zeitpunkt der Behandlung verschiedener ma­thematischer Themen, sondern auch in der Gewichtung der Themen, der Anzahl derbehandelten Themengebiete große Unterschiede zwischen den Ländern bestehen. DieseUnterschiede sollen in noch durchzuführenden Analysen mit den Ergebnissen der Leis­tungsstudie in Beziehung gesetzt werden und könnten damit die Entwicklung vonHypothesen zur Erklärung der Leistungsunterschiede ermöglichen. Auf dieser Basis sinddann Vorschläge zur Veränderung von Schulbüchern und Curricula möglich, dieempirisch abgesichert sind und nicht im wissenschaftsfreien Raum erfolgen.

Nun zum dritten Aspekt, der Analyse allgemeiner Zusammenhänge, die die TIMSS­Studie ermöglicht: Dieser Aspekt wird an der Frage der Geschlechtsabhängigkeit ma­thematischer Leistungen dargestellt. Die Ergebnisse der TIMSS-Leisttmgsstudie fürdie drei Populationen machen deutlich, daß sich ab der Pubertät die Leistungen der Ge­schlechter auseinander entwickeln. So sind in den Grundschultests keine geschlechtsspe­zifischen Unterschiede erkennbar: In einigen Ländern erzielten die Mädchen bessereLeistungen, in anderen die Jungen. In den Jahrgangsstufen 7 und 8 zeigen sich in vielen,aber noch nicht in allen Ländern bedeutsame Unterschiede zugunsten der Jungen, Imoberen Sekundarbereich treten in fast allen Ländern signifikante Leistungsunterschiedezugunsten der männlichen Jugendlichen auf.Bleibt man zunächst auf der Ebene der globalen Testergebnisse, weisen diese Resultatedarauf hin, daß die geschlechtsspezifischen Leistungsunterschiede jedenfalls nicht bio­logisch bestimmt sein können.Berücksichtigt man nun die von TIMSS für die Oberstufe gesondert durchgeführte Un­tersuchung affektiver Aspekte, in der deutliche geschlechtsspezifische Unterschiedeauftraten, oder Ergänzungsstudien, wie sie z.B. in der Schweiz durchgeführt wurden,können die geschlechtsspezifischen Leistungsunterschiede in einem ersten Ansatz inter­pretiert werden. So hat eine Reihe früherer Untersuchungen auf die große Bedeutungsozialisationsbezogener Faktoren für die Ausprägung geschlechtsspezifischer Unter­schiede in den Mathematikleistungen hingewiesen, die insbesondere ab der Pubertät mitder Verfestigung von Vorstellungen zur Geschlechterrolle bedeutsam werden. In derTIMSS-Oberstufenstudie äußerten die männlichen Jugendlichen u.a. ein stärkeres Ver­trauen in die eigene mathematische Leistungsfähigkeit, ein größeres Interesse an Ma­thematik und eine höhere Bereitschaft zum Ergreifen mathematikbezogener Berufe. Dievon Keller (1997) durchgeführte Studie in der Schweiz betont die Rolle des Selbstver­trauens in die Mathematik und die Stereotypisierung von Mathematik als männlicheDomäne durch die Lehrpersonen als Erklärungsansätze für die Geschlechterdifferenz inden mathematischen Leistungen,In eigenen Analysen der Daten aus dem unteren Sekundarbereich, in denen wir ge­schlechtsspezifische Unterschiede auf der Einzelitemebene für einzelne Länder unter­sucht haben, sind wir zu folgenden Ergebnissen gelangt. Es ist kein einheitliches Musterfür Leistungsunterschiede erkennbar; weder dominieren die Jungen bei Problemlöseauf­gaben oder bei komplexeren Aufgaben, die auf mehrschrittigen Algorithmen beruhen,noch die Mädchen bei stärker algorithmisch orientierten Aufgaben, wie dies früher in derLiteratur immer wieder vermutet wurde. Berücksichtigt man die einzelnen getestetenThemengebiete, so zeigen sich bei jedem Themengebiet andere Muster. Im folgenden fürDeutschland einige Beispiele: So erzielten die Mädchen in der Algebra bei Aufgaben,die hauptsächlich ein begriffliches Verständnis testeten, bessere Leistungen, ebenso wie

Page 12: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

182 G. Kaiser

bei Problemlöseaufgaben, währenddessen in der Arithmetik die Jungen bei diesen Auf­gabenarten bessere Leistungen erzielten. Bei Aufgaben, die die Anwendung einfacher,einstufiger Algorithmen verlangten, erzielten in der Arithmetik die Mädchen bessereLeistungen, im Bereich Proportionalität die Jungen. Diese Untersuchungen machendeutlich, daß sehr allgemeine Vermutungen über geschlechtsspezifische Unterschiedebei Problemlöseaufgaben oder algorithmisch orientierten Aufgaben - zumindest mitdiesem Untersuchungsdesign - empirisch nicht belegbar sind. Berücksichtigt man zumeinen die Ergebnisse weiterer Länder, in denen andere Muster bei geschlechtsspezifi­schen Unterschieden deutlich werden, zum anderen die großen Unterschiede zwischenden Ländern, die wesentlich bedeutsamer sind als die zwischen den Geschlechtern, dannlegen unsere Analysen folgende Schlußfolgerung nahe: Geschlecht ist keine bestimmen­de Kategorie für die Mathematikleistung, vielmehr sind die in den einzelnen Nationendominierenden Lernkulturen erheblich bedeutsamer für die Mathematikleistungen (fürDetails siehe Kaiser/Steisel, 2000).

2. Möglichkeiten und Grenzen qualitativer internationaler Vergleichs-untersuchungen

Die Analysen vib Möglichkeiten und Grenzen stärker qualitativ orientierter Vergleichs­studien erfolgen an zwei Ergänzungsstudien zur TIMSS-Hauptstudie, der TIMSS Video­studie und der TIMSS Fallstudie, die in drei Ländern (USA-Japan-Deutschland) durch­geführt wurden. Zunächst werden kurz ausgewählte Ergebnisse der TIMSS­Ergänzungsstudien vorgestellt, bevor ihre Analyse unter methodologischen Aspektenerfolgt.

2.1. Ausgewählte Ergebnisse der TIMSS Videostudie und der TIMSS Fallstudie

Zunächst zur TIMSS Videostudie ("Videotape Classroom Study"), auf die sich sowohlin der öffentlichen als auch in der wissenschaftlichen Diskussion häufig bezogen wirdund die insbesondere in den USA für beträchtliche öffentliche Aufregung gesorgt hat.Die TIMSS Videostudie ist explizit im Spannungsfeld von quantitativen und qualitativenMethoden angesiedelt (siehe Z.B. Jacobs/Kawanaka/Stigler, 1999), d.h. sie intendiertUnterrichtsbeobachtungen, in repräsentativen Stichproben verschiedener Länder zuvideographieren. Stigler et al. (1999) schreiben über die Studie: "It is the first to collectvideotaped records of classroom instruction - in any subject - from national prob abilitysamples." (S. v) Im Detail formulieren Stigler et al. (1999) als Ziel der Studie, neben dermethodologischen Überprüfung der Tragfähigkeit des Vorgehens für zukünftige großangelegte Videostudien und dem Vergleich der Lehrmethoden mit in aktuellen Reform­dokumenten formulierten Lehrmethoden, folgendes: "Develop objective observationalmeasures of classroom instruction to serve as valid quantitative indicators, at anationallevel, ofteaching practices in the three countries." (S. v)In Teilstichproben der TIMSS-Hauptstudie wurden insgesamt 231 Mathematikstundenim Unterricht der 8. Klasse mit der Videokamera aufgenommen, in den USA 81 Stun­den, in Japan 50 und in Deutschland 100 Stunden. Die Aufnahmen wurden transkribiert,ins Englische übersetzt und anschließend nach verschiedenen Aspekten wie Interaktions­struktur der Stunde, mathematischer Inhalt der Stunde, Art der behandelten Aufgabenanalysiert.

Page 13: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 183

Hauptergebnis der Studie ist der Aufweis, daß Lehren und Lernen in verschiedenenKulturen unterschiedlichen Mustern - als "Scripts" bezeichnet - folgt: So ist eine ameri­kanische Mathematikstunde in der Regel wie folgt gegliedert: Nach einer Wiederho­lungsphase - einer Aufwärmaktivität oder dem Hausaufgabenvergleich - stellt die Lehr­person ein Beispielproblem und demonstriert kurz, wie das Problem zu lösen ist. An­schließend üben die Lernenden in Einzelarbeit die Lösungsmethode an einer Reihe ähn­licher Probleme. Abschließend erfolgt ein Ergebnisvergleich und es werden ähnlicheProbleme als Hausaufgabe gestellt, die meist noch in der Stunde begonnen werden. Ja­panischer Mathematikunterricht folgt deutlich anderen Mustern (als "Pattern" bezeich­net): Nach einer kurzen Wiederholung der letzten Stunde, meist durch die Lehrperson,stellt diese das mathematische Problem des Tages. Die Lernenden arbeiten anschließendeinzeln oder in Gruppen an der Lösung des Problems, wobei möglichst viele verschiede­ne Lösungswege gefunden werden sollen. Diese verschiedenen Lösungswege werdendann von einzelnen Lernenden oder der Lehrperson der gesamten Lemgruppe vorge­stellt. Die Unterrichtsstunde endet mit einer kurzen Zusammenfassung der zentralenAspekte der Stunde durch die Lehrperson. Deutscher Unterricht ist entsprechend derVideo studie nochmals deutlich anders strukturiert: So beginnt die Lehrperson den Unter­richt mit einer kurzen Wiederholungsphase, häufig in Form des Vergleichs der Hausauf­gaben, dann erfolgt die Präsentation einer neuen Situation oder eines neuen Themas.Anschließend werden Problemlösungen entwickelt, wobei die Lehrperson meist dieLernenden durch eine Folge von Frage-Antwort-Sequenzen sorgfältig leitet. Die neueingeführten Lösungsmethoden werden abschließend gemeinsam oder individuell anähnlichen Problemen geübt. (Für eine genaue Beschreibung siehe u.a. Hie­bertJStigler/Manaster, 1999.)

Die TIMSS Fallstudie ("Case Study") - eine weitere Ergänzungsstudie zur Hauptstudie ­ist als ethnographische Fallstudie angelegt und hauptsächlich qualitativ orientiert. Siewurde ebenfalls in den drei Staaten USA, Deutschland und Japan durchgeführt und zieltauf tiefer liegende Erkenntnisse über die alltägliche Erziehungspraxis in den drei Län­dern sowie deren Wahrnehmung und Einschätzung durch die Lehrenden, Eltern undLernenden. Stevenson/Nerison-Low (1998) benennen im zusammenfassenden wissen­schaftlichen Abschlußbericht folgende Foci der Studie, die durch das U.S. Department ofEducation festgelegt wurden: "to collect qualitative data which would comp1ement andamplify the quantitative information obtained through the main Third International Ma­thematics and Science Study. The topics investigated in the Case study Project were:education standards, dealing with differences in ability, the place of school in adoles­cents' lives, and the training and working conditions of teachers." (S. 1) Die TIMSSFallstudie hat in Deutschland mehr als 366 Stunden Interviews mit 199 Eltern, Lehrper­sonen, Schülerinnen und Schülern, Schulleitungen und in der Administration Tätigendurchgeführt, in Japan 494 Interviewstunden mit 247 Personen und in den USA 542Interviewstunden mit 271 Personen. Zusätzlich wurden 255 Stunden Mathematik- undNaturwissenschaftsunterricht beobachtet. Die Interviews wurden transkribiert, ins Engli­sche übersetzt und nach obigen Aspekten analysiert. Stevenson (1999) weist u.a. auffolgendes zentrale Ergebnis der Studie hin: Das japanische Bildungssystem weist ingroßem Umfang solche Charakteristika auf, die als einflußreich für hohe mathematischeLeistungen angesehen werden, nämlich: "Japan is characterized by the high standardsand great importance it places on education, and by its highly involved parents, versatileand excellent teachers, and highly motivated students. Such conditions exist in some

Page 14: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

184 G. Kaiser

sections ofthe United States (especially in advantaged neighbourhoods) and in Gennany(notably in many of the Gymnasium) but for the most part they appear to share fewer ofthe positive attributes involved in academic success evident in Japan." (S. 120)

2.2. Diskussion der Probleme und Grenzen solcher Studien

Die folgende Auseinandersetzung mit den Problemen und Grenzen qualitativ orientierterVergleichsstudien stützt sich insbesondere auf die methodischen Ausführungen in denwissenschaftlichen Abschlußberichten beider Studien (siehe Stigler et al., 1999; Steven­sonlNerison-Low, 1998; LeTendre et al., 1998).Es ist zu berücksichtigen, daß die aufgezeigten Probleme und Grenzen - im Gegensatz zudenen der quantitativen Studien - nicht prinzipieller Natur, sondern stark durch die An­lage und Durchfilhrung dieser Studien bedingt sind. Die Analyse erfolgt auf zwei Ebe­nen:

(1) Orientierung an Methodenstandards qualitativer Forschung

Die beiden Studien orientieren sich bzgl. zentraler Aspekte nicht an den im Rahmenqualitativer Forschung entwickelten Methodenstandards; dies soll im folgenden an zent­ralen Aspekten qualitativer Forschung aufgezeigt werden:So erfolgt in der TIMSS Fallstudie kein systematischer Beleg der Aussagen, vielmehrwerden die Ergebnisse der Studie an Beispielaussagen veranschaulicht, ohne daß eineÜberprüfung der empirischen Basis möglich ist. Dies ist um so problematischer, da nichttheoretisch diskutiert und nicht ausgeführt wird, wie mit "abweichenden Fällen" umge­gangen wird bzw. wie der der qualitativen Forschung inhärenten Gefahr der "selektivenPlausibilisierung", d.h. der alleinigen Verwendung der als typisch angesehenen Aus­schnitte aus den Beobachtungsprotokollen (siehe Flick, 1995, S. 239f), begegnet wird.Der "untypische" bzw. der "abweichende" Fall spielt bekanntermaßen in der qualitativorientierten Forschung eine zentrale Rolle und ermöglicht häufig unerwartete Einsichten.Des weiteren ist qualitative Forschung durch das Bemühen um ein möglichst detailrei­ches, multiperspektivisches Bild des zu erschließenden Wirklichkeitsausschnittes ge­kennzeichnet. "Dabei vermeidet sie so weit wie möglich, bereits durch rein methodischeVorentscheidungen den Bereich möglicher Erfahrungen einzuschränken ..." (v. Kardoff,1995, S. 4). In der TIMSS Videostudie finden sich kaum Diskussionen der Einschrän­kungen der Wahrnehmung der Realität bzw. Reflexionen darüber, wie mit diesen Re­striktionen (die natürlich immer nötig sind) umgegangen wird. Dabei liegen die Ein­schränkungen bei der TIMSS Videostudie geradezu auf der Hand: Es wurde nur miteiner Kamera gefilmt; die Kamera war auf die Lehrperson gerichtet und erfolgte aus demBlickwinkel des "idealen Schülers"; es wurden nur Einzelstunden erfaßt. Zum anderensind die ergänzend erhobenen Daten mit Fragebögen an die beobachteten Lehrpersonenkaum geeignet, diese auf die Lehrperson und deren subjektiven Wahrnehmung des Un­terrichts eingeschränkte Perspektive zu erweitern. Dies geht einher mit dem Fokus aufeher für quantitativ orientierte Designs nötige "technische" Ausführungen wie die Be­schreibung der Richtlinien für die Kameraführung, die sehr ausführlich erfolgt. Auch dieKodierung der Videos orientiert sich stark an quantitativen Aspekten wie z.B. Anteilverschiedener unterrichtlicher Aktivitäten, Anzahl von Störungen von außerhalb, Ver­teilung der Redezeit. Aus didaktischer Perspektive interessierende Aspekte, z.B. in derPhase "Teacher Talk/Demonstration", welcher Art die Darstellung der Lehrperson warund welche Funktion sie verfolgte (nämlich inhaltliche Zusammenfassung am Stunde-

Page 15: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 185

nende oder Darstellung des Lösungsalgorithmus), wurden nicht analysiert (was auch vonBeteiligten der Studie als Einschränkung beklagt wird, siehe Shimizu, 1999, S. 193).In der TIMSS Fallstudie, die beansprucht ethnographisch vorzugehen, erfolgt zumindestin Japan keine wirkliche Integration der Forscherinnen und Forscher in das Feld, wie esqualitative Forschung verlangt: So wird der sensible Bereich der Annäherung an dasForschungsfeld, der Systematisierung des Fremdenstatus und der Dialektik von Fremd­heit und Vertrautheit (siehe u.a. Flick, 1995, S. 154f) nicht reflektiert. Vielmehr findensich nur kurze Hinweise dazu, daß in Japan die Kontakte zu den Schulen über das Japa­nese National Institute for Educational Research hergestellt wurden, daß alle Interviewsim Büro des Schuldirektors stattfanden unter Anwesenheit des Direktors oder stellver­tretenden Direktors. Die Problematik der Verzerrung der Ergebnisse wird eher knappwie folgt abgehandelt: "It is unlikely therefore, that critical perspectives were adequatelyrepresented in this research." (LeTendre et al., 1998, S. 24t Berücksichtigt man, daßdas japanische Curriculum - nach den Ausführungen in den Fallstudien - einen starkenVerbindlichkeitscharakter hat und u.a. Begriffsverständnis und Problemlösefähigkeitenstark betont, drängt sich die Frage der Aussagekraft z.B. folgender Ausführungen vonKinney/Zusho (1999) auf: "Yet, in interviews teachers repeatedly stressed their goals offacilitating conceptual understanding, promoting multiple problem solving strategies,and linking classroom learning to generallife experience." (S. 189).

(2) Bezug auf qualitativ orientierte Theoriekonzepte

In beiden Studien erfolgt kein Bezug auf im Rahmen qualitativ orientierter Forschungenentwickelter Theoriekonzepte; hier sei exemplarisch auf Theorieansätze verwiesen, wiesie die Grounded Theory bereitstellt oder auf Ansätze der Typenbildung, die auf MaxWebers Begriff des Idealtypus zurückgehen (für einen umfassenden Überblick siehe Z.B.Kelle, 1994). Das für qualitative Forschung zentrale Problem empirisch begründeterTheoriebildung, das sich für qualitative Forschung in deutlich anderem Licht stellt alsfür quantitative Forschung, wird in keiner der beiden Studien ernsthaft reflektiert. Sowird der für die TIMSS Videostudie zentrale Begriff der "Lesson scripts" in keinemBeitrag auf einer theoretischen Basis präzisiert, auch im wissenschaftlichen Abschlußbe­richt der Studie nicht. Shimizu "(1999) beschreibt diesen zentralen Begriff recht schlichtwie folgt: "In the TIMSS Video Study a concept of 'lesson script' was proposed as acommonly accepted and predictable way of structuring a classroom session and sequen­ces its instructional activities." (S. 192)Aufgrund des fehlenden Bezugs auf qualitativ orientierte Theoriekonzepte werden zweifür qualitative Forschung zentrale Fragen nicht angemessen behandelt, nämlich dasProblem der Verallgemeinerung am Einzelfall gewonnener Erkenntnisse und das Prob­lem der Typizität der gewonnenen Erkenntnisse. In der Fallstudie finden sich keine A­nalysen zum Problem der Verallgemeinerung, vielmehr schlußfolgern Steven­son/Nerison-Low (1998) am Ende ihres Berichts: "After analyzing the transcriptions ofthe interviews, conversations, and observations and reading the extensive field notes ofthe researchers, we believe that there are sufficient commonalities among the reports ofthe various researchers to constitute reliable descriptions of the conditions that exist

4 Diese einschränkenden und die Ergebnisse deutlich relativierenden Hinweise finden sich aller­dings in den auf dem Abschlußbericht basierenden wissenschaftlichen Beiträgen in einschlägigenZeitschriften und Büchern nicht mehr.

Page 16: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

186 G. Kaiser

within the three countries." (S. 142)Die TIMSS Videostudie behandelt - aufgrund ihrer starken Orientierung auf quantitativeAspekte - das Problem mit statistischen Methoden der Signifikanzprüfung, was - da essich (nach Meinung der Autoren) um repräsentative Stichproben handelt - als legitimangesehen wird. In dem Abschlußbericht zur Studie wird jedoch deutlich, daß die japani­sche Stichprobe keine Zufallsstichprobe darstellt: So halbierte das Japanese NationalInstitute for Educational Research die angepeilte Stichprobe von 100 Stunden auf 50Stunden mit dem Hinweis auf die geringe Variabilität im japanischen Unterricht. Desweiteren durften - falls es in der ausgewählten Schule mehrere achte Klassen gab - dieVideoaufnahmen nicht in der Klassen durchgeführt werden, die an den Leistungsteststeilgenommen hatte. Vielmehr bestimmte der Direktor der Schule die aufzuzeichnendeKlasse und hielt die Begründung für diese Auswahl geheim: "It should be kept in mindthat Japanese principals exercised discretion in the choice of classrooms to be videota­ped." (Stigler et al., 1999, S. 12) Auch die amerikanische Stichprobe ist nach Aussagenvon Stigler et al. (1999, S. 10) als problematisch anzusehen, da viele ursprünglich gezo­gene Schulen die Teilnahme verweigerten'. Auch die geforderte Breite in den mathema­tischen Themengebieten ließ sich in der japanischen Stichprobe nicht realisieren, so daßdie offizielle Stichprobe nur Geometriestunden enthält. Zusätzlich wurden daher nochfünf Algebra-Stunden im darauffolgenden Schuljahr aufgenommen. Damit sind nach denüblichen Methodenstandards auf quantitativen Methoden beruhende Schlußverfahrennicht zulässig.Des weiteren wird in keiner der beiden Studien das zentrale Problem der Typizität deraufgezeichneten Unterrichtsstunden bzw. der geführten Interviews intensiv reflektiert.So werden zwar in der TIMSS Video studie die beteiligten Lehrpersonen anschließendum eine Bewertung und Einschätzung ihrer Stunde gebeten, Einzelstunden ohne Bezugzum vorangegangenen bzw. nachfolgenden Unterricht wurden als suspekt angesehen, dieLehrpersonen wurden vorweg gebeten, normalen Unterricht zu halten. Da jedoch alleLehrpersonen vorweg über den Zeitpunkt der Videoaufnahmen informiert waren, dieLehrpersonen in Japan vom Schuldirektor ausgewählt waren, wären m.E. zusätzlicheabsichernde Überlegungen zur Verallgemeinerbarkeit der aufgezeichneten Stunden nötiggewesen. Die folgende Aussage von Stigler et al. (1999) kann nicht als ausreichendeReflexion des Problems angesehen werden: "We may, therefore, see a somewhat ideali­zed version of what the teacher normally does in the classroom." (S. 6) Berücksichtigtman die starken administrativen Eingriffe sowie den hohen Verbindlichkeitscharakterdes nationalen Curriculums in Japan sowie die weite Verbreitung von Plänen für sog.Beispielstunden ("Sample lessons", vgl. Shimizu, 1999, S. 193) kann aus der Beobach­tung von problemlösendem Unterricht in Einzel- oder Gruppenarbeit in der japanischenStichprobe der Videostudie nicht auf einer gesicherten methodischen Basis geschlossenwerden, daß dieser Unterricht in Japan die dominierende Unterrichtsform ist. Die Über­tragbarkeit dieser Ergebnisse auf den gesamten japanischen Unterricht wird darüberhinaus auch durch widersprüchliche Ergebnisse der Fallstudie in Frage gestellt, die z.B.die große Bedeutung des Unterrichts im gesamten Klassenverband ("whoIe class tea­ching") betonen (siehe u.a. Kinney/Zusho, 1999). Auch die vergleichenden Analysenvon SIMS und TIMSS, die aufzeigen, daß die japanischen Jugendlichen in TIMSS ihreLeistungen im algorithmischen Bereich gegenüber SIMS verbesserten, aber sich beistärker auf Denkfähigkeiten ausgerichteten Items verschlechterten, legen gewisse Zwei-

5 Diese Einschränkungen werden übrigens nur im Abschlußbericht der Studie erwähnt.

Page 17: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen

fel nahe (siehe Sawada, 1999).

187

Solche methodischen Schwächen sind qualitativen Studien nicht inhärent und können ­zumindest teilweise - vermieden werden, worauf ich abschließend noch kurz hinweisenmöchte. So könnte ein angemessener Theoriehintergrund auf den auf Max Weber zu­rückgehende Ansatz des Idealtypus zurückgegreifen: Idealtypen im Webersehen Sinnesind die Resultate von Isolierung und Überspitzung bestimmter Aspekte konkreter empi­rischer Phänomene, für die die Wirklichkeit keine genauen Beispiele, sondern im bestenFall Annäherungen bieten kann. Damit wird eine Konzeption zur Lösung des Problemsder Verallgemeinerung angeboten, wobei allerdings auch die Einschränkungen der ver­allgemeinerten Aussagen der Studien deutlich werden: Es können keine Aussagen da­hingehend gemacht, daß der deutsche oder der japanische Mathematikunterricht so wiebeschrieben ist. Vielmehr werden Charakterisierungen aus den beobachteten Einzelfäl­len rekonstruiert, die eine idealisierte Wirklichkeit beschreiben, die sich in Reinkultur sonicht findet.

2.3. Auseinandersetzung mit den Möglichkeiten

Die Möglichkeiten qualitativ orientierter Vergleichsstudien, die für mich außer Fragestehen - sehe ich in folgenden drei Bereichen:• Aufweis der Kulturabhängigkeit des Mathematikunterrichts;• Erkenntnis der Stärken und Schwächen des in der eigenen Kultur akzeptierten unter­

richtlichen Ansatzes;• Aufweis der Veränderbarkeit des Unterrichts und damit einhergehend Entwicklung

von Veränderungvorschlägen.

Zunächst zum Aspekt der Kulturabhängigkeit des Mathematikunterrichts: Die be­schriebenen Studien machen deutlich, daß in unterschiedlichen Kulturen unterschiedli­che Arten des Lehrens und Lernens von Mathematik üblich sind. Diese Aussage gehtweit über solche Allgemeinplätze hinaus, daß sich unterschiedliche Länder in verschie­denen Aspekten des Unterrichts wie Stellenwert von Examina oder von Hausaufgabenunterscheiden. Wie in meiner Studie zum deutschen und englischen Mathematikunter­richt deutlich wird, ist bereits in kulturell so verwandten Ländern wie England undDeutschland das dem Mathematikunterricht zugrundeliegende Verständnis mathemati­scher Theorie sehr unterschiedlich. Dies führt zu deutlichen Unterschieden in den ver­mittelten mathematischen Inhalten und der Art der Vermittlung (siehe Kaiser, I999a).Cogan/Schmidt (1999) betonen in ihren Fallstudien zum Mathematikunterricht in sechsLändern, einem Pilotprojekt von TIMSS, die Kulturabhängigkeit der Art des Unterrichtsund der vermittelten Inhalte. Sie schreiben: ,,Although some research has focused uponthe effect of social and cultural settings on the development of mathematical concepts...., the idea that the mathematics encountered in school is essentially the same acrosscountries is probably an idea many people may still hold. Few would expect, for e­xample, a French or Norwegian dialect of mathematics. Mathematics, unlike culturallyembedded subjects such as history and language, is often thought to be acultural. Forexample, many believe ,numeration is numeration' - the concept is the same across allcontexts - but these common expectations are false." (Cogan/Schmidt, 1999, S. 77)

Page 18: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

188 G. Kaiser

Nun zum zweiten Aspekt, der Erkenntnis der Stärken und Schwächen der in der eige­nen Kultur akzeptierten unterrichtlichen Ansätze: Die beschriebenen Studien sindgeeignet, die Art und Weise, wie Unterricht und Erziehung in einer Kultur organisiert ist,in Frage zu stellen. Damit ermöglichen sie einen unvoreingenommenen Blick auf dieStärken und Schwächen des unterrichtlichen Vorgehens, wie es uns bereits seit unserereigenen Schulzeit vertraut ist, wie z.B. die Dominanz des Unterrichts gesprächs im deut­schen Mathematikunterricht, die Betonung einer formal-korrekten Sprache und ähnli­ches. StiglerlPerry (1988) betonen den Beitrag solcher Vergleichsstudien zum besserenVerständnis der eigenen Kultur: "Cross cultural comparison also leads researchers andeducators to a more explicit understanding of their own implicit theories about howchildren leam mathematics. Without comparisons, we tend not to question our own tra­ditional teaching practices and we may not even be aware of the choices we have madein constructing the educational process." (S. 199)

Der dritte Aspekt bezieht sich auf den Aufweis der Veränderbarkeit des Unterrichtsund damit einhergehend die Entwicklung von Veränderungsvorschlägen: Indem deut­lich wird, daß es in anderen Ländern einen anderen Mathematikunterricht gibt, wird dieMöglichkeit in das Blickfeld gerückt, den eigenen Mathematikunterricht zu verändern.Beispiele möglicher Forderungen zur Veränderung des deutschen Mathematikunter­richts, die ich auf der Basis meiner eigenen Studie formuliert habe, sind u.a.: Förderungvon mehr aktivem Mathematiktreiben, Aufbrechen der Regel- und Kalkülorientierung,systematisches Wiederaufgreifen und Vernetzen von Inhalten, Aufbrechen der starkenStellung der Fachsprache als Barriere für Verständnis und Förderung von Kommunikati­onsfähigkeiten, Infragestellung der Dominanz des lehrerzentrierten, gemeinsam erarbei­tenden Unterrichtsgesprächs.Bei diesen Forderungen zur Veränderung des Mathematikunterrichts handelt es sich ­dies ist einschränkend festzustellen - um normativ geprägte Folgerungen aus den Stu­dien, die nicht zwingend sind, vielmehr sind auch andere Folgerungen möglich. Insbe­sondere sind Rückschlüsse derart, daß wenn der Mathematikunterricht im Sinne obigerForderungen verändert wird, sich die Mathematikleistungen im internationalen Ver­gleich verbessern, wissenschaftlich nicht abgedeckt. Kawanaka/Stigler/Hiebert weisendarauf hin, daß aus solchen Vergleichsstudien zwar Anregungen zur Verbesserung deseigenen Mathematikunterrichts gewonnen werden können. Der einfache Transfer vonLehr-Lern-Formen aus leistungsmäßig erfolgreichen Ländern auf andere Länder berück­sichtigt in ihren Augen jedoch nicht die Kulturabhängigkeit des Unterrichts und wirdübergeordneten Lernzielen der Bildung nicht gerecht. Sie formulieren: .Jt is far moreimportant that our students will be given better opportunities to make sense of mathema­tics out of classroom instructions than simply to raise our ranking in international achie­vement tests." (1999, S. 103)

3. Konsequenzen und Alternativen

In der Analyse der Möglichkeiten quantitativ-statistischer Untersuchungen wurde bei derInterpretation der Daten mehrfach auf qualitativ angelegte Begleituntersuchungen Bezuggenommen, ohne die eine inhaltliche Interpretation der Daten nicht möglich gewesenwäre. Statistische Verfahren wie Faktoren- oder Korrelationsanalysen erlauben - wieausgeführt - keine inhaltlichen Interpretationen der aufgezeigten Zusammenhänge. Qua­litativ orientierte Vergleichsstudien haben zwar ihre eigene Dignität, benötigen jedoch -

Page 19: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 189

wenn der als zentral anzusehende Bereich der Leistungen der Lernenden berücksichtigtwerden soll - Bezüge zu quantitativ angelegten Leistungsstudien. Damit wird deutlich,daß internationale Vergleichsstudien, die mehr als nur Ranglisten produzieren wollen,die Erklärungshintergründe für ihre Ergebnisse liefern wollen, eine Integration beiderArten von methodologischen Vorgehen notwendig machen. Dies wurde bei TIMSS nurteilweise geleistet, da nur für den unteren Sekundarbereich die umfangreichen Begleit­untersuchungen wie Videostudie, ethnographisch orientierte Fallstudie, Curriculumana­lysen durchgeführt wurden. Das Fehlen dieser qualitativen Komponente macht u.a. eineInterpretation der Ergebnisse der TIMSS-Oberstufe so schwierig. Auch bei der derzeit inder Durchführung befindlichen OECD-Studie PISA sind - wie aus den veröffentlichtenProjektbeschreibungen hervorgeht - keine qualitativen Ergänzungsstudien vorgesehen(siehe die entsprechenden Dokumente im Internet: www.mpib-berlin.mpg.de/pisa/).Neben der Berücksichtigung von quantitativ-statistischen und qualitativ orientiertenStudien ist die Entwicklung von inhaltlichen Basistheorien zu den zu messenden Kon­strukten durch die angesprochenen Fachdisziplinen - in diesem Fall die Mathematikdi­daktik - dringend nötig.

Abschließend sollen diese kritischen Überlegungen positiv gewendet werden, da m.E.das Anregungspotential internationaler Vergleichsstudien außer Frage steht. TIMSS hatenorm viel Bewegung in die Schullandschaft gebracht, Diskussionen um einen anderenMathematikunterricht initiiert (siehe z.B. Henn, 1999); dies kann und soll nicht in Fragegestellt werden.Ich plädiere jedoch fiir eine Trendwende bei internationalen Vergleichsuntersuchungenweg von immer größeren, komplexeren Vergleichsstudien, die stark methodologischdominiert sind, deren Ergebnisse häufig nur schlecht inhaltlich interpretierbar sind undderen tendenziöse politische Verwendung nicht zu verhindern ist. Ich knüpfe an dieForderung nach Regionalisierung internationaler Vergleichsstudien an, die seit einigenJahren in der einschlägigen Diskussion erhoben wird, und die sich auf Untersuchungenzu den methodologischen Einschränkungen quantitativ-statistischer Untersuchungenstützen, die im ersten Teil des Beitrags dargestellt wurden. Unter der Regionalisierungvon Vergleichsstudien wird die Durchfiihrung von Vergleichsstudien zu Ländern ver­standen, die ein ähnliches Bildungssystem und vergleichbare ökonomische und gesell­schaftliche Voraussetzungen haben, z.B. Untersuchungen innerhalb der mittelamerikani­schen Länder oder innerhalb von Ländern der europäischen Gemeinschaft. In solch klei­neren Studien sind die oben angeschnittenen Probleme leichter lösbar. Des weiterenkönnen in solchen Studien jeweils zu den quantitativen Untersuchungen auch qualitativorientierte Teilstudien durchgeführt werden, die den entsprechenden Interpretationshin­tergrund fiir die Ergebnisse der quantitativ-statistisch orientierten Teilstudien liefernkönnen; damit ist eine Vernetzung von qualitativ und quantitativ orientierten Vergleichs­studien möglich, auf deren Potential bereits mehrfach hingewiesen wurde. Ergebnissesolcher ganzheitlich angelegter empirischer Studien zum Mathematikunterricht sind m.E.geeignet - darauf wurde in dem Beitrag mehrfach hingewiesen -, die schulische Praxisdes Mathematikunterrichts nachhaltig zu verändern.

Insgesamt würden solche regionalisierten, auf eine Integration quantitativ und qualitativangelegter Komponenten basierenden Vergleichsstudien sowohl die Grenzen internatio­naler Vergleichsuntersuchungen als auch ihre Möglichkeiten berücksichtigen, wie sie infolgenden Äußerungen auf den Punkt gebracht werden:

Page 20: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

190---_ ... --_ .._----------

G. Kaiser

Husen, der Organisator der First International Mathematics Study, formuliert: "Compa­ring the outcomes of learning in different countries is in several respects an exercise incomparing the incomparable."Thut und Adams stellen fest: "... to study education weil is to study it comparatively."

Literatur

Baumert.T, & Lehmann, R. et al. (1997). TIMSS - Mathematisch-naturwissenschaftlicher Unter­richt im internationalen Vergleich. Opladen, Leske + Budrich.

Baumert, 1.; Bos, W. & Watermann, R. (1998). TIMSSIIII. Schülerleistungen in Mathematik undden Naturwissenschaften am Ende der Sekundarstufe II im internationalen Vergleich. Berlin, Max­Planck-Institut für Bildungsforschung.

Beaton, A. (1998). Comparing Cross-national Student Performance on TIMSS using DifferentTest Items, In: International Journal ofEducational Research, 29, 529-542.

Beaton, A. et al. (1996). Mathematics Achievement in the Middle School Years. Chestnut Hill,TIMSS International Study Center.

Blum, W. & Wiegand, B. (1998). Wie kommen die deutschen TIMSS-Ergebnisse zustande? In:Blum, W. & Neubrand, M. (Eds.), TIMSS und der Mathematikunterricht, Hannover, Schroedel,28-34.

Cogan, L. & Schmidt, W. (1999). In: Kaiser, Luna, Huntley, 68-85.

Ercikan, K. (1998). Translation Effects in International Assessments. In: International Journal ofEducational Research, 29, 543-553.

Flick, U. (1995). Stationen des qualitativen Forschungsprozesses. In: Flick, U. et al. (Eds.), Hand­buch Qualitative Sozialforschung. Weinheim, Psychologie Verlags Union, 148-173.

Flick, U. (1995). Qualitative Forschung. Reinbek, Rowohlt.

Henn, H.-W. (Ed.) (1999). Mathematikunterricht im Aufbruch. Hannover, SchroedeI.

Hiebert, J.; Stigler, 1. & Manaster, A. (1999). Mathematical Features of Lessons in the TIMSSVideo Study. In: Zentralblatt für Didaktik der Mathematik, 31, 6, 196-201.

Jacobs, J.; Kawanaka, T. & Stigler, J. (1999). Integrating Qualitative and Quantitative Approachesto the Analysis of Video Data on Classroom Teaching. In: International Journal of EducationalResearch, 31, 8, 717-724.

Kaiser, G. (1999a). Unterrichtswirkiichkeit in England und Deutschland. Vergleichende Untersu­chungen am Beispiel des Mathematikunterrichts. Weinheim, Deutscher Studien Verlag.

Kaiser, G. (1999b). Zum Problem der Leistungsmessung. Eine Auseinandersetzung mit ihrenmathematischen, philosophischen und pädagogischen Grundlagen. In: Grünig, B. et al., Leistungund Kontrolle. Weinheim, Juventa, 101-116.

Kaiser, G.; Luna, E. & Huntley, 1. (Eds.) (1999). International Comparisons in Mathematics Edu­cation. London, Falmer Press.

Kaiser, G. & Steisel, T. (2000). Results ofan Analysis ofthe TIMS Study from a Gender Perspec­tive. In: Zentralblatt für Didaktik der Mathematik, 32, 1, 18-24.

Page 21: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

Internationale Vergleichsuntersuchungen 191

Kelle, U. (1994). Empirisch begründete Theoriebildung. Weinheim, Deutscher Studien Verlag.

Keller, C. (1997). Geschlechterdifferenzen: Trägt die Schule dazu bei? In: Moser, U. et al., Schuleauf dem Prüfstand. Chur/Zürich, Verlag Rüegger, 137-180.

Keitel, C. (1998). Was ist das Geheimnis japanischen Mathematikunterrichts? In: mathematiklehren, Heft 90, 13-17.

Kinney, C. & Zusho, A. (1999). From Formal Standards to Everyday Practice of MathematicsLearning: Illustrations from the TIMSS Case Study Project in Japan. In: Zentralblatt für Didaktikder Mathematik, 31, 6, 177-190.

Knoche, N.; Lind, D. (2000). Eine Analyse der Aussagen und Interpretationen von TIMSS unterBetonung methodologischer Aspekte. In: Journal für Mathematik-Didaktik, 21,1, S. 3-27.

Köller, O. (1998). Zielorientierungen und schulisches Lernen. Münster, Waxmann.

LeTendre, G. et al. (1998). The Educational System in Japan: Case Study Findings. Washington,U.S. Department ofEducation.

McKnight, C. & Valverde, G. (1999). Explaining TIMSS Mathematics Achievement: A Prelimina­ry Survey. In: Kaiser, Luna, Huntley, 48-67.

Mullis, 1. et al. (1997). Mathematics Achievement in the Primary School Years. Chestnut Hili,TIMSS International Study Center.

Mullis, 1. et al. (1997). Mathematics and Science Achievement in the Final Year of SecondarySchool. Chestnut Hill, TIMSS International Study Center.

Neubrand, 1.; Neubrand, M. & Sibberns, H. (1998). Die TIMSS-Aufgaben aus mathematikdidakti­scher Sicht: Stärken und Defizite deutscher Schülerinnen und Schüler. In: Blum, W. & Neubrand,M. (Eds.), TIMSS und der Mathematikunterricht, Hannover, Schroedei, 17-28.

Ramseier, E. (1997). Naturwissenschaftliche Leistungen in der Schweiz. Bern, Amt für Bildungs­forschung.

Sawada, T. (1999). On the Japanese Perspective on TIMSS. In: Zentralblatt für Didaktik der Ma­thematik, 31, 6,170-174.

Schmidt, W.; Jakwerth, P. & McKnight, C. (1998). Curriculum Sensitive Assessment: ContentDoes Make a Difference. In: International Journal of'Educational Research, 29, 503-527.

Shimizu, Y. (1999). Studying Sampie Lessons Rather Than One Excellent Lesson: A JapanesePerspective on the TIMSS Videotape Classroom Study. In: Zentral blatt für Didaktik der Mathe­matik, 31, 6,191-195.

Stevenson, H. (1999). The Case Study Project ofTIMSS. In: Kaiser, Luna, Huntley, 104-120.

Stevenson, H. & Nerison-Low, R. (1998). To Sum It Up. Washington, U.S. Department ofEduca­tion.

Stigler, 1. & Perry, M. (1988). Cross Cultural Studies of Mathematics Teaching and Learning:Recent Finding and New Directions. In Grouws, D. et al. (Eds.), Perspectives on Research onEffective Mathematics Teaching. Reston, NCTM, 194-223.

Stigler, 1. et al. (1999). The TIMSS Videotape Classroom Study: Methods and Finding from anExploratory Research Project on Eighth-grade Mathematics Instruction in Germany, Japan, and theUnited States. Washington, U.S. Department ofEducation.

Page 22: Internationale Vergleichsuntersuchungen Im Mathematikunterricht — Eine Auseinandersetzung Mit Ihren Möglichkeiten Und Grenzen

192 G. Kaiser

Van der Linden, W. (1998). A discussion of some methodological issues in international assesments. In: International Journal ofEducational Research, 29, 569-577.

v. Kardoff, E. (1995). Qualitative Sozialforschung - Versuch einer Standortbestimmung. In: FlicU. et aI. (Eds.), Handbuch Qualitative Sozialforschung. Weinheim, Psychologie Verlags Union,8.

Walter, P. (1991). Die "Vermessung" des Menschen: Meßtheorie und methodologische Grundl:gen psychologischen Testens. In: Grubitzsch, S. (Ed.), Testtheorie - Testpraxis. Reinbek, Rrwohlt,98-127.

Wolfe, R. (1999). Measurement Obstacles to International Comparisons and the Need for Region:Design and Analysis in Mathematics Surveys. In: Kaiser, Luna, Huntley, 225-240.

Anschrift der Autorin:Prof. Dr. Gabriele KaiserUniversität HamburgFachbereich Erziehungswissenschaft, Institut 9Von-MeIle-Park 820146 Hamburgemail: [email protected]