Zentrale Abiturprüfungen als Allheilmittel?

8
REZENSIONEN Z Erziehungswiss (2014) 17:159–166 DOI 10.1007/s11618-014-0489-2 Online publiziert: 21.02.2014 © Springer Fachmedien Wiesbaden 2014 M. Neumann () Abteilung Struktur und Steuerung des Bildungswesens, Deutsches Institut für Internationale Pädagogische Forschung (DIPF), Warschauer Straße 34–38, 10243 Berlin, Deutschland E-Mail: [email protected] Zentrale Abiturprüfungen als Allheilmittel? Marko Neumann Sammelrezension zu 1. Katharina Maag Merki (Hrsg.): Zentralabitur: Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (Educational Governance, Band 14). Wiesbaden: Springer VS 2012. 407 S. ISBN 978-3-531- 17782-3. Preis: 39,95 €. 2. Monika Holmeier: Leistungsbeurteilung im Zentralabitur (Educational Governance, Band 22). Wiesbaden: Springer VS 2013. 418 S. ISBN 978-3-531-19725-8. Preis: 49,95 €. 3. Ramona Lorenz: Das Zentralabitur im Kontext der Bildungsgerechtigkeit. Schwie- rigkeit und Fairness der Abituraufgaben im Fach Englisch (Empirische Erziehungs- wissenschaft, Band 42). Münster: Waxmann 2013. 276 S. ISBN 978-3-8309-2951-2. Preis: 29,90 €. Als Reaktion auf die ernüchternden Befunde der großen internationalen und nationalen Schulleistungsstudien wurden im deutschen Schulsystem in den letzten 10–15 Jahren verschiedene Maßnahmen auf den Weg gebracht, zu deren wesentlichen Zielsetzungen die Erhöhung des Leistungsniveaus (bei gleichzeitiger Verringerung der Leistungshe- terogenität), die Reduktion des Zusammenhangs von Bildungserfolg und sozialer (und regionaler) Herkunft sowie die Verbesserung der Vergleichbarkeit von Schulabschlüssen und Schulnoten zählen. Über die Einführung nationaler Bildungsstandards und zentraler Abschlussprüfungen soll dabei eine Annäherung und Vergleichbarkeit der Leistungsan- forderungen erfolgen, um dadurch das Bildungsniveau insgesamt zu erhöhen und gleich- zeitig soziale und regionale Disparitäten im Bildungserwerb zu verringern. Das erhöhte Maß an Standardisierung hat mittlerweile auch die gymnasiale Oberstufe und das Abitur erreicht, wie sich an der Verabschiedung nationaler Bildungsstandards für das Abitur und die inzwischen mit Ausnahme des Bundeslandes Rheinland-Pfalz erfolgte

Transcript of Zentrale Abiturprüfungen als Allheilmittel?

Rezensionen

Z Erziehungswiss (2014) 17:159–166DOI 10.1007/s11618-014-0489-2

Online publiziert: 21.02.2014 © Springer Fachmedien Wiesbaden 2014

M. Neumann ()Abteilung Struktur und Steuerung des Bildungswesens, Deutsches Institut für Internationale Pädagogische Forschung (DIPF), Warschauer Straße 34–38, 10243 Berlin, DeutschlandE-Mail: [email protected]

Zentrale Abiturprüfungen als Allheilmittel?

Marko Neumann

Sammelrezension zu

1. Katharina Maag Merki (Hrsg.): Zentralabitur: Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland (Educational Governance, Band 14). Wiesbaden: Springer VS 2012. 407 S. ISBN 978-3-531-17782-3. Preis: 39,95 €.

2. Monika Holmeier: Leistungsbeurteilung im Zentralabitur (Educational Governance, Band 22). Wiesbaden: Springer VS 2013. 418 S. ISBN 978-3-531-19725-8. Preis: 49,95 €.

3. Ramona Lorenz: Das Zentralabitur im Kontext der Bildungsgerechtigkeit. Schwie-rigkeit und Fairness der Abituraufgaben im Fach Englisch (Empirische Erziehungs-wissenschaft, Band 42). Münster: Waxmann 2013. 276 S. ISBN 978-3-8309-2951-2. Preis: 29,90 €.

Als Reaktion auf die ernüchternden Befunde der großen internationalen und nationalen Schulleistungsstudien wurden im deutschen Schulsystem in den letzten 10–15 Jahren verschiedene Maßnahmen auf den Weg gebracht, zu deren wesentlichen Zielsetzungen die Erhöhung des Leistungsniveaus (bei gleichzeitiger Verringerung der Leistungshe-terogenität), die Reduktion des Zusammenhangs von Bildungserfolg und sozialer (und regionaler) Herkunft sowie die Verbesserung der Vergleichbarkeit von Schulabschlüssen und Schulnoten zählen. Über die Einführung nationaler Bildungsstandards und zentraler Abschlussprüfungen soll dabei eine Annäherung und Vergleichbarkeit der Leistungsan-forderungen erfolgen, um dadurch das Bildungsniveau insgesamt zu erhöhen und gleich-zeitig soziale und regionale Disparitäten im Bildungserwerb zu verringern.

Das erhöhte Maß an Standardisierung hat mittlerweile auch die gymnasiale Oberstufe und das Abitur erreicht, wie sich an der Verabschiedung nationaler Bildungsstandards für das Abitur und die inzwischen mit Ausnahme des Bundeslandes Rheinland-Pfalz erfolgte

160 M. Neumann

flächendeckende Einführung (bundeslandbezogener) zentraler Abiturprüfungen (vgl. Aktionsrat Bildung 2011; Kühn 2010) unschwer erkennen lässt. In diesem Zusammen-hang stellt sich die Frage nach den Auswirkungen der umgesetzten Reformmaßnahmen. Vor diesem Hintergrund werden in der vorliegenden Sammelrezension drei Publikationen besprochen, die auf empirischer Basis die Konsequenzen der Einführung zentraler Abi-turprüfungen untersuchen.

Maag Merki (Hrsg.), Zentralabitur: Die längsschnittliche Analyse der Wirkungen der Einführung zentraler Abiturprüfungen in Deutschland. Der von Katharina Maag Merki (Universität Zürich) bereits im Jahr 2012 herausgegebene Ergebnisband stellt die bislang umfassendste Untersuchung der Implementation zentraler Abiturprüfungen in Deutschland dar. In der Untersuchung wird die Einführung des Zentralabiturs in den beiden Bundesländern Bremen und Hessen beginnend mit dem Schuljahr 2006/07 über einen Zeitraum von drei Jahren (2007–2009) untersucht. In beiden Bundesländern leg-ten die Abiturientinnen und Abiturienten ihre Abschlussprüfungen erstmals im Jahr 2007 unter den Bedingungen des Zentralabiturs ab. In Bremen traf dies allerdings nur für die Schülerinnen und Schüler aus den Grundkursen zu. In den Leistungskursen (in Deutsch, Mathematik, den Naturwissenschaften und der fortgeführten Fremdsprache) erfolgte die Umstellung auf das zentrale Abitur erst für den Abiturjahrgang 2008, so dass (einzig) hier der Wechsel von einem dezentralen auf ein zentrales Prüfungssystem untersucht werden kann. In den Grundkursen in Bremen und den Grund- und Leistungskursen in Hessen erlaubt die Untersuchung hingegen umfassende Einblicke in die Entwicklung nach Ein-führung des Zentralabiturs.

Der Ergebnisband ist in drei Teile mit insgesamt 15 Kapiteln gegliedert. In den drei Beiträgen des ersten Teils werden die Grundlagen der Studie dargestellt. In Kap. 1 (Katha-rina Maag Merki) werden die Forschungsfragen und die theoretischen Bezugspunkte der Untersuchung dargelegt. Mit Blick auf die Forschungsfragen werden fünf übergeordnete Fragenkomplexe aufgeführt (S. 16 ff.): 1) Auswirkungen auf die Lernergebnisse der Schülerinnen und Schüler, 2) Sicherung von Standards in der Bewertungspraxis, 3) Aus-wirkungen auf Schul- und Unterrichtsmerkmale, 4) Auswirkungen auf das individuelle Erleben der Lehrpersonen und ihre Auseinandersetzung mit dem Zentralabitur, 5) Quali-tät der Abituraufgaben. Kap. 2 (Svenja Mareike Kühn) gibt einen Überblick über die konkreten Ausgestaltungsmerkmale des Zentralabiturs im nationalen und internationalen Vergleich. Bezogen auf die beiden Bundesländer Bremen und Hessen zeigen sich „zahl-reiche Gemeinsamkeiten und nur wenige Unterschiede“ (S. 40). Innerhalb der beiden Bundesländer werden den Schülerinnen und Schülern jeweils die gleichen Prüfungsauf-gaben vorgelegt. Die Bewertung der Aufgaben erfolgt jeweils durch den Kurslehrer (Erst-korrektur) und eine weitere Lehrkraft der Schule (Zweitkorrektur). Kap. 3 (Katharina Maag Merki) führt in die methodischen Grundlagen der Untersuchung ein. Die Studie basiert auf den Daten von Schülerinnen und Schülern sowie Lehrkräften aus 19 Bremer und 18 hessischen Schulen mit gymnasialer Oberstufe. In Bremen kann dabei auf Schul-ebene quasi von einer Vollerhebung der Schulen mit gymnasialer Oberstufe ausgegangen werden. In den Fächern Mathematik und Englisch sowie für die kognitiven Grundfä-higkeiten wurden Leistungstests administriert. Die Schülerinnen und Schüler sowie die Lehrkräfte wurden jeweils vor und nach der Abiturprüfung mit Fragebogeninstrumenten

Zentrale Abiturprüfungen als Allheilmittel? 161

befragt. Zudem wurden die Abiturprüfungsnoten und die Kursnoten der einzelnen Schul-halbjahre (letzteres nur Bremen) erfasst.

In den elf Beiträgen des zweiten Teils werden die Ergebnisse der Untersuchung dargestellt. Bereits die Sichtung des Inhaltsverzeichnisses lässt die inhaltliche Per- spektivenvielfalt erkennen, unter der die Auswirkungen der Implementation zentraler Abiturprüfungen betrachtet werden. In Kap. 4 (Daniela J. Jäger) wird die Entwicklung von Schulklima, Selbstwirksamkeit und Arbeitszufriedenheit aus Lehrer- und Schüler-sicht über drei Jahre hinweg untersucht. Die Befunde deuten insgesamt auf eine relativ positive Einschätzung des Schulklimas und der Arbeitszufriedenheit der Lehrkräfte. Stär-kere Veränderungen infolge der Einführung des Zentralabiturs sind jedoch nicht nach-weisbar. In Kap. 5 (Stephanie Appius) wird möglichen Veränderungen in der Kooperation zwischen den Lehrkräften nachgegangen. Die Befunde legen ein relativ hohes Maß an Stabilität im Kooperationsverhalten der Lehrkräfte nahe. Die Frage, inwieweit die Ein-führung des Zentralabiturs mit Veränderungen im emotionalen Erleben (Unsicherheit, Leistungsdruck, Leistungsattribution) von Lehrkräften und Schülerinnen und Schülern einhergeht, ist Gegenstand von Kap. 6 (Britta Oerke). Die Ergebnisse liefern unter ande-rem Hinweise für ein eher geringes und im Zeitverlauf weiter zurückgehendes Maß an Unsicherheit der Lehrkräfte bezüglich der Anforderungen des Zentralabiturs sowie für ein zunehmendes Entlastungserleben. Kap. 7 (Monika Holmeier und Katharina Maag Merki) untersucht die Frage, inwieweit sich aus Schülersicht Veränderungen hinsichtlich der Unterstützung und Motivierung durch die Lehrkräfte ausmachen lassen. Ausgehend von bereits vorliegenden Analysen für die Fächer Mathematik und Englisch, in denen zum Teil Veränderungen nachweisbar waren (z. B. stärkere kognitive Aktivierung und stärkere Unterstützung in den Leistungskursen Englisch und Mathematik in Bremen, vgl. Maag Merki 2011a). werden ergänzende Auswertungen für die Fächer Deutsch, Biologie und Geschichte vorgenommen. Die Befunde deuten insgesamt betrachtet nicht auf systema-tische Veränderungen infolge der Einführung zentraler Abiturprüfungen hin. Inwieweit sich unter den Bedingungen des Zentralabiturs Anzeichen einer verringerten Themenva-rianz und einer eingeschränkteren Berücksichtigung von Schülerinteressen im Unterricht (teaching to the test- bzw. washback-Effekte) finden, ist Gegenstand von Kap. 8 (Daniela J. Jäger). Die Befunde liefern hier zum Teil deutliche Belege dafür, dass Lehrkräfte ihren Unterricht in starkem Maß an den zentral vorgegebenen Schwerpunktthemen der Abitur-prüfung ausrichten und Schülerinteressen in geringerem Maß berücksichtigen: „Lehr-personen, die an zentralen Prüfungen beteiligt sind, grenzen die Themen mehr ein als Lehrpersonen, die dezentrale Kurse unterrichten“ (S. 194). Kap. 9 (Britta Oerke) widmet sich der Auseinandersetzung der Lehrpersonen mit der Einführung des Zentralabiturs. Dabei kommt das in der Implementationsforschung weit verbreitete „Stages of Concern“-Modell zur Anwendung, das von einem siebenstufigen Auseinandersetzungsprozess mit schulischen Innovationen ausgeht. Es werden einerseits längsschnittliche Veränderungen in der Auseinandersetzung mit dem Zentralabitur betrachtet und andererseits verschie-dene Auseinandersetzungstypen identifiziert. Die Ergebnisse sprechen insgesamt für eine aktive Auseinandersetzung der Lehrpersonen mit dem Zentralabitur, wobei „überwie-gend Interesse an den Auswirkungen auf die Lernenden, an der Optimierung des eige-nen Unterrichts im Hinblick auf das Zentralabitur sowie der Wunsch, sich mit anderen Lehrpersonen zum Zentralabitur auszutauschen, zu beobachten“ (S. 396) waren. Mit

162 M. Neumann

Blick auf die Frage einer größeren Bewertungsgerechtigkeit in Folge der Einführung des Zentralabiturs fokussiert Kap. 10 (Monika Holmeier, vgl. dazu auch Buchbesprechung Nr. 2) die seitens der Lehrkräfte herangezogenen Bezugsnormen (soziale, kriteriale und individuelle Bezugsnorm) bei der Leistungsbewertung im Unterricht, wobei eine im Zeit-verlauf zunehmende Orientierung an kriterialen Bewertungsmaßstäben erwartet wurde. Insbesondere die Einschätzungen der Lehrkräfte aus Bremen (in der Tendenz auch der Lehrkräfte aus Hessen) bestätigten diese Annahme.

Eine der sicherlich zentralsten Fragen bezüglich der Einführung zentraler Abitur-prüfungen ist die Auswirkung auf das Leistungsniveau der Schülerinnen und Schüler. Kap. 11 (Katharina Maag Merki) untersucht Leistungsveränderungen in den Fächern Englisch und Mathematik. Deutlichere (positive) Veränderungen sind in der Dreijahres-perspektive am ehesten für die Mathematikgrundkurse in Bremen feststellbar, für die jedoch keine Leistungsdaten für den Zeitpunkt vor der Zentralabiturumstellung vorlagen. Leicht positive Tendenzen fanden sich auch für die Englisch-Leistungskurse in beiden Bundesländern. Mit Blick auf die Aussagekraft und Generalisierbarkeit der Ergebnisse ist allerdings einschränkend anzumerken, „dass die zur Verfügung stehende Stichprobe, bedingt durch das realisierte Untersuchungsdesign, keinen Anspruch auf Repräsenta-tivität erheben kann“ (S. 290). Gegenstand von Kap. 12 (Monika Holmeier, vgl. dazu auch Buchbesprechung Nr. 2) ist die Vergleichbarkeit der erreichten Punktzahlen aus dem schriftlichen Abitur mit den Leistungen in den administrierten Leistungstests in den Fächern Mathematik und Englisch, wobei in Folge der höheren Standardisierung von einem im Zeitverlauf zunehmenden Zusammenhang zwischen Prüfungsnoten und Test-leistungen ausgegangen wurde. Die Befunde variieren in Abhängigkeit von Fach und Kursniveau und unterliegen einigen Einschränkungen, etwa mit Blick auf die Breite der durch die Leistungstests abgedeckten Fachinhalte. Insgesamt kommt die Autorin zu dem Fazit, dass „[…] nicht von einem generellen Effekt des zentralen Abiturs auf die Ver-gleichbarkeit gesprochen werden kann“ (S. 319). In Kap. 13 (Katharina Maag Merki und Monika Holmeier) werden in Anlehnung an bereits vorliegende Ergebnisse (Maag Merki 2011b) wesentliche Aspekte des selbstregulierten Lernens (z. B. Elaborations- und Wie-derholungsstrategien, Planungs- und Monitoring-Strategien, schulische Selbstwirksam-keit) untersucht. Für die Englisch-Leistungskurse lassen sich in einzelnen Teilbereichen positive Veränderungen feststellen. Stärkere negative Effekte waren hingegen für den Leistungskurs Geschichte auszumachen, der in Bremen nach wie vor dezentral geprüft wurde, was somit unter Umständen als Hinweis auf negative Transfereffekte (S. 404) interpretierbar ist. Das letzte Ergebniskapitel (Kap. 14, Stephanie Appius und Monika Holmeier) widmet sich der Einschätzung der Abiturprüfungsaufgaben (bezogen auf die Inhalte, das Anforderungsniveau und das Anforderungsprofil) durch die Lehrkräfte und die Schülerinnen und Schüler. Die Lehrkräfte wurden zudem um die Bewertung der den Abituraufgaben zugehörigen Korrekturhinweise gebeten. Aus datenschutzrechtlichen Gründen waren für die Lehrpersonen keine fachspezifischen Auswertungen möglich. Als Teilbefund wird „in beiden Bundesländern eine tendenzielle Abnahme der inhaltlichen Breite und Tiefe der Abituraufgaben“ (S. 398) konstatiert.

Im dritten Teil des Ergebnisbandes (Kap. 15) fasst Katharina Maag Merki die zentralen Befunde der Untersuchung zusammen und diskutiert die Implikationen und Grenzen der Studie. Angesichts der Ergebnisse zieht sie das übergreifende Fazit, „dass mit der Ein-

Zentrale Abiturprüfungen als Allheilmittel? 163

führung zentraler Abiturprüfungen keine umfassende Umwälzung von Schule, Unterricht und Lernen einhergeht“ und nicht „von einem generellen Effekt zentraler Abiturprüfun-gen auf das Lernen der Schüler/-innen und das Handeln der Lehrpersonen […] gespro-chen werden kann“ (S. 399). Gleichwohl hatte die Einführung zentraler Abiturprüfungen „in den beiden untersuchten Bundesländern mehr als einen ‚Sturm im Wasserglas‘ zur Folge“ (S. 406).

Bei dem vorgelegten Ergebnisband handelt sich um eine zentrale Veröffentlichung der nach wie vor (zu) wenigen Publikationen zu den Auswirkungen von groß angeleg-ten Reformen im Bildungswesen. Beeindruckend ist vor allem die Perspektivenvielfalt, unter der die Thematik untersucht wurde. Diese Perspektivenvielfalt verbunden mit der Betrachtung von Verläufen über drei Jahre in zwei Bundesländern in unterschiedlichen Fächern und Kursniveaus erfordert vom Leser aber gleichsam ein hohes Maß an Konzen-tration, insbesondere da die resultierenden Befunde zumeist keine systematischen Muster aufweisen und sich in der Regel eine recht differenzierte Befundlage ergibt. Hilfreich ist in diesem Zusammenhang die über viele Kapitel hinweg ähnliche Analysestrategie, die dem Leser als gute Orientierung dient. Insgesamt kann die Lektüre allen an den Aus-wirkungen der Einführung zentraler Abiturprüfungen interessierten Personen uneinge-schränkt empfohlen werden.

Holmeier, Leistungsbeurteilung im Zentralabitur. Die von Monika Holmeier im Jahr 2012 an der Universität Zürich als Dissertationsschrift eingereichte und 2013 publizierte Arbeit basiert auf derselben Datengrundlage wie die vorangehend besprochene Publika-tion der Zentralabiturstudie, in der auch zentrale Ergebnisse der Dissertationsschrift in komprimierter Weise dargestellt sind. Im Fokus der Arbeit stehen Fragen der Leistungs-beurteilung unter den Bedingungen des Zentralabiturs. Konkret werden fünf Themen-komplexe adressiert, über die in der Summe geklärt werden soll, „ob die Einführung zentraler Abiturprüfungen die Ausrichtung der Benotung anhand vorgegebener Korrek-turkriterien stärkt und ob die Vergleichbarkeit der Benotung in den schriftlichen Abitur-prüfungen sowie in den Halbjahren der gymnasialen Oberstufe erhöht wird“ (S. 14). Die fünf untersuchten Themenkomplexe sind 1) Bezugsnormen aus Sicht der Lehrpersonen, 2) Bezugsnormen aus Sicht der Schüler/-innen, 3) Abiturpunktzahl und Leistungstest, 4) Halbjahrespunktzahlen und 5) Effekte auf die Abiturpunktzahl.

Der theoretische Teil der Arbeit ist in drei große thematische Blöcke untergliedert. Im ersten Block erfolgt die system- und steuerungstheoretische Verortung der Arbeit, wobei „eine systemtheoretische Perspektive auf Schule entworfen und ein geschichtlicher Abriss der Schulsteuerung skizziert“ (S. 15) wird. Zudem werden wesentliche Aspekte der Governance-Perspektive herausgearbeitet, deren Nutzen vor allem darin liegt, „dass sie nicht von einer linearen Steuerungslogik ausgeht, in der die angestrebten Steuerungs-ziele ohne unerwünschte Nebeneffekte erreicht werden, sondern dass sie versucht, auch den nicht-intendierten Effekten und Wirkungen Platz einzuräumen“ (S. 35). Anschlie-ßend wird im zweiten Block ein Überblick über zentrale Abiturprüfungen gegeben. Dabei erfolgen eine Darstellung des konkreten Prüfungsmodus in den beiden herangezogenen Ländern Bremen und Hessen sowie ein nationaler und internationaler Vergleich der Prü-fungsmodalitäten. Zudem werden die vorgebrachten Argumente pro und contra zentrale Abiturprüfungen ausführlich und anschaulich dargelegt. Der zweite Block schließt mit

164 M. Neumann

einer gelungenen Zusammenstellung des Forschungsstandes zu den Auswirkungen zen-traler Abitur- bzw. Abschlussprüfungen. Im dritten Block des Theorieteils werden die Funktionen und Bezugsnormen der Leistungsbewertung, Gütekriterien der Leistungs-messung sowie bekannte Fehlerquellen bei der Notengebung aufgeführt. Die zentralen Aspekte der einzelnen theoretischen Abschnitte sowie deren konkrete Ableitungen für die Arbeit werden abschließend jeweils klar und zielführend zusammengefasst.

Im Anschluss an die theoretischen Ausführungen folgen die Ableitung der Fragestel-lungen und Hypothesen sowie die Darstellung des Forschungsdesigns und des metho-dischen Vorgehens. Neben deskriptiven Analysen (Mittelwerte, Standardabweichungen, Korrelationen) werden für die Beantwortung der Fragestellungen vor allem Mehrebenen-modelle berechnet, deren konkrete Spezifizierung jeweils fragestellungsbezogen erläutert wird.

Der Ergebnisteil der Arbeit ist in die fünf oben genannten Themenkomplexe unter-gliedert und enthält mehrere sehr hilfreiche Zwischenfazits. Mit Blick auf die herange-zogenen Bezugsnormen der Lehrkräfte bei der Leistungsbewertung deuten die Befunde darauf hin, „dass sich vor allem bei den Lehrpersonen Effekte des zentralen Abiturs auf die kriteriale Bezugsnorm vermuten lassen, aus Sicht der Schüler/-innen hingegen nicht […]“ S. 286. Die Annahme eines im Zeitverlauf zunehmenden Zusammenhangs zwischen Testleistung und Abiturprüfungsnote ließ sich nicht generell bestätigen. Die Zusammenhangsmuster fielen in Abhängigkeit von Fach, Kursniveau und Bundesland unterschiedlich aus. Die Betrachtung schulübergreifender Bewertungsmaßstäbe in Form der Korrelationen von Testleistungen und Prüfungsnoten auf Schulebene ergab ebenfalls ein uneinheitliches Befundmuster mit zum Teil zunehmenden und zum Teil abnehmen-den Zusammenhängen. Für die Fachnoten aus dem Kursunterricht fanden sich ebenfalls kaum Hinweise auf systematische Veränderungen in den Zusammenhangsmustern über die Zeit. Allerdings kovariierten die Fachnoten erwartungskonform in deutlich stärke-rem Maß mit den Prüfungsnoten als mit den Ergebnissen der standardisierten Leistungs-tests. Bezüglich der Frage, inwieweit mit der Einführung zentraler Abiturprüfungen ein Rückgang des Einflusses leistungsfremder Merkmale (z. B. Geschlecht, soziale Herkunft, Migrationshintergrund) auf die Leistungsbewertung festzustellen ist, lassen die Resultate zum Teil „[…] positive Effekte für das Zentralabitur erkennen. Für das Bundesland Bre-men konnte im Mathematik-Leistungskurs eine Abnahme leistungsfremder Merkmale festgestellt werden. Allerdings erst im zweiten Jahr zentraler Prüfungen“ (S. 340).

Angesichts der differenzierten Befundlage wird in der Diskussion der Befunde zu Recht resümiert: „Zusammenfassend lassen sich aus den genannten Ergebnissen über alle Fragestellungen hinweg nur wenig klare und konsistente Effekte nachweisen. Deutlich wurde, dass die Ergebnisse je nach Land, Fach und Kurs variieren“ (S. 373). Vor diesem Hintergrund werden in den abschließenden Betrachtungen der Arbeit (S. 375 ff.) mög-liche Gründe für das Ausbleiben deutlicherer Effekte diskutiert. Trotz der zum Teil mög-licherweise etwas ernüchternd anmutenden Befunde handelt es sich bei der vorliegenden Veröffentlichung um eine uneingeschränkt empfehlenswerte, sehr gut strukturierte, sprachlich präzise und äußerst interessante Arbeit, der ein möglichst breiter Leserkreis zu wünschen ist.

Zentrale Abiturprüfungen als Allheilmittel? 165

Lorenz, Das Zentralabitur im Kontext der Bildungsgerechtigkeit. Schwierigkeit und Fairness der Abituraufgaben im Fach Englisch. Die dritte zu besprechende Publika-tion, die von Ramona Lorenz im Jahr 2012 als Dissertationsschrift an der Technischen Universität Dortmund eingereicht und im Jahr 2013 veröffentlicht wurde, befasst sich mit der Frage der Schwierigkeit und Fairness von Abituraufgaben. Die Arbeit ist Teil eines umfassenden Forschungsprojektes zur wissenschaftlichen Begleitung des im Jahr 2007 im Bundesland Nordrhein-Westfalen eingeführten Zentralabiturs, wobei sich die Begleituntersuchung auf die Abiturjahrgänge 2009 bis 2012 erstreckt (S. 43). Die zent-rale Fragestellung der Arbeit ist die Überprüfung von differenziellen Schwierigkeiten der Abituraufgaben im Fach Englisch in Abhängigkeit der Zugehörigkeit zu einer bestimm-ten Gruppe (bei ansonsten vergleichbaren Kompetenzen), im vorliegenden Fall in Abhän-gigkeit des Geschlechts und der Schulform (Gymnasium/Gesamtschule). Unter Rückgriff auf das unter anderem in der Item-Response-Theorie (IRT) zu verortende Konzept des Differential Item Functioning (DIF) wird überprüft, ob sich unter den einzelnen Teil-aufgaben der schriftlichen Abiturprüfung Aufgaben finden, die bei ansonsten gleichen Personenfähigkeiten unterschiedliche Lösungswahrscheinlichkeiten je nach Geschlecht und besuchter Schulform aufweisen. Sofern sich (etwa in Folge bestimmter Aufgaben-merkmale) unterschiedliche Lösungswahrscheinlichkeiten je nach Gruppenzugehörig-keit ausmachen lassen sollten, wäre dies ein Indiz für die systematische Bevorzugung bzw. Benachteiligung einzelner Gruppen, was unter Gerechtigkeitsaspekten entsprechend eine eingeschränkte Testfairness implizieren würde. Darüber hinaus wird in der Arbeit untersucht, inwieweit sich die curricular intendierten Schwierigkeitsniveaus der Abitur-aufgaben (bezogen auf die Vorgaben der Einheitlichen Prüfungsanforderungen für die Abiturprüfung, EPA) auch empirisch abbilden lassen. Datengrundlage der Studie sind die Ergebnisse „der Erstkorrektur von 1136 Schülerinnen und Schülern, die im Jahr 2009 zentral im Leistungskurs Englisch in NRW die Abiturprüfung abgelegt haben“ (S. 129). Die Schülerinnen und Schüler entstammen 37 Gymnasien und 34 Gesamtschulen. Ergän-zend erfolgte eine Experteneinschätzung der Aufgaben bezüglich der Schwierigkeit der Abituraufgaben in Abhängigkeit der Gruppenzugehörigkeit.

Die Abhandlungen im theoretischen Teil der Arbeit thematisieren die Ausgestaltung und Funktionen des Zentralabiturs aus den unterschiedlichsten Perspektiven heraus (z. B. Abgrenzung des Zentralabiturs zu anderen standardisierten Verfahren der Leistungsmes-sung, Ausgestaltung des Zentralabiturs in Deutschland, das Zentralabitur aus Sicht der Testentwicklung, das Zentralabitur aus der Steuerungs- und Governance-Perspektive, das Zentralabitur im Kontext der Bildungsgerechtigkeit). Der theoretische Überblick ist ins-gesamt sehr informativ, wenngleich an einzelnen Stellen auch eine andere Reihung und Gewichtung der unterschiedlichen theoretischen Bezüge denkbar und – damit verbun-den – einige zum Teil auftretende (jedoch nicht wirklich störende) Redundanzen unter Umständen vermeidbar gewesen wären.

Die Überprüfung der Fragestellungen erfolgt im IRT-Framework unter Rückgriff auf das Rasch-Modell (in der Partial Credit-Variante für die Berücksichtigung von teilweise richtigen Antworten). Das Rasch-Modell und insbesondere das analytische Vorgehen zur Identifikation von DIF werden im Methodenteil gut nachvollziehbar beschrieben.

Die Ergebnisse zeigen zunächst, dass die Antwortmuster der einzelnen Teilaufgaben der Abiturprüfung zum überwiegenden Teil einen rasch-konformen Modellverlauf auf-

166 M. Neumann

weisen und somit die Voraussetzungen für die weiteren Analyseschritte gegeben sind. Bezogen auf die unterschiedlichen Schwierigkeitsanforderungen der EPA weisen die Befunde darauf hin, „dass die Daten die angenommenen Anforderungsbereiche nicht abbilden“ (S. 184). Die DIF-Analysen zur Testfairness deuten vereinzelt auf gruppenspe-zifische Aufgabenschwierigkeiten hin, die sich insbesondere mit Blick auf das Geschlecht auch mit Aufgabenmerkmalen in Verbindung bringen lassen. Die unerwünschten DIF-Tendenzen werden allerdings dadurch relativiert, „dass die Aufgaben Items enthalten, die Stärken und Schwächen der Schülerinnen und Schüler in beiden Gruppen aufweisen, dies zu ausgewogenen Teilen“ (S. 222). Insgesamt lässt sich damit mit Blick auf die Testfair-ness der Prüfungsaufgaben ein positives Fazit ziehen.

Als besonderes Verdienst der Arbeit ist trotz „des explorativen Charakters der Unter-suchung“ (S. 216) die Adaption testtheoretischer Ansätze zur Überprüfung der psycho-metrischen Qualität von Abiturprüfungsaufgaben zu sehen. Die Arbeit zeigt in dieser Hinsicht vielversprechende Perspektiven auf und stellt vor diesem Hintergrund eine loh-nende Lektüre dar.

Fazit. Die an die in den letzten Jahren umgesetzten Reformen im Bildungsbereich geknüpften Hoffnungen und Erwartungen sind hoch. Die Befundlage zu den tatsächli-chen Auswirkungen ist jedoch nach wie vor unzureichend. An dieser Stelle leisten alle der drei aufgeführten Publikationen einen wichtigen Beitrag dazu, die zum Teil stark normativ und ideologisch geführten Diskussionen um die „richtige“ Ausgestaltung des Bildungssystems auf eine empirische Basis zu stellen und – dies machen die bespro-chenen Arbeiten ebenfalls deutlich – von überzogenen Erwartungshaltungen bezüglich sich schnell einstellender Auswirkungen und Erfolge von Large-Scale-Reformen im Bil-dungsbereich abzusehen.

Literatur

Aktionsrat Bildung. (2011). Gemeinsames Kernabitur: Zur Sicherung von nationalen Bildungs-standards und fairem Hochschulzugang. Münster: Waxmann.

Kühn, S. M. (2010). Steuerung und Innovation durch Abschlussprüfungen? Wiesbaden: VS Verlag für Sozialwissenschaften.

Maag Merki, K. (2011a). The introduction of state-wide exit examinations: Empirical effects on Math and English-Teaching in German academically oriented secondary schools. In M. A. Pereyra, H.-G. Kottloff, & R. Cowen (Hrsg.), PISA under examination: Changing knowledge, changing tests and changing schools (S. 125–142). Rotterdam: Sense.

Maag Merki, K. (2011b). Effects of the implementation of state-wide exit exams on students’ self-regulated learning. Studies in Educational Evaluation, 37, 196–205.