SSESSMENTKONZEPT ARR ANGIEREN fileAssessmentkonzept arrangieren 617 Das Arrangieren des...

22 ASSESSMENTKONZEPT ARRANGIEREN

Auszug aus Wilbers, Karl (2012): Wirtschaftsunterricht gestalten. Lehrbuch. Berlin: epubli. © Karl Wilbers, Nürnberg, 2012. Creative Commons BY-NC-ND 3.0.

614 Lerneinheit 22

22.1 Zur Orientierung: Was Sie hier erwartet

22.1.1 Worum es hier geht oder vielleicht doch B? Mmh. Ich weiß nicht. Na, C ist es jedenfalls nicht. Verdammt. Die Zeit läuft mir davon. Eigentlich mag ich ja die Multiple-Choice-Tests. Besser als diese blö-den langen Textaufgaben. Wettschreiben. Finger vergewaltigen mit Stoppuhr. „Richtig“ oder

„falsch“: Im Leben läuft‘s doch auch so!

Nein, lieber 100 Multiple-Choice-Tests als wieder so ein Vorturnen vor der Klasse. Da kriegen doch sowieso nur die Netten gute Noten. „Präsentation Ihrer Arbeitsergebnisse“. Ha, wenn ich das schon hör‘. Schlimmer ist nur noch das Vortäuschen von Verkaufsgesprächen. „Stellen Sie sich vor, Sie wären Hein Blöd und Sie verkaufen Fischstäbchen an eine Gruppe Eisbären.“ Und dafür auch noch eine Note kriegen! Nein, manchmal frage ich mich, ob die Typen hier in der Schule überhaupt wissen, worum es hier eigentlich geht. Es geht doch letztlich um Jobs! Die haben ja ausgesorgt. Ich nicht. Können die mir nicht einfach eine gute Note geben, sonst kriege ich doch nie die Stelle!

Was denn nun? A oder doch B? Nein, komm. B und dann weiter …

A

615 Assessmentkonzept arrangieren

22.1.2 Inhaltsübersicht 22 Assessmentkonzept arrangieren .................................................................................................. 613

22.1 Zur Orientierung: Was Sie hier erwartet ............................................................................. 614

22.1.1 Worum es hier geht ..................................................................................................... 614

22.1.2 Inhaltsübersicht ........................................................................................................... 615

22.1.3 Zusammenfassung ....................................................................................................... 615

22.1.4 Einordnung in das Prozessmodell ............................................................................... 616

22.2 Assessment: Was darunter verstanden wird ........................................................................ 617

22.2.1 Assessment als Präzisieren, Beschreiben und Interpretieren ....................................... 617

22.2.2 Diagnose, Prognose, Retrognose, Zielbestimmung und Zielrekonstruktion ............... 618

22.2.3 Sonderformen des (Kompetenz-)Assessments ............................................................ 618

22.3 Ziele von Assessments und Assessment-Paradigmen: Assessment unterschiedlich denken ............................................................................................................................................ 623

22.3.1 Ziele von Assessments: Was wollen Assessments? .................................................... 623

22.3.2 Assessment-Paradigmen: Zwei grundsätzliche Denkweisen über Assessments ......... 625

22.4 Ansprüche an ‚gute‘ Assessments ....................................................................................... 629

22.4.1 Das Assessment-Pentagon: Abgleich als Herausforderung an Assessments .............. 629

22.4.2 Testtheoretische Kriterien ........................................................................................... 630

22.5 Bezugsnormen: Verschiedene Wege der Interpretation des Ergebnisses ............................ 633

22.6 Outro .................................................................................................................................... 634

22.6.1 Die wichtigsten Begriffe dieser Lerneinheit ................................................................ 634

22.6.2 Tools ............................................................................................................................ 634

22.6.3 Kompetenzen ............................................................................................................... 634

22.6.4 Hinweise zur vertieften Auseinandersetzung: Weiterlesen ......................................... 634

22.6.5 Hinweise zur vertieften Auseinandersetzung: Weitersurfen ....................................... 635

22.1.3 Zusammenfassung Assessment wird als ein mehrstufiger Prozess verstanden, in dem zunächst eine Kompetenz präzisiert, eine Performanz beschrieben und die Beschreibung interpretiert wird. Ein Assessment kann eine vor-bereitende, eine formative, eine diagnostische oder eine summative Funktion haben. Assessments ha-ben den gleichen Ansprüchen zu genügen, nämlich Objektivität, Gültigkeit (Validität) und Zuverläs-sigkeit (Reliabilität) sowie Ökonomie. Zur Interpretation des Ergebnisses eines Assessments sind Be-zugsnormen notwendig. Davon gibt es vier: Soziale Bezugsnorm, kriteriumsorientierte Bezugsnorm und die individuelle Bezugsnorm in der wachstums- oder in der potentialorientierten Variante.

616 Lerneinheit 22

22.1.4 Einordnung in das Prozessmodell


Das Arrangieren des Assessmentkonzepts ist im Nürnberger Prozessmodell – wie auch das Arrangie-ren des Methodenkonzepts – Teil der makrodidaktischen Planung. „Methoden“ wird dabei als Kurz-form von „Unterrichtsmethoden“ verstanden. Unterrichtsmethoden verfolgen – entsprechend des Ab-sichtsbegriffs des Lehrens – die Absicht Lernen anzuregen. Assessmentmethoden hingegen verfolgen die Absicht, Daten für didaktische Entscheidungen zu sammeln, beispielsweise im Vorfeld des eigent-lichen Unterrichts als Teil der Bedingungsanalyse oder im Nachgang als Teil von Prüfungen. Die Pla-nung und Ausarbeitung von Assessmentmethoden ist Teil der mikrodidaktischen Planung.

22.2 Assessment: Was darunter verstanden wird

22.2.1 Assessment als Präzisieren, Beschreiben und Interpretieren Assessment wurde bereits in Kapitel 7 als ein deskriptiver Prozess eingeführt, der dazu dient didakti-sche Entscheidungen zu stützen. Besonders wichtig ist das Assessment von Kompetenzen. Assessment wird hier als ein mehrstufiger Prozess verstanden, in dem eine Kompetenz präzisiert, eine Performanz beschrieben und die Beschreibung interpretiert wird.

Übersicht 1: Assessment

Der mehrstufige Prozess des Assessments startet bei der Präzisierung der zugrundeliegenden Kompe-tenz. Kompetenz ist eine Disposition, die dem Individuum ermöglicht, variable Situationen selbstän-dig, erfolgreich und verantwortungsvoll zu gestalten. Kompetenz liegt auf einer nicht beobachtbaren Tiefenstruktur. Beim Assessment wird die Kompetenz präzisiert. Beispielsweise wird die Lernkompe-tenz in verschiedene Teildimensionen zerlegt und diesen Kompetenzen – bei der quantitativen Erfas-sung über den LIST – werden verschiedene Items zugeordnet, die standardisiert zu beantworten sind.

STOP: Prüfen ist für die Lernenden meist keine angenehme Angelegenheit. Sie ist oft mit Ängsten verbunden. Würden Sie Prüfungen abschaffen, etwa in der Universität? Warum oder warum nicht? Die Performanz in einer spezifischen Situation wird in einem Assessment beschrieben. Eine Variante der Beschreibung ist die Beschreibung mit Hilfe von Zahlen. Dabei werden die uns geläufigen Eigen-schaften von Zahlen genutzt, um Informationen über die Performanz festzuhalten oder weiterzugeben. So sind die Zahlen durch eine Größer-als-Relation geordnet. Diese Größer-als-Relation wird genutzt, um eine Eigenschaft der Performanz zu beschreiben. Ein LIST-Wert von 80 ist kleiner als 90 und be-deutet, dass Lernende mit dem 80er-Wert weniger lernkompetent als Lernende mit dem 90er-Wert sind. Eine solche Abbildung der Performanz auf die Menge der Zahlen ist eine Messung. Eine weitere Form der Beschreibung ist die Beschreibung mit natürlichen Wörtern. In einem Aufsatz schreibt eine Lehrkraft beispielsweise „Zielführende Lösung!“ an einer bestimmten Stelle an den Rand. Hier wird einer Leistung eine Menge von Wörtern zugeordnet.

618 Lerneinheit 22

Definition 1: Assessment

(Kompetenz-)Assessment ist der deskriptive Prozess der Präzisierung, der Messung oder verbalen Beschreibung einer Kompetenz und der Interpretation dieser Beschreibung um didaktische Entschei-dungen zu stützen. Sonderformen: Messen, Testen, Prüfen, High-Stakes-Testing.

Ein Zahlenwert allein oder eine verbale Beschreibung allein sagt noch nicht, wie dieser Wert zu inter-pretieren ist. Dazu braucht es eines weiteren Vergleichspunkts. Beispielsweise kann der LIST-Wert der Lernenden verglichen werden mit dem durchschnittlichen LIST-Wert der Klasse (sozialer Ver-gleich). Oder der Wert wird verglichen mit den Ergebnissen, die die einzelnen Lernenden in früheren Assessments erzielt haben (individueller Vergleich).

22.2.2 Diagnose, Prognose, Retrognose, Zielbestimmung und Zielrekonstruktion In der Lerneinheit 7 war bereits die Unterscheidung zwischen deskriptiven und normativen Sprechen über Kompetenz eingeführt worden. Kompetenz ist in mehrfacher Hinsicht in die Urteilsbildung der Lehrkraft einbezogen (Jäger, 2009). Nach dem Zeitpunkt des Urteilens können verschiedene Formen des deskriptiven und normativen Umgangs mit Kompetenz unterschieden werden. In beschreibender Hinsicht (deskriptiv) geht es vorher, zum Beispiel vor einem Unterricht, um die Frage „Wie ist es?“ (Diagnose) bzw. „Wie wird es sein?“ (Prognose). Nachher geht es um die Frage „Wie war es?“ (Ret-rognose) oder „Warum war es so?“ (Erklärung). In vorschreibender Hinsicht (normativ) konzentriert sich die Lehrkraft vor allem auf die Frage „Wie sollte es sein?“ (Zielbestimmung) neben den anderen, eher untergeordneten Fragen, zum Beispiel „Wie sollte es gewesen sein?“ (Zielrekonstruktion).

Funktion Zeitbezug Zustandsfrage Deskriptiv (beschreibend) Aktuell Diagnose Wie ist es?

Vorausschauend Prognose Wie wird es sein? Rückblickend Retrognose Wie war es?

Normativ (vorschreibend) Vorausschauend Zielbestimmung Wie sollte es sein? Rückblickend Zielrekonstruktion Wie sollte es gewesen sein?

Übersicht 2: Diagnose, Prognose, Retrognose, Zielbestimmung und Zielrekonstruktion

22.2.3 Sonderformen des (Kompetenz-)Assessments Der Begriff „Assessment“ ist ein Oberbegriff für das Messen, das Testen, das High-Stakes-Testen, das Prüfen und das Large-Scale-Assesment.

22.2.3.1 (Kompetenz-)Messen als Sonderform des (Kompetenz-)Assessments Messen bedeutet in der Messtheorie1 die Zuordnung von Zahlen nach bestimmten Regeln. Wenn bei-spielsweise mit einem Meterstab, einem Zollstock, einem Brett die Zahl „120“ zugeordnet wird, dann ist dies eine Messung. Das Besondere an der Messung ist, dass die Eigenschaften, etwa die Länge, einer Menge von Gegenständen (empirisches Relativ), so Zahlen zugeordnet werden, dass die Eigen-schaften in die Welt der Zahlen, dem numerischen Relativ transportiert werden: Kürzere Bretter erhal-ten kleinere Zahlen, gleichlange Bretter gleiche Zahlen und so fort. Ein Messmodell besteht aus einem empirischen Relativ, den Brettern, einem numerischen Relativ, den Zahlen, und einer Funktion, die für eine strukturerhaltende, sogenannte homomorphe, Abbildung sorgt.


Übersicht 3: Das Messen

Mit anderen Worten: Messen ist das homomorphe Abbilden eines empirischen Relativs in bzw. auf ein numerisches Relativ. Messwerte sind mithin Zahlen, denen eine Messung zugrunde liegt.

Definition 2: Messen

(Kompetenz-)Messen ist eine Form des Assessments, bei dem homomorph auf die Menge der Zahlen abgebildet wird.

Messen ist eine Sonderform des Assessments. Ein Assessment kann jedoch auch in ein nicht-numerisches Relativ, zum Beispiel eine Menge von Wörtern, abbilden. So kann die Menge der Bretter mit den Worten „lang“, „sehr lang“ oder „kurz“ beschrieben werden. Das Messen hat den Vorteil, dass viele Informationen über die Zahlen, die Menschen mühsam vor und in der Schule lernen, genutzt werden. So stellen schon die natürlichen Zahlen unendlich viele Möglichkeiten zur Beschreibung zur Verfügung. Trotzdem sind einige Eigenschaften, zum Beispiel die Größenverhältnisse, sofort klar. Dieser Rückgriff auf Zahlen – bzw. präziser die Eigenschaften von Zahlen – hat den Vorteil, dass sich ausdifferenzierte Beschreibungen mit Hilfe von Zahlen erstellen lassen, die sich mit Worten nicht erreichen lassen. Sie erheben dann den Eindruck hoher Präzision. Dies gilt allerdings nur, wenn tat-sächlich eine Messung, also eine homomorphe Abbildung, zugrunde liegt. Andernfalls gaukeln die Zahlen Genauigkeit nur vor. Wenn etwa für Leistungen in der Schule Notenstufen mit Zahlen, also etwa das „Sehr gut“ mit „1“ und das „Gut“ mit „2“ bewertet wird, ist sofort klar, dass 1 kleiner als 2 ist. Der Abstand zwischen „gut“ und „sehr gut“ – und damit zwischen „1“ und „2“ – ist nicht definiert. Gleichwohl werden in der Praxis Zwischenwerte gebildet, etwa „1,4“, die streng genommen keine Messwerte sind und damit eine Genauigkeit nur vorgaukeln.

Eine Kompetenzmessung ist ein homomorphes Abbilden von Kompetenzen in die Menge der Zahlen. Ob wirklich überall dort, wo „Kompetenzmessung“ drauf steht, auch wirklich eine Messung drin ist, ist höchst fraglich. Die Vergabe von Schulnoten hat eine große Bedeutung für das Leben der Men-schen in einer Leistungsgesellschaft. Allerdings sind solche Schulnoten allenfalls Schätzwerte auf einer Ordinalskala. „Nun mag man die Berechnung von Notendurchschnitten oder Gesamtnoten damit entschuldigen, dass ja bei allen Probanden etwa die gleichen Fehler vorkämen und sich ausgleichen. Damit könne man leben. Aber angesichts unscharfer Diagnose und mathematischer Fragwürdigkeit muss jeder Genauigkeitsanspruch auf Zehntel und Hundertstel sinnlos sein – und fragwürdig damit auch jede Entscheidung, die sich auf solche Scheinexaktheit stützt. Wenn das bei NC-Zulassungen, Staatslisten usw. dennoch geschieht, so ist das eine offenkundige Notlösung mangels praktikablerer, d. h. weniger aufwendiger Auswahlverfahren, nicht etwas, das man guten Gewissens tun sollte“ (Göckel nach Ziegenspeck, 1999, S. 121). Lehrkräfte sollten sich daher nicht hinter der Scheinobjektivität von Noten zurückziehen. Jongebloed fordert demgegenüber eine offensive Subjektivität, d. h. einen „offen-

620 Lerneinheit 22

siv bekennenden Umfang mit Subjektivität“ (1994, S. 189) der Beurteilenden. Dieser sollte dadurch erreicht werden, dass „alle im Zusammenhang mit Beurteilung stehenden Entscheidungen einer Be-gründungspflicht unterworfen werden“ (Jongebloed, 1994, S. 198).

Wortwörtlich: Hans-Carl Jongebloed, WiPäd Kiel

Wenn also Subjektivität prinzipiell nicht auszuschalten ist … dann scheint die einzige, noch mögliche Alternative doch wohl darin zu bestehen, sich offensiv zur Subjektivität zu bekennen und den Ver-such, auf z.B. verfahrenstechnischem Wege, Objektivität zu sugge-rieren, gar nicht erst zu unternehmen. Proklamiert sei also die soge-nannten »offensiven Subjektivität« – ein Ansatz, der darauf setzt, dass sich die konkrete pädagogisch-diagnostische Arbeit an der indi-viduellen, subjektiv-personalen Kompetenz des Beurteilenden evalu-iert, - ein Ansatz, der die zu Beurteilenden, die Objekte also, nicht ohne jeden Unterschied um ihre Subjektivität betrügt. … Der Beurtei-lende wird uneingeschränkt auf die persönliche Verantwortung für sein Tun verpflichtet und übernimmt diese auch ohne wenn und aber.

Bild 1: Hans-Carl Jongebloed. Von philsem. Zitat: Jongebloed (1992, S. 38 ff.)

22.2.3.2 Testen als Sonderform des Assessments Kompetenz ist nicht beobachtbar, sondern nur über die Performanz zu erschließen. Die Performanz ist dabei ein Indiz für die Kompetenz. Kompetenz ist eine latente, also verborgene, nicht sichtbare Vari-able. Die Performanz, also das Handeln der Person, soll in einem Test ‚hervorgerufen‘ werden. „Als Item (das Wort wird üblicherweise englisch ausgesprochen und dekliniert) bezeichnet man die Be-standteile eines Tests, die eine Reaktion oder Antwort hervorrufen sollen, also die Fragen, Aufgaben, Bilder etc.“ (Rost, 1996, S. 18). Diese Items sind manifeste bzw. beobachtbare Variablen. Ein Test geht davon aus, dass zwischen den Items systematische Zusammenhänge bestehen. Wenn eine Person bei dem Item „Ich bin traurig“ die Alternative „trifft zu“ ankreuzt, wird es überzufällig eine ähnliche Antwort bei verwandten Items geben, etwa „Ich bin niedergeschlagen“ (Bühner, 2010). Die Zusam-menhänge werden durch eine latente Variable, etwa Traurigkeit, ‚erklärt‘. Diese latente Variable ist für die Antworten ‚verantwortlich‘ bzw. ‚produziert‘ das Handeln der Person. „Die Testtheorie be-schäftigt sich mit dem Zusammenhang von Testverhalten und dem zu erfassenden psychischen Merk-mal“ (Rost, 1996, S. 20).

Das Testen ist eine Sonderform des Assessments. „Ein Test ist ein wissenschaftliches Routineverfah-ren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsaus-prägung“ (Lienert, Raatz & Lienert-Raatz, 1998, S. 1). Ein solches wissenschaftliches Routineverfah-ren ist immer standardisiert, d. h. das Routineverfahren legt genau fest, wie der Test durchzuführen und auszuwerten ist. Derartige Tests beruhen aus der klassischen Testtheorie oder der jüngeren proba-bilistischen Testtheorie (Winther, 2010, S. S. 118 ff.). Tests sind immer standardisiert und wissen-schaftlich. Damit ist „standardisierter Test“ und „wissenschaftlicher Test“ eine Tautologie. Im Alltag werden freilich auch nicht wissenschaftliche Formen der Feststellung des Lernergebnisses als „Tests“ bezeichnet. Zur besseren Abgrenzung werden diese Tests „informelle Tests“ und die Tests im ur-sprünglichen Sinne „wissenschaftliche Tests“ genannt.

Wissenschaftliche Tests werden meist über spezifische Verlage angeboten, etwa die Testzentrale (www.testzentrale.de) oder als Teil wissenschaftlicher Datenbanken, vor allem der psychologischen Datenbank Psyndex nachgewiesen. Die wissenschaftliche Konstruktion von Tests ist ein umfangrei-cher und aufwändiger Prozess, der von der Anforderungsanalyse bis zur Eichung reicht (Bühner,


2010). Unter schulischen Normalbedingungen scheidet eine solche Konstruktion schuleigener Instru-mente aus. Alternativ können bereits existierende Instrumente genutzt werden. Der Rückgriff auf Tests führt jedoch im Schulalltag regelmäßig zu weiteren Problemen (Wilbers, 2012).

22.2.3.3 Prüfen als Sonderform des Assessments Eine weitere Sonderform des Assessments ist das Prüfen. Prüfungen sind „typische Strategien der Informationssammlung und -verarbeitung für Entscheidungen über die Vergabe von Zertifikaten“ (Reisse, 1999, S. 322). „Prüfungsverfahren sind die im allgemeinen durch Rechtsnormen festgelegten Vorgehensweisen (das ‚Wie’), mit denen bei Prüfungen Informationen über die Kompetenz der Prü-fungsteilnehmer gewonnen und auf dieser Grundlage Zertifikate vergeben werden“ (Reisse, 1999, S. 333).

22.2.3.4 High-Stakes-Testing als Sonderform des Assessments High-Stakes-Testings ist eine Sonderform des Testens. Das Wort „High-Stakes-Testing” setzt sich aus dem englischen Wort für testen und “high stake” zusammen, was so viel wie “hohe Einlage” oder “hoher Spieleinsatz” bedeutet. High-Stakes-Testing liegt vor, wenn auf der Grundlage einer einzigen Leistung in einem wissenschaftlichen Test eine für die Lernenden grundlegende Entscheidung getrof-fen wird, etwa das Bestehen eines Schulabschlusses, also eine Prüfung.

In den USA wurde High-Stakes-Testing durch ein Gesetz mit dem werbewirksamen Namen „No Child left behind“ (NCLB) gefördert. Dieses Gesetz aus dem Jahre 2001 geht auf einen vom damaligen Prä-sidenten George W. Bush initiierten politischen Prozess (Jaiani & Whitford, 2011) zurück. Schulen werden dazu verpflichtet, eine angemesse-ne jährliche Zuwachsrate (‚adequate yearly progress‘), gemessen an den Leistungen in wissenschaftlichen Tests, zu berichten. Obama hat als NCLB-Nachfolger die Initi-ative „Race to the top“ (R2T) eingeführt. Auch R2T setzt auf High-Stakes-Testing auf der Basis von Bildungsstandards und sieht ein Interventionsmodell für Schulen vor, die – gemessen an den Werten in High-Stakes-Testing – versagen. Das In-terventionssystem ist dabei gestuft und reicht von anfänglichen Maßnahmen wie dem Austausch der Schulleitung bis hin zum Schließen der Schule (Martinek, 2011). Die Kritik am High-Stakes-Testing und an dieser Form der Steuerung von Schule dürfte inzwischen ganze Bibliotheken füllen.

Die wichtigsten Kritikpunkte sind: Die Tests reflektieren nicht immer die zentralen Bildungsziele. Die Testvorbereitungsaktivitäten reduzieren die Unterrichtszeit. Nicht getestete Ziele bzw. Inhalte werden entwertet. Bei der Testvorbereitung werden simple, von der Lehrkraft dominierte Methoden und test-ähnliche Aufgabenformate verwendet. Weiterhin stellt sich die Frage, ob Verbesserungen der Leistun-gen in den Tests ‚wirklich‘ eine Verbesserung der Kompetenz der Schülerinnen und Schüler darstellen oder ‚nur‘ Ausdruck eines besseren Fitmachens für den Test (‚teaching-to-the-test‘), etwa durch stupi-des Üben der Aufgaben, die in Prüfungen vorkommen (Maier & Kuper, 2012).

High-Stakes-Testing ist nur ein Element eines umfassenden Steuerungssystems für Schulen, wie es vor allem in den USA vorkommt. Dieses besteht aus vier Elementen: Bildungsstandards als normative Vorgabe bzw. Kompetenzerwartungen, wissenschaftliche Tests als Instrument zur Überprüfung des

Bei High-Stakes-Testing steht beim Testen viel auf dem Spiel.

Bild 2. Von Boing, photocase.com

622 Lerneinheit 22

Outputs, Sanktionen sowie ein Unterstützungssystem für Schule und für die Durchführung des Steue-rungssystems (Mintrop & Sunderman, 2012).

Inzwischen gibt es ernsthafte Kritik, ob die Rechenschaftssysteme – empirisch betrachtet – die ver-sprochene Besserung der Leistungen erbringen. Das „amerikanische Großexperiment“ (Mintrop & Sunderman, 2012) hat demnach Auswirkungen auf Schulen gehabt. Allerdings nicht immer im Sinne der erwünschten Wirkungen, sondern auch mit unerwarteten Nebenwirkungen. Die Befundlage ist insgesamt nicht einheitlich.2

22.2.3.5 Large Scale Assessments als Sonderform des Assessments Bei Large Scale Assessment (LSA) werden großangelegte (‚large scale‘) Assessments von Schülerin-nen und Schülern verschiedener Nationen und deren Teilgebiete, etwa Bundesländer, durchgeführt. Large Scale Assessments sollen vor allem der Evaluation von Schulen und Bildungssystemen dienen.

In den 1970er und 1980er Jahren hat Deutschland an keiner internationalen Schulleistungsstudie teil-genommen. Die erste internationale Studie war in den 1990er Jahren die eher wenig beachtete TIMS-Studie (Trends in International Mathematics and Science Study). Bei TIMSS werden in regelmäßigen Abständen die mathematischen und naturwissenschaftlichen Leistungen von Schülerinnen und Schü-lern gemessen. An TIMSS 2007 Grundschule nahmen beispielsweise 183.150 Schülerinnen und Schü-ler der vierten Jahrgangsstufe in 36 Staaten und 7 Regionen teil (Bos et al., 2008).

Stärker als die TIMS-Studie wurde – vor allem 2001 und 2002 – die PISA-Studie (Programme for International Student Assessment) beachtet. In PISA werden im dreijährigen Rhythmus ausgewählte Kompetenzen (outputs) von 15-Jährigen in fast allen Ländern der OECD erhoben, wobei die einzelnen Nationen – wie von Deutschland stark genutzt – die Möglichkeit nationaler Testergänzungen haben (Klieme et al., 2010). Die Ergebnisse lösten u. a. eine Debatte um die Schulstruktur aus, blieben je-doch auch nicht ohne Kritik (Wuttke).

Large Scale Assessments werden vor allem bildungspolitisch genutzt. Sie sollen der sogenannten evi-denzbasierten Schulsteuerung dienen. „Evidenzbasiert“ leitet sich dabei vom englischen „evidence based“ ab und kommt ursprünglich aus der Medizin (‚evidence based medicine‘). Das Ziel evidenzba-sierter Steuerung ist es, „systemrelevantes Steuerungswissen für Bildungsprozesse bereitzustellen und damit den Transfer von wissenschaftlichen Erkenntnissen in Bildungspolitik und -praxis zu verbes-sern. Eine indikatorengestützte Bildungsberichterstattung sowie Bildungsstandards stellen in diesem Kontext wichtige Steuerungsinstrumente dar. Indikatoren sind dabei zu verstehen als empirisch rele-vante und empirisch belastbare Informationen über ausgewählte Bereiche des Bildungs- und Erzie-hungswesens“ (Tippelt & Reich-Claassen, 2010, S. 22 f.).

Large Scale Assessment und Bildungsstandards stellen – so die Kultusministerkonferenz – einen „Pa-radigmenwechsel in der Bildungspolitik in Deutschland im Sinne von Ergebnisorientierung, Rechen-schaftslegung und Systemmonitoring“ (KMK, 2006) dar. Das Bildungsmonitoring sei dabei die „sys-tematische Beschaffung von Informationen über ein Bildungssystem“ (KMK 2006, S. 7). Ein bundes-weites Instrument ist der bereits mehrfach veröffentliche Bildungsbericht „Bildung in Deutschland“ (Weishaupt, 2010) auf der Webseite www.bildungsbericht.de. Darüber hinaus werden weitere Bil-dungsberichte veröffentlicht, in Bayern etwa der bayerische Bildungsbericht (ISB, 2009) oder in Kommunen, etwa der Bericht „Bildung in Nürnberg 2011“ (Stadt Nürnberg, 2011).


Wortwörtlich: Esther Winther, WiPäd Paderborn

Im Bereich der beruflichen Bildung können zumindest drei zentrale Entwicklungen bestimmt werden, die eine Diskussion um Kompeten-zen und Kompetenzmodelle notwendig werden lassen: Revisionen des Steuerungssystems der beruflichen Bildung, Neufassung der europäischen Zertifizierung von Bildungsergebnissen sowie die Revi-sion der Input-Parameter der beruflichen Bildung.

Bild 3: Esther Winther. Foto privat. Zitat: Winther (2010, S. 6) In der Berufsbildungsforschung wurde die vor allem durch pädagogische Psychologen vorangetriebe-ne Debatte um Kompetenzmessung aufgegriffen. Als Large Scale Assessment wurden Überlegungen zu einem „Berufsbildungs-PISA“ (Baethge & Achtenhagen, 2009; Baethge, Achtenhagen, Arends, Babic & Baethge-Kinsky, 2006) angestellt und in eine Machbarkeitsstudie zu einem Large Scale As-sessment of Vocational Education and Training (VET-LSA) (Baethge & Arends, 2009) überführt. Die Arbeiten werden zurzeit vorgeführt in der Forschungsinitiative ASCOT (Technology-based Assess-ment of Skills and Competencies in VET; Thiele & Steeger, 2011).3

Bildungsmonitoring fußt auf Vorstellung des New Public Managements. Explizite Leistungsstandards und eine größere Betonung der Output-Steuerung sind beispielsweise ausgewiesene Merkmale der neuen Steuerung (Schedler & Proeller, 2009, S. 39 ff.). Ob sich Bildungssysteme und Schulen über-haupt steuern lassen – wie es der Begriff der neuen Steuerung unterstellt – wird stillschweigend vo-rausgesetzt, ist aber durchaus umstritten (Böttcher, Bos, Döbert & Holtappels, 2008).

22.3 Ziele von Assessments und Assessment-Paradigmen: Assessment unterschiedlich denken

22.3.1 Ziele von Assessments: Was wollen Assessments? Assessments verfolgen ein ganzes Bündel von Zielsetzungen. Diese hängen eng mit den in Kapitel 15 eingeführten Funktionen von Schule zusammen. Schule hat – so wurde bereits ausgeführt – vier Funk-tionen, nämlich die Qualifikations-, die Allokations-, die Integrations- sowie die Enkulturationsfunkti-on. Diese Funktionen korrespondieren mit den Funktionen von Assessments.4

Ziele Funktion Korrespondierte Funk-tion der Schule

Planerische Ziele Vor dem Unterricht: Didaktische Entschei-dungen vorbereiten (Bedingungsanalyse)

Während des Unterrichts: Formative Evalua-tion

Nach dem Unterricht: Summative Evaluation

Qualifikation

Unterstützung des Lehr-Lernprozesses

Schwerpunktbildung und Vertiefung Motivation Druck und Machtausübung Unterstützung Selbstkompetenzentwicklung

Monitoring für weitere Stakeholder

Monitoring für Lernende Monitoring für Betriebe, Eltern und andere

Partner der Schule Bildungspolitisches Monitoring von Schule

und Bildungssystem Allokationsziele Vergabe von Berechtigungen

Signaling Allokation

624 Lerneinheit 22

Enkulturationsziele Vermittlung des Leistungsprinzips Vermittlung von Machtdistanz

Enkulturation

Integrationsziele Vermittlung rechtsstaatlicher Prinzipien Integration Übersicht 4: Ziele von Assessments

Assessments sind für den Lehr-Lernprozess in mehrfacher Weise hilfreich. Assessments haben für die Lehrkraft zunächst planerische Funktionen (Oosterhof, 2001, S. 8 ff.; Weinert & Schrader, 1986, S. 13 ff.). Diese Funktionen korrespondieren mit der Qualifizierungsfunktion der Schule.

Assessments haben eine wichtige planerische Zielsetzung. Vor dem Unterricht dient das Assessment als Teil der Be-dingungsanalyse dazu, didaktische Entscheidungen vorzube-reiten, beispielsweise den Unterricht auf die bereits vorhan-dene Fachkompetenz zuzuschneiden. Assessment zielt hier auf die Gewinnung von Information über den aktuellen Zu-stand der Lernenden zur Vorbereitung des Unterrichts. Wäh-rend des Unterrichtens unternimmt die Lehrkraft Assess-ments, um zu überprüfen, ob sie Erfolg hat, also ihre Lern-ziele erreichen konnte, und ob sie weitere Änderungen am Unterricht vornehmen sollte. Assessment dient hier dem Feststellen, was die Lernenden während des Unterrichts ge-lernt haben, um den weiteren Verlauf des Unterrichts ent-sprechend zu gestalten. So ist im traditionellen Unterrichts-verlauf immer eine Phase der Ergebnissicherung vorzusehen. Eine solche Lernzielüberprüfung ist eine formative Evaluati-on, bei der die Lehrkraft den Unterricht neu formen möchte (Merkregel: „formativ = Wie kann ich noch formen?“). Eine Lehrkraft kann auch ein Assessment vornehmen, wenn sie das Gefühl hat, einige Probleme näher er-gründen zu müssen. Nach dem Unterricht kann die Lehrkraft im Rahmen einer summativen Evaluation erheben, welchen Erfolg sie gehabt hat (Merkregel: „summativ = Was hat es in Summe gebracht?“). Assessment dient hier der Feststellung, was im Unterricht gelernt wurde, um Noten oder Berechtigun-gen zu geben, aber auch um die Einschätzung des Lehrerfolgs.

Auch die Unterstützung der Lehr-Lernprozesse korrespondiert mit der Qualifikationsfunktion von Schule. Schülerinnen und Schüler können aufgrund der Schwerpunkte von Assessments die Schwer-punkte ihres Lernens setzen. Transparente Lernziele und eine darauf abgestimmte Prüfung sind ein Mittel, die Schülerinnen und Schüler bei der Setzung von Schwerpunkten des Lernens zu unterstützen. Dies setzt jedoch eine hohe Passung zwischen den veröffentlichten Lernzielen, den im Unterricht ver-folgten Zielen und den in Assessments verfolgten Zielen voraus. Assessments können eine weitere Vertiefung des Unterrichts gewährleisten, indem sich die Lernenden erneut mit den Lerngegenständen auseinandersetzen (Ormrod, 2008, S. 547 ff.). Dies setzt jedoch voraus, dass die gewählten Schwer-punkte im Assessment zu den verfolgten Lernzielen passen und dass keine Falschinformationen dem Lernen entgegenwirken. Bei der Vertiefung und der Schwerpunktbildung besteht jedoch die Gefahr, dass Lehr-Lernprozesse zu eng geführt werden (‚teaching-to-the-test‘). Assessments können Lernende motivieren. Dies gilt vor allem für Assessment mit kriteriumsorientierter Bezugsnorm und mittlerem Schwierigkeitsgrad. Allerdings besteht bei der Motivation mit Hilfe von Assessments die Gefahr, Schülerinnen und Schüler von Rückmeldungen abhängig zu machen. Dieser Gefahr kann vor allem durch eine erhöhte Beteiligung der Schülerinnen und Schüler am Assessment entgegengewirkt werden (Ormrod, 2008, S. 581 ff.). Der Hinweis auf die Prüfungsrelevanz eines Inhaltes übt bei Lernenden oft hohen Druck aus. “Prüfungsrelevanz“ stellt ein einfach zur Verfügung stehendes Mittel zum Ausüben

Mit Assessment ist auch der Wunsch nach Daten für die

Steuerung verbunden Bild 4. Von christianthiel.net, fotolia.com


von Druck und Macht dar, freilich mit der Gefahr des Machtmissbrauchs durch die Lehrkraft. Assess-ments können die Fähigkeit der Lernenden zur Selbststeuerung ihres Handelns, vor allem des Lern-handelns bzw. des Lernens, unterstützen (Ormrod, 2008, S. 547 ff.). Ein wichtiger Aspekt der Selbst-steuerung ist die Selbstbewertung des eigenen Handelns bzw. des eigenen Handlungserfolges. Dies setzt allerdings voraus, dass die Rückmeldung den Schülerinnen und Schülern einen Vergleich der eigenen Einschätzung (‚Selbstbild‘) mit der Einschätzung der Lehrkraft bzw. von Peers (‚Fremdbild‘) ermöglicht.

Assessment erlauben ein Monitoring für weitere Stakeholder. Diese Monitoringfunktion korrespon-diert mit der Qualifikationsfunktion von Schule. Assessments können den Lernenden Informationen darüber geben, wo ihr Lernen (noch) nicht erfolgreich war und wo schon. Dies setzt jedoch voraus, dass eine vergleichsweise differenzierte Rückmeldung – und nicht nur ein summarischer Zahlenwert – von der Lehrkraft kommuniziert wird. Assessments können Eltern, Betriebe und andere Partner über den Zustand der Kompetenzentwicklung, den Lernerfolg und den Lehrerfolg informieren. Large Scale Assessments erheben den Anspruch, einen Beitrag zum Monitoring der Leistungen aufgrund eines Schulvergleichs oder von Bildungssystemen in internationalen Vergleichen zu leisten.

Assessments erlauben – in den Gesellschaften mit einer Betonung des Leistungsprinzips – eine Vertei-lung von Lebenschancen. Diese Funktion der Allokation korrespondiert mit der gleichnamigen Funkti-on der Schule. Assessments können zu Berechtigungen führen. So wird der Hochschulzugang – weit-gehend – über den Nachweis von Zeugnissen geregelt. Diese Berechtigungsfunktion kann jedoch zu einer unreflektierten Titelgläubigkeit führen. Assessments bzw. ihre Dokumentation, etwa in Zeugnis-sen, senden ein Signal aus, vor allem auf Arbeitsmärkten. Dabei besteht die Gefahr der schlichten Selbstinszenierung.

Assessments unterstützen das Hineinwachsen der Schülerinnen und Schüler in eine Leistungskultur und damit in gesellschaftliche Teilhabe und kulturelle Identität. Diese Enkulturationsfunktion korres-pondiert mit der gleichnamigen Funktion von Schule. Die Schülerinnen und Schüler werden an das Leistungsprinzip herangeführt, allerdings mit der Gefahr des unreflektierten Leistungskults. Mit As-sessments wird Macht ausgeübt, die durchaus legitim sein kann. Assessments führen zum Erleben einer ungleichen Verteilung von Macht in der Gesellschaft. Die Lehrkraft ist – etwa bei Zeugnissen – die mächtigere Person, die grundlegende Entscheidungen im Verlauf des Lebens von Schülerinnen und Schüler beeinflussen kann.

Assessments können einen Beitrag zur Integration in das politische System einer Gesellschaft leisten. Mit Assessment besteht die Möglichkeit, dass die Schülerinnen und Schüler rechtsstaatliche Prinzipien erlernen. So sind Zeugnisse öffentliche Urkunden und ihre Fälschung gemäß dem deutschen Strafge-setzbuch strafbar. Die Erstellung einiger, nicht aller Assessments, auch nicht aller Zeugnisse, ist aus Sicht des öffentlichen Rechts ein Verwaltungsakt und eröffnet damit die Möglichkeit des Rechtsbe-helfs, zum Beispiel des Widerspruchs.

22.3.2 Assessment-Paradigmen: Zwei grundsätzliche Denkweisen über Assessments In der Auseinandersetzung um Assessments können zwei verschiedene Paradigmen unterschieden werden, die sich zum Teil rhetorisch überspitzt gegenüber stehen. Sie werden hier das „Testparadig-ma“ und das „Klassenraumparadigma“ genannt.5 Paradigmata sind Denkweisen, denen bestimmte Normen zugrunde liegen, die verschiedene Ansprüche verfolgen und typische Methoden einsetzen.6

22.3.2.1 Testparadigma und Klassenraumparadigma: Was darunter verstanden wird Das Testparadigma dient einer vergleichsweise kleinen Gruppe von Stakeholdern für wenige Funktio-nen, vor allem dem Bildungsmonitoring sowie dem High-Stake-Testing. Demgegenüber richtet sich das Klassenraumparadigma an eine breitere Zielgruppe, vor allem Lehrkräfte, Schülerinnen und Schü-

626 Lerneinheit 22

ler, Betriebe und Eltern. Während das Klassenraumparadigma vor allem die Ebene des Unterrichts erhellen will, geht es beim Testparadigma vor allem um die Ebene des Bildungssystems und der Schu-le, wenngleich sich die Ergebnisse weiter herunterbrechen lassen.

Methodisch setzt das Testparadigma auf relativ selten eingesetzte wissenschaftliche Assessmentme-thoden, also Tests, die quantifizieren und damit der multivariaten Statistik zugänglich werden. Das Klassenraumparadigma setzt viele unterschiedliche, oft auch gemischt eingesetzte Methoden relativ häufig ein, deren Auswertung vergleichsweise unsystematisch erfolgt.

Die zugrunde gelegten Kompetenzmodelle unterscheiden sich. Während im testtheoretischen Para-digma meist – wegen des damit verbundenen Erhebungs- und Operationalisierungsaufwandes – nur ausgewählte Dimensionen und Kontextfaktoren erhoben werden, erfolgt der Zugriff im Klassenraum-paradigma holistisch. Beide Paradigmen können kein einheitliches Kompetenzmodell zugrunde le-gen.7 Das testtheoretische Paradigma beschränkt sich auf die Erfassung des Outputs, nicht des Outco-mes, in einigen Dimensionen.

Das testtheoretische Paradigma hat eine niedrige Einpassung in die Lehr-Lernsituation. Das Assess-ment-Pentagon wird konzeptionell wenig beachtet. Lediglich einige Kontextfaktoren bilden die Situa-tion ab und das Paradigma hat eine niedrige Anschlussfähigkeit zum Prüfungswesen in der Berufsbil-dung. Das Klassenraumparadigma lebt hingegen von der Einbettung in die Situation. Damit ein Klas-senraum-Assessment die beschriebenen Funktionen erfüllen kann, muss die Lehrkraft die Ergebnisse mit allen weiteren, zum Teil höchst singulären Ergebnissen zu den Lernenden, zu dem Lehr- und Lernprozess und zum Assessment verbinden. „Part of the power of classroom assessment resides in these connections. Yet precisely because they are individualized and highly contextualized, neither the rationale nor the results of typical classroom assessments are easily communicated beyond the class-room” (Pellegrino, Chudowsky & Glaser, 2001, S. 222).

Die geringe situationale Einpassung kann auch als Ausdruck der Tradition des testtheoretischen Para-digmas gesehen werden. Das testtheoretische Paradigma hat nicht wie das Klassenraumparadigma eine didaktische Tradition, sondern bindet sich methodisch an die Psychologie und bezüglich der Steue-rungslogik an das New Public Management an.

Das testtheoretische Paradigma richtet sich – nach den weiter unten beschriebenen – testtheoretischen Kriterien aus. Diese Kriterien sind – im Gegensatz zur Güte von Assessments im Klassenraumpara-digma – gut erforscht. Die wenigen Assessments im Testparadigma sind vergleichsweise aufwändig. Dass das Klassenraumparadigma Probleme hat, aber grundsätzlich ‚funktioniert‘, kann kaum ernsthaft bestritten werden. Diesen Nachweis ist das testtheoretische Paradigma – wie auch die Überlegungen zum NCLB-Experiment zeigen – schuldig.

Aspekt Testparadigma Klassenraumparadigma Anlage Primäre Zielgruppe Bildungspolitik (Large

Scale Assessment), High-Stake-Testing

Lehrkräfte, aber auch Schülerinnen und Schü-ler, Betriebe, Eltern

Funktionen für Stake-holder

Wenige, z. T. nur einzel-ne Funktionen

Multifunktional

Primäre Ebene Prinzipiell alle Ebenen, verstärkt jedoch Schul- und Bildungssystemebe-ne

Ebene des Unterrichts

Methoden Methoden Wenige, selten einge-setzte wissenschaftliche Methoden (Tests)

Viele, unterschiedliche, häufig, oft gemixt im Klassenraum eingesetzte Methoden


Methoden Primär quantitativ (Mes-sung)

Quantitativ und qualitativ

Auswertung Multivariate Statistik Wenig elaboriert Kompetenzmodell Zugrunde gelegte Kom-

petenzmodellierung Analytisch-selektiv Holistisch

Einheitlichkeit Kein einheitliches Kom-petenzmodell

Kein einheitliches Kom-petenzmodell

Einbettung Assessmentpentagon Geringe konzeptionelle Passung

Hohe konzeptionelle Passung

Bezug zur Situation Wenig Einbettung in die Situation (wenige Kon-textfaktoren)

Umfassende Einbettung in die Situation

Anschlussfähigkeit an das Prüfungswesen in der Berufsbildung

Gering Hoch

Tradition Disziplinäre Anbindung Allgemeine und pädago-gische Psychologie, New Public Management

Didaktik

Theoretische Rückbin-dung

Klassische oder probabi-listische Testtheorie

Didaktik

Bewertung Qualitätskriterien Testpsychologische An-sprüche

Akzeptanz bei Stake-holdern

Bildungspolitisch z. T. gewollt, umstritten

Kritik, aber weitgehend unbestritten

Aufwand Hoher Aufwand für das Einzelassessment

Hoher Aufwand für viele Assessments

Funktionalität Strittig (empirisch & nor-mativ)

Unstrittig

Übersicht 5: Assessmentparadigmen

In der deutschsprachigen Diskussion scheint sich eine Frontstellung zwischen beiden Ansätzen zu verhärten. Gelegentlich ist von Personen, die dem Klassenraumparadigma nahestehen zu hören, dass die Sau nun mal vom Wiegen nicht fett würde. Von Seiten der Personen, die dem Testparadigma na-hestehen, wird die mangelnde ‚Wissenschaftlichkeit‘ vorgeworfen: Entscheidend sei doch, was hinten rauskomme und zwar objektiv bestimmt und nicht nur ‚gefühlt‘. Dabei ist nicht unüblich, die Gegen-position mit den eigenen Ansprüchen zu bewerten.

22.3.2.2 Tradition der paradigmatischen Auseinandersetzung Die aktuelle Diskussion um Assessments wird erstaunlich ahistorisch geführt. Auch wenn gelegentlich der Eindruck erweckt wird, erst PISA habe die Bedeutung der Diagnostik und der diagnostischen Kompetenz von Lehrkräften herausgestrichen: Diese Fragen wurden jedoch keineswegs erstmalig nach PISA relevant, sondern sind ein alter Topos der Bildungswissenschaft und -politik. Bereits der Strukturplan für das Deutsche Bildungswesen reklamiert 1970 die diagnostische Kompetenz von Lehrkräften (Deutscher Bildungsrat, 1970, S. 88). Ein Klassiker deutscher Erziehungswissenschaft, das Buch „Die Fragwürdigkeit der Zensurengebung“ von Karlheinz Ingenkamp (Ingenkamp, 1971), führte damals zu heftigen Kontroversen. Schon früh gab es ausführliche Erörterungen zur Messung von Lernleistungen, in der Wirtschaftsdidaktik etwa der Beitrag „Lehr-Lernkontrolle“ von Hans-Carl Jongebloed (Jongebloed, 1983). Und auch damals gab es eine „Anti-Testbewegung“, um einen von Zeuch geprägten Begriff (Ingenkamp & Lissmann, 2008, S. 25) zu nutzen. Die Kritik der 1970er Jah-re scheint dabei heute nicht mehr beachtet zu werden.

Der Bildungsrat sieht schon 1970 wissenschaftliche Leistungstests als „notwendige Ergänzung des Lehrerurteils“ (Deutscher Bildungsrat, 1970, S. 88). „Während das Lehrerurteil Erfahrung, Einfüh-lungsvermögen und Sensibilität für die Situation der Lernenden in die Bewertung einzubringen ver-

628 Lerneinheit 22

mag, erhöhen die Leistungstests die Objektivität der Kontrolle“ (Deutscher Bildungsrat, 1970, S. 88). In Folge wurde die Verwendung von wissenschaftlichen Tests ausgebaut.

Seit einigen Jahren hat der Ruf nach Diagnose bzw. nach Kompetenzmessung – wieder – Konjunktur. In der Rezeption der Ergebnisse von PISA 2000 beschließt die deutsche Kultusministerkonferenz „Maßnahmen zur Verbesserung der Professionalität der Lehrertätigkeit, insbesondere im Hinblick auf diagnostische und methodische Kompetenz als Bestandteil systematischer Schulentwicklung“ (KMK, 2003). Dabei betont die KMK auch die Rolle der Bildungsstandards, die prominente Befürworter fan-den, aber nicht ohne Kritik (Mugerauer, 2012) blieben.

Von der Stoßrichtung staatlicher Steuerung von Schulen wird damit – erneut – die zentrale, nicht von der Einzelschule ausgehende Entwicklung der Schule betont (Rolff, 2007, S. 195 ff.). „Erneut“ weil sich ab den 1980er Jahren die Einzelschule als Fokus der Entwicklung schulischer Qualität heraus kristallisiert hatte, und zwar nach den Bemühungen um Strukturreform in den 1960er und 1970er Jah-ren sowie der Lehrplan- und Curriculumreform der 1970er und 1980er Jahre (Wenzel, 2004).

In Deutschland wurden – vor allem auf Bundesebene – eine Reihe von Projekten und Initiativen ge-startet. Zu erwähnen ist insbesondere das Schwerpunktprogramm „Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen“ (2007 - 2013) der Deut-schen Forschungsgemeinschaft. Im Rahmenprogramm des BMBF zur Förderung der empirischen Bildungsforschung wird explizit auf die Verschränkung von Bildungspolitik und –forschung hinge-wiesen: „Die … politisch eingeleitete sogenannte »empirische Wende« in der Bildungspolitik setzt zwingend auch eine »empirische Wende« in der Bildungsforschung voraus, weil sonst die Erkenntnis-se und Instrumente nicht verfügbar sind, die für eine evidenzbasierte Steuerung benötigt werden“ (BMBF, 2007, S. 7). Als bekannte Förderschwerpunkte sind – neben ASCOT – vor allem die For-schungsinitiative „Kompetenzmodellierung und -messung im Hochschulsektor" (KoKoHs, 2011 - 2015), das Nationale Bildungspanel (NEPS), die Forschungsinitiative Sprachdiagnostik und Sprach-förderung (FiSS, 2008 - 2010), das Projekt „Technology Based Assessment“ (TBA) zu erwähnen. Auffällig ist dabei die hohe personelle Vernetzung der einzelnen Projekte, Institutionen und Initiati-ven.8

22.3.2.3 Unnötige Fronten Die aktuelle Betonung der Kompetenzmessung im Kontext von Large Scale Assessments bedeutet eine Rehabilitation zentraler Steuerung mit einer Orientierung an den Grundprinzipien des New Public Managements. Die Diskussion sollte sich nicht nur den methodisch-psychometrischen Fragen zuwen-den, sondern auch die politische Perspektive annehmen. Dabei sind die durchaus mahnenden – empiri-schen und normativ-politischen – Erkenntnisse aus den US-amerikanischen Großexperimenten und die deutsche Kritik in den 1970er Jahren zu berücksichtigen.

Die Arbeiten zur Kompetenzmessung können wertvolle Beiträge zum Assessment und der Modellie-rung von Kompetenzen liefern. Will sich die Debatte jedoch dem engen Fokus auf den internationalen Leistungsvergleich lösen, wird sie den im – noch zu beschreibenden – Assessment-Pentagon erhobe-nen Ansprüchen verstärkt Rechnung tragen. Förderpolitisch darf es nicht zu Einseitigkeiten kommen, die vor allem die bildungspolitischen Interessen der Financiers selbst ansprechen, sondern müssen auch den Interessen derjenigen in das Blickfeld rücken, die in den Schulen und Unternehmen die Kärrnerarbeit täglicher Kompetenzentwicklung leisten.


22.4 Ansprüche an ‚gute‘ Assessments Was macht ein gutes Assessment aus?

22.4.1 Das Assessment-Pentagon: Abgleich als Herausforderung an Assessments Der curriculare Abgleich (alignment) wurde bereits bei der Beschäftigung mit Lehrplänen eingeführt. Cohen (1987) definiert: „Instructional alignment describes the extent to which stimulus conditions match among three instructional components: intended outcomes, instructional processes, and instruc-tional assessment” (S. 16). Die Kohärenz eines Assessments, d. h. der strikte Bezug von „Curriculum“, „Instruction“ und „Assessment“ wird in der angelsächsischen Literatur stark betont (Pellegrino et al., 2001, S. 252 ff.). Im angelsächsischen Raum wurden sogar eigene Verfahren zur Messung dieser Gleichrichtung entwickelt (Martone & Sireci, 2009; McNeil, 2006; Porter, 2006).

Biggs (1996) geht weiter und begreift, “Instruction as an internally aligned system” (S. 350). Er führt aus: “Teaching forms a complex system embracing, at the classroomlevel, teacher, students, the teach-ing context, student learning activities, and the outcome; that classroom system is then nested within the larger institutional system“ (S. 350). Damit ist die curriculare Gleichrichtung nicht mehr als eine andere Darstellung des Interdependenzzusammenhangs.

Als Assessment-Pentagon soll hier die Vorstellung bezeichnet werden, dass ein Assessment mit vier anderen curricularen Elementen abgestimmt sein sollte. Als Methode müssen auch Assessment-Methoden nämlich grundsätzlich einen Zielbezug haben und einem Bedingungskontext gerecht wer-den. Das Ziel richtet sich dabei auf die Kompetenzanforderungen in beruflichen und privaten Lebens-situationen und die im Lehrplan formulierten Kompetenzerwartungen.

Übersicht 6: Das Assessment-Pentagon

Ein Assessment muss mit den Besonderheiten der Kompetenzanforderungen in beruflichen und priva-ten Lebenssituationen abgeglichen werden. Ein hoher Abgleich entspricht der Authentizität des Asses-sments. Ein Assessment muss mit den Kompetenzerwartungen, die auch im Lehrplan, also einer offi-ziellen Planungshilfe, formuliert werden, abgeglichen werden. Ein hoher Abgleich bedeutet eine hohe Lehrplankonformität des Assessments. Ein Assessment muss den Bedingungen der Situation auf allen Bedingungsschalen gerecht werden, also den individuellen Bedingungen der Lehrkraft und der Ler-nenden, den Klassen- und Schulbedingungen sowie den Bedingungen auf den höheren Bedingungs-schalen. Ein hoher Abgleich entspricht einer Kontextsensitivität des Assessments. Ein Assessment und der Unterricht müssen aufeinander abgestimmt sein. Ein Unterricht, der auf das Assessment abgegli-chen wird, ist prüfungsrelevant, ein Assessment, das auf den Unterricht abgestimmt ist, ist unterrichts-relevant. Das Pentagon soll ausdrücken, dass hier fünf curriculare Elemente aneinander ausgerichtet werden müssen.

630 Lerneinheit 22

22.4.2 Testtheoretische Kriterien Alle Assessments haben im Sinne der Testtheorie den gleichen Ansprüchen zu genügen, nämlich Ob-jektivität, Gültigkeit (Validität), Zuverlässigkeit (Reliabilität) sowie Ökonomie (Linn & Gronlund, 1995, S. 47 ff.; Oosterhof, 2001, S. 45 ff.).

22.4.2.1 Objektivität Stellen Sie sich eine mündliche Prüfung vor: Der Prüfer ist müde und lustlos, es ist seine 30. Prüfung an diesem Tag. Er ist genervt und will nur noch ‚durch‘. Die Prüfung läuft chaotisch ab: Keine Prü-fung gleicht der anderen. Im Nebenraum wird gerade umgebaut. Der Baulärm ist laut und nervtötend. Zum Glück kennt der Prüfer den Prüfling. Sie ist dem Prüfer bekannt, ihr Ausbilder ein Kollege aus dem Sportverein. Sie kommt aus einem guten Ausbildungsbetrieb und der Ausbilder hat sie schon mehrfach positiv erwähnt. Sie hat schöne Augen, wirkt ordentlich und adrett und wird sicherlich eine gute Prüfung ablegen. Die Auswertung und die Interpretation der mündlichen Prüfung erfolgt nicht transparent, ist mehr zufällig und fast nebenbei zählt die Leistung des Prüflings.

Die beschriebene Prüfung verstößt gegen den grundlegenden Anspruch der Objektivität: „Mit Objek-tivität ist gemeint, inwieweit das Testergebnis unabhängig ist von jeglichen Einflüssen außerhalb der getesteten Person, also vom Versuchsleiter, der Art der Auswertung, den situationalen Bedingungen, der Zufallsauswahl, von den Testitems usw.“ (Rost, 1996, S. 31). Die Objektivität wird üblicherweise eingeteilt in die Durchführungs-, Auswertungs- und Interpretationsobjektivität. Zur Sicherung der Durchführungsobjektivität wird versucht, die Durchführung des Assessments zu standardisieren, bei-spielsweise indem detaillierte Regelungen zur Zeitdauer, zu den zulässigen Hilfsmitteln oder zulässi-gen Kommentare zur Aufgabenstellung aufgestellt werden. Bei der Auswertungsobjektivität, die nach dem hier verwendeten Sprachgebrauch eigentlich „Beschreibungsobjektivität“ heißen müsste, geht es um die Unabhängigkeit der quantitativen oder qualitativen Beschreibung der Performanz. Bei der Auswertung geht es beispielsweise um die Zuordnung eines Messwertes zu einer direkten Reaktion auf einen Test, beispielsweise der Zuordnung von einem Punkt bei einer richtig angekreuzten Lö-sungsalternative. Bei Mehrfachwahlaufgaben (Multiple-Choice-Tests) können hier allenfalls Flüchtig-keitsfehler auftauchen. Ansonsten ist die Auswertungsobjektivität von Mehrfachwahlaufgaben hoch. Schwierig ist die Gewährleistung der Auswertungsobjektivität bei Assessments mit offenen Antwort-mustern, z. B. bei der Auswertung längerer Aufsätze. Eine Interpretationsobjektivität ist dann hoch, wenn verschiedene Personen bei den gleichen Testergebnissen zu ähnlichen Konsequenzen kommen, wenn beispielsweise die gleichen Punktzahlen zu den gleichen Noten führen.

Facette der Objektivität Fragestellung Was kann getan werden? Durchführungsobjektivität Inwieweit sind die Ergebnisse

unabhängig von der Person, die das Assessment durch-führt?

Schriftliche Anweisungen zur Durch-führung, zum Beispiel Zeitdauer, zu-lässige Hilfsmittel oder zulässige Kommentare

Auswertungsobjektivität Inwieweit sind die Ergebnisse unabhängig von der auswer-tenden Person?

Detaillierte Auswertungsregeln

Interpretationsobjektivität Inwieweit ist die Interpretation der Beschreibung unabhängig von der Person?

Hilfestellungen zur Interpretation, zum Beispiel Punkteschlüssel oder aber Notenskalen

Übersicht 7: Drei Facetten der Objektivität

22.4.2.2 Reliabilität (Zuverlässigkeit) Stellen Sie sich bitte folgende Situation vor: Eine Studentin macht sich Sorgen über ihren Gesund-heitszustand. Sie entschließt sich daher, zu ihrem Arzt zu gehen und den Gesundheitszustand bestim-men zu lassen. Der Arzt stellt die Studentin an drei Tagen hintereinander an die Wand und ermittelt mit einem Teleskop-Maßstab drei Werte: 167 cm, 167 cm, 167 cm. Diese drei Werte sind Ergebnis


einer reliablen Messung: Richtig angewendet ist der Teleskop-Maßstab ein gutes Mittel zur Messung. Allerdings hat sich dieses Instrument zur Längenmessung und nicht zur Messung des Gesundheitszu-standes bewährt. Das ist jedoch bei der Beurteilung der Reliabilität gleichgültig: „Mit Reliabilität (Zu-verlässigkeit) ist das Ausmaß gemeint, wie genau der Test das misst, was er misst (egal, was er misst). Es ist hier lediglich die Messgenauigkeit, die numerische Präzision der Messung angesprochen, unab-hängig davon, was der Test überhaupt misst“ (Rost, 1996, S. 31).

Die Reliabilität (Zuverlässigkeit) ist umso höher, je höher die Konsistenz der Messergebnisse ist. Wenn eine Lehrkraft bei Verwendung der gleichen Assessmentunterlagen bei den gleichen Lernenden die gleichen Ergebnisse erhält, ist die Zuverlässigkeit hoch. Reliabilität ist ein primär statistisch-wissenschaftlicher Begriff. Im Unterrichtsalltag sind die üblichen wissenschaftlichen Methoden zur Bestimmung der Reliabilität meist nicht zu gebrauchen.9

Facetten der Reliabilität Prozess Typische Probleme Wiederholungsreliabilität Die gleiche Gruppe erhält das

gleiche Assessment ein zweites Mal nach einem mehr oder weniger langen Zeitraum

Erinnerung, Übung, Veränderung des zugrundeliegenden Konstruktes in der Zwischenzeit, Wahl des richtigen zeitlichen Abstandes

Paralleltestreliabilität Die Gruppe erhält zwei ver-schiedene, parallele Formen des Assessments zum gleichen Zeitpunkt. Anschließend wer-den die Ergebnisse korreliert

Wie bei der Wiederholung, zusätz-lich: Mangelnde Parallelität der Tests

Testhalbierungsmethode Die Gruppe erhält ein Assess-ment zu einem Zeitpunkt. Zwei gleichwertige Hälften des As-sessments werden bewertet, zum Beispiel nur die Aufgaben mit gerader und ungerader Nummer

Unerwünschte Einflüsse, z. B. die Verfassung der Person, betreffen beide Testhälften und erhöhen die Korrelation zwischen den Testergeb-nissen

Analyse der internen Konsistenz

Die Gruppe erhält das Assess-ment einmal. Anschließend wird der Koeffizient Cronbachs Al-pha bestimmt

Ähnlich Testhalbierungsmethode

Übersicht 8: Drei Facetten der Reliabilität, verändert nach Rost (1996)

22.4.2.3 Validität Der Teleskop-Maßstab oder der Gliedermaßstab (‚Zollstock‘) ist ein gutes Mittel zur Messung der Länge, nicht jedoch des Gesundheitszustandes, der Intelligenz oder der Attraktivität einer Person. Va-lidität – der dritte Anspruch – hebt auf den Inhalt der Messung ab: „Mit Validität ist gemeint, inwie-weit der Test das misst, was er messen soll. Es geht also um den Grad der Gültigkeit der Messung oder der Aussagefähigkeit des Testergebnisses bezüglich der Messintention“ (Rost, 1996, S. 31).

Die Gültigkeit (Validität) ist für die Lehrkraft ein zentrales Merkmal. Nach dem Klassiker von Lienert gibt Gültigkeit „den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder vorhersagen soll, tatsächlich misst oder vorhersagt" (Lienert et al., 1998, S. 10). Die Bestimmung der Validität ist nicht einfach. In der Päda-gogik geht es meist um Dinge wie Kompetenzen, Intelligenz, Motivation, also um Konstrukte, die nicht direkt beobachtbar sind. Die Validität hat vier verschiedene Aspekte.

Facetten der Validität

Fragestellung Was kann getan werden Notwendige Informa-tionen

Inhalt Wie gut repräsentieren die Aufgaben des As-sessments einen be-stimmten Inhaltsbereich?

Vergleiche die Aufgaben im Assessment mit der Spezifi-kation der Aufgaben im In-haltsbereich

Inhaltsbereich mit Spe-zifikation, zum Beispiel dem angestrebten ta-xonomischen Niveau

632 Lerneinheit 22

Kriterium Wie gut kann mit diesem Assessment eine Ver-gleichsleistung geschätzt oder vorhergesagt wer-den?

Vergleiche die Ergebnisse dieses Assessments mit den Ergebnissen eines späteren Assessments (Vorhersage) oder einem gleichzeitigen Test (Schätzung des aktuel-len Status)

Andere Testergebnisse

Konstrukt Wie gut kann das As-sessment als Indikator für ein Konstrukt inter-pretiert werden?

Definiere das Konstrukt, betrachte alternative Ergeb-nisse von Assessments und finde heraus, welche Fakto-ren die Ergebnisse beein-flussen

Spezifikation des zu-grundeliegenden Kon-struktes

Konsequenzen Wie gut erfüllt das As-sessment die mit ihm verfolgten Zwecke und vermeidet unerwünschte Nebenwirkungen?

Bewerte verfolgte Ziele und Nebenwirkungen des As-sessments

Zielsetzung und Ne-benwirkungen des As-sessments

Übersicht 9: Facetten der Validität, verändert nach Linn & Gronlund (1995)

Eine Sozialkundeprüfung, die sich anhand der täglichen Zeitungslektüre – und nicht auf Grundlage des Unterrichts – beantworten lässt, wirft die Frage der Inhaltsvalidität auf: Die Prüfung hebt auf den All-tag und nicht auf die Inhalte des Unterrichts ab. Eine Aufnahmeprüfung, die Dinge prüft, die nichts mit den Anforderungen im Lehrgang zu tun haben, zeigt ein Problem der Kriteriumsvalidität auf: Die Ergebnisse des Assessments sind in diesem Fall keine gute Grundlage für die Vorhersage des Lehr-gangserfolgs. Ein Assessment, das vorgibt, umfassend die Gestaltung des Berufsalltags zu überprüfen, aber ‚nur‘ Wissen prüft, spricht ein Problem der Konstruktvalidität an: Hier stimmt die taxonomische Qualität nicht, zumal Gestaltung sich auf der höchsten taxonomischen Ebene bewegt. Eine Prüfung, die als Berufsabschlussprüfung dienen soll und damit ein Signal an den Arbeitsmarkt senden soll, aber tatsächlich diesem Zweck nicht gerecht wird, verletzt den Aspekt der Konsequenzen.

Typische Probleme, die die Validität bedrohen, sind unklare Anweisungen, wie der Test von den Ler-nenden ‚auszufüllen’ ist, ein zu schwieriges Vokabular, vieldeutige Aussagen oder Anweisungen, unverhältnismäßige Zeitlimits, ein unangemessener Schwierigkeitsgrad, schlecht konstruierte Fragen, Reihenfolgeeffekte oder identifizierbare Antwortmuster (Linn & Gronlund, 1995).

Im schulischen Alltag wird die Berücksichtigung aller vier Aspekte der Validität nicht durchsetzbar und oft auch nicht relevant sein. Für ‚normale’ Lehrkräfte sind die Inhaltsvalidität, die Konstruktvali-dität und die Konsequenzen besonders wichtig. Demgegenüber spielt der Abgleich mit anderen Resul-taten nicht immer eine zentrale Rolle. Anders sieht dies bei Auswahltests aus: Hier ist die Kriteriums-gültigkeit besonders wichtig.

22.4.2.4 Ökonomie Der Prozess der Vorbereitung, Durchführung und Auswertung eines Assessments sollte – bei gegebe-ner Zuverlässigkeit und Gültigkeit – möglichst geringen Aufwand verursachen. Dies betrifft den Kon-struktionsaufwand (Konstruktionsökonomie), die Durchführung (Durchführungsökonomie) sowie die Auswertung (Auswertungsökonomie).

22.4.2.5 Beziehungen zwischen den genannten Kriterien Zwischen den genannten Kriterien existiert eine Reihe von Beziehungen. Objektivität ist notwendig für Reliabilität und Reliabilität ist notwendig für Validität. Ein Assessment, das bei einem anderen Testleiter nicht das gleiche Ergebnis bringt, also nicht objektiv ist, kann nicht reliabel sein. Aber: Ob-jektivität kann Reliabilität nicht garantieren und Reliablität kann nicht Validität garantieren. Linn und


Gronlund verdeutlichen die Beziehung zwischen Reliabilität und Validität am Beispiel von „Bullseye“, „Scattershot“ und „Rightpull“ (1995).

Übersicht 10: Beziehung zwischen Reliabilität und Validität nach Linn und Gronlund (1995)

Zwischen der Ökonomie und der Validität existiert ein in der Praxis sehr bedeutsamer Zielkonflikt. Wenn die Aufgaben eines Assessments breit über den Inhaltsbereich streuen sollen, ist dies eine gute Bedingung für eine hohe Inhaltsvalidität. Allerdings führt dies zu einem hohen Aufwand für die Kon-struktion, Durchführung und Auswertung des Assessments. Da im pädagogischen Alltag die Ressour-cen begrenzt sind, muss die Lehrkraft gelegentlich Kompromisse bei der Validität machen.

22.4.2.6 Transparenz und Justiziabilität Weitere Ansprüche an Assessments, die insbesondere bei öffentlich-rechtlichen Prüfungen eine Rolle spielen, sind die Transparenz und die Justiziabilität (IHK-GBA, 2005). Transparenz ist dabei das Ausmaß, in dem die Messung und Bewertung der Prüfungsleistungen durch die Teilnehmenden an der Prüfung nachvollzogen werden kann. Justiziabilität ist das Ausmaß, in dem die Bewertung von Prü-fungsleistungen einer gerichtlichen Nachprüfung unterzogen werden kann.

22.5 Bezugsnormen: Verschiedene Wege der Interpretation des Ergeb-nisses

Im Assessment wird eine Kompetenz präzisiert und dann eine Performanz in einer spezifischen Situa-tion beschrieben. Im Falle der Messung werden der Performanz Zahlen zugeordnet. Angenommen, eine Schülerin hat in einem Assessment insgesamt 62 Punkte erworben. Was bedeutet dieser Wert? Ohne einen Vergleichsmaßstab kann der Wert nicht interpretiert werden. Diesen Zweck erfüllen ver-schiedene Bezugsnormen.

Soziale Bezugsnorm: Bei einer sozialen Bezugsnorm wird die Beschreibung der Performanz durch den Vergleich mit den Anderen interpretiert. Die Vergleichsgruppe kann dabei unterschied-lich groß sein. Typisch ist ein Vergleich in der Klasse (‚Klassenwerte‘) oder der Vergleich mit ei-ner großen Anzahl von Lernenden (‚Normwerte‘). Die 62 Punkte mögen dann auf, über oder unter dem Durchschnitt der Klasse liegen.

Kriteriumsorientierte Bezugsnorm: Beim Rückgriff auf eine kriteriumsorientierte Bezugsnorm erfolgt ein Vergleich mit vorab festgelegten Leistungskriterien. So kann im Vorfeld als Kriterium festgesetzt werden, dass die Lernenden 50 von 100 Aufgaben lösen sollten oder die Performanz einer bestimmten Beschreibung genügen sollte.

Individuelle Bezugsnorm (wachstumsorientiert): Bei einer wachstumsorientierten Bezugsnorm wird das Ergebnis des Assessments in eine Zeitreihe eingeordnet. Der aktuelle Wert wird vergli-chen mit den früheren Werten, die das Individuum in früheren Assessments erworben hat.

634 Lerneinheit 22

Individuelle Bezugsnorm (potentialorientiert): Bei einer potentialorientierten Bezugsnorm er-folgt der Vergleich des aktuellen Wertes mit dem Wert, den eine Schülerin oder ein Schüler brin-gen könnte.

Die Bereitstellung eines Maßstabes zur Interpretation des Wertes eines Assessments, vor allem einer Messung, wird „Normierung“ genannt.

Die verschiedenen Bezugsnormen haben motivationale Auswirkungen. Als Erklärungsansatz dient dazu die Theorie der Kausalattribuierung. Die Attributionstheorie ist eine kognitive Theorie und wur-de vor allem von dem Psychologen Falko Rheinberg, einem Schüler des Kognitionspsychologen Heinz Heckhausen, für den Unterricht fruchtbar gemacht. Die Lehrkraft sollte die Kompetenz der Ler-nenden fördern, sich selbst realistische Zielsetzungen zu geben. Sie sollte günstige Selbstbewertungen der Lernenden fördern und eine individuelle Bezugsnorm zugrunde legen. „Im zeitlichen Längs-schnittvergleich mit sich selbst wird den Schülerinnen und Schülern am ehesten deutlich, wie sehr eigener Lernzuwachs oder Stagnation von eigenen Bemühen und Lernanstrengungen abhängt“ (Rheinberg, 2008, S. 88). Aus motivationaler Sicht sollte die Lehrkraft daher eine individuelle Be-zugsnorm zugrunde legen. Die empirische Forschung zeigt jedoch, dass Lehrkräfte häufig eine soziale Bezugsnorm zugrunde legen.

22.6 Outro

22.6.1 Die wichtigsten Begriffe dieser Lerneinheit Assessment Prüfung Test(en) Objektivität Reliabilität Messen Prüfen High-Stakes-Testing Validität

Ökonomie Transparenz Justiziabilität Bezugsnormen Large Scale Assessment (LSA) Assessment-Paradigma Testparadigma Klassenraumparadigma Assessment-Pentagon

22.6.2 Tools Kein Tool

22.6.3 Kompetenzen Assessment als mehrstufigen Prozess analysieren Assessmentkonzept ausrichten: Ziele, Funktionen, Stakeholder und Anlässe reflektieren; Funktio-

nen und Anlässe von Assessment einordnen; Ziele und Stakeholder von Assessment ausmachen und in Beziehung zur Funktion von Schule setzen

Sonderformen des Assessments reflektieren: (Kompetenz-)Messung bewerten; Testen bewerten; Prüfen als Sonderform des Assessments rekonstruieren; High-Stakes-Testing bewerten; Large-Scale-Assessment bewerten

Assessmentparadigmen unterscheiden, undogmatisch, situationsangemessen bewerten Kriterien für die Gestaltung von Assessments erörtern: Curricularer Abgleich anwenden; Testtheo-

retische Kriterien rekonstruieren

22.6.4 Hinweise zur vertieften Auseinandersetzung: Weiterlesen Zur Testtheorie wird auf ‚den‘ Lienert (Lienert et al., 1998) verwiesen, sicherlich ein Klassiker der psychologischen Literatur. Hinzuweisen ist auch auf das Lehrbuch „Testtheorie – Testkonstruktion“ von Jürgen Rost (1996). Ein verständliches Werk zur Testkonstruktion mit psychologischem Hinter-grund bietet das Buch von Markus Bühner (2010).


Eine sehr gute wirtschaftspädagogisch akzentuierte Auseinandersetzung bietet die Wirtschaftspädago-gin Esther Winter mit ihrem Buch „Kompetenzmessung in der beruflichen Bildung“ (2010). Sie hat vor allem Large Scale Assessments im Blick und führt sowohl in die Kompetenzmodellierung als auch die Testtheorie und die Messung ein. Sie berücksichtigt dabei auch neuere mess- bzw. testtheoretische Modelle.

Eine lehrreiche Auseinandersetzung mit Zeugnissen und Zensuren liefert das Handbuch Zensur und Zeugnis in der Schule von Ziegenspeck (1999).

22.6.5 Hinweise zur vertieften Auseinandersetzung: Weitersurfen Die Ausgabe „Funktionen und Erträge pädagogischer Diagnostik im wirtschafts- und berufspädagogi-schen Bereich“ beschäftigt sich ausführlich mit Fragen des Assessments:

http://www.bwpat.de/content/ausgabe/22/

Psychologie. Zuerst 1957 (5. Aufl.). München & Basel: Beltz.

1 Zur Meßtheorie vgl. Gigerenzer (1981); Orth (1974); Steyer und Eid (1993). 2 Eine kurze Orientierung zu NCLB und High-Stakes-Testing bieten Maier und Kuper (2012); Mintrop und Sunderman (2012); Ormrod

(2008, S. 616 ff.). Eine ausführliche Auseinandersetzung bietet Koretz (2009). In quantitative Studien werden die Leistungsvorteile der NCLB-Steuerung untersucht. Die Metaanalyse von Lee (2008) zeigt Leistungsvorteile, aber auch dass soziale Unterschiede verste-tigt werden statt sie zu beseitigen. Insgesamt sind die Befunde keineswegs eindeutig. Vgl. Dee und Jacob (2011). Wei (2012) zeigt beispielsweise, dass sich keine Leistungsvorteile für Schülerinnen und Schüler mit Behinderungen ergeben. Ein interessantes Bild aus einer anderen, ergänzenden Perspektive zeichnet die ethnographische Studie von Jill P. Koyama (2011).

3 Zur Kritik siehe Euler (2011, S. 59 f.). 4 Die hier angeführten Funktionen beruhen auf einer Auseinandersetzung mit den Funktionen von large Scale Assessments, von Zeug-

nissen und Zensuren nachZiegenspeck (1999), pädagogischer Diagnostik nach Weinert und Schrader (1986) sowie von Assessments nach Ormrod (2008, S. 546 ff.).

5 Weinert und Schrader sprechen sich schon 1986 dafür aus, eine „zweigleisige pädagogische Diagnostik“ (1986, S. 27) zu entwickeln. Dabei stehe, so Weinert und Schrader (1986, S. 27), „auf der einen Seite subjektive, pädagogisch fruchtbare, handlungsleitende Lehr-erdiagnosen und auf der anderen Seite möglichst objektive, auf Ergebnisse standardisierter Verfahren beruhende, erkenntnisleitende Urteile“. Erst die Kombination stelle die pädagogische Diagnostik in den Dienst von Erziehung und Unterricht. Vgl. Weinert und Schrader (1986). Weinert und Schrade (1986) schlagen vier alternative Gütekriterien für die Diagnose durch Lehrkräfte vor. Im vielbeachteten Bericht „Knowing what Students Know“ des Committee on the Foundations of Assessment des US-amerikanischen National Research Council Pellegrino, Chudowsky und Glaser (2001) werden zwei “Assessment systems” unterschieden, nämlich „Classroom Assessment“ und „Large-Scale Assessment“. Ein “balanced Assessment System” zeichne sich durch einen umfassenden Ansatz (‘comprehensiveness’), durch Kohärenz und Kontinuität aus. Vgl. Pellegrino et al. (2001, S. 253 ff.). Baartman, Bastiaens, Kirschner und van der Vleuten (2007) charakterisieren zwei Kulturen, die „testing culture“ und die „assessment culture“, für die sie übergreifende Gütekriterien vorschlagen.

6 Ein differenziertes Verständnis von „Paradigma“ findet sich bei Jongebloed und Twardy (1983). 7 Auch im testtheoretischen Paradigma finden sich unterschiedliche Kompetenzmodelle. Bei der Modellierung von Fachkompetenz

ergibt sich bislang aufgrund der Arbeiten in Berufsbildungs-PISA bzw. VET-LSA kein einheitliches Bild. So modelliert Seeber (2008) anders als Achtenhagen und Winther (2012).

8 Beispielhaft kann hier Detlev Leutner, Universität Duisburg-Essen, angeführt werden. Er ist Sprecher des Schwerpunktprogramms (SPP) „Kompetenzmodelle zur Erfassung individueller Lernergebnisse und zur Bilanzierung von Bildungsprozessen“ der DFG, Mit-glied in einer internationalen Expertengruppe von PISA 2012, Mitglied des Scientific Advisory Board von "Modeling and Measuring Competencies in Higher Education” (KoKoHs) und Mitglied im Vorstand des KMK-Instituts zur Qualitätsentwicklung im Bildungs-wesen (IQB).

9 Bei der internen Konsistenz wird vor allem die Korrelation der Items untereinander gemessen. Dies gibt Hinweise auf die Frage, wie homogen der Test ist. Im Regelfall sollen nicht Äpfel mit Birnen gemischt werden, sondern ähnliche Dinge zu einem Testwert ver-dichtet werden. Als Koeffizient wird in der Regel Cronbachs Alpha berechnet. Je höher dieser Wert ist, desto höher ist die Validität. Als Faustregel gilt, dass mindestens ein Wert von 0.8 erreicht werden sollte.

SSESSMENTKONZEPT ARR ANGIEREN fileAssessmentkonzept arrangieren 617 Das Arrangieren des...

Documents

Transcript of SSESSMENTKONZEPT ARR ANGIEREN fileAssessmentkonzept arrangieren 617 Das Arrangieren des...