© TestDaF-Institut / ZfA 2009 Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur...

Post on 06-Apr-2015

115 views 3 download

Transcript of © TestDaF-Institut / ZfA 2009 Das facettenanalytische Bewertungsverfahren (FBV) – Der Weg zur...

© TestDaF-Institut / ZfA 2009

Dasfacettenanalytische

Bewertungsverfahren(FBV)

–Der Weg zur fairen Beurteilung von schriftlichen

Leistungen

Bratislava, April 2009

Folie 2

Ablauf dieser Präsentation

1. Bewerterübereinstimmung in schulischen Tests und daraus resultierende Probleme

2. Klassische Lösungsmöglichkeiten dieser Probleme

3. Das FBV – Ein moderner Weg zu einem fairen Ergebnis

1. Bewerterübereinstimmung in schulischen Tests

Seit Mitte der 60er Jahre steht die Notengebung durch Lehrer auf dem

Prüfstand.

Erste Studien von R. Weiss (1965):

Fragestellungen:

□ Wie groß ist die Variabilität im Lehrerurteil bei identischen Arbeiten?

□ Welche Faktoren beeinflussen die Beurteilung?

Ergebnisse:

Folie 3

Bewerterübereinstimmung in schulischen Tests

Variabilität der Benotung ein und derselben schriftlichen Leistung durch 92 Lehrer

Folie 4

Rechtschreibung Stil

sehr gut 7% sehr gut 24%

gut 28% gut 41%

befriedigend 39% befriedigend 19%

ausreichend 22% ausreichend 14%

mangelhaft 4% mangelhaft 2%

Inhalt Gesamtnote

sehr gut 26% sehr gut 10%

gut 47% gut 45%

befriedigend 20% befriedigend 35%

ausreichend 7% ausreichend 10%

mangelhaft 0% mangelhaft 0%

Bewerterübereinstimmung in schulischen Tests

Ca. 40 Jahre später: Replikation der Weiss-Studie (Birkel & Birkel, 2002)

– Benotung ein und derselben schriftlichen Leistung durch 88 Lehrer

Folie 5

2. Klassische Lösungsmöglichkeiten

Das Problem unterschiedlicher Bewertungen durch mehrere Bewerter

ist lange bekannt.

Entsprechend wurden verschiedene Lösungsmöglichkeiten entwickelt,

um diesem Problem zu begegnen.

a) Bewerterschulungen und Kalibrierungen

b) Mittelwert aus mehreren Beurteilungen

c) Drittbewertungsverfahren

Folie 6

a) Schulungen und Kalibrierungen

Viele Studien haben sich mit der Wirksamkeit von Schulungen oder Kalibrierungen auf die Beurteilungsleistung beschäftigt.

Fast alle kommen zum Ergebnis, dass:

□ das Ziel identischer Beurteilungen durch mehrere Bewerter nicht erreicht werden kann

□ die Bewerterübereinstimmung nicht substanziell verbessert wird

□ wohl aber die Konsistenz der Bewerter durch solche Schulungen deutlich erhöht werden kann

Folie 7

b) Mittelwert mehrerer Beurteilungen

Jede Leistung wird von mehreren Bewertern beurteilt.

Das Ergebnis entspricht dem Mittelwert dieser Bewertungen.

Folie 8

c) Drittbewertungsverfahren

Jede Leistung wird von 2 Bewertern beurteilt.

Weichen die Bewerter nur leicht voneinander ab, wird auch hier der

Mittelwert gebildet.

Weichen die Ergebnisse stark voneinander ab, wird ein dritter Bewerter

hinzugezogen.

Das Ergebnis des dritten Bewerters entscheidet über die Beurteilung.

Probleme:

□ Sind die beiden ersten Bewerter eher milde, bekommt der Schüler ein gutes Ergebnis.

□ Sind die beiden ersten Bewerter eher streng, bekommt er ein schlechteres Ergebnis.

□ Sind die beiden Bewerter unterschiedlich, entscheidet allein die Milde/Strenge des dritten Bewerters über das Ergebnis.

Folie 9

3. Das facettenanalytische Bewertungsverfahren (FBV)

Was ist das?

□ Ein mathematisches Verfahren zur Ermittlung eines fairen Ergebnisses bei fehleranfälligen Leistungsbeurteilungen

□ Das Verfahren berücksichtigt mehrere Variablen, die das Ergebnis beeinflussen Facetten der Beurteilungssituation, z. B.

□ Fähigkeit des Schülers

□ Strenge/Milde des Bewerters

□ Schwierigkeit der Kriterien

□ Es besteht aus mehreren Schritten, in denen die Facetten genauer untersucht werden.

□ Am Ende steht für jeden Schüler ein Ergebnis, das ein idealer (durchschnittlich strenger) Bewerter auf 8 idealen (gleich schwierigen) Kriterien abgegeben hätte.

Folie 10

Ein erster Versuch und ein Problem

Bewerter 1 Bewerter 2 Bewerter 3

↓ ↓ ↓

30 Arbeiten 30 Arbeiten 30 Arbeiten

19 17 12

Durchschnittliche Punktzahl pro Schüler

Frage: ► Ist Bewerter 1 milder als Bewerter 2 und 3 ?

► Ist Bewerter 3 strenger als Bewerter 1 und 2 ?

Ausgangspunkt: 90 Arbeiten

Antwort

Das kann man nicht sagen, denn:

Gruppe 3 ist vielleicht einfach schlechter als die Gruppen 1 und 2

bzw.

ist die Gruppe 1 vielleicht einfach besser als die Gruppen 2 und 3.

Lösung:

Es werden Vergleichsbeurteilungen eingeführt.□ Aus dem Testlauf werden 7 Leistungen von Schülern ausgewählt, die

exemplarisch das ganze Leistungsspektrum abdecken.

□ Diese 7 Leistungen bekommt jeder Bewerter zur Beurteilung vorgelegt. Sie bilden den Vergleichsmaßstab für die Anordnung der Bewerter auf einer gemeinsamen Skala von mild nach streng.

Folie 13

Folie 14

Rang KriteriumMittel-wert

1 Eigene Erfahrung 2.1

2 Eigene Meinung 2.0

3 Orthografische Korrektheit 1.9

4 Gesamteindruck 1.6

5 Wiedergabe 1.5

6 Strukturen 1.4

7 Wortschatz 1.3

8 Grammatische Korrektheit 1.2

Ebenfalls basierend auf den 7 Vergleichsarbeiten wird auch die Schwierigkeit der einzelnen Kriterien berechnet.Beispiel:

Da alle Kriterien genau gleich gewichtet sein sollen, wird später eine Anpassung vorgenommen. (Beispiel folgt später)

Noch ein Problem:

Die hier zu vergebenden Punkte entsprechen einer Nominalsakala und

sind daher für Berechnungen von Mittelwerten nicht geeignet.

Daher werden die Werte in die Logit-Skala transformiert.

Dies stellt eine kompliziertere Rechnung dar, die im Detail hier nicht

erläutert werden kann.

Gemäß dieser Logit-Skala können jetzt alle Facetten in einem

gemeinsamen Raum angeordnet werden (Facettenraum).

Folie 15

Folie 16

+------------------------------------------------+|Logit| Schüler |Bewerter |Kriterium |Skala||-----+------------+---------+-------------+-----|| 8 + ***. + + + (3) || | . | | | || 7 + . + + + || | . | | | || 6 + . + + + || | . | | | || 5 + *. + + + || | *. | | | || 4 + *. + + + || | ***. | | | --- || 3 + ****. + + + || | ***. | | | || 2 + *****. + . + + 2 || | ******. | * | Gram. Korr. | || 1 + ********. + *** + Wortschatz + || | *********. | ** | Struk. Wied.| |* 0 * *********. * ******. * Gesamteindr.* --- *| | ********. | ****. | Orth. Korr. | || -1 + *********. + *. + eig. Mein. + || | ******. | . | eig. Erf. | 1 || -2 + ******. + . + + || | *****. | | | || -3 + ***. + + + || | **. | | | --- || -4 + *. + + + || | *. | | | || -5 + . + + + || | . | | | || -6 + . + + + || | . | | | || -7 + *. + + + (0) ||-----+------------+---------+-------------+-----||Measr| * = 18 | * = 2 |-Criterion |Scale|+------------------------------------------------+

Theoretisches Beispiel einer Stufenprüfung A2/B1

Ein * steht für: 18 Schüler2 Bewerter

Je höher der Logit desto:- besser der Schüler- strenger der Bewerter- schwieriger das Kriterium

„Skala“ steht hier für die 4-stufige Kriterienskala (0-3 Punkte)

Die Berechnung

• Jede einzelne Beurteilung jedes Bewerters für jeden Schüler in jedem der Kriterien wird jetzt verrechnet:

Endergebnis des Schülers =

Rohwert + Bewerterstrenge + Kriterienschwierigkeit

• Das so ermittelte Endergebnis wird dann wieder in die ursprüngliche 4-stufige Punkte-Skala (0, 1, 2, 3) zurück transformiert und ergibt die faire Bewertung des Schülers.

Folie 17

Punkte

Wir haben unsere 4-stufige (0-3) Skala, auf der die Bewerter jedes der Kriterien beurteilen.

3

2

1

0

Schüler Bewerter KriteriumPunkte

Schüler, Bewerter und Kriterien werden auf dieser Skala angeordnet.

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

3

2

1

0

Die Kriterienskala wird in die Logit-Skala umgerechnet, um weitere Berechnungen vornehmen zu können.

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

Beispiel: Ein Schüler hat z. B. im Kriterium „Wortschatz“ eine Bewertung von 1 Punkt erhalten. Dies entspricht einem Logit von ca. -1.5 .

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

Dieser Schüler wurde von einem strengen Bewerter beurteilt, der einen Logit von 2.0 hat.

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

Der Bewerterlogit wird zum Schülerlogit hinzuaddiert.

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

Der Bewerterlogit wird zum Schülerlogit hinzuaddiert.

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

Das Kriterium, in dem der Schüler bewertet wurde, ist ebenfalls ein eher schwieriges Kriterium mit einem Logit von 1.0.

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

Der Kriteriumslogit wird zum Schülerlogit hinzuaddiert.

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

Der Kriteriumslogit wird zum Schülerlogit und Bewerterlogit hinzuaddiert.

3

2

1

0

Logit Schüler Bewerter KriteriumPunkte

8

7

6

5

4

3

2

1

0

-1

-2

-3

-4

-5

-6

-7

In der Summe entsteht der neue korrigierte Schülerlogit mit einem Wert von 1.5, der umgerechnet in die 4-stufige Kriterienskala einem fairen Punktwert von 2 entspricht.

3

2

1

0

Die Berechnung

Diese Berechnungen werden für jedes Kriterium getrennt berechnet.

Pro Schüler gibt es also 8 solcher Berechnungen.

Genauso wird verfahren, wenn die Bewerter eher milde oder die

Kriterien eher leicht sind. Nur wird dann der Schülerlogit nach unten

statt nach oben verschoben, um eine faire Bewertung zu erhalten.

Am Schluss werden alle 8 neuen Ergebnisse zusammengerechnet und

man erhält das Endergebnis für SK.

Folie 29

Rückmeldung an die Bewerter

Wie beschrieben ordnet das TestDaF-Institut die Bewerter auf einer

Strenge/Milde-Skala an; von A („extrem mild“) bis I („extrem streng“).

Außerdem wird auch die Konsistenz der entsprechenden Bewertung

gemessen.

Da Extremwerte und starke Inkonsistenzen die Ergebnisse des FBV

verzerren können, gibt es nach jeder Auswertung eine Rückmeldung

an die Bewerter.

Folie 30

Literaturhinweis

Leicht verständliche Darstellung der Grundzüge des FBV mit Bezug

zum DSD:

Eckes, T., Weiss-Motz, F. & Whelan-Mostofizadeh, S. (2009):

Ermittlung fairer Ergebnisse im Prüfungsteil Schriftliche Kommunikation

des Deutschen Sprachdiploms. In: Deutsche Lehrer im Ausland,

Februarheft.

Folie 31

Vielen Dank für Ihre Aufmerksamkeit

Jan Plümecke

und

Dr. Boris Menrath