Testtheoretische Kritik mündlicher und schriftliche ... · – Hartog & Rhodes, (1936):...

Testtheoretische Kritik mündlicher und schriftliche

Prüfungen (29.5)

• Messung und Notengebung• Kritik an schriftliche Prüfungen• Kritik an mündlichen Prüfungen

–Optimierung mündlicher Prüfungen

MessungObjekte Zahlenz.B. Diktatfehler von 6 Schülern

Rangplätze nach Leistungsgüte

Die 4 Niveaus der Messung• Nominalskala: Gleichheit vs. Verschiedenheit der

Zahlen repräsentieren Gleichheit vs. Verschiedenheit der Objekte hinsichtlich eines Merkmals (z.B. Geschlecht, Schulklasse)

• Ordinalskala (= Rangskala): Reihenfolge (Rangfolge) der Zahlen (z.B. Noten) repräsentieren Rangfolge der „Objekte“ (-> keine Mittelwerte, Median sinnvoll)

• Intervallskala: Gleiche Abstände zwischen Zahlen repräsentieren gleiche Abstände der „Objekte“(z.B. Celsius-Skala, aber: kein absoluter Nullpunkt, -> Mittelwert sinnvoll)

• Verhältnisskala: Proportionen (z.B. Gramm, Meter)

Vokabeln

0 5 12 18 20 30

5. Hans 4. Heike 3. Nico 2. Olaf 1. Rita

Ist Mittelwertsbildung innerhalb der Klasse

sinnvoll?

4: 7-13 3: 14-28

1 5 10 15 20 Anzahl Vokabeln

Hans: 12 (Note 4) Otto: 28 (Note 3)Marie: 13 (Note 4)

Mittelwert Noten (11/3)= 3,7,->4 Mittelwert Vokabeln: (53/3) = 17,6-> Note 3

Fazit: Noten als Messung• Lehrer ordnen Leistungsergebnissen (z.B.

Fehleranzahl, Punktwerten usw.) Noten zu

• Diese Noten haben nur Rangskalen-Niveau, d.h. sie geben Informationen über die Rangreihe (der Fehleranzahl, der Punktewerte) innerhalb der Klasse

wegen des Klasseninternen BezugssystemsWeil die Abstände zwischen Notenziffern nicht unbedingt den Abständen zwischen den „dahinter“ stehenden Leistungen entsprechen

• Daher ist streng genommen die Bildung von Mittelwerten von Noten innerhalb eines Schülers und zwischen Schülern nicht zulässig (besser: Median)

Der Median

• Noten: 1 1 1,5 2 6• Mittelwert: 2,3• Median: 1,5

Bezugsnormen und Funktionen der Leistungsbewertung

• Beurteilungsmaßstäbe: individuelle, soziale, kriteriumsorientierte Bezugsnorm (BnO)

• Funktionen von Beurteilungen (nach Ingenkamp, zitiert nach Lukesch, S. 447f.)– Schüler: Vergleich, Analyse/Selbstkontrolle, Anreiz – Lehrer: Analyse, Prognose, evtl. Selektion, Disziplinierung– Eltern: Vergleich, Bericht, Analyse, Prognose

• Bedeutung der Bezugsnormen für die Funktionen der Leistungsbewertung– Ind. BnO: v.a. Förderung, Motivierung (für Schüler)– Soz. BnO: v.a. Selektion, Berechtigung (für Lehrer, Gesellschaft)– Krit. BnO: v.a. Analyse, Bericht (für alle)

Alle BnOs ergänzen sich, keine Einseitigkeit, Unterscheidung zwischen formeller Beurteilung und informeller Rückmeldung

Schriftliche Prüfungen

• Einstieg• Objektivität

–Auswertungsobjektivität– Interpretationsobjektivität

• Reliabilität• Validität bzw. „sachfremde“

Einflüsse• Verbesserungsmöglichkeiten

Objektivität schriftlicher Prüfungen (1)

• Objektivität (Auswertungsobjektivität: gleiche Arbeit, verschiedene Prüfer)– Starch & Elliot (1913): Examensarbeiten in

Englisch, Mathematik, Geschichte und Mathematik werden von Lehrern (n= 180) deutlich unterschiedlich bewertet;

– Hartog & Rhodes, (1936): Englischarbeit (von 48 Schülern) wird von ausgewählten Gutachtern deutlich unterschiedlich bewertet (trotz gleichem Auswertungsschema!)

Die Untersuchung von Weiß(1965):

Deutschaufsatz mit Vorinformationen

Objektivität schriftlicher Prüfungen (2)

• Objektivität (Auswertungsobjektivität: gleiche Arbeit, verschiedene Prüfer)– Lehrer unterscheiden sich nicht nur in den

absoluten Noten, sondern auch in der Varianz vergebener Noten

– Lehrer unterscheiden sich in der Differenzierung der Notengebung innerhalb eines Schülers über unterschiedliche Fächer

– Ingenkamp (Tempelhofstudie): klasseninternes Bezugssystem

Schriftliche Prüfungen: das klasseninterne

Bezugssystem

Reliabilität schriftlicher Prüfungen (2)

• Reliabilität (meist Wiederholungsreliabilität, gleiche Arbeit, gleiche Prüfer)–klassische Studie von Eels (1930): 61

Lehrer bewerten drei Kurzaufsätze aus Geographie und zwei Kurzaufsätze aus Geschichte innerhalb von 11 Wochen 2 mal (ohne Rückgriff auf Aufzeichnungen)

Die klassische Studie von Eels (1930)

Reliabilität schriftlicher Prüfungen (3)

• Reliabilität (meist Wiederholungsreliabilität, gleiche Arbeit, gleiche Prüfer)– Weitere Studien: Hartog & Rhodes, 1936 (nur

Globalurteil „bestanden vs. nicht bestanden“; Finnlayson, 1951; Aschersleben, 1971, Dicker, 1973: Egal ob Mathematik oder Deutschsatz: Zeitstabilität und Paralleltestreliabilität (mehrere Arbeiten im gleichen Fach von einem Schüler) < .6 (aber große Schwankungen zwischen Lehrern)

Validität schriftlicher Prüfungen (1)

• Validität–Konstruktvalidität (sachfremde

Einflüsse): Vorinformationen, soziale Stereotype (Weiss, 1965), Sozialschicht, Geschlecht (Hadley, 1954, Carter, 1952), Rechtschreibfehler und Sauberkeit, Fächer (in musischen Fächern bessere Noten), Bundesland, klasseninternes Bezugssystem, Klassengröße

Validität schriftlicher Prüfungen (2)

• Validität–Prognostische Validität:

Grundschulnoten-Gymnasium: von ca. 16 (Undeutsch, 1960) bis .42 (Schenk-Danziger, 1963) und .45 (Roeder, 1997); Abiturnoten-Studienerfolg: ca .46 (Mathematik-Note bester Prädiktor)

Verbesserungsmöglichkeitbei schriftlichen Prüfungen

• Kriterienkatalog• viele Einzelprüfungen (Reliabilität!)• mehrer unabhängige Bewerter• Speziell für Aufsätze: textganzheitliche

und textanalytische Verfahren (Beck, 1979)

• Ergänzung der Klassenarbeiten durch informelle oder formelle objektive Schulleistungstests (insbesondere bei Selektionsentscheidungen!)

Testtheoretische Kritik an mündlichen Prüfungen (1)

• Objektivität: Prüfung als Ausmaß der Beurteiler-Übereinstimmung (gleiche Prüfung, verschiedene Prüfer)– Durchführungsobjektivität: nicht immer gleiche

Fragen und –abfolge, Reihenfolgen- und Kontrasteffekte

– Auswertungs und Interpretationsobjektivität: oft mangelnde Kriterien für richtig und falsch, Ermittlung des Gesamtwertes/Gewichtung oft unklar

– Birkel (1978): Objektivität zwischen 2 Beurteilern: .ca. .6

– Höhere Objektivität wenn• sprachliche Leistung Beurteilungsgegenstand ist• Beurteiler geschult sind• Beurteilungs- und Gewichtungskriterien explizit sind

• Reliabilität: Prüfung als Ausmaß der Beurteiler-Übereinstimmung,und zwar ...–gleiche Prüfung, gleiche Prüfer

(= Retestreliabilität)–gleicher Prüfling, verschiedene Prüfer

kurz hintereinander (= Paralleltestmethode), ca. .45)

–Prüfer und Prüfling , ca. .50 oder besser

• Validität: Prüfung durch Ermittlung von ...– Lehrplan/Lernziel-Repräsentanz der Fragen (Inhaltsvalidität)– Zusammenhängen mit anderen Kriterien wie Ergebnisse

schriftlicher Prüfungen (.30), Noten, Berufserfolg (empirische Valdität: gleichzeitige oder prognostische Validität)

• Wirkung sachfremder Einflüsse (auf Seite der Situation, des Prüfers, des Prüflings) mindert Validität, z.B.– Sprechtempo (Birkel & Pritz, 1980), Primacy-,

Recency-, Reihenfolgen-, Kontrasteffekte, Klassenzugehörigkeit, Brillenträger, Vorinformationen, Geschlecht (Prüfer und Prüfling), subjektive Maßstäbe, implizite Persönlichkeitstheorien usw.

Testtheoretische Kritik mündlicher und schriftliche ... · – Hartog & Rhodes, (1936):...

Documents

Transcript of Testtheoretische Kritik mündlicher und schriftliche ... · – Hartog & Rhodes, (1936):...

Entscheidungs- und testtheoretische Grundlagen der ...irtel.uni-mannheim.de/irtel/diagnostik.pdf · Vorwort Dieses Buch ist ein Kompendium grundlegender Konzepte der Test- und Entscheidungstheorie,wie

Joop Hartog - core.ac.uk · PDF fileDo Wage Expectations Influence the ... The approved approach was to impose an econometric model of interpretation on observable market data and

Gustav Hartog - gedenkbuchprojekt.de Hartog.pdf · Gedenkbuchprojekt für die Opfer der Shoah aus Aachen e.V. 1 Gustav Hartog Gustav Hartog kam am 23. Dezember 1897 als Kind von Albert

Messdienerplan vom 16.12.2017-22.02 - St. Otger … · Weihrauch: Linus Frechen, Lars Frechen ... Kollektant: David Hambrügge,Kilian Hartog, Marlon Brockherde Liberoferare: Helmut

Rang Titelnr Bestell Nr Titel Komponist Besetzung Ausgabe ... · 94 7133 alsbach 10652 gitarrenstarter 1 hartog cees git cd 20,40 € 95 464440 haske ...

· Detering spielten aus Werken von Anton Diabelli, Cees Hartog, Mozart und Friedemann Bach. ...

(Dorf– und Jugendfest 2016) - leimbach.swiss · spielt "Una Pareja Amorosa"von Cees Hartog Lauschend an der Seite: Gitarrenlehrer Stefan Meister Lisa Spatola und Samira Fischer,

Testtheoretische Analyse eines spielbasierten ...othes.univie.ac.at/38634/1/2015-08-16_1004423.pdf · Bei meinen Mitstreiterinnen Maria Pozniak, Karin Prillinger und Magdalena Stark

gemeinsam mit der 26.Jahrestagung€¦ · dische Vorgehen, die Präsentation der Ergebnisse und die Schlussfolgerung. Die Auswahl wird vom Kongresskomitee und auswärtigen Gutachtern

2. TESTTHEORETISCHE GRUNDLAGEN · * Reliabilität * Validität Nebengütekriterien: * Normierung * Ökonomie * Nützlichkeit andere Gütekriterien außerdem: * Zumutbarkeit * Unverfälschbarkeit

Influenza-Impfstoffe in der Pädiatrie - my-cme/arztCME ... · Die Produktneutralität dieser Fortbildung wurde durch ein Review von zwei Gutachtern geprüft. Diese Fortbildung ist

WIR FREUEN UNS!!! - leimbach.swiss · Maurice Leon Hunziker, Gitarre Una Pareja Amorosa Cees Hartog Elisa Spatola, Klavier Scherzo A. Diabelli, arr. F. Kern Samira Fischer, Klavier

Service gut. AlleS gut. · pliziert, kundenfreundlich. Und das mit eigenen, erstklassig ausgebil-deten Gutachtern und handwerkern sowie modernster Technologie. Im Bereich Einbruch

1 | 2012 BRAND SCHUTZ · 2018. 10. 26. · In der Rubrik empfohlener Artikel finden Sie Diplomarbeiten, Fachartikel sowie Gutachtern von Brandermittlern und anderen Fachleuten. Unter

Studierendenkonferenz der Deutschen Mathematiker ...sk/programmheft.pdfDMV-Studierendenkonferenz 2010 M¨unchen Seite 1 Wir m¨ochten uns ganz herzlich bei allen Gutachtern bedanken.

Konfliktmanagement in der deutschen Wirtschaft ... · Europa-Universität Viadrina Frankfurt (Oder), und bei Stefanie Hartog, PwC. Zitiervorschlag: PwC/EUV (Hrsg.): Konfliktmanagement

€¦ · Kraftmesslasche der PCE-DDM Serie ist ideal um mobile Zugmessungen, wie die z.B. die von Gutachtern erstellt werden, durchzuführen. Für die Herstellung der Zugmesslasche

AAdventskonzert dventskonzert - Lu · 2019-04-24 · 11. Cees Hartog Papamoscas Sarina Fischer, Mariano Martin, Gitarre 12. Joep Sanders Salsa Raphael Hodel, Mariano Martin, Gitarre

Testtheoretische Grundlagen Gütekriterien

Jahresreviewerliste 2017 - industrie-management.de · Jahresreviewerliste 2017 2 Verlag 2017 Die Redaktion bedankt sich ganz herzlich bei allen Gutachtern, die Beiträge für die