Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorlesung Modul 3 „Beobachten, Beraten und Fördern im pädagogischen Feld“

Prof. Dr. Kristin Mittekristin.mitte@uni-kassel.de

Sprechzeit: Di 13-14 Uhr

Moodle: Gütekriterien

Organisatorisches I

• Start der VL: s.t. oder c.t.?

Modul 3

• VL + Seminar– Seminar im WS 12/13

Di 14-16Di 16-18

– Seminar im SS13

Organisatorisches II: Seminaraufteilung3

Prüfung

• Letzte VL-Woche

• Klausur 90 Minuten

• Mix aus geschlossenen Fragen, Multiple Choice, offenen Fragen

• Prüfungsvorleistung: Seminar

Organisatorisches III

• Wer von Ihnen kann KEIN(EN) – Laptop

– I-Pad

– Smartphone

– Etc.

mitbringen, um während der VL aufs Internet zuzugreifen?

Literatur

• Literaturempfehlungen am Ende einer Veranstaltung bzw. eines Themenblocks

• Grundlage: Ingenkamp, K.H. & Lissmann, U. (2005). Lehrbuch der Pädagogischen

Diagnostik. Weinheim: Beltz.

Überblick über die VL

A. Grundlagen der Diagnostik: Ziele, Methoden und Verfahren• Diagnostik als wissenschaftsbasiertes,

professionelles Handeln• Methodische Grundlagen (Testtheorien,

Verfahrenskonstruktion, Gütekriterien)• Test-, Befragungsmethoden und

Beobachtungsverfahren (Basiswissen)• Leistungs- und Verhaltensbeurteilung

B. Einführung in die Beratungspsychologie

Beratung

• Beraten ist ein alltäglicher Prozess

• Aber: Alltagsberatung ist nicht professionelle Beratung!

TheoretischesWissen + operative

Kompetenzen

Beratung

• McLeod (2004): Beraterqualitäten– Interpersonelle Fähigkeiten (z.B. Zuhören,

nonverbale Kommunikation)– Persönliche Überzeugungen (z.B. Glaube an

Veränderungspotential)– Konzeptionelle Fähigkeiten (z.B. Fähigkeit,

Probleme des Klienten einschätzen zu können)– Persönliche Integrität (z.B. vorurteilfrei)– Beherrschung von Beratungstechniken – Fähigkeit soziale Systeme zu verstehen und mit

ihnen zu arbeiten

Definition Beratung

Beratung ist ein zwischenmenschlicher Prozess, • in welchem eine Person oder eine Gruppe, d.h. die

Ratsuchenden/Klienten • in der und durch die Interaktion mit einer anderen Person, dem sog.

Berater/Team,• mehr Klarheit gewinnt über eigene Probleme und deren

Bewältigungsmöglichkeiten.

Die Hilfe zur Selbsthilfe, d.h. die Steigerung der Problemlösefertigkeiten seitens des Ratsuchenden, ist ein entscheidendes Element von Beratung. Psychosoziale Beratung soll damit nicht nur bei Lösung eines aktuellen, spezifischen Problems stehen bleiben, sondern dem Klienten die Möglichkeiten aufzeigen, wie ähnlich gelagerte Probleme in Zukunft zu bewältigen sind

(Warschburger, 2009, S. 16)

Eine kurze Frage an Sie

Eine zweite Frage

Diagnostische Kompetenzen im LA

• KMK (2004): Lehrerinnen und Lehrer üben ihre Beurteilungs- und Beratungsaufgabe im Unterricht und bei der Vergabe von Berechtigungen für Ausbildungs-und Berufswege kompetent, gerecht und verantwortungsbewusst aus. Dafür sind hohe pädagogisch-psychologische und diagnostische Kompetenzen von Lehrkräften erforderlich.

Fähigkeit, akkurate diagnostische Urteile zu fällen

Noch eine Frage

• Individualisierung im Unterricht?

Diagnostische Kompetenzen im LA

• Pisa-Konsortium, 2001: „Eine zentrale Voraussetzung für eine optimale Förderung ist eine ausreichende diagnostische Kompetenz der Lehrkräfte, also die Fähigkeit, den Kenntnisstand, die Verarbeitungs- und Verstehensprozesse sowie die aktuellen Leseschwierigkeiten der Schülerinnen und Schüler korrekt einschätzen zu können. Diagnostik in schulischen Entscheidungssituationen hat den Zweck, Informationen zur Optimierung des pädagogischen Handelns zu gewinnen“.

Leistungsstand?

le? Lernhindernisse?

Lernfortschritte?

Anpassung Unterricht

Diagnostik+

Optimum

Diagnostik-

Psychodiagnostik – Definition

• Diagnose und Diagnostik („diagignostikein“) bezeichnet im Griechischen eine kognitive Funktion mit den Bedeutungen „gründlich kennen lernen", „entscheiden" und „beschließen„

• Ist eine Methodenlehre im Dienste der Praktischen Psychologie (Wellek, 1955)

• Diagnostik habe das Ziel, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964)

• Leichner (1979) sieht die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen.

• Dient der Beantwortung von Fragestellungen, die sich auf die – Beschreibung– Klassifikation– Erklärung– Vorhersage

menschlichen Verhaltens und Erlebens beziehen.• Informationen darüber werden

– gezielt erhoben mittels Methoden, die wissenschaftlichen Standards genügen und

– im Sinne der Fragestellung interpretiert

• Der Prozess wird von psychologischem Wissen geleitet

Schmidt-Atzert & Amelang, 2012

Pädagogische Diagnostik• „… umfasst alle diagnostischen Tätigkeiten, durch die

bei einzelnen Lernenden und den in einer Gruppe Lernenden Voraussetzungen und Bedingungen planmäßiger Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren. Zur Pädagogischen Diagnostik gehören ferner die diagnostischen Tätigkeiten, die die Zuweisung zu Lerngruppen oder zu individuellen Förderprogrammen ermöglichen sowie die mehr gesellschaftlich verankerten Aufgaben der Steuerung des Bildungsnachwuchses oder der Erteilung von Qualifikationen zum Ziel haben.“

Ingenkamp & Lissmann, 200821

Konzepte der Diagnostik (Oder: Woher schließe ich, wie Sie sich morgen verhalten?)

Eigenschaften(traits)

Verhaltensweisen(signs)

Verhaltensweisen(samples)

Eigenschaftsdiagnostik

Verhaltensdiagnostik

Eigenschaftsdiagnostik

• Wichtig: welche Eigenschaften hat Person

• Eigenschaften sind (weitgehend)– Zeitlich stabil und– Situationsunabhängig

• Analogieschluss: von Indikatoren von Eigenschaften wird auf zukünftiges Verhalten geschlossen (von einem Objekt wird auf ein anderes Objekt geschlossen aufgrund der Analogie zwischen beiden Objekten)

• z.B. Persönlichkeitstests, Intelligenz- und Leistungstests

Verhaltensdiagnostik

• Wichtig: welches Verhalten zeigt Person („The best predictor of future performance is past performance"; Wernimont & Campbell, 1968, S. 372)

• Verhalten ist– Situational abhängig– Es gibt aber repräsentative Stichproben dieses Verhaltens

• Induktionsschluss: von einem in einer spezifischen Situation unter spezifischen Bedingungen gezeigten Verhalten wird auf zukünftiges Verhalten geschlossen (von einer Teilklasse wird auf die Gesamtklasse geschlossen)

• z.B. Selbst- und Fremdbeobachtungen, Rollenspiele, Simulationen

Diagnostik lässt sich noch auf anderen Ebenen differenzieren

Status- vs. Prozessdiagnostik

• Statusdiagnostik: = einmalige Feststellung des Ist-Zustandes(für Diagnose + Prognose)

• Prozessdiagnostik:= wiederholte Untersuchungen zur Erfassung von Veränderungen

Selektions- vs. Modifikationsdiagnostik

• Selektionsdiagnostik– Personenselektion: Bedingung gegeben – geeignete

Person wird gesucht– Bedingungsselektion: Person gegeben – geeignete

Bedingung wird gesucht

• Modifikationsdiagnostik– Verhaltensmodifikation: welches Verhalten muss

geändert werden– Bedingungsmodifikation: welche externen

Bedingungen müssen geändert werden

Vielen Dank für Ihre Aufmerksamkeit!

… Psychologische Diagnostik

Sitzung 2: es wird statistisch…

Ein Beispiel vorab…

• Ein Lehrer möchte das Wissen über ein Thema in Mathematik überprüfen

• Er entwickelt einen Test mit 20 Fragen (Items)

• Jedes Item kann entweder „richtig“ oder „falsch“ beantwortet werden

• Die Summe der richtig beantworteten Items ergibt das Maß für Mathematikwissen

Es könnten sich dem Lehrer nun folgende Fragen stellen…

• Sollte man einen Summenwert bilden oder mehrere (z.B. für Bruchrechnung und Dreisatz)?

• Messen alle Items gleich gut das Mathewissen? • Wie gut misst der Gesamtwert Mathewissen?

• Hätte es nicht auch ein Test mit 5 Items getan? Oder sind 30 Items notwendig?

• Hätte man 2 Testhälften geben können, damit die Schüler untereinander nicht abschreiben? Messen die dann das gleiche?

• Gibt es einen systematischen Bias in den Fragen? Werden bestimmte Schüler benachteiligt (z.B. aufgrund ihrer Herkunft)?

• Kann man aus niedrigen Werten schließen, dass der Schüler eine Lernstörung aufweist?

• …

Mit anderen Worten

• Wie gut ist der Test?

Damit es gerecht zugeht, ist die Aufgabe für alle gleich: „Klettern Sie auf diesen Baum“!

Unterschied „Pseudotest“ und wissenschaftlicher Test: Gütekriterien 4

Vorüberlegungen

Mittelwert und Standardabweichung – was ist das?

• Mittelwert als arithmetisches Mittel – im Gegensatz zum häufigsten Wert = Modalwert

– Im Gegensatz zur mittleren Position = Median

• Standardabweichung als mittlere Abweichung vom Mittelwert

Vorüberlegungen

170172

182197182180

Modalwert =

Median =

Mittelwert =

Vorüberlegungen

• Mittelwert

Vorüberlegungen

170172

182197182180

Modalwert =

Median =

Mittelwert =

?(3*163+170+175+180+2*182+197) / 9175

Ein paar Mittelwerte…

Quelle: Statistisches Bundesamt, https://www.destatis.de/DE/PresseService/Presse/Pressemitteilungen/2011/08/PD11_301_12641.html

Ein paar Mittelwerte…

10Quelle: http://www.mappedplanet.com/map/stats.php?param=30

Vorüberlegungen

170172

182197182180

175 175 175 175 175 175 175 175 175

Vorüberlegungen

• Varianz und Standardabweichung

Vorüberlegungen

170172

182197182180

175 175 175 175 175 175 175 175 175

Var(x) = SD (x) = 0

Var(x) = (163‐175)2+…+ (197‐175)2/8

Var(x) = 133SD(x) = 11,5

Vorüberlegungen

Korrelation – was ist das?

• Besteht ein (linearer) Zusammenhang zwischen mehreren Variablen?

• Wie ist dieser Zusammenhang ausgeprägt?

Vorüberlegungen

0 5 10 15 20

Wochen bis zu Klausur

Wochen bis zu

Klausur

Stunden auf

Feten, …

Stunden im

Lesesaal

16 10 0,5

14 8,5 1

12 6 1

10 6,5 2,5

6 3,5 6

… … …

0 5 10 15 20

n, …

Wochen bis zu Klausur

Vorüberlegungen

• Abbildung dieses Zusammenhangs durch folgende Koeffizienten:– Kovarianz

– Korrelation

Vorüberlegungen

hohe Kovarianz, wenn diejenigen Personen, die im Merkmal A überdurchschnittlich sind auch im Merkmal B überdurchschnittlich sind bzw. diejenigen Personen, die im Merkmal A unterdurchschnittlich sind auch im Merkmal B unterdurchschnittlich sind.

Vorüberlegungen

Aber: • Variablen nicht standardisiert, d.h. die Höhe der

Kovarianz ist abhängig von der Maßeinheit der VariablenDas bedeutet… • Zusammenhang Gewicht u. Körpergröße

– Gewicht in kg unda) Körpergröße in mb) Körpergröße in cm Kovarianz ist 100x höher gegenüber a!

Vorüberlegungen

Wochen bis zu

Klausur

Stunden auf Feten,

16 10 (10-6,4) * (16-11) = 17,9

14 8,5 (8,5-6,4) * (14-11) = 6,25

12 6 … …

10 6,5 … …

8 4 … …

6 3,5 … …

M = 11 M = 6,4 ∑ = 45,5

Cov (x, y) = 45,5 / 6 = 7,58 19

Vorüberlegungen

Die Produkt‐Moment‐Korrelation r

• Zum Bsp.: r = 7,58 / (3,42 * 2,30) = .97• r im Bereich zwischen ‐1 … 0 … +1

Vorüberlegungen

• Ein Wort der Warnung: Korrelation sagt nichts über Kausalität aus (!)

• Klassisches Beispiel aus Südschweden: die Anzahl an Geburten war positiv mit der Anzahl an nistenden Störchen korreliert

Vorüberlegungen

• Ein zweites Wort der Warnung: eine Korrelation von 0 bedeutet nicht, dass zwei Variablen nicht in Zusammenhang stehen

• Beispiel: U‐förmiger Zusammenhang

Hintergrund

• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)

• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift

Hintergrund

Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer

Skalenniveaus

• Nominalskala

– Nomen: lateinisch für Namen

– Einteilung in (beliebige aber) eindeutige Kategorien, z.B.

• Männlich = 0, weiblich = 1; • Ledig = 0, verheiratet = 1, geschieden = 2, feste Partnerschaft = 3, anderes = 4

– Statistik: Modalwert, Häufigkeiten

Skalenniveaus

• Ordinalskala

– Natürliche Reihenfolge, aber Abstände sind nicht gleich Rangreihe, z.B.

• Schulnoten

• Plätze bei den Olympischen Spielen

– Statistik: Median

Skalenniveaus

• Intervallskala

– Gleiche Abstände zwischen den Werten (z.B. Unterschied zwischen 50°C und 25°C entspricht dem Unterschied zwischen 35°C und 10°C)

– 0‐Punkt ist aber willkürlich festgelegt• Abweichungsnormen

• Temperatur in Grad Celsius

– Statistik: Mittelwert

Skalenniveaus

• Verhältnisskala

– Gleiche Abstände zwischen den Werten und– 0‐Punkt ist natürlich gegeben

• Gewicht, Größe• Temperatur in Kelvin

– Statistik: Vielfaches, Quotient,…

Beispiel

Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht

Kategorie Häufigkeit „Durchgefallen“

0 = weiblich, brünett 15

1 = weiblich, blond 0

2 = männlich, brünett 5

3 = männlich, blond 5

Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1

Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

Hauptgütekriterien

Nebengütekriterien

Testgütekriterien

„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

Testgütekriterien

„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“

Testgütekriterien

„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“

Testgütekriterien

„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“

Testgütekriterien

„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“

Testgütekriterien

„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“

Testgütekriterien

„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“

Testgütekriterien

„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“

Testgütekriterien

„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“

Testgütekriterien

„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“

Testgütekriterien unter der Lupe

Objektivität

• Subjektive Einflüsse des Untersuchers sollten minimiert werden Vereinheitlichung der Arbeitsschritte

• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.

– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird.

– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.

Objektivität

Beispiel 1: Mündliche Prüfungen

• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)

– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)

43n. Ingenkamp & Lissmann, 2008

Objektivität

Beispiel 2: schriftliche Prüfungen

• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher

Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs. b) 0%

(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83

• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)

Objektivität

• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist

• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)

– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen!

Objektivität

• Bildet die Grundlage für die folgenden Gütekriterien!

Gütekriterien

Hintergrund

• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)

• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift

Hintergrund

Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer

Beispiel

Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht

Kategorie Häufigkeit „Durchgefallen“

0 = weiblich, brünett 15

1 = weiblich, blond 0

2 = männlich, brünett 5

3 = männlich, blond 5

Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1

Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.

Testgütekriterien

Hauptgütekriterien

Nebengütekriterien

Testgütekriterien

„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

Testgütekriterien

„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“

Testgütekriterien

„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“

Testgütekriterien

„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“

Testgütekriterien

„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“

Testgütekriterien

„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“

Testgütekriterien

„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“

Testgütekriterien

„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“

Testgütekriterien

„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“

Testgütekriterien

„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“

Objektivität

• Subjektive Einflüsse des Untersuchers sollten minimiert werden Vereinheitlichung der Arbeitsschritte

• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.

– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird.

– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.

Objektivität

Beispiel 1: Mündliche Prüfungen

• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)

– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)

Objektivität

• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher

Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs. b) 0%

(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83

• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)

Objektivität

• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist

• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)

– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen!

Objektivität

• Bildet die Grundlage für die folgenden Gütekriterien!

Reliabilität (Zuverlässigkeit)

Zunächst…

• ein kleines Experiment

Klassische Testtheorie (KTT)

• Geht zurück auf Gulliksen (1950) sowie Lord und Novick (1968) (Ideen aber auch schon bei Thurstone und Spearman zu finden)

• Grundlage für viele Testverfahren

Es muss zunächst zwischen drei Variablen unterschieden werden:

• Beobachteter Wert • Wahrer Wert (true score)• Messfehler (random error)

Axiome der KTTExistenzaxiom: Der wahre Wert τvi existiert als Erwartungswert der Messung xvi:

τvi = E(xvi)

Verknüpfungsaxiom: Jede Messung xvi ist aus einem wahren Wert τvi und einem

zufälligen Fehlerwert εvi zusammengesetzt:

xvi = τvi + εvi

v = Personi = Test(item)

Ableitungen

• Der Messfehler ist eine Zufallsvariable mit dem Erwartungswert 0

• Die Korrelation zwischen Messfehler und wahrem Wert ist 0

• Verknüpfungsaxiom gilt auch auf Varianzebene

Reliabilität (Messgenauigkeit)

Var(τ)Var(x)

• Ist der Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte

• Kann Werte zwischen 0 und 1 annehmen

Reliabilität

• Frau Müller schreibt einen Mathematiktest zur einfachen Addition im Zahlenraum 1‐10. Einige Fragen, die auftreten könnten/sollten – die Reliabilität betreffend– Generalisierbarkeit über Items?

– Generalisierbarkeit über die Zeit?– Generalisierbarkeit über Lehrer?(Interrater‐Reliabilität Objektivität)

Wie kann die Reliabilität geschätzt werden?

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

� Parallele Tests im Sinne der KTT weisen gleiche wahre Werte und Fehlervarianzen auf (= eineiige Zwillinge)

� Schätzung der Paralleltest‐Reliabilität über die Korrelation der Testwerte xA und xB der parallelen Testformen

Rel(x) = Corr (xA, xB)

Interne

Konsistenz

� Annahme, dass ein Test bei zweimaliger Durchführung die gleichen wahren Werte und Fehlervarianzen aufweist

� Schätzung der Retest‐Reliabilität über die Korrelation der Testwerte xt1 und xt2

Rel(x) = Corr (xt1, xt2)

Interne

Konsistenz

Einfluss von Merkmalsveränderungen

oosbrugger&

Kelava, S. 118

� Mehrere Verfahren zur Bestimmung der internen Konsistenz, darunter:– Split‐half Reliabilität– Cronbachs Koeffizient Alpha

Interne

Konsistenz

Split‐Half‐Reliabilität

• Aufteilung der Testskala in zwei möglichst parallele Testhälfte (z.B. odd‐even)

• Schätzung der Split‐Half‐Reliabilität über die Korrelation der Testhälften a1 und a2

• Diese Schätzung sollte noch aufgewertet werden

Reliabilität und Testlänge

Implikation

• Je weniger Aufgaben eine Prüfung, desto geringer die Reliabilität (s. aber auch nächste Sitzung zur Validität)

• Je weniger Einzelarbeiten in eine Jahresnote einfließen, desto unreliabler die Gesamtnote

• Je weniger soziale Beurteiler, desto unreliabler das Urteil

Einige Anmerkungen

• Reliabilitäten sind stichprobenabhängig!

• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)

• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening

Reliabilität

Beispiel: schriftliche Prüfungen

n. Ingenkamp & Lissmann, 2008

Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal

Korrelation r = .25 (Retestreliabilität)

Reliabilität

Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten

– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)

• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46

• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80

Sitzung 4: Was messen wir?

Einige Anmerkungen

• Reliabilitäten sind stichprobenabhängig!

• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)

• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening

Reliabilität

Beispiel: schriftliche Prüfungen

Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal

Korrelation r = .25 (Retestreliabilität)

Reliabilität

Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten

– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)

• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46

• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80

Validität

Es handelt sich um das wichtigste Gütekriterium!

Problem: Es gibt nicht einen einzigen Kennwert und im Gegensatz zur Reliabilität keine eindeutige Definition; common sense:

"Validity refers to the degree to which evidence and theory support the interpretation of test scores entailed by

proposed uses of tests". (APA, 1999)

Misst man das, was man messen möchte? (z.B. Cattell, 1946)

Wichtig

• Wie ist das zu messende Konstrukt definiert?Beispiel: was ist Lesekompetenz? Definition durch wissenschaftliche Literatur Verschiedene Fragen zu klären, darunter auch– gehört zur Lesekompetenz nicht nur Leseverständnis sondern auch Lesegeschwindigkeit?

Dimensionalität des KonstruktsSubskalen vs. Gesamtskalen eines Tests

Validität

Inhaltsvalidität:Wie gut spiegelt der Test den definierten Inhaltsbereich wider? (Repräsentativität der Items fürs Merkmal)

Kriteriumsvalidität: Wie genau kann der Test ein Kriterium vorhersagen?

Konstruktvalidität:Wie genau repräsentiert der Test ein Konstrukt (eine hypothetische Eigenschaft einer Person)?

Inhaltsvalidität

• Testinhalt bezieht sich auf sämtliche Fragen eines Tests inkl. Antwortoptionen

• Repräsentationsschluss: vom Verhalten im Testinhalt wird auf Verhalten in der Menge möglicher Fragen geschlossen Items müssen repräsentativ sein

• Grundlegende Fragen:– Alle relevanten Inhalte vorhanden? – Angemessenes Verhältnis der einzelnen Inhalten? – Keine irrelevanten Inhalte?

Beispiel

• Test soll mathematisches Wissen 1. Klasse messen

– 1 + 4 = ____– Paul hat eine Artischocke. Von Hans erhält er vier weitere Artischocken. Wie viele Artischocken hat Paul?

– I + IV = ____– Compute the sum of one and four!

– 4.5 * 3.9 = ____

Inhaltsvalidität

Überprüfung meist über Expertenrating:1. Definition des Konstrukts und seiner Facetten2. Entsprechend werden Aufgaben oder Fragen generiert.

3. Unabhängige Experten schätzen ein, wie gut die Aufgaben / Fragen dem Konstrukt entsprechen.

4. Beurteilerübereinstimmung wird als Koeffizient der Inhaltsvalidität angesehen.

Inhaltsvalidität

Anwendung im pädagogischen Kontext• Aufgaben sollten ausreichend (!) Inhalt im Unterricht gewesen sein (und nicht nur am Rande erwähnt)

• Niveau im Unterricht sollte sich in den Aufgaben widerspiegeln (Faktenwissen, Transfer etc.)

• Zeitvolumen vergleichbarGrundsatz der proportionalen Abbildung

Inhaltsvalidität – Was passiert bei nichtrepräsentativer Itemauswahl?

Behandelter Stoff

3 Schüler, jeder lernt 66%Max:

Moritz:

Geprüfter Stoff

Ergebnis der Prüfung:100% richtig Note 1

66% richtig Note 3

33% richtig Note 5 13

Inhaltsvalidität

Weitere Anwendung im pädagogischen Kontext• sind Rechenaufgaben in Textform gestellt, wird nicht nur das mathematische Verständnis sondern auch Lesefertigkeit und Textverständnis geprüft

Kriteriumsbezogene Validität

• Korrelation zwischen Zielmerkmal oder Kriterium und Test

• Typische Kriterien:– Akademische Leistung (z.B. Schulnoten, Auszeichnungen)– Berufliche Leistung (z.B. Verkaufszahlen, Einschätzungen durch Vorgesetzte)

– Gruppenzugehörigkeit (z.B. psych. Diagnose)– Werte bei anderen Tests– …

• Beispiel: Vorhersage des gymnasialen Schulerfolgs durch Empfehlung der Grundschule

Kriteriumsbezogene Validität

Zeit t

Kriterium

Konkurrente Validität

Kriterium

Prädiktive Validität

Befunde

Baron‐Boldt et al., 1988: Meta‐Analyse von 61 Studien

• Zusammenhang zwischen– Hauptschul‐/Realschulabschlußnote und Ausbildungserfolg: .37

– Abinote und Studienerfolg: .46

Böhnel, 1996: • Zusammenhang Schulerfolg 4. und 8. Klasse: .78 (ungarische Einheitsschule)

Konstruktvalidität

• Beziehungen des Zielkonstrukts zu anderen Konstrukten und Verhaltensweisen

• Hypothesen zu diesen Assoziationen aufbauend auf Theorie entwickeln und an Daten überprüfen

• Konvergente und diskriminante Validität

Konstruktvalidität

• Möglichkeit der Überprüfung mittels

– Untersuchung von Gruppenunterschieden– Untersuchungen von Korrelationen zwischen Tests– Untersuchung der internen Struktur– Untersuchungen zur Stabilität über die Zeit– …

Validität als Korrelation

• Höhe der Korrelation?

• Reliabilitätsabhängigkeit (Reliabilitätsindex)

• Stichprobenabhängigkeit– Selektions‐ und Selbstselektionseffekte führen zu „range restriction“ in den beteiligten Variablen

– Dies verringert die Korrelation zwischen Test und Kriterium

Fairness

Problem

„Murphy Archibald, 30, ein Vietnam‐Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova‐Universität verdient. Doch als er an der Universität auftauchte, befand sich seine Akte unter „Minoritäten‐Bewerber" mit einem b wie „black" darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde ihm das Stipendium entzogen. Ex‐Stipendiat Archibald verdankt sein Scheitern der guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil‐Rights‐Act von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft." (Der Spiegel, 1975, Nr. 7, S. 93; aus Amelang & Zielinski)

Problem

„Frauen werden bei gleicher Eignung bevorzugt eingestellt“

Fairness auf Itemebene

Welche Person ist hübscher? (Stanford‐Binet Test)

Welches Tier passt nicht zu den anderen? Elefant, Kuh, Gans, Schwein, Huhn (Item im CMM 1‐3) Deutsche Kinder wählen normalerweise den Elefanten (kein Haustier), islamische Kinder wählen in der überwiegenden Mehrzahl das Schwein, da dieses im Islam als unreines Tier gilt (Gözlü, 1986)

Häkelaufgabe zur Messung der Feinmotorik

Eber : Rüssel = Gockel : a) Truthahn b) Stall c) Schnabel d) Pflug

würde bei Stadtkindern nicht Analogieschluss testen

Verschiedene Punkte zu berücksichtigen, z.B.:• Wird Iteminhalt von verschiedenen Gruppen unterschiedlich interpretiert?

• Haben einzelne Worte eine unterschiedliche Bedeutung oder sind einigen Gruppen nicht geläufig?

• Sind die Gruppen unterschiedlich stark mit dem Material vertraut?

• …

• Unterschiedliche Mittelwerte führen nicht zwangsläufig dazu, dass der Einsatz eines Tests unfair ist! (Fairness auf Testebene)

Exkurs: Regressionsmodell (Cleary, 1968)

• Ein Test ist nur dann fair (unbiased), wenn die Regressionsgeraden zwischen Kriterium und Testwert der verschiedenen Gruppen identisch sind

• Fair ist dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird

• Dieses Modell gilt als das Wichtigste! (z.B. Standards for Educational and Psychological Testing der American Educational Research Association, American Psychological Association, National Council on Measurement in Education)

Exkurs: Beispiel aus Amelang

• Untersuchungsmaterial von Simons und Möbus (1976). Aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres waren N = 58 Arbeiter‐ und N = 63 Akademikerkinder ausgewählt worden. Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe T‐normiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus beiden Sub‐Stichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab ‐ womit die Testbatterie für das anstehende Vorhersageproblem gemäß der übernommenen Definition fair war.

Sitzung 5: Normen

Normierung

Selbsteinschätzung funktioniert nicht• In verschiedensten Studien aus verschiedensten Gebieten: Einschätzung der

eigenen Fähigkeiten nur bedingt aussagekräftig, z.B. – Einschätzung von Medizinern über ihre eigenen Kommunikationskompetenzen vs. Ratings von

Patienten und Supervisoren

– Einschätzung der eigenen Intelligenz: nicht besser als durch eine Person, die einen das erste Mal auf einem 90‐sekündigen Video gesehen hat, auf dem man einen Wetterbericht vorliest

– Vorhersage bei Studenten, wann sie eine größere Hausarbeit abgeben: tatsächliche Abgabe ca. 3 Wochen nach „most realistic“ Schätzung und ca. eine Woche nach „worst case scenario“

– 70% von (US‐)Abiturienten schätzten ihre Führungskompetenz „überdurchschnittlich“ ein, aber nur 2% „unterdurchschnittlich“

– Zusammenhang Noten durch Lehrer und durch sich selbst: Korrelation < .4 (im Gegensatz zu .7 durch Lehrer und Peers), 68% der Schüler würden sich bessere Note geben als der Lehrer gibt

(n. Dunnally, 2004)

Vorteile akkurater Selbsteinschätzung

• Kennt man seine eigene Stärken und Schwächen, wird Lernen effektiver eingesetzt

• Erhöht Selbstverantwortlichkeit fürs Lernen

(n. Dunnally, 2004)

(n. Rheinberg)

Moodle

• Rheinbergaufgabe

Vergleichsmöglichkeiten

• … mit einer Referenzgruppe (= soziale Bezugsnorm, normorientiert)

• … mit Kriterien (= sachliche Bezugsnorm, kriteriumsorientiert)

• … mit früheren Ergebnissen (= intraindividuelle Bezugsnorm, individueller/ ipsativer Vergleich)

Vergleichsmöglichkeiten

Prozentränge

= relative Position auf der Rangreihe der Bezugsgruppe (Beispiel: PR = 60 bedeutet, dass 60 Prozent der Bezugsgruppe den gleichen oder geringeren Wert haben)

• Vorteil: keine NV notwendigNachteil: nicht intervallskaliert!

• Frage: wie würden Sie ein Testergebnis PR = 25 beschreiben?(weit unterdurchschnittlich, unterdurchschnittlich, durchschnittlich, überdurchschnittlich, weit überdurchschnittlich)

Prozentränge

• Berechnung:PR = cumf/N * 100

Cumf = Kumulierte Häufigkeit

Anzahl "richtig" 5 6 7 8 9 10 11 12 13 14

f 1 0 6 10 19 24 14 6 4 1

cumf 1 1 7 17 36 60 74 80 84 85

PR 1,2 1,2 8,2 20,0 42,4 70,6 87,1 94,1 98,8 100,0

Peter: 5 richtige Antworten, Paul 7 richtige PR 1,2 vs. 8,2

Max: 9 richtige Antworten, Moritz 11 richtige PR 42,4 vs. 87,1

Prozentränge

Hohe Testwertdichte führt im PR zur Überbetonung von Unterschieden Nichtlineare Transformation der Rohwerte

Abweichungsnormen

• Position des Testwertes als Differenz (Abstand) zum arithmetischen Mittelwert der Bezugsgruppe

• Zur Vergleichbarkeit: Relativierung an der Standardabweichung

Abweichungsnormen

= (x – M(x))/SD(x)

= M + SD * z‐Wert

13Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?(Achtung: korrekterweise erst KI berechnen!)

Abweichungsnormen

durch‐schnittlich

unter~ über~

weit ~ weit ~ 14

Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?

Prozentränge

15ACHTUNG: gilt nur bei NV!!!

Zensuren

Zensur 1 2 3 4 5 6

Prozentanteil 9 16 25 25 16 9

Prozentanteil 2 14 34 34 14 2

Angemessenheit der Anwendung von NV auf Noten???

Normierung

• An repräsentativer Eichstichprobe (ausreichend groß)

• Möglichst für verschiedene Altersgruppen, getrennt nach Geschlecht, Schultyp, ... (in Abhängigkeit vom Test und der Fragestellung)– Z.B. Sprachkenntnisse bei Kindern mit Migrationshintergrund:

Unterschiede bei Wahl der Normstichprobe

• in regelmäßigen Abständen (Aktualität)– Z.B. Schneider & Stefanek (2007): Rechtschreibeleistung, die

heute durchschnittlich ist (statistisch „normal“), wäre vor 30 Jahren unterdurchschnittlich gewesen!

Kriteriumsorientierte Normen

• Inhaltliches Kriterium (z.B. Lernziel)– Wichtig: Definition der Aufgabengrundgesamtheit

– Repräsentative Aufgabenstichprobe

Normen am Beispiel

• Maximilian, 4. Klasse, Leistung im letzten Mathetest– Soziale Bezugsnorm: im Vergleich zu seinen Mitschülern (oder besser einer repräsentativen Stichprobe von Viertklässlern) durchschnittliche Leistung mit z‐Wert von 0

– Kriteriumsorientierte Bezugsnorm: beherrscht alle Grundrechenarten; deutlich mehr als die Mindestaufgabenanzahl gelöst

– Individuelle Bezugsnorm: Verschlechterung gegenüber letztem Test

Probleme der Bezugssysteme im Schulalltag

• Soziale Bezugsnorm– „Normgruppe“: häufig klasseninternes Bezugssystem (s. Probleme Objektivität)

– Gemeinsamer Lernzuwachs aller Schüler der „Normgruppe“ bleibt unsichtbarz.B. Rheinberg (1980): >50% der Schüler mit Lehrern, die nur die soziale Bezugsnorm einsetzten, gaben am Ende des Schuljahres an, dass sie nur gleichviel oder weniger als am Anfang des Jahres könnten

– Individuelle Schwankungen bleiben meist unsichtbar, dies kann zu einer Demotivation rel. leistungsschwacher Schüler führen

– Lehrplanziel wird ausgeblendet– Fördert Konkurrenz zwischen Schülern

• Individuelle Bezugsnorm– Ausblendung länger überdauernder Leistungsunterschiede (mgl. Demotivation leistungsstarker Schüler?)

– Soziale Vergleiche als Quelle der Selbsteinschätzung entfallenz.B. Rheinberg (1998): Schüler wünschten sich im Laufe eines Unterrichtsexperiments mit ausschließlich individueller Rückmeldung wieder Informationen zur sozialen Bezugsnorm

– Unlogische Konsequenzen, z.B. bei Schullaufbahnempfehlung

– Lehrplanziel wird ausgeblendet

• Kriteriumsbezogene Bezugsnorm

– Aufwand in der exakten Definition des Kriteriums – detailliert für alle Zensuren (!)

– Standardisierung des Curriculums

– S. auch Nachteile der anderen Normen

Fehler in der Beurteilung

• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums

– Strengefehler: Neigung, negative Bewertungen zu geben, d.h. auch schon kleinere Mängel zu betonen

– Mildefehler: Neigung, positive Bewertungen zu geben, d.h. auch größere Mängel zu vernachlässigen

– Tendenz zur Mitte: Häufung von mittleren Urteilen (3)– Tendenz zu Extremurteilen: Häufung von sehr guten (Begeisterung) und sehr schlechten (Enttäuschung) Urteilen, keine durchschnittlichen Bewertungen

• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums – Was tun?– Eigene Beobachtung! Häufigkeit der Notenvergabe über einen längeren Zeitraum, über viele Schüler und Klassen

– Vergleich mit Kollegen– Vergleich mit objektiven Schultests– Informationen über alterstypische Leistungen berücksichtigen (bei Unterricht in verschiedenen Altersstufen)

– Immer sowohl nach Stärken als auch nach Schwächen suchen

• Reihungsfehler: Abhängigkeit der Beurteilung von der Benotung davor, z.B. durchschnittliche Leistung nach einer sehr guten Prüfung eher als schlecht bewertet

• Logische Fehler: von einem Leistungsmerkmal wird (fälschlicherweise) auf ein anderes geschlossen, z.B. wer gut in Mathe ist, ist auch gut in Physik

• Halo‐Effekte: globaler Gesamteindruck überstrahlt spezifische Merkmale, z.B. Ruf des Primus oder des Sitzenbleibers

Standardmessfehler SD(ε)• Ist derjenige Anteil an der Streuung (Standardabweichung) eines Tests, der zu Lasten seiner (mangelnden) Reliabilität geht

• Wurzel aus Var(ε) (da diese auch unbekannt ist, erfolgt die Berechnung über SD(x) und die Reliabilität)

Standardmessfehler SD(ε)

TrueScore

+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)

Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)

Exkurs: Konfidenzintervall

• Kennzeichnet den Bereich, in dem mit 95% (…%) Wahrscheinlichkeit der wahre Wert liegt

SD(ε)

68%‐Konfidenzintervall

TrueScore

Messung 1

Messung 8Messung 235

95%‐Konfidenzintervall

TrueScore

Messung 1

Messung 8Messung 235

Konfidenzintervall – Beispiel(Exkurs)

• Eine Testperson hat in einem Intelligenztest einen Wert von X = 110. Die Reliabilität des Tests beträgt Rel = .84. Die Streuung ist SD(x) = 15.

SD(ε) = SD(x) * (1 – Rel)= 15 * .16= 6

95%‐CIu = 110 – 1.96 * 6 = 9895%‐CIo = 110 + 1.96 * 6 = 122

Konfidenzintervall

• Laut Ingenkamp und Lissmann beträgt der Standardmessfehler für Zensuren +/‐ eine Zensurenstufe!

• Sie können gerne die entsprechenden Konfidenzintervalle für einen „durchschnittlichen“ Schüler berechnen…

Exkurs: Kritische Differenz

a) Wie weit müssen zwei Testwerte auseinander liegen, damit die Differenz (auf einem gewählten Signifikanzniveau) als erheblich gilt?

→ Kri sche Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:

Dkrit = z * SD(x) * 2 (1− Rel)

(z. B. Testwerte zweier Schüler)

Exkurs: Kritische Differenzb) Wie groß müssen die Leistungsunterschiede eines

Probanden in zwei Tests (mit den Reliabilitäten Rel1 und Rel2) sein, um als abgesichert gelten zu können?

→ Kritische Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:

Dkrit = z * SD(x) * (z. B. Vergleich von Werten verschiedener Skalen unterschiedlicher Reliabilität)

Kritische Differenz – Beispiel(Exkurs)

• Ein Schüler hat im mathematischen Subtest einen Wert von X1 = 110, im verbalen Subtest einen Wert von X2 = 92. Die Reliabilität der Subtests beträgt Rel1 = .91 und Rel1 = .84. Die Streuung ist SD = 15.

Dkrit = z * SD(x) * 2 − (Rel1 + Rel2)

= 1.96 * 15 * 2 – (.91 + .84)= 14.7

Psychologische Diagnostik

Prüfungen konzipieren und beurteilen –Aufgaben‐ und Prüfungsanalyse

Gute Prüfungen

• Gütekriterien– Siehe bisherige Sitzungen, z.B. Prinzip der proportionalen Abbildung, repräsentative Aufgabenauswahl, objektive Durchführung und Auswertung

• Lehrerfreundlich– Praktikabilität: Durchführung und Auswertung möglich mit den vorhandenen Ressourcen (inkl. Zeit)

• Schülerfreundlich– Motivieren und verdeutlichen Lernfortschritte

Kreismodell

Auswertung der Prüfung

Analyse der Prüfung

Erstellung der Prüfung

In wie vielen von 100 Fällen tritt ein Ereignis ein, wenn es … ist? a) Seltenb) Häufigc) Wahrscheinlich

Allgemeine Empfehlungen zur Formulierung

• Klar definiertes Problem, möglichst signifikant und in der Bedeutungswelt aller(!) Schüler verankert

• Einfacher, präziser und eindeutiger Wortlaut

• Negationen möglichst vermeiden; wenn man sie einsetzt, dann besonders hervorheben (z.B. „Welche der folgende Tiere ist KEIN Säugetier?“); Doppelte Verneinungen auf jeden Fall vermeiden

• Irrelevante Informationen möglichst vermeiden

• Korrektes Raten vermeiden keine systematischen Antwortmuster (s. Testcleverness)

• Mit leichten Aufgaben beginnen, sehr komplexe Aufgaben aber auch nichtans Ende (Ermüdung)

Aufgabentypen n. Antwortformat

• Freies Antwortformat– Itemantwort wird von Schüler selbst formuliert (Text, Zahlen, Grafiken …)– Formen: Ergänzungsaufgaben und Essay– Typisch bei (aber nicht beschränkt auf) Erfassung von spontanen Reaktionen (was fällt dem

Schüler zuerst ein) und kreativen Leistungen– Geringere Wahrscheinlichkeit, dass richtige Antwort erraten wird– Aktives Wissen– Essay etc. kann Testangst erhöhen!

• Gebundenes Antwortformat– Antwortalternativen werden vorgegeben, Schüler muss Auswahl treffen– Formen: Wahr‐Falsch, Multiple Choice, Ordnungsaufgaben– Kann Auswertungsobjektivität erhöhen– Erhöht Auswertungsökonomie– Kann Validität erhöhen, da in der gleichen Zeit mehr Stoff geprüft werden kann– Eher passives Wissen

Multiple Choice

• Der Nutzen eines Tests steht in engem Zusammenhang zura) Sozialen Bezugsnormb) Validität

c) Skalenniveau

d) Mikrokarotät

e) Wickelkommode

Multiple‐Choice‐Fragen• Häufige Empfehlung: 4‐5 unabhängige Antwortalternativen

– 1 richtige Antwort– 3‐4 Distraktoren

• Ratewahrscheinlichkeit kann drastisch verringert werden, wenn mehrere Kategorien richtig sind oder eine beliebige Anzahl von Kategorien ausgewählt werden kann

• Aber: – Erhöht die Schwierigkeit– Stellt sehr hohe Anforderungen an die Formulierung der

Distraktoren– Wird häufig als unfair erlebt

Erfurt ist die Landeshauptstadt vona) Bayern b) Mecklenburg‐Vorpommern c) Sachsen d) Thüringen

Schwieriger zu lesen als

Erfurt ist die Landeshauptstadt vona) Bayernb) Mecklenburg‐Vorpommernc) Sachsend) Thüringen

Multiple‐Choice‐Fragen• Testclevere Schüler sollten nicht bevorteilt werden

• Antwortalternativen vertikal statt horizontal anordnen

• Unterschiedliche Empfehlungen bzgl. Reihenfolge– Richtige Antwort sollte an jeder Stelle auftauchen– Antworten alphabetisch sortieren

• Antwortalternativen können z.B. aus vorangegangenen Tests im offenen Frageformat gewonnen werden (gewisse Plausibilität)

Testcleverness

• Typische Eigenschaften falscher Antworten– Stehen an erster oder letzter Stelle– Sind logische Extreme (z.B. „immer“, „nie“)– Enthalten unerwartete Sprache oder Termini– Enthalten komplett unglaubwürdige Aussagen

• Typische Eigenschaften richtiger Antworten– Sind länger– Nutzen bekannte Phrasen– Passen grammatikalisch zur Frage– Sind 1 von 2 ähnlichen Antworten– Sind 1 von 2 entgegengesetzten Antworten

Empfehlungen

• Antwortoptionen möglichst kurz und von gleicher Länge

• Keine grammatikalischen Fehler (z.B. Frage verlangt Mehrzahl, aber Distraktor ist Einzahl)

• Keine unplausiblen Antworten; typische Fehler (auch aus bisherigen Prüfungen) sind gute Distraktoren

• Es sollte eine klare richtige Antwort geben• Positionen der richtigen Antwort variieren• Ähnliche falsche Antworten vermeiden• Fragen sollten keine Infos für spätere Fragen enthalten• Kein 1:1 von Büchern/Präsentationen

Zuordnungsverfahren

• Korrespondenz herstellen zwischen zwei Listen

Z.B. „Ordne jede der folgenden Personen ihren Erfindungen zu.“

1) ___ James Watt a) Blitzableiter2) ___ Philipp Reis b) Computer3) ___ Konrad Zuse c) Dampfmaschine4) ___ O.H.v. Mayenburg d) Glühbirne 5) ___ Benjamin Franklin e) Telefon

f) Zahnpasta

Halboffene Fragen

• Sätze mit mehren Lücken vermeiden

• Länge der Lücken sollte keinen Hinweis auf Antwort enthalten Lücken gleich groß und groß genug für die längste Antwort

• Festlegen, wie Punkte vergeben werden (auch unerwartete Antworten)

Offene Fragen

• Häufig zeitaufwändig zu beantworten nur geringe Anzahl möglich (Reliabilität!)

• am Schwersten zum Auswerten

Offene FragenLernziel nach Bloom Bedeutung Prüfungsformulierung

(Beispiele)

Wissen Erinnern von Fakten, Definitionen, Konzepten…

Definiere, Benenne, Identifiziere, Wer?, Wann?, Wo?, Was?

Verstehen Erklären/Interpretieren der Bedeutung

Erkläre, Umschreibe, Fasse zusammen, Gib Beispiele

Anwenden Anwenden eines Konzepts,um ein Problem zu lösen

Nutze, Löse, Demonstriere, Zeige

Analyse Zerlegen des Materials inseine Komponenten, um Beziehungen zu erkennen

Unterscheide, Vergleiche, Setze … in Beziehung mit …

Synthese Produzieren von etwas Neuem

Konstruiere, Entwickle, Kreiere, Verändere

Bewertung Beurteilen aufgrund bestimmter Kriterien

Bewerte, Evaluiere, Verteidige, Kritisiere

Kreismodell

Subjektiv‐holistisch Objektiv‐

rational

Schlüsselkomponenten, ‐elemente und Regeln zur Bewertungnicht klar spezifiziert

Alle Aspekte eindeutig definiertund standardisiert

Exkurs: Bewertungsschemata

Aus: Stiggins, R.: Classroom Assessment for Student Learning: Doing It Right, Using It Well

Offene Fragen

• Hinweise für die Auswertung– Namen des Schülers bedecken– Eine Frage über alle Schüler korrigieren anstatt jede Arbeit einzeln; dabei bisherige Punkte bedecken

– Mischen der Arbeiten nach jeder Fragenkorrektur– Im Lösungsschema auch vermerken, wie mit zusätzlicher Information, irrelevanten Fehlern und Grammatik‐/Rechtschreibfehlern umgegangen werden soll

– Da Korrektur durch 2. Lehrer leider häufig unpraktikabel ist, empfiehlt sich eine Stichprobe an Tests zweimal zu korrigieren

Exkurs: Portfolio

• Schlüsselelemente (n. Salvia & Ysseldyke)– Ergebnisse auf höheren Stufen des Wissens

– Spiegelt Arbeitsprozesse in der Realität (Integration, Aufwand…)

– Fördert Kooperation– Multiple Beurteilungsdimensionen (z.B. Arbeitsprozesse)

– Fördert Reflektion und Meta‐Wissen

– Integration von Bewertung und Instruktion

• Bessere Gütekriterien, wenn– Themen nicht zu breit und keine Freiwahlaufgaben, d.h. für alle

Schüler gleich (Beispiel: Interraterreliabilität fiel von ≈.6 auf ≈.4, wenn Schüler selbst Inhalt und Genre wählen können, Breland)

– Bewertungsschemata äußerst detailliert und rigide in der Handhabung

– Anzahl der Aufgaben abhängig vom Inhalt, aber gewisse Grundanzahl notwendig (Beispiel Shavelson et al., 1991: zwischen 8 und 20 Probleme Mathematik und Naturwissenschaften, 6 bei Schreiben …), um generalisieren zu können

Standardisierung!

Exkurs: Portfolio

Kreismodell

Wieso Prüfungsanalyse?

• Prüfungsbenotung anpassen (z.B. einzelne Aufgaben aus der Bewertung herausnehmen)

• Entwickelt Gespür für zukünftige Prüfungen

• Zusammenstellung eines Repertoires guter Aufgaben

• Zeigt Ansatzpunkte für Unterrichtsmaßnahmen

Wieso Prüfungsanalyse

• Viele Punkte/Gute Noten– Lehrer: guter Unterrichtsstil, gute Prüfungsfragen– Schüler: klug, gut vorbereitet Zu leicht?, Fehler im Bewerten?, Betrug?, unbeabsichtigte Hinweise in den Fragen?

• Wenig Punkte/schlechte Noten– Lehrer: schlechter Schüler– Schüler: schlechter Lehrer, blöder Test Zu schwer?, inhaltsvalide?, Fehler im Bewerten?, zu wenig Zeit?

Was analysieren?

• Schwierigkeit

• Trennschärfe

• Fehleranalyse, z.B.– Flüchtigkeits‐ und Leichtsinnsfehler– Missverständnisse und Verwechslungen– Lücken in lernzielrelevanten Kompetenzen– Vorkenntnisdefizite– Verständnisfehler

Datenmatrix

Aufgabe 1 Aufgabe 2 Aufgabe i … Aufgabe m Zeilensumme

Schüler 1 x11 x12 x1i … x1m Z1

Schüler 2 x21 x22 x2i … x2m Z2

… … … … … …

Schüler n xn1 xn2 xni … xnm Zn

Spaltensumme S1 S2 Sin … Sm

Schwierigkeitsindex P = Quotient aus der tatsächlich erreichten Punktsummealler Schüler für ein Item (Sin) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item [n * max(xi)] multipliziert mit 100

Je höher Schwierigkeitsindex, desto leichter ist die Aufgabe

Schwierigkeitsindex = Lösungsanteil LA

Beispiel

Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme

Schüler 1 1 1 0 2

Schüler 2 1 0 0 1

Schüler 3 1 0 0 1

Schüler 4 1 1 1 3

Spaltensumme 4 2 1

z.B. 1 = richtig, 0 = falsch

Schwierigkeitsindex P1 = Quotient aus der tatsächlich erreichten Punktsummealler Schüler für Item 1 (4) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item (4 * 1) multipliziert mit 100

P1 = 100 P2 = 50P3 = 25

Itemschwierigkeit• Itemschwierigkeit und Reihenfolge in Prüfung (ca. 80% der Schüler halten

sich an vorgegebene Reihenfolge!): Leichtere Aufgabe als Warm‐up an den Anfang, schwere in die Mitte

• n. Jürgens & Sacher sind Aufgaben mit sehr hoher Schwierigkeit bedenklich (P 20)

• Aber: Vertrauensintervall berücksichtigen (aus: Jürgens & Sacher, 2008, S. 133), bei typischen Klassenstärken sind schon P < 35 problematisch

Itemschwierigkeit

• Außerdem beachten: Lernbedeutsamkeit (wichtig: a‐priori!, ansonsten mgl. Verzerrung in Abhängigkeit der Ergebnisse)

• Je bedeutsamer eine Aufgabe, desto häufiger sollte sie gelöst sein, also desto leichter sollte sie den Schülern fallen

• n. Jürgens & Sacher– Hohe Lernbedeutsamkeit: P 70– Mittlere Lernbedeutsamkeit: P 50– Geringe Lernbedeutsamkeit: P 35

Trennschärfe

• Substanziell positive Korrelation zwischen Antworten im Item und im Gesamttest

• D.h. Schüler, die im Gesamttest höhere Werte erhalten, sollten auch häufiger das Item lösen

• Korrigierter Koeffizient: Item selbst geht nicht in Gesamttest ein

Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme

Schüler 1 1 1 0 2

Schüler 2 1 0 0 1

Schüler 3 1 0 0 1

Schüler 4 1 1 1 3

Spaltensumme 4 2 1

Trennschärfe

• Im Rahmen einer sozialen Bezugsnorm werden Trennschärfen größer .30 angestrebt

• Negativen Trennschärfen sollte nachgegangen werden (Itemformulierung!)

• Eine Abnahme der Trennschärfe bei späteren Aufgaben spricht für Ermüdungseffekte

Zusammenhang Schwierigkeit – Trennschärfe:

Schwierigkeit

Trennschärfe

Beispiele ‐ MC

A* B C D

Itemschwierigkeit 99 0 1 0

Trennschärfe .06 ‐ ‐.06 ‐

* Richtige Antwortalternative

Item überprüfen: zu leicht? Enthalten Antwortalternativen Hinweise?

Beispiele ‐ MC

A* B C D

Trennschärfe ‐.20 .13 .02 .30

Item überprüfen: Falsch codiertes Item?, C geeignet als Distraktor?

Beispiele ‐ MC

A* B C D

Trennschärfe .45 ‐.13 ‐.02 ‐.30

Relativ schweres Item, diskriminiert gut

Urteilsbildung und Klassifikation

am Beispiel von

Kindeswohlgefährdung

Kindeswohl

Kindeswohlgefährdung

• Misshandlung– Körperliche M. (direkte Gewalt wie z.B. Schlagen, Stoßen,

Schütteln, Würgen, Verbrennen, eigenen Kot/Urin essen lassen, Vergiftungen)

– Seelische/geistige M. (z.B. häusliche Gewalt, Isolation, feindselige Ablehnung wie ständiges Nörgeln, Beschimpfen oder Demütigen, Terrorisieren, Liebesentzug, Drohungen)

• Sexueller Missbrauch

• Vernachlässigung (z.B. körperlich, medizinisch, mangelnde Aufsicht, emotional, kognitiv)

Folgen von Kindeswohlgefährdung

• In Abhängigkeit von der Dauer, Schwere,

Zeitpunkt der Gefährdung

• Folgen vielfältig, z.B.

– Entwicklungsverzögerungen

– Bindungsstörungen

– Psych. Störungen

Risiko- und Schutzfaktoren

n. Deegener et al., 2009

Förderung von Resilienz

• Bedingungslose Wertschätzung

• Aufmerksamkeit

• Verantwortung übertragen, keine vorschnellen Hilfen

• Selbsteinschätzung steigern: Gefühle benennen, konstruktives Feedback, Stärken und Schwächen aufzeigen

• Anregungsreiche Umgebung, aber Routine im Lebensalltag

• Interessen fördern

Hinweise

Handlungsanweisung für Lehrer, Ber

Hinweise

Handlungsanweisung für Lehrer, Ber

Klassifikation

Kriterium

Klassifikation

Kriterium

Cut-off-Wert

Klassifikation

Kriterium

Cut-off-Wert

Fehler

Testergebnis

Keine Gefährdung (Negativ) Gefährdung (Positiv)

Misshandlung Positives

Familienklima

Misshandlung Positives

Familienklima

Wahre Negative

Wahre Positive

Falsche Negative

Falsche Positive

Test zeigt an

Kriterium + TPRisiko: 1 - β

FNRisiko: β

- FPRisiko: α

TNRisiko: 1 - α

Sensitivität = TP / (TP + FN)

Spezifität = TN / (TN + FP)

Positiver Vorhersagewert = TP / (TP + FP)

Negativer Vorhersagewert = TN / (TN + FN)

Cut-off

Höhere Prävalenz

Effizienz = 1

Cut-off

“If you hear hoofbeats, think of horses, not zebras”

Cut-off

Strengerer Test

Cut-off

Verbesserung der Validität

Cut-off

Klinische vs. Statistische Urteilsbildung

• Es ist zu unterscheiden zwischen Datengewinnung und Synthese der Daten.

• Datengewinnung:– Klinisch: Beurteilung durch Diagnostiker notwendig, informell

subjektiver Weg (z.B. Exploration, Beobachtung)

– Mechanisch: Standardisierung von Aufzeichnung, Auswertung und Interpretation

• Datensynthese:– Klinisch: erfahrungs- und intuitionsgesteuert, keine expliziten

und validierten Regeln; dies ist nicht auf den klinischen Bereich begrenzt!

– Statistisch: Gewichtung der diagnostischen Informationen nach expliziten Regeln (z.B. Regressionsgleichung)

Statistische Urteilsbildung

• Aufbauend auf empirisch abgesicherten Beziehungen

zwischen Prädiktoren und Kriterium werden

mathematisch optimale Vorhersagen getroffen

mathematisch optimale Kombination und Gewichtung

der Prädiktoren

• Beispiel Regressionsgleichung: mathematisch optimal

da Methode der kleinsten Quadrate

Befunde

• Aktuelle Meta-Analyse von Grove et al. (2000): Einschluss von 136 Studien aus verschiedensten Bereichen (z.B. Diagnosen, Behandlungsergebnisse, Berufs-/Trainingserfolg, Gewalt, Anpassung an institutionelle Lebensbedingungen wie Gefängnis …)

• Ergebnis: Stat > Klin in 47% der StudienStat = Klin in 47% der StudienStat < Klin in 6% der Studien

• Moderatoren:– größere Unterschiede bei Interviewdaten (S>K), kleinere Unterschiede

bei medizinischen Daten

– kein Einfluss von Training und Erfahrung

– kein Einfluss, ob Beurteiler gleich viele oder mehr Daten zur Verfügung hatte

Einige typische Reaktionen von

Diagnostikern (Grove & Meehl, 1996)

• „Es gibt keine Formel bzw. die Formel gilt nicht für unsere Population“

• „Die Ergebnisse der Studien sind nicht auf meine eigenen Fähigkeiten als Diagnostiker anwendbar“

• „Statistische Urteilsbildung ist viel zu teuer“

• „Wir wollen Vorhersagen für einzigartige Individuen treffen“

• „Die meisten Daten, die wir nutzen, sind nicht quantifizierbar“

• „Wenn die Diagnostiker Feedback über ihre Ergebnisse erhalten hätten, würden sie zukünftig die Formel schlagen“

Grove und Meehl zeigen für diese (und andere) Reaktionen die Unangemessenheit der dahinter liegenden Annahmen

• Statistische Datensynthese ist in den

meisten Fällen mindestens so gut wie

klinische Datensynthese

• Dies bezieht sich allerdings nur auf den

Bereich der Datensynthese! Meist wird

eine multimethodale Datensammlung

Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Documents

Transcript of Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Thielemann Kristin CV 2015

Das Freiburger Persönlichkeitsinventar FPI-R · Dr. Tobias Constantin Haupt . FPI-R - Gliederung. 1. Konstruktion 2. Testaufbau • Skalen • Durchführung. 3. Gütekriterien

Pädagogische KlassikerInnen

Pädagogische Interaktion

Sportwissenschaftliche Forschungsmethoden SS 2008 3. Motorische Tests, Gütekriterien, SMK-Test

Referentinnen: Kristin Fitzner und Jennifer van Lindt

Sportwissenschaftliche Forschungsmethoden SS 2008 3. Sportwissenschaftliche Forschungsmethoden SS 2008 3. Motorische Tests, Gütekriterien, SMK-Test.

PÄDAGOGISCHE HOCHSCHULESALZBURG

LEITFADEN ZUM WISSENSCHAFTLICHEN ARBEITEN · Wissenschaftliche Arbeiten müssen bestimmte Gütekriterien erfüllen, wobei generell Verständlichkeit, Nachvollziehbarkeit und logische

Gütekriterien für algorithmische Prozesse · Institutionen ermutigt werden sollten, die systeminternen Prozesse und Entscheidungen darzulegen. - Ähnlich sollten der Ursprung der

Kristin Döhrer, Sarah Reif, Isabel Wehrstedt, Elisabeth Oettel, Madeleine Rind.

Testtheoretische Grundlagen Gütekriterien

Scheuble 20.01.07Zentrum für MedienbildungFolie 1 Lernsoftware-Evaluation Projekt EvaSoft (PHZH, SFIB) Gütekriterien von Lernsoftware Walter Scheuble Päd.

Foto: Carsten Kottke Foto: Kristin Laukamp Foto: Kristin ... · Foto: Kristin Laukamp, Freilichtbühne Coesfeld • Greven-Reckenfeld Oelde- • Stromberg • Billerbeck • Coesfeld

Pädagogische - phoodle.phwien.ac.at

Elisa Dirnberger, Kristin Häusl und Sabrina Kettenberger.

Dr. Kristin Klaudia - akzente · Dr. Kristin Klaudia Kaufmann ist Bürgermeisterin und Bei-geordnete für Arbeit, Soziales, Gesundheit und Wohnen der Landeshauptstadt Dresden. Julia

Gütekriterien: Objektivität – Reliabilität – Validität · Objektivität – Reliabilität – Validität“ (Weiß & Schulz, 2017) kurz skizziert wird. Gütekriterien BIP-6F-FI-R2

Kristin Langhanki Grundlagen der kommunalen ...shop.kohlhammer.de/kohlhammer/pdf/978-3-555-10318-1.pdf · Recht und Verwaltung Kristin Langhanki Grundlagen der kommunalen Verwaltungsorganisation

Wissenschaftliche Gütekriterien bei sportmotorischen Tests...In der medizinischen Rehabilitation führt Denner (1998) z.B. eine Steigerung der isometrischen Maximalkraft der Hauptfunktionsmuskeln