Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

354
Vorlesung Modul 3 „Beobachten, Beraten und Fördern im pädagogischen Feld“ Prof. Dr. Kristin Mitte [email protected] Sprechzeit: Di 13-14 Uhr Moodle: Gütekriterien

Transcript of Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Page 1: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorlesung Modul 3 „Beobachten, Beraten und Fördern im pädagogischen Feld“

Prof. Dr. Kristin [email protected]

Sprechzeit: Di 13-14 Uhr

Moodle: Gütekriterien

Page 2: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Organisatorisches I

• Start der VL: s.t. oder c.t.?

2

Page 3: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Modul 3

• VL + Seminar– Seminar im WS 12/13

Di 14-16Di 16-18

oder

– Seminar im SS13

Organisatorisches II: Seminaraufteilung3

Page 4: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Prüfung

• Letzte VL-Woche

• Klausur 90 Minuten

• Mix aus geschlossenen Fragen, Multiple Choice, offenen Fragen

• Prüfungsvorleistung: Seminar

4

Page 5: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Organisatorisches III

• Wer von Ihnen kann KEIN(EN) – Laptop

– I-Pad

– Smartphone

– Etc.

mitbringen, um während der VL aufs Internet zuzugreifen?

5

Page 6: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Literatur

• Literaturempfehlungen am Ende einer Veranstaltung bzw. eines Themenblocks

• Grundlage: Ingenkamp, K.H. & Lissmann, U. (2005). Lehrbuch der Pädagogischen

Diagnostik. Weinheim: Beltz.

6

Page 7: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Überblick über die VL

A. Grundlagen der Diagnostik: Ziele, Methoden und Verfahren• Diagnostik als wissenschaftsbasiertes,

professionelles Handeln• Methodische Grundlagen (Testtheorien,

Verfahrenskonstruktion, Gütekriterien)• Test-, Befragungsmethoden und

Beobachtungsverfahren (Basiswissen)• Leistungs- und Verhaltensbeurteilung

B. Einführung in die Beratungspsychologie

7

Page 8: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beratung

• Beraten ist ein alltäglicher Prozess

• Aber: Alltagsberatung ist nicht professionelle Beratung!

8

TheoretischesWissen + operative

Kompetenzen

Page 9: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beratung

• McLeod (2004): Beraterqualitäten– Interpersonelle Fähigkeiten (z.B. Zuhören,

nonverbale Kommunikation)– Persönliche Überzeugungen (z.B. Glaube an

Veränderungspotential)– Konzeptionelle Fähigkeiten (z.B. Fähigkeit,

Probleme des Klienten einschätzen zu können)– Persönliche Integrität (z.B. vorurteilfrei)– Beherrschung von Beratungstechniken – Fähigkeit soziale Systeme zu verstehen und mit

ihnen zu arbeiten

9

Page 10: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Definition Beratung

Beratung ist ein zwischenmenschlicher Prozess, • in welchem eine Person oder eine Gruppe, d.h. die

Ratsuchenden/Klienten • in der und durch die Interaktion mit einer anderen Person, dem sog.

Berater/Team,• mehr Klarheit gewinnt über eigene Probleme und deren

Bewältigungsmöglichkeiten.

Die Hilfe zur Selbsthilfe, d.h. die Steigerung der Problemlösefertigkeiten seitens des Ratsuchenden, ist ein entscheidendes Element von Beratung. Psychosoziale Beratung soll damit nicht nur bei Lösung eines aktuellen, spezifischen Problems stehen bleiben, sondern dem Klienten die Möglichkeiten aufzeigen, wie ähnlich gelagerte Probleme in Zukunft zu bewältigen sind

(Warschburger, 2009, S. 16)

10

Page 11: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Eine kurze Frage an Sie

Page 12: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Eine zweite Frage

12

Page 13: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Diagnostische Kompetenzen im LA

• KMK (2004): Lehrerinnen und Lehrer üben ihre Beurteilungs- und Beratungsaufgabe im Unterricht und bei der Vergabe von Berechtigungen für Ausbildungs-und Berufswege kompetent, gerecht und verantwortungsbewusst aus. Dafür sind hohe pädagogisch-psychologische und diagnostische Kompetenzen von Lehrkräften erforderlich.

13

Fähigkeit, akkurate diagnostische Urteile zu fällen

Page 14: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Noch eine Frage

• Individualisierung im Unterricht?

14

Page 15: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Diagnostische Kompetenzen im LA

• Pisa-Konsortium, 2001: „Eine zentrale Voraussetzung für eine optimale Förderung ist eine ausreichende diagnostische Kompetenz der Lehrkräfte, also die Fähigkeit, den Kenntnisstand, die Verarbeitungs- und Verstehensprozesse sowie die aktuellen Leseschwierigkeiten der Schülerinnen und Schüler korrekt einschätzen zu können. Diagnostik in schulischen Entscheidungssituationen hat den Zweck, Informationen zur Optimierung des pädagogischen Handelns zu gewinnen“.

15

Page 16: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

16

Page 17: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

17

Leistungsstand?

Lern

pote

ntia

le? Lernhindernisse?

Lernfortschritte?

Page 18: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Anpassung Unterricht

+

Anpassung Unterricht

-

Diagnostik+

Optimum

Diagnostik-

18

Page 19: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Psychodiagnostik – Definition

• Diagnose und Diagnostik („diagignostikein“) bezeichnet im Griechischen eine kognitive Funktion mit den Bedeutungen „gründlich kennen lernen", „entscheiden" und „beschließen„

• Ist eine Methodenlehre im Dienste der Praktischen Psychologie (Wellek, 1955)

• Diagnostik habe das Ziel, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964)

• Leichner (1979) sieht die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen.

19

Page 20: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

• Dient der Beantwortung von Fragestellungen, die sich auf die – Beschreibung– Klassifikation– Erklärung– Vorhersage

menschlichen Verhaltens und Erlebens beziehen.• Informationen darüber werden

– gezielt erhoben mittels Methoden, die wissenschaftlichen Standards genügen und

– im Sinne der Fragestellung interpretiert

• Der Prozess wird von psychologischem Wissen geleitet

20

Schmidt-Atzert & Amelang, 2012

Page 21: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Pädagogische Diagnostik• „… umfasst alle diagnostischen Tätigkeiten, durch die

bei einzelnen Lernenden und den in einer Gruppe Lernenden Voraussetzungen und Bedingungen planmäßiger Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren. Zur Pädagogischen Diagnostik gehören ferner die diagnostischen Tätigkeiten, die die Zuweisung zu Lerngruppen oder zu individuellen Förderprogrammen ermöglichen sowie die mehr gesellschaftlich verankerten Aufgaben der Steuerung des Bildungsnachwuchses oder der Erteilung von Qualifikationen zum Ziel haben.“

Ingenkamp & Lissmann, 200821

Page 22: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Konzepte der Diagnostik (Oder: Woher schließe ich, wie Sie sich morgen verhalten?)

Eigenschaften(traits)

Verhaltensweisen(signs)

Verhaltensweisen(samples)

Eigenschaftsdiagnostik

Verhaltensdiagnostik

22

Page 23: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Eigenschaftsdiagnostik

• Wichtig: welche Eigenschaften hat Person

• Eigenschaften sind (weitgehend)– Zeitlich stabil und– Situationsunabhängig

• Analogieschluss: von Indikatoren von Eigenschaften wird auf zukünftiges Verhalten geschlossen (von einem Objekt wird auf ein anderes Objekt geschlossen aufgrund der Analogie zwischen beiden Objekten)

• z.B. Persönlichkeitstests, Intelligenz- und Leistungstests

23

Page 24: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Verhaltensdiagnostik

• Wichtig: welches Verhalten zeigt Person („The best predictor of future performance is past performance"; Wernimont & Campbell, 1968, S. 372)

• Verhalten ist– Situational abhängig– Es gibt aber repräsentative Stichproben dieses Verhaltens

• Induktionsschluss: von einem in einer spezifischen Situation unter spezifischen Bedingungen gezeigten Verhalten wird auf zukünftiges Verhalten geschlossen (von einer Teilklasse wird auf die Gesamtklasse geschlossen)

• z.B. Selbst- und Fremdbeobachtungen, Rollenspiele, Simulationen

24

Page 25: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Diagnostik lässt sich noch auf anderen Ebenen differenzieren

25

Page 26: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Status- vs. Prozessdiagnostik

• Statusdiagnostik: = einmalige Feststellung des Ist-Zustandes(für Diagnose + Prognose)

• Prozessdiagnostik:= wiederholte Untersuchungen zur Erfassung von Veränderungen

26

Page 27: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Selektions- vs. Modifikationsdiagnostik

• Selektionsdiagnostik– Personenselektion: Bedingung gegeben – geeignete

Person wird gesucht– Bedingungsselektion: Person gegeben – geeignete

Bedingung wird gesucht

• Modifikationsdiagnostik– Verhaltensmodifikation: welches Verhalten muss

geändert werden– Bedingungsmodifikation: welche externen

Bedingungen müssen geändert werden

27

Page 28: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vielen Dank für Ihre Aufmerksamkeit!

Page 29: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

… Psychologische Diagnostik

Sitzung 2: es wird statistisch…

Page 30: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ein Beispiel vorab…

• Ein Lehrer möchte das Wissen über ein Thema in Mathematik überprüfen

• Er entwickelt einen Test mit 20 Fragen (Items)

• Jedes Item kann entweder „richtig“ oder „falsch“ beantwortet werden

• Die Summe der richtig beantworteten Items ergibt das Maß für Mathematikwissen 

2

Page 31: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Es könnten sich dem Lehrer nun folgende Fragen stellen…

• Sollte man einen Summenwert bilden oder mehrere (z.B. für Bruchrechnung und Dreisatz)?

• Messen alle Items gleich gut das Mathewissen? • Wie gut misst der Gesamtwert Mathewissen?

• Hätte es nicht auch ein Test mit 5 Items getan? Oder sind 30 Items notwendig?

• Hätte man 2 Testhälften geben können, damit die Schüler untereinander nicht abschreiben? Messen die dann das gleiche?

• Gibt es einen systematischen Bias in den Fragen? Werden bestimmte Schüler benachteiligt (z.B. aufgrund ihrer Herkunft)?

• Kann man aus niedrigen Werten schließen, dass der Schüler eine Lernstörung aufweist?

• …

3

Page 32: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Mit anderen Worten

• Wie gut ist der Test?

Damit es gerecht zugeht, ist die Aufgabe für alle gleich: „Klettern Sie auf diesen Baum“!

Unterschied „Pseudotest“ und wissenschaftlicher Test: Gütekriterien 4

Page 33: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

Mittelwert und Standardabweichung – was ist das?

• Mittelwert als arithmetisches Mittel – im Gegensatz zum häufigsten Wert = Modalwert

– Im Gegensatz zur mittleren Position = Median

• Standardabweichung als mittlere Abweichung vom Mittelwert

5

Page 34: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

6

163

163

163

170172

182197182180

Modalwert = 

Median = 

Mittelwert = 

??

?

Page 35: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

• Mittelwert

7

Page 36: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

8

163

163

163

170172

182197182180

Modalwert = 

Median = 

Mittelwert = 

163

172

?(3*163+170+175+180+2*182+197) / 9175

Page 37: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ein paar Mittelwerte…

9

Quelle: Statistisches Bundesamt, https://www.destatis.de/DE/PresseService/Presse/Pressemitteilungen/2011/08/PD11_301_12641.html

Page 38: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ein paar Mittelwerte…

10Quelle: http://www.mappedplanet.com/map/stats.php?param=30

Page 39: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

163

163

163

170172

182197182180

175 175 175 175 175 175 175 175 175

Page 40: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

• Varianz und Standardabweichung

12

Page 41: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

163

163

163

170172

182197182180

175 175 175 175 175 175 175 175 175

Var(x) = SD (x) = 0

Var(x) = (163‐175)2+…+ (197‐175)2/8 

Var(x) = 133SD(x) = 11,5

Page 42: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

Korrelation – was ist das?

• Besteht ein (linearer) Zusammenhang zwischen mehreren Variablen?

• Wie ist dieser Zusammenhang ausgeprägt?

14

Page 43: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

0

1

2

3

4

5

6

7

8

9

0 5 10 15 20

Stu

nd

en

im

Le

se

sa

al

Wochen bis zu Klausur

Wochen bis zu

Klausur

Stunden auf

Feten, …

Stunden im

Lesesaal

16 10 0,5

14 8,5 1

12 6 1

10 6,5 2,5

8 4 4

6 3,5 6

… … …

0

2

4

6

8

10

12

0 5 10 15 20

Stu

nd

en

au

f F

ete

n, …

Wochen bis zu Klausur

15

Page 44: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

• Abbildung dieses Zusammenhangs durch folgende Koeffizienten:– Kovarianz

– Korrelation

16

Page 45: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

d.h. 

17

hohe Kovarianz, wenn diejenigen Personen, die im Merkmal A überdurchschnittlich sind auch im Merkmal B überdurchschnittlich sind bzw. diejenigen Personen, die im Merkmal A unterdurchschnittlich sind auch im Merkmal B unterdurchschnittlich sind.

Page 46: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

Aber: • Variablen nicht standardisiert, d.h. die Höhe der 

Kovarianz ist abhängig von der Maßeinheit der VariablenDas bedeutet… • Zusammenhang Gewicht u. Körpergröße

– Gewicht in kg unda) Körpergröße in mb) Körpergröße in cm  Kovarianz ist 100x höher gegenüber a!

18

Page 47: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

Wochen bis zu

Klausur

X

Stunden auf Feten,

Y

16 10 (10-6,4) * (16-11) = 17,9

14 8,5 (8,5-6,4) * (14-11) = 6,25

12 6 … …

10 6,5 … …

8 4 … …

6 3,5 … …

M = 11 M = 6,4 ∑ = 45,5

Cov (x, y) = 45,5 / 6 = 7,58 19

Page 48: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

Die Produkt‐Moment‐Korrelation r

• Zum Bsp.: r = 7,58 / (3,42 * 2,30) = .97• r im Bereich zwischen ‐1 … 0 … +1

20

Page 49: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

• Ein Wort der Warnung: Korrelation sagt nichts über Kausalität aus (!)

• Klassisches Beispiel aus Südschweden: die Anzahl an Geburten war positiv mit der Anzahl an nistenden Störchen korreliert

21

Page 50: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorüberlegungen

• Ein zweites Wort der Warnung: eine Korrelation von 0 bedeutet nicht, dass zwei Variablen nicht in Zusammenhang stehen

• Beispiel: U‐förmiger Zusammenhang

22

Page 51: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Hintergrund

• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)

• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift 

23

Page 52: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Hintergrund

24

Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer

Page 53: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Skalenniveaus

• Nominalskala

– Nomen: lateinisch für Namen

– Einteilung in (beliebige aber) eindeutige Kategorien, z.B.

• Männlich = 0, weiblich = 1; • Ledig = 0, verheiratet = 1, geschieden = 2, feste Partnerschaft = 3, anderes = 4

– Statistik: Modalwert, Häufigkeiten 

25

Page 54: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Skalenniveaus

• Ordinalskala

– Natürliche Reihenfolge, aber Abstände sind nicht gleich  Rangreihe, z.B. 

• Schulnoten

• Plätze bei den Olympischen Spielen

– Statistik: Median

26

Page 55: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Skalenniveaus

• Intervallskala

– Gleiche Abstände zwischen den Werten (z.B. Unterschied zwischen 50°C und 25°C entspricht dem Unterschied zwischen 35°C und 10°C) 

– 0‐Punkt ist aber willkürlich festgelegt• Abweichungsnormen

• Temperatur in Grad Celsius

– Statistik: Mittelwert

27

Page 56: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Skalenniveaus

• Verhältnisskala

– Gleiche Abstände zwischen den Werten und– 0‐Punkt ist natürlich gegeben

• Gewicht, Größe• Temperatur in Kelvin

– Statistik: Vielfaches, Quotient,…

28

Page 57: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel

Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht

29

Kategorie Häufigkeit „Durchgefallen“

0 = weiblich, brünett 15

1 = weiblich, blond 0

2 = männlich, brünett 5

3 = männlich, blond 5

Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1

Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.

Page 58: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

Hauptgütekriterien

Nebengütekriterien

30

Page 59: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

31

Page 60: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“

32

Page 61: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“

33

Page 62: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“

34

Page 63: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“

35

Page 64: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“

36

Page 65: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“

37

Page 66: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“

38

Page 67: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“

39

Page 68: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“

40

Page 69: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien unter der Lupe

41

Objektivität

Page 70: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

• Subjektive Einflüsse des Untersuchers sollten minimiert werden  Vereinheitlichung der Arbeitsschritte

• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.

– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird. 

– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.

42

Page 71: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

Beispiel 1: Mündliche Prüfungen

• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)

– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)

43n. Ingenkamp & Lissmann, 2008

Page 72: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

Beispiel 2: schriftliche Prüfungen

• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher 

Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs.  b) 0% 

(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83

• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)

44n. Ingenkamp & Lissmann, 2008

Page 73: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

Beispiel 2: schriftliche Prüfungen

• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist

• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)

– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen! 

45n. Ingenkamp & Lissmann, 2008

Page 74: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

• Bildet die Grundlage für die folgenden Gütekriterien!

46

Page 75: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

… Psychologische Diagnostik

Gütekriterien

NW9440
Typewriter
Sitzung 3
NW9440
Typewriter
NW9440
Typewriter
NW9440
Typewriter
NW9440
Markup
set by NW9440
NW9440
Markup
set by NW9440
Page 76: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Hintergrund

• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)

• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift 

3

Page 77: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Hintergrund

4

Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer

Page 78: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel

Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht

5

Kategorie Häufigkeit „Durchgefallen“

0 = weiblich, brünett 15

1 = weiblich, blond 0

2 = männlich, brünett 5

3 = männlich, blond 5

Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1

Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.

Page 79: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

Hauptgütekriterien

Nebengütekriterien

6

Page 80: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

7

Page 81: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“

8

Page 82: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“

9

Page 83: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“

10

Page 84: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“

11

Page 85: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“

12

Page 86: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“

13

Page 87: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“

14

Page 88: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“

15

Page 89: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“

16

Page 90: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien unter der Lupe

17

Objektivität

Page 91: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

• Subjektive Einflüsse des Untersuchers sollten minimiert werden  Vereinheitlichung der Arbeitsschritte

• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.

– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird. 

– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.

18

Page 92: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

Beispiel 1: Mündliche Prüfungen

• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)

– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)

19n. Ingenkamp & Lissmann, 2008

Page 93: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

Beispiel 2: schriftliche Prüfungen

• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher 

Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs.  b) 0% 

(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83

• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)

20n. Ingenkamp & Lissmann, 2008

Page 94: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

Beispiel 2: schriftliche Prüfungen

• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist

• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)

– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen! 

21n. Ingenkamp & Lissmann, 2008

Page 95: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Objektivität

• Bildet die Grundlage für die folgenden Gütekriterien!

22

Page 96: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien unter der Lupe

23

Reliabilität (Zuverlässigkeit)

Page 97: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Zunächst…

• ein kleines Experiment

24

Page 98: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Klassische Testtheorie (KTT)

• Geht zurück auf Gulliksen (1950) sowie Lord und Novick (1968) (Ideen aber auch schon bei Thurstone und Spearman zu finden)

• Grundlage für viele Testverfahren

25

Page 99: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

KTT

Es muss zunächst zwischen drei Variablen unterschieden werden:

• Beobachteter Wert • Wahrer Wert (true score)• Messfehler (random error)

26

Page 100: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Axiome der KTTExistenzaxiom: Der wahre Wert τvi existiert als Erwartungswert der Messung xvi:

τvi = E(xvi)

Verknüpfungsaxiom: Jede Messung xvi ist aus einem wahren Wert τvi und einem 

zufälligen Fehlerwert εvi zusammengesetzt:

xvi = τvi + εvi

v = Personi = Test(item)

Page 101: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ableitungen

• Der Messfehler ist eine Zufallsvariable mit dem Erwartungswert 0

• Die Korrelation zwischen Messfehler und wahrem Wert ist 0

• Verknüpfungsaxiom gilt auch auf Varianzebene

28

Page 102: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilität (Messgenauigkeit)

Var(τ)Var(x)

• Ist der Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte

Rel =

• Kann Werte zwischen 0 und 1 annehmen 

Page 103: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilität

• Frau Müller schreibt einen Mathematiktest zur einfachen Addition im Zahlenraum 1‐10. Einige Fragen, die auftreten könnten/sollten – die Reliabilität betreffend– Generalisierbarkeit über Items?

– Generalisierbarkeit über die Zeit?– Generalisierbarkeit über Lehrer?(Interrater‐Reliabilität  Objektivität)

Page 104: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Wie kann die Reliabilität geschätzt werden?

Page 105: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

Page 106: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

� Parallele Tests im Sinne der KTT weisen gleiche wahre Werte und Fehlervarianzen auf (= eineiige Zwillinge)

� Schätzung der Paralleltest‐Reliabilität über die Korrelation der Testwerte xA und xB der parallelen Testformen

Rel(x) = Corr (xA, xB)

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

Page 107: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

� Annahme, dass ein Test bei zweimaliger Durchführung die gleichen wahren Werte und Fehlervarianzen aufweist

� Schätzung der Retest‐Reliabilität über die Korrelation der Testwerte xt1 und xt2

Rel(x) = Corr (xt1, xt2)

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

Page 108: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Einfluss von Merkmalsveränderungen

aus M

oosbrugger&

 Kelava, S. 118

Page 109: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

� Mehrere Verfahren zur Bestimmung der internen Konsistenz, darunter:– Split‐half Reliabilität– Cronbachs Koeffizient Alpha

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

Page 110: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Split‐Half‐Reliabilität

• Aufteilung der Testskala in zwei möglichst parallele Testhälfte (z.B. odd‐even)

• Schätzung der Split‐Half‐Reliabilität über die Korrelation der Testhälften a1 und a2

• Diese Schätzung sollte noch aufgewertet werden

Page 111: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilität und Testlänge

Page 112: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Implikation

• Je weniger Aufgaben eine Prüfung, desto geringer die Reliabilität (s. aber auch nächste Sitzung zur Validität)

• Je weniger Einzelarbeiten in eine Jahresnote einfließen, desto unreliabler die Gesamtnote

• Je weniger soziale Beurteiler, desto unreliabler das Urteil 

Page 113: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Einige Anmerkungen

• Reliabilitäten sind stichprobenabhängig!

• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)

• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening 

Page 114: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilität

Beispiel: schriftliche Prüfungen

n. Ingenkamp & Lissmann, 2008

Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal

Korrelation r = .25 (Retestreliabilität)

Page 115: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilität

Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten

– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)

• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46

• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80

n. Ingenkamp & Lissmann, 2008

Page 116: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

… Psychologische Diagnostik

Sitzung 4: Was messen wir?

Page 117: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Einige Anmerkungen

• Reliabilitäten sind stichprobenabhängig!

• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)

• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening 

Page 118: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilität

Beispiel: schriftliche Prüfungen

n. Ingenkamp & Lissmann, 2008

Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal

Korrelation r = .25 (Retestreliabilität)

Page 119: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Reliabilität

Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten

– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)

• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46

• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80

n. Ingenkamp & Lissmann, 2008

Page 120: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien unter der Lupe

Validität

5

Page 121: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Validität

Es handelt sich um das wichtigste Gütekriterium!

Problem: Es gibt nicht einen einzigen Kennwert und im Gegensatz zur Reliabilität keine eindeutige Definition; common sense:

6

"Validity refers to the degree to which evidence and theory support the interpretation of test scores  entailed  by  

proposed  uses  of  tests". (APA, 1999)

Misst man das, was man messen möchte? (z.B. Cattell, 1946)

Page 122: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Wichtig

• Wie ist das zu messende Konstrukt definiert?Beispiel: was ist Lesekompetenz? Definition durch wissenschaftliche Literatur Verschiedene Fragen zu klären, darunter auch– gehört zur Lesekompetenz nicht nur Leseverständnis sondern auch Lesegeschwindigkeit?

Dimensionalität des KonstruktsSubskalen vs. Gesamtskalen eines Tests

7

Page 123: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Validität

Inhaltsvalidität:Wie gut spiegelt der Test den definierten Inhaltsbereich wider? (Repräsentativität der Items fürs Merkmal)

Kriteriumsvalidität: Wie genau kann der Test ein Kriterium vorhersagen?

Konstruktvalidität:Wie genau repräsentiert der Test ein Konstrukt (eine hypothetische Eigenschaft einer Person)? 

8

Page 124: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Inhaltsvalidität

• Testinhalt bezieht sich auf sämtliche Fragen eines Tests inkl. Antwortoptionen

• Repräsentationsschluss: vom Verhalten im Testinhalt wird auf Verhalten in der Menge möglicher Fragen geschlossen Items müssen repräsentativ sein

• Grundlegende Fragen:– Alle relevanten Inhalte vorhanden? – Angemessenes Verhältnis der einzelnen Inhalten? – Keine irrelevanten Inhalte?

9

Page 125: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel

• Test soll mathematisches Wissen 1. Klasse messen

– 1 + 4 = ____– Paul hat eine Artischocke. Von Hans erhält er vier weitere Artischocken. Wie viele Artischocken hat Paul?

– I + IV = ____– Compute the sum of one and four!

– 4.5 * 3.9 = ____ 

10

Page 126: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Inhaltsvalidität

Überprüfung meist über Expertenrating:1. Definition des Konstrukts und seiner Facetten2. Entsprechend werden Aufgaben oder Fragen generiert.

3. Unabhängige Experten schätzen ein, wie gut die Aufgaben / Fragen dem Konstrukt entsprechen.

4. Beurteilerübereinstimmung wird als Koeffizient der Inhaltsvalidität angesehen.

11

Page 127: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Inhaltsvalidität

Anwendung im pädagogischen Kontext• Aufgaben sollten ausreichend (!) Inhalt im Unterricht gewesen sein (und nicht nur am Rande erwähnt)

• Niveau im Unterricht sollte sich in den Aufgaben widerspiegeln (Faktenwissen, Transfer etc.)

• Zeitvolumen vergleichbarGrundsatz der proportionalen Abbildung

12

Page 128: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Inhaltsvalidität – Was passiert bei nichtrepräsentativer Itemauswahl?

Behandelter Stoff

3 Schüler, jeder lernt 66%Max:

Moritz:

Paul:

Geprüfter Stoff

Ergebnis der Prüfung:100% richtig  Note 1 

66% richtig  Note 3

33% richtig  Note 5 13

Page 129: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Inhaltsvalidität

Weitere Anwendung im pädagogischen Kontext• sind Rechenaufgaben in Textform gestellt, wird nicht nur das mathematische Verständnis sondern auch Lesefertigkeit und Textverständnis geprüft

14

Page 130: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kriteriumsbezogene Validität

• Korrelation zwischen Zielmerkmal oder Kriterium und Test

• Typische Kriterien:– Akademische Leistung (z.B. Schulnoten, Auszeichnungen)– Berufliche Leistung (z.B. Verkaufszahlen, Einschätzungen durch Vorgesetzte)

– Gruppenzugehörigkeit (z.B. psych. Diagnose)– Werte bei anderen Tests– …

• Beispiel: Vorhersage des gymnasialen Schulerfolgs durch Empfehlung der Grundschule

15

Page 131: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kriteriumsbezogene Validität

16

Zeit t

Test

t1

Kriterium

Konkurrente Validität

Kriterium

Prädiktive Validität

t2

Page 132: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Befunde

Baron‐Boldt et al., 1988: Meta‐Analyse von 61 Studien

• Zusammenhang zwischen– Hauptschul‐/Realschulabschlußnote und Ausbildungserfolg: .37

– Abinote und Studienerfolg: .46

Böhnel, 1996: • Zusammenhang Schulerfolg 4. und 8. Klasse: .78 (ungarische Einheitsschule)

17

Page 133: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Konstruktvalidität

• Beziehungen des Zielkonstrukts zu anderen Konstrukten und Verhaltensweisen

• Hypothesen zu diesen Assoziationen aufbauend auf Theorie entwickeln und an Daten überprüfen

• Konvergente und diskriminante Validität

18

Page 134: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Konstruktvalidität

• Möglichkeit der Überprüfung mittels

– Untersuchung von Gruppenunterschieden– Untersuchungen von Korrelationen zwischen Tests– Untersuchung der internen Struktur– Untersuchungen zur Stabilität über die Zeit– …

19

Page 135: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Validität als Korrelation

• Höhe der Korrelation?

• Reliabilitätsabhängigkeit (Reliabilitätsindex)

• Stichprobenabhängigkeit– Selektions‐ und Selbstselektionseffekte führen zu „range restriction“ in den beteiligten Variablen

– Dies verringert die Korrelation zwischen Test und Kriterium

20

Page 136: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien unter der Lupe

Fairness

21

Page 137: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Problem

„Murphy Archibald, 30, ein Vietnam‐Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova‐Universität verdient. Doch als er an der Universität auftauchte, befand sich seine Akte unter „Minoritäten‐Bewerber" mit einem b wie „black" darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde ihm das Stipendium entzogen. Ex‐Stipendiat Archibald verdankt sein Scheitern der guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil‐Rights‐Act von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft." (Der Spiegel, 1975, Nr. 7, S. 93; aus Amelang & Zielinski)

22

Page 138: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Problem

„Frauen werden bei gleicher Eignung bevorzugt eingestellt“

23

Page 139: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fairness auf Itemebene

Welche Person ist hübscher? (Stanford‐Binet Test)

24

Page 140: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fairness auf Itemebene

Welches Tier passt nicht zu den anderen? Elefant, Kuh, Gans, Schwein, Huhn (Item im CMM 1‐3) Deutsche Kinder wählen normalerweise den Elefanten (kein Haustier), islamische Kinder wählen in der überwiegenden Mehrzahl das Schwein, da dieses im Islam als unreines Tier gilt (Gözlü, 1986)

Häkelaufgabe zur Messung der Feinmotorik

25

Page 141: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fairness auf Itemebene

Eber : Rüssel = Gockel : a) Truthahn b) Stall c) Schnabel d) Pflug

würde bei Stadtkindern nicht Analogieschluss testen

26

Page 142: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fairness auf Itemebene

Verschiedene Punkte zu berücksichtigen, z.B.:• Wird Iteminhalt von verschiedenen Gruppen unterschiedlich interpretiert?

• Haben einzelne Worte eine unterschiedliche Bedeutung oder sind einigen Gruppen nicht geläufig?

• Sind die Gruppen unterschiedlich stark mit dem Material vertraut?

• …

27

Page 143: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Aber:

• Unterschiedliche Mittelwerte führen nicht zwangsläufig dazu, dass der Einsatz eines Tests unfair ist! (Fairness auf Testebene)

28

Page 144: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Regressionsmodell (Cleary, 1968)

• Ein Test ist nur dann fair (unbiased), wenn die Regressionsgeraden zwischen Kriterium und Testwert der verschiedenen Gruppen identisch sind

• Fair ist dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird

• Dieses Modell gilt als das Wichtigste! (z.B. Standards for Educational and Psychological Testing der American Educational Research Association, American Psychological Association, National Council on Measurement in Education)

29

Page 145: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Beispiel aus Amelang

• Untersuchungsmaterial von Simons und Möbus (1976). Aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres waren N = 58 Arbeiter‐ und N = 63 Akademikerkinder ausgewählt worden. Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe T‐normiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus beiden Sub‐Stichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab ‐ womit die Testbatterie für das anstehende Vorhersageproblem gemäß der übernommenen Definition fair war.

30

Page 146: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vielen Dank für Ihre Aufmerksamkeit!

Page 147: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

… Psychologische Diagnostik

Sitzung 5: Normen

Page 148: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testgütekriterien unter der Lupe

Normierung

2

Page 149: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Selbsteinschätzung funktioniert nicht• In verschiedensten Studien aus verschiedensten Gebieten: Einschätzung der 

eigenen Fähigkeiten nur bedingt aussagekräftig, z.B. – Einschätzung von Medizinern über ihre eigenen Kommunikationskompetenzen vs. Ratings von 

Patienten und Supervisoren

– Einschätzung der eigenen Intelligenz: nicht besser als durch eine Person, die einen das erste Mal auf einem 90‐sekündigen Video gesehen hat, auf dem man einen Wetterbericht vorliest

– Vorhersage bei Studenten, wann sie eine größere Hausarbeit abgeben: tatsächliche Abgabe ca. 3 Wochen nach „most realistic“ Schätzung und ca. eine Woche nach „worst case scenario“

– 70% von (US‐)Abiturienten schätzten ihre Führungskompetenz „überdurchschnittlich“ ein, aber nur 2% „unterdurchschnittlich“

– Zusammenhang Noten durch Lehrer und durch sich selbst: Korrelation < .4 (im Gegensatz zu .7 durch Lehrer und Peers), 68% der Schüler würden sich bessere Note geben als der Lehrer gibt

(n. Dunnally, 2004) 

Page 150: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorteile akkurater Selbsteinschätzung

• Kennt man seine eigene Stärken und Schwächen, wird Lernen effektiver eingesetzt

• Erhöht Selbstverantwortlichkeit fürs Lernen

(n. Dunnally, 2004)

Page 151: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

(n. Rheinberg)

Moodle

• Rheinbergaufgabe

Page 152: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf
Page 153: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vergleichsmöglichkeiten

• … mit einer Referenzgruppe (= soziale Bezugsnorm, normorientiert)

• … mit Kriterien (= sachliche Bezugsnorm, kriteriumsorientiert)

• … mit früheren Ergebnissen (= intraindividuelle Bezugsnorm, individueller/ ipsativer Vergleich)

7

Page 154: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vergleichsmöglichkeiten

Page 155: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Prozentränge

= relative Position auf der Rangreihe der Bezugsgruppe (Beispiel: PR = 60 bedeutet, dass 60 Prozent der Bezugsgruppe den gleichen oder geringeren Wert haben)

• Vorteil: keine NV notwendigNachteil: nicht intervallskaliert!

• Frage: wie würden Sie ein Testergebnis PR = 25 beschreiben?(weit unterdurchschnittlich, unterdurchschnittlich, durchschnittlich, überdurchschnittlich, weit überdurchschnittlich)

9

Page 156: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Prozentränge

• Berechnung:PR = cumf/N * 100

Cumf = Kumulierte Häufigkeit

Anzahl "richtig" 5 6 7 8 9 10 11 12 13 14

f 1 0 6 10 19 24 14 6 4 1

cumf 1 1 7 17 36 60 74 80 84 85

PR 1,2 1,2 8,2 20,0 42,4 70,6 87,1 94,1 98,8 100,0

Peter: 5 richtige Antworten, Paul 7 richtige  PR 1,2 vs. 8,2

Max: 9 richtige Antworten, Moritz 11 richtige  PR 42,4 vs. 87,1

10

Page 157: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Prozentränge

Hohe Testwertdichte führt im PR zur Überbetonung von Unterschieden Nichtlineare Transformation der Rohwerte

11

Page 158: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Abweichungsnormen

• Position des Testwertes als Differenz (Abstand) zum arithmetischen Mittelwert der Bezugsgruppe

• Zur Vergleichbarkeit: Relativierung an der Standardabweichung

12

Page 159: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Abweichungsnormen

= (x – M(x))/SD(x)

= M + SD * z‐Wert

13Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?(Achtung: korrekterweise erst KI berechnen!)

Page 160: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Abweichungsnormen

durch‐schnittlich

unter~ über~

weit ~ weit ~ 14

Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?

Page 161: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Prozentränge

15ACHTUNG: gilt nur bei NV!!!

Page 162: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Zensuren

Zensur 1 2 3 4 5 6

Prozentanteil 9 16 25 25 16 9

Prozentanteil 2 14 34 34 14 2

Angemessenheit der Anwendung von NV auf Noten???

Page 163: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Normierung

• An repräsentativer Eichstichprobe (ausreichend groß)

• Möglichst für verschiedene Altersgruppen, getrennt nach Geschlecht, Schultyp, ... (in Abhängigkeit vom Test und der Fragestellung)– Z.B. Sprachkenntnisse bei Kindern mit Migrationshintergrund: 

Unterschiede bei Wahl der Normstichprobe

• in regelmäßigen Abständen (Aktualität)– Z.B. Schneider & Stefanek (2007): Rechtschreibeleistung, die 

heute durchschnittlich ist (statistisch „normal“), wäre vor 30 Jahren unterdurchschnittlich gewesen!

17

Page 164: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kriteriumsorientierte Normen

• Inhaltliches Kriterium (z.B. Lernziel)– Wichtig: Definition der Aufgabengrundgesamtheit

– Repräsentative Aufgabenstichprobe

18

Page 165: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Normen am Beispiel

• Maximilian, 4. Klasse, Leistung im letzten Mathetest– Soziale Bezugsnorm: im Vergleich zu seinen Mitschülern (oder besser einer repräsentativen Stichprobe von Viertklässlern) durchschnittliche Leistung mit z‐Wert von 0

– Kriteriumsorientierte Bezugsnorm: beherrscht alle Grundrechenarten; deutlich mehr als die Mindestaufgabenanzahl gelöst

– Individuelle Bezugsnorm: Verschlechterung gegenüber letztem Test

Page 166: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Probleme der Bezugssysteme im Schulalltag

• Soziale Bezugsnorm– „Normgruppe“: häufig klasseninternes Bezugssystem (s. Probleme Objektivität)

– Gemeinsamer Lernzuwachs aller Schüler der „Normgruppe“ bleibt unsichtbarz.B. Rheinberg (1980): >50% der Schüler mit Lehrern, die nur die soziale Bezugsnorm einsetzten, gaben am Ende des Schuljahres an, dass sie nur gleichviel oder weniger als am Anfang des Jahres könnten

– Individuelle Schwankungen bleiben meist unsichtbar, dies kann zu einer Demotivation rel. leistungsschwacher Schüler führen

– Lehrplanziel wird ausgeblendet– Fördert Konkurrenz zwischen Schülern

Page 167: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Probleme der Bezugssysteme im Schulalltag

• Individuelle Bezugsnorm– Ausblendung länger überdauernder Leistungsunterschiede (mgl. Demotivation leistungsstarker Schüler?) 

– Soziale Vergleiche als Quelle der Selbsteinschätzung entfallenz.B. Rheinberg (1998): Schüler wünschten sich im Laufe eines Unterrichtsexperiments mit ausschließlich individueller Rückmeldung wieder Informationen zur sozialen Bezugsnorm

– Unlogische Konsequenzen, z.B. bei Schullaufbahnempfehlung

– Lehrplanziel wird ausgeblendet

Page 168: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Probleme der Bezugssysteme im Schulalltag

• Kriteriumsbezogene Bezugsnorm

– Aufwand in der exakten Definition des Kriteriums – detailliert für alle Zensuren (!)

– Standardisierung des Curriculums

– S. auch Nachteile der anderen Normen

Page 169: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fehler in der Beurteilung

• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums

– Strengefehler: Neigung, negative Bewertungen zu geben, d.h. auch schon kleinere Mängel zu betonen

– Mildefehler: Neigung, positive Bewertungen zu geben, d.h. auch größere Mängel zu vernachlässigen

– Tendenz zur Mitte: Häufung von mittleren Urteilen (3)– Tendenz zu Extremurteilen: Häufung von sehr guten (Begeisterung) und sehr schlechten (Enttäuschung) Urteilen, keine durchschnittlichen Bewertungen

Page 170: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fehler in der Beurteilung

• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums – Was tun?– Eigene Beobachtung! Häufigkeit der Notenvergabe über einen längeren Zeitraum, über viele Schüler und Klassen

– Vergleich mit Kollegen– Vergleich mit objektiven Schultests– Informationen über alterstypische Leistungen berücksichtigen (bei Unterricht in verschiedenen Altersstufen)

– Immer sowohl nach Stärken als auch nach Schwächen suchen

Page 171: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fehler in der Beurteilung

• Reihungsfehler: Abhängigkeit der Beurteilung von der Benotung davor, z.B. durchschnittliche Leistung nach einer sehr guten Prüfung eher als schlecht bewertet

• Logische Fehler: von einem Leistungsmerkmal wird (fälschlicherweise) auf ein anderes geschlossen, z.B. wer gut in Mathe ist, ist auch gut in Physik

• Halo‐Effekte: globaler Gesamteindruck überstrahlt spezifische Merkmale, z.B. Ruf des Primus oder des Sitzenbleibers

Page 172: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Standardmessfehler SD(ε)• Ist derjenige Anteil an der Streuung (Standardabweichung) eines Tests, der zu Lasten seiner (mangelnden) Reliabilität geht

• Wurzel aus Var(ε) (da diese auch unbekannt ist, erfolgt die Berechnung über SD(x) und die Reliabilität)

Page 173: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Standardmessfehler SD(ε)

27

TrueScore

+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)

68%

95%

>99%

Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte  (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)

Page 174: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Konfidenzintervall

• Kennzeichnet den Bereich, in dem mit 95% (…%) Wahrscheinlichkeit der wahre Wert liegt 

SD(ε)

Page 175: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

68%‐Konfidenzintervall

29

TrueScore

+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)

Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte  (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)

Messung 1

Messung 8Messung 235

Page 176: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

95%‐Konfidenzintervall

30

TrueScore

+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)

Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte  (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)

Messung 1

Messung 8Messung 235

Page 177: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Konfidenzintervall – Beispiel(Exkurs)

• Eine Testperson hat in einem Intelligenztest einen Wert von X = 110. Die Reliabilität des Tests beträgt Rel = .84. Die Streuung ist SD(x) = 15.

SD(ε) = SD(x) *  (1 – Rel)= 15 *  .16= 6

95%‐CIu = 110 – 1.96 * 6 = 9895%‐CIo = 110 + 1.96 * 6 = 122

Page 178: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Konfidenzintervall

• Laut Ingenkamp und Lissmann beträgt der Standardmessfehler für Zensuren +/‐ eine Zensurenstufe!

• Sie können gerne die entsprechenden Konfidenzintervalle für einen „durchschnittlichen“ Schüler berechnen…

Page 179: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Kritische Differenz

a) Wie weit müssen zwei Testwerte auseinander liegen, damit die Differenz (auf einem gewählten Signifikanzniveau) als erheblich gilt?

→ Kri sche Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:

Dkrit = z * SD(x) *  2   (1− Rel) 

(z. B. Testwerte zweier Schüler)

Page 180: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Kritische Differenzb) Wie groß müssen die Leistungsunterschiede eines 

Probanden in zwei Tests (mit den Reliabilitäten Rel1 und Rel2) sein, um als abgesichert gelten zu können?

→ Kritische Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:

Dkrit = z * SD(x) *  (z. B. Vergleich von Werten verschiedener Skalen unterschiedlicher Reliabilität)

Page 181: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kritische Differenz – Beispiel(Exkurs)

• Ein Schüler hat im mathematischen Subtest einen Wert von X1 = 110, im verbalen Subtest einen Wert von X2 = 92. Die Reliabilität der Subtests beträgt Rel1 = .91 und Rel1 = .84. Die Streuung ist SD = 15.

Dkrit = z * SD(x) *  2 − (Rel1 + Rel2)

= 1.96 * 15 *  2 – (.91 + .84)= 14.7

Page 182: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Psychologische Diagnostik

Prüfungen konzipieren und beurteilen –Aufgaben‐ und Prüfungsanalyse

Page 183: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Gute Prüfungen

• Gütekriterien– Siehe bisherige Sitzungen, z.B. Prinzip der proportionalen Abbildung, repräsentative Aufgabenauswahl, objektive Durchführung und Auswertung

• Lehrerfreundlich– Praktikabilität: Durchführung und Auswertung möglich mit den vorhandenen Ressourcen (inkl. Zeit)

• Schülerfreundlich– Motivieren und verdeutlichen Lernfortschritte

Page 184: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kreismodell

Auswertung der Prüfung

Analyse der Prüfung

Erstellung der Prüfung

Page 185: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

In wie vielen von 100 Fällen tritt ein Ereignis ein, wenn es … ist? a) Seltenb) Häufigc) Wahrscheinlich

Allgemeine Empfehlungen zur Formulierung

• Klar definiertes Problem, möglichst signifikant und in der Bedeutungswelt aller(!) Schüler verankert

• Einfacher, präziser und eindeutiger Wortlaut

• Negationen möglichst vermeiden; wenn man sie einsetzt, dann besonders hervorheben (z.B. „Welche der folgende Tiere ist KEIN Säugetier?“); Doppelte Verneinungen auf jeden Fall vermeiden

• Irrelevante Informationen möglichst vermeiden

• Korrektes Raten vermeiden  keine systematischen Antwortmuster (s. Testcleverness)

• Mit leichten Aufgaben beginnen, sehr komplexe Aufgaben aber auch nichtans Ende (Ermüdung)

Page 186: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Aufgabentypen n. Antwortformat

• Freies Antwortformat– Itemantwort wird von Schüler selbst formuliert (Text, Zahlen, Grafiken …)– Formen: Ergänzungsaufgaben und Essay– Typisch bei (aber nicht beschränkt auf) Erfassung von spontanen Reaktionen (was fällt dem 

Schüler zuerst ein) und kreativen Leistungen– Geringere Wahrscheinlichkeit, dass richtige Antwort erraten wird– Aktives Wissen– Essay etc. kann Testangst erhöhen!

Vs.

• Gebundenes Antwortformat– Antwortalternativen werden vorgegeben, Schüler muss Auswahl treffen– Formen: Wahr‐Falsch, Multiple Choice, Ordnungsaufgaben– Kann Auswertungsobjektivität erhöhen– Erhöht Auswertungsökonomie– Kann Validität erhöhen, da in der gleichen Zeit mehr Stoff geprüft werden kann– Eher passives Wissen 

Page 187: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Multiple Choice

• Der Nutzen eines Tests steht in engem Zusammenhang zura) Sozialen Bezugsnormb) Validität

c) Skalenniveau

d) Mikrokarotät

e) Wickelkommode

Page 188: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Multiple‐Choice‐Fragen• Häufige Empfehlung: 4‐5 unabhängige Antwortalternativen

– 1 richtige Antwort– 3‐4 Distraktoren

• Ratewahrscheinlichkeit kann drastisch verringert werden, wenn mehrere Kategorien richtig sind oder eine beliebige Anzahl von Kategorien ausgewählt werden kann

• Aber: – Erhöht die Schwierigkeit– Stellt sehr hohe Anforderungen an die Formulierung der 

Distraktoren– Wird häufig als unfair erlebt

Page 189: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Erfurt ist die Landeshauptstadt vona) Bayern   b) Mecklenburg‐Vorpommern   c) Sachsen   d) Thüringen

Schwieriger zu lesen als

Erfurt ist die Landeshauptstadt vona) Bayernb) Mecklenburg‐Vorpommernc) Sachsend) Thüringen

Multiple‐Choice‐Fragen• Testclevere Schüler sollten nicht bevorteilt werden

• Antwortalternativen vertikal statt horizontal anordnen

• Unterschiedliche Empfehlungen bzgl.  Reihenfolge– Richtige Antwort sollte an jeder Stelle auftauchen– Antworten alphabetisch sortieren

• Antwortalternativen können z.B. aus vorangegangenen Tests im offenen Frageformat gewonnen werden (gewisse Plausibilität)

Page 190: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Testcleverness

• Typische Eigenschaften falscher Antworten– Stehen an erster oder letzter Stelle– Sind logische Extreme (z.B. „immer“, „nie“)– Enthalten unerwartete Sprache oder Termini– Enthalten komplett unglaubwürdige Aussagen

• Typische Eigenschaften richtiger Antworten– Sind länger– Nutzen bekannte Phrasen– Passen grammatikalisch zur Frage– Sind 1 von 2 ähnlichen Antworten– Sind 1 von 2 entgegengesetzten Antworten

Page 191: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Empfehlungen

• Antwortoptionen möglichst kurz und von gleicher Länge

• Keine grammatikalischen Fehler (z.B. Frage verlangt Mehrzahl, aber Distraktor ist Einzahl)

• Keine unplausiblen Antworten; typische Fehler (auch aus bisherigen Prüfungen) sind gute Distraktoren

• Es sollte eine klare richtige Antwort geben• Positionen der richtigen Antwort variieren• Ähnliche falsche Antworten vermeiden• Fragen sollten keine Infos für spätere Fragen enthalten• Kein 1:1 von Büchern/Präsentationen

Page 192: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Zuordnungsverfahren

• Korrespondenz herstellen zwischen zwei Listen

Z.B. „Ordne jede der folgenden Personen ihren Erfindungen zu.“

1) ___ James Watt  a) Blitzableiter2) ___ Philipp Reis b) Computer3) ___ Konrad Zuse c) Dampfmaschine4) ___ O.H.v. Mayenburg d) Glühbirne 5) ___ Benjamin Franklin e) Telefon

f) Zahnpasta

Page 193: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Halboffene Fragen

• Sätze mit mehren Lücken vermeiden

• Länge der Lücken sollte keinen Hinweis auf Antwort enthalten  Lücken gleich groß und groß genug für die längste Antwort

• Festlegen, wie Punkte vergeben werden (auch unerwartete Antworten)

Page 194: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Offene Fragen

• Häufig zeitaufwändig zu beantworten  nur geringe Anzahl möglich (Reliabilität!) 

• am Schwersten zum Auswerten

Page 195: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Offene FragenLernziel nach Bloom Bedeutung Prüfungsformulierung 

(Beispiele)

Wissen Erinnern von Fakten, Definitionen, Konzepten…

Definiere, Benenne, Identifiziere, Wer?, Wann?, Wo?, Was?

Verstehen Erklären/Interpretieren der Bedeutung

Erkläre, Umschreibe, Fasse zusammen, Gib Beispiele

Anwenden Anwenden eines Konzepts,um ein Problem zu lösen

Nutze, Löse, Demonstriere, Zeige

Analyse Zerlegen des Materials inseine Komponenten, um Beziehungen zu erkennen

Unterscheide, Vergleiche, Setze … in Beziehung mit …

Synthese Produzieren von etwas Neuem

Konstruiere, Entwickle, Kreiere, Verändere

Bewertung Beurteilen aufgrund bestimmter Kriterien

Bewerte, Evaluiere, Verteidige, Kritisiere

Page 196: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kreismodell

Auswertung der Prüfung

Analyse der Prüfung

Erstellung der Prüfung

Page 197: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Auswertung der Prüfung

Subjektiv‐holistisch Objektiv‐

rational

Schlüsselkomponenten, ‐elemente und Regeln zur Bewertungnicht klar spezifiziert

Alle Aspekte eindeutig definiertund standardisiert

Page 198: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Bewertungsschemata

Aus: Stiggins, R.: Classroom Assessment for Student Learning: Doing It Right, Using It Well

Page 199: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Offene Fragen

• Hinweise für die Auswertung– Namen des Schülers bedecken– Eine Frage über alle Schüler korrigieren anstatt jede Arbeit einzeln; dabei bisherige Punkte bedecken

– Mischen der Arbeiten nach jeder Fragenkorrektur– Im Lösungsschema auch vermerken, wie mit zusätzlicher Information, irrelevanten Fehlern und Grammatik‐/Rechtschreibfehlern umgegangen werden soll 

– Da Korrektur durch 2. Lehrer leider häufig unpraktikabel ist, empfiehlt sich eine Stichprobe an Tests zweimal zu korrigieren

Page 200: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Portfolio

Page 201: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Portfolio

• Schlüsselelemente (n. Salvia & Ysseldyke)– Ergebnisse auf höheren Stufen des Wissens

– Spiegelt Arbeitsprozesse in der Realität (Integration, Aufwand…)

– Fördert Kooperation– Multiple Beurteilungsdimensionen (z.B. Arbeitsprozesse)

– Fördert Reflektion und Meta‐Wissen

– Integration von Bewertung und Instruktion 

Page 202: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

• Bessere Gütekriterien, wenn– Themen nicht zu breit und keine Freiwahlaufgaben, d.h. für alle 

Schüler gleich (Beispiel: Interraterreliabilität fiel von ≈.6 auf ≈.4, wenn Schüler selbst Inhalt und Genre wählen können, Breland)

– Bewertungsschemata äußerst detailliert und rigide in der Handhabung

– Anzahl der Aufgaben abhängig vom Inhalt, aber gewisse Grundanzahl notwendig (Beispiel Shavelson et al., 1991: zwischen 8 und 20 Probleme Mathematik und Naturwissenschaften, 6 bei Schreiben …), um generalisieren zu können

Standardisierung!

Exkurs: Portfolio

Page 203: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kreismodell

Auswertung der Prüfung

Analyse der Prüfung

Erstellung der Prüfung

Page 204: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Wieso Prüfungsanalyse?

• Prüfungsbenotung anpassen (z.B. einzelne Aufgaben aus der Bewertung herausnehmen) 

• Entwickelt Gespür für zukünftige Prüfungen

• Zusammenstellung eines Repertoires guter Aufgaben

• Zeigt Ansatzpunkte für Unterrichtsmaßnahmen

Page 205: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Wieso Prüfungsanalyse

• Viele Punkte/Gute Noten– Lehrer: guter Unterrichtsstil, gute Prüfungsfragen– Schüler: klug, gut vorbereitet Zu leicht?, Fehler im Bewerten?, Betrug?, unbeabsichtigte Hinweise in den Fragen?

• Wenig Punkte/schlechte Noten– Lehrer: schlechter Schüler– Schüler: schlechter Lehrer, blöder Test Zu schwer?, inhaltsvalide?, Fehler im Bewerten?, zu wenig Zeit?

Page 206: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Was analysieren?

• Schwierigkeit

• Trennschärfe

• Fehleranalyse, z.B.– Flüchtigkeits‐ und Leichtsinnsfehler– Missverständnisse und Verwechslungen– Lücken in lernzielrelevanten Kompetenzen– Vorkenntnisdefizite– Verständnisfehler

Page 207: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Datenmatrix

Aufgabe 1 Aufgabe 2 Aufgabe i … Aufgabe m Zeilensumme

Schüler 1 x11 x12 x1i … x1m Z1

Schüler 2 x21 x22 x2i            … x2m Z2

… … … … … …

Schüler n xn1 xn2 xni … xnm Zn

Spaltensumme S1 S2 Sin            … Sm

Schwierigkeitsindex P = Quotient aus der tatsächlich erreichten Punktsummealler  Schüler für ein Item (Sin) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item [n * max(xi)] multipliziert mit 100 

Je höher Schwierigkeitsindex, desto leichter ist die Aufgabe

Schwierigkeitsindex = Lösungsanteil LA

Page 208: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel

Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme

Schüler 1 1 1 0 2

Schüler 2 1 0 0 1

Schüler 3 1 0 0 1

Schüler 4 1 1 1 3

Spaltensumme 4 2 1

z.B. 1 = richtig, 0 = falsch

Schwierigkeitsindex P1 = Quotient aus der tatsächlich erreichten Punktsummealler  Schüler für Item 1 (4) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item (4 * 1) multipliziert mit 100

P1 = 100 P2 = 50P3 = 25

Page 209: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Itemschwierigkeit• Itemschwierigkeit und Reihenfolge in Prüfung (ca. 80% der Schüler halten 

sich an vorgegebene Reihenfolge!): Leichtere Aufgabe als Warm‐up an den Anfang, schwere in die Mitte

• n. Jürgens & Sacher sind Aufgaben mit sehr hoher Schwierigkeit bedenklich (P  20) 

• Aber: Vertrauensintervall berücksichtigen (aus: Jürgens & Sacher, 2008, S. 133),  bei typischen Klassenstärken sind schon P < 35 problematisch

Page 210: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Itemschwierigkeit

• Außerdem beachten: Lernbedeutsamkeit (wichtig: a‐priori!, ansonsten mgl. Verzerrung in Abhängigkeit der Ergebnisse)

• Je bedeutsamer eine Aufgabe, desto häufiger sollte sie gelöst sein, also desto leichter sollte sie den Schülern fallen

• n. Jürgens & Sacher– Hohe Lernbedeutsamkeit:  P  70– Mittlere Lernbedeutsamkeit: P  50– Geringe Lernbedeutsamkeit:  P  35

Page 211: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Trennschärfe

• Substanziell positive Korrelation zwischen Antworten im Item und im Gesamttest

• D.h. Schüler, die im Gesamttest höhere Werte erhalten, sollten auch häufiger das Item lösen

• Korrigierter Koeffizient: Item selbst geht nicht in Gesamttest ein

Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme

Schüler 1 1 1 0 2

Schüler 2 1 0 0 1

Schüler 3 1 0 0 1

Schüler 4 1 1 1 3

Spaltensumme 4 2 1

Page 212: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Trennschärfe

• Im Rahmen einer sozialen Bezugsnorm werden Trennschärfen größer .30 angestrebt

• Negativen Trennschärfen sollte nachgegangen werden (Itemformulierung!)

• Eine Abnahme der Trennschärfe bei späteren Aufgaben spricht für Ermüdungseffekte

Zusammenhang Schwierigkeit – Trennschärfe:

Schwierigkeit

Trennschärfe

Page 213: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiele ‐ MC

A* B C D

Itemschwierigkeit 99 0 1 0

Trennschärfe .06 ‐ ‐.06 ‐

* Richtige Antwortalternative

Item überprüfen: zu leicht? Enthalten Antwortalternativen Hinweise?

Page 214: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiele ‐ MC

A* B C D

Itemschwierigkeit 35 10 2 50

Trennschärfe ‐.20 .13 .02 .30

* Richtige Antwortalternative

Item überprüfen: Falsch codiertes Item?, C geeignet als Distraktor?

Page 215: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiele ‐ MC

A* B C D

Itemschwierigkeit 35 20 15 30

Trennschärfe .45 ‐.13 ‐.02 ‐.30

* Richtige Antwortalternative

Relativ schweres Item, diskriminiert gut

Page 216: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vielen Dank für Ihre Aufmerksamkeit!

Page 217: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Urteilsbildung und Klassifikation

am Beispiel von

Kindeswohlgefährdung

Page 218: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kindeswohl

Page 219: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kindeswohlgefährdung

• Misshandlung– Körperliche M. (direkte Gewalt wie z.B. Schlagen, Stoßen,

Schütteln, Würgen, Verbrennen, eigenen Kot/Urin essen lassen, Vergiftungen)

– Seelische/geistige M. (z.B. häusliche Gewalt, Isolation, feindselige Ablehnung wie ständiges Nörgeln, Beschimpfen oder Demütigen, Terrorisieren, Liebesentzug, Drohungen)

• Sexueller Missbrauch

• Vernachlässigung (z.B. körperlich, medizinisch, mangelnde Aufsicht, emotional, kognitiv)

Page 220: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Folgen von Kindeswohlgefährdung

• In Abhängigkeit von der Dauer, Schwere,

Zeitpunkt der Gefährdung

• Folgen vielfältig, z.B.

– Entwicklungsverzögerungen

– Bindungsstörungen

– Psych. Störungen

Page 221: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Risiko- und Schutzfaktoren

n. Deegener et al., 2009

Page 222: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf
Page 223: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Förderung von Resilienz

• Bedingungslose Wertschätzung

• Aufmerksamkeit

• Verantwortung übertragen, keine vorschnellen Hilfen

• Selbsteinschätzung steigern: Gefühle benennen, konstruktives Feedback, Stärken und Schwächen aufzeigen

• Anregungsreiche Umgebung, aber Routine im Lebensalltag

• Interessen fördern

Page 224: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Hinweise

Handlungsanweisung für Lehrer, Ber

Page 225: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Hinweise

Handlungsanweisung für Lehrer, Ber

Page 226: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Klassifikation

Test

Kriterium

Page 227: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Klassifikation

Test

Kriterium

Cut-off-Wert

Page 228: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Klassifikation

Test

Kriterium

Cut-off-Wert

TP

TN FP

FN

Page 229: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fehler

Testergebnis

Keine Gefährdung (Negativ) Gefährdung (Positiv)

Misshandlung Positives

Familienklima

Misshandlung Positives

Familienklima

Wahre Negative

TN

Wahre Positive

TP

Falsche Negative

FN

Falsche Positive

FP

Page 230: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Test zeigt an

+ -

Kriterium + TPRisiko: 1 - β

FNRisiko: β

- FPRisiko: α

TNRisiko: 1 - α

Sensitivität = TP / (TP + FN)

Spezifität = TN / (TN + FP)

Positiver Vorhersagewert = TP / (TP + FP)

Negativer Vorhersagewert = TN / (TN + FN)

Page 231: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Test

Krit.

Cut-off

TP

TN FP

FN

Höhere Prävalenz

Effizienz = 1

Test

Krit.

Cut-off

TN FP

FN TP

“If you hear hoofbeats, think of horses, not zebras”

Page 232: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Test

Krit.

Cut-off

TP

TN FP

FN

Strengerer Test

Test

Krit.

Cut-off

TP

TN FP

FN

Page 233: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Test

Krit.

Cut-off

TP

TN FP

FN

Verbesserung der Validität

Test

Krit.

Cut-off

TN FP

FN TP

Page 234: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Klinische vs. Statistische Urteilsbildung

• Es ist zu unterscheiden zwischen Datengewinnung und Synthese der Daten.

• Datengewinnung:– Klinisch: Beurteilung durch Diagnostiker notwendig, informell

subjektiver Weg (z.B. Exploration, Beobachtung)

– Mechanisch: Standardisierung von Aufzeichnung, Auswertung und Interpretation

• Datensynthese:– Klinisch: erfahrungs- und intuitionsgesteuert, keine expliziten

und validierten Regeln; dies ist nicht auf den klinischen Bereich begrenzt!

– Statistisch: Gewichtung der diagnostischen Informationen nach expliziten Regeln (z.B. Regressionsgleichung)

Page 235: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Statistische Urteilsbildung

• Aufbauend auf empirisch abgesicherten Beziehungen

zwischen Prädiktoren und Kriterium werden

mathematisch optimale Vorhersagen getroffen

mathematisch optimale Kombination und Gewichtung

der Prädiktoren

• Beispiel Regressionsgleichung: mathematisch optimal

da Methode der kleinsten Quadrate

Page 236: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Befunde

• Aktuelle Meta-Analyse von Grove et al. (2000): Einschluss von 136 Studien aus verschiedensten Bereichen (z.B. Diagnosen, Behandlungsergebnisse, Berufs-/Trainingserfolg, Gewalt, Anpassung an institutionelle Lebensbedingungen wie Gefängnis …)

• Ergebnis: Stat > Klin in 47% der StudienStat = Klin in 47% der StudienStat < Klin in 6% der Studien

• Moderatoren:– größere Unterschiede bei Interviewdaten (S>K), kleinere Unterschiede

bei medizinischen Daten

– kein Einfluss von Training und Erfahrung

– kein Einfluss, ob Beurteiler gleich viele oder mehr Daten zur Verfügung hatte

Page 237: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Einige typische Reaktionen von

Diagnostikern (Grove & Meehl, 1996)

• „Es gibt keine Formel bzw. die Formel gilt nicht für unsere Population“

• „Die Ergebnisse der Studien sind nicht auf meine eigenen Fähigkeiten als Diagnostiker anwendbar“

• „Statistische Urteilsbildung ist viel zu teuer“

• „Wir wollen Vorhersagen für einzigartige Individuen treffen“

• „Die meisten Daten, die wir nutzen, sind nicht quantifizierbar“

• „Wenn die Diagnostiker Feedback über ihre Ergebnisse erhalten hätten, würden sie zukünftig die Formel schlagen“

Grove und Meehl zeigen für diese (und andere) Reaktionen die Unangemessenheit der dahinter liegenden Annahmen

Page 238: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

• Statistische Datensynthese ist in den

meisten Fällen mindestens so gut wie

klinische Datensynthese

• Dies bezieht sich allerdings nur auf den

Bereich der Datensynthese! Meist wird

eine multimethodale Datensammlung

empfohlen.

Page 239: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Auszug: Bogen zur

Dringlichkeitseinschätzung

Page 240: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Handlungsanweisung für Lehrer, Berlin

Page 241: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ha

nd

lun

gsa

nw

eis

un

g fü

r L

eh

rer, B

erlin

Page 242: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Multimethodale Diagnostik

Verhaltensbeobachtung

Page 243: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Entscheidungen

• Angewandte Diagnostik führt zu Entscheidungen (Cronbach & Gleser, 1965)– Sollte Paul eine besondere Förderung erhalten?– Ist Julius geeignet für den Übergang ins Gymnasium?– Welche Unterrichtsform ist am Besten für Kevin?– War die Ursache für den schlechten Vortrag von Peter soziale Ängstlichkeit, mangelndes Verständnis für den Stoff oder verbale Schwierigkeiten? 

Datensammlung aufbauend auf Fragestellung und Hypothesen

In der Regel multimethodal

Page 244: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Informationsgewinnung

• Häufig: Unterschiede zwischen den Informationen des Kindes, der Eltern und der Lehrer 

• Kashani et al. (1985):– Eltern berichten eher über externales Verhalten– Kinder über ängstliche oder depressive Gefühle/Symptome incl. 

suizidale Gedanken

• Unterschiede größer bei älteren Kindern/Jugendlichen• Befunde, dass diese Unterschiede auch familiäre Probleme vorhersagen können

Page 245: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Informationsgewinnung

Ursachen der Abweichung von Informationen:

• Unterschiedliche Informationsbasis

• Situationsspezifisch unterschiedliches Verhalten des Kindes• Unterschiedliche Urteilsanker• Simulations‐ oder Dissimulationstendenzen

• Messfehler der Messinstrumente

Page 246: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Beispiel ADHS

In Abhängigkeit vom mentalen Alter

Page 247: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: ADHS• Diagnostik beinhaltet neben den Einsatz sogenannter 

Ratingskalen auch Interviews mit Eltern, Lehrer, Kinder und optimalerweise Verhaltensbeobachtungen (auch im Unterricht)

Beispiel: Ausschnitt aus der Vanderbilt ADHD Diagnostic Teacher Rating Scale

Page 248: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beobachtung

= Verhalten, Ereignisse, Vorgänge werden sorgfältig wahrgenommen und registriert (im Vergleich zu anderen Verfahren direkterer Zugang ermöglicht)

• Ist zielgerichtet• Ist methodisch kontrolliert

„zuschauen“ ist nicht „beobachten“

Page 249: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel

• Überprüfung der Aufmerksamkeitsverteilung im Unterricht (vgl. Altrichter&Posch 1998, S. 120)

• Registrierung der Schüler, die Lehrer aufruft

• Anhand  eines  Sitzplanes wird hinter dem Namen vermerkt, wie häufig Schüler aufgerufen wird (Strichliste, mit („+“) und ohne („‐“) vorherige Meldung)

• Markierungen bilden nach und nach Aktionsraum ab

• Ergebnis: dem Lehrer wurde bewusst, dass manche Schüler wenig Beachtung fanden

Page 250: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Inhalte der Beobachtung 

• Merkmale, die die Beobachtbarkeit des Verhaltens determinieren

– Fremd‐ vs. Selbstbeobachtung– Häufigkeit

– Vermeidbarkeit

– Öffentlichkeit

– Notwendige Interaktionspartner– Soziale Erwünschtheit

9

Page 251: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beobachtung

Klassifikation frei (unsystematisch) vs. systematisch• Unsystematische Beobachtung

– Alltagsgleich, aber mit bestimmtem Ziel, z.B. Hypothesenbildung

– Beobachtungsgegenstand nicht eindeutig festgelegt– Selektion der Eindrücke– Kodierung der Eindrücke deskriptiv / qualitativ

• Systematische Beobachtung– Verlauf (Ort, Zeit etc.) und Bereich (Verhaltensweisen) definiert– Registrierung festgelegt– Auswertungsprozedur entwickelt– Gütekriterien bedeutsam

Page 252: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beobachtung

Klassifikation naturalistisch vs. kontrolliert• Naturalistische Beobachtung

– Feldbeobachtung– Realistisches, ökologisch valides Bild– Keine Beeinflussung der Umwelt– Beispiel: Hausbesuch, um sich einen Eindruck von der familialen 

Interaktion zu machen

• Kontrollierte Beobachtung– Laborbeobachtung– Situativer Rahmen vorgegeben– Ermöglicht Vergleich zwischen Personen– Beispiel: Personen vor laufender Kamera eine Rede halten lasse um 

potentielle Angstreaktionen in selbstwertbedrohlich Situationen zu untersuchen

Page 253: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beobachtung

Klassifikation nach Grad der Teilnahme• Aktiv‐teilnehmende Beobachtung

– Beobachter mischen sich ins Geschehen ein – Problem: Gütekriterien

• Passiv‐teilnehmende Beobachtung– Beobachter ist anwesend, greift aber nicht ein

• Nicht‐teilnehmende, verdeckte Beobachtung– Beobachtung ohne Wissen der beobachteten Person– Ethisch‐rechtlich problematisch (im Labor nachträgliche 

Einwilligung)

Page 254: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Welche Verhaltensattribute sind essentiell für eine Kategorie? Wie ist das Abstraktionsniveau?

Beispiele aus dem verbalen Zeugnisteil– „Du zeigst ein reges Interesse am Unterricht“– „Beim  Vortrag eines Textes wirst du zunehmend selbstsicherer“

Woran erkennen?Hutt & Hutt (1974)

„Es liegt auf der Hand, dass wir nicht messen können, was wir nicht definieren können“

Problem: Definition einer Verhaltenseinheit

Page 255: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel: „Konzentriert sein“

Page 256: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel Aggressivität

• Die Lehrkraft sitzt bei Anna und Peter am Pult und erklärt ihnen die Matheaufgaben. Anna schreit laut Richtung Lehrkraft: „Das will ich nicht machen, machen Sie es doch selbst!“ Währenddessen steht Erika von ihrem Platz auf und geht zum Papierkorb, um ihre Buntstifte anzuspitzen. Im Vorbeigehen schlägt sie Daniel auf den Kopf. Dieser zuckt zusammen, sagt aber nichts und hebt den Blick nicht vom Buch. Carlo lacht höhnisch und sagt anerkennend zu Erika: „He, schön gemacht!“

Page 257: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel Aggressivität

• Humpert et al. (1983): – 32% der befragten Lehrer definieren fast ausschließlich massive Auseinandersetzungen zwischen Schülern als aggressiv

– 17% definieren massive Auseinandersetzungen zwischen Schülern und Angriffe auf Lehrpersonen als aggressiv

– 10% sehen tendenziell kein aggressives Verhalten– 9% stufen alle Verhaltensweisen als aggressiv ein

Heterogene Aggressionsbegriffe

Page 258: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Grundlegende Messgrößen von Verhalten

• Häufigkeit• Dauer

– Mittlere Dauer einer Einheit– Gesamtzeit des Auftretens einer Einheit während des Beobachtungszeitraums

Beispiel: Paula verlässt ihren Sitzplatz während des Unterrichts 4 Mal (Häufigkeit) für je 2, 4, 7 und 3 Minuten (mittlere Dauer: 4 Minuten, Gesamtzeit: 16 Minuten, relative Gesamtzeit: 16/45 = .36)

• Intensität des VerhaltensBeispiel: Weinen auf einer Skala von „Wimmern“ (geringe Intensität) bis „Schreien“ (hohe Intensität)

Page 259: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Protokollierung von Beobachtungsergebnissen

Deskription

isomorphe              reduktive 

das zu Beobachtende         Beschränkung auf möglichst vollständig und     interessantes Ver‐unverändert wiedergeben haltensklassen

Zeichensysteme    Kategorie‐ Schätzskalen

(Indexsysteme)     systeme

Page 260: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel „Sitzkreis“Situation Verhalten Ursache Konsequenz

9.00 Uhr Schlägt plötzlich seinen linken Sitznachbarn mit der offenen Hand

Keine beobachtet Ignoriert Peerund Lehrer

9.03 Uhr Schreit „Nein“ zum Lehrer und bleibt sitzen

Lehrer gibt spezifische Anweisung, zum Sitzplatz zurückzugehen

Lehrer ignoriert,Peers lachen

9.05 Uhr Steht auf  und setzt sich auf seinen Sitzplatz 

Peer kommt zu ihm und flüstert ihm etwas ins Ohr

Lehrer lobt ihn

Page 261: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Beispiel Aggressivität

Page 262: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kodierung

Drei Varianten:• Zeichen‐ /Indexsysteme

– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme

– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus

– Aufwändige Entwicklung• Schätzskalen

– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent, 

d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)

Page 263: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel „Sitzkreis“

Verhalten Häufigkeit

Auf dem Stuhl herumzappeln IIIIII

Aufstehen II

Andere Unterbrechen IIIII

Physische Aggression gg. Peer I

Physische Aggression gg. Lehrer

Verbale Aggression gg. Peer

Verbale Aggression gg. Lehrer I

Page 264: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel „Sitzkreis“Verhalten 30‘‘ 1 Min 1.30 2 Min …

Auf dem Stuhl herumzappeln √ √ √

Aufstehen √

Andere Unterbrechen √ √

Physische Aggression gg. Peer √

Page 265: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kodierung

Drei Varianten:• Zeichen‐ /Indexsysteme

– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme

– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus

– Aufwändige Entwicklung• Schätzskalen

– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent, 

d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)

Page 266: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel 

Beobachtungssystem zur Analyse aggressiven

Verhaltens in schulischen Settings BASYS

Page 267: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kodierung

Drei Varianten:• Zeichen‐ /Indexsysteme

– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme

– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus

– Aufwändige Entwicklung• Schätzskalen

– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent, 

d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)

Page 268: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel

Arten: a) numerische SkalaWie aggressiv ist der Schüler? 

1 2 3 4 5 6 7

b) verbale SkalaDie Aggressivität des Schülers ist

nicht vorhanden – schwach – mittel – stark

c) grafische SkalaWie aggressiv ist der Schüler? 

0  100

Page 269: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Auswertung

• Beobachtung und Registrierung der interessierenden Verhaltensweisen in vivo– Hohe Anforderungen, da Beobachtung und Registrierung 

simultan erforderlich– Problem: möglicherweise bleiben interessierende 

Verhaltensweisen unentdeckt, da Beobachter überlastet– Lösungsansatz: Mehrere Beobachter, die sich jeweils auf 

unterschiedliche, eng umschriebene Aspekte konzentrieren• Nachträgliche Auswertung auf Basis von 

Videoaufzeichnungen– Beobachtung und Registrierung können zeitlich separiert 

werden– Wiederholungsoptionen– Beliebig feine zeitliche Untergliederung

Page 270: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Gütekriterien

• Objektivität/Reliabilität: Untersuchung der Beobachterübereinstimmung

• Validität: reflektiert situationsspezifisches Verhalten  Generalisierung auf Persönlichkeitsmerkmale muss überprüft werden

Page 271: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: ADHS, Umgang im Unterricht

• Schulisches Umfeld anpassen– Irrelevantes verbannen (z.B. einzeln setzen), aber Hintergrundmusik kann helfen

– Wichtiges hervorheben (inkl. Instruktionen wiederholen lassen) + Kürze der Instruktionen und der Aufgaben (besser 2 x 5 als 1 x 10 Minuten)

– Aufgabenstellungen wechseln (wenig Wiederholungen), auch mit motorischen Komponenten

– Bewegungen ermöglichen– Mittleres Schwierigkeitsniveau der Aufgaben– Intraindividueller Vergleich

Page 272: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: ADHS, Umgang im Unterricht

• Arbeitstechniken beibringen (was ist der Plan, wie kann ich den Plan umsetzen, welche Zwischenschritte etc.)

• Belohnungssysteme, z.B. Token Economy

• Positives Feedback• Freiheiten lassen, aber Routine einführen

Page 273: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Minimalprogramm der Beobachtung

• Auswahl der Beobachtungsfrage (z.B. Wer ist besonders geschickt mit Werkzeugen?)

• Auswahl der Situation (z.B. Anfertigen Vogelhäuschen im Werkunterricht)

• Auswahl und Kategorisierung der Indikatoren (z.B. präziser Schnitt mit Säge)

• Festlegung wer wann beobachtet wird• Reflexion über Beobachtungsfehler• Vorbereitung der Eintragung der Beobachtungsergebnisse direkt im Anschluss an die Beobachtung

Page 274: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ausgewählte Testverfahren

Page 275: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Ein mgl. Modell

Z.B. Heller, 2000

Page 276: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Persönlichkeits‐ vs. Fähigkeitstests

Page 277: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Im pädagogischen Bereich…

• Fähigkeiten wie Intelligenz und Konzentration beeinflussen die benötigte Lernzeit

• Emotionale und motivationale Merkmale bestimmen die aufgewendete Lernzeit

Page 278: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Im pädagogischen Bereich…Beispiele: • Feststellung des sonderpädagogischen Förderbedarfs

– Intelligenz als ein Anhaltspunkt– IQ < 85 Förderbedarf 

(aber: 16% vs. 3‐4% Förderschule) 

Page 279: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

• Vorsicht in der Interpretation von niedrigen Werten!– Mangelnde Intelligenz?– Fehlende Motivation?

– Geringe Deutschkenntnisse (bei sprachgebundenen Tests)?

– Pygmalion‐Effekt? (Rosenthal: Lehrern wurden zufällig zugewiesene Ergebnisse von Intelligenztests rückgemeldet  Leistung veränderte sich entsprechend)

– …

Page 280: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Im pädagogischen Bereich…Beispiele: • Feststellung des sonderpädagogischen Förderbedarfs

– Intelligenz als ein Anhaltspunkt– IQ < 85 Förderbedarf 

(aber: 16% vs. 3‐4% Förderschule) 

• Diagnose Hochbegabung– IQ > 130

• Konzentrationsschwierigkeiten– Hyperaktive Form der Konzentrationsschwierigkeiten: 

motorische Unruhe, leichte Ablenkbarkeit, Nicht‐Abwarten‐Können, Nicht‐Zu‐Ende‐Führen begonnener Tätigkeiten, … 

– Hypoaktive Form der Konzentrationsschwierigkeiten: langsames Arbeiten, Tagträumereien, Trödeln, …

Page 281: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Hochbegabung

• Spirale der Enttäuschung vermeiden• Hochbegabter muss auch lernen, dass Anstrengung (Üben) notwendig ist

• Mgl. Förderung: Interne Differenzierung im Klassenverband oder externe ~ in Spezialklassen– Akzeleration: beschleunigte Darbietung des Stoffs, z.B. Überspringen von Klassen (auch fachspezifisch)

– Enrichment: Anreichern des Stoffs mit neuen Themen, Lernformen etc., z.B. Wettbewerbe, Schülerakademien

Page 282: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Speed‐ vs. Power‐TestsSpeed‐Tests (Geschwindigkeitstests):• einfache Aufgaben, die bei ausreichend Zeit von allen Probanden gelöst 

werden können (Schwierigkeit der Aufgaben konvergiert gegen Null)• Differenzierung durch Begrenzung der Bearbeitungszeit• Beispiel: Konzentrationstests

Power‐Tests (Niveautests):• schwierige Aufgaben, die auch bei ausreichend Zeit nicht von allen 

Probanden gelöst werden können• Differenzierung durch Aufgabenschwierigkeit• Beispiel: Intelligenztests (Vielzahl an Intelligenztests aber streng 

genommen Mischform: schwierige Aufgaben und Zeitbegrenzung)

Page 283: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Aufmerksamkeit

• Konzeptuelle Unterscheidung verschiedener Bereiche (vgl. z.B. Heubrock & Petermann, 2001)– Vigilanz u. Daueraufmerksamkeit:

Fähigkeit, gleichmäßig hohen Aktivierungsgrad über längeren Zeitraum aufrechtzuerhalten, um seltene Veränderungen bei monotonen Aufgaben zu erkennen (Vigilanz) oder auf häufige Stimuli zu reagieren (Daueraufmerksamkeit)

– Selektive Aufmerksamkeit:

Fähigkeit, schnell und zuverlässig auf relevante Reize zu reagieren ohne sich von irrelevanten Reizen ablenken zu lassen

– Geteilte Aufmerksamkeit:

Fähigkeit, Aufmerksamkeit zwischen mehreren Aufgaben aufzuteilen

Page 284: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf
Page 285: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

KLT‐R• Ab der 4./5. Klasse zur Erfassung der „allgemeinen psychischen 

Leistungsfähigkeit“ – Aufmerksamkeit, aber auch andere Komponenten des Arbeitsverhaltens wie Ausdauer, Anstrengungsbereitschaft, Sorgfalt…

• Im Sinne der Aufmerksamkeitskomponenten: Messung von Daueraufmerksamkeit

• Einfache Rechenaufgaben mit mehreren Schwierigkeitslevel‐ 4‐6: für 4., 5., 6. Schulklasse‐ 6‐13: für 6.‐13. Schulklasse

• Umfang:– zwei Parallelformen mit je 180 Aufgaben und 18 Minuten Bearbeitungszeit

Page 286: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

KLT‐R ‐ Aufbau

8 + 9 – 24 – 4 + 3

3 + 6 – 89 + 1 + 7

Verrechnung mittels zweier Regeln:‐ wenn Ergebnis der oberen Zeile größer als Ergebnis der unteren 

Zeile, dann muss die unteren Zahl von der oberen subtrahiert werden

‐ wenn Ergebnis der oberen Zeile kleiner als Ergebnis der unteren Zeile, dann müssen beide Zahlen addiert werden

‐ Es dürfen keine Zwischenergebnisse notiert werden‐ Diese Regeln gelten für die Alterstufen ab 6. Schulklasse; für die 

Klassenstufen 4‐6 soll stets die kleinere von der größeren Zahl abgezogen werden

Page 287: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Gütekriterien

• Objektivität grundsätzlich gegeben; dem Testleiter werden aber Spielräume hinsichtlich Motivierung oder Umgang mit Probanden eingeräumt

• Reliabilität gegeben

• Validität:– geringere Korrelationen zum d2 (.20‐.37) als zu Rechentests (bis .57); 

Fehler korrelieren mit .21 zur Mathenote (bei Gymnasiasten), ansonsten kaum bedeutsame Zusammenhänge zu Schulleistungen

• Normierung:– Revidierte Fassung: an 860 bayrischen Schülern (4.‐6. Klasse) und 2600 

bayrischen Schülern (6.‐13. Klasse); getrennte Normen für Schulklassen und Schultypen; „Erwachsene“ = 350 Schüler älter als 18

Page 288: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Fazit

• Überprüfung von Daueraufmerksamkeit mittels Papier‐Bleistift‐Test

• Dem Test wird eine hohe inhaltliche Validität zugesprochen (Nell, 2003), aber Konfundierung mit Rechenfähigkeiten (und Merkfähigkeit) gegeben

• Für die revidierte Fassung sind die bisherigen Daten zur Validierung und Normierung als unzureichend zu bewerten

Page 289: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf
Page 290: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Aufmerksamkeits‐Belastungs‐Test d2‐R

• Der in Deutschland am häufigsten eingesetzte LeistungstestBeispiel: Befragung in Kinder‐ und Jugendpsychiatrie: 89% Anwendungshäufigkeit (Bölte et al., 2000)

• Erfasst „leistungsbezogene, kontinuierliche und fokussierende Reizselektion“

• Misst kurzfristige, selektive Aufmerksamkeit

Page 291: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

d2‐R

• Durchstreichtest

• 14 Zeilen mit d & p, die mit 1 bis 4 Strichen versehen sind; Proband soll alle d mit zwei Strichen durchstreichen

• Für jede Zeile 20 Sekunden Zeit; Testdauer ohne Instruktion somit 4 Minuten 40 Sekunden

• Als Einzel‐ oder Gruppentest durchführbar

Page 292: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Achtung: ursprüngliche Version

Page 293: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Gütekriterien

• Objektivität grundsätzlich gegeben; dem Testleiter werden aber Spielräume hinsichtlich Motivierung oder Umgang mit Probanden eingeräumt; lange Testinstruktion

• Reliabilität: gegeben

• Validität:– Mittlere Korrelationen mit anderen Konzentrationstests, geringere mit 

Intelligenztests

• Normierung:– > 3000 Teilnehmer zwischen 9 und 60 Jahren; Altersnormen liegen vor

Page 294: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Intelligenztests

• Können unterschieden werden aufbauend auf der zugrunde gelegten Theorie (z.B. g‐Faktormodelle)

• D.h. Einsatz von Intelligenztests erfordert Kenntnis von Intelligenztheorien

• Einige Tests messen g, andere nur Intelligenzkomponenten

• Einige Tests sind sprachfrei und kulturfair, andere bildungsabhängig

Page 295: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Intelligenztheorien

• Vielzahl verschiedener Theorien, mit und ohne „g‐Faktor“

• Beispiele: – Spearmans Zwei‐Faktorentheorie– Cattells kristalline und fluide Intelligenz

Page 296: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Theorie von Cattell

Page 297: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

CFT‐Gruppe• Einer der am häufigsten eingesetzten Intelligenztests• CFT = „Culture Fair Test“, sprachfrei, ausschließlich nonverbale Aufgaben• CFT 1: Vorschulkinder und Schüler der Grundschulklassen 1‐3

– Substitution (Symbole mit Figuren verbinden– Labyrinthe (L. durchfahren)– Klassifikation (Abgrenzung einer Figur von ähnlichen Figuren)– Ähnlichkeiten (Details in veränderten Bildern erkennen)– Matrizen (M. vervollständigen)

• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)

– 4 Untertests : Reihenfortsetzen, Klassifikationen, Matrizen, Topologische Schlußfolgerungen+ 2 schulnahe Ergänzungstests (Wortschatz, Zahlenfolgen)

• Reliabilität gegeben• gute Validität für Erfolg Realschule, befriedigende für Gymnasium• Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 – 15;6 für Ergänzungstests

Page 298: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

CFT‐Gruppe• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, 

CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)– 4 Untertests: – Reihenfortsetzen, – Klassifikationen, – Matrizen, – Topologische Schlußfolgerungen+ 2 schulnahe Ergänzungstests (Wortschatz, Zahlenfolgen)

• Reliabilität gegeben• gute Validität für Erfolg Realschule, befriedigende für 

Gymnasium• Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 –

15;6 für Ergänzungstests

Page 299: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

CFT‐Gruppe

• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)

4 Untertests: – Reihenfortsetzen, – Klassifikationen, – Matrizen, – Topologische Schlussfolgerungen+ 2 Ergänzungstests (Wortschatz, Zahlenfolgen; CFT20)

Page 300: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

CFT‐Gruppe

• Reliabilität gegeben

• gute Validität für Erfolg Realschule, befriedigende für Gymnasium

• CFT 20/CFT 3: Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 – 15;6 für Ergänzungstests

Page 301: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Wechsler‐Tests

WIE (2006)

Page 302: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Grundlage: Wechslers Intelligenzkonzeption

• "Intelligenz ist ein hypothetisches Konstrukt, ist die zusammengesetzte oder globale Fähigkeit des Individuums, zielgerichtet zu handeln, rational zu denken und sich wirkungsvoll mit seiner Umwelt auseinanderzusetzen. Sie ist zusammengesetzt oder global, weil sie aus Elementen oder Fähigkeiten besteht, die, obwohl nicht völlig unabhängig, qualitativ unterscheidbar sind“

• Pragmatische Auswahl von Subtests

Page 303: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Als Einzeltest für den Altersbereich 6‐16 Jahren konzipiert

• 15 Untertests 

• Diese werden den vier Index‐Wert‐Skalen Sprachliches Verständnis, Wahrnehmungsorganisation, Arbeitsgedächtnis und Arbeitsgeschwindigkeit zugeordnet (+ Berechnung Gesamt‐IQ)

• Je nach Fragestellung unterschiedliche Auswahl der Subtestsund dementsprechend auch unterschiedliche Bearbeitungsdauer; Median ca. 67 Minuten

Page 304: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Gesamt‐IQ: allgemeine Intelligenz

• Sprachliches Verständnis: Betonung auf kristalline Intelligenz (Wissensanwendung)

• Wahrnehmungsorganisation: Betonung auf fluide Intelligenz (neues Lernen)

• Arbeitsgedächtnis: Betonung auf KZG (auditorisch)

• Arbeitsgeschwindigkeit: Betonung auf mentale Schnelligkeit (Leistungsaufgaben mit selektiver Konzentration)

Page 305: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Sprachliches Verständnis: Betonung auf kristalline Intelligenz (Wissensanwendung)

• Z.B. – Ähnlichkeiten finden (Wasser‐Milch)

Page 306: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Wahrnehmungsorganisation: Betonung auf fluide Intelligenz (neues Lernen)

• Z.B.– Mosaiktest

Page 307: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Arbeitsgedächtnis: Betonung auf KZG (auditorisch)

• Z.B.– Zahlennachsprechen

Page 308: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Arbeitsgeschwindigkeit: Betonung auf mentale Schnelligkeit (Leistungsaufgaben mit selektiver Konzentration)

• Z.B.– Symbolsuche

Page 309: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

WISC

• Durchführung erfordert umfangreiche Übung und Erfahrung

• Reliabilität sehr gut, Validitätsbefunde liegen vor

• Normdaten von 1650 Kindern aus den deutschsprachigen Ländern

Page 310: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ausgewählte Testverfahren

Emotional‐Motivationale Konstrukte

Page 311: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Interessen

• Beziehen sich auf die Bewertung von Handlungen, Objekten, Ideen; sind emotional‐kognitive Verhaltenspräferenzen

• „Bei Interessen handelt es sich um generalisierte Verhaltenstendenzen, über die ein Individuum verfügt, das von einer bestimmten Klasse von Anreizen und Tätigkeiten angezogen wird.“ (Amelang & Zielinski) 

• Unterschiedliche Aspekte, z.B. – Interessen: Neugierde + Valenz (angenehm vs. unangenehm) 

(Asendorpf, 2007)– Interesse (als Emotion und damit mgl.weise als Vorstufe von 

Interessen): Reiz des Neuen + Copingpotential (Silvia, 2005)

Page 312: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kurzer Exkurs: Berufsfindung

• Unterschiedliche Modelle; charakteristisch für den diagnostischen Bereich: Matching‐Ansatz

• Matching‐Ansatz: Passung zwischen Beruf (Anforderungen, Bedürfnisbefriedigungs‐möglichkeiten) und Person (Fähigkeiten und Qualifikationen, Bedürfnisse)

Page 313: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Kurzer Exkurs: Berufsfindung• Theorie von Holland (1997): je klarer und konsistenter das Interessenprofil und je 

mehr es mit den Inhalten einer Stelle übereinstimmt, desto– höher wird die spätere Berufszufriedenheit sein 

(aber Korrelationen im Bereich von ‐.07 bis .51; im Mittel: .22; Meta‐Analyse von Assouline & Meir, 1987)

– langfristiger wird jemand in einem bestimmten Beruf verbleiben (aber: mittlere Korrelation: .15)

– besser wird die berufliche Leistung sein (aber: mittlere Korrelation: .06)

• Berufliche Gravitationshypothese: wenn eine Person feststellt, dass eine Stelle nicht den eigenen Fähigkeiten und Interessen entspricht, verlässt sie diese wieder und sucht nach einer Umwelt mit höherer Übereinstimmung

• Austin & Hanisch (1990): die in der 10. Klasse gemessenen Fähigkeiten sagten besser den später ausgeübten Beruf (11 Jahre  nach Abschluss) vorher als die zeitgleich gemessenen Interessen

Page 314: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Aktuelles Verfahren

Explorix (Jörin, Stoll, Bergmann & Eder, 2006)

Page 315: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Explorix

• Für Berufs‐ und Laufbahnberatung

• Als Selbstexplorationsinstrument über Internet durchführbar (www.explorix.de)

• Basiert auf Hollands Typenmodell (Deutsche Version des Self‐directed Search von Holland): Holland unterscheidet 6 Typen im RIASEC‐Modell

Page 316: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

RIASEC‐Modell

• Holland unterscheidet 6 Dimensionen: RIASEC

• Nach Holland kann eine Person einem dominanten Typ (Primärtyp) sowie zwei weiteren Typen (Sekundär‐ und Tertiärtyp) zugeordnet werden; dies  wird in einem Drei‐Buchstaben‐Code dargestellt

Page 317: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

RIASEC‐Modell

A Künstler

S Sozial

E Unternehmer

I Forscher

R Realistisch

C Konventionell

Page 318: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

RIASEC‐Modell

• Realistischer Typ (‐R): bevorzugt ein geordnetes, systematisches, praktisches Umgehen mit Dingen, Werkzeugen, Maschinen und Tieren; z.B. Klempner, Elektriker, Landwirt (handwerkliche, technische und landwirtschaftliche Berufe) 

• Forscher‐Typ (=I): bevorzugt Tätigkeiten, die beobachtende, systematische, symbolische und kreative Unternehmungen betreffen; z.B. Laborassistent oder Physiker (Forschung, Wissenschaft, Labor)

• Künstlerischer Typ (=A): bevorzugt freie und unsystematische Tätigkeiten, die sich mit Wörtern, Bildern, Musik oder physischen Objekten befassen, um Kunstformen zu entwickeln; z.B. Designer oder Schriftsteller (Kunst/Kultur, Theater, Film, Mode, Journalismus…)

• Sozialer Typ (=S): bevorzugt Tätigkeiten im Bereich der Interaktion mit anderen, um diese auszubilden, zu heilen, zu trainieren oder zu belehren; z.B. Lehrer oder Krankenpfleger (Bildungswesen, soziale Beratung, Gesundheitswesen).

• Unternehmerischer Typ (=E): bevorzugt Aktivitäten, die sich mit der Beeinflussung und geschickten Behandlung anderer befassen, um Organisationsziele zu erreichen oder wirtschaftlichen Gewinn zu haben; z.B. Rechtsanwalt, Verkäufer (Management, Verkauf, Werbung, PR). 

• Konventioneller Typ (=C): bevorzugt geordnete und systematische Tätigkeiten, die sich mit dem Führen von Daten und Akten, dem Organisieren von Material und dem Bedienen von Büromaschinen beschäftigen; z.B. Buchhalter, Sekretärin oder Kassierer (Verwaltung, Büro, Sekretariat).

Page 319: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Explorix

• Proband kann Test hinsichtlich Typenprofil selbst auswerten

• Diagnostiker kann außerdem ermitteln: – Differenziertheit (Eindeutigkeit der Interessen‐schwerpunkte), 

– Konsistenz (Nähe der drei Typen im Hexagon‐Modell)

– Identität (eigene Skala, Einschätzung, wie klar und stabil die Subskalen sind, z.B. Ich bin noch nicht sicher, welche Berufe ich erfolgreich ausüben könnte)

Page 320: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Gütekriterien

• Objektivität gegeben

• Reliabilität: interne Konsistenz gegeben 

• Validität: theoretische Hexagon‐Struktur in einigen Studien angezweifelt; Konstruktvalidität gegeben, keine Angaben zur Kriteriumsvalidität

• Keine Normwerte

Page 321: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Leistungsmotivation

• Sie haben die Wahl: belegen Sie einen leichten, mittelschweren oder schweren Kurs an der Uni?

Page 322: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Motive

Die heutige Motivationspsychologie beschäftigt sich mehr mit rationalen Zielbildungsprozessen, die einem Erwartungs‐mal‐Wert Modell folgen. Dies wurde zuerst und am genauesten für die Leistungsmotivation herausgearbeitet.

Vorsicht:

Motivationsstärke ist aktueller Zustand einer Person in einer motivierenden Situation.

Ein Motiv ist die überdauernde Tendenz zu bestimmten Motivationsstärken in motivanregenden Situationen (also ein Persönlichkeitsmerkmal).

Page 323: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Interindividuelle Differenzen

Aus: Carver & Scheier

Page 324: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Leistungsmotiv

Mit Energie und Beharrlichkeit an einer bedeutsamen Sache arbeiten; danach streben, etwasBeachtliches zu vollbringen; in Beruf und Geschäft andern vorweg sein, eine Gruppeüberreden oder führen, eine Sache gestalten; in seinem Handeln Ehrgeiz zeigen

Risikowahlmodell von Atkinson (1957) I

‐ Leistungsmotivation L‐ subjektive Erfolgswahrscheinlichkeit W, dementsprechend ist 1‐W subjektives Risiko‐ Leistungsmotiv M

werden multiplikativ verknüpft zu 

L = M(1‐W)W, wobei

‐ M(1‐W) die Wertkomponente der Motivation‐ W die Erwartungskomponente der Motivation

Leistungsmotiv M:‐ Erfolgsmotiv Me, Erfolg anzustreben‐ Misserfolgsmotiv Mm, Misserfolg zu meiden

Page 325: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Exkurs: Leistungsmotiv

Konsequenzena) Me > Mm b) Me < Mm:

Re

su

ltie

re

nd

e L

eis

tun

gs

mo

tiv

ati

on

Erfolgs-

tendenz

Leistungs-

tendenz

Mißerfolgs-

tendenz

Page 326: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Leistungsmotiv

Folgerungen für Leistungsmotiv:

Erfolgsmotivierte wählen eher Aufgaben mittlerer Schwierigkeit und bearbeiten sie besser und ausdauernder.

Misserfolgsmotivierte wählen eher sehr leichte oder sehr schwere Aufgaben und bearbeiten sie besser und ausdauernder.

Page 327: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Projektive Motivtests

Ein Proband soll Geschichten zu mehrdeutigen Bildern erzählen, die bestimmte Motive mittelstark anregen.

Die Häufigkeit, mit der ein bestimmtes Motiv in den Geschichten vorkommt, wird als Motivstärke interpretiert: das Motiv wurde in die Geschichten "hineinprojiziert".

Die so gemessenen Motive müssen den Probanden nicht bewusst sein.

Ziel der Verfahren ist es vielmehr latente Motive zu erfassen, zunehmend implizite Motive genannt.

Verbreitet: Thematischer Apperzeptionstest (TAT) von Murray (1943).

Page 328: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Projektive Motivtests

• Illustration: Bild aus dem Leistungsmotiv‐TAT von Heckhausen (1963)

Page 329: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Projektive Motivtests

•Kodierung für dieses Bild: Hoffnung auf Erfolg

In h a lt B e is p ie l

B e d ü rfn is n a ch L e is tu n g

u n d E rfo lg

E r w ill e in e n n e u e n A p p a ra t

k o n s tru ie re n

T ä tig k e it zu r

Z ie le rre ic h u n g

E r d e n k t ü b e r d ie A u fg a b e

n a c h

E rfo lg s e rw a rtu n g E r is t s ic h e r, d a ß e r

e rfo lg re ic h s e in w ird

L o b in fo lg e g u te r

L e is tu n g

D e r M e is te r a n e rk e n n t d ie

K o n s tru k tio n

P o s itive r G e fü h ls zu s ta n d D ie A rb e it m a ch t ih m S p a ß

E rfo lg s th e m a W e n n d ie G e s ch ich te

in s g e sa m t e in e n ü b e rw ie g e n d

e rfo lg s g e tö n te n G e h a lt h a t

Page 330: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Projektive Motivtests

•Kodierung für dieses Bild: Furcht vor Misserfolg

I n h a l t B e i s p i e l

B e d ü r f n i s n a c h

M i s s e r f o l g s m e id u n g

E r h o f f t , d a ß d e r M e i s t e r d e n

F e h le r n ic h t b e m e r k t

T ä t i g k e i t z u r

M i s s e r f o l g s m e id u n g

E r g i b t v o r , d a s s d i e

K o n s t r u k t i o n n o c h in A r b e i t i s t

( o b w o h l s ie s c h o n f e r t i g i s t )

E r f o l g s u n g e w is s h e i t E r z w e i f e l t a n s e i n e m E r f o lg

T a d e l i n f o l g e s c h le c h t e r

L e i s t u n g

D e r M e i s t e r k r i t i s i e r t d i e

K o n s t r u k t i o n

N e g a t i v e r

G e f ü h ls z u s t a n d

E r ä r g e r t s ic h ü b e r s e in e n

F e h le r

M i s s e r f o l g D ie K o n s t r u k t io n e n t h ä l t e i n e n

F e h le r

M i s s e r f o l g s t h e m a W e n n d i e G e s c h i c h t e

i n s g e s a m t e i n e n ü b e r w ie g e n d

m is s e r f o l g s g e t ö n t e n G e h a l t

h a t

Page 331: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Projektive Motivtests

Kritik an projektiven Tests

1. Interne Konsistenz nur ca. .50 bei ca. 6 Bildern. Verteidigung: Motivwechsel durch Sättigungseffekt!

2. Retestreliabilität über wenige Wochen auch nur ca. .50.Verteidigung: unterschiedliche Motivationslagen an verschiedenen Testtagen!

3. Unklarheit der Interpretation: eigenes Motiv oder nur Sensitivität für Thema? 

Page 332: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Projektive Motivtests

Beispiel Aggressions‐TAT für Kinder

Besagen hohe Werte, dass das Kind aggressiv ist oder dass es oft Aggressionen anderer erlebt?

Page 333: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Projektive Motivtests

Kinder mit hohen Werten im Aggressions‐TAT sind entweder tatsächlich stark aggressiv (laut Erzieherurteil). Oder: Sie erkennen diese Reize besonders gut (Sensitivität gegenüber Aggressionsthematik) (Asendorpf, 1994).

Kriminalbeamte erzielten auch besonders hohe Werte in Aggressions‐TATs (Toch & Schulte, 1961).

Insofern sollte der Name "Thematischer Apperzeptionstest" ganz wörtlich genommen werden.

Page 334: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Motivmessung

• Bewusste Motive können mit Fragebögen erfasst werden.

• z.B. Skalen zur Erfassung der Lern‐ und Leistungsmotivation (SELLMO)– 31 Items, 4 Zielorientierungen– „In der Schule/Im Studium geht es mir darum …“

• „zum Nachdenken angeregt zu werden“ (Orientierung an einem Lernziel)

• „das was ich kann und weiß auch zu zeigen“ (Annäherungs‐Leistungsziel)

• „dass niemand merkt, wenn ich etwas nicht verstehe“ (Vermeidungs‐Leistungsziel)

• „mit wenig Arbeit durch die Schule/durchs Studium zu kommen“ (Arbeitsvermeidungstendenz)

– Gütekriterien zufriedenstellend 

Page 335: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Selbstkonzept der Fähigkeiten

• Selbstkonzept enthält das Wissen über sich selbst• Selbstwertgefühl ist die Zufriedenheit mit sich selbst 

(affektive Bewertung des Selbstkonzepts)• Neben dem allgemeinen Selbstwert gibt es auch 

bereichsspezifische Komponenten

Page 336: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Selbstkonzept der Fähigkeiten

Modell von Marsh und Kollegen

Page 337: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Messung des Selbstkonzepts• In der Regel über Fragebogen (Selbstbericht)

• Z.B. Skalen zur Erfassung des schulischen Selbstkonzepts (SESSKO):– Nur kognitive Komponente des Selbstkonzepts– 22 Items; 4 Vergleichsperspektiven

• Kriterial („Wenn ich mir angucke, was wir in der Schule können müssen, halte ich mich für …“ ‐ nicht begabt bis sehr begabt)

• Individuell („Ich bin für die Schule … als früher“ – weniger begabt bis begabter)• Sozial („Ich denke, ich bin für die Schule … als meine Mitschüler/innen“ ‐ weniger begabt 

bis begabter)• Absolut („Ich bin für die Schule …“ ‐ nicht begabt bis sehr begabt)

– Reliabilität gegeben, Korrelation mit Noten, aber andere Aspekte der Validität erscheinen problematisch (z.B. nur geringe Korrelation mit Leistungsmotivation, wozu 4 Skalen …)

Page 338: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ein Überblick zur Beratung

Page 339: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beratung im pädagogischen Kontext

Dienstordnung für Lehrer, Land Hessen:• § 4  „Die Lehrkräfte erziehen, unterrichten, beraten und betreuen…“

• §9 „… Die Klassenlehrerin oder der Klassenlehrer soll die Schülerinnen und Schüler der  Klasse  in  allen  schulischen  Angelegenheiten  beraten. …“

• §9 „…Die  Klassenlehrerin  oder  der  Klassenlehrer  steht  in  besonderem  Maße  den  Eltern  zur Beratung zur Verfügung …“

Page 340: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Eine mögliche Definition von Beratung

• „Beratung ist in ihrem Kern jene Form einer interventiven und präventiven helfenden Beziehung,

• in der ein Berater mittels sprachlicher Kommunikation und auf einer Grundlage anregender und stützender Methoden innerhalb eines vergleichsweise kurzen Zeitraums versucht,

• bei einem desorientieren, inadäquat belasteten oder entlasteten Klienten einen auf kognitiv-emotionale Einsicht fundierten aktiven Lernprozess in Gang zu bringen, in dessen Verlauf seine Selbsthilfebereitschaft, seine Selbststeuerungsfähigkeit und seine Handlungskompetenz verbessert werden können“ (Dietrich, 1983)

3

Page 341: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Man kann nicht nicht kommunizieren

• Watzlawick: „alles Verhalten, nicht bloß der Gebrauch von Wörtern, ist Kommunikation“

Page 342: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Man kann nicht nicht kommunizieren

• Beispiel Blickkontakt:– Herstellen sozialer Bindungen– Distanzregulierung– Kontrollsignale („im Auge behalten“)– Sympathie– 2 Minuten Wegsehen, dann 2 Minuten Anschauen 

Interpretation als Interesse– Intensiver Blickkontakt bei positiven Inhalten: Sympathie vs. 

Intensiver Blickkontakt bei negativen Inhalten: Ablehnung– Blickverweigerung:

• Beschwichtigung• Angst, Stress, Schuld, Scham• Täuschung und Lüge• Fehlende Kommunikationsbereitschaft

Page 343: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Inkongruenz

• Verbale und non‐verbale Signale stimmen nicht überein

„Ich finds toll hier“

Page 344: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Grundvorgang der Kommunikation

Eine Nachricht enthält stets viele Botschaften gleichzeit ig

(n. Schulz v. Thun) .

Sachbotschaft

Beziehungs-botschaft

Selbstoffen-barung

Appell-botschaft

NachrichtSender Em pfänger

Worüber ich informiere

Wozu ich Dich veranlassen möchteWas ich von Dir halte (Du‐

Botschaften) und wie wir zueinander stehen (Wir‐Botschaften)

Was ich von mir selbst 

kundgebe

Page 345: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Grundvorgang der Kommunikation

Was steckt alles in dieser Nachricht?

Mann auf Beifahrersitz Frau am Steuer„Du, da vorne ist grün! “

„Du da vorn ist grün! “Mann Frau

Die Am pel ist grün.

Du brauchst m eine Hilfe.

I ch habe es eilig.

Fahr schon los!

Page 346: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Unterschiedliche Schulen„Können Sie mir sagen, wie ich zum Bahnhof komme?“

Aus: Rausch et al., Modul Beratungspsychologie

Page 347: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Unterschiedliche Schulen

• Unterschiedliche Menschenbilder (n. Rausch et al.)

– Mensch als Objekt von Außenreizen (z.B. Behaviorismus)

– Mensch als Objekt unbewusster Triebe (z.B. psychodynamische Theorien)

– Mensch als frei handelnde Person (z.B. Humanistische Ansätze, kognitive Theorien)

Page 348: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Unterschiedliche Schulen

Aus: Warschburger, Beratungspsychologie

Page 349: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Unspezifische Wirkfaktoren

Basisvariablen der Gesprächspsychotherapie

• Empathie den inneren Bezugsrahmen des anderen möglichst wahrzunehmen, mit all seinen emotionalen Komponenten und Bedeutungen, gerade so, als ob man die andere Person wäre, jedoch ohne jemals die „als ob“ - Position aufzugeben (Rogers, 1991)

• WertschätzungWenn Selbsterfahrungen eines anderen durch mich in der Art und Weise wahrgenommen werden, dass keine dieser Selbsterfahrungen danach unterschieden werden, ob sie meiner positiven Beachtung mehr oder weniger wert sind, dann erlebe ich bedingungslose positive Beachtung (bedingungsfreie positive Beachtung) für diese Person (Rogers, 1987)

• Echtheit/Kongruenz

Page 350: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Ein guter Berater ist…

– geduldiger

– flexibler in Variation des Interventionsverhaltens

(abhängig vom Klienten)

– aktiver

– unterhält gute Beziehungen zu Klienten

– stellt weniger Sachfragen

n. Margraf & Baumann (1986)

Page 351: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel: Erziehungsberatung

Auto‐ritär

Auto‐ritativ

Vernach‐lässigend

Permissiv

Zuwendung

Kontrolle

Erziehungsstile n. Baumrind

Page 352: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel: Erziehungsberatung

Modellernen Verstärkungslernen

Positive Verstärkung:  Verhalten wird wahrscheinlicher Negative Verstärkung:  Verhalten wird wahrscheinlicher, da negativer Stimulus

beendet wird Bestrafung: Verhalten wird unwahrscheinlicher Löschung: Beendigung von Verstärkung

Zwangsinteraktion n. Patterson

Page 353: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel: Erziehungsberatung

„Mama, ich möchte Kekse!“

„Nein Paula, wir haben Kekse zu Hause.“ Mutter versucht, Verhalten zu löschen

(mit hoher Stimme wimmernd) „Ich möchte Kekse, ich möchte Kekse!“

Löschung verursacht Eskalation

(versucht ruhig zu bleiben) „Paula, du hattest heute schon ein Eis und ich möchte nicht, dass du dir den Appetit aufs Abendbrot verdirbst.“

Mutter versucht, Verhalten zu löschen

(bricht in Tränen aus, schreit wiederholt mit aller Kraft) „Mama, ich will Kekse! Ich will Kekse! Ich will Kekse!“

Löschung verursacht Eskalation

„Na gut, aber das ist das letzte Mal, dass ich dich mit zum Einkaufen genommen habe!“

Positive Verstärkung des Weinens

Mama packt die Kekse in den Korb und Paula hört sofort auf mit weinen und betteln.

Negative Verstärkung des Aufgebens

Neulich im Supermarkt…

Page 354: Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Beispiel: Erziehungsberatung

• Emotionale Unterstützung• Positive Zeit• Aufbau verschiedener Kompetenzen

• Verantwortungsübernahme

• konsistente Grenzsetzung, aber auch Freiraum