Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Post on 09-Aug-2015

259 views 5 download

Transcript of Kristin Mitte - Gütekriterien und pädagogische Diagnostik.pdf

Vorlesung Modul 3 „Beobachten, Beraten und Fördern im pädagogischen Feld“

Prof. Dr. Kristin Mittekristin.mitte@uni-kassel.de

Sprechzeit: Di 13-14 Uhr

Moodle: Gütekriterien

Organisatorisches I

• Start der VL: s.t. oder c.t.?

2

Modul 3

• VL + Seminar– Seminar im WS 12/13

Di 14-16Di 16-18

oder

– Seminar im SS13

Organisatorisches II: Seminaraufteilung3

Prüfung

• Letzte VL-Woche

• Klausur 90 Minuten

• Mix aus geschlossenen Fragen, Multiple Choice, offenen Fragen

• Prüfungsvorleistung: Seminar

4

Organisatorisches III

• Wer von Ihnen kann KEIN(EN) – Laptop

– I-Pad

– Smartphone

– Etc.

mitbringen, um während der VL aufs Internet zuzugreifen?

5

Literatur

• Literaturempfehlungen am Ende einer Veranstaltung bzw. eines Themenblocks

• Grundlage: Ingenkamp, K.H. & Lissmann, U. (2005). Lehrbuch der Pädagogischen

Diagnostik. Weinheim: Beltz.

6

Überblick über die VL

A. Grundlagen der Diagnostik: Ziele, Methoden und Verfahren• Diagnostik als wissenschaftsbasiertes,

professionelles Handeln• Methodische Grundlagen (Testtheorien,

Verfahrenskonstruktion, Gütekriterien)• Test-, Befragungsmethoden und

Beobachtungsverfahren (Basiswissen)• Leistungs- und Verhaltensbeurteilung

B. Einführung in die Beratungspsychologie

7

Beratung

• Beraten ist ein alltäglicher Prozess

• Aber: Alltagsberatung ist nicht professionelle Beratung!

8

TheoretischesWissen + operative

Kompetenzen

Beratung

• McLeod (2004): Beraterqualitäten– Interpersonelle Fähigkeiten (z.B. Zuhören,

nonverbale Kommunikation)– Persönliche Überzeugungen (z.B. Glaube an

Veränderungspotential)– Konzeptionelle Fähigkeiten (z.B. Fähigkeit,

Probleme des Klienten einschätzen zu können)– Persönliche Integrität (z.B. vorurteilfrei)– Beherrschung von Beratungstechniken – Fähigkeit soziale Systeme zu verstehen und mit

ihnen zu arbeiten

9

Definition Beratung

Beratung ist ein zwischenmenschlicher Prozess, • in welchem eine Person oder eine Gruppe, d.h. die

Ratsuchenden/Klienten • in der und durch die Interaktion mit einer anderen Person, dem sog.

Berater/Team,• mehr Klarheit gewinnt über eigene Probleme und deren

Bewältigungsmöglichkeiten.

Die Hilfe zur Selbsthilfe, d.h. die Steigerung der Problemlösefertigkeiten seitens des Ratsuchenden, ist ein entscheidendes Element von Beratung. Psychosoziale Beratung soll damit nicht nur bei Lösung eines aktuellen, spezifischen Problems stehen bleiben, sondern dem Klienten die Möglichkeiten aufzeigen, wie ähnlich gelagerte Probleme in Zukunft zu bewältigen sind

(Warschburger, 2009, S. 16)

10

Eine kurze Frage an Sie

Eine zweite Frage

12

Diagnostische Kompetenzen im LA

• KMK (2004): Lehrerinnen und Lehrer üben ihre Beurteilungs- und Beratungsaufgabe im Unterricht und bei der Vergabe von Berechtigungen für Ausbildungs-und Berufswege kompetent, gerecht und verantwortungsbewusst aus. Dafür sind hohe pädagogisch-psychologische und diagnostische Kompetenzen von Lehrkräften erforderlich.

13

Fähigkeit, akkurate diagnostische Urteile zu fällen

Noch eine Frage

• Individualisierung im Unterricht?

14

Diagnostische Kompetenzen im LA

• Pisa-Konsortium, 2001: „Eine zentrale Voraussetzung für eine optimale Förderung ist eine ausreichende diagnostische Kompetenz der Lehrkräfte, also die Fähigkeit, den Kenntnisstand, die Verarbeitungs- und Verstehensprozesse sowie die aktuellen Leseschwierigkeiten der Schülerinnen und Schüler korrekt einschätzen zu können. Diagnostik in schulischen Entscheidungssituationen hat den Zweck, Informationen zur Optimierung des pädagogischen Handelns zu gewinnen“.

15

16

17

Leistungsstand?

Lern

pote

ntia

le? Lernhindernisse?

Lernfortschritte?

Anpassung Unterricht

+

Anpassung Unterricht

-

Diagnostik+

Optimum

Diagnostik-

18

Psychodiagnostik – Definition

• Diagnose und Diagnostik („diagignostikein“) bezeichnet im Griechischen eine kognitive Funktion mit den Bedeutungen „gründlich kennen lernen", „entscheiden" und „beschließen„

• Ist eine Methodenlehre im Dienste der Praktischen Psychologie (Wellek, 1955)

• Diagnostik habe das Ziel, Personen richtig zu beurteilen (Dieterich, 1973) oder zu erfahren, wie sich Menschen voneinander unterscheiden (Hörmann, 1964)

• Leichner (1979) sieht die Aufgabe der Psychodiagnostik in der Ermittlung interindividueller Differenzen im Erleben und Verhalten von Personen unter standardisierten Bedingungen.

19

• Dient der Beantwortung von Fragestellungen, die sich auf die – Beschreibung– Klassifikation– Erklärung– Vorhersage

menschlichen Verhaltens und Erlebens beziehen.• Informationen darüber werden

– gezielt erhoben mittels Methoden, die wissenschaftlichen Standards genügen und

– im Sinne der Fragestellung interpretiert

• Der Prozess wird von psychologischem Wissen geleitet

20

Schmidt-Atzert & Amelang, 2012

Pädagogische Diagnostik• „… umfasst alle diagnostischen Tätigkeiten, durch die

bei einzelnen Lernenden und den in einer Gruppe Lernenden Voraussetzungen und Bedingungen planmäßiger Lehr- und Lernprozesse ermittelt, Lernprozesse analysiert und Lernergebnisse festgestellt werden, um individuelles Lernen zu optimieren. Zur Pädagogischen Diagnostik gehören ferner die diagnostischen Tätigkeiten, die die Zuweisung zu Lerngruppen oder zu individuellen Förderprogrammen ermöglichen sowie die mehr gesellschaftlich verankerten Aufgaben der Steuerung des Bildungsnachwuchses oder der Erteilung von Qualifikationen zum Ziel haben.“

Ingenkamp & Lissmann, 200821

Konzepte der Diagnostik (Oder: Woher schließe ich, wie Sie sich morgen verhalten?)

Eigenschaften(traits)

Verhaltensweisen(signs)

Verhaltensweisen(samples)

Eigenschaftsdiagnostik

Verhaltensdiagnostik

22

Eigenschaftsdiagnostik

• Wichtig: welche Eigenschaften hat Person

• Eigenschaften sind (weitgehend)– Zeitlich stabil und– Situationsunabhängig

• Analogieschluss: von Indikatoren von Eigenschaften wird auf zukünftiges Verhalten geschlossen (von einem Objekt wird auf ein anderes Objekt geschlossen aufgrund der Analogie zwischen beiden Objekten)

• z.B. Persönlichkeitstests, Intelligenz- und Leistungstests

23

Verhaltensdiagnostik

• Wichtig: welches Verhalten zeigt Person („The best predictor of future performance is past performance"; Wernimont & Campbell, 1968, S. 372)

• Verhalten ist– Situational abhängig– Es gibt aber repräsentative Stichproben dieses Verhaltens

• Induktionsschluss: von einem in einer spezifischen Situation unter spezifischen Bedingungen gezeigten Verhalten wird auf zukünftiges Verhalten geschlossen (von einer Teilklasse wird auf die Gesamtklasse geschlossen)

• z.B. Selbst- und Fremdbeobachtungen, Rollenspiele, Simulationen

24

Diagnostik lässt sich noch auf anderen Ebenen differenzieren

25

Status- vs. Prozessdiagnostik

• Statusdiagnostik: = einmalige Feststellung des Ist-Zustandes(für Diagnose + Prognose)

• Prozessdiagnostik:= wiederholte Untersuchungen zur Erfassung von Veränderungen

26

Selektions- vs. Modifikationsdiagnostik

• Selektionsdiagnostik– Personenselektion: Bedingung gegeben – geeignete

Person wird gesucht– Bedingungsselektion: Person gegeben – geeignete

Bedingung wird gesucht

• Modifikationsdiagnostik– Verhaltensmodifikation: welches Verhalten muss

geändert werden– Bedingungsmodifikation: welche externen

Bedingungen müssen geändert werden

27

Vielen Dank für Ihre Aufmerksamkeit!

… Psychologische Diagnostik

Sitzung 2: es wird statistisch…

Ein Beispiel vorab…

• Ein Lehrer möchte das Wissen über ein Thema in Mathematik überprüfen

• Er entwickelt einen Test mit 20 Fragen (Items)

• Jedes Item kann entweder „richtig“ oder „falsch“ beantwortet werden

• Die Summe der richtig beantworteten Items ergibt das Maß für Mathematikwissen 

2

Es könnten sich dem Lehrer nun folgende Fragen stellen…

• Sollte man einen Summenwert bilden oder mehrere (z.B. für Bruchrechnung und Dreisatz)?

• Messen alle Items gleich gut das Mathewissen? • Wie gut misst der Gesamtwert Mathewissen?

• Hätte es nicht auch ein Test mit 5 Items getan? Oder sind 30 Items notwendig?

• Hätte man 2 Testhälften geben können, damit die Schüler untereinander nicht abschreiben? Messen die dann das gleiche?

• Gibt es einen systematischen Bias in den Fragen? Werden bestimmte Schüler benachteiligt (z.B. aufgrund ihrer Herkunft)?

• Kann man aus niedrigen Werten schließen, dass der Schüler eine Lernstörung aufweist?

• …

3

Mit anderen Worten

• Wie gut ist der Test?

Damit es gerecht zugeht, ist die Aufgabe für alle gleich: „Klettern Sie auf diesen Baum“!

Unterschied „Pseudotest“ und wissenschaftlicher Test: Gütekriterien 4

Vorüberlegungen

Mittelwert und Standardabweichung – was ist das?

• Mittelwert als arithmetisches Mittel – im Gegensatz zum häufigsten Wert = Modalwert

– Im Gegensatz zur mittleren Position = Median

• Standardabweichung als mittlere Abweichung vom Mittelwert

5

Vorüberlegungen

6

163

163

163

170172

182197182180

Modalwert = 

Median = 

Mittelwert = 

??

?

Vorüberlegungen

• Mittelwert

7

Vorüberlegungen

8

163

163

163

170172

182197182180

Modalwert = 

Median = 

Mittelwert = 

163

172

?(3*163+170+175+180+2*182+197) / 9175

Ein paar Mittelwerte…

9

Quelle: Statistisches Bundesamt, https://www.destatis.de/DE/PresseService/Presse/Pressemitteilungen/2011/08/PD11_301_12641.html

Ein paar Mittelwerte…

10Quelle: http://www.mappedplanet.com/map/stats.php?param=30

Vorüberlegungen

163

163

163

170172

182197182180

175 175 175 175 175 175 175 175 175

Vorüberlegungen

• Varianz und Standardabweichung

12

Vorüberlegungen

163

163

163

170172

182197182180

175 175 175 175 175 175 175 175 175

Var(x) = SD (x) = 0

Var(x) = (163‐175)2+…+ (197‐175)2/8 

Var(x) = 133SD(x) = 11,5

Vorüberlegungen

Korrelation – was ist das?

• Besteht ein (linearer) Zusammenhang zwischen mehreren Variablen?

• Wie ist dieser Zusammenhang ausgeprägt?

14

Vorüberlegungen

0

1

2

3

4

5

6

7

8

9

0 5 10 15 20

Stu

nd

en

im

Le

se

sa

al

Wochen bis zu Klausur

Wochen bis zu

Klausur

Stunden auf

Feten, …

Stunden im

Lesesaal

16 10 0,5

14 8,5 1

12 6 1

10 6,5 2,5

8 4 4

6 3,5 6

… … …

0

2

4

6

8

10

12

0 5 10 15 20

Stu

nd

en

au

f F

ete

n, …

Wochen bis zu Klausur

15

Vorüberlegungen

• Abbildung dieses Zusammenhangs durch folgende Koeffizienten:– Kovarianz

– Korrelation

16

Vorüberlegungen

d.h. 

17

hohe Kovarianz, wenn diejenigen Personen, die im Merkmal A überdurchschnittlich sind auch im Merkmal B überdurchschnittlich sind bzw. diejenigen Personen, die im Merkmal A unterdurchschnittlich sind auch im Merkmal B unterdurchschnittlich sind.

Vorüberlegungen

Aber: • Variablen nicht standardisiert, d.h. die Höhe der 

Kovarianz ist abhängig von der Maßeinheit der VariablenDas bedeutet… • Zusammenhang Gewicht u. Körpergröße

– Gewicht in kg unda) Körpergröße in mb) Körpergröße in cm  Kovarianz ist 100x höher gegenüber a!

18

Vorüberlegungen

Wochen bis zu

Klausur

X

Stunden auf Feten,

Y

16 10 (10-6,4) * (16-11) = 17,9

14 8,5 (8,5-6,4) * (14-11) = 6,25

12 6 … …

10 6,5 … …

8 4 … …

6 3,5 … …

M = 11 M = 6,4 ∑ = 45,5

Cov (x, y) = 45,5 / 6 = 7,58 19

Vorüberlegungen

Die Produkt‐Moment‐Korrelation r

• Zum Bsp.: r = 7,58 / (3,42 * 2,30) = .97• r im Bereich zwischen ‐1 … 0 … +1

20

Vorüberlegungen

• Ein Wort der Warnung: Korrelation sagt nichts über Kausalität aus (!)

• Klassisches Beispiel aus Südschweden: die Anzahl an Geburten war positiv mit der Anzahl an nistenden Störchen korreliert

21

Vorüberlegungen

• Ein zweites Wort der Warnung: eine Korrelation von 0 bedeutet nicht, dass zwei Variablen nicht in Zusammenhang stehen

• Beispiel: U‐förmiger Zusammenhang

22

Hintergrund

• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)

• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift 

23

Hintergrund

24

Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer

Skalenniveaus

• Nominalskala

– Nomen: lateinisch für Namen

– Einteilung in (beliebige aber) eindeutige Kategorien, z.B.

• Männlich = 0, weiblich = 1; • Ledig = 0, verheiratet = 1, geschieden = 2, feste Partnerschaft = 3, anderes = 4

– Statistik: Modalwert, Häufigkeiten 

25

Skalenniveaus

• Ordinalskala

– Natürliche Reihenfolge, aber Abstände sind nicht gleich  Rangreihe, z.B. 

• Schulnoten

• Plätze bei den Olympischen Spielen

– Statistik: Median

26

Skalenniveaus

• Intervallskala

– Gleiche Abstände zwischen den Werten (z.B. Unterschied zwischen 50°C und 25°C entspricht dem Unterschied zwischen 35°C und 10°C) 

– 0‐Punkt ist aber willkürlich festgelegt• Abweichungsnormen

• Temperatur in Grad Celsius

– Statistik: Mittelwert

27

Skalenniveaus

• Verhältnisskala

– Gleiche Abstände zwischen den Werten und– 0‐Punkt ist natürlich gegeben

• Gewicht, Größe• Temperatur in Kelvin

– Statistik: Vielfaches, Quotient,…

28

Beispiel

Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht

29

Kategorie Häufigkeit „Durchgefallen“

0 = weiblich, brünett 15

1 = weiblich, blond 0

2 = männlich, brünett 5

3 = männlich, blond 5

Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1

Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

Hauptgütekriterien

Nebengütekriterien

30

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

31

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“

32

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“

33

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“

34

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“

35

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“

36

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“

37

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“

38

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“

39

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“

40

Testgütekriterien unter der Lupe

41

Objektivität

Objektivität

• Subjektive Einflüsse des Untersuchers sollten minimiert werden  Vereinheitlichung der Arbeitsschritte

• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.

– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird. 

– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.

42

Objektivität

Beispiel 1: Mündliche Prüfungen

• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)

– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)

43n. Ingenkamp & Lissmann, 2008

Objektivität

Beispiel 2: schriftliche Prüfungen

• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher 

Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs.  b) 0% 

(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83

• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)

44n. Ingenkamp & Lissmann, 2008

Objektivität

Beispiel 2: schriftliche Prüfungen

• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist

• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)

– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen! 

45n. Ingenkamp & Lissmann, 2008

Objektivität

• Bildet die Grundlage für die folgenden Gütekriterien!

46

… Psychologische Diagnostik

Gütekriterien

NW9440
Typewriter
Sitzung 3
NW9440
Typewriter
NW9440
Typewriter
NW9440
Typewriter
NW9440
Markup
set by NW9440
NW9440
Markup
set by NW9440

Hintergrund

• „Messen ist eine homomorphe Abbildung eines empirischen Relativs (z.B. Objekte oder Ereignisse und die für sie definierten Relationen) in ein numerisches Relativ“ (Nachtigall & Wirtz, 2004, S. 48)

• Messen beinhaltet die Zuordnung von Zahlen zu Eigenschaften von Objekten / Personen nach einer bestimmten Messvorschrift 

3

Hintergrund

4

Aus: Kany, W. & Schöler, H. (2009). Diagnostik schulischer Lern‐ und Leistungsschwierigkeiten. Ein Leitfaden. Stuttgart: Kohlhammer

Beispiel

Nominalskalierung und Mittelwert: fiktive Studie zum Zusammenhang von Schulleistung, Haarfarbe und Geschlecht

5

Kategorie Häufigkeit „Durchgefallen“

0 = weiblich, brünett 15

1 = weiblich, blond 0

2 = männlich, brünett 5

3 = männlich, blond 5

Mittelwert = (15*0 + 0*1 + 5*2 + 5*3) / 25= 1

Der typische Schüler, der in Prüfungen durchfällt, ist weiblich und blond. Dies bestätigt das Vorurteildes blonden Dummchens.

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

Hauptgütekriterien

Nebengütekriterien

6

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann objektiv, wenn er dasjenige Merkmal, das er misst, unabhängig vom Testleiter, Testauswerter und von der Ergebnisinterpretation misst.“

7

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann reliabel (zuverlässig), wenn er das Merkmal, das er misst, exakt, d.h. ohne Messfehler, misst.“

8

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test gilt dann als valide (gültig), wenn er das Merkmal, das er messen soll, auch wirklich misst und nicht irgendein anderes.“

9

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Skalierung, wenn die laut Verrechnungsregel resultierenden Testwerte die empirischen Merkmalsregeln adäquat abbilden.“

10

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Unter der Normierung (Eichung) eines Tests versteht man das Erstellen eines Bezugssystems, mit dessen Hilfe die Ergebnisse einer Testperson im Vergleich zu den Merkmalsausprägungen anderer Personen eindeutig eingeordnet und interpretiert werden können.“

11

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Gütekriterium der Ökonomie, wenn er, gemessen am diagnostischen Erkenntnisgewinn, relativ wenig Ressourcen wie Zeit, Geld oder andere Formen beansprucht.“

12

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test ist dann nützlich, wenn für das von ihm gemessene Merkmal praktische Relevanz besteht und die auf seiner Grundlage getroffenen Entscheidungen (Maßnahmen) mehr Nutzen als Schaden erwarten lassen.“

13

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Zumutbarkeit, wenn er absolut und relativ zu dem aus seiner Anwendung resultierenden Nutzen die zu testende Person in zeitlicher, psychischer sowie körperlicher Hinsicht nicht über Gebühr belastet.“

14

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Unverfälschbarkeit, wenn das Verfahren derart konstruiert ist, dass die zu testende Person durch gezieltes Testverhalten die konkreten Ausprägungen ihrer Testwerte nicht steuern bzw. verzerren kann.“

15

Testgütekriterien

• Objektivität• Reliabilität• Validität• Skalierung• Normierung• Testökonomie• Nützlichkeit• Zumutbarkeit• Unverfälschbarkeit• Fairness

„Ein Test erfüllt das Kriterium der Fairness, wenn die resultierenden Testwerte zu keiner systematischen Benachteiligung bestimmter Personen aufgrund ihrer Zugehörigkeit zu ethnischen, soziokulturellen oder geschlechtsspezifischen Gruppen führen.“

16

Testgütekriterien unter der Lupe

17

Objektivität

Objektivität

• Subjektive Einflüsse des Untersuchers sollten minimiert werden  Vereinheitlichung der Arbeitsschritte

• Bezieht sich auf die 3 Bereiche– Durchführung: Das Ausmaß, in dem die Unabhängigkeit des Tests von der Person des Untersuchungsleiters durch die Durchführungsbedingungen gesichert ist.

– Auswertung: Das Ausmaß, in dem bei vorliegenden Antworten zum gleichen Testergebnis gekommen wird. 

– Interpretation: Das Ausmaß, in dem einem Testwert die gleiche Interpretation bei verschiedenen Beurteilern zugeordnet wird.

18

Objektivität

Beispiel 1: Mündliche Prüfungen

• Pritz (1981): Abiturprüfung in Geografie– Codierung einer tatsächlichen Prüfung, nachgespielt in 16 vs. 21 Minuten (suchte nach Worten, machte Pausen)

– Zusätzliche Informationen: Vornoten– Beurteiler: 81 Geografielehrer– Ergebnis: Noten schwankten zwischen 1 und 5 (!)– Durchschnittsnote 2.5 (schnell) vs. 3.4 (langsam)

19n. Ingenkamp & Lissmann, 2008

Objektivität

Beispiel 2: schriftliche Prüfungen

• Weiss (1965): 2 Aufsätze in Deutsch– a) „begabter Sohn vom Redakteur“, b) durchschnittlicher 

Schüler mit Vorliebe für Schundhefte– Beurteiler: 92 LehrerInnen– Rechtschreibung: a) 16% vergaben eine 1 vs.  b) 0% 

(vergleichbare Ergebnisse bei Stil und Inhalt)– Mittlere Note: a) 2.08 vs. b) 2.83

• Andere Untersuchungen fanden für eine Prüfungsleistung das gesamte Notenspektrum – unabhängig vom Fach! (s. mdl. Prüfungen)

20n. Ingenkamp & Lissmann, 2008

Objektivität

Beispiel 2: schriftliche Prüfungen

• Klasseninterner Bezugsmaßstab: gleiches Testergebnis unterschiedliche Konsequenzen in Abhängigkeit von der Klasse, in der ein Schüler ist

• Z.B. Untersuchung in 37 Klassen eines Berliner Bezirks– Vergleich der 3 besten und der 3 schlechtesten Klassen (gemessen mittels eines validen Mathematiktests)

– Ergebnis: weniger Schüler für weiterführende Schulen empfohlen in den besten Klassen! 

21n. Ingenkamp & Lissmann, 2008

Objektivität

• Bildet die Grundlage für die folgenden Gütekriterien!

22

Testgütekriterien unter der Lupe

23

Reliabilität (Zuverlässigkeit)

Zunächst…

• ein kleines Experiment

24

Klassische Testtheorie (KTT)

• Geht zurück auf Gulliksen (1950) sowie Lord und Novick (1968) (Ideen aber auch schon bei Thurstone und Spearman zu finden)

• Grundlage für viele Testverfahren

25

KTT

Es muss zunächst zwischen drei Variablen unterschieden werden:

• Beobachteter Wert • Wahrer Wert (true score)• Messfehler (random error)

26

Axiome der KTTExistenzaxiom: Der wahre Wert τvi existiert als Erwartungswert der Messung xvi:

τvi = E(xvi)

Verknüpfungsaxiom: Jede Messung xvi ist aus einem wahren Wert τvi und einem 

zufälligen Fehlerwert εvi zusammengesetzt:

xvi = τvi + εvi

v = Personi = Test(item)

Ableitungen

• Der Messfehler ist eine Zufallsvariable mit dem Erwartungswert 0

• Die Korrelation zwischen Messfehler und wahrem Wert ist 0

• Verknüpfungsaxiom gilt auch auf Varianzebene

28

Reliabilität (Messgenauigkeit)

Var(τ)Var(x)

• Ist der Anteil der Varianz der wahren Werte an der Varianz der beobachteten Werte

Rel =

• Kann Werte zwischen 0 und 1 annehmen 

Reliabilität

• Frau Müller schreibt einen Mathematiktest zur einfachen Addition im Zahlenraum 1‐10. Einige Fragen, die auftreten könnten/sollten – die Reliabilität betreffend– Generalisierbarkeit über Items?

– Generalisierbarkeit über die Zeit?– Generalisierbarkeit über Lehrer?(Interrater‐Reliabilität  Objektivität)

Wie kann die Reliabilität geschätzt werden?

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

� Parallele Tests im Sinne der KTT weisen gleiche wahre Werte und Fehlervarianzen auf (= eineiige Zwillinge)

� Schätzung der Paralleltest‐Reliabilität über die Korrelation der Testwerte xA und xB der parallelen Testformen

Rel(x) = Corr (xA, xB)

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

� Annahme, dass ein Test bei zweimaliger Durchführung die gleichen wahren Werte und Fehlervarianzen aufweist

� Schätzung der Retest‐Reliabilität über die Korrelation der Testwerte xt1 und xt2

Rel(x) = Corr (xt1, xt2)

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

Einfluss von Merkmalsveränderungen

aus M

oosbrugger&

 Kelava, S. 118

� Mehrere Verfahren zur Bestimmung der internen Konsistenz, darunter:– Split‐half Reliabilität– Cronbachs Koeffizient Alpha

Reliabilitäts‐schätzung

Paralleltest‐Reliabilität

Retest‐Reliabilität

Interne

Konsistenz

Split‐Half‐Reliabilität

• Aufteilung der Testskala in zwei möglichst parallele Testhälfte (z.B. odd‐even)

• Schätzung der Split‐Half‐Reliabilität über die Korrelation der Testhälften a1 und a2

• Diese Schätzung sollte noch aufgewertet werden

Reliabilität und Testlänge

Implikation

• Je weniger Aufgaben eine Prüfung, desto geringer die Reliabilität (s. aber auch nächste Sitzung zur Validität)

• Je weniger Einzelarbeiten in eine Jahresnote einfließen, desto unreliabler die Gesamtnote

• Je weniger soziale Beurteiler, desto unreliabler das Urteil 

Einige Anmerkungen

• Reliabilitäten sind stichprobenabhängig!

• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)

• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening 

Reliabilität

Beispiel: schriftliche Prüfungen

n. Ingenkamp & Lissmann, 2008

Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal

Korrelation r = .25 (Retestreliabilität)

Reliabilität

Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten

– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)

• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46

• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80

n. Ingenkamp & Lissmann, 2008

… Psychologische Diagnostik

Sitzung 4: Was messen wir?

Einige Anmerkungen

• Reliabilitäten sind stichprobenabhängig!

• Welcher Koeffizient (und welche Höhe) angemessen ist, wird von vielen Faktoren bestimmt– Empfehlungen (Salvia & Ysseldyke, xx)

• Rel > .6 bei Gruppenfragen• Bei Individualentscheidungen Rel > .9 bzw. Rel > .8 bei Screening 

Reliabilität

Beispiel: schriftliche Prüfungen

n. Ingenkamp & Lissmann, 2008

Eells (1930): 61 Lehrer beurteilen mehrere Arbeiten (darunter Geografie) innerhalb von 11 Wochen zwei Mal

Korrelation r = .25 (Retestreliabilität)

Reliabilität

Beispiel: schriftliche Prüfungen• Hartog & Rhodes (1936): 14 Prüfer, 15 Geschichtsarbeiten

– 44% der Fälle, die zu t1 mit „bestanden“ oder „gut“ bewertet wurden, fielen bei der zweiten Bewertung durch (und umgekehrt)

• Dicker (1995): wiederholte Zensierung von Mathematikarbeiten durch 79 Hauptschullehrer (24 nahmen an beiden Messzeitpunkten teil)– Nur 1/3 der Lehrer vergab dieselbe Note– nach 3 Monaten r = .46

• Aber: Korrelation von Halbjahreszeugnissen zwischen .70‐.80

n. Ingenkamp & Lissmann, 2008

Testgütekriterien unter der Lupe

Validität

5

Validität

Es handelt sich um das wichtigste Gütekriterium!

Problem: Es gibt nicht einen einzigen Kennwert und im Gegensatz zur Reliabilität keine eindeutige Definition; common sense:

6

"Validity refers to the degree to which evidence and theory support the interpretation of test scores  entailed  by  

proposed  uses  of  tests". (APA, 1999)

Misst man das, was man messen möchte? (z.B. Cattell, 1946)

Wichtig

• Wie ist das zu messende Konstrukt definiert?Beispiel: was ist Lesekompetenz? Definition durch wissenschaftliche Literatur Verschiedene Fragen zu klären, darunter auch– gehört zur Lesekompetenz nicht nur Leseverständnis sondern auch Lesegeschwindigkeit?

Dimensionalität des KonstruktsSubskalen vs. Gesamtskalen eines Tests

7

Validität

Inhaltsvalidität:Wie gut spiegelt der Test den definierten Inhaltsbereich wider? (Repräsentativität der Items fürs Merkmal)

Kriteriumsvalidität: Wie genau kann der Test ein Kriterium vorhersagen?

Konstruktvalidität:Wie genau repräsentiert der Test ein Konstrukt (eine hypothetische Eigenschaft einer Person)? 

8

Inhaltsvalidität

• Testinhalt bezieht sich auf sämtliche Fragen eines Tests inkl. Antwortoptionen

• Repräsentationsschluss: vom Verhalten im Testinhalt wird auf Verhalten in der Menge möglicher Fragen geschlossen Items müssen repräsentativ sein

• Grundlegende Fragen:– Alle relevanten Inhalte vorhanden? – Angemessenes Verhältnis der einzelnen Inhalten? – Keine irrelevanten Inhalte?

9

Beispiel

• Test soll mathematisches Wissen 1. Klasse messen

– 1 + 4 = ____– Paul hat eine Artischocke. Von Hans erhält er vier weitere Artischocken. Wie viele Artischocken hat Paul?

– I + IV = ____– Compute the sum of one and four!

– 4.5 * 3.9 = ____ 

10

Inhaltsvalidität

Überprüfung meist über Expertenrating:1. Definition des Konstrukts und seiner Facetten2. Entsprechend werden Aufgaben oder Fragen generiert.

3. Unabhängige Experten schätzen ein, wie gut die Aufgaben / Fragen dem Konstrukt entsprechen.

4. Beurteilerübereinstimmung wird als Koeffizient der Inhaltsvalidität angesehen.

11

Inhaltsvalidität

Anwendung im pädagogischen Kontext• Aufgaben sollten ausreichend (!) Inhalt im Unterricht gewesen sein (und nicht nur am Rande erwähnt)

• Niveau im Unterricht sollte sich in den Aufgaben widerspiegeln (Faktenwissen, Transfer etc.)

• Zeitvolumen vergleichbarGrundsatz der proportionalen Abbildung

12

Inhaltsvalidität – Was passiert bei nichtrepräsentativer Itemauswahl?

Behandelter Stoff

3 Schüler, jeder lernt 66%Max:

Moritz:

Paul:

Geprüfter Stoff

Ergebnis der Prüfung:100% richtig  Note 1 

66% richtig  Note 3

33% richtig  Note 5 13

Inhaltsvalidität

Weitere Anwendung im pädagogischen Kontext• sind Rechenaufgaben in Textform gestellt, wird nicht nur das mathematische Verständnis sondern auch Lesefertigkeit und Textverständnis geprüft

14

Kriteriumsbezogene Validität

• Korrelation zwischen Zielmerkmal oder Kriterium und Test

• Typische Kriterien:– Akademische Leistung (z.B. Schulnoten, Auszeichnungen)– Berufliche Leistung (z.B. Verkaufszahlen, Einschätzungen durch Vorgesetzte)

– Gruppenzugehörigkeit (z.B. psych. Diagnose)– Werte bei anderen Tests– …

• Beispiel: Vorhersage des gymnasialen Schulerfolgs durch Empfehlung der Grundschule

15

Kriteriumsbezogene Validität

16

Zeit t

Test

t1

Kriterium

Konkurrente Validität

Kriterium

Prädiktive Validität

t2

Befunde

Baron‐Boldt et al., 1988: Meta‐Analyse von 61 Studien

• Zusammenhang zwischen– Hauptschul‐/Realschulabschlußnote und Ausbildungserfolg: .37

– Abinote und Studienerfolg: .46

Böhnel, 1996: • Zusammenhang Schulerfolg 4. und 8. Klasse: .78 (ungarische Einheitsschule)

17

Konstruktvalidität

• Beziehungen des Zielkonstrukts zu anderen Konstrukten und Verhaltensweisen

• Hypothesen zu diesen Assoziationen aufbauend auf Theorie entwickeln und an Daten überprüfen

• Konvergente und diskriminante Validität

18

Konstruktvalidität

• Möglichkeit der Überprüfung mittels

– Untersuchung von Gruppenunterschieden– Untersuchungen von Korrelationen zwischen Tests– Untersuchung der internen Struktur– Untersuchungen zur Stabilität über die Zeit– …

19

Validität als Korrelation

• Höhe der Korrelation?

• Reliabilitätsabhängigkeit (Reliabilitätsindex)

• Stichprobenabhängigkeit– Selektions‐ und Selbstselektionseffekte führen zu „range restriction“ in den beteiligten Variablen

– Dies verringert die Korrelation zwischen Test und Kriterium

20

Testgütekriterien unter der Lupe

Fairness

21

Problem

„Murphy Archibald, 30, ein Vietnam‐Heimkehrer aus Alabama, hatte sich, wie er meinte, durch gute akademische Leistungen die Aufnahme in ein Stipendium an der Vilanova‐Universität verdient. Doch als er an der Universität auftauchte, befand sich seine Akte unter „Minoritäten‐Bewerber" mit einem b wie „black" darauf. Als die Sachbearbeiter erkannten, dass der Mann aus Alabama nicht schwarz, sondern weiß war, wurde ihm das Stipendium entzogen. Ex‐Stipendiat Archibald verdankt sein Scheitern der guten Absicht der Bürgerrechtsbewegung des Präsidenten Johnson: Der Civil‐Rights‐Act von 1964 verbietet in Absatz 7 jedwede Benachteiligung amerikanischer Bürger aufgrund von Rasse, Geschlecht, Hautfarbe, Religion oder nationaler Herkunft." (Der Spiegel, 1975, Nr. 7, S. 93; aus Amelang & Zielinski)

22

Problem

„Frauen werden bei gleicher Eignung bevorzugt eingestellt“

23

Fairness auf Itemebene

Welche Person ist hübscher? (Stanford‐Binet Test)

24

Fairness auf Itemebene

Welches Tier passt nicht zu den anderen? Elefant, Kuh, Gans, Schwein, Huhn (Item im CMM 1‐3) Deutsche Kinder wählen normalerweise den Elefanten (kein Haustier), islamische Kinder wählen in der überwiegenden Mehrzahl das Schwein, da dieses im Islam als unreines Tier gilt (Gözlü, 1986)

Häkelaufgabe zur Messung der Feinmotorik

25

Fairness auf Itemebene

Eber : Rüssel = Gockel : a) Truthahn b) Stall c) Schnabel d) Pflug

würde bei Stadtkindern nicht Analogieschluss testen

26

Fairness auf Itemebene

Verschiedene Punkte zu berücksichtigen, z.B.:• Wird Iteminhalt von verschiedenen Gruppen unterschiedlich interpretiert?

• Haben einzelne Worte eine unterschiedliche Bedeutung oder sind einigen Gruppen nicht geläufig?

• Sind die Gruppen unterschiedlich stark mit dem Material vertraut?

• …

27

Aber:

• Unterschiedliche Mittelwerte führen nicht zwangsläufig dazu, dass der Einsatz eines Tests unfair ist! (Fairness auf Testebene)

28

Exkurs: Regressionsmodell (Cleary, 1968)

• Ein Test ist nur dann fair (unbiased), wenn die Regressionsgeraden zwischen Kriterium und Testwert der verschiedenen Gruppen identisch sind

• Fair ist dieses Vorgehen für jeden einzelnen Probanden deshalb, weil jeder voraussichtlich im Kriterium bessere Bewerber jedem voraussichtlich weniger leistungsfähigen Bewerber vorgezogen wird

• Dieses Modell gilt als das Wichtigste! (z.B. Standards for Educational and Psychological Testing der American Educational Research Association, American Psychological Association, National Council on Measurement in Education)

29

Exkurs: Beispiel aus Amelang

• Untersuchungsmaterial von Simons und Möbus (1976). Aus einer Stichprobe von N = 310 Schülern des ersten Grundschuljahres waren N = 58 Arbeiter‐ und N = 63 Akademikerkinder ausgewählt worden. Die Prädiktoren bestanden aus 6 Untertests der Testbatterie Primary Mental Abilities in der deutschsprachigen Adaptation von Kemmler (1967), die Kriterien aus den Schulleistungen in Deutsch und Rechtschreiben. Alle Variablen waren für die Gesamtstichprobe T‐normiert. Im Mittel der Testskalen erzielten die Arbeiterkinder einen Wert von M = 44,9, die Akademikerkinder einen solchen von M = 54,6; im Kriterium lauteten die Mittelwerte M = 48,1 und 54,4. Bei einem Vergleich der Regressionskoeffizienten aus beiden Sub‐Stichproben wichen die Schätzungen durch die gemeinsamen und die getrennten Regressionen nicht signifikant voneinander ab ‐ womit die Testbatterie für das anstehende Vorhersageproblem gemäß der übernommenen Definition fair war.

30

Vielen Dank für Ihre Aufmerksamkeit!

… Psychologische Diagnostik

Sitzung 5: Normen

Testgütekriterien unter der Lupe

Normierung

2

Selbsteinschätzung funktioniert nicht• In verschiedensten Studien aus verschiedensten Gebieten: Einschätzung der 

eigenen Fähigkeiten nur bedingt aussagekräftig, z.B. – Einschätzung von Medizinern über ihre eigenen Kommunikationskompetenzen vs. Ratings von 

Patienten und Supervisoren

– Einschätzung der eigenen Intelligenz: nicht besser als durch eine Person, die einen das erste Mal auf einem 90‐sekündigen Video gesehen hat, auf dem man einen Wetterbericht vorliest

– Vorhersage bei Studenten, wann sie eine größere Hausarbeit abgeben: tatsächliche Abgabe ca. 3 Wochen nach „most realistic“ Schätzung und ca. eine Woche nach „worst case scenario“

– 70% von (US‐)Abiturienten schätzten ihre Führungskompetenz „überdurchschnittlich“ ein, aber nur 2% „unterdurchschnittlich“

– Zusammenhang Noten durch Lehrer und durch sich selbst: Korrelation < .4 (im Gegensatz zu .7 durch Lehrer und Peers), 68% der Schüler würden sich bessere Note geben als der Lehrer gibt

(n. Dunnally, 2004) 

Vorteile akkurater Selbsteinschätzung

• Kennt man seine eigene Stärken und Schwächen, wird Lernen effektiver eingesetzt

• Erhöht Selbstverantwortlichkeit fürs Lernen

(n. Dunnally, 2004)

(n. Rheinberg)

Moodle

• Rheinbergaufgabe

Vergleichsmöglichkeiten

• … mit einer Referenzgruppe (= soziale Bezugsnorm, normorientiert)

• … mit Kriterien (= sachliche Bezugsnorm, kriteriumsorientiert)

• … mit früheren Ergebnissen (= intraindividuelle Bezugsnorm, individueller/ ipsativer Vergleich)

7

Vergleichsmöglichkeiten

Prozentränge

= relative Position auf der Rangreihe der Bezugsgruppe (Beispiel: PR = 60 bedeutet, dass 60 Prozent der Bezugsgruppe den gleichen oder geringeren Wert haben)

• Vorteil: keine NV notwendigNachteil: nicht intervallskaliert!

• Frage: wie würden Sie ein Testergebnis PR = 25 beschreiben?(weit unterdurchschnittlich, unterdurchschnittlich, durchschnittlich, überdurchschnittlich, weit überdurchschnittlich)

9

Prozentränge

• Berechnung:PR = cumf/N * 100

Cumf = Kumulierte Häufigkeit

Anzahl "richtig" 5 6 7 8 9 10 11 12 13 14

f 1 0 6 10 19 24 14 6 4 1

cumf 1 1 7 17 36 60 74 80 84 85

PR 1,2 1,2 8,2 20,0 42,4 70,6 87,1 94,1 98,8 100,0

Peter: 5 richtige Antworten, Paul 7 richtige  PR 1,2 vs. 8,2

Max: 9 richtige Antworten, Moritz 11 richtige  PR 42,4 vs. 87,1

10

Prozentränge

Hohe Testwertdichte führt im PR zur Überbetonung von Unterschieden Nichtlineare Transformation der Rohwerte

11

Abweichungsnormen

• Position des Testwertes als Differenz (Abstand) zum arithmetischen Mittelwert der Bezugsgruppe

• Zur Vergleichbarkeit: Relativierung an der Standardabweichung

12

Abweichungsnormen

= (x – M(x))/SD(x)

= M + SD * z‐Wert

13Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?(Achtung: korrekterweise erst KI berechnen!)

Abweichungsnormen

durch‐schnittlich

unter~ über~

weit ~ weit ~ 14

Frage: wie würden Sie ein Testergebnis IQ‐Wert = 90 beschreiben?

Prozentränge

15ACHTUNG: gilt nur bei NV!!!

Zensuren

Zensur 1 2 3 4 5 6

Prozentanteil 9 16 25 25 16 9

Prozentanteil 2 14 34 34 14 2

Angemessenheit der Anwendung von NV auf Noten???

Normierung

• An repräsentativer Eichstichprobe (ausreichend groß)

• Möglichst für verschiedene Altersgruppen, getrennt nach Geschlecht, Schultyp, ... (in Abhängigkeit vom Test und der Fragestellung)– Z.B. Sprachkenntnisse bei Kindern mit Migrationshintergrund: 

Unterschiede bei Wahl der Normstichprobe

• in regelmäßigen Abständen (Aktualität)– Z.B. Schneider & Stefanek (2007): Rechtschreibeleistung, die 

heute durchschnittlich ist (statistisch „normal“), wäre vor 30 Jahren unterdurchschnittlich gewesen!

17

Kriteriumsorientierte Normen

• Inhaltliches Kriterium (z.B. Lernziel)– Wichtig: Definition der Aufgabengrundgesamtheit

– Repräsentative Aufgabenstichprobe

18

Normen am Beispiel

• Maximilian, 4. Klasse, Leistung im letzten Mathetest– Soziale Bezugsnorm: im Vergleich zu seinen Mitschülern (oder besser einer repräsentativen Stichprobe von Viertklässlern) durchschnittliche Leistung mit z‐Wert von 0

– Kriteriumsorientierte Bezugsnorm: beherrscht alle Grundrechenarten; deutlich mehr als die Mindestaufgabenanzahl gelöst

– Individuelle Bezugsnorm: Verschlechterung gegenüber letztem Test

Probleme der Bezugssysteme im Schulalltag

• Soziale Bezugsnorm– „Normgruppe“: häufig klasseninternes Bezugssystem (s. Probleme Objektivität)

– Gemeinsamer Lernzuwachs aller Schüler der „Normgruppe“ bleibt unsichtbarz.B. Rheinberg (1980): >50% der Schüler mit Lehrern, die nur die soziale Bezugsnorm einsetzten, gaben am Ende des Schuljahres an, dass sie nur gleichviel oder weniger als am Anfang des Jahres könnten

– Individuelle Schwankungen bleiben meist unsichtbar, dies kann zu einer Demotivation rel. leistungsschwacher Schüler führen

– Lehrplanziel wird ausgeblendet– Fördert Konkurrenz zwischen Schülern

Probleme der Bezugssysteme im Schulalltag

• Individuelle Bezugsnorm– Ausblendung länger überdauernder Leistungsunterschiede (mgl. Demotivation leistungsstarker Schüler?) 

– Soziale Vergleiche als Quelle der Selbsteinschätzung entfallenz.B. Rheinberg (1998): Schüler wünschten sich im Laufe eines Unterrichtsexperiments mit ausschließlich individueller Rückmeldung wieder Informationen zur sozialen Bezugsnorm

– Unlogische Konsequenzen, z.B. bei Schullaufbahnempfehlung

– Lehrplanziel wird ausgeblendet

Probleme der Bezugssysteme im Schulalltag

• Kriteriumsbezogene Bezugsnorm

– Aufwand in der exakten Definition des Kriteriums – detailliert für alle Zensuren (!)

– Standardisierung des Curriculums

– S. auch Nachteile der anderen Normen

Fehler in der Beurteilung

• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums

– Strengefehler: Neigung, negative Bewertungen zu geben, d.h. auch schon kleinere Mängel zu betonen

– Mildefehler: Neigung, positive Bewertungen zu geben, d.h. auch größere Mängel zu vernachlässigen

– Tendenz zur Mitte: Häufung von mittleren Urteilen (3)– Tendenz zu Extremurteilen: Häufung von sehr guten (Begeisterung) und sehr schlechten (Enttäuschung) Urteilen, keine durchschnittlichen Bewertungen

Fehler in der Beurteilung

• Keine gleichmäßige Ausschöpfung des Beurteilungsspektrums – Was tun?– Eigene Beobachtung! Häufigkeit der Notenvergabe über einen längeren Zeitraum, über viele Schüler und Klassen

– Vergleich mit Kollegen– Vergleich mit objektiven Schultests– Informationen über alterstypische Leistungen berücksichtigen (bei Unterricht in verschiedenen Altersstufen)

– Immer sowohl nach Stärken als auch nach Schwächen suchen

Fehler in der Beurteilung

• Reihungsfehler: Abhängigkeit der Beurteilung von der Benotung davor, z.B. durchschnittliche Leistung nach einer sehr guten Prüfung eher als schlecht bewertet

• Logische Fehler: von einem Leistungsmerkmal wird (fälschlicherweise) auf ein anderes geschlossen, z.B. wer gut in Mathe ist, ist auch gut in Physik

• Halo‐Effekte: globaler Gesamteindruck überstrahlt spezifische Merkmale, z.B. Ruf des Primus oder des Sitzenbleibers

Standardmessfehler SD(ε)• Ist derjenige Anteil an der Streuung (Standardabweichung) eines Tests, der zu Lasten seiner (mangelnden) Reliabilität geht

• Wurzel aus Var(ε) (da diese auch unbekannt ist, erfolgt die Berechnung über SD(x) und die Reliabilität)

Standardmessfehler SD(ε)

27

TrueScore

+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)

68%

95%

>99%

Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte  (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)

Exkurs: Konfidenzintervall

• Kennzeichnet den Bereich, in dem mit 95% (…%) Wahrscheinlichkeit der wahre Wert liegt 

SD(ε)

68%‐Konfidenzintervall

29

TrueScore

+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)

Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte  (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)

Messung 1

Messung 8Messung 235

95%‐Konfidenzintervall

30

TrueScore

+1 SD(ε) +2 SD(ε) +3 SD(ε)‐1 SD(ε)‐2 SD(ε)‐3 SD(ε)

Theoretische Wahrscheinlichkeitsverteilung der beobachteten Werte  (bei Darbietung vieler paralleler Testformen an einen Diagnostikanten)

Messung 1

Messung 8Messung 235

Konfidenzintervall – Beispiel(Exkurs)

• Eine Testperson hat in einem Intelligenztest einen Wert von X = 110. Die Reliabilität des Tests beträgt Rel = .84. Die Streuung ist SD(x) = 15.

SD(ε) = SD(x) *  (1 – Rel)= 15 *  .16= 6

95%‐CIu = 110 – 1.96 * 6 = 9895%‐CIo = 110 + 1.96 * 6 = 122

Konfidenzintervall

• Laut Ingenkamp und Lissmann beträgt der Standardmessfehler für Zensuren +/‐ eine Zensurenstufe!

• Sie können gerne die entsprechenden Konfidenzintervalle für einen „durchschnittlichen“ Schüler berechnen…

Exkurs: Kritische Differenz

a) Wie weit müssen zwei Testwerte auseinander liegen, damit die Differenz (auf einem gewählten Signifikanzniveau) als erheblich gilt?

→ Kri sche Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:

Dkrit = z * SD(x) *  2   (1− Rel) 

(z. B. Testwerte zweier Schüler)

Exkurs: Kritische Differenzb) Wie groß müssen die Leistungsunterschiede eines 

Probanden in zwei Tests (mit den Reliabilitäten Rel1 und Rel2) sein, um als abgesichert gelten zu können?

→ Kritische Differenz, die empirisch übertroffen werden muss, um als bedeutsam zu gelten:

Dkrit = z * SD(x) *  (z. B. Vergleich von Werten verschiedener Skalen unterschiedlicher Reliabilität)

Kritische Differenz – Beispiel(Exkurs)

• Ein Schüler hat im mathematischen Subtest einen Wert von X1 = 110, im verbalen Subtest einen Wert von X2 = 92. Die Reliabilität der Subtests beträgt Rel1 = .91 und Rel1 = .84. Die Streuung ist SD = 15.

Dkrit = z * SD(x) *  2 − (Rel1 + Rel2)

= 1.96 * 15 *  2 – (.91 + .84)= 14.7

Psychologische Diagnostik

Prüfungen konzipieren und beurteilen –Aufgaben‐ und Prüfungsanalyse

Gute Prüfungen

• Gütekriterien– Siehe bisherige Sitzungen, z.B. Prinzip der proportionalen Abbildung, repräsentative Aufgabenauswahl, objektive Durchführung und Auswertung

• Lehrerfreundlich– Praktikabilität: Durchführung und Auswertung möglich mit den vorhandenen Ressourcen (inkl. Zeit)

• Schülerfreundlich– Motivieren und verdeutlichen Lernfortschritte

Kreismodell

Auswertung der Prüfung

Analyse der Prüfung

Erstellung der Prüfung

In wie vielen von 100 Fällen tritt ein Ereignis ein, wenn es … ist? a) Seltenb) Häufigc) Wahrscheinlich

Allgemeine Empfehlungen zur Formulierung

• Klar definiertes Problem, möglichst signifikant und in der Bedeutungswelt aller(!) Schüler verankert

• Einfacher, präziser und eindeutiger Wortlaut

• Negationen möglichst vermeiden; wenn man sie einsetzt, dann besonders hervorheben (z.B. „Welche der folgende Tiere ist KEIN Säugetier?“); Doppelte Verneinungen auf jeden Fall vermeiden

• Irrelevante Informationen möglichst vermeiden

• Korrektes Raten vermeiden  keine systematischen Antwortmuster (s. Testcleverness)

• Mit leichten Aufgaben beginnen, sehr komplexe Aufgaben aber auch nichtans Ende (Ermüdung)

Aufgabentypen n. Antwortformat

• Freies Antwortformat– Itemantwort wird von Schüler selbst formuliert (Text, Zahlen, Grafiken …)– Formen: Ergänzungsaufgaben und Essay– Typisch bei (aber nicht beschränkt auf) Erfassung von spontanen Reaktionen (was fällt dem 

Schüler zuerst ein) und kreativen Leistungen– Geringere Wahrscheinlichkeit, dass richtige Antwort erraten wird– Aktives Wissen– Essay etc. kann Testangst erhöhen!

Vs.

• Gebundenes Antwortformat– Antwortalternativen werden vorgegeben, Schüler muss Auswahl treffen– Formen: Wahr‐Falsch, Multiple Choice, Ordnungsaufgaben– Kann Auswertungsobjektivität erhöhen– Erhöht Auswertungsökonomie– Kann Validität erhöhen, da in der gleichen Zeit mehr Stoff geprüft werden kann– Eher passives Wissen 

Multiple Choice

• Der Nutzen eines Tests steht in engem Zusammenhang zura) Sozialen Bezugsnormb) Validität

c) Skalenniveau

d) Mikrokarotät

e) Wickelkommode

Multiple‐Choice‐Fragen• Häufige Empfehlung: 4‐5 unabhängige Antwortalternativen

– 1 richtige Antwort– 3‐4 Distraktoren

• Ratewahrscheinlichkeit kann drastisch verringert werden, wenn mehrere Kategorien richtig sind oder eine beliebige Anzahl von Kategorien ausgewählt werden kann

• Aber: – Erhöht die Schwierigkeit– Stellt sehr hohe Anforderungen an die Formulierung der 

Distraktoren– Wird häufig als unfair erlebt

Erfurt ist die Landeshauptstadt vona) Bayern   b) Mecklenburg‐Vorpommern   c) Sachsen   d) Thüringen

Schwieriger zu lesen als

Erfurt ist die Landeshauptstadt vona) Bayernb) Mecklenburg‐Vorpommernc) Sachsend) Thüringen

Multiple‐Choice‐Fragen• Testclevere Schüler sollten nicht bevorteilt werden

• Antwortalternativen vertikal statt horizontal anordnen

• Unterschiedliche Empfehlungen bzgl.  Reihenfolge– Richtige Antwort sollte an jeder Stelle auftauchen– Antworten alphabetisch sortieren

• Antwortalternativen können z.B. aus vorangegangenen Tests im offenen Frageformat gewonnen werden (gewisse Plausibilität)

Testcleverness

• Typische Eigenschaften falscher Antworten– Stehen an erster oder letzter Stelle– Sind logische Extreme (z.B. „immer“, „nie“)– Enthalten unerwartete Sprache oder Termini– Enthalten komplett unglaubwürdige Aussagen

• Typische Eigenschaften richtiger Antworten– Sind länger– Nutzen bekannte Phrasen– Passen grammatikalisch zur Frage– Sind 1 von 2 ähnlichen Antworten– Sind 1 von 2 entgegengesetzten Antworten

Empfehlungen

• Antwortoptionen möglichst kurz und von gleicher Länge

• Keine grammatikalischen Fehler (z.B. Frage verlangt Mehrzahl, aber Distraktor ist Einzahl)

• Keine unplausiblen Antworten; typische Fehler (auch aus bisherigen Prüfungen) sind gute Distraktoren

• Es sollte eine klare richtige Antwort geben• Positionen der richtigen Antwort variieren• Ähnliche falsche Antworten vermeiden• Fragen sollten keine Infos für spätere Fragen enthalten• Kein 1:1 von Büchern/Präsentationen

Zuordnungsverfahren

• Korrespondenz herstellen zwischen zwei Listen

Z.B. „Ordne jede der folgenden Personen ihren Erfindungen zu.“

1) ___ James Watt  a) Blitzableiter2) ___ Philipp Reis b) Computer3) ___ Konrad Zuse c) Dampfmaschine4) ___ O.H.v. Mayenburg d) Glühbirne 5) ___ Benjamin Franklin e) Telefon

f) Zahnpasta

Halboffene Fragen

• Sätze mit mehren Lücken vermeiden

• Länge der Lücken sollte keinen Hinweis auf Antwort enthalten  Lücken gleich groß und groß genug für die längste Antwort

• Festlegen, wie Punkte vergeben werden (auch unerwartete Antworten)

Offene Fragen

• Häufig zeitaufwändig zu beantworten  nur geringe Anzahl möglich (Reliabilität!) 

• am Schwersten zum Auswerten

Offene FragenLernziel nach Bloom Bedeutung Prüfungsformulierung 

(Beispiele)

Wissen Erinnern von Fakten, Definitionen, Konzepten…

Definiere, Benenne, Identifiziere, Wer?, Wann?, Wo?, Was?

Verstehen Erklären/Interpretieren der Bedeutung

Erkläre, Umschreibe, Fasse zusammen, Gib Beispiele

Anwenden Anwenden eines Konzepts,um ein Problem zu lösen

Nutze, Löse, Demonstriere, Zeige

Analyse Zerlegen des Materials inseine Komponenten, um Beziehungen zu erkennen

Unterscheide, Vergleiche, Setze … in Beziehung mit …

Synthese Produzieren von etwas Neuem

Konstruiere, Entwickle, Kreiere, Verändere

Bewertung Beurteilen aufgrund bestimmter Kriterien

Bewerte, Evaluiere, Verteidige, Kritisiere

Kreismodell

Auswertung der Prüfung

Analyse der Prüfung

Erstellung der Prüfung

Auswertung der Prüfung

Subjektiv‐holistisch Objektiv‐

rational

Schlüsselkomponenten, ‐elemente und Regeln zur Bewertungnicht klar spezifiziert

Alle Aspekte eindeutig definiertund standardisiert

Exkurs: Bewertungsschemata

Aus: Stiggins, R.: Classroom Assessment for Student Learning: Doing It Right, Using It Well

Offene Fragen

• Hinweise für die Auswertung– Namen des Schülers bedecken– Eine Frage über alle Schüler korrigieren anstatt jede Arbeit einzeln; dabei bisherige Punkte bedecken

– Mischen der Arbeiten nach jeder Fragenkorrektur– Im Lösungsschema auch vermerken, wie mit zusätzlicher Information, irrelevanten Fehlern und Grammatik‐/Rechtschreibfehlern umgegangen werden soll 

– Da Korrektur durch 2. Lehrer leider häufig unpraktikabel ist, empfiehlt sich eine Stichprobe an Tests zweimal zu korrigieren

Exkurs: Portfolio

Exkurs: Portfolio

• Schlüsselelemente (n. Salvia & Ysseldyke)– Ergebnisse auf höheren Stufen des Wissens

– Spiegelt Arbeitsprozesse in der Realität (Integration, Aufwand…)

– Fördert Kooperation– Multiple Beurteilungsdimensionen (z.B. Arbeitsprozesse)

– Fördert Reflektion und Meta‐Wissen

– Integration von Bewertung und Instruktion 

• Bessere Gütekriterien, wenn– Themen nicht zu breit und keine Freiwahlaufgaben, d.h. für alle 

Schüler gleich (Beispiel: Interraterreliabilität fiel von ≈.6 auf ≈.4, wenn Schüler selbst Inhalt und Genre wählen können, Breland)

– Bewertungsschemata äußerst detailliert und rigide in der Handhabung

– Anzahl der Aufgaben abhängig vom Inhalt, aber gewisse Grundanzahl notwendig (Beispiel Shavelson et al., 1991: zwischen 8 und 20 Probleme Mathematik und Naturwissenschaften, 6 bei Schreiben …), um generalisieren zu können

Standardisierung!

Exkurs: Portfolio

Kreismodell

Auswertung der Prüfung

Analyse der Prüfung

Erstellung der Prüfung

Wieso Prüfungsanalyse?

• Prüfungsbenotung anpassen (z.B. einzelne Aufgaben aus der Bewertung herausnehmen) 

• Entwickelt Gespür für zukünftige Prüfungen

• Zusammenstellung eines Repertoires guter Aufgaben

• Zeigt Ansatzpunkte für Unterrichtsmaßnahmen

Wieso Prüfungsanalyse

• Viele Punkte/Gute Noten– Lehrer: guter Unterrichtsstil, gute Prüfungsfragen– Schüler: klug, gut vorbereitet Zu leicht?, Fehler im Bewerten?, Betrug?, unbeabsichtigte Hinweise in den Fragen?

• Wenig Punkte/schlechte Noten– Lehrer: schlechter Schüler– Schüler: schlechter Lehrer, blöder Test Zu schwer?, inhaltsvalide?, Fehler im Bewerten?, zu wenig Zeit?

Was analysieren?

• Schwierigkeit

• Trennschärfe

• Fehleranalyse, z.B.– Flüchtigkeits‐ und Leichtsinnsfehler– Missverständnisse und Verwechslungen– Lücken in lernzielrelevanten Kompetenzen– Vorkenntnisdefizite– Verständnisfehler

Datenmatrix

Aufgabe 1 Aufgabe 2 Aufgabe i … Aufgabe m Zeilensumme

Schüler 1 x11 x12 x1i … x1m Z1

Schüler 2 x21 x22 x2i            … x2m Z2

… … … … … …

Schüler n xn1 xn2 xni … xnm Zn

Spaltensumme S1 S2 Sin            … Sm

Schwierigkeitsindex P = Quotient aus der tatsächlich erreichten Punktsummealler  Schüler für ein Item (Sin) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item [n * max(xi)] multipliziert mit 100 

Je höher Schwierigkeitsindex, desto leichter ist die Aufgabe

Schwierigkeitsindex = Lösungsanteil LA

Beispiel

Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme

Schüler 1 1 1 0 2

Schüler 2 1 0 0 1

Schüler 3 1 0 0 1

Schüler 4 1 1 1 3

Spaltensumme 4 2 1

z.B. 1 = richtig, 0 = falsch

Schwierigkeitsindex P1 = Quotient aus der tatsächlich erreichten Punktsummealler  Schüler für Item 1 (4) und der maximal erreichbaren Punktsumme aller Schüler bei diesem Item (4 * 1) multipliziert mit 100

P1 = 100 P2 = 50P3 = 25

Itemschwierigkeit• Itemschwierigkeit und Reihenfolge in Prüfung (ca. 80% der Schüler halten 

sich an vorgegebene Reihenfolge!): Leichtere Aufgabe als Warm‐up an den Anfang, schwere in die Mitte

• n. Jürgens & Sacher sind Aufgaben mit sehr hoher Schwierigkeit bedenklich (P  20) 

• Aber: Vertrauensintervall berücksichtigen (aus: Jürgens & Sacher, 2008, S. 133),  bei typischen Klassenstärken sind schon P < 35 problematisch

Itemschwierigkeit

• Außerdem beachten: Lernbedeutsamkeit (wichtig: a‐priori!, ansonsten mgl. Verzerrung in Abhängigkeit der Ergebnisse)

• Je bedeutsamer eine Aufgabe, desto häufiger sollte sie gelöst sein, also desto leichter sollte sie den Schülern fallen

• n. Jürgens & Sacher– Hohe Lernbedeutsamkeit:  P  70– Mittlere Lernbedeutsamkeit: P  50– Geringe Lernbedeutsamkeit:  P  35

Trennschärfe

• Substanziell positive Korrelation zwischen Antworten im Item und im Gesamttest

• D.h. Schüler, die im Gesamttest höhere Werte erhalten, sollten auch häufiger das Item lösen

• Korrigierter Koeffizient: Item selbst geht nicht in Gesamttest ein

Aufgabe 1 Aufgabe 2 Aufgabe 3 Zeilensumme

Schüler 1 1 1 0 2

Schüler 2 1 0 0 1

Schüler 3 1 0 0 1

Schüler 4 1 1 1 3

Spaltensumme 4 2 1

Trennschärfe

• Im Rahmen einer sozialen Bezugsnorm werden Trennschärfen größer .30 angestrebt

• Negativen Trennschärfen sollte nachgegangen werden (Itemformulierung!)

• Eine Abnahme der Trennschärfe bei späteren Aufgaben spricht für Ermüdungseffekte

Zusammenhang Schwierigkeit – Trennschärfe:

Schwierigkeit

Trennschärfe

Beispiele ‐ MC

A* B C D

Itemschwierigkeit 99 0 1 0

Trennschärfe .06 ‐ ‐.06 ‐

* Richtige Antwortalternative

Item überprüfen: zu leicht? Enthalten Antwortalternativen Hinweise?

Beispiele ‐ MC

A* B C D

Itemschwierigkeit 35 10 2 50

Trennschärfe ‐.20 .13 .02 .30

* Richtige Antwortalternative

Item überprüfen: Falsch codiertes Item?, C geeignet als Distraktor?

Beispiele ‐ MC

A* B C D

Itemschwierigkeit 35 20 15 30

Trennschärfe .45 ‐.13 ‐.02 ‐.30

* Richtige Antwortalternative

Relativ schweres Item, diskriminiert gut

Vielen Dank für Ihre Aufmerksamkeit!

Urteilsbildung und Klassifikation

am Beispiel von

Kindeswohlgefährdung

Kindeswohl

Kindeswohlgefährdung

• Misshandlung– Körperliche M. (direkte Gewalt wie z.B. Schlagen, Stoßen,

Schütteln, Würgen, Verbrennen, eigenen Kot/Urin essen lassen, Vergiftungen)

– Seelische/geistige M. (z.B. häusliche Gewalt, Isolation, feindselige Ablehnung wie ständiges Nörgeln, Beschimpfen oder Demütigen, Terrorisieren, Liebesentzug, Drohungen)

• Sexueller Missbrauch

• Vernachlässigung (z.B. körperlich, medizinisch, mangelnde Aufsicht, emotional, kognitiv)

Folgen von Kindeswohlgefährdung

• In Abhängigkeit von der Dauer, Schwere,

Zeitpunkt der Gefährdung

• Folgen vielfältig, z.B.

– Entwicklungsverzögerungen

– Bindungsstörungen

– Psych. Störungen

Risiko- und Schutzfaktoren

n. Deegener et al., 2009

Förderung von Resilienz

• Bedingungslose Wertschätzung

• Aufmerksamkeit

• Verantwortung übertragen, keine vorschnellen Hilfen

• Selbsteinschätzung steigern: Gefühle benennen, konstruktives Feedback, Stärken und Schwächen aufzeigen

• Anregungsreiche Umgebung, aber Routine im Lebensalltag

• Interessen fördern

Hinweise

Handlungsanweisung für Lehrer, Ber

Hinweise

Handlungsanweisung für Lehrer, Ber

Klassifikation

Test

Kriterium

Klassifikation

Test

Kriterium

Cut-off-Wert

Klassifikation

Test

Kriterium

Cut-off-Wert

TP

TN FP

FN

Fehler

Testergebnis

Keine Gefährdung (Negativ) Gefährdung (Positiv)

Misshandlung Positives

Familienklima

Misshandlung Positives

Familienklima

Wahre Negative

TN

Wahre Positive

TP

Falsche Negative

FN

Falsche Positive

FP

Test zeigt an

+ -

Kriterium + TPRisiko: 1 - β

FNRisiko: β

- FPRisiko: α

TNRisiko: 1 - α

Sensitivität = TP / (TP + FN)

Spezifität = TN / (TN + FP)

Positiver Vorhersagewert = TP / (TP + FP)

Negativer Vorhersagewert = TN / (TN + FN)

Test

Krit.

Cut-off

TP

TN FP

FN

Höhere Prävalenz

Effizienz = 1

Test

Krit.

Cut-off

TN FP

FN TP

“If you hear hoofbeats, think of horses, not zebras”

Test

Krit.

Cut-off

TP

TN FP

FN

Strengerer Test

Test

Krit.

Cut-off

TP

TN FP

FN

Test

Krit.

Cut-off

TP

TN FP

FN

Verbesserung der Validität

Test

Krit.

Cut-off

TN FP

FN TP

Klinische vs. Statistische Urteilsbildung

• Es ist zu unterscheiden zwischen Datengewinnung und Synthese der Daten.

• Datengewinnung:– Klinisch: Beurteilung durch Diagnostiker notwendig, informell

subjektiver Weg (z.B. Exploration, Beobachtung)

– Mechanisch: Standardisierung von Aufzeichnung, Auswertung und Interpretation

• Datensynthese:– Klinisch: erfahrungs- und intuitionsgesteuert, keine expliziten

und validierten Regeln; dies ist nicht auf den klinischen Bereich begrenzt!

– Statistisch: Gewichtung der diagnostischen Informationen nach expliziten Regeln (z.B. Regressionsgleichung)

Statistische Urteilsbildung

• Aufbauend auf empirisch abgesicherten Beziehungen

zwischen Prädiktoren und Kriterium werden

mathematisch optimale Vorhersagen getroffen

mathematisch optimale Kombination und Gewichtung

der Prädiktoren

• Beispiel Regressionsgleichung: mathematisch optimal

da Methode der kleinsten Quadrate

Befunde

• Aktuelle Meta-Analyse von Grove et al. (2000): Einschluss von 136 Studien aus verschiedensten Bereichen (z.B. Diagnosen, Behandlungsergebnisse, Berufs-/Trainingserfolg, Gewalt, Anpassung an institutionelle Lebensbedingungen wie Gefängnis …)

• Ergebnis: Stat > Klin in 47% der StudienStat = Klin in 47% der StudienStat < Klin in 6% der Studien

• Moderatoren:– größere Unterschiede bei Interviewdaten (S>K), kleinere Unterschiede

bei medizinischen Daten

– kein Einfluss von Training und Erfahrung

– kein Einfluss, ob Beurteiler gleich viele oder mehr Daten zur Verfügung hatte

Einige typische Reaktionen von

Diagnostikern (Grove & Meehl, 1996)

• „Es gibt keine Formel bzw. die Formel gilt nicht für unsere Population“

• „Die Ergebnisse der Studien sind nicht auf meine eigenen Fähigkeiten als Diagnostiker anwendbar“

• „Statistische Urteilsbildung ist viel zu teuer“

• „Wir wollen Vorhersagen für einzigartige Individuen treffen“

• „Die meisten Daten, die wir nutzen, sind nicht quantifizierbar“

• „Wenn die Diagnostiker Feedback über ihre Ergebnisse erhalten hätten, würden sie zukünftig die Formel schlagen“

Grove und Meehl zeigen für diese (und andere) Reaktionen die Unangemessenheit der dahinter liegenden Annahmen

• Statistische Datensynthese ist in den

meisten Fällen mindestens so gut wie

klinische Datensynthese

• Dies bezieht sich allerdings nur auf den

Bereich der Datensynthese! Meist wird

eine multimethodale Datensammlung

empfohlen.

Auszug: Bogen zur

Dringlichkeitseinschätzung

Handlungsanweisung für Lehrer, Berlin

Ha

nd

lun

gsa

nw

eis

un

g fü

r L

eh

rer, B

erlin

Multimethodale Diagnostik

Verhaltensbeobachtung

Entscheidungen

• Angewandte Diagnostik führt zu Entscheidungen (Cronbach & Gleser, 1965)– Sollte Paul eine besondere Förderung erhalten?– Ist Julius geeignet für den Übergang ins Gymnasium?– Welche Unterrichtsform ist am Besten für Kevin?– War die Ursache für den schlechten Vortrag von Peter soziale Ängstlichkeit, mangelndes Verständnis für den Stoff oder verbale Schwierigkeiten? 

Datensammlung aufbauend auf Fragestellung und Hypothesen

In der Regel multimethodal

Informationsgewinnung

• Häufig: Unterschiede zwischen den Informationen des Kindes, der Eltern und der Lehrer 

• Kashani et al. (1985):– Eltern berichten eher über externales Verhalten– Kinder über ängstliche oder depressive Gefühle/Symptome incl. 

suizidale Gedanken

• Unterschiede größer bei älteren Kindern/Jugendlichen• Befunde, dass diese Unterschiede auch familiäre Probleme vorhersagen können

Informationsgewinnung

Ursachen der Abweichung von Informationen:

• Unterschiedliche Informationsbasis

• Situationsspezifisch unterschiedliches Verhalten des Kindes• Unterschiedliche Urteilsanker• Simulations‐ oder Dissimulationstendenzen

• Messfehler der Messinstrumente

Exkurs: Beispiel ADHS

In Abhängigkeit vom mentalen Alter

Exkurs: ADHS• Diagnostik beinhaltet neben den Einsatz sogenannter 

Ratingskalen auch Interviews mit Eltern, Lehrer, Kinder und optimalerweise Verhaltensbeobachtungen (auch im Unterricht)

Beispiel: Ausschnitt aus der Vanderbilt ADHD Diagnostic Teacher Rating Scale

Beobachtung

= Verhalten, Ereignisse, Vorgänge werden sorgfältig wahrgenommen und registriert (im Vergleich zu anderen Verfahren direkterer Zugang ermöglicht)

• Ist zielgerichtet• Ist methodisch kontrolliert

„zuschauen“ ist nicht „beobachten“

Beispiel

• Überprüfung der Aufmerksamkeitsverteilung im Unterricht (vgl. Altrichter&Posch 1998, S. 120)

• Registrierung der Schüler, die Lehrer aufruft

• Anhand  eines  Sitzplanes wird hinter dem Namen vermerkt, wie häufig Schüler aufgerufen wird (Strichliste, mit („+“) und ohne („‐“) vorherige Meldung)

• Markierungen bilden nach und nach Aktionsraum ab

• Ergebnis: dem Lehrer wurde bewusst, dass manche Schüler wenig Beachtung fanden

Inhalte der Beobachtung 

• Merkmale, die die Beobachtbarkeit des Verhaltens determinieren

– Fremd‐ vs. Selbstbeobachtung– Häufigkeit

– Vermeidbarkeit

– Öffentlichkeit

– Notwendige Interaktionspartner– Soziale Erwünschtheit

9

Beobachtung

Klassifikation frei (unsystematisch) vs. systematisch• Unsystematische Beobachtung

– Alltagsgleich, aber mit bestimmtem Ziel, z.B. Hypothesenbildung

– Beobachtungsgegenstand nicht eindeutig festgelegt– Selektion der Eindrücke– Kodierung der Eindrücke deskriptiv / qualitativ

• Systematische Beobachtung– Verlauf (Ort, Zeit etc.) und Bereich (Verhaltensweisen) definiert– Registrierung festgelegt– Auswertungsprozedur entwickelt– Gütekriterien bedeutsam

Beobachtung

Klassifikation naturalistisch vs. kontrolliert• Naturalistische Beobachtung

– Feldbeobachtung– Realistisches, ökologisch valides Bild– Keine Beeinflussung der Umwelt– Beispiel: Hausbesuch, um sich einen Eindruck von der familialen 

Interaktion zu machen

• Kontrollierte Beobachtung– Laborbeobachtung– Situativer Rahmen vorgegeben– Ermöglicht Vergleich zwischen Personen– Beispiel: Personen vor laufender Kamera eine Rede halten lasse um 

potentielle Angstreaktionen in selbstwertbedrohlich Situationen zu untersuchen

Beobachtung

Klassifikation nach Grad der Teilnahme• Aktiv‐teilnehmende Beobachtung

– Beobachter mischen sich ins Geschehen ein – Problem: Gütekriterien

• Passiv‐teilnehmende Beobachtung– Beobachter ist anwesend, greift aber nicht ein

• Nicht‐teilnehmende, verdeckte Beobachtung– Beobachtung ohne Wissen der beobachteten Person– Ethisch‐rechtlich problematisch (im Labor nachträgliche 

Einwilligung)

Welche Verhaltensattribute sind essentiell für eine Kategorie? Wie ist das Abstraktionsniveau?

Beispiele aus dem verbalen Zeugnisteil– „Du zeigst ein reges Interesse am Unterricht“– „Beim  Vortrag eines Textes wirst du zunehmend selbstsicherer“

Woran erkennen?Hutt & Hutt (1974)

„Es liegt auf der Hand, dass wir nicht messen können, was wir nicht definieren können“

Problem: Definition einer Verhaltenseinheit

Beispiel: „Konzentriert sein“

Beispiel Aggressivität

• Die Lehrkraft sitzt bei Anna und Peter am Pult und erklärt ihnen die Matheaufgaben. Anna schreit laut Richtung Lehrkraft: „Das will ich nicht machen, machen Sie es doch selbst!“ Währenddessen steht Erika von ihrem Platz auf und geht zum Papierkorb, um ihre Buntstifte anzuspitzen. Im Vorbeigehen schlägt sie Daniel auf den Kopf. Dieser zuckt zusammen, sagt aber nichts und hebt den Blick nicht vom Buch. Carlo lacht höhnisch und sagt anerkennend zu Erika: „He, schön gemacht!“

Beispiel Aggressivität

• Humpert et al. (1983): – 32% der befragten Lehrer definieren fast ausschließlich massive Auseinandersetzungen zwischen Schülern als aggressiv

– 17% definieren massive Auseinandersetzungen zwischen Schülern und Angriffe auf Lehrpersonen als aggressiv

– 10% sehen tendenziell kein aggressives Verhalten– 9% stufen alle Verhaltensweisen als aggressiv ein

Heterogene Aggressionsbegriffe

Grundlegende Messgrößen von Verhalten

• Häufigkeit• Dauer

– Mittlere Dauer einer Einheit– Gesamtzeit des Auftretens einer Einheit während des Beobachtungszeitraums

Beispiel: Paula verlässt ihren Sitzplatz während des Unterrichts 4 Mal (Häufigkeit) für je 2, 4, 7 und 3 Minuten (mittlere Dauer: 4 Minuten, Gesamtzeit: 16 Minuten, relative Gesamtzeit: 16/45 = .36)

• Intensität des VerhaltensBeispiel: Weinen auf einer Skala von „Wimmern“ (geringe Intensität) bis „Schreien“ (hohe Intensität)

Protokollierung von Beobachtungsergebnissen

Deskription

isomorphe              reduktive 

das zu Beobachtende         Beschränkung auf möglichst vollständig und     interessantes Ver‐unverändert wiedergeben haltensklassen

Zeichensysteme    Kategorie‐ Schätzskalen

(Indexsysteme)     systeme

Beispiel „Sitzkreis“Situation Verhalten Ursache Konsequenz

9.00 Uhr Schlägt plötzlich seinen linken Sitznachbarn mit der offenen Hand

Keine beobachtet Ignoriert Peerund Lehrer

9.03 Uhr Schreit „Nein“ zum Lehrer und bleibt sitzen

Lehrer gibt spezifische Anweisung, zum Sitzplatz zurückzugehen

Lehrer ignoriert,Peers lachen

9.05 Uhr Steht auf  und setzt sich auf seinen Sitzplatz 

Peer kommt zu ihm und flüstert ihm etwas ins Ohr

Lehrer lobt ihn

Exkurs: Beispiel Aggressivität

Kodierung

Drei Varianten:• Zeichen‐ /Indexsysteme

– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme

– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus

– Aufwändige Entwicklung• Schätzskalen

– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent, 

d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)

Beispiel „Sitzkreis“

Verhalten Häufigkeit

Auf dem Stuhl herumzappeln IIIIII

Aufstehen II

Andere Unterbrechen IIIII

Physische Aggression gg. Peer I

Physische Aggression gg. Lehrer

Verbale Aggression gg. Peer

Verbale Aggression gg. Lehrer I

Beispiel „Sitzkreis“Verhalten 30‘‘ 1 Min 1.30 2 Min …

Auf dem Stuhl herumzappeln √ √ √

Aufstehen √

Andere Unterbrechen √ √

Physische Aggression gg. Peer √

Kodierung

Drei Varianten:• Zeichen‐ /Indexsysteme

– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme

– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus

– Aufwändige Entwicklung• Schätzskalen

– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent, 

d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)

Beispiel 

Beobachtungssystem zur Analyse aggressiven

Verhaltens in schulischen Settings BASYS

Kodierung

Drei Varianten:• Zeichen‐ /Indexsysteme

– Auftreten vorher def. Verhaltensweisen festgehalten (z.B. Strichliste)• Kategoriensysteme

– Verhalten in vorgegebene Klassen gegliedert, Sachverhalt wird komplett abgedeckt, Kategorien schließen sich gegenseitig aus

– Aufwändige Entwicklung• Schätzskalen

– globale Verhaltensbeurteilung: Gütekriterien !– Hochinferent (z.B. Wie hoch ist die Prüfungsangst) vs. Niedriginferent, 

d.h. Situations‐Verhaltens‐Ratings (z.B. Beim Gedichtvortrag vor der Klasse zeigt er/sie durch Erblassen, motorische Unruhe, Blinzeln u.a. Zeichen von Aufregung)

Beispiel

Arten: a) numerische SkalaWie aggressiv ist der Schüler? 

1 2 3 4 5 6 7

b) verbale SkalaDie Aggressivität des Schülers ist

nicht vorhanden – schwach – mittel – stark

c) grafische SkalaWie aggressiv ist der Schüler? 

0  100

Auswertung

• Beobachtung und Registrierung der interessierenden Verhaltensweisen in vivo– Hohe Anforderungen, da Beobachtung und Registrierung 

simultan erforderlich– Problem: möglicherweise bleiben interessierende 

Verhaltensweisen unentdeckt, da Beobachter überlastet– Lösungsansatz: Mehrere Beobachter, die sich jeweils auf 

unterschiedliche, eng umschriebene Aspekte konzentrieren• Nachträgliche Auswertung auf Basis von 

Videoaufzeichnungen– Beobachtung und Registrierung können zeitlich separiert 

werden– Wiederholungsoptionen– Beliebig feine zeitliche Untergliederung

Gütekriterien

• Objektivität/Reliabilität: Untersuchung der Beobachterübereinstimmung

• Validität: reflektiert situationsspezifisches Verhalten  Generalisierung auf Persönlichkeitsmerkmale muss überprüft werden

Exkurs: ADHS, Umgang im Unterricht

• Schulisches Umfeld anpassen– Irrelevantes verbannen (z.B. einzeln setzen), aber Hintergrundmusik kann helfen

– Wichtiges hervorheben (inkl. Instruktionen wiederholen lassen) + Kürze der Instruktionen und der Aufgaben (besser 2 x 5 als 1 x 10 Minuten)

– Aufgabenstellungen wechseln (wenig Wiederholungen), auch mit motorischen Komponenten

– Bewegungen ermöglichen– Mittleres Schwierigkeitsniveau der Aufgaben– Intraindividueller Vergleich

Exkurs: ADHS, Umgang im Unterricht

• Arbeitstechniken beibringen (was ist der Plan, wie kann ich den Plan umsetzen, welche Zwischenschritte etc.)

• Belohnungssysteme, z.B. Token Economy

• Positives Feedback• Freiheiten lassen, aber Routine einführen

Minimalprogramm der Beobachtung

• Auswahl der Beobachtungsfrage (z.B. Wer ist besonders geschickt mit Werkzeugen?)

• Auswahl der Situation (z.B. Anfertigen Vogelhäuschen im Werkunterricht)

• Auswahl und Kategorisierung der Indikatoren (z.B. präziser Schnitt mit Säge)

• Festlegung wer wann beobachtet wird• Reflexion über Beobachtungsfehler• Vorbereitung der Eintragung der Beobachtungsergebnisse direkt im Anschluss an die Beobachtung

Ausgewählte Testverfahren

Exkurs: Ein mgl. Modell

Z.B. Heller, 2000

Persönlichkeits‐ vs. Fähigkeitstests

Im pädagogischen Bereich…

• Fähigkeiten wie Intelligenz und Konzentration beeinflussen die benötigte Lernzeit

• Emotionale und motivationale Merkmale bestimmen die aufgewendete Lernzeit

Im pädagogischen Bereich…Beispiele: • Feststellung des sonderpädagogischen Förderbedarfs

– Intelligenz als ein Anhaltspunkt– IQ < 85 Förderbedarf 

(aber: 16% vs. 3‐4% Förderschule) 

• Vorsicht in der Interpretation von niedrigen Werten!– Mangelnde Intelligenz?– Fehlende Motivation?

– Geringe Deutschkenntnisse (bei sprachgebundenen Tests)?

– Pygmalion‐Effekt? (Rosenthal: Lehrern wurden zufällig zugewiesene Ergebnisse von Intelligenztests rückgemeldet  Leistung veränderte sich entsprechend)

– …

Im pädagogischen Bereich…Beispiele: • Feststellung des sonderpädagogischen Förderbedarfs

– Intelligenz als ein Anhaltspunkt– IQ < 85 Förderbedarf 

(aber: 16% vs. 3‐4% Förderschule) 

• Diagnose Hochbegabung– IQ > 130

• Konzentrationsschwierigkeiten– Hyperaktive Form der Konzentrationsschwierigkeiten: 

motorische Unruhe, leichte Ablenkbarkeit, Nicht‐Abwarten‐Können, Nicht‐Zu‐Ende‐Führen begonnener Tätigkeiten, … 

– Hypoaktive Form der Konzentrationsschwierigkeiten: langsames Arbeiten, Tagträumereien, Trödeln, …

Exkurs: Hochbegabung

• Spirale der Enttäuschung vermeiden• Hochbegabter muss auch lernen, dass Anstrengung (Üben) notwendig ist

• Mgl. Förderung: Interne Differenzierung im Klassenverband oder externe ~ in Spezialklassen– Akzeleration: beschleunigte Darbietung des Stoffs, z.B. Überspringen von Klassen (auch fachspezifisch)

– Enrichment: Anreichern des Stoffs mit neuen Themen, Lernformen etc., z.B. Wettbewerbe, Schülerakademien

Speed‐ vs. Power‐TestsSpeed‐Tests (Geschwindigkeitstests):• einfache Aufgaben, die bei ausreichend Zeit von allen Probanden gelöst 

werden können (Schwierigkeit der Aufgaben konvergiert gegen Null)• Differenzierung durch Begrenzung der Bearbeitungszeit• Beispiel: Konzentrationstests

Power‐Tests (Niveautests):• schwierige Aufgaben, die auch bei ausreichend Zeit nicht von allen 

Probanden gelöst werden können• Differenzierung durch Aufgabenschwierigkeit• Beispiel: Intelligenztests (Vielzahl an Intelligenztests aber streng 

genommen Mischform: schwierige Aufgaben und Zeitbegrenzung)

Exkurs: Aufmerksamkeit

• Konzeptuelle Unterscheidung verschiedener Bereiche (vgl. z.B. Heubrock & Petermann, 2001)– Vigilanz u. Daueraufmerksamkeit:

Fähigkeit, gleichmäßig hohen Aktivierungsgrad über längeren Zeitraum aufrechtzuerhalten, um seltene Veränderungen bei monotonen Aufgaben zu erkennen (Vigilanz) oder auf häufige Stimuli zu reagieren (Daueraufmerksamkeit)

– Selektive Aufmerksamkeit:

Fähigkeit, schnell und zuverlässig auf relevante Reize zu reagieren ohne sich von irrelevanten Reizen ablenken zu lassen

– Geteilte Aufmerksamkeit:

Fähigkeit, Aufmerksamkeit zwischen mehreren Aufgaben aufzuteilen

KLT‐R• Ab der 4./5. Klasse zur Erfassung der „allgemeinen psychischen 

Leistungsfähigkeit“ – Aufmerksamkeit, aber auch andere Komponenten des Arbeitsverhaltens wie Ausdauer, Anstrengungsbereitschaft, Sorgfalt…

• Im Sinne der Aufmerksamkeitskomponenten: Messung von Daueraufmerksamkeit

• Einfache Rechenaufgaben mit mehreren Schwierigkeitslevel‐ 4‐6: für 4., 5., 6. Schulklasse‐ 6‐13: für 6.‐13. Schulklasse

• Umfang:– zwei Parallelformen mit je 180 Aufgaben und 18 Minuten Bearbeitungszeit

KLT‐R ‐ Aufbau

8 + 9 – 24 – 4 + 3

3 + 6 – 89 + 1 + 7

Verrechnung mittels zweier Regeln:‐ wenn Ergebnis der oberen Zeile größer als Ergebnis der unteren 

Zeile, dann muss die unteren Zahl von der oberen subtrahiert werden

‐ wenn Ergebnis der oberen Zeile kleiner als Ergebnis der unteren Zeile, dann müssen beide Zahlen addiert werden

‐ Es dürfen keine Zwischenergebnisse notiert werden‐ Diese Regeln gelten für die Alterstufen ab 6. Schulklasse; für die 

Klassenstufen 4‐6 soll stets die kleinere von der größeren Zahl abgezogen werden

Gütekriterien

• Objektivität grundsätzlich gegeben; dem Testleiter werden aber Spielräume hinsichtlich Motivierung oder Umgang mit Probanden eingeräumt

• Reliabilität gegeben

• Validität:– geringere Korrelationen zum d2 (.20‐.37) als zu Rechentests (bis .57); 

Fehler korrelieren mit .21 zur Mathenote (bei Gymnasiasten), ansonsten kaum bedeutsame Zusammenhänge zu Schulleistungen

• Normierung:– Revidierte Fassung: an 860 bayrischen Schülern (4.‐6. Klasse) und 2600 

bayrischen Schülern (6.‐13. Klasse); getrennte Normen für Schulklassen und Schultypen; „Erwachsene“ = 350 Schüler älter als 18

Fazit

• Überprüfung von Daueraufmerksamkeit mittels Papier‐Bleistift‐Test

• Dem Test wird eine hohe inhaltliche Validität zugesprochen (Nell, 2003), aber Konfundierung mit Rechenfähigkeiten (und Merkfähigkeit) gegeben

• Für die revidierte Fassung sind die bisherigen Daten zur Validierung und Normierung als unzureichend zu bewerten

Aufmerksamkeits‐Belastungs‐Test d2‐R

• Der in Deutschland am häufigsten eingesetzte LeistungstestBeispiel: Befragung in Kinder‐ und Jugendpsychiatrie: 89% Anwendungshäufigkeit (Bölte et al., 2000)

• Erfasst „leistungsbezogene, kontinuierliche und fokussierende Reizselektion“

• Misst kurzfristige, selektive Aufmerksamkeit

d2‐R

• Durchstreichtest

• 14 Zeilen mit d & p, die mit 1 bis 4 Strichen versehen sind; Proband soll alle d mit zwei Strichen durchstreichen

• Für jede Zeile 20 Sekunden Zeit; Testdauer ohne Instruktion somit 4 Minuten 40 Sekunden

• Als Einzel‐ oder Gruppentest durchführbar

Achtung: ursprüngliche Version

Gütekriterien

• Objektivität grundsätzlich gegeben; dem Testleiter werden aber Spielräume hinsichtlich Motivierung oder Umgang mit Probanden eingeräumt; lange Testinstruktion

• Reliabilität: gegeben

• Validität:– Mittlere Korrelationen mit anderen Konzentrationstests, geringere mit 

Intelligenztests

• Normierung:– > 3000 Teilnehmer zwischen 9 und 60 Jahren; Altersnormen liegen vor

Intelligenztests

• Können unterschieden werden aufbauend auf der zugrunde gelegten Theorie (z.B. g‐Faktormodelle)

• D.h. Einsatz von Intelligenztests erfordert Kenntnis von Intelligenztheorien

• Einige Tests messen g, andere nur Intelligenzkomponenten

• Einige Tests sind sprachfrei und kulturfair, andere bildungsabhängig

Intelligenztheorien

• Vielzahl verschiedener Theorien, mit und ohne „g‐Faktor“

• Beispiele: – Spearmans Zwei‐Faktorentheorie– Cattells kristalline und fluide Intelligenz

Theorie von Cattell

CFT‐Gruppe• Einer der am häufigsten eingesetzten Intelligenztests• CFT = „Culture Fair Test“, sprachfrei, ausschließlich nonverbale Aufgaben• CFT 1: Vorschulkinder und Schüler der Grundschulklassen 1‐3

– Substitution (Symbole mit Figuren verbinden– Labyrinthe (L. durchfahren)– Klassifikation (Abgrenzung einer Figur von ähnlichen Figuren)– Ähnlichkeiten (Details in veränderten Bildern erkennen)– Matrizen (M. vervollständigen)

• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)

– 4 Untertests : Reihenfortsetzen, Klassifikationen, Matrizen, Topologische Schlußfolgerungen+ 2 schulnahe Ergänzungstests (Wortschatz, Zahlenfolgen)

• Reliabilität gegeben• gute Validität für Erfolg Realschule, befriedigende für Gymnasium• Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 – 15;6 für Ergänzungstests

CFT‐Gruppe• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, 

CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)– 4 Untertests: – Reihenfortsetzen, – Klassifikationen, – Matrizen, – Topologische Schlußfolgerungen+ 2 schulnahe Ergänzungstests (Wortschatz, Zahlenfolgen)

• Reliabilität gegeben• gute Validität für Erfolg Realschule, befriedigende für 

Gymnasium• Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 –

15;6 für Ergänzungstests

CFT‐Gruppe

• CFT 20 und CFT 3: CFT 20 entwickelt für 3.‐10. Schuljahr, CFT 3 für Schüler und Erwachsene (Schwierigkeitsgrad)

4 Untertests: – Reihenfortsetzen, – Klassifikationen, – Matrizen, – Topologische Schlussfolgerungen+ 2 Ergänzungstests (Wortschatz, Zahlenfolgen; CFT20)

CFT‐Gruppe

• Reliabilität gegeben

• gute Validität für Erfolg Realschule, befriedigende für Gymnasium

• CFT 20/CFT 3: Normen von 8;7 – 70 Jahre für die Untertests, von 8;7 – 15;6 für Ergänzungstests

Wechsler‐Tests

WIE (2006)

WISC

• Grundlage: Wechslers Intelligenzkonzeption

• "Intelligenz ist ein hypothetisches Konstrukt, ist die zusammengesetzte oder globale Fähigkeit des Individuums, zielgerichtet zu handeln, rational zu denken und sich wirkungsvoll mit seiner Umwelt auseinanderzusetzen. Sie ist zusammengesetzt oder global, weil sie aus Elementen oder Fähigkeiten besteht, die, obwohl nicht völlig unabhängig, qualitativ unterscheidbar sind“

• Pragmatische Auswahl von Subtests

WISC

• Als Einzeltest für den Altersbereich 6‐16 Jahren konzipiert

• 15 Untertests 

• Diese werden den vier Index‐Wert‐Skalen Sprachliches Verständnis, Wahrnehmungsorganisation, Arbeitsgedächtnis und Arbeitsgeschwindigkeit zugeordnet (+ Berechnung Gesamt‐IQ)

• Je nach Fragestellung unterschiedliche Auswahl der Subtestsund dementsprechend auch unterschiedliche Bearbeitungsdauer; Median ca. 67 Minuten

WISC

• Gesamt‐IQ: allgemeine Intelligenz

• Sprachliches Verständnis: Betonung auf kristalline Intelligenz (Wissensanwendung)

• Wahrnehmungsorganisation: Betonung auf fluide Intelligenz (neues Lernen)

• Arbeitsgedächtnis: Betonung auf KZG (auditorisch)

• Arbeitsgeschwindigkeit: Betonung auf mentale Schnelligkeit (Leistungsaufgaben mit selektiver Konzentration)

WISC

• Sprachliches Verständnis: Betonung auf kristalline Intelligenz (Wissensanwendung)

• Z.B. – Ähnlichkeiten finden (Wasser‐Milch)

WISC

• Wahrnehmungsorganisation: Betonung auf fluide Intelligenz (neues Lernen)

• Z.B.– Mosaiktest

WISC

• Arbeitsgedächtnis: Betonung auf KZG (auditorisch)

• Z.B.– Zahlennachsprechen

WISC

• Arbeitsgeschwindigkeit: Betonung auf mentale Schnelligkeit (Leistungsaufgaben mit selektiver Konzentration)

• Z.B.– Symbolsuche

WISC

• Durchführung erfordert umfangreiche Übung und Erfahrung

• Reliabilität sehr gut, Validitätsbefunde liegen vor

• Normdaten von 1650 Kindern aus den deutschsprachigen Ländern

Ausgewählte Testverfahren

Emotional‐Motivationale Konstrukte

Interessen

• Beziehen sich auf die Bewertung von Handlungen, Objekten, Ideen; sind emotional‐kognitive Verhaltenspräferenzen

• „Bei Interessen handelt es sich um generalisierte Verhaltenstendenzen, über die ein Individuum verfügt, das von einer bestimmten Klasse von Anreizen und Tätigkeiten angezogen wird.“ (Amelang & Zielinski) 

• Unterschiedliche Aspekte, z.B. – Interessen: Neugierde + Valenz (angenehm vs. unangenehm) 

(Asendorpf, 2007)– Interesse (als Emotion und damit mgl.weise als Vorstufe von 

Interessen): Reiz des Neuen + Copingpotential (Silvia, 2005)

Kurzer Exkurs: Berufsfindung

• Unterschiedliche Modelle; charakteristisch für den diagnostischen Bereich: Matching‐Ansatz

• Matching‐Ansatz: Passung zwischen Beruf (Anforderungen, Bedürfnisbefriedigungs‐möglichkeiten) und Person (Fähigkeiten und Qualifikationen, Bedürfnisse)

Kurzer Exkurs: Berufsfindung• Theorie von Holland (1997): je klarer und konsistenter das Interessenprofil und je 

mehr es mit den Inhalten einer Stelle übereinstimmt, desto– höher wird die spätere Berufszufriedenheit sein 

(aber Korrelationen im Bereich von ‐.07 bis .51; im Mittel: .22; Meta‐Analyse von Assouline & Meir, 1987)

– langfristiger wird jemand in einem bestimmten Beruf verbleiben (aber: mittlere Korrelation: .15)

– besser wird die berufliche Leistung sein (aber: mittlere Korrelation: .06)

• Berufliche Gravitationshypothese: wenn eine Person feststellt, dass eine Stelle nicht den eigenen Fähigkeiten und Interessen entspricht, verlässt sie diese wieder und sucht nach einer Umwelt mit höherer Übereinstimmung

• Austin & Hanisch (1990): die in der 10. Klasse gemessenen Fähigkeiten sagten besser den später ausgeübten Beruf (11 Jahre  nach Abschluss) vorher als die zeitgleich gemessenen Interessen

Aktuelles Verfahren

Explorix (Jörin, Stoll, Bergmann & Eder, 2006)

Explorix

• Für Berufs‐ und Laufbahnberatung

• Als Selbstexplorationsinstrument über Internet durchführbar (www.explorix.de)

• Basiert auf Hollands Typenmodell (Deutsche Version des Self‐directed Search von Holland): Holland unterscheidet 6 Typen im RIASEC‐Modell

RIASEC‐Modell

• Holland unterscheidet 6 Dimensionen: RIASEC

• Nach Holland kann eine Person einem dominanten Typ (Primärtyp) sowie zwei weiteren Typen (Sekundär‐ und Tertiärtyp) zugeordnet werden; dies  wird in einem Drei‐Buchstaben‐Code dargestellt

RIASEC‐Modell

A Künstler

S Sozial

E Unternehmer

I Forscher

R Realistisch

C Konventionell

RIASEC‐Modell

• Realistischer Typ (‐R): bevorzugt ein geordnetes, systematisches, praktisches Umgehen mit Dingen, Werkzeugen, Maschinen und Tieren; z.B. Klempner, Elektriker, Landwirt (handwerkliche, technische und landwirtschaftliche Berufe) 

• Forscher‐Typ (=I): bevorzugt Tätigkeiten, die beobachtende, systematische, symbolische und kreative Unternehmungen betreffen; z.B. Laborassistent oder Physiker (Forschung, Wissenschaft, Labor)

• Künstlerischer Typ (=A): bevorzugt freie und unsystematische Tätigkeiten, die sich mit Wörtern, Bildern, Musik oder physischen Objekten befassen, um Kunstformen zu entwickeln; z.B. Designer oder Schriftsteller (Kunst/Kultur, Theater, Film, Mode, Journalismus…)

• Sozialer Typ (=S): bevorzugt Tätigkeiten im Bereich der Interaktion mit anderen, um diese auszubilden, zu heilen, zu trainieren oder zu belehren; z.B. Lehrer oder Krankenpfleger (Bildungswesen, soziale Beratung, Gesundheitswesen).

• Unternehmerischer Typ (=E): bevorzugt Aktivitäten, die sich mit der Beeinflussung und geschickten Behandlung anderer befassen, um Organisationsziele zu erreichen oder wirtschaftlichen Gewinn zu haben; z.B. Rechtsanwalt, Verkäufer (Management, Verkauf, Werbung, PR). 

• Konventioneller Typ (=C): bevorzugt geordnete und systematische Tätigkeiten, die sich mit dem Führen von Daten und Akten, dem Organisieren von Material und dem Bedienen von Büromaschinen beschäftigen; z.B. Buchhalter, Sekretärin oder Kassierer (Verwaltung, Büro, Sekretariat).

Explorix

• Proband kann Test hinsichtlich Typenprofil selbst auswerten

• Diagnostiker kann außerdem ermitteln: – Differenziertheit (Eindeutigkeit der Interessen‐schwerpunkte), 

– Konsistenz (Nähe der drei Typen im Hexagon‐Modell)

– Identität (eigene Skala, Einschätzung, wie klar und stabil die Subskalen sind, z.B. Ich bin noch nicht sicher, welche Berufe ich erfolgreich ausüben könnte)

Gütekriterien

• Objektivität gegeben

• Reliabilität: interne Konsistenz gegeben 

• Validität: theoretische Hexagon‐Struktur in einigen Studien angezweifelt; Konstruktvalidität gegeben, keine Angaben zur Kriteriumsvalidität

• Keine Normwerte

Leistungsmotivation

• Sie haben die Wahl: belegen Sie einen leichten, mittelschweren oder schweren Kurs an der Uni?

Motive

Die heutige Motivationspsychologie beschäftigt sich mehr mit rationalen Zielbildungsprozessen, die einem Erwartungs‐mal‐Wert Modell folgen. Dies wurde zuerst und am genauesten für die Leistungsmotivation herausgearbeitet.

Vorsicht:

Motivationsstärke ist aktueller Zustand einer Person in einer motivierenden Situation.

Ein Motiv ist die überdauernde Tendenz zu bestimmten Motivationsstärken in motivanregenden Situationen (also ein Persönlichkeitsmerkmal).

Interindividuelle Differenzen

Aus: Carver & Scheier

Exkurs: Leistungsmotiv

Mit Energie und Beharrlichkeit an einer bedeutsamen Sache arbeiten; danach streben, etwasBeachtliches zu vollbringen; in Beruf und Geschäft andern vorweg sein, eine Gruppeüberreden oder führen, eine Sache gestalten; in seinem Handeln Ehrgeiz zeigen

Risikowahlmodell von Atkinson (1957) I

‐ Leistungsmotivation L‐ subjektive Erfolgswahrscheinlichkeit W, dementsprechend ist 1‐W subjektives Risiko‐ Leistungsmotiv M

werden multiplikativ verknüpft zu 

L = M(1‐W)W, wobei

‐ M(1‐W) die Wertkomponente der Motivation‐ W die Erwartungskomponente der Motivation

Leistungsmotiv M:‐ Erfolgsmotiv Me, Erfolg anzustreben‐ Misserfolgsmotiv Mm, Misserfolg zu meiden

Exkurs: Leistungsmotiv

Konsequenzena) Me > Mm b) Me < Mm:

Re

su

ltie

re

nd

e L

eis

tun

gs

mo

tiv

ati

on

Erfolgs-

tendenz

Leistungs-

tendenz

Mißerfolgs-

tendenz

Leistungsmotiv

Folgerungen für Leistungsmotiv:

Erfolgsmotivierte wählen eher Aufgaben mittlerer Schwierigkeit und bearbeiten sie besser und ausdauernder.

Misserfolgsmotivierte wählen eher sehr leichte oder sehr schwere Aufgaben und bearbeiten sie besser und ausdauernder.

Projektive Motivtests

Ein Proband soll Geschichten zu mehrdeutigen Bildern erzählen, die bestimmte Motive mittelstark anregen.

Die Häufigkeit, mit der ein bestimmtes Motiv in den Geschichten vorkommt, wird als Motivstärke interpretiert: das Motiv wurde in die Geschichten "hineinprojiziert".

Die so gemessenen Motive müssen den Probanden nicht bewusst sein.

Ziel der Verfahren ist es vielmehr latente Motive zu erfassen, zunehmend implizite Motive genannt.

Verbreitet: Thematischer Apperzeptionstest (TAT) von Murray (1943).

Projektive Motivtests

• Illustration: Bild aus dem Leistungsmotiv‐TAT von Heckhausen (1963)

Projektive Motivtests

•Kodierung für dieses Bild: Hoffnung auf Erfolg

In h a lt B e is p ie l

B e d ü rfn is n a ch L e is tu n g

u n d E rfo lg

E r w ill e in e n n e u e n A p p a ra t

k o n s tru ie re n

T ä tig k e it zu r

Z ie le rre ic h u n g

E r d e n k t ü b e r d ie A u fg a b e

n a c h

E rfo lg s e rw a rtu n g E r is t s ic h e r, d a ß e r

e rfo lg re ic h s e in w ird

L o b in fo lg e g u te r

L e is tu n g

D e r M e is te r a n e rk e n n t d ie

K o n s tru k tio n

P o s itive r G e fü h ls zu s ta n d D ie A rb e it m a ch t ih m S p a ß

E rfo lg s th e m a W e n n d ie G e s ch ich te

in s g e sa m t e in e n ü b e rw ie g e n d

e rfo lg s g e tö n te n G e h a lt h a t

Projektive Motivtests

•Kodierung für dieses Bild: Furcht vor Misserfolg

I n h a l t B e i s p i e l

B e d ü r f n i s n a c h

M i s s e r f o l g s m e id u n g

E r h o f f t , d a ß d e r M e i s t e r d e n

F e h le r n ic h t b e m e r k t

T ä t i g k e i t z u r

M i s s e r f o l g s m e id u n g

E r g i b t v o r , d a s s d i e

K o n s t r u k t i o n n o c h in A r b e i t i s t

( o b w o h l s ie s c h o n f e r t i g i s t )

E r f o l g s u n g e w is s h e i t E r z w e i f e l t a n s e i n e m E r f o lg

T a d e l i n f o l g e s c h le c h t e r

L e i s t u n g

D e r M e i s t e r k r i t i s i e r t d i e

K o n s t r u k t i o n

N e g a t i v e r

G e f ü h ls z u s t a n d

E r ä r g e r t s ic h ü b e r s e in e n

F e h le r

M i s s e r f o l g D ie K o n s t r u k t io n e n t h ä l t e i n e n

F e h le r

M i s s e r f o l g s t h e m a W e n n d i e G e s c h i c h t e

i n s g e s a m t e i n e n ü b e r w ie g e n d

m is s e r f o l g s g e t ö n t e n G e h a l t

h a t

Projektive Motivtests

Kritik an projektiven Tests

1. Interne Konsistenz nur ca. .50 bei ca. 6 Bildern. Verteidigung: Motivwechsel durch Sättigungseffekt!

2. Retestreliabilität über wenige Wochen auch nur ca. .50.Verteidigung: unterschiedliche Motivationslagen an verschiedenen Testtagen!

3. Unklarheit der Interpretation: eigenes Motiv oder nur Sensitivität für Thema? 

Projektive Motivtests

Beispiel Aggressions‐TAT für Kinder

Besagen hohe Werte, dass das Kind aggressiv ist oder dass es oft Aggressionen anderer erlebt?

Projektive Motivtests

Kinder mit hohen Werten im Aggressions‐TAT sind entweder tatsächlich stark aggressiv (laut Erzieherurteil). Oder: Sie erkennen diese Reize besonders gut (Sensitivität gegenüber Aggressionsthematik) (Asendorpf, 1994).

Kriminalbeamte erzielten auch besonders hohe Werte in Aggressions‐TATs (Toch & Schulte, 1961).

Insofern sollte der Name "Thematischer Apperzeptionstest" ganz wörtlich genommen werden.

Motivmessung

• Bewusste Motive können mit Fragebögen erfasst werden.

• z.B. Skalen zur Erfassung der Lern‐ und Leistungsmotivation (SELLMO)– 31 Items, 4 Zielorientierungen– „In der Schule/Im Studium geht es mir darum …“

• „zum Nachdenken angeregt zu werden“ (Orientierung an einem Lernziel)

• „das was ich kann und weiß auch zu zeigen“ (Annäherungs‐Leistungsziel)

• „dass niemand merkt, wenn ich etwas nicht verstehe“ (Vermeidungs‐Leistungsziel)

• „mit wenig Arbeit durch die Schule/durchs Studium zu kommen“ (Arbeitsvermeidungstendenz)

– Gütekriterien zufriedenstellend 

Selbstkonzept der Fähigkeiten

• Selbstkonzept enthält das Wissen über sich selbst• Selbstwertgefühl ist die Zufriedenheit mit sich selbst 

(affektive Bewertung des Selbstkonzepts)• Neben dem allgemeinen Selbstwert gibt es auch 

bereichsspezifische Komponenten

Selbstkonzept der Fähigkeiten

Modell von Marsh und Kollegen

Messung des Selbstkonzepts• In der Regel über Fragebogen (Selbstbericht)

• Z.B. Skalen zur Erfassung des schulischen Selbstkonzepts (SESSKO):– Nur kognitive Komponente des Selbstkonzepts– 22 Items; 4 Vergleichsperspektiven

• Kriterial („Wenn ich mir angucke, was wir in der Schule können müssen, halte ich mich für …“ ‐ nicht begabt bis sehr begabt)

• Individuell („Ich bin für die Schule … als früher“ – weniger begabt bis begabter)• Sozial („Ich denke, ich bin für die Schule … als meine Mitschüler/innen“ ‐ weniger begabt 

bis begabter)• Absolut („Ich bin für die Schule …“ ‐ nicht begabt bis sehr begabt)

– Reliabilität gegeben, Korrelation mit Noten, aber andere Aspekte der Validität erscheinen problematisch (z.B. nur geringe Korrelation mit Leistungsmotivation, wozu 4 Skalen …)

Ein Überblick zur Beratung

Beratung im pädagogischen Kontext

Dienstordnung für Lehrer, Land Hessen:• § 4  „Die Lehrkräfte erziehen, unterrichten, beraten und betreuen…“

• §9 „… Die Klassenlehrerin oder der Klassenlehrer soll die Schülerinnen und Schüler der  Klasse  in  allen  schulischen  Angelegenheiten  beraten. …“

• §9 „…Die  Klassenlehrerin  oder  der  Klassenlehrer  steht  in  besonderem  Maße  den  Eltern  zur Beratung zur Verfügung …“

Eine mögliche Definition von Beratung

• „Beratung ist in ihrem Kern jene Form einer interventiven und präventiven helfenden Beziehung,

• in der ein Berater mittels sprachlicher Kommunikation und auf einer Grundlage anregender und stützender Methoden innerhalb eines vergleichsweise kurzen Zeitraums versucht,

• bei einem desorientieren, inadäquat belasteten oder entlasteten Klienten einen auf kognitiv-emotionale Einsicht fundierten aktiven Lernprozess in Gang zu bringen, in dessen Verlauf seine Selbsthilfebereitschaft, seine Selbststeuerungsfähigkeit und seine Handlungskompetenz verbessert werden können“ (Dietrich, 1983)

3

Man kann nicht nicht kommunizieren

• Watzlawick: „alles Verhalten, nicht bloß der Gebrauch von Wörtern, ist Kommunikation“

Man kann nicht nicht kommunizieren

• Beispiel Blickkontakt:– Herstellen sozialer Bindungen– Distanzregulierung– Kontrollsignale („im Auge behalten“)– Sympathie– 2 Minuten Wegsehen, dann 2 Minuten Anschauen 

Interpretation als Interesse– Intensiver Blickkontakt bei positiven Inhalten: Sympathie vs. 

Intensiver Blickkontakt bei negativen Inhalten: Ablehnung– Blickverweigerung:

• Beschwichtigung• Angst, Stress, Schuld, Scham• Täuschung und Lüge• Fehlende Kommunikationsbereitschaft

Inkongruenz

• Verbale und non‐verbale Signale stimmen nicht überein

„Ich finds toll hier“

Grundvorgang der Kommunikation

Eine Nachricht enthält stets viele Botschaften gleichzeit ig

(n. Schulz v. Thun) .

Sachbotschaft

Beziehungs-botschaft

Selbstoffen-barung

Appell-botschaft

NachrichtSender Em pfänger

Worüber ich informiere

Wozu ich Dich veranlassen möchteWas ich von Dir halte (Du‐

Botschaften) und wie wir zueinander stehen (Wir‐Botschaften)

Was ich von mir selbst 

kundgebe

Grundvorgang der Kommunikation

Was steckt alles in dieser Nachricht?

Mann auf Beifahrersitz Frau am Steuer„Du, da vorne ist grün! “

„Du da vorn ist grün! “Mann Frau

Die Am pel ist grün.

Du brauchst m eine Hilfe.

I ch habe es eilig.

Fahr schon los!

Unterschiedliche Schulen„Können Sie mir sagen, wie ich zum Bahnhof komme?“

Aus: Rausch et al., Modul Beratungspsychologie

Unterschiedliche Schulen

• Unterschiedliche Menschenbilder (n. Rausch et al.)

– Mensch als Objekt von Außenreizen (z.B. Behaviorismus)

– Mensch als Objekt unbewusster Triebe (z.B. psychodynamische Theorien)

– Mensch als frei handelnde Person (z.B. Humanistische Ansätze, kognitive Theorien)

Unterschiedliche Schulen

Aus: Warschburger, Beratungspsychologie

Unspezifische Wirkfaktoren

Basisvariablen der Gesprächspsychotherapie

• Empathie den inneren Bezugsrahmen des anderen möglichst wahrzunehmen, mit all seinen emotionalen Komponenten und Bedeutungen, gerade so, als ob man die andere Person wäre, jedoch ohne jemals die „als ob“ - Position aufzugeben (Rogers, 1991)

• WertschätzungWenn Selbsterfahrungen eines anderen durch mich in der Art und Weise wahrgenommen werden, dass keine dieser Selbsterfahrungen danach unterschieden werden, ob sie meiner positiven Beachtung mehr oder weniger wert sind, dann erlebe ich bedingungslose positive Beachtung (bedingungsfreie positive Beachtung) für diese Person (Rogers, 1987)

• Echtheit/Kongruenz

Ein guter Berater ist…

– geduldiger

– flexibler in Variation des Interventionsverhaltens

(abhängig vom Klienten)

– aktiver

– unterhält gute Beziehungen zu Klienten

– stellt weniger Sachfragen

n. Margraf & Baumann (1986)

Beispiel: Erziehungsberatung

Auto‐ritär

Auto‐ritativ

Vernach‐lässigend

Permissiv

Zuwendung

Kontrolle

Erziehungsstile n. Baumrind

Beispiel: Erziehungsberatung

Modellernen Verstärkungslernen

Positive Verstärkung:  Verhalten wird wahrscheinlicher Negative Verstärkung:  Verhalten wird wahrscheinlicher, da negativer Stimulus

beendet wird Bestrafung: Verhalten wird unwahrscheinlicher Löschung: Beendigung von Verstärkung

Zwangsinteraktion n. Patterson

Beispiel: Erziehungsberatung

„Mama, ich möchte Kekse!“

„Nein Paula, wir haben Kekse zu Hause.“ Mutter versucht, Verhalten zu löschen

(mit hoher Stimme wimmernd) „Ich möchte Kekse, ich möchte Kekse!“

Löschung verursacht Eskalation

(versucht ruhig zu bleiben) „Paula, du hattest heute schon ein Eis und ich möchte nicht, dass du dir den Appetit aufs Abendbrot verdirbst.“

Mutter versucht, Verhalten zu löschen

(bricht in Tränen aus, schreit wiederholt mit aller Kraft) „Mama, ich will Kekse! Ich will Kekse! Ich will Kekse!“

Löschung verursacht Eskalation

„Na gut, aber das ist das letzte Mal, dass ich dich mit zum Einkaufen genommen habe!“

Positive Verstärkung des Weinens

Mama packt die Kekse in den Korb und Paula hört sofort auf mit weinen und betteln.

Negative Verstärkung des Aufgebens

Neulich im Supermarkt…

Beispiel: Erziehungsberatung

• Emotionale Unterstützung• Positive Zeit• Aufbau verschiedener Kompetenzen

• Verantwortungsübernahme

• konsistente Grenzsetzung, aber auch Freiraum