Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006...

73
Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne Scherl Zusammenfassung Bereich V: DIAGNOSTIK

Transcript of Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006...

Page 1: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne Scherl

Zusammenfassung Bereich V:

DIAGNOSTIK

Page 2: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

2

Inhaltsverzeichnis Überblick über Bereich V 4

1. Grundbegriffe (*) 5 1.1. Diagnostik 5 1.2. Arten von Diagnostik 6

1.2.1. Standardisierte und nicht-standardisierte Diagnostik 6 1.2.2. Norm- und kriteriumsorientierte Diagnostik 6 1.2.3. Individual- und Umweltdiagnostik 6

1.3. Methoden 7 1.3.1. Testverfahren 7 1.3.2. Beobachtungsverfahren 8 1.3.3. Gesprächsmethoden 8 1.3.4. Dokumentanalyse / Fragebogen 8 1.3.5. Beurteilungsverfahren 8

2. Gütekriterien(*!) 9 2.1. Überblick 9 2.2. Objektivität (Arten inkl. Herstellung) 9

2.2.1. Durchführungsobjektivität 9 2.2.2. Auswertungsobjektivität 10 2.2.3. Interpretationsobjektivität 11

2.3. Reliabilität 12 2.3.1. Wiederholungsreliabilität 13 2.3.2. Split-Half-Reliabilität 13 2.3.3. Paralelltestreliabilität 13 2.3.4. Konsistenzanalyse 14 2.3.5. Herstellung von Reliabilität 14

2.4. Validität 15 2.4.1. Inhaltsvalidität 15 2.4.2. Empirische Validität 16 2.4.3. Konstruktvalidität 17 2.4.4. Testfairness 17 2.4.5. Herstellung von Validität 18

2.5. Nebengütekriterien 18 2.5.1. Normierung 18 2.5.2. Nützlichkeit und Zumutbarkeit 18 2.5.3. Ökonomie 18 2.5.4. Vergleichbarkeit 18 2.5.5. Akzeptanz 18

3. Fähigkeits - und Leistungstests (*) 19 3.1. Aufbau von Testverfahren 19 3.2. Intelligenztest und Schulleistungstest 19

3.2.1. Intelligenztest 19 3.2.2. Schulleistungstest 21

3.2.2.1. Möglichkeiten der Schulleistungstestkonstruktion 21 3.2.2.2. Formeller Schulleistungstest 22

3.2.2.2.1. Bezugsgruppenorientierte (=sozialnormorientierte) Tests 22 3.2.2.2.2. Kriteriumsorientierte (=lehrzielorientierte) Tests 25 3.2.2.2.3. Gütekriterien formeller Schulleistungstests 27 3.2.2.2.4. Beispiele für formelle Schulleistungstests 28

3.2.2.3. Informelle Schulleistungstests 31 3.2.2.3.1. Gütekriterien informeller Schulleistungstests 32 3.2.2.3.2. Vor- und Nachteile informeller Schulleistungstests 32

3.2.2.4. Zehn Prüfsteine zur Beurteilung von Schulleistungstests 33 3.3. Schulaufgaben 33

Page 3: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

3

4. Verschiedene Erhebungsverfahren 34 4.1. Beobachtung 34

4.1.1. Arten der Beobachtung 35 4.1.2. Unterrichtsbeobachtung und Interaktionsdiagnostik 36 4.1.3. Beobachtungssysteme / Interaktions-Analyse-Systeme 37

4.1.3.1. Entwicklung von Beobachtungssystemen 37 4.1.3.2. Verschiedene Beobachtungssysteme 37

4.1.4. Abgrenzung von Beobachtung und Beurteilung 40 4.1.5. Beobachtungs- und Beurteilungsfehler 40 4.1.6. Einsatzmöglichkeiten der Beobachtung / Beurteilung 40

4.2. Fragebogen 41 4.3. Interview 45

4.3.1. Interview 46 4.3.2. Formen des Interviews 46 4.3.3. Selbstdarstellungstechniken und Lüge – die Macht des Interviewten 47 4.3.4. Maßnahmen zur Optimierung von Befragungsergebnissen 48

4.4. Soziometrie 49 4.4.1. Dimensionen der klassischen Methode nach Friedrichs 49 4.4.2. Soziographischer Test von Bullis-Seelmann: „der soziometrische Test“ 49 4.4.3. Verschiedene Darstellungsverfahren 50 4.4.4. Probleme bei der soziometrischen Befragung 51

5. Beurteilung I: Standardisierte und nicht-standardisierte Formen (*) 52 5.1. Prinzip der Normierung 52 5.2. Arten von Bezugsnormen 52 5.3. Interindividuelle Normskalen 53

5.3.1. Prozentrangskala 53 5.3.2. IQ-Skala 53 5.3.3. T-Wert-Skala 53

5.4. Schulaufgaben und mündliche Prüfungen 54 5.4.1. Schulaufgaben 54

5.4.1.1. Vorteile 54 5.4.1.2. Formen schriftlicher Prüfungen 54 5.4.1.3. Erfüllung der Gütekriterien bei schriftlichen Prüfungen 54 5.4.1.4. Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung von Schulleistungstests 56

5.4.2. Mündliche Prüfungen 57 5.4.2.1. Arten mündlicher Prüfungen 57 5.4.2.2. Kritik an der mündlichen Prüfung 57 5.4.2.3. Verbesserungsmöglichkeiten 59

5.5. Beurteilung im Unterricht / Urteilsfehler 61 6. Beurteilung II: Schulnoten (*) 63

6.1. Funktionen 63 6.2. Ermittlung 64 6.3. Gütekriterien und Kritik 64

7. Evaluation 67 7.1. Methoden schulbezogener Evaluation 67 7.2. Ergebnisse aus internationalen Schulleistungsvergleichen 67

7.2.1. PISA 67 7.2.2. TIMMS 72

Page 4: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

- ÜBERBLICK über Bereich V -

DIAGNOSTIK Theorie, Konstruktion & Analyse von Diagnoseverfahren

ARTEN von Diagnostik

- Standardisiert - Nicht-standardisiert - Normorientiert - Kriteriumsorientiert - Individual- / Umweltdiagnostik

METHODEN / VERFAHREN

Beobachtung

Beurteilung

Testmethoden

Gesprächs- methoden

GÜTEKRITERIEN

Hauptgütekriterien Nebengütekriterien

Objektivität Reliabilität Validität - Normierung

- Nützlichkeit & Zumutbarkeit

- Ökonomie

- Vergleichbarkeit

- Akzeptanz

�Durchführung �Auswertung �Interpretation

�Wiederholungrel. �Split-Half-Rel. �Paralleltestrel. �Konsistenzanalyse

�Inhaltsvalidität �Empirische Val. �Konstruktvalidität (�Testfairness)

a) naiv b) wissenschaftlich:

- standard. - nicht-standard. - teilnehm. - nicht teilnehm. - kontinuierl. - diskontin. - offen - verdeckt - Feld - Labor

Beobachtungsinstrumente

Standard & nicht standard. Formen - Prinzip Normierung - Bezugsnormen - Normskalen - Schulaufg. ß à mündl. Prüf. - Urteilsfehler

Schulnoten - Funktionen - Ermittlung - Gütekriterien - Kritik

- Aufbau eines Tests - Intelligenztest ßà Schulleistungstest

- Schulaufgaben - kriteriumsorient.

Leistungsmessung

- Anamnese - Katamnese - Interview

� Formen � Einflüsse � Optimierung

Dokumentanalyse

- Definition - Auswertungsmethoden - Methodische Probleme [Lukesch, Band 3, Kap. 6]

Fragebogen

Page 5: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

1. Grundbegriffe

1.1. Diagnostik Diagnostik ist ein Teilbereich der Psychologie, der sich mit der Theorie, der Konstruktion und der Analyse von Diagnoseverfahren befasst. Diagnose ist dabei die Feststellung des Vorhandenseins oder der Ausprägung von psychologischen Merkmalen, bzw. (nach Guthke) eine normativ wertebezogene und entweder individuum- oder gruppenbezogene Aussage eines Diagnostikers über einen Diagnostikanden als Ergebnis eines diagnostischen Urteilsprozesses.

Definition von Dorsch (1982): [nach Lukesch, Band 3, Kap. 1] „Diagnostik...die Lehre von der sachgemäßen Durchführung der Diagnose; auch die Ausübung der Diagnose.“ „Psychologische Diagnostik ist die Bezeichnung für alle Methoden und deren Anwendung, welche zur Messung bzw. Beschreibung inter- und intraindividueller Unterschiede verwendet werden.“

Die pädagogische Diagnostik, von der man im Bereich der Institution Schule spricht, ist im Vergleich zu dieser Umschreibung der psychologischen Diagnostik nicht vollständig abgedeckt, es finden sich Überschneidungen hinsichtlich methodischer Grundlagen, aber auch eigenständige Entwicklungen der päd. Diagnostik. Definition von Ingenkamp (1985): [nach Lukesch, Band 3, Kap. 1] „Pädagogische Diagnostik war niemals nur eine Agentur, die Klienten prüfte, ihre Merkmale kennzeichnete und sie mit diesen Kennzeichnungen an den Auftraggeber zurückgab...Vielmehr war päd. Diagnostik immer eine Dienstleistung im Rahmen von Erziehung und Unterricht.“ à Diagnostische Daten sind ein Teilschritt innerhalb eines pädagogischen Handlungssystems.

Definition von Klauer (1978): „Pädagogische Diagnostik ist das Insgesamt von Erkenntnisbemühungen im Dienste aktueller pädagogischer Entscheidungen.“

Definition von Rollett (1976): „Unter (päd.) Diagnostik soll ... zunächst die theoriegeleitete Datengewinnung und -reduktion im Rahmen eines gewichteten Entscheidungsverfahrens im Hinblick auf ein vorgegebenes Behandlungsziel verstanden werden.“ Bei jeder Diagnostik geht es um Erkenntnis, also um die Feststellung von Sachverhalten, Tatsachen, Eigenschaften oder Merkmalen, Bedingungen und dergleichen. Im Gegensatz zu wissenschaftlicher Forschung ist die diagnostische Erkenntnisbemühung nicht auf Entdeckung allgemeiner Zusammenhänge gerichtet, sondern auf die nähere Kategorisierung oder Einordnung des Einzelfalls. [Lukesch, Band 3, Kap. 1] Es wird entweder nach dem Eintreffen des Einzelergebnisses gefragt („Wie wird sich die Leistung des Schülers x entwickeln?“ „Wird Schüler y Schullaufbahn erfolgreich beenden?“) oder das Einzelergebnis ist gegeben und soll erklärt werden (Leistungsversagen könnte nur aus Lehrersicht vorliegen, aber nicht in objektiven Testverfahren).

Unter diagnostischer Tätigkeit wird dabei ein Vorgehen verstanden, in dem (mit oder ohne diagnostische Instrumente) unter Beachtung wissenschaftlicher Gütekriterien beobachtet und befragt wird, die Beobachtungs- und Befragungsergebnisse interpretiert und mitgeteilt werden, um ein Verhalten zu beschreiben und/ oder die Gründe für dieses Verhalten zu erläutern und/ oder künftiges Verhalten vorherzusagen.

Pädagogische Diagnostik beschäftigt sich also mit folgenden Fragen [nach Mietzel, Kap. 7]: • Wie kann man feststellen, ob gelernt wurde? • Hat Lernen stattgefunden? • Was wurde gelernt?

Page 6: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

6

1.2. Arten von Diagnostik Es gibt viele verschiedene Arten der Diagnostik (auch im medizinischen Sinn), hier sind nur einige unterschieden, die für folgende Kapitel bzw. für die Schule relevant sind. 1.2.1. Standardisierte und nicht-standardisierte Diagnostik

Bei der standardisierten Diagnostik wird das Diagnoseverfahren auf alle Personen einer ausgewählten, genau beschriebenen Stichprobe in der gleichen Weise und unter vergleichbaren Bedingungen angewendet. Schule: Standardisierte Tests werden meist von Testverlagen vertrieben, großen Stichproben von Schülern zur Bearbeitung vorgelegt und Gesamtpunktwert mit Normwerten einer Eichstichprobe - z. B. Gruppe gleichen Alters und Schulstufe - (vgl. normorientierte Diagnostik) verglichen. (à Hohe Objektivität, vgl. Gütekriterien)

Bei der nicht-standardisierten Diagnostik ist genau das Gegenteil der Fall - die Personen werden subjektiv bewertet (beispielsweise in mündlichen Prüfungen) und somit nicht in einer großen Gruppe in gleicher Weise und unter gleichen Bedingungen geprüft bzw. bewertet. 1.2.2. Norm- und kriteriumsorientierte Diagnostik

Normorientierte Diagnostik: Definition von Pawlik (1982): „Unter normorientierter Diagnostik versteht man einen Untersuchungsansatz mit dem Ziel, das einzelne Untersuchungsergebnis im Hinblick auf statistische Bezugswerte, also relativ zur Verteilung der Testergebnisse in einer Bezugsgruppe (Eichstichprobe), auszudrücken und zu interpretieren.“

Bsp.: Aussage: „Die Fichte ist ziemlich groß.“ à Ziehe zur Bewertung Vergleichsmaßstab heran (durchschnittliche Höhe von Fichten)

Schule: Schüler hat 60 % des Einmaleins richtig à Etwas besser als der Durchschnitt der Klasse Kriteriumsorientierte Diagnostik: Definition von Petermann (1995): Psychologische Diagnostik erfolgt kriteriumsorientiert, „wenn der verwendete Vergleichsmaßstab für das zu bewertende Charakteristikum eines Beurteilungssachverhaltes unabhängig festgelegt wird von Informationen über die Verteilung der Ausprägungsgrade dieses Charakteristikums bei einer Menge dieser Sachverhalte.“

Bsp.: „Die Fichte ist ziemlich groß.“ à Bewertung unabhängig von Verteilung der Höhe der Fichten, sondern z. B. nach Höhe des Wohnzimmers, in das der Baum passen soll (externer Standard), kein Vergleich mit anderen!

Schule: Schüler hat 60 % richtig à Das kleine Einmaleins sollte mit mind. 90%-iger Sicherheit beherrscht werden, also schneidet Schüler eher schlecht ab. 1.2.3. Individual- und Umweltdiagnostik

Individualdiagnostik: Einzelne Personen; Selbst- oder Fremddiagnostik

Umweltdiagnostik: Soziales Verhalten; Gruppe

Page 7: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

7

1.3. Methoden Überblick nach Lukesch: 1.3.1. Testmethoden (siehe 3) Definition von Ingenkamp: Tests sind Verfahren der Pädagogischen Diagnostik, mit deren Hilfe eine Verhaltensstichprobe, die Voraussetzungen für oder Ergebnisse von Lernprozessen repräsentieren soll, möglichst vergleichbar, objektiv, zuverlässig und gültig gemessen und durch Lehrer oder Erzieher ausgewertet, interpretiert und für ihr pädagogisches Handeln nutzbar gemacht werden kann.

Definition von Lienert (1967): [nach Lukesch, Band 3, Kap. 7] „Ein Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale mit dem Ziel einer möglichst quantitativen Aussage über den relativen Grad der individuellen Merkmalsausprägung.“ Erklärung nach Selg und Bauer 1971:

- wissenschaftlich: muss sog. Testkriterien genügen - Routineverfahren: festgelegte Instruktion à Test kann handwerksmäßig durchgeführt werden - Untersuchung eines oder mehrerer Persönlichkeitsmerkmale: ein Test kann nie „alle“ Merkmale einer

Person untersuchen - Empirisch abgrenzbare Persönlichkeitsmerkmale: Merkmale, die beobachtbar und obj. beschreibbar sind - möglichst quantitative Aussage: nur dann bestehen Gutachten aus logischen Folgen - Relativer Grad der individuellen Merkmalsausprägung: Relative Positionsbestimmung eines Individuums

im Vergleich zu einer Gruppe Klassifikation von Tests:

(1) Papier- und Bleistifttests, Manipulationstests, Materialbearbeitungstests, Bildtests, opparative Tests (2) verbale und nichtverbale Tests (3) Einzel- oder Gruppentests (4) Ein- oder mehrdimensionales Verfahren (ein Test besteht aus einem oder mehreren Subtests (5) Hoch- und niedrigstrukturierte Tests (6) Geschwindigkeits- und Niveautests (7) Gebundene und freie Antworttypen (8) Verfahren zur Erfassung kognitiver und affektiver Merkmale (= Intelligenz – und Persönlichkeitstests) (9) aptitude Tests (Eignung für Berufe) und achievement tests (Erfassung von erworbenen Fertigkeiten) (10) objektive und subjektive Tests (11) Schulleistungstests

Gesprächs-methoden (Anamnese, Exploration, Interview)

Beurteilungs-verfahren (bei der mündlichen Schulleistungs-bewertung, bei Fremd- und Selbsttraining )

Testmethoden (z.B. Schulleistungstests, Intelligenztests, Einschulungstests )

Dokumentenanalyse (z.B. Auswertung von Zeugnissen, Schülerbögen )

Inhaltsbereiche der pädagogisch-

psychologischen Diagnostik:

z.B. Schüler-, Lehrerverhalten, Schulleistung, familiäre Lernbedingungen, Peergruppeneinflüsse

Beobachtungs- verfahren (z.B. im Rahmen der schulischen Interaktionsdiagnostik )

Fragebogen

Page 8: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

8

Im pädagogischen Bereich werden vor allem Schulleistungs- und Intelligenztests, Entwicklungs- und Einschulungstests, Eignungs-, Konzentrations- und Aufmerksamkeitstests sowie Sozialtests eingesetzt. Bei Tests gibt es Freie-Antwort-Formen (Antwort / Lösung muss produziert werden) oder Auswahl-Formen (Multiple-Choice). Fast alle Tests sind nach Regeln einer bestimmten Testtheorie konstruiert. Bei Schulleistungstests unterscheidet man zwischen formellen und informellen Tests. (siehe 3) 1.3.2. Beobachtungsverfahren (siehe 4.1) Definition von Roth (1978): Beobachtung ist das grundlegende Verfahren der empirisch forschenden Sozialwissenschaften und der Erziehungswissenschaft. Bei allen Beobachtungsverfahren ist der Beobachter das „Messinstrument“, seine Wahrnehmung ist stark durch Erfahrungen, Bedürfnisse oder Einstellungen beeinflusst. Es wird zwischen naiver und wissenschaftlicher Beobachtung unterschieden (siehe 4.1). 1.3.3. Gesprächsmethoden (siehe 4.2) Gespräch = Vorgehensweise der Informationssuche, bei der der Proband durch gezielte Fragen

zu Angaben über sich und sein Umfeld angeregt werden soll. Arten diagnostischer Gesprächsmethoden:

a) Anamnese (v.a. bei Ärzten, Rückblick vor einer Behandlung, Erfassung der Biografie) b) (Katamnese (Rückblick nach einer Behandlung)) c) Exploration (Erkundungsgespräch, nicht-standardisierte mündliche Befragung eines

einzelnen durch einen einzelnen, kein Aufzwingen von Inhalten) d) Interview: Man unterscheidet zwischen verschiedenen Interviewformen (siehe 4.2).

1.3.4. Dokumentanalyse [näheres zur Dokumentanalyse: Lukesch, Band 3, Kap. 6] Definition von Ballstaedt (1987): [Lukesch, Band 3, Kap. 6] Dokumente sind alle Zeugnisse menschlichen Handelns, Denkens und Erlebens, die in natürlichen Situationen entstanden sind und erst nachträglich zur Beantwortung einer Forschungsfrage herangezogen werden. 1.3.5. Beurteilungsverfahren (siehe 4 und 5) Die Beurteilung ist die abstrahierende Beschreibung des Verhaltens mit anschließender Deutung des Verhaltens, wobei ein Vergleich der Beobachtungseinflüsse mit Milieueinflüssen und Lebenslaufdaten stattfindet. Es gibt mehrere Möglichkeiten und Arten der Beurteilung (siehe 4 und 5). 1.3.6. Fragebogen (siehe 4.3) Die schriftliche Befragung oder der Fragebogen ist für Erzieher das am wenigsten aufwendige Verfahren, Auskünfte über objektive Daten und subjektive Einstellungen zu erlangen. Der Fragebogen als wissenschaftliches Instrument ist das Ergebnis sorgfältiger und aufwendiger Expertenkonstruktion. Er soll eingesetzt werden, wenn er für diagnostische Ziele hilfreich erscheint.

Page 9: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

9

2. Gütekriterien 2.1. Überblick An die Genauigkeit und Verlässlichkeit von Messergebnissen in der Diagnostik werden Anforderungen gestellt. Man hat Kriterien entwickelt, die es ermöglichen, die Qualität einer Messung zu beurteilen. à Die Güte eines Verfahrens ist am größten, wenn dieses hohe Objektivität, Reliabilität und

Validität aufweist. Im Folgenden werden die Gütekriterien genauer behandelt. 2.2. Objektivität = Grad, in dem Ergebnisse unabhängig vom Untersucher sind Ein Test wäre vollkommen objektiv, wenn verschiedene Untersucher bei denselben Probanden zu gleichen Ergebnissen gelangen (Lienert, 1967: Interpersonelle Übereinstimmung der Untersucher). à Intersubjektive Einflüsse sollen möglichst ausgeschaltet werden. Dazu müssen möglichst viele Arbeitsschritte im Beurteilungsverfahren genau festgelegt sein. Beispiele für objektive Tests: Führerscheinprüfung oder Intelligenztests. Nicht objektiv sind Projektive Tests die der „Tintenklecks- Diagnostik“ zuzuordnen sind. Objektivität ist (wie Reliabilität) ein formales Kriterium, es sagt nichts über den Inhalt aus! Arten von Objektivität sind Durchführungs-, Auswertungs- und Interpretationsobjektivität: 2.2.1. Durchführungsobjektivität: Gleiche Bedingungen für alle Prüflinge Man versucht zu sichern, dass alle Lernenden bzw. Probanden den gleichen Anforderungen unter gleichen Bedingungen ausgesetzt sind.

- Situative Faktoren: Tageszeit, Hilfsmittel, Instruktion, Lärm...

- Personale Faktoren: Ermüdung, vorherige Beschäftigung...

GÜTEKRITERIEN

Hauptgütekriterien Nebengütekriterien

Objektivität Reliabilität Validität - Vergleichbarkeit

- Normierung

- Akzeptanz

- Ökonomie

- Nützlichkeit & Zumutbarkeit

�Durchführung �Auswertung �Interpretation

�Wiederholungrel. �Split-Half-Rel. �Paralleltestrel. �Konsistenzanalyse

�Inhaltsvalidität �Empirische Val. �Konstruktvalidität (�Testfairness)

Page 10: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

10

Herstellung von Durchführungsobjektivität: • Vereinheitlichung der Aufgabenstellung, der Bearbeitungszeit, der Erläuterung der

Aufgaben, der zulässigen Hilfsmittel usw. • Gleichheit der Instruktionen für alle Prüflinge (z.B. schriftlich oder mit Tonband). • Strikte Beachtung von Verfahrensregeln • Beispiel: Beim Diagnostischen Rechtschreibtest (DRT 3) werden genaue

Anleitungen zur Aussprache eines Wortes, zum Zeitraum der Testdurchführung und der Zeitdauer gegeben. Außerdem wird festgelegt, wie der Test einzuführen ist, wie die Sätze zu diktieren sind und wie oft ein Wort vorgelesen werden darf.

Positive Wirkung haben folgende Faktoren (gehen evtl. zu Lasten der Objektivität):

• Der Testleiter ist eine vertraute Person. • Positive und angenehme Atmosphäre.

Schwierigkeiten:

• Personale Faktoren nur schwer beeinflussbar (z. B. Prüfungsangst!), nur durch Individualisierung ist Objektivität erreichbar!

• Verstehensprobleme bei formelhaftem Vortragen der Anweisungen. • Nicht alle Bedingungen der Testdurchführung lassen sich standardisieren, z.B.

gesundheitliche Tagesverfassung der Probanden. • Bei mündlichen Prüfungen ist Durchführungsobjektivität automatisch niedriger, da

keine Gleichzeitigkeit gegeben ist.

2.2.2. Auswertungsobjektivität: Ergebnis unabhängig vom Untersucher Verschiedene BeurteilerInnen sollten zu gleichen Ergebnissen gelangen. Die meisten Untersuchungen über die Schwächen der traditionellen Leistungsbeurteilung beziehen sich auf die mangelnde Auswertungsobjektivität (z. B. wenn verschiedene Lehrer Klassenarbeiten unterschiedlich bewerten). Herstellung von Auswertungsobjektivität:

• Beurteilungsverfahren mit festgelegten Kriterien (für jede Aufgabe wird genau festgelegt, was mit wie vielen Punkten bewertet wird) à Nur Auszählung (z. B. Diktatfehler, Ablesen d. Größe einer Person am Maßband)

• Beurteilungsverfahren mit geschlossenen Antwortformen (Erhebungsverfahren auf Multiple-Choice-Basis à Auswertung mit Schablonen oder maschinell)

Schwierigkeiten:

• Bei Aufsätzen o. ä. ist die Auswertungsobjektivität eher negativ beeinträchtigt

Page 11: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

11

2.2.3. Interpretationsobjektivität: Verschiedene Beurteiler interpretieren das gleiche Auswertungsergebnis gleich

Aus gleichen Ergebnissen sollten auch die gleichen diagnostischen Schlüsse gezogen werden (erst hier findet in der Schule Notengebung statt!). Interpretationsobjektivität ist schwieriger zu erreichen als Auswertungsobjektivität.

Mangelnde Interpretationsobjektivität: Schüler hat 12 Punkte erreicht à Ein Lehrer gibt Note 2, der andere Note 4. Ein Testergebnis kann grundsätzlich nach vorliegenden Normentabellen in die Leistungsverteilung oder in das erreichte Lernniveau eingeordnet werden, es kann aber auch notwendig sein, Ergebnisse abzuwägen, zu gewichten und zu bewerten (z. B.: Schulleiter entscheidet, ob Kind eingeschult werden kann oder Zusatzförderung braucht - nach ärztlichen Gutachten, Angaben der Eltern...). Herstellung von Interpretationsobjektivität:

• Existenz von festen Regeln für diagnostische Schlussfolgerungen (z. B. normierte Leistungstests, Fragebögen, Rohwerte aus Tabellen ablesen...)

• Einige Daumenregeln zur Notengebung: - Punktwerte so zusammenzufassen, dass sich für die Noten eine

Normalverteilung ergibt. - Positive Bewertung ab der Hälfte der erreichten Punkte zu vier äquidistanten

Klassen zusammenfassen. (mit 50 % à Note 4) • Möglichst umfassende Dokumentation von Datenerhebungen und –analysen

Schwierigkeiten:

• Je unterschiedlicher die zu verarbeitenden Informationen und je zahlreicher sie sind, desto schwieriger ist es sie objektiv, d.h. unter Ausschaltung intersubjektiver Einflüsse, zu interpretieren (z. B. bei Übertritt: Zusammenfassung außerleistungsmäßiger Faktoren wie Lernbereitschaft, Unterstützung der Eltern...)

Insgesamt:

Objektivität ist die notwendige Voraussetzung für die Zuverlässigkeit und Gültigkeit einer Messung/ eines Prüfsystems. Eine Messung, die nicht objektiv ist, kann auch nicht zuverlässig und gültig sein.

Page 12: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

12

2.3. Reliabilität = Grad der Messgenauigkeit Unter Reliabilität eines Tests versteht man den Grad der Genauigkeit, mit dem er ein bestimmtes Persönlichkeits- oder Verhaltensmerkmal misst (Lienert, 1967). Testergebnisse sind normalerweise mit Fehlern behaftet. Ein im Test beobachteter Wert setzt sich zusammen aus der Summe eines wahren Wertes (konstant, aber nicht messbar) und eines Fehlerwertes (labil, kann an Gegenstand, Messinstrument oder Beurteiler liegen à Häufiges Messen nötig!). Bei der Zuverlässigkeit einer Messung im sozialwissenschaftlichen Bereich muss bedacht werden, dass die Messung nicht zuverlässiger sein kann als die Stabilität des Merkmals (labiles Merkmal (z. B. Stimmungen) ungenauer als stabiles (z. B. Rechtschreibkenntnisse)). Weiterhin ist klarzustellen, dass die Reliabilität sich immer auf das Testverfahren bezieht und nicht auf die Probanden. Reliabilität ist (wie Objektivität) ein formales Kriterium, es sagt nichts über den Inhalt aus! Der Grad der Zuverlässigkeit einer Messung wird durch den Zuverlässigkeits- oder Reliabilitätskoeffizienten bestimmt. Der Zuverlässigkeitskoeffizient r ist ein Korrelationskoeffizient, der angibt, in welchem Maße unter gleichen Bedingungen gewonnene Messwerte über ein und denselben Probanden übereinstimmen, in welchem Maße das Testergebnis reproduzierbar ist (Lienert, 1969). Kurze Erklärung zum Korrelationskoeffizienten: (Ingrisch-Seminar) Statistisches Hilfsmittel, um Zusammenhänge zwischen Werten zu messen bzw. zu überprüfen. Die Daten werden paarweise zusammengesetzt und mit Durchschnitt verglichen. Ergebnis ist ein Koeffizient zwischen -1 und 1.

a) r = + 0.45 Positive Korrelation: Je größer/ kleiner Wert x, desto größer/ kleiner ist Wert y. (z. B. Körpergröße - Schuhgröße) 0.45: mittlerer Zusammenhang.

b) r = 0 Kein Zusammenhang zwischen Wert x und y.

c) r = - 0.80 Negative Korrelation: Je größer/ kleiner Wert x, desto kleiner/ größer Wert y. (z. B. Anz. Regentage - Sonnentage, Leistung-Notenwert!) 0.80: hoher Zusammenhang.

Korrelationen machen jedoch keine Aussagen über kausale Zusammenhänge! Um den Grad der Genauigkeit (also die Reliabilität) eines Verfahrens zu optimieren, müssen Messfehler minimiert werden. Dazu unterscheidet man zunächst verschiedene Arten der Reliabilität, die im Folgenden beschrieben werden.

y

x

a)

y

x

c)

y

x

b)

Page 13: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

13

2.3.1. Wiederholungsreliablität = erneute Messung nach einiger Zeit Die Messung wird wiederholt und mit den Ergebnissen der ersten Messung verglichen, dazu ist allerdings zeitliche Stabilität des Merkmals nötig.

Beispiele: Mehrmaliges Abwiegen von 1 Liter Milch oder Messen der Größe einer Person durch wiederholtes Messen. Bei der Wiederholungsreliabilität lässt man also die gleichen Aufgaben von den gleichen Versuchspersonen zu verschiedenen Zeiten bearbeiten.

Schwierigkeiten: • Wird bei der Leistungsmessung selten angewendet, da man bei Wiederholung mit

Übungseffekten rechnen muss! à Verfälscht die Messung • Bei Lernleistung handelt es sich nicht um ein stabiles Merkmal

2.3.2. Split-Half-Reliabilität = Teilung eines Tests Um nicht wie oben die zeitliche Stabilität fordern zu müssen, wird bei der Split-Half-Methode die Aufgabenzusammenstellung halbiert und getrennt ausgewertet, es erfolgt also nur ein Testdurchgang.

Beispiel: 1 Liter Milch durch Abwiegen von 2 Hälften bestimmen, bzw. Leistung bei Aufgaben 1 - 10 und 11 - 20 vergleichen. Danach lässt sich der Zusammenhang beider Testhälften berechnen (Koeffizient der inneren Konsistenz gibt an, ob Testhälften gleichwertig sind).

Schwierigkeiten: • Funktioniert nur bei konsistenten Tests (keine Staffelung nach Schwierigkeit)

[evtl. odd- / even-Methode: Teile auf in 1,3,5,7 und 2,4,6,8.] 2.3.3. Paralleltestreliabilität = Verwendung mehrerer gleichartiger Testformen Hier werden zwei oder mehrere verschiedene, aber gleichwertige (parallele) Aufgabensammlungen, die sich inhaltlich möglichst ähnlich sind, verwendet. Sie werden gleichzeitig, unmittelbar nacheinander oder mit einigem zeitl. Abstand bearbeitet.

Beispiele: 1 Liter Milch durch Abwiegen mit 2 Waagen bestimmen oder gleichwertige Angaben A und B in einer Schulaufgabe (z. B. Mathe: gleiche Rechenwege, verschiedene Zahlen). Der Zusammenhang der Ergebnisse kann berechnet werden (Äquivalenzkoeffizient gibt an, wie gleichwertig die beiden Tests sind).

Schwierigkeiten: • Gleichwertigkeit mehrerer verschiedener Tests ist kaum möglich (Behaltenseffekt)

Page 14: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

14

2.3.4. Konsistenzanalyse = Zerlegung eines Tests in einzelne Items Ein Test wird in seine einzelnen Items (Fragen, die die gleiche Fähigkeit messen) zerlegt und aus dem Zusammenhang zwischen den Itemsbeantwortungen auf Messgenauigkeit rückgeschlossen.

Beispiel: 1 Liter Milch durch Abwiegen von vielen kleinen Teilen bestimmen. Der Zusammenhang der Ergebnisse wird in einem Homogenitätskoeffizienten ausgedrückt.

Schwierigkeiten: • Instrument muss homogen sein (keine untersch. Themen / Lehrzielhierarchien).

Aus diesen 4 Methoden können Koeffizienten berechnet werden, die zur Abschätzung des Messfehlers herangezogen werden. Die Reliabilität bzw. der Standardmessfehler sind wichtige Angaben für die Messgenauigkeit eines Verfahrens. (Es lässt sich ein Vertrauensintervall um das konkrete Testergebnis berechnen, in dem der unverfälschte Wert des Probanden liegt). 2.3.5. Herstellung von Reliabilität Faktoren, die sich auf die Messgenauigkeit und somit auf die Reliabilität eines Tests negativ auswirken können:

• Ungenauigkeit des Messinstruments (z.B. Stichprobenfehler, die bei der Auswahl der Testaufgaben entstehen können à Vorteile / Nachteile bei best. Aufgabentypen)

• Umgebungsfaktoren (z.B. unzureichend gelüftete Räume, Lärmpegel, Beleuchtung, abgebrochene Bleistifte...) à Diese Mängel sind vom Testleiter durch sorgfältige Planung auszuschalten!

• Temporäre Veränderungen des Probanden (z.B. Krankheit, Müdigkeit, Desinteresse, Sorgen, Stimmungen...)

• Ungenaue Durchführung und Auswertung durch den Versuchsleiter (z.B. ungenaue, nicht eindeutige Arbeitsanweisungen, unklar formulierte Aufgaben)

Diese Faktoren gilt es zu optimieren, um möglichst gute Reliabilität zu erreichen.

Es ist unmittelbar einleuchtend, dass Zuverlässigkeitskoeffizienten z.T. je etwas anderes messen. Je größer der Zeitabstand zwischen den Messungen ist, desto stärker können sich Einflüsse auswirken (Motivierung, zwischenzeitliche Lernergebnisse, ...), die nicht mangelnder Zuverlässigkeit des Messinstruments angelastet werden können. Bei sonst gleicher Aufgabenzahl und -qualität können wir daher nach der Split-Half-Methode die höchsten (r ≥ 0,90) und nach der Methode der zu verschiedenen Zeiten durchgeführte Parallelenformen die niedrigsten (r ≥ 0,80) Zuverlässigkeitskoeffizienten erwarten. Insgesamt:

Die Reliabilität einer Messung sagt nur etwas darüber aus, wie genau gemessen wird, aber nicht, was gemessen wird. Aber sie ist Voraussetzung für die Gültigkeit eines Verfahrens!

Messfehler

aus der Reliabilität berechnet

Vertrauensintervall um das konkrete Testergebnis

Page 15: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

15

2.4. Validität: Test misst das, was er messen soll Die Validität eines Verfahrens sagt etwas darüber aus, ob tatsächlich das gemessen wird, was man messen will und nicht irgendetwas anderes (Ingenkamp). Definition von Lienert (1967): „Die Validität eines Tests gibt den Grad der Genauigkeit an, mit dem dieser Test dasjenige Persönlichkeitsmerkmal oder diejenige Verhaltensweise, das (die) er messen soll oder zu messen vorgibt, auch tatsächlich misst. Ein Test ist demnach vollkommen valide, wenn seine Ergebnisse einen unmittelbaren und fehlerfreien Rückschluss auf den Ausprägungsgrad des zu erfassenden Persönlichkeits- oder Verhaltensmerkmal zulassen, wenn also der individuelle Testpunktewert eines Probanden diesen auf der Merkmalskala eindeutig lokalisiert.“ Validität ist keine generelle Eigenschaft, ein Test kann für einen bestimmten Zweck valide sein und für einen anderen nicht. Validität ist (im Gegensatz zu Objektivität und Reliabilität!) ein inhaltliches Kriterium! Validität darf nicht mit Reliabilität verwechselt werden, z. B. Versuch, Intelligenz mit Meterstab zu messen à Es ergibt sich mehrfach gleiches Ergebnis (z. B. 90 cm) à Reliabilität ist gegeben! Aber natürlich kann Intelligenz so nicht gemessen werden! Um festzustellen, ob man tatsächlich das gemessen hat, was man messen wollte, braucht man allerdings ein Kriterium. Je nach Art des Kriteriums unterscheidet man im Allgemeinen drei bzw. vier Arten von Validität in der Testmethodik: 2.4.1. Inhaltsvalidität: Test (bzw. Items) repräsentiert das zu messende Merkmal optimal Lukesch: „Spricht man von inhaltlicher Validität, so nimmt man an, dass ein Test oder dessen Elemente so beschaffen sind, dass sie das in Frage stehende Persönlichkeitsmerkmal und dergleichen in optimaler Weise repräsentieren, dass also der Test selbst das optimale Kriterium für das Persönlichkeitsmerkmal ist.“ à Inhaltsvalidität ist zentral in der Schule: Ein valider Test muss eine repräsentative Stichprobe derjenigen Unterrichtsinhalte umfassen, deren Kenntnis es zu prüfen gilt. Der Lehrer muss vorher eine inhaltliche Analyse durchführen (Diagnostiziert der Test, inwieweit Unterrichtsziele erreicht worden sind? Werden Ziele durch Testaufgaben angemessen repräsentiert?). Beispiele:

- Test über Groß- und Kleinschreibung von Verben à Es dürfen nicht Schwierigkeiten wie Schreibung von i, ie, ieh eingebaut sein.

- Rechenaufgaben mit Text à Es sollten keine zu hohen Anforderungen an Leseverständnis gestellt werden, um mathematische Fertigkeiten zu prüfen.

- Überprüfung der Mathematikkenntnisse der 10. Klasse mit Aufgaben der Algebra à Zur allgemeinen Überprüfung sollte Geometrie nicht fehlen!

Schwierigkeiten:

• Inhaltsvalidität ist sehr schwer festzustellen

Page 16: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

16

2.4.2. Empirische Validität: Aus Ergebnissen kann Verhalten vorhergesagt werden Bei der Feststellung der empirischen Validität / Kriteriumsvalidität steht nicht im Vordergrund, welche Eigenschaften oder Strukturen durch den Test gemessen werden sollen, sondern ob aus dem Testverhalten ein bestimmtes Verhalten vorhergesagt werden kann. Sie ist rein auf das Empirische ausgerichtet. [Lukesch, Band 3, Kap. 2]. Nach Cronbach (1970) wir die empirische Validität in eine „predictive“ (Vorhersagevalidität) und eine „concurrent validity“ (Gleichzeitigkeitsvalidität) unterteilt, je nachdem ob das Verhalten, auf das geschlossen wird, in der Zukunft liegt, oder gleichzeitig (außerhalb der Testsituation nachweisbar). Man spricht von innerer Validität, wenn das Kriterium selbst wieder ein Test ist, und von äußerer Validität, wenn das Kriterium kein Test, sondern ein anderer Verhaltensaspekt ist. Beispiele:

- Gleichzeitigkeitsvalidität: Intelligenztest A sollte Ergebnisse von Intelligenztest B vorhersagen können.

- Gleichzeitigkeitsvalidität: Gültigkeit von Schultests wird mit dem Grad der Übereinstimmung ihrer Ergebnisse mit Schulnoten ermittelt. à Vorgehen problematisch, da Schultests ja gerade aus Unzulänglichkeit der Schulnoten verwendet werden sollen.

- Vorhersagevalidität: Test in der Grundschule (z. B. Empfehlung des Grundschullehrers, Intelligenztest) soll den Oberschulerfolg (z. B. Erfolg / Intelligenz in der 10. Klasse) vorhersagen.

Schwierigkeiten:

• Ein Test, der Verhalten zu 100 % vorhersagen kann, ist kaum konstruierbar

Empirische Validität / Kriteriumsvalidität

Gleichzeitigkeitsvalidität (konkurrente Validität)

Vorhersagevalidität (prädiktive Validität)

Innere Validität (Kriterium ist anderer Test)

Äußere Validität (Krierium ist

anderer Verhaltensaspekt)

Innere Validität (Kriterium ist ein

anderer später durchgeführter Test)

Äußere Validität (Kriterium ist anderer in Zukunft liegender

Verhaltensaspekt)

Page 17: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

17

2.4.3. Konstruktvalidität: Es wird das Konstrukt gemessen, das man messen will Ein Konstrukt ist eine relativ stabile, theoretisch angenommene Eigenschaft, die nicht beobachtbar ist (z. B. Angst, Intelligenz...). Die Erfassung von Konstrukten ist nur durch die Erstellung von Theorien möglich, die festlegen, wodurch sich Konstrukte in der beobachtbaren Ebene zeigen. Durch die Erhebung von messbaren Fähigkeiten (z. B. mentales Rotieren, Ängstlichkeit...) und die darauffolgende Einbettung der Ergebnisse in ein Netzwerk von konstruktspezifischen Theorien („nomologisches Netzwerk“) lassen sich Konstrukte nachweisen.

Beispiel Intelligenz:

Man kann nur beobachtbare Fähigkeiten messen und daraus auf die Ausprägung der Intelligenz schließen.

Beispiel Prüfungsangst: Wir können z.B. mit einem Fragebogen „Prüfungsangst“ messen. Ob sie valide gemessen wurde, können wir nur abschätzen, wenn wir überprüfen, ob sich theoretisch erwartete positive oder negative Beziehungen nachweisen lassen. à Fällt z.B. bei einem Probanden mit hoher Prüfungsangst unter Zeitdruck der Leistungserfolg besonders stark ab, reagieren intelligente Prüfungsängstliche anders als weniger intelligente, lassen sich körperliche Begleiterscheinungen (wie Schwitzen oder Zittern) nachweisen? Das Instrument ist dann konstruktvalide, wenn die tatsächlich gefundenen Beziehungen mit dem theoretischen Modell hohe Übereinstimmung zeigen.

Schwierigkeiten: • Da Konstrukte nicht direkt beobachtbar sind, kann nur schwer festgelegt werden,

welche beobachtbaren Kennzeichen für sie typisch sind. 2.4.4. Testfairness: Keine Benachteiligung von Subgruppen Weiterhin sollte bei diagnostischen Verfahren auf Testfairness geachtet werden. Beispiele:

- Benachteiligung von ausländischen Testpersonen bei sprachgebundenen Intelligenztests - Kulturgebundenheit von Intelligenztests (culture fair tests: möglichst unabhängig von

Kultur, Bildungsgrad und verbaler Kompetenz) Schwierigkeiten:

• Kulturunabhängigkeit nur schwer möglich

Muster vervollständigen

mentales Rotieren

Intelligenz Konstrukt:

nicht beobachtbare Ebene

Fähigkeiten: beobachtbare Ebene

Page 18: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

18

2.4.5. Herstellung von Validität Um hohe Validität herzustellen, sollten folgende Punkte beachtet bzw. eingehalten werden:

• Übereinstimmung von Testinhalt und Unterrichtsinhalt • Eindeutige Arbeitsanweisungen und klar formulierte Aufgaben • Operationalisierung der Lernziele (genaue Angaben über die notwendige

Lehrtätigkeit, die Inhaltsbeschreibung, das angestrebte Endverhalten mit den Bedingungen, unter denen es gezeigt werden soll, und den Maßstab, an dem es gemessen werden soll)

• Lehrer sollte inhaltliche Analyse durchführen (Diagnostiziert der Test, inwieweit die von ihm ausgewählten Unterrichtsziele erreicht worden sind? Werden diese Ziele durch die Testaufgaben angemessen repräsentiert?)

Insgesamt:

Die Validität ist das einzige inhaltliche Kriterium und macht eine Aussage darüber, ob gemessen wird, was gemessen werden soll. Sie ist ein sehr wichtiges Kriterium für die Güte einer diagnostischen Messung.

2.5. Nebengütekriterien Neben den drei großen Hauptgütekriterien sollte ein guter Test auch die weniger wichtigen Nebengütekriterien möglichst gut erfüllen. 2.5.1. Normierung: Einordnung der Ergebnisse in ein Bezugssystem Diagnostische Ergebnisse sind nicht aus sich selbst heraus interpretierbar, Schlüsse können nur durch Vergleich mit anderen Ergebnissen gezogen werden. Dazu stehen drei Bezugsgruppen zur Verfügung à Individuelle (intraindividuelle) Norm (Vergleich mit früheren Leistungen derselben Person) à Soziale (interindividuelle) Norm (Vergleich mit Vergleichsgruppe) à Ideale Norm (Vergleich mit gesetztem Kriterium) 2.5.2. Nützlichkeit und Zumutbarkeit: Bestehendes Bedürfnis für das Verfahren Ein Test ist nützlich, wenn er ein Persönlichkeitsmerkmal misst, für dessen Untersuchung ein praktisches Bedürfnis besteht. Nützlichkeit hoch = kein anderer Test misst dasselbe ebenso gut. Die Zumutbarkeit ist ein subjektives Merkmal, sie ist das Ausmaß, in dem ein Test die getestete Person in zeitlicher, psychischer sowie körperlicher Hinsicht beansprucht. 2.5.3. Ökonomie: Einfache und schnelle Handhabung Nach Lienert ist ein Test nur dann ökonomisch, wenn er eine kurze Durchführungszeit beansprucht, wenig Material braucht, einfach zu handhaben ist, als Gruppentest durchführbar ist und schnell und bequem auswertbar ist. 2.5.4. Vergleichbarkeit: Übereinstimmung mit ähnlichen Verfahren lässt sich untersuchen Ein Test ist vergleichbar, wenn

- eine oder mehrere Paralleltestformen vorhanden sind - validitätsähnliche Tests verfügbar sind (überprüfen ähnliche Merkmale)

Vergleichbarkeit dient der Reliabilität und Validität, ist jedoch nicht zwingend notwendig. 2.5.5. Akzeptanz: Verfahren von der Öffentlichkeit anerkannt Die Güte eines Tests wird auch von der Öffentlichkeit beeinflusst. Akzeptanz = Ausmaß, in dem subjektive Meinungen, Bewertungen oder gesellschaftspolitische Überzeugungen gegen einen Test angeführt werden. Beispiel: Absinken der Verkaufszahlen von formellen Schulleistungstests in den 90ern

Page 19: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

19

3. Fähigkeits- und Leistungstests Begriffunterscheidung:

• Fertigkeit: Technik, Erfahrung, Kenntnisse, durch Übung erworben • Fähigkeit ist das gegenwärtige verfügbare Potential, etwas zu leisten; nicht beobachtbar • Eignung ist das Leistungsvermögen, nachdem Übung stattgefunden hat • Leistung bezieht sich auf die bisherigen Erfolge bei der Bewältigung von Aufgaben; beobachtbar, läßt auf

Fähigkeit und Fertigkeit schließen 3.1. Aufbau von Testverfahren

1. Fähigkeitstests können breite oder spezielle intellektuelle Fähigkeiten umfassen. Die am häufigsten verwendeten Tests dieser Art sind Tests - der verbalen und mathematischen Fähigkeiten - der räumlichen Auffassung - des mechanischen Verständnisses - der schriftlichen Ausdrucksfähigkeit Fähigkeitstests sind normbezogen. Sie werden dazu verwendet, Informationen zur Anleitung und Beratung von Schülern zu erhalten.. 2. Leistungstests messen die Unterrichtsziele eines bestimmten Kurses oder einer anderen Einheit des Curriculums. Leistungstests dienen der Messung und Bewertung der Ergebnisse zurückliegender Lernerfahrungen. Der Inhalt von Leistungstests sollte im Gegensatz zu Fähigkeitstests im hohen Grad unterrichtsbezogen sein. Ein Leistungstest sollte also z.B. die Kenntnisse in Geographie oder den französischen Wortschatz überprüfen und nicht das räumliche Vorstellungsvermögen messen.

3.2. Intelligenztest und Schulleistungstest 3.2.1. Intelligenztest Exkurs: Intelligenz • Strukturmodelle der Intelligenz (vgl. Bereich II)

• Geschichte der Intelligenzmessung

(1) Psychiatrie: Esquirol (1772 – 1840), frz. Psychiater, verwendete bereits 1938 die Sprachbeherrschung, um den Ausprägungsgrad von Schwachsinn abzuschätzen. Emil Kraepelin (1855 – 1926), dt. Psychiater: Verfahren, die sich möglichst an Alltag anlehnen.

(2) Genetik: Francis Galton (1822 – 1911), engl. Biologe, Einführung des Begriffs „Test“ zur Messung von Persönlichkeitseigenschaften, Erblichkeit.

(3) Experimentelle Psychologie James McKeen Catell Begründer der Testpsychologie

(4) Schulische Anwendungsaspekte Ebbinghaus (1850 – 1909) Prüfung von Rechenfähigkeit, Gedächtnis und Kombinationsfähigkeit Alfred Binet (1857 – 1911) + Simon (1911)

1.Erfassung von Intelligenz muss dort ansetzen, wo sich Intelligenz unmittelbar zeigt 2.Galtons Testreihe 3.Intelligenz ist nicht absolut messbar, sondern relativ

Intelligenzalter (IA) = Niveau der intelligenten Entwicklung (5) Differentielle Psychologie

William Stern (1900): Intelligenzquotient = (Intelligenzalter: Lebensalter) x 100 David Wechsler (1956): IQ = 100 + [(Xi – aM)/s] x 15

Page 20: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

20

Intelligenztests bestehen aus einzelnen Aufgaben oder „Items“ aus jeweils verschiedenen Itemgruppen oder Untertests. Dabei werden in verbaler oder nonverbaler Form Probleme vorgegeben oder Fragen gestellt, die von der Testperson eine Antwort bzw. Bearbeitung erfordern. Die Fragen in diesem Test sind nach Gruppen geordnet, die im Schwierigkeitsgrad ansteigen. Die Summe der Punkte, die in einem IQ- Test erreicht wurde, bildet dann den Rohwert, der dann in einem aussagekräftigen Standardwert umgewandelt wird. IQ- Tests tendieren in der Regel zu einer Normalverteilung. Allgemeines:

- Im Unterschied zum Leistungstest (misst tatsächlich erbrachte Leistungen in einzelnen Fächern) werden die Inhalte von Intelligenztests gewöhnlich nicht explizit in der Schule unterrichtet

- Intelligenztests testen mehr die fluiden Fähigkeiten, Leistungstests eher kristall. Wissen - Entwicklung der Intelligenz: Intelligenzstabilisierung im Alter von etwa 12 Jahren Beispiel: HAWIK-R (Hamburg-Wechsler-Intelligenztest für Kinder): - allgemein anerkannter Test - berechnet eher unterdurchschnittliche Intelligenz (nicht zur Begabtenauslese geeignet) - eignet sich gut zur Feststellung der Allgemeinintelligenz - wird meist im Zusammenhang mit schulischen Fragen verwendet (z.B. bei Überweisung an Sonderschulen oder zur Berufsberatung) - dauert 1 – 2 Stunden - besteht aus 11 Untertests: (a) Verbalteil (bezieht sich eher auf Schulisches Wissen)

• Allgemeines Wissen (Wie heißen die 4 Jahreszeiten?) • Allgemeines Verständnis (Warum hat jeder Mensch einen Namen?) • Rechnerisches Denken (Welche Zahl musst du durch 7 teilen ...?) • Gemeinsamkeit finden (Was ist das Gemeinsame bei Schmetterling und Fliegen?) • Wortschatz- Test (Was ist ein Streik?) • Zahlen nachsprechen (Zahlenfolgen unterschiedlicher Länge werden vorgesprochen

und müssen wiederholt werden.) (b) Handlungsteil (in der Schule meist nicht behandelt)

• Zahlen- Symbol- Test (Zuordnen von Zahlen und Symbolen unter Zeitdruck) • Bilder ergänzen (fehlende Details sollen angegeben werden) • Bilder ordnen (Vier bis sechs Bilder sollen sinnvoll geordnet werden) • Mosaik- Test (Geometrische Muster sollen zusammengesetzt werden) • Figuren legen (Zerschnittene Figuren sollen wieder zusammengesetzt werden)

Analog gibt es HAWIE-R für Erwachsene Weitere Beispiele:à vgl. Bereich II - IST (Intelligenz-Struktur-Test) - PSB (Prüfsystem für Schul- und Bildungsberatung)

Page 21: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

21

3.2.2. Schulleistungstest Definition von Ingenkamp (1997): Schulleistungstests sind Verfahren der PD, mit deren Hilfe Ergebnisse geplanter und an Curricula orientierter Lernvorgänge möglichst objektiv, zuverlässig und gültig gemessen und durch Lehrende oder Beratende ausgewertet, interpretiert und für pädagogisches Handeln nutzbar gemacht werden können.

Schulleistungstests dienen der Untersuchung darüber, ob - und eventuell wie gut - ein Lernziel erreicht ist. Die hierbei verwendeten Testaufgaben sind nicht identisch mit dem Lernziel, sondern repräsentieren es nur und dienen dazu, den individuellen Fähigkeitsgrad zu vergleichen.

Man unterscheidet verschiedene Arten von Schulleistungstests:

• formelle (standardisierte und normierte) mit den Untergruppen o bezugsgruppenorientierte Tests und o kriteriumsorientierte Tests sowie

• informelle Tests (von Lehrern nach festen Aufbaukriterien konzipiert)

Man unterscheidet meist nicht zwischen bezugsgruppen- und kriteriumsorientierten informellen Tests, sie können sich aber auch sowohl an gruppenbezogenen Normen als auch an Lernzielen orientieren (vgl. Skizze).

3.2.2.1. Möglichkeiten der Schulleistungstestkonstruktion Verfahren zur Messung kognitiver Schulleistungen kann man danach klassifizieren - welchen Normbezug sie aufweisen (soziale oder ideale Norm) - nach dem Grad der Standardisierung (formell und informell) Gemeinsamkeiten der vier Testvarianten: - inhaltliche Validität muss immer aufgrund einer Lehrzielanalyse bestimmt werden - lehrzielorientierte Tests können bei anderer Standardisierung auch als normorientierte Tests

verwendet werden - normorientierte Tests enthalten zumeist Aufgaben auf mittlerem Lehrzielniveau - informelle Tests unterscheiden sich von anderen nur durch den Grad der Normierung (d.h.

durch den Bezug auf eine oder wenige Schulklassen).

normorientierte Schulleistungstest

Lehrzielorientierte Schulleistungstests

Informelle normorientierte Tests (ev. auch Klassenarbeiten im herkömmlichen Sinn)

Informelle lehrzielorientierte Tests

formell

Soziale Norm (vergleichsbezogen)

Ideale Norm (lehrziel-bezogen

In-formell

Page 22: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

22

Überblick über die Möglichkeiten der Konstruktion von SLT:

3.2.2.2. Formeller Schulleistungstest Formelle Tests = standardisierte + normierte

3.2.2.2.1. Bezugsgruppenorientierte (=sozialnormorientierte) Tests In Analogie zu der Definition von Tests nach Lienert (vgl. 1.3.1) können normorientierte Schulleistungstests wie folgt umschrieben werden. Definition von Lukesch: [Lukesch, Band 3, Kap. 13] „Ein (sozial-)normorientierter Schulleistungstest ist ein wissenschaftliches Routineverfahren zur Feststellung des Kenntnisstandes in einem (oder mehreren) inhaltlich spezifizierten kognitiven Lehrzielbereich(en);dabei werden Aussagen über die Leistungshöhe aufgrund des Vergleiches mit den Leistungen einer für die jeweilige Altersstufe, Schulstufe oder Schulart repräsentativen Stichprobe getroffen.“ Bei den bezugsgruppenorientierten Tests werden die individuellen Testergebnisse mit denen einer Bezugsgruppe verglichen. Daher muss die Bezugsgruppe für den jeweiligen Zweck des Tests repräsentativ sein.

Klassifika-tionen

formell vs informell

summativ vs formativ

allgemein vs fächerspezifisch

formell: � von Testexperten entwickelt � Gütekriterien werden streng berücksichtigt � Normierung an einer Stichprobe � Ziel: Prüfung allgemeinerer Lernziele

informell: � i. d. R. von Lehrern entwickelt � Gütekriterien werden weniger streng berücksichtigt � keine Normierung an einer Stichprobe � Ziel: Prüfung spezifischerer Lernziele

summativ: � den Lernprozess abschließend � formelle Schulleistungstests werden meist summativ eingesetzt

formativ: � den Lernprozess begleitend

normorientiert vs kriteriumsorientiert

normorientiert: � = bezugsgruppenorientiert, sozialnormorientiert � Zweck = Vergleich der Schülerleistungen innerhalb einer Gruppe

kriteriumsorientiert: � = lehrzielorientiert, idealnormorientiert � Zweck = Erfassung der Schülerleistungen in Bezug auf ein o. mehrere Lernziele

allgemein: � fächerübergreifend � v.a. in Grundschule

fächerspezifisch: � v.a. an weiterführenden Schulen

Page 23: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

23

Konstruktion normorientierter Schulleistungstests (1) Analyse der Lehrpläne � Sicherung der inhaltlichen Validität: Lehrpläne nach Lehrzielen analysieren - Erfassung der Lehrziele durch ExpertInnenratings der Lehrpläne (curriculare Validität) - Erfassung der Lerngelegenheit durch Lehrer- & Schülerurteile, àKlassenunterlagen � Erstellen einer Lehrzielmatrix: stellt Suchschema dar und erleichtert das Auffinden geeigneter Aufgaben (Auf welcher Höhe der Anforderungen sollen welche Inhalte eines Lehrziel erfasst werden?)

- Dimensionen der Matrix: Inhalt (= Lehrziele) & Verhalten (à Taxonomie von Bloom, 1976; à Wissen , Verstehen, Anwenden, Analyse, Synthese, Beurteilung)) [Mietzel, Kap. 7]

(2) Entwurf von Testitems (Aufgaben) � allgemeine Regeln nach Ebel: keine doppelten Verneinungen, nicht zu viele Lücken in Lückentext, einfache Satzkonstruktion, eindeutige und möglichst klare Formulierungen, keine verdeckten Hinweise auf richtige Antwort usw. � formale Gestaltung: - gebundene Antworten: + Auswahlantworten: richtig/falsch; multiple choice

+ Ordnungsaufgaben: Zuordnungs-; Umordnungsaufgaben - freie Antworten: + Ergänzungsaufgaben (Lückentext) + Kurzantwortaufgaben + Kurzaufsatzaufgaben � Festlegung der zugelassenen Hilfsmittel � Konstruktion von 50 – 100% mehr Aufgaben als für Endform nötig � Beurteilung der Aufgaben durch erfahrene LehrerInnen à ExpertInnenrating

àAufgabenpool soll die Lehrzielbeschreibung abdecken

(3) Vorerprobung an wenigen Fällen � Überprüfung der Verständlichkeit der Aufgabenformulierung (4) Testdurchführung an einer kleine Stichprobe (200 – 400 SS) � Überprüfung der Aufgaben- und Testlänge (SchülerInnen- & LehrerInnenkommentare) (5) Aufgaben- und Testanalyse mit den Daten der ersten Stichprobe. � Ermittlung der Aufgabenschwierigkeit (eigentlich: Lösungswahrscheinlichkeit) p = (Anzahl der richtigen Antworten / Anzahl der Antworten insgesamt) x 100 p = prozentualer Anteil der auf diese Aufgabe entfallenden richtigen Antworten à bei normorientierten Tests zwischen 20 und 80 (kriteriumsorientiert 80 – 95) à Anordnung der Aufgaben nach ansteigender Schwierigkeit (Beginn: Eisbrecherfragen) � Distraktoranalyse bei gebundenem Antwortformat: Analyse der Wahlhäufigkeit der Distraktoren (wie oft werden Falschantworten angekreuzt?) à Distraktor sollte zwischen 10 – 15% liegen, p = 50% optimal für richtige Lösung Beispiel bei gebundenem Antwortformat:

- Erstellung einer Tabelle mit Spalten für Distraktoren der versch. Aufgaben, Zeile für Gruppe der besten und Zeile für Gruppe der schlechtesten Arbeiten - Anlegen einer Strichliste über die Wahlhäufigkeiten der einzelnen Antwortmöglichkeiten in den beiden Gruppen è ungünstige Distraktoren: werden von guter Gruppe ebenso häufig oder häufiger gewählt als von schlechter oder weder noch z.B.:

Dist1 Dist2 Dist3 gute Gruppe 1 5 0 schlechte Gruppe 4 4 0

â â â ok ! !

Page 24: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

24

� Trennschärfeberechnung: Wie gut trennt Aufgabe zw. guten & schlechten SchülerInnen? à Zweck des Tests ist ja Ermittlung der starken bzw. schwachen SchülerInnen à Korrelation zwischen Leistung einer Person bei einer Aufgabe (Aufgabenwert) vs. Leistung im Test insgesamt (Gesamtwert) sollte hoch sein à bei mittlerer Aufgabenschwierigkeit am höchsten: zu leichte Aufgabe à gute & schlechte Schüler lösen sie richtig zu schwere Aufgaben à zu wenige Schüler lösen sie richtig; zu geringe

Differenzierung im unteren Bereich à Beispiel: - Ordnen der Testbögen nach Gesamtwert - Entnahme der oberen und unteren 25%, (z. B. je 5 bei Gesamtanzahl 20) - Auszählung der richtigen Antworten bei guten 25% und schlechten 25%, (z. B. 5 x richtig in guter Gruppe, 1 x richtig in schlechter Gruppe) - Anzahl der richtigen Antworten in guter Gruppe minus Anzahl der richtigen Antworten in schlechter Gruppe (z. B. 5 - 1 = 4) - Division der erhaltenen Zahl durch Gesamtzahl der richtigen Antworten in der guten und schlechten Gruppe (z. B. 5 + 1 = 6 à 4 : 6 = 0,66) è Trennsch. sollte möglichst nahe an +1 liegen, bei 0 o. negat. Zahlen ungünstig

� erste Reliabilitätsschätzung � Berechnung der Verteilungskennwerte der Tests: Mittelwert, Streuung, Normalverteilung, usw. (6) Testvalidierung � Überprüfung der empirischen Validität an kleineren Stichproben � Überprüfung der Konstruktvalidität � Berechnung der Reliabilität (7) Testeichung an einer für den Anwendungsbereich repräsentativen Stichprobe � Berechn. von Normwerten, die als Vergleichsgrundlage bei späterer Anwend. des Tests dienen � mögliche Normierungsarten:

- Standardnormen: Mittelwert =0, Streuung =1 (wenn Rohwerte des Tests normal verteilt) - Standardnorm-Äquivalente: Standardnorm x 100 - Prozentrangnormen: Wie viel Prozent der Eichstichprobe liegen oberhalb bzw.unterhalb der Leistung der SchülerInnen? � Problem: u.U. nicht repräsentative Stichprobe, da eher besonders motivierte und / oder gute Klassen und LehrerInnen teilnehmen Einsatzmöglichkeiten sozialnormorientierter Schulleistungstests: Anwendung in der Schulklasse

• Vergleich des Leistungsstandes der ganzen Klasse mit den Eichstichprobe • Überprüfung des eigenen Benotungssystems durch den Vergleich mit Testwertklassen • Objektivierungsmöglichkeit bei Schulart- oder Kurswechsel • Einsatz zur Lehr- und Lernsteuerung • Einsatz zur Unterrichtsdifferenzierung / äußere Diff. (Einteilung nach Leistungsgruppen) • summative Evaluation

Zu Forschungsfragen

• Überprüfung der Effektivität verschiedener Unterrichtsmethoden • Überprüfung der Wirksamkeit von verschiedenen Schulsystemen • Überprüfung der Wirksamkeit verschiedener Methoden der Schülergruppierung • Formative Evaluation und Entwicklung von Lehrplänen • Erarbeitung und Überprüfung von Bedingungsmodellen der Schulleistung

Page 25: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

25

Vor- und Nachteile normorientierter Schulleistungstests: Vorteile: � gute Erfüllung der Gütekriterien, besser als bei herkömmlicher Leistungsbeurteilung! à auch Einsatz in der Forschung möglich � Normierung erlaubt Überprüfung des eigenen Benotungssystems à verhindert Anwendung des klasseninternen Bezugssystems � Überprüfung des Leistungsstandes der Klasse und des eigenen Unterrichts durch Vergleich � gerechtere Selektion � Hilfe bei Entdeckung individueller Schwächen � Überprüfung von Lernvoraussetzungen � Einsatz zur Leistungsdifferenzierung � Einsatz von Computerauswertung � überregionaler Vergleich � summative Evaluation Nachteile: � bei mangelnder curricularer Validität und Lerngelegenheit unfairer Test � negative motivationale / soziale Folgen, z. B. Verlust der intrinsischen Motivation � Erstarrung des Unterrichts und Verarmung der Lehrpläne � häufig veraltet � nicht für alle Unterrichtsfächer verfügbar � eher im kognitiven Bereich � Erfassung von Lernergebnissen und nicht Lernleistungsvoraussetzungen � klassenunabhängige Beurteilung � unökonomisch/Kosten � Sozialnormorient. Schulleistungstests machen Leistungsunterschiede zw. Schulen für den Lehrer überdeutlichàkann zur Änderung der Bewertungsstrategie des Lehrers führen � Gefahr, dass für die Ergebnisse nur schulinterne Faktoren verantwortlich gemacht werden à Äußerst seltene Anwendung von Schulleistungstests In Deutschland sind fast alle Schulleistungstests bezugsgruppenorientierte Tests.

3.2.2.2.2. Kriteriumsorientierte (= lehrzielorientierte) Tests Definition nach Fricke (1973): kriteriumsorientierter Test = „wissenschaftliches Routineverfahren zur Untersuchung der Frage, ob und eventuell wie gut ein bestimmtes Lehrziel erreicht ist.“

Erklärung: Wissenschaftlich: Gütekriterien Routineverfahren: festgelegte Durchführung Ob: bestanden vs. nicht bestanden Wie gut: qualitative Stufen Lehrziel: ideale Norm („absolut“) Testaufgaben sind nicht identisch mit dem Lehrziel, sondern repräsentieren es nur und dienen dazu, den individuellen Fähigkeitsgrad eines Schülers mit einem gewünschten Fähigkeitsgrad zu vergleichen à dazu sind folgende Schritte nötig:

• Quantifizierung des Lehrziels • Quantitative Erfassung der Schülerleistung • Messmodell für die zufallskritische Entscheidung darüber, ob das Lehrziel erreicht wurde

(i.d.R. 2/3 aller Punkte)

Page 26: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

26

Bei den kriteriumsorientierten Tests werden individuelle Testergebnisse zu vorher gesetzten Kriterien in Beziehung gesetzt. Die Bezugsgruppe spielt also keine Rolle bei der Testinterpretation. Kriteriumsorientierte Tests sind im Gegensatz zu den bezugsgruppenorientierten Tests mehr von den Feinlehrzielen abhängig, weshalb bezugsgruppenorientierte Tests oft sehr allgemein sind. Prinzipien kriteriumsorientierter Leistungsmessung

• Verwendung von sowohl Aufsatztests als auch von Tests mit kurzen Antworten. • Verwendung von freien Fragen und gebundenen Fragen mit kurzer Antwort

(gebundene Fragen mit richtig/ falsch Antworten oder multiple- choice oder Zuordnungsitems).

• Aufsatztests für komplexe Leistungen. • Breite gegenüber spezifischen Themen. • Formulierung einer Modellantwort. • Grammatikalische Konsistenz des Tests. • Umfang eher gering, sonst kein Leistungs-, sondern Geschwindigkeitstest.

Konstruktionsphasen bei kriteriumsorientierten Tests:

(1) Abgrenzung der Unterrichtseinheit, die geprüft werden soll. (2) Curriculare Analyse: zentrale Bedeutung. àaus all den Aufgaben, die die Unterrichtseinheit

repräsentieren, möglichst repräsentativen Überblick herausziehen. (3) Aufgabenkonstruktion: ähnlich wie bei den bezugsgruppenorientierten Tests. Auch werden gleiche

Aufgabentypen für beide Arten von Tests verwendet; nur die Auswertung unterscheidet sich. (4) (empirische) Aufgabenanalyse: spielt relativ geringe Rolle. Ist die Aufgabe zu schwierig, lief der

Test falsch. Aber: Vorsicht bei der Formulierung der Aufgabe. Ungenaue Formulierungen sind irreführend.

(5) Eichung entfällt, da nicht mit anderen verglichen wird. Stattdessen: Einstufung der Ergebnisse: wann kann man z.B. sagen, das durch Testaufgaben repräsentierte Lernziel sei erreicht, oder in welche Leistungsgruppe (bezüglich des Abstandes vom Lernziel) gehört ein Schüler, wenn z.B. 20 von 30 Punkten erreicht wurden. Daneben muss man sich fragen, ob die gelösten Aufgaben repräsentativ für das angestrebte Lernziel sind. In dieser Phase werden ebenfalls Fragen der Gültigkeit und der Zuverlässigkeit des Tests kritisch betrachtet.

Unterschied zwischen norm- und kriteriumsorientierten Tests:

Bei no. T. wird aus der Verteilung von Mess-werten die Position des Schülers bestimmt

Bei ko. T. muss ein vorgegebenes Kriterium (Lehrziel) vorhanden sein

Bsp: Ein no. Ergebnis könnte sein, dass ein Grundschüler, der 60% von 1x1-Aufgaben richtig gelöst hat, in Bezug auf seine Mitschüler relativ gut abgeschnitten hat.

Bsp: Sollte es aber Lehrziel sein, dass diese Aufgaben mit 90%iger Sicherheit beherrscht werden, dann hat der Schüler das Lehrziel nicht erreicht.

Ingenkamp betont, dass die Praxis beide Testvarianten braucht:

• Kriteriumsorientierte Tests werden dort eingesetzt, wo grundlegende Fähigkeiten getestet werden sollen, die bedeutend für sich allein sind. Es geht um das Verstehen von Einzelheiten.

• Bezugsgruppenorientierte Tests hingegen werden dort eingesetzt, wo ein großes Gebiet mit vielen Einzelheiten beherrscht werden soll. Bezugsgruppen werden deshalb eingesetzt, weil ein Kriterium nicht genau gesetzt werden kann. Diese Tests werden dort eingesetzt, wo es um das Verstehen einer Vielzahl von Beziehungen und Bedingungen zwischen einzelnen Dingen geht.

Page 27: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

27

3.2.2.2.3. Gütekriterien formeller Schulleistungstests Objektivität: (1) Durchführungsobjektivität: � bei formellen Tests sehr gut: - schriftlich fixierte, vorgegebene Instruktion - Beispiele und Übungsaufgaben - Vorgabe des Anwendungszeitraums - Beurteilerschulung (2) Auswertungsobjektivität: � bei gebundenen Antwortformaten maximal à Korrektur mit Schablone � bei freien Antwortformaten Kriterienkataloge notwendig (3) Interpretationsobjektivität: � sehr gut: klare Instruktionen bezüglich der Interpretation der Ergebnisse (Punktwerte à Noten; Angabe qualitativer Fehlerarten; Angabe von Normwerten) � Angabe der Objektivitätskoeffizienten (Ü-Koeffizient bei kriteriumsorient. Tests) im Beiheft Reliabilität: � i. d. R. werden alle vier Arten der Reliabilitätsmessung berücksichtigt � Reliabilitätsmessungen auf der Basis der Stichprobenerhebungen � Angabe der Reliabilitätskoeffizienten im Beiheft Validität: (1) Inhaltsvalidität: � Sicherung der curricularen Validität durch Analyse der Lehrpläne (allerdings i. d. R. nur annäherungsweise zu erreichen) � individuelle Lerngelegenheit kann aber nicht berücksichtigt werden � ExpertenInnenrating bei Lehrplananalyse zur Sicherung der Inhaltsvalidität Erklärung: - Curriculare Validität: Ausmaß in dem die Testitems das Curriculum repräsentieren - Lerngelegenheit: Grad, in dem der Schüler tatsächlich Gelegenheit hatte, die Inhalte eines Schulleistungstests

zu lernen durch - Überprüfung von Unterrichtsunterlagen - Erhebung von Lehrerurteilen - Erhebung von Schülerurteilen

Inhaltliche Validität

Curriculare Validität Lerngelegenheit

Überprüfung von Klassenunterlagen

Lehrer- urteile

Schüler- urteile

Page 28: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

28

(2) Empirische Validität: � Vergleich der Ergebnisse aus den Stichprobenerhebungen mit Schulnoten, Lehrerurteilen usw. (Gleichzeitigkeitsvalidität) � Erhebung der Vorhersagevalidität à bessere prognostische Validität von Tests im Vergleich zu Noten ( Tent, 1969) � Angabe der Koeffizienten im Beiheft (3) Konstruktvalidität: � auf Grund der hohen Objektivität, der Standardisierung und Normierung sehr gut � Angabe der Validitätskoeffizienten im Beiheft

3.2.2.2.4. Beispiele für formelle Schulleistungstests Man unterscheidet: - Mehrfächertests

Hauptanwendungsbereiche bei Fragen der Objektivierung von Schulnoten, der Überprüfung der Förderschulbedürftigkeit sowie bei Spezialfragen (z.B.Legastheniediagnose). Ergebnisse können zu Plazierungs- oder Fördermaßnahmen verwendet werden. (z.B. Hamburger Schulleistungstest für 4. und 5. Klassen, HST 4/5; Schultestbatterie zur Erfassung des Lernstandes in Mathematik, Lesen und Schreiben (2002), SBL II (2002); HAT 9 von Intenkamp (1983) für 2. Halbjahr 9. Klasse. Erfasung der Lehrziele in Dt, Engl, Ma, Phy, Che, Wi, Sk. Ergebnis: Bildungsberatung über weitere Schullaufbahn oder Beruf)

- Rechentests (z. B. Rechentest für 9. Klassen, RT 9+)

RT 9+ (Rechentest 9+ ) 1. Auflage (Von M.H. Bremm und R. Kühn) Hrsg. von Deutsches Institut für Internationale Pädagogische Forschung

EINSATZBEREICH: Ende der 9. Klasse bzw. Anfang der 10. Klasse in Hauptschule und Realschule; Beginn von Berufsschule, Ausbildung oder Beschäftigung. Einzel- und Gruppentest.

DAS VERFAHREN: Der RT 9+ überprüft Mathematikleistungen, basierend auf dem Unterrichtsstoff, der in diesem Fach bis zum Ende des 9. Schuljahres der Hauptschule geboten wird (Bruchrechnen, Prozentrechnen, Zinsrechnen, Gleichungen, Potenzen und Wurzeln sowie Rechnen mit Größen). Die Testeichung erfolgte unter Beteiligung von 3.191 Schülern aus acht Bundesländern. Die Normentabellen erlauben eine differenzierte Auswertung in Bezug auf die einzelnen Untertests bzw. hinsichtlich der Bundesländer.

BEARBEITUNGSDAUER: 2 Unterrichtsstunden. In Anwendung seit 1992.

- Test zur Lese-Rechtschreibschwäche und zu Basiskompetenzen des Schriftspracherwerbs (z.B. Basiskompetenzen für Lese-Rechtschreibleistungen, BAKO 1-4)

Page 29: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

29

- Lesetests (z.B. Zürcher Leseverständnistest, ZLVT 86; Würzburger Leise Leseprobe, WLLP)

LGVT 6-12 (Lesegeschwindigkeits- und verständnistest für die Klassenstufen 6-12) 1. Auflage (Von W. Schneider, M. Schlagmüller und M. Ennemose)r Hrsg. von M. Hasselhorn, H. Marx und W. Schneider

EINSATZBEREICH: Der LGVT 6-12 dient der Ermittlung des Leseverständnisses und der Lesegeschwindigkeit in den Klassen 6 bis 12. Gruppen- und Einzeltest z.B. zur Erstellung von Förderdiagnosen.

DAS VERFAHREN: Die Schüler lesen nach dem Bearbeiten des Übungsbeispiels einen Fließtext mit 1.727 Wörtern. An 23 im Text verteilten Stellen wählen (unterstreichen) die Schüler aus 3 Alternativen das in den Textzusammenhang passende Wort aus.

ZUVERLÄSSIGKEIT: Retestreliabilität (nach 6 Wochen); Leseverständnis: r= .87 (N = 103); Lesegeschwind.: r = .84 (N = 103).

GÜLTIGKEIT: Leseverständnis: PISA2000-Leseverständnistest r = .59 (N = 711) Lesestrategiewissen WLST r = .46 (N = 809) Intelligenztest (CFT) r = .37 (N = 719) Lesegeschwindigkeit: PISA2000-Leseverständnistest r = .35 (N = 711) Lesestrategiewissen WLST r = .25 (N = 809) Intelligenztest (CFT) r = .16 (N = 719).

NORMEN: Gesicherte Normen liegen für die Klassenstufen 6-9 aller Schularten (außer Sonderschule) vor. Zusätzlich sind noch Normen für Realschule 10. Klasse sowie Gymnasium Klassenstufe 10 und 11 vorhanden. Es liegen Prozentrangnormen für die Anzahl korrekter Unterstreichungen sowie die Menge der gelesenen Wörter vor. Die Normierungsstichprobe bestand aus insgesamt 2.390 Schülern aus elf dt. Bundesländern.

BEARBEITUNGSDAUER: Die Durchführungszeit beträgt ca. 10 Minuten (inklusive Instruktionszeit).

WLST (Würzburger Lesestrategie-Wissenstest für die Klassen 7-12) Ein Verfahren zur Erfassung metakognitiver Kompetenzen bei der Verarbeitung von Texten

EINSATZBEREICH: Als Gruppen- und Einzeltest zur Erstellung von Förderdiagnosen.

DAS VERFAHREN: Der WLST dient der Erfassung des Lesestrategiewissens von Schülern der Klassenstufen 7 - 12. Den Schülern werden sechs versch. Lernszenarien dargeboten. Zu jeder Situation sollen sie die Qualität und Nützlichkeit von fünf versch. Vorgehensweisen zur Erreichung eines Lernziels bewerten. Dazu werden versch. Antwortvorschläge vorgegeben, die die Schüler hinsichtlich ihrer Qualität benoten. Hohe Testwerte zeigen, dass der Schüler über effektive Strategien zum Behalten u Verstehen von gelesenen Texten verfügt.

ZUVERLÄSSIGKEIT: Split-Half-Reliabilität: r = .88, Interne Konsistenz: r = .88, Retestreliabilität (nach 6 Wochen): r = .81.

GÜLTIGKEIT: Zusammenhänge mit anderen Verfahren: Leseverständnis (PISA2003): r = .40 (N = 3.386), Schnellleseverständnistest (SLVT): r = .46 (N = 809), Intelligenztest (KFT): r = .41 (N = 3.386).

NORMEN: Es liegen Prozentrangnormen für die erreichte Rohwertpunktzahl aus den Paarvergleichen vor. Die Normierungsstichprobe bestand aus insgesamt 4490 Schülern aus allen deutschen Bundesländern.

BEARBEITUNGSDAUER: Zwischen 20 und 35 Minuten (inklusive Instruktionszeit).

Page 30: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

30

- Rechtschreibtests (z.B. Westermann Rechtschreibtest 6+, WRT 6+; Rechtschreibtest für 6. und 7. Klassen,

RST 6-7; Hamburger Schreibprobe 6. Auflage (2002), HSP)

HSP (Hamburger Schreib-Probe) 6., aktualisierte und erweiterte Auflage (Von P. May)

EINSATZBEREICH: Mitte der 1. bis Ende der 9. Klasse; geeignet für alle Schulformen; Gruppen- und Einzeltest.

DAS VERFAHREN: Die HSP dient der Erfassung des Rechtschreibkönnens. Sie ist sowohl für die Einschätzung individueller Lernstände als auch für die Erhebung klassenbezogener Leistungen geeignet. Die zu schreibenden Testwörter bzw. -sätze werden vom Lehrer vorgelesen und in den Testheften begleitend, anhand von Illustrationen, veranschaulicht. Neben der Zahl richtig geschriebener Wörter wird im ersten Schritt der Auswertung auch die Zahl richtig geschriebener Grapheme ermittelt (Graphemtreffer). Im zweiten Schritt können anhand einer differenzierten Betrachtung richtig und falsch angewandte Rechtschreibstrategien der Kinder bestimmt werden. Die Testergebnisse liefern eine sichere Grundlage sowohl für differenzierte Maßnahmen im Unterricht als auch für die gezielte Einzelförderung von Schülern mit Rechtschreibschwierigkeiten. Durch ihre weit reichende Differenzierung im unteren Leistungsbereich ist die HSP B (B steht für Basisanforderung) auch im sonderpädagogischen Rahmen einsetzbar. Für die Erhebung von Leistungen im oberen Bereich liegt mit der 6. Auflage außerdem ein Verfahren zur Erfassung «erweiterter Kompetenzen (EK)» im Sekundarbereich vor.

ZUVERLÄSSIGKEIT: Die interne Konsistenz für die Gesamtergebnisse liegt zwischen r = .92 und r = .99. Die Stabilität der Gesamtergebnisse liegt (je nach Abstand der Erhebungszeitpunkte) zwischen r = .52 und r = .93.

GÜLTIGKEIT: Die Übereinstimmungsvalidität zwischen der HSP (am Ende der 4. Klasse) und dem WRT 4/5 beträgt r = .87. Die Korrelationen zwischen der Rechtschreibleistung in der HSP und der Rechtschreibleistung in Deutschaufsätzen liegen zwischen r = .78 und r = .81.

NORMEN: Das Verfahren wurde bundesweit für die Klassen 1-9 normiert. Es werden Prozentränge und T-Werte sowie Prozentrangbänder und T-Wert-Bänder angegeben.

BEARBEITUNGSDAUER: Die Bearbeitung des Testheftes liegt meist unter 30 Minuten.

Page 31: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

31

3.2.2.3. Informelle Schulleistungstests

Definition von Lukesch (1998): „selbstentwickelte Verfahren von Pädagogen in der Schulpraxis“ = teacher-made tests (Nur an den Ergebnissen einer Klasse oder Schule geeicht) Informelle Schulleistungstests sind Verfahren der PD, die durch Lehrer konstruiert werden, um die Ergebnisse der von ihnen geplanten Lehr- und Lernvorgänge in ihrer Klasse möglichst direkt und objektiv zu erfassen um daraus weiteres pädagogisches, didaktisches oder methodisches Handeln abzuleiten. Unterschiede zum formellen Schulleistungstest:

• wichtigstes Unterscheidungskriterium: Konstruktion durch Lehrer • Orientierung an pädagogischen Bedürfnissen von Klassen • standardisiert: Prüfungssituation; Aufgabenstellung; Rohauswertung • curriculare Analyse: Orientierung an den Lehrzielen für die Klasse • Korrektur: Orientierung an Klassennorm oder Lernzielen • nicht an repräsentativen Stichproben geeicht (nur an Ergebnissen einer Klasse) • niedrigerer Allgemeinheitsgrad der Anwendung (wg. inhaltlicher Spezifität) • unterrichtsnah, direkt aufs Lehrziel bezogen • Informelle Tests sind objektiver, weil sie unmittelbar zum Unterrichtsgeschehen

konzipiert werden.

Informelle Schulleistungstests werden nur für eine oder wenige Schulklassen konzipiert. Es ist daher keine überregionale Anwendbarkeit, oft nicht einmal eine solche innerhalb der Schule möglich. Informelle Tests können sich sowohl an gruppenbezogenen Normen orientieren als auch an Lernzielen. Es macht dennoch keinen Sinn von bezugsgruppenorientierten und kriteriumsorientierten informellen Tests zu reden. Sie spielen immer noch eine geringe Rolle, weil Lehrer den Arbeitsaufwand scheuen

Konstruktion informeller SLTs (im Vgl. zu formellen SLTs): 1. Analyse der Lehrpläne 2. Generierung von Testitems (Aufgabenkonstruktion) 3. Vorerprobung an wenigen Fällen 4. Testdurchführung an einer kleinen Stichprobe (200 - 400 SchülerInnen) 5. Aufgaben- und Testanalyse à vereinfacht � erfolgt erst nach der ersten Durchführung des Tests in der Klasse � Ermittlung der Trennschärfe: � Distraktoranalyse 6. Testeichung an einer repräsentativen Stichprobe (bei informellen Tests nicht vorgesehen)

� Normierung kann erfolgen, indem Test mehrfach durchgeführt wird u. Ergebnisse miteinander (nach Standardisierung d. Werte) verglichen werden à fließender Übergang zu formellen SLTs!

7. Testvalidierung � evtl. Reliabilitätsschätzung

Page 32: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

32

3.2.2.3.1. Gütekriterien informeller Tests � besser als bei traditioneller Leistungsbeurteilung, schlechter als bei formellen Tests Objektivität: (1) Durchführungsobjektivität: � bei informellen Tests besser als bei schriftlichen Prüfungen: - standardisierte Instruktion - Beispiele und Übungsaufgaben (2) Auswertungsobjektivität: � bei gebundenen Antwortformaten maximal à Korrektur mit Schablone � bei freien Antwortformaten sind Kriterienkataloge notwendig (3) Interpretationsobjektivität: � besser als bei schriftlichen Prüfungen, v. a. bei geschlossenen Antwortformaten � ungünstiger als bei formellen Tests, da i. d. R. keine Normierung, keine Erfassung der Objektivitätskoeffizienten Reliabilität: � i. d. R. keine Erhebung der Reliabilitätskoeffizienten (u. U. Paralleltestreliabilität) Validität: (1) Inhaltsvalidität: � Sicherung der curricularen Val. durch Analyse der Lehrpläne à besser als bei formellen SLTs � Berücksichtigung der individuellen Lerngelegenheit à besser als bei formellen SLTs � Experten-Rating bei Lehrplananalyse zur Sicherung der Inhaltsvalidität (2) Empirische Validität: � i. d. R. keine Erhebung (3) Konstruktvalidität: � Überprüfung der Übereinstimmung z. B. mit Schulnoten möglich � ungünstiger als bei form. Tests da keine Standardisierung/Erhebung von Validitätskoeffizient. � besser als bei traditioneller Leistungsbeurteilung, da sachfremde Beurteilungskriterien z. B. durch fixierte Instruktion, Aufgabenanalyse und Kriterienkataloge gemindert werden

3.2.2.3.2. Vor- und Nachteile informeller Schulleistungstests Vorteile: � gute Erfüllung der Gütekriterien, besser als bei herkömmlicher Leistungsbeurteilung � curriculare Validität und Lerngelegenheit werden berücksichtigt � ökonomischer als formelle SLTs à geringerer Konstruktionsaufwand � schnelle Korrektur v. a. bei gebundenen Antwortformaten à Zeitersparnis bei der Auswertung � sie beziehen sich direkt auf den konkret durchgeführten Unterricht, Nachteile: � u. U. bei gebundenen Antwortformaten Ratewahrscheinlichkeit gegeben � Gütekriterien weniger gut erfüllt als bei formellen SLTs � aufwändiger zu erstellen als traditionelle Formen der Leistungsbeurteilung � Qualität des Tests ist abhängig von Lehrkraft � manche produktiven Leistungen können mit Tests nicht erfasst werden, z. B. Kreativität � Aufgabenanalyse erst im Nachhinein

Page 33: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

33

3.2.2.4. Zehn Prüfsteine zur Beurteilung von Schulleistungstests (1) Überprüft der Test das, was unterrichtet wurde? (2) Ist der Test reliabel genug? (3)Wie präzise ist ein individueller Testpunktwert? (4) Wie wird eine objektive Testdurchführung gesichert? (5) Wie wird die Auswertungsobjektivität gewährleistet? (6) Wie ist der Test normiert? (7) Gibt es Paralleltests? (8) Wie sind die Testergebnisse inhaltlich zu interpretieren? (9) Wie lange dauert der Test? (10) Wie alt ist der Test? 3.3. Schulaufgaben Grundsätzlich können Schulaufgaben trotz aller Fragwürdigkeit der Notengebungspraxis als objektiv und gerechter eingeschätzt werden als mündliche Prüfungen. Vorteile:

• Schulaufgaben sind in der Regel standardisiert. Alle Prüflinge erhalten dieselben Aufgaben oder Fragestellungen.

• Beurteiler müssen ihre Entscheidung nicht sofort und im Rahmen der Belastung durch die Prüfungssituation treffen. Der Lehrer kann die Leistung in Ruhe mit seinem Maßstab vergleichen.

• Weil viele oder nur wenige Schüler eine Aufgabe/ eine Frage lösen, erhält der Lehrer eine Vorstellung vom Schwierigkeitsgrad dieser Aufgabe.

• Für die Zuverlässigkeit der Prüfung ist die Anzahl der gestellten Aufgaben wichtig. Schriftliche Prüfungen enthalten in der Regel mehr Aufgaben.

• Leistungsfremde Faktoren wie Aussehen, Kleidung, Haltung, ... spielen bei der schriftlichen Prüfung keine Rolle.

• Blockierungen des Prüflings durch Ängste können bei der schriftlichen Prüfung leichter überwunden werden.

• Schriftliche Prüfungen sind in der Regel besser strukturiert, damit kann sich auch der Prüfling besser zurechtfinden.

• Grundlagen und Ergebnisse der schriftlichen Prüfungen sind öffentlich, d.h. sie können mit den Betroffenen nachbesprochen werden.

Page 34: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

34

4. Verschiedene Erhebungsverfahren

Überblick: Verschiedene Erhebungsverfahren

4.1. Beobachtung Vorbemerkung:

- Nicht jedes Verhalten lässt sich in einer Testsituation provozieren - Nicht jeder möchte sich testen lassen - Nicht jeden kann man testen (Kinder, Behinderte) - Testung zu aufwändig, Datenschutzgründe, Persönlichkeitsrechte - Für viele Verhaltensbereiche keine Tests entwickelt à man muss auf weniger überprüfte

Verfahren umsteigen à Aus diesen Gründen ist ein Test nicht immer möglich und deshalb ist die Beobachtung die

wichtigste Methode der Pädagogischen Diagnostik. Mit ihrer Hilfe können Informationen erlangt werden, die sonst nicht oder nur schwer erfasst werden können. Vor allem ist man in einer alltäglichen Situation von Zustimmung und Kooperation der Beobachteten weitgehend unabhängig.

Definition von Roth (1978): Beobachtung ist das grundlegende Verfahren der empirisch forschenden Sozialwissenschaften und der Erziehungswissenschaft. Definition von Graumann nach Heller und Nickel (1978): „Beobachtung ist die absichtliche, aufmerksame Art des Wahrnehmens, die ganz bestimmte Aspekte auf Kosten der Bestimmtheit von anderen betrachtet.“ Bei allen Beobachtungsverfahren ist der Beobachter das „Messinstrument“, seine Wahrnehmung ist stark durch Erfahrungen, Bedürfnisse oder Einstellungen beeinflusst. Unbestimmte Reize werden von verschiedenen Personen ganz unterschiedlich interpretiert. So sagen solche „Beobachtungsergebnisse“ oft mehr über den Beobachter als über das Beobachtete aus.

Beobachtung Unterrichts-beobachtung

Soziometrie (Analyse zwischen-menschlicher Beziehungen)

Anamnese, Exploration, Interview

Fragebogen

Page 35: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

35

4.1.1. Arten der Beobachtung

Überblick – Arten der Beobachtung � naive vs. systematische Beobachtung - naiv: ungerichtetes „Zuschauen“, d.h. ohne klare Zielsetzung, Gelegenheitsbeobachtung à Problem: subjektive Verzerrungen - systematisch: Klärung des Ziels, des Zeitpunktes, der Methode, des Instruments etc. à erleichtert die Vergleichbarkeit und die Quantifizierung der Informationen à Problem: erfasst nur Ausschnitt des Gesamtverhaltens � teilnehmende vs. nicht-teilnehmende Beobachtung - teilnehmend: VersuchsleiterIn ist involviert in Geschehen und interagiert mit den Vpn à Problem: u. U. mangelnde Distanz - nicht-teilnehmend: Wahrung einer kritischen Distanz zum Geschehen à Problem: Vpn fühlen sich beobachtet und zeigen u. U. nicht das gewünschte Verhalten Aber: Verhalten der Vpn soll durch das Gefühl der Beobachtung nicht gestört werden à Lösung: Beobachter gibt sich z.B. als Gruppenmitglied aus („Under cover“) à Problem: obj: Status ist gefährdet, späte Protokollierung, vgl. verdeckte Beobachtung � offene vs. verdeckte Beobachtung: - offen: Vpn weiß, dass sie beobachtet wird à Problem: u. U. wird gewünschtes Verhalten unterdrückt - verdeckt: Vpn weiß nicht, dass sie beobachtet wird

à Problem: ethische Bedenken � technisch vermittelte vs. unvermittelte Beobachtung: - technisch vermittelt: Einsatz von Videokameras, Tonbändern etc. à Vorteil: wiederholtes Betrachten des Materials möglich (Reliabilität!), keine Überforderung des Beobachters à Nachteil: subjektive Kamera, schlechte Qualität - technisch unvermittelt: ohne technische Hilfsmittel

naiv

vs

systematisch

teilnehmend

vs

nicht-teilnehm.

offen (wissentlich)

vs

verdeckt (unwissentlich)

technisch vermittelt

vs

technisch unvermittelt

kontinuierlich

vs

diskontinuierlich

Feld

vs

Labor

fremd

vs

selbst

Page 36: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

36

� kontinuierliche vs. diskontinuierliche Beobachtung: - kontinuierlich:Dauerbeobachtung à Problem: Überforderung des Beobachters, in Schule kaum möglich - diskontinuierlich: Zeitstichprobenpläne

à Problem: erfasst u. U. seltenes oder unauffälliges Verhalten nicht

� Feld- vs. Laborbeobachtung: - Feldbeobachtung: Alltagssituation à Problem: u. U. Störbedingungen - Laborbeobachtung: künstliche Situation, Vorteil: Schaffung optimaler Beobachtungsbedingungen (Kontrolle der Störbedingungen)

à Problem: Problem der externen Validität (Übertragbarkeit auf Alltagssituationen), Verhaltensänderung wegen Beobachtung/neue Umgebung

� Fremd- vs. Selbstbeobachtung: - Fremdbeobachtung: à Problem: kein direkter Zugang zum „Innenleben“ - Selbstbeobachtung: z. B. Befragung, Tagebücher

à Problem: Verzerrung

Fazit: Die besten Ergebnisse bei Verhaltensbeobachtungen bringen: - systematische - teilnehmende und - verdeckte Beobachtungen.

Aber: Pädagogen werden in ihrer Praxis meist auf: - naive - teilnehmende und - diskontinuierliche Beobachtung zurückgreifen müssen. 4.1.2. Unterrichtsbeobachtung und Interaktionsdiagnostik

Definition von Interaktion nach Merkens und Seiler (1978): Der Begriff Interaktion bezeichnet sowohl direkte (konkrete, face-to-tace, vis-à-vis) Begegnungen als auch indirekte (abstrakte, anonyme, vermittelte) soziale Beziehungen von Individuen, in denen diese ihre Handlungen wechselseitig aneinander abstimmen… Nach Lukesch (1998) sind Interaktionsanalysen alltägliche und wissenschaftliche Versuche, Informationen über zwischenmenschliche Beziehungen (Interaktionen) unter spezifischer Fragestellung zu gewinnen und zu verarbeiten. Beispiele für Beobachtungskategorien für den schulischen Unterricht

- Sprechzeiten Lehrer/Schüler (nach Claus (1954): Lehrer: 80% àSchüler: 20% aller sprachlichen Interaktionen)

- Wartezeiten auf Schülerantworten (Dauer) - Impulse des Lehrers (Häufigkeit): offene Fragen, Suggestivfragen, Provokationsfragen, Lehrerecho (41-88 Lehrerfragen/ pro Stunde, davon 71% an ganze Klasse, 29% an einzelne Schüler; 1,1-2,2 Schülerfragen/ pro Stunde) - Einsatz von Verstärkern (Häufigkeit): positive/negative Verstärkungen, Ignorieren,… (28-57 Befehle/ pro 40-Minuten) - Standort des Lehrers (Dauer): am Pult, an der Tafel, bei dem einzelnen Schüler,… - Arbeitsformen bzgl. didaktischer Vorgaben (Dauer): Lehrervortrag, Stillarbeit, Gruppenarbeit,…

Page 37: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

37

4.1.3. Beobachtungssysteme/Interaktions-Analyse-Systeme

Sollen Beobachtungsauftrag genau Formulieren, um Ereignissen in Situation und Aussagen über Situation reliabel zuordnen zu können. Nach Mees (1977) kann man die Beobachtungssysteme unterscheiden in: - Isomorphe Deskription: möglichst vollständige und unveränderte Wiedergabe des Beobachteten

à faktisch unmöglich, da Verhalten immer unterschiedlich kategorisiert werden kann und - Reduktive Deskription: Beschränkung auf interessierende Verhaltensklassen 4.1.3.1. Entwicklung von Beobachtungssystemen Entwicklungsschritte 1) Abgrenzung des Beobachtungsziels 2) Entwurf eines vorläufigen Kategoriensystems (Validität!) 3) Beobachtungsitems positiv formulieren, im Präsens, Einzahl. Soll Intensität oder Häufigkeit eines Verhaltens beurteilt werden? 4) Plan über Ablauf der Beobachtung 5) Beobachtertraining 6) Prüfung der intersubjektiven Übereinstimmung 7) Durchführung der Beobachtung, Bestimmung der Validität

4.1.3.2. Verschiedene Beobachtungssysteme: � Zeichensysteme: - Häufigkeit eines Ereignisses wird registriert (= Strichlisten) - Großteil der Verhaltensweisen wird nicht registriert à z. B. Observation Schedule and Record (OSCAR) von Medley & Mitzel (1963) � Schätzskalen:

- Grad der Ausprägung eines Verhaltens wird festgehalten à Beobachter muss Auftreten der Beobachtungsstrategie feststellen und Intestiätsabstufung vornehmen à hohe Inferenz (hohe Subjektivität)

à z. B. Polaritätenprofil nach Tausch und Tausch (1970): Ø dient der Beurteilung von LehrerInnenäußerungen Ø 7-stufige Skala von +3 bis -3 à Grad der Ent- bzw. Ermutigung � Kategoriensysteme: - Jedes Verhalten wird mittels verschiedener Kategorien, die unterschiedliche Verhaltensweisen repräsentieren, erfasstà Beobachter muss ständig klassifizieren - Kategoriensysteme sollten exakt definiert, disjunkt und erschöpfend sein

à z. B. Beobachtungssystem zur Analyse von aggressionsbezogenen Interaktionen im Schulunterricht (BAVIS, Humpert & Dann) oder Interaktionsprozessanalyse (IPA) von Bales (1950):

Ø Erfassung des emotionalen und sozialen Verhaltens von Individuen in Kleingruppen Ø 12 Verhaltenskategorien, zusammengefasst in 4 Bereiche: sozioemotionaler Bereich: positive / negative Reaktionen, Aufgabenbereich: Fragen & Antworten

Ø viele Auswertungsmöglichkeiten: z. B. Sequenz-, Profilanalyse, Wer-mit-wem-Matrix

Bekanntestes Kategoriensystem: Interaktions-Analyse-System: Flanders Interaction Categories (FIAC) (1970) - abgeleitet aus dem allgemeinen IPA von Bales - eigens zur Beobachtung im schulischen Raum - es wird sowohl Schüler als auch Lehrerverhalten analysiert - beschränkt sich auf verbale Verhaltensweisen im Unterricht (kein nonverbales Verhalten!)

Page 38: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

38

§ Aufbau des FIAC: Unterscheidung zwischen Initiativen (aktive Handlungsweise) und Antworten (passive Handl.weise): Antwort (indirekter Einfluss) Initiative (direkter Einfluss)

Lehrer 1. Akzeptiert Gefühle Akzeptiert und klärt eine Haltung oder den Gefühlston eines Schülers in nicht-bedrohlicher Weise. Gefühle können positiv oder negativ sein. Vorhersagen und Erinnerungen an Gefühle sind in dieser Kategorie enthalten.

4. Stellt Fragen Das Stellen einer Frage bezüglich Inhalt oder Vorgehen, basierend auf Lehrer- Ideen, mit der Absicht, dass ein Schüler antwortet.

5. Doziert Gibt Fakten oder Meinungen über Inhalt oder Vorgehen; drückt seine eigenen Ideen aus, gibt seine eigene Erklärung, oder beruft sich auf eine andere Autorität als einen Schüler.

2. Lobt oder ermutigt Lobt oder ermutigt eine Schüler-Aktivität oder -Verhalten. Witze, die Spannung abbauen, jedoch nicht auf Kosten eines anderen Individuums; Kopfnicken oder Aussagen wie "Hm?" oder "Mach weiter" sind in dieser Kategorie enthalten.

6. Gibt Anweisungen Anweisungen oder Befehle, von denen erwartet wird, dass sich ein Schüler an sie hält.

3. Akzeptiert oder verwendet Schüler-Ideen Klärung, Aufbau oder Weiterentwicklung von Ideen, die von einem Schüler vorgeschlagen wurden. Lehrerseitiges Ausbauen von Schüler-Ideen ist in dieser Kategorie enthalten, aber wenn mehr eigene Lehrer-Ideen eingebracht werden, wechsle zu Kategorie 5.

7. Kritisiert oder rechtfertigt Autorität Aussagen, deren Ziel es ist, Schülerverhaltensmuster von nicht-akzeptabel zu akzeptabel zu ändern; jemandem ernste Vorwürfe machen; sagen, warum der Lehrer das tut, was er tut; extreme Selbstreferenz

Schüler 8. Schüler-Rede: Antwort Schüler-Rede in Antwort auf den Lehrer. Der Lehrer initiiert den Kontakt, erbittet eine Aussage vom Schüler oder strukturiert die Situation. Die Freiheit, eigene Ideen auszudrücken, ist eingeschränkt.

9. Schüler-Rede: Initiierung Schüler-Rede, die von ihnen initiiert wird. Ausdruck eigener Ideen; Anregung eines neuen Themas; Freiheit, Meinungen und einen Argumentationsgang zu entwickeln, z.B. durch das Stellen durchdachter Fragen; über die existierende Struktur hinausgehen.

10. Stille oder Verwirrung Pausen, kurze Zeiträume der Stille und Zeiträume der Verwirrung, in denen die Kommunikation vom Beobachter nicht verstanden wird. § Auswertung: Alle drei Sekunden Kodierung einer Verhaltensweise, d.h. die Beobachtungseinheit ist zeitlich definiert und nicht nach abgeschlossenen Verhaltenssequenzen.

Page 39: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

39

Beispiel einer Kodierung über 60 Sekunden: Der Lehrer stellt eine Frage (4)à Schüleräußerung-Antwort (8) à Lehrer akzeptiert oder verwendet Gedanken der Schüler (3) à Lehrervortrag (5) à …

Diese Kodierungen werden in eine 10x10 Matrix eingetragen:

Fragen bei der Auswertung: Spricht der Lehrer zuviel? Wie reagiert Lehrer auf Einfälle der Schüler? § Kritik - Ungleichheit zwischen Lehrer- und Schülerkategorien - Verhaltenskategorien sind z.T. recht global formuliert à keine individuenspezifische Auswertung - Gutes System um Rückmeldung über Unterricht zu erhalten, aber geschulte Beobachter werden hierfür benötigt § Variante des FIAC durch Ober, Bentley, Miller(1968): - Vereinfachung des Systems - LL und SS- Verhalten sind reziproke Interaktionen, hängen in beide Richtungen voneinander ab

à Jede Kategorie kann also vom Lehrer als auch vom Schüler erwartet werden - Eintragung der Ergebnisse in eine 19x19 Matrix, Auswertung wie bei FIAC § Ergebnisse und Nutzen einer solchen Untersuchung: - Verhaltensphänomene können eingeordnet und mit Hilfe einer Zahl signiert werden - Wechsel der Unterrichtsform kann untersucht werden - Rückmeldung über Struktur des Unterrichts ist gegeben - der Wechsel von Kategorie zu Kategorie kann untersucht werden, häufige Beobachtungen: - auf Kategorie „Lehrervortrag“ folgt oft Kategorie „Lehrervortrag“ - auf Kategorie „lobt, ermutigt“ folgt häufig Kategorie „Schüleräußerung-Antwort oder Initiative“ à Konsequenzen daraus ziehen: z.B. meiste Zeit „Lehreräußerung“ àSchüler mehr einbeziehen

Page 40: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

40

4.1.4. Abgrenzung von Beobachtung & Beurteilung

  Beobachtung: „absichtliche, aufmerksame Art des Wahrnehmens, die ganz bestimmte Aspekte auf Kosten der Bestimmtheit von anderen betrachtet“ (Graumann nach HELLER UND NICKEL 1978, 34) à niedriger Inferenzgrad z. B. Registrieren der Meldungen eines Schülers in einer Unterrichtsstunde

  Beurteilung: à hoher Inferenzgrad z. B. Ist das Verhalten des Schülers als Meldung zu interpretieren oder hat er sich u. U. nur gestreckt? Meldet sich dieser Schüler viel oder wenig?

è Beobachten und Beurteilen stehen in einem engen Zusammenhang zueinander, da Beurteilen Beobachten voraussetzt; dennoch ist beides klar zu trennen! Nach den Vorstellungen des deutschen Bildungsrats (1970) umfassen die Aufgaben von Lehrern das Lehren (Vermittlung von Kenntnissen), das Beurteilen (Feststellen von Lernerfolg und -misserfolg), das Beraten (Bildungs-, Berufsberatung...), das Erziehen (Weitergabe von Wert- und Normvorstellungen) und das Innovieren (eigenverantwortliches Erarbeiten und Verarbeiten fördern und fordern). Schülerbeurteilung ist ein zentrales Problem, aber ein wichtiger Bestandteil des Schulsystems. „Nicht was Schüler lernen, bestimmt ihren Schulerfolg, ihre Lebenschancen, sondern wie sie zensiert werden.“ (Ingenkamp, 1962) [nach Lukesch, Band 3, Kap. 1] 4.1.5. Beobachtungs- und Beurteilungsfehler: siehe 5.5. 4.1.6. Einsatzmöglichkeiten der Beobachtung / Beurteilung:

� Was kann erfasst werden? - Situationserfassung: Feststellung der Situation in einer Klasse zu einem Zeitpunkt z. B. Wie hoch ist der Redeanteil von Lehrer X in Klasse Y an diesem Tag? - Vergleichsuntersuchung: Vergleiche zw. versch. Klassen, LehrerInnen und Zeitpunkten z. B. Wie viel redet Lehrer X im Vergleich zu Lehrerin Y? - Verlaufsanalyse: Vergleiche zw. unterschiedlichen Zeitpunkten innerhalb einer Klasse z. B. Wie hoch ist der Redeanteil von Lehrer X in Klasse Y nach 3 Wochen? - Sequenzanalyse: Erfassung von Verhaltensabfolgen z. B. Wie reagieren die SchülerInnen auf den hohen Redeanteil von Lehrer X?

� Wer kann erfasst werden? - Selbstbeurteilung der Lehrkraft z. B. Berufseignungstest für das Lehramtsstudium, Rauin et al. (1994) à Positiv: - Entspannend und angstreduzierend

- selbst pädagogisch wichtiges Lehrziel à Problem: - Tendenz zur Verfälschung in positive Richtung, Erhöhung der

Selbstkonsistenz, mangelnde Neutralität - Fehlende Selbstdistanz, unscharfe Selbstsicht

Page 41: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

41

- Fremdbeurteilung von Lehrkräften: durch Experten, durch SchülerInnen z. B. durch Experten: Einschätzung von Lehreräußerungen, Tausch & Tausch (1970) z. B. durch SchülerInnen: Lehrerverhaltensinventar, Lukesch (1982):

Beurteilung verschiedener Verhaltensaspekte nach einer oder mehrerer Unterrichtsstunden auf einer Einschätzungsskala (z.B. „sehr häufig“ bis „sehr selten“).

- Selbstbeurteilung von SchülerInnen: z. B. Skalen zur Selbstbeurteilung von schulischen Verhaltensauffälligkeiten und psychosomatischen Störungen, Helmke (1978) - Fremdbeurteilung von SchülerInnen: durch Experten, durch Eltern, durch Lehrkräfte

z. B. Beurteilung durch Experten: Instrument zur Erfassung von Verhaltensstörungen, Thalmann (1976)

� Wozu dient die Beobachtung / Beurteilung? - Selbstkontrolle für Lehrkraft - fördert Bewusstwerdungsprozesse über Methodik usw. der Lehrkraft - ermöglicht die Einübung von neuen Methoden - Klärung von Verhaltensproblemen bei SchülerInnen - Klärung von LehrerIn-SchülerInnen-Konflikten - Effizienzkontrolle nach Verhaltensänderung 4.2. Fragebogen Die Befragungsmethoden werden meist nach folgenden Merkmalen kategorisiert: • nach mündlicher oder schriftlicher Erhebungstechnik • nach dem Grad der Standardisierung • nach direkter oder indirekter Fragestellung • nach offener oder geschlossener Antworttechnik • nach Individual- oder Gruppenerhebung • nach einmaliger oder mehrfachen Anwendung

Ein Fragebogen oder schriftliche Befragung ist eine spezielle Art von Fragenkatalog, als Instrument der Datenerhebung für eine/mehrere Statistik(en). Meist wird derselbe Fragebogen mehreren Personen vorgelegt und dann statistisch ausgewertet. Man unterscheidet zwischen Papier- und elektronischen Fragebogen.

Der Fragebogen als wissenschaftliches Instrument ist das Ergebnis sorgfältiger und aufwändiger Expertenkonstruktion. Der Erzieher sollte sich über diese publizierten Fragebögen informieren und sie einsetzen, wenn sie für seine diagnostischen Ziele hilfreich erscheinen.

§ Vorteile von Fragebögen: - Für Erzieher das am wenigsten aufwändige Verfahren, Auskünfte über objektive Daten und

subjektive Einstellungen zu erlangen.

- Im Gegensatz zur mündlichen Befragung ist er ein objektives und reliables Beobachtungsinstrument, das auch noch ökonomisch ist.

Das Kultusministerium hat im Rahmen eines Projekts über Unterrichts- und Schulqualität folgenden Fragebogen für Schüler/innen – Schulteil erstellt:

fremd

vs

selbst

Page 42: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

42

Page 43: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

43

Page 44: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

44

Das ist der Fragebogen für Schüler/innen – Schulteil, der zweite Teil: Fragebogen für Schüler/innen – Unterrichtssteil und ein Kurzbericht (55 Seiten!!!) findet man unter www.quassu.net und dann unter Materialien!

Page 45: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

45

4.3. Interview

Wichtig, wenn es in einem Bereich keine angemessenen Erfassungsinstrumente gibt oder wenn Proband keinen Fragebogen ausfüllen will oder nicht ausfüllen kann (z. B. aufgrund fehlender Lesefähigkeit). § Arten diagnostischer Gesprächsmethoden Anamnese Exploration

Interview Die Anamnese, die Exploration und das Interview haben unterschiedliche Schwerpunkte, die man aber nicht trennscharf voneinander abgrenzen kann. § Anamnese (Erinnerung, Wiedererinnerung, „Vorgeschichte eines Tatbestands“) Definition von Schraml (1964): „Anamnese ist das Insgesamt der Mitteilungen eines Probanden oder einer wesentlichen Bezugsperson über seine Persönlichkeit, Lebensgeschichte, soziale Bezüge, Erlebnisse, Handlungen, Einstellungen und Wünsche im Allgemeinen (!) oder in speziellen Bereichen.“ Wichtige anamnetische Fragen in schulischen Beratungsfällen:

- Alter des Kindes - Klasse des Kindes - Geschwister - Eltern (alleinerziehend? Beruf?) - Wohnverhältnisse - Freunde - Hobbys - Schulleistungen - Einstellung zur Schule - Probleme in der Schule

Ø Aber nur notwendige Fragen stellen! Formen von Anamnese:

a) Biographische Anamnese: relevante Aspekte der Lebensgeschichte werden eruiert (obj. + subj. Daten) ⇒ Angaben sind Produkt subjektiver Erinnerung und Verarbeitung von Ereignissen → nicht unbearbeitete Wirklichkeit! Strukturierung: Chronologie des Lebenslaufs oder inhaltliche Aspekte (Sexualität, Partnerschaft)

b) Selbst- oder Fremdanamnese: Selbst- oder Fremdanamnese über Zielpersonen c) Partielle Angaben: nur Teilbereich des Lebenslaufs d) Lebenslaufanalyse: anamnestische Daten + indikative Angaben (Dokumente, Tagebücher, Akten)

⇒ alles nur beschränkt aussagekräftig ⇒ + andere Verfahren § Exploration Exploration Die Ermittlung umschriebener normalpsychologischer Phänomene eines Probanden. Eine fachkundig vorgenommene Befragung.

Page 46: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

46

Dabei gilt: • individuelle Orientierung durch Interviews möglich; nicht standardisiert • Fragen können persönlichkeitsspezifisch erfasst werden; einzelner Gesprächsführer • keine Inhalte werden aufoktroyiert • Individuum ist durch keine Methodik eingeengt Ø relativ frei, aber Gesprächsleitfaden ist wichtig! Ø z.B. Schüler theoriegestütztes Modell der Verursachung von Lernschwierigkeiten vorlegen und anhand

dieser Vorlage die Selbstinterpretation des Schülers erfassen

Anamnese ↔ Exploration: Bewusstseinsnahe Aspekte ganzheitlicher tiefergehender

der Lebensgeschichte Anspruch 4.3.1. Interview Die Befragung ist in der Form des Interviews eine der ältesten und auch heute noch am häufigsten benutzten diagnostischen Methoden. Man kann dabei die Beobachteten oft direkt nach ihren Interessen und Einstellungen befragen. Durch Befragung können objektive (z.B. Fakten, Angaben zur Person) und subjektive (z.B. Meinungen, Einstellungen) Daten erworben werden. Als diagnostisches Instrument sind Gespräch und Befragung vor allem in der Soziologie und der Psychologie entwickelt worden. Definition von Scheuch (1973): Unter Interview als Forschungsinstrument sei hier verstanden ein planmäßiges Vorgehen mit wissenschaftlicher Zielsetzung, bei dem die Versuchspersonen durch eine Reihe gezielter Fragen oder mitgeteilter Stimuli zu verbalen Informationen veranlasst werden soll. 4.3.2. Formen des Interviews

§ Geordnet nach dem Grad der Vorstrukturierung: a) standardisiertes Interview: alle Fragen sind vor dem Gespräch festgelegt, müssen in

gleichem Wortlaut und in gleicher Reihenfolge vorgelegt werden, Antworten können vorkonstruiert sein ⇒ Fragebogen in Gesprächsform Vorteile: - Aufmerksamkeit der Probanden kann kontrolliert werden - Keine Lesefähigkeit notwendig, im Vergleich zum Fragebogen - Eventuelle Missverständnisse können geklärt werden - Hohe Reliabilität - Einfache Auswertung

b) halbstandardisiertes Gespräch: Gesprächsthemen vorgegeben, Fragen nicht im Detail formuliert; Antworten sind offen

c) problemzentriertes Interview: Möglichkeit d. offenen Befragung o. ausgewählte Themen Ziel: Interesse der Probanden mitzuberechnen

d) freies/nicht standardisiertes Interview: Gesprächsthema entwickelt sich im Laufe der Begegnung. Anwendung: Klinische Psychologie, Tiefeninterview Probleme: - Ergebnisprotokoll, Tonbandaufzeichnung? - reduzierte Vergleichbarkeit - hoher Anspruch an verbale Fähigkeiten des Pbn - hohe Flexibilität gefordert - aufwändige Auswertung

Page 47: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

47

§ geordnet nach Anzahl der Interviewer und Interviewten a) duale Form: 1 Interviewer, 1Interviewter ist Normalform b) joint interview technique: 1 Interviewer, 1 Proband mit Angehörigen à Sozialverhalten kann beobachtet werden; Problem: Selbstdarstellungstechniken c) reziproke Sozialsituation: 1 Proband, mehrere Interviewer z.B. bei Eignungstests; Extremfall: Stressinterview

Vorteil: Erhöhung der Objektivität und Reliabilität, um Wahrnehmungsfehler auszugleichen; trotzdem: soziale Einflüsse auf Urteilsbildung

4.3.3. Selbstdarstellungstechniken und Lüge – die Macht des Interviewten

Proband kann Interviewer beeinflussen § Dimensionen der Selbstdarstellungstechniken (Tedeschi et al 1985)

(1) strategisch vs. taktisch = Anstreben situationsüber- = kurzfristige, situationsspezifische greifender Ziele Wirkungen

(2) assertiv vs. defensiv aktives Gestalten, Verteidigungs- und Schutztechniken Durchsetzungsfähigkeit in bei Bedrohung über eigene sozialen Situationen Identität

§ Selbstdarstellungstechniken /Formen einer manipulativen Beeinflussung

Intrigation (Einschmeicheln): eigene Kompetenz übertreiben Einschüchterung: Androhung negativer Konsequenzen Selbstbeförderung: Einschätzung der eigenen Person soll beim anderen erhöht werden Exemplifikation: sich als moralisch besonders integer darstellen Demut: eigene Schwäche und Abhängigkeit betonen Übertreibung Angeberei Nachgeben Kompromisse Gezieltes Weglassen Selbstbetrug und Wunschdenken Bewusste Vereinfachung

Ø Frage nach Glaubwürdigkeit: Mittelweg zwischen krankhaftem Misstrauen und naiver Vertrauensseligkeit muss gefunden werden

§ Bewußte Lüge Definition von Fiedler (1989) „Lüge ist zugleich Inbegriff des Unmoralischen und Instrument der Menschlichkeit und Rücksichtnahme. Sie dient der Durchsetzung und Machtausübung und erfolgt sehr oft aus Schwäche.“ Definition von Augustinus (1953) „Die Lüge ist eine Aussage mit dem Willen, Falsches auszusagen.“

Page 48: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

48

4.3.4. Maßnahmen zur Optimierung von Befragungsergebnissen

§ Allgemeine Voraussetzungen (a) guter Kontakt zwischen den Interviewpartners: Sympathie + Antipathie

Untersucher soll affektive Reaktion auf Pbn mitprotokollieren (b) Angaben mit Objektivität begegnen (c) Gespräch innerhalb einer Rollenbeziehung à soziale Erwartungen an Interaktionspartner

⇒ Einfluss auf Antworten Interviewer zur Verschwiegenheit verpflichtet (Beratungslehrer) Vertreter einer Institution (Lehrer – Schule)

(d) Weit. Beding. für Gesprächsbereitschaft:Geschlecht, Alter, Stimme, Bildungshintergrund

§ Gestaltung der Gesprächssituation (a) Vorbereitung: Themenbereiche überlegen, Auswertung bereits vorliegender Materialien

(von früheren Interviews) (b) Räumliche Umstände: Ausgestaltung des Raumes (nüchtern oder familiär;

Sitzposition: „über Eck“ am Tisch günstig; von äußeren Störungen abgeschirmt) (c) Zeitliche Umstände: viel Zeit bemessen, Fraktionierung eines Gesprächs, Gesprächsdauer

festlegen (bei Kinder und Jugendlichen 20 bis 30 Minuten) (d) Gesprächseinstieg: sachliche Info über Untersuchungszweck; Beratungssituation: Grund

des Kommens (e) Gesprächsführung:

- Interrogative G.: Frage-Antwort-Schematismus - Asymmetrische G.: Proband spricht (fast) alleine, bestimmt Richtung - Konservative G.: Rede- und Gegenrede - Taraktische G.: Erschütterung des Probanden durch Ablehnung seiner Meinung

⇒ Reaktionen werden provoziert; (Stressinterview: Pbn verunsichern) (f) Funktionsfragen:

- materiell nicht interessant, aber erfüllen psychologische Funktion - Kontakt- oder Einleitungsfragen, - Überzeugungs- oder Vorbereitungsfragen (bei Themenwechsel) - Ablenkungs- oder Pufferfragen - Filterfragen (ist Fragenteil für Interviewten zutreffend?) - Rangier- oder Konzentrationsfragen (wg. Abschweifungen) - Motivationsfragen (Abbau von Hemmungen, Stärkung des Selbstbewusstseins) - Ergänzungs- und Sondierfragen zur Klärung unvollständiger Antworten

(g) Verbale, nonverbale und paraverbale Sprachaspekte - gleicher Sprachcode (Dialekt, Fachsprache) - non- und paraverbale Kommunikationskanäle - Frageformulierung (Gefahr: Suggestivfragen) - direkte oder indirekte Fragen überlegen (Reduzierung des Tabuisierungsgrades) - projektive Fragen für Zusatzinformationen

(h) Anwendung von Verstärkungstechniken: dem Gesprächspartner mitteilen, dass seine Äußerungen wichtig sind: - Blickkontakt; wenn angemessen lächeln, nicken - Gemeinsamkeiten betonen - ruhige Stimmlage - Körper zuwenden; keine unruhigen Körperbewegungen; keine Störungen von außen - keine anklagenden Fragen - nicht unterbrechen - keine Ironie und Sarkasmus; keine Überlegenheit demonstrieren

(i) Protokollierung (Tonbandaufzeichnung nur mit Zustimmung erlaubt, 60% der Info gehen verloren, wenn nicht mitprotokolliert wird)

(j) Gesprächsbeendigung: Proband soll Gelegenheit für abschließende Fragen haben.

Page 49: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

49

4.4. Soziometrie (Lat: Socius = Teilnehmer; Griech: –metria = -Messung) Die Soziometrie ist eine von Jakob Levy Moreno in den 1930er Jahren begründete Methode der empirischen Sozialforschung, welche dazu dient, Beziehungen zwischen Mitgliedern einer Gruppe zu erfassen, darzustellen und zu analysieren. Definiton von Bjernstedt (1956): „Soziometrie ist die quantitative Untersuchung zwischenmenschlicher Beziehungen unter dem Aspekt der Bevorzugung, Gleichgültigkeit und Ablehnung in einer Wahlsituation.“ Es gibt zahlreiche teilweise verschiedene Definitionen, doch alle haben eine Gemeinsamkeit: Soziometrie ist die quantitative Analyse zwischenmenschlicher Beziehungen. Datenerhebung: Man kann zwischenmenschliche Beziehungen entweder durch eine soziometrische Beobachtung oder durch eine soziometrische Befragung analysieren. Mit einer soziometrischen Beobachtung kann man die Stellung des Individuums innerhalb der Gruppe beurteilen. Da aber nur eine oberflächliche Beobachtung möglich, ist der soziometrischen Beobachtung die soziometrische Befragung vorzuziehen, die im Folgenden ausführlich behandelt wird. 4.4.1. Dimensionen der klassischen Methode nach Friedrichs (1973) Sympathie/Antipathie: - Mit wem würden sie am liebsten…? - Mit wem möchten sie nicht gern? Kriterium: Arbeit, Urlaub, Wohnen, Diskussion etc. Einstellung/ Verhalten: - Mit wem möchten sie zusammenarbeiten? - Mit wem haben sie zusammengearbeitet? Wahrnehmung (vor allem für Selbstbilduntersuchungen von Bedeutung): - Wer wird sie ihrer Meinung nach wählen/ ablehnen? Art der Wahlen: Nur positive – nur negative – beides / Anzahl der Wahlen (offen - festgelegt) Rangfolge der Wahlen (Gewichtung) / Anzahl der Kriterien 4.4.2. Soziographischer Test von Bullis – Seelmann: „der soziometrische Test“

1. Welchen Mitschüler wählst du bei der nächsten Wahl zum Klassensprecher? 2. Welchen wählst du zum Stellvertreter? 3. Wenn ihr in eurer Klasse eine Schulkasse hättet, welchen von deinen Mitschülern würdest du zum

Kassierer und Verwalter der Klassenkasse aussuchen? 4. Wenn dir deine Mutter erlauben würde, einen oder mehrere Mitschüler zu deiner Geburtstagsfeier

einzuladen: wen würdest du da einladen? (Du kannst einen oder bis zu vier Mitschüler aufschreiben!). 5. Denk einmal nach: welchen von deinen Klassenkameraden würdest du fragen, wenn du mit deiner

Hausaufgabe allein nicht zurecht kommen würdest? Nimm einmal an , du müsstest eine schwere, vielleicht sogar gefährliche Arbeit machen und brauchtest dazu eine Hilfe. Wüsstest du jemanden in der Klasse, den du um Hilfe bitten könntest?

6. Wer in der Klasse ist besonders begabt? Wer kann und weiß in irgendeiner Sache besonders viel? Denke auch an Sport, an Zeichnen und Malen, an Musizieren oder an irgendein anderes Fach. Wenn du den Namen aufschreibst, so schreibe bitte dazu, auf welchem Gebiet der aufgeschriebene Schüler viel weiß oder kann.

7. Schreibe den Namen des Schülers aus deiner Klasse auf, der dir als der kameradschaftlichste erscheint. 8. Welchen von deinen Mitschülern hältst du für den freigiebigsten? 9. Wer in der Klasse ist dein bester Freund?

Page 50: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

50

4.4.3. Verschiedene Darstellungsverfahren: 1. Soziomatrix, 2. Tabellarische Darstellung 3. Soziogramm

Zu 1: Soziomatrix:

² Gruppenmitglieder am vertikalen und horizontalen Rand abgetragen ² Wähler längs der vertikalen Seite ² Gewählt werden längs der horizontalen Seite (Oder umgekehrt) ² Alle Daten enthalten, deshalb auch als „Urliste“ nutzbar

VP A B C D E F G Pos. Neg. A + - 1 1 B + - 1 1 C + 1 0 D + - 1 1 E + - 1 1 F + - 1 1 G + 1 0

Pos. 1 4 1 1 0 0 0 Neg. 0 0 1 0 1 3 0 Tot. 1 4 2 1 1 3 0

Zu 2: Tabellarische Darstellung:

Zu 3: Soziogramm Ein Soziogramm ist die graphische Darstellung der Beziehungen in einer Gruppe, etwa in einer Schulklasse oder in einem Unternehmen. Ausgehend von Daten einer Erhebung werden in der Darstellung Beziehungen beispielsweise durch Pfeile symbolisiert.

Häufigkeit des Wahlerhaltes (/) und des Ablehnungserhaltes (X)

Code Name Abgegebene Wahlen

Erhaltene Wahlen

/ //// / / / XXX

A B C D E F G

Anne Benjamin Christiane Daniel Eva Frank Gretchen

B A D C, B B - B

B A, D, E D C - B, D, E -

Page 51: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

51

Auswertung des Soziogramms: Es lassen sich bestimmte soziometrische Muster ableiten:

• Paare: zwei sich gegenseitig wählende Gruppenmitglieder. • Dreiecke: drei sich gegenseitig wählende Mitglieder. • Ketten: graphische Anordnungen von Gruppen, in denen nicht alle Mitglieder durch

reziproke Wahlen miteinander verbunden sind. • Sterne: ein Gruppenmitglied wird von mehreren sich untereinander wenig Wählenden

vorgezogen. • Cliquen: Bildung von Untergruppierungen, innerhalb derer sich die Personen häufig

wählen; ein Austausch mit anderen Untergruppen findet nur in geringem Ausmaß statt. • Stars: Personen, die, im Mittelpunkt des Sterns stehend, bevorzugt gewählt werden. Man

unterteilt Stars in drei Formen, den Beliebten, den Experten und den Kommunikationsstar.

• Isolierte: Gruppenmitglieder, die weder aktiv noch passiv an der Wahl teilnehmen, also nicht wählen und auch von niemandem gewählt werden.

• Graue Eminenzen: isolierte Personen, die nur in reziproker Wahl zum Star einer Gruppe stehen.

• Abgelehnte: nur ablehnende Wahlen erhaltend. • Vergessene: Personen, die wählen, jedoch keine Wahlen erhalten. • Pyramide oder Baumstruktur, wie sie z.B. in Organisationsformen wie

Industriebetrieben auftritt.

4.4.4. Probleme der soziometrischen Befragung

§ Gewisser Bekanntheitsgrad zwischen Gruppengliedern nötig § Art der Wahl hängt wesentlich von Gruppengröße ab § Wahl muss „Ernstcharakter“ besitzen § Urteilsvermögen differenziert erst etwa ab dem 10. Lebensjahr ausreichend § Einfache Wahlmöglichkeiten problematisch, da Status in der Gruppe Ergebnis verzerrt § Zu differenzierte Wahlen können das Ergebnis jedoch ebenso verfälschen § 5 Wahlen als sinnvolle Begrenzung (Friedrichs) § Begrenzung der Nennungen kann zu erzwungenen Antworten und verzerrten Ergebnissen

führen § Sympathie/ Antipathie eventuell vom Kriterium abhängig § Frage nach Antipathien kann diese stärker ins Bewusstsein rufen § Negative Wahlen können verletzend wirken → anonyme Erhebung § Gefahr der Fehlinterpretation der Ergebnisse § Fehlende Konstanz der Ergebnisse

Page 52: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

52

5. Beurteilung I: Standardisierte und nicht-standard. Formen 5.1. Prinzip der Normierung

Um das Verhalten des Lernenden besser vergleichen zu können und damit auch objektiver beurteilen zu können, werden die Verfahren, die das Verhalten erfassen sollen, normiert. Bei der Standardisierung (=Eichung) wird das Diagnoseverfahren auf alle Personen einer ausgewählten, genau beschriebenen Stichprobe in der gleichen Weise und unter vergleichbaren Bedingungen angewendet. Diese Erhebung an einer repräsentativen Stichprobe unter konstant gehaltenen Bedingungen ermöglicht die Aufstellung von Normen. Das sind statistische Vergleichsdaten, die es ermöglichen, den spezifischen individuellen Wert einer Person mit Resultaten anderer Personen einer definierten Gruppe zu vergleichen.

Ein konkretes Testergebnis ist nicht aus sich heraus interpretierbar, sondern jedes Testergebnis muss in ein Bezugssystem eingeordnet werden. Dafür stehen drei Möglichkeiten zur Verfügung:

5.2. Arten von Bezugsnormen Um die gesammelten Lernergebnisse des Lernenden zu beurteilen, brauchen wir Vergleichsmöglichkeiten (Bezugsnormen). Bezugsnormen sollen folgende Aufgaben erfüllen: 1. individuelle Leistungen durch Ziffern angemessen und möglichst anschaulich kennzeichnen. 2. mit dieser Kennzeichnung den Vergleich zu Leistungen anderer Individuen ermöglichen, wenn ein solcher Vergleich erwünscht und angemessen erscheint. 3. den Vergleich mit Leistungen desselben Individuums zu anderen Zeiten erleichtern. Nach Rheinberg kann man Leistungsbeurteilung und Motivation folgendermaßen unterteilen:

• Soziale (interindividuelle) Bezugsnorm: - Def: Vergleich der individuellen Leistung mit dem

Leistungsdurchschnitt der Klasse oder Vergleich in einer best. BezugsgruppeàNormalverteilung mit Mittel-/ Durchschnittswert (meist auf Note 3)

- Betonung der Leistungs- und Fähigkeitsunterschiede zwischen Schülern - legen stabile, internale Atribtuionen (beim Schüler und Lehrer) nahe: Begabung - Ego- Orientierung (im Vergleich zu anderen gut dastehen) statt Aufgabenorientierung - Betonung der Selektionsfunktion von Schulnoten à normorientierte Leistungsbewertung Beachte: Der Schulgesetzgeber fordert die sachliche Bezugsnorm! Bei Intelligenztests hingegen ist aber das Ergebnis des Einzelnen im Vergleich zum Durchschnitt interessant! • (Intra-) Individuelle Bezugsnorm: - Def: Vergleich der aktuellen Leistung eines Schülers mit seinen früheren Leistungen,

z.B. „pädagogische Zensuren“ oder individuelle Lernfortschritte → Der individuelle Leistungsfortschritt wird bewertet, nicht die absolute Leistungshöhe.

- Legen variable, internale Attributionen nahe: Anstrengung - Aufgabenorientierung wahrscheinlicher - Betonung einer förderdiagnostischen Funktion von Noten à ipsative Leistungsbewertung Diese Norm wird besonders in der Förderpädagogik verwendet oder auch bei LRS- Kindern in der Regelschule. Sollte auch in der Schule miteinbezogen werden!

Page 53: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

53

• Sachliche (Objektive, lernzielbezogene zw. Ideal-) Bezugsnorm: - Def: Vergleich der aktuellen Leistung des einzelnen Schülers mit einem vorher (z.B. vom

Lehrer) genau definierten und den Schülern mitgeteilten Anforderungskatalog. - Rückmeldefunktion, Qualifikationsfunktion von Noten à kriteriumsorientierte Leistungsbewertung Beachte: Diese Norm ist vom Schulgesetzgeber vorgeschrieben! 5.3. Interindividuelle Normskalen 5.3.1. Prozentrangskala

Der Prozentrang definiert die Stellung eines Schülers innerhalb einer Gruppe bezgl. eines Merkmals. Er wird durch den Prozentsatz charakterisiert, der innerhalb dieser Gruppe von dem Schüler im Hinblick auf das Merkmal übertroffen wird. (Hat z.B. ein Schüler einen Prozentrangplatz von 75 hat, dann sind seine Leistungen gleich oder besser als die von 75% aller Schüler dieser Gruppe.)

Beispiel: - Von 300 Schülern liegen die Ergebnisse eines Wortschatztests mit 80 Aufgaben vor - (ƒ) ist wie oft (0-300) ein Rohpunkt (0-80) erreicht wurde - Vom untersten aufgetretenen Rohpunktwert aus werden die je Rohpunktwert aufgetretenen

Häufigkeiten (cum ƒ) fortlaufend (kumulativ) addiert - Die pro Rohpunktwert aufgetretene kumulative Häufigkeit drückt man als Prozentanteil PR

aller N = 300 Beobachtungen aus. à nach der Formel: cum ƒ % = 100 cum ƒ / N

Rohpunkt ƒ cum ƒ cum ƒ % PR 80 ..... ..... . ..... ..... . ..... ..... 5 25 98 4 18 73 24,3 24 3 19 55 18,3 18 2 15 36 12,0 12 1 12 21 7,0 7 0 9 9 3,0 3

5.3.2. IQ- Skala (Abweichungs- IQ) Man errechnet den Intelligenzquotienten indem man die Abweichung der einzelnen Versuchsergebnisse vom Mittelwert der (normalverteilten) Daten berechnet. Bei der IQ- Skala ist der Skalenmittelwert 100 und die Standardabweichung beträgt 15. 5.3.3. T- Wert- Skala Es gibt verschiedene Standardnormen, wie z.B. z, Z, C, T usw. Bei diesen Normen geht man davon aus, dass die empirischen Werte sich normal verteilen und dass man sie linear den aus der Normalkurve bekannten Zahlenwerten zuordnen kann. Da theoretische Normalverteilung vollkommen symmetrisch ist, liegen oberhalb und unterhalb ihres Mittelwerts genau 50% der Verteilung. Das häufigste Maß, um die Abweichung vom Mittelwert anzugeben, ist die Standardabweichung s. Für Tests hat sich die T- Wert- Skala als sehr praktische Normskala weitgehend durchgesetzt (Lienert 1969). Bei ihr wurden der Mittelwert mit 50 und die Standardabweichung mit 10 festgelegt.

Page 54: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

54

5.4. Schulaufgaben und mündliche Prüfungen 5.4.1. Schulaufgaben

Grundsätzlich können Schulaufgaben trotz aller Fragwürdigkeit der Notengebungspraxis als objektiv und gerechter eingeschätzt werden als mündliche Prüfungen. 5.4.1.1. Vorteile • Schulaufgaben sind i. d. R. standardisiert. Alle erhalten dieselben Aufgaben o. Fragestellungen. • Beurteiler müssen ihre Entscheidung nicht sofort und in der Belastung der Prüfungssituation treffen. Der Lehrer kann die Leistung in Ruhe mit seinem Maßstab vergleichen. • Weil viele oder nur wenige Schüler eine Aufgabe/ eine Frage lösen, erhält der Lehrer eine Vorstellung vom Schwierigkeitsgrad dieser Aufgabe. • Für die Zuverlässigkeit der Prüfung ist die Anzahl der gestellten Aufgaben wichtig. Schriftliche Prüfungen enthalten i. d. R. mehr Aufgaben. • Leistungsfremde Faktoren (Aussehen, Kleidung, Haltung,...) spielen bei schriftl. Prüfung keine Rolle • Blockierungen durch Ängste können bei der schriftlichen Prüfung leichter überwunden werden. • Schriftl. Prüfungen sind i. d. R. besser strukturiert, àPrüfling kann sich besser zurechtfinden. • Grundlagen und Ergebnisse der schriftlichen Prüfungen sind öffentlich, d.h. sie können mit den Betroffenen nachbesprochen werden.

5.4.1.2. Formen schriftlicher Prüfungen (Heller & Nickel 1978, 153ff): klassische Formen der schriftlichen Prüfung: � Aufsatz: Ø Nachteile: mangelnde Auswertungs- und Interpretationsobjektivität, Reliabilitäts- koeffizienten um .5, Vielfalt der Bewertungsmaßstäbe beeinträchtigt Validität � freie Hausarbeit: Ø Vorteile: differenziertere Erfassung produktiver Denkleistungen, umfassendere Rückmeldung für Prüfer und Prüfling, intrinsische Motivation Ø Nachteile: größerer Zeitaufwand bei Korrektur, geringere Objektivität

(à Beeinträchtigung der Reliabilität und Validität) � Klassenarbeit: Ø Nachteile: meist klasseninternes Bezugssystem zur Beurteilung, mangelnde Objektivität und Validität, Kriterien oft nicht im Voraus festgelegt Tests oder testähnliche Verfahren (Jäger 2000, 216): � Satzergänzungen: Lückentexte � Ja-Nein-Antworten � multiple-choice-Aufgaben Ø Vorteile: bessere Gewährleistung der Gütekriterien als bei freien Formaten Ø Nachteile: unzureichendes Feedback für Prüfer und Prüfling, u. U. Verlust intrinsischer Motivation 5.4.1.3. Erfüllung der Gütekriterien bei schriftlichen Prüfungen Objektivität Durchführungsobjektivität: � i. d. R. auf Grund des Gruppenbezugs und des transsituativen Charakters relativ günstig � besser als bei mündlichen Prüfungen, schlechter als bei Tests (Standardisierung fehlt) Auswertungsobjektivität: � z. T. mangelhaft: ð Williams 1933: Mathematikaufgabe sollte von Lehrkräften mit 0 – 100 Punkten beurteilt werden à Beurteilung schwankte zwischen 16 und 96 Punkten ð Starch & Ellliot 1913: Abschlussarbeit in Mathematik sollte von ca. 130 Schulen mit 0 – 100 Punkten bewertet werden à Streuung von 25 bis 89 Pkt bei Gesamtbewertung, ähnlich starke Schwankungen bei einzelnen Aufgaben

Page 55: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

55

Interpretationsobjektivität: � beeinträchtigt: ð Starch & Elliot 1913: Bestehensgrenze variierte von Schule zu Schule zwischen 70 – 80 Punkten � Objektivitätskoeffizenten zwischen .5 und .7 (Ingenkamp) Reliabilität: Wiederholungsreliabilität: � Bewertung ist nur unzureichend stabil: ð Hartog & Rhodes 1936: 15 Prüfungsarbeiten aus dem Fach Geschichte wurden von 15 Prüfern bewertet; nach 12 – 19 Monaten wurde die Beurteilung wiederholt à Bewertung wurde in fast 50% der Fälle geändert Paralleltest-Reliabilität: � Beurteilung schwankt mit dem/der PrüferIn: ð Starch & Ellliot 1913: Streuung von 25 bis 89 Punkten bei Gesamtbewertung, ähnlich starke Schwankungen bei einzelnen Aufgaben Validität: Inhaltsvalidität: � curriculare Validität und Lerngelegenheit in der Regel berücksichtigt � besser als bei mündl. Prüfungen auf Grund des transsituativen Charakters, schlechter als bei Tests Konstruktvalidität � Beurteilung wird durch verschiedenste sachfremde Faktoren beeinflusst: Ø durch Sympathie:

ð Hadley 1954: beliebte SchülerInnen erhielten im Vergleich zu Unbeliebten in den Testergebnissen zu 50% bessere Noten, als angemessen wäre und umgekehrt

Ø durch Vorinformation: ð Weiss 1965: Beurteilung von 2 Deutschaufsätzen durch ca. 90 LehrerInnen, Variation der Vorinformation (Redakteurssohn vs. Eisenbahnersohn) à positiv dargestellter Schüler erhielt eine bis zu einer halben Notenstufe bessere Bewertung (2,1 vs. 2,8)

Ø durch Länge der Arbeit, Handschrift, Rechtschreibfehler ð Weiss 1965 Ø durch das Geschlecht des/der Prüfers/In und des Prüflings Ø durch das Fach an sich: mildere Beurteilung in musischen Fächern Ø durch die Klassengröße: bessere Beurteilungen in kleineren Klassen Ø durch die Jahrgangsstufe: Verschärfung der Zensuren von Klasse 1 bis 4 Ø durch das klasseninterne Bezugssystem Ø durch die Schulart: je „höher“ die Schule, desto strenger die Benotung Ø durch die länderspezifische Zugehörigkeit Empirische Validität: � Empfehlungen der GrundschullehrerInnen bestätigen sich zu 60% ð Sommer 1983 � relativ hohe Korrelationen zwischen Noten in der 4. Klasse und am Gymnasium ð Roederer 1997 � aber: kaum Zusammenhänge zwischen Noten und Berufserfolg ð Althoff 1986 � Noten haben geringere prognostische Validität als Tests ð Tent 1969 Verbesserungsmöglichkeiten: Objektivität: � Durchführungsobjektivität: - gleiche Hilfsmittel für alle Prüflinge - Individualisierung bei Prüfungsängstlichen � Auswertungs- & Interpretationsobjektivität: - Kriterienkataloge einsetzen - bei freien Arbeiten: Teamauswertung nach Globaleindruck & Kriterienkatalog - getrennte Beurteilung durch Zweitprüfer - Entwicklung eines schulinternen Bezugssystems

Page 56: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

56

Reliabilität: � Wiederholungsreliabilität: - Möglichkeit der Prüfungswiederholung einräumen (i. d. R. gegeben) � Paralleltest-Reliabilität: - Einsatz von Zweitprüfern Validität: � Inhaltsvalidität: - Experten-Rating der Fragen - Berücksichtigung der Lerngelegenheit � empirische Validität: - Überprüfung des Zusammenhangs mit anderen Kriterien wie weiteren schriftlichen Prüfungen, mündlichen Prüfungen, Tests usw. � Konstruktvalidität: - Pluralismus der Prüfungsmethoden à Wahlmöglichkeit - Bewusstheit über Verzerrungseffekte - Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf - geschlossene Antwortformate verwenden à geringe Inferenz - neue Formen der Leistungsbeurteilung berücksichtigen - Anonymisierung einführen à verhindert Sympathie- und Erwartungseffekte

- Prüfungen nach erster Durchsicht in andere Reihenfolge bringen und erneut korrigieren à vermeidet Kontrasteffekte

- besser mehrere Einzelprüfungen statt einer einzelnen Prüfung 5.4.1.4. Vor- und Nachteile schriftlicher Prüfungen in Abgrenzung von Schulleistungstests

Vorteile schriftlicher Prüfungen: � curriculare Validität und Lerngelegenheit wird i. d. R. berücksichtigt

ßà standard. SLTs: curriculare Validität nicht immer gegeben; Lerngelegenheit kann nicht berücksichtigt werden

� manche Formen der schriftlichen Prüfung wirken intrinsisch motivierend (z. B. freie Hausarbeit) ßà standard. SLTs: wg. geschl. Antwortformate & vorgegebenem Thema kaum motivierend

� schriftliche Prüfungen erlauben detaillierte & umfassendere Rückmeldung für PrüferIn und Prüfling ßà standard. SLTs: Tests werden i. d. R. nur mittels Schablone ausgewertet; weitere

Kommentare sind nicht vorgesehen; Tests erfassen nur eng umgrenztes Wissensgebiet � Gütekriterien sind bei schriftlichen Prüfungen besser erfüllt als bei mündlichen Prüfungen Nachteile schriftlicher Prüfungen: � Gütekriterien sind weniger gut erfüllt als bei Tests: v. a. bei freien Arbeiten Validitätsprobleme wg. mangelnder Auswertungskriterien, des Einflusses des Vorwissens & des klasseninternen Bezugssystems

ßà standard. SLTs: sehr gute Erfüllung der Gütekriterien durch Standardisierung, geschlossene Antwortformate, Auswertung mittels Schablone, ggf. Anonymisierung, Experten-Rating bei Fragen usw. à Objektivitäts- und Reliabilitätsüberprüfungen sind außer bei Abschlussprüfungen in der Praxis nicht vorgesehen

� v. a. bei freien Arbeiten hoher Zeitaufwand für die Korrektur è v. a. bei Selektionsentscheidungen sollten schriftliche Prüfungen durch Schulleistungstests ergänzt werden!

Page 57: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

57

5.4.2. Mündliche Prüfungen

Herkunft: Von Rhetorik-Prüfungen Definition nach Jäger (2000) „Leistungserbringung eines Prüflings gegenüber einem Prüfer oder einer Prüfungskommission, wobei die Leistungen durch mündliche Ausführungen des Kandidaten auf mündlich vorgegebene Fragen vermittelt werden.“ sprachliche Leistung soll festgestellt werden - 2 Formen nicht-sprachliche Leistung soll festgestellt werden formelle (festgesetzte) Prüfungen (Abschlussprüfungen) - Werden durchgeführt als informelle (willkürliche) Prüfungen im Unterricht 5.4.2.1. Arten mündlicher Prüfungen (Jäger 2000)

� Disputation / Rigorosum: mündliche Prüfung im Rahmen der Promotion - Disputation: Streitgespräch, alle Aspekte eines Sachverhalts sollten berücksichtigt werden - Rigorosum: mehrere PrüferInnen verschiedener Fachrichtungen prüfen eine/n Kandidatin/Kandidaten

� Vortrag: freie Entwicklung und Präsentation eines Themas � Abhören: Überprüfung, inwiefern ein/e SchülerIn etwas wiedergeben kann � Arbeitsprobe: Vorstellen eines Themas, das Teil einer größeren Arbeit ist und vorher gedanklich vorgearbeitet wurde � Gruppenprüfung

5.4.2.2. Kritik an der mündlichen Prüfung (vgl. Beurteilungsfehler:5.5)

• Sozialpsychologische Kritik Prüfungssituation = asymmetrische Sozialsituation Urteilsfehler: - Primacy-Effect - Kontexteffekt Prüfungssituation - Haloeffekt - Verbalisationsgeschick - Geschlecht - Status des Prüflings - Aussehen - Alter - Geschlecht - Ausbildung des Prüfers - Motivation - Eindruck

Page 58: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

58

• Psychoanalytische Prüfungskritik

Angstauslöser bei Prüfungen: - Situation der Trennung (Prüfung als Abschluss eines Lebensabschnitts) - Situation der Kränkung (keine Bestätigung der intellektuellen Leistung möglich) - Situation der Bestrafung (Prüfung als jüngstes Gericht) - Situation der Versuchung (aggressive Versuchung)

• psychodiagnostische Gütekriterien-Kritik

Objektivität: nicht sichergestellt, dass alle Prüflinge dieselben Bedingungen haben � Durchführungsobjektivität: mangelhaft, da nicht alle Prüflinge dieselben Fragen gestellt bekommen (adaptiv – situativ), nicht zur selben Zeit geprüft werden usw. (zeitlich unbestimmt) � Auswertungsobjektivität: wg. situativem Charakter oft unzureichend; Kriterien für richtig / falsch sind oft nur vage definiert � Interpretationsobjektivität: großes Ausmaß an Nicht-Übereinstimmung (Objektivitätskoeffizienten zwischen .40 und .80, Häufung bei .60) ð Birkel & Pritz 1980: von einer mündlichen Geografieprüfung, die mit Note 3 bewertet

worden war, wurden 2 Videoversionen erstellt; 1 x schnell, flüssig, 1x langsam, stockend.

à Beurteilung durch ca. 100 Lehrkräfte, denen Vorinformationen über bisherige Leistungen in Geografie oder anderen Fächern gegeben wurde

à Objektivitätskoeffizient von .35 à Problem: klasseninternes Bezugssystem Reliabilität: � Wiederholungsreliabilität: PrüferIn prüft Kandidaten/In nach einiger Zeit erneut; kaum Untersuchungen vorhanden (Koeffizienten etwas höher als bei Paralleltest) à in der Schule nicht vorgesehen

à grundsätzliches Problem bei Leistungsbeurteilung: Prüfer ist zugleich Messinstrument à Messinstrument ist nicht stabil

� Paralleltest-Reliabilität: Prüfen eines Prüflings durch 2 PrüferInnen kurz hintereinander bzw. zeitgleich; Äquivalenzkoeffizient zwischen .00 und .60, Häufung bei .45 ð Birkel & Pritz 1980: Streuung von Note 1 – 5 unter allen Bedingungen à Beurteilung durch Zweitprüfer; in der Regel nur bei Abschlussprüfungen vorgesehen Validität: � Inhaltsvalidität: beeinträchtigt durch situativen Charakter à Fragen sind z. T. nicht repräsentativ, keine Staffelung nach Schwierigkeit,…à aber: i. d. R. curriculare Validität / Lerngelegenheit berücksichtigt � empirische Validität: Übereinstimmung zwischen mündlichen und schriftlichen Prüfungen nur .30; Zusammenhänge mit Dozentengutachten u. Ä. mäßig

Page 59: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

59

� Konstruktvalidität: durch Interaktionseffekte beeinträchtigt ð Birkel 1976: 2 Videos einer mündlichen Deutschprüfung wurden ca. 150 LehrerInnen zur Beurteilung vorgelegt; Kandidatin A absolvierte eine harmonische Prüfung, Kandidatin B war durch überdurchschnittlich hohen Schwierigkeitsgrad überfordert

(Heller & Nickel) à Reihenfolge der Darbietung wurde variiert à Vorinformation über Leistung im Abituraufsatz wurde variiert (1 / 5 / keine Info) à Kontrasteffekte: gute Kandidatin wurde noch besser beurteilt, wenn zuerst schlechte dargeboten wurde und umgekehrt

à Erwartungseffekte: Bei Angabe der Aufsatznote 1 lag die Zensur von Kandidatin B durchschnittlich bei 3.01, bei Angabe der Aufsatznote 5 durchschnittlich bei 3.56 à personale Variablen: Lehrkräfte mit mehr Prüfungserfahrung tendieren zu strengeren Noten

ð Birkel & Pritz 1980 (s. a. Pritz 1977): à sachfremde Kriterien: Sprechgeschwindigkeit beeinflusst Benotung (Notendurchschnitt der schnelleren Version 2,57, der langsameren Version 3,44) à Halo-Effekt: schneller sprechende Kandidatin wurde als intelligenter, sympathischer usw. eingeschätzt à Erwartungseffekte: bei positiver Vorinformation über die Geografienote wurde bessere Note vergeben

5.4.2.3. Verbesserungsmöglichkeiten

Allgemein Formaler Rahmen: keine Wartezeiten, gute Sitzgelegenheiten. Positive Momente: Flexibilität des Prüfers, Ermutigungsstrategien. Hohe Transparenz der Anforderungen: - Festlegung der Lehrziele - Kriterienkatalog - klare Fragen - Trennung von Leistungsfeststellung und –bewertung - Mehrere Beurteiler - Keine Ballung von Prüfungen - Evtl. Vorbereitungszeit nach Frage - Pluralismus der Prüfungswahl Explizit: Gütekriterien Objektivität: � Durchführungsobjektivität: - korrekter formaler Rahmen: pünktlicher Beginn, Freundlichkeit usw. (keine unnötige Betonung der Prüfermacht) - Auslosen der schriftlichen Prüfungsfragen - Ermutigungsstrategien & Funktionsfragen einsetzen - Vorbereitungszeit gewähren, Reihenfolge frei wählen lassen - Kontrolle der Prüfung durch Prüfling ermöglichen � Auswertungs- & Interpretationsobjektivität: - Kriterienkataloge einsetzen - getrennte Beurteilung durch Zweitprüfer - Entwicklung eines schulinternen Bezugssystems

Page 60: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

60

Reliabilität: � Wiederholungsreliabilität: - Prüfling u. U. freiwillig wiederholte Leistungskontrollen während Schulzeit ermöglichen � Paralleltest-Reliabilität: - Einsatz von Zweitprüfern Validität: � Inhaltsvalidität: - Formulierung von Prüfungsfragen im Voraus - Experten-Rating der Fragen - Berücksichtigung der Lerngelegenheit � empirische Validität: - Überprüfung des Zusammenhangs mit anderen Kriterien wie weiteren mündlichen Prüfungen, schriftlichen Prüfungen, Tests usw. � Konstruktvalidität: - nur mündlich prüfen, wenn Sprache der Gegenstand der Prüfung ist - Pluralismus der Prüfungsmethoden à Wahlmöglichkeit - Bewusstheit über Verzerrungseffekte - Transparenz der Anforderungen: Lehrziele festlegen, klarer Prüfungsverlauf - Abwechseln von Übersichts- und Detailfragen - nicht zu viele Prüfungen hintereinander (Vermeidung von Kontrasteffekten) - besser mehrere Einzelprüfungen statt einer einzelnen Prüfung 5.4.2.4. Vergleich schriftlicher und mündlicher Prüfungen (Jäger 2000, 179) mündliche Prüfungen schriftliche Prüfungen

adaptiv: Einstellen auf den Prüfling möglich

kommunikativ: Austausch zwischen PrüferIn und Prüfling

fixiert: vorgegebene Fragen müssen bearbeitet werden

reaktiv: Reaktion des Prüflings auf schriftliche Fragen

auslotend: Eruieren des individuellen Fähigkeitsniveaus möglich

Grenzen vorgebend: PrüferIn und Prüfling halten sich an vorgegeben Fragen

singulärer Bezug: Einzelperson wird geprüft

Gruppenbezug: Gruppe wird geprüft eher zeitlich unbestimmt:

keine allzu strengen zeitlichen Grenzen

eher zeitlich bestimmt: strenge zeitliche Grenzen

situativ: Fragen werden oft aus der Situation heraus gestellt

transsituativ: Fragen kommen unabhängig von der Situation zu Stande

umfassend: kann größeres Wissensspektrum erfassen

ausschnitthaft: stichprobenartiger Charakter

Page 61: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

61

5.5. Beurteilung im Unterricht / Urteilsfehler Die Beurteilung ist die abstrahierende Beschreibung des Verhaltens mit anschließender Deutung des Verhaltens, wobei ein Vergleich der Beobachtungseinflüsse mit Milieueinflüssen und Lebenslaufdaten stattfindet. Zur Abgrenzung Beobachtung – Beurteilung vergleiche 4.1.4.! Beurteilungsfehler, Beobachtungsfehler und Fehler bei mündlichen (und schriftlichen) Prüfungen überschneiden sich in allen Bereichen. Explizite Fehler bei der mündlichen Prüfung sind unter 5.4.2.2. vorzufinden. In dessen Anschluss unter 5.4.2.3. sind auch Verbesserungsvorschläge vorzufinden, die man teilweise auch auf Beurteilungs- und Beobachtungsfehler übertragen kann. Beurteilung im Unterricht sowie Urteilsfehler (allgemein)

(1) Aufmerksamkeit / Ermüdung: schlechtere Beobachtung (2) Beobachtungsbericht als Fehlerquelle: Bericht vermittelt ein unzutreffendes Bild von beobachteter Person, z. B. durch Verkürzungen und Kontrastierungen (3) Ettikettierungs- und Stigmatisierungsprozesse: Beurteiler macht sich bestimmtes Bild

von Proband ⇒ Erwartungseffekte ⇒ Zuordnung zu einer negativen Kategorie (z.B. Der Apfel fällt nicht weit vom Stamm, …)

(4) Fehler der zentralen Tendenz: Beurteiler vermeiden extreme Positionen bei der Bewertung, u.a., wenn Proband unbekannt ist, z. B. 0 bei Polaritätenprofil von +3 bis -3 (5) Geschlecht von Lehrer und Schüler (Untersuchung von Hadley): Mädchen werden höhere Sympathieränge zuerkannt und in 45% der Fälle besser beurteilt als dies aufgrund

der Ergebnisse in einem Leistungstest zu erwarten war. Nur in 32% der Fälle werden Mädchen schlechter eingestuft. Bei den Jungen ist dies umgekehrt: 40% werden schlechter beurteilt, nur 23% besser.

(6) Güte- oder Mildefehler: Probanden, die den Beurteiler kennen, werden besser beurteilt (7) Großzügigkeitsfehler: allgemeine Tendenz, zu gut zu bewerten (8) Halo-Effekt & logische Fehler: - Halo-Effekt: ein Merkmal einer Person „strahlt“ auf die Bewertung anderer Merkmale aus, obwohl diese nichts damit zu tun haben z. B. Brille à klug; freundlich à gute Leistungen; gute Leistungen in Mathe à gute Leistungen in Physik, Hochsprache à Klugheit (9) - logischer Fehler: bewusster als Halo-Effekt: Tendenz des Beurteilers,

Merkmale, die er für logisch zusammengehörig ansieht, auch ähnlich zu bewerten; falsche Schlussfolgerungsketten

z. B. Wer lügt, der stiehlt; verschlossen à uninteressiert à unkonzentriert à lernschwach à unintelligent (10) Konfabulationseffekte: Lücken oder Ungereimtheiten bei der Beobachtung gehen

verloren und werden durch die Schemata des/der Beobachters/Beobachterin ausgeglichen, z. B. Kinder rempeln sich untereinander im Spaß an, BeobachterIn glaubt aber, sich an Schlägerei zu erinnern

(11) Kontrasteffekt: Leistung / Verhalten des/der zuvor beobachteten Person nimmt Einfluss auf Beurteilung der folgenden Person, z. B. nach sehr guter mündlicher Prüfung erscheint die folgende mündliche Prüfung im Vergleich umso schlechter (vgl. Birkel

(1978)) (12) Soziale Stereotype: Sonderfall des logischen Fehlers: Beurteiler geht von

Zusammengehörigen sozialen Sachverhalten aus (z.B. „Jungen sind aggressiver als Mädchen“)

Page 62: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

62

(13) Projektmechanismus: Beurteiler sucht eigene Fehler im Probanden (14) Pygmalion- / Stigmatisierungseffekt (Rosenthal-Effekt) & soziale Stereotype: - Pygmalion- / Stigmatisierungseffekt: Bild, das man sich von einer Person gebildet hat, bestimmt das Verhalten dieser Person gegenüber und führt zu selbsterfüllenden Prophezeiungen, z. B. SchülerInnen, die LehrerInnen als „bloomer“ vorgestellt werden, zeigen tatsächliche Leistungszuwächse, weil sich die Lehrkräfte verstärkt um sie kümmern

- soziale Stereotype: gesellschaftliche Klischees, z. B. Mädchen sind schlechter in Mathe als Jungen

(15) Reihungs- und rhythmische Schwankungseffekte: periodisches Absinken und Ansteigen der Bewertungen

(16) self- fulfilling- prophecy: der Lehrer versucht in Prüfungen oft seine gute/ schlechte Einschätzung des Schülers zu bestätigen

Weitere Urteilsfehler im Unterricht:

1. Fachfremde Beurteilungskriterien: Nur die Leistungen sollten bewertet werden, die für das Fach relevant sind, nicht z.B. das Textverständnis, das in Mathematik beim Sachrechnen indirekt mitbewertet wird.

2. Schulartspezifische Benotung: Tendenz zu strengerer Benotung, je höher die weiterführende Schule ist.

3. Fächerspezifische Benotung: Aufgrund der gesellschaftlichen Wertschätzung gelten die einzelnen Fächer nicht gleich viel, z.B. Mathematik versus Musik. → Schlechteste Note in Musik oft die 3.

4. Klassengröße: Die zufällige Platzierung in einer kleinen oder großen Klasse kann für das spätere Leben von großer Bedeutung sein.

5. Schulstufenbezogene Zensurierungstendenzen: Die Notengebung verschärft sich nach Hopp und Lienert in den ersten vier Schuljahren wegen des anstehenden Übertritts wesentlich.

6. Länderspezifische Differenzen: Siehe Abiturnoten in den verschiedenen Bundesländern! 7. Klasseninterne Bezugssysteme: Versetzungsentscheide, Abschlusszeugnisse usw. beziehen

sich zumeist nicht auf vergleichbare Merkmale des Individuums, sondern geben zumeist die Rangposition des Schülers wieder, in welche der Schüler zufällig hineingeraten ist.

Page 63: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

63

6. Beurteilung II: Schulnoten Schulnoten sind ein fester Bestandteil unseres Schulsystems. Sie haben wichtige Funktionen, sind jedoch nicht leicht zu ermitteln und werden häufig kritisiert. Es stellen sich einige Fragen: Welche Funktionen haben Schulnoten und mit welchen Problemen sind diese verbunden? Wie werden Noten i. A. ermittelt? Werden die Gütekriterien dabei erfüllt? 6.1. Funktionen Der Zweck von Leistungsbeurteilung in der Schule ist generell in den Aspekten Vergleich, Analyse und Prognose zu sehen, und zwar für mehrere am Bewertungsprozess interessierte Beteiligte:

- Lernender (Rückmeldung über Lernerfolg) - Lehrender (Abschätzung des Unterrichtserfolgs) - Erziehungsberechtigte (Hilfe für eigene Entscheidungen: Nachhilfe...) - Außerschulische Interessensgruppen (Vergleichsinfo) - Staat (Vorhandensein von genügend qualifizierten Schülern in Gesellschaft)

Funktionen der Schulnoten und Kritikpunkte:

• Kontrolle: Eine wesentliche Funktion von Noten ist die Kontrolle des erreichten Kenntnisstandes (Anforderung des Lehrplans). Um eine weitgehende Homogenität des Leistungsstandes in einer Klasse zu gewährleisten, ist es nötig, Kenntnisstand in bestimmten Abständen zu kontrollieren. Diese Kontrollfunktion der Noten ist besonders wichtig, wenn der Schüler die Schule verlässt (à Noten und Zeugnisse entscheiden, ob Kenntnis für nächste Institution ausreicht). Kontrolle ist wichtig für - Schüler: Rückmeldung über die Erreichung des gesetzten Lernziels - Lehrer: Überwachung seines Unterrichtserfolgs

Kritik: Die Kontrollfunktion ist nur bei objektiver Erstellung der Zensuren möglich!

• Bericht und Information: Noten und Zeugnisse haben auch für außenstehende Dritte (Eltern) die Aufgabe eines standardisierten Berichts, sie sollen die Eltern über Kenntnisstand ihrer Kinder informieren.

Kritik: In vielen Fällen nehmen Eltern leider erst Zeugnisnoten bewusst zur Kenntnis. à Kurzfristige Störungen oder auch langanhaltende Spannungen zwischen Schüler und Eltern oder Schüler und Lehrer, Gefahr falscher Noteninterpretation der Eltern

• Berechtigung: Nur durch den formalen Nachweis eines bestimmten Kenntnisstandes sind für den Schüler bestimmte Berechtigungen formaler Art gegeben. (à Hochschulberechtigung: NC, Latinum, ...).

Kritik: Berechtigungsfunktion von Noten und Zeugnissen hat ausschließlich formalen Charakter. (Best. Note erreicht à Keine weitere Überprüfung des Kenntnisstandes)

• Auslese: Das Leistungsprinzip ist in unserer Gesellschaft der wichtigste Verteilungsmechanismus à Schule = Qualifikations- und Sozialisationsinstanz / - anstalt. Auslese geschieht grundsätzlich durch Noten und Zeugnisse (Annahme: Zeugnisse sagen weitere Leistungsfähigkeit voraus).

Kritik: Die Auslese ist eine der wichtigsten, aber auch eine der pädagogisch fragwürdigsten Funktionen der Schule bzw. der Noten. Die Zensuren bestimmen das Vorrücken in die nächste Jahrgangsstufe. à „Existenzkampf“, Konkurrenz der Schüler, Lehrer = Verwalter von „Lebensschicksalen“

Ford

erun

g

Aus

lese

Page 64: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

64

• Rückmeldung und Steuerung im Lernprozess: Die Beurteilung von Leistungen dient der Rückmeldung an Schüler und Lehrer hinsichtlich des bisher erreichten Kenntnisstandes. (Angelehnt an kybernetisches Modell des Regelkreises: zu erreichender Sollwert ß à vorhandener Ist-Wert, werden in Beziehung gesetzt) Rückmeldung für Lehrer: - Einsetzung äußerer und innerer Differenzierung - Überprüfung des Unterrichtskonzepts auf Effektivität hin - Rechtzeitiges Erkennen von Über- und Unterforderung der Schüler

• Motivation: Noten = Anreiz zu positivem Leistungsverhalten (Operantes Konditionieren: Pos. Verstärkung à wieder Lob kriegen; neg. Verstärkung à schlechte Noten meiden)

Kritik: Die Motivation durch Noten ist eher extrinsisch und damit qualitativ weniger hochwertig als die intrinsische Motivation. Bei leistungsschwachen Schülern ist durch Leistungsdruck sogar gegenteilige Wirkung zu erwarten. Notendruck stellt generell eine Gefahr dar („Notenpeitsche“, Prüfungsangst).

• Disziplinierung: Nicht ordnungsgemäßes Verhalten wird durch schlechte Noten bestraft.

Kritik: Disziplinierung durch Noten ist pädagogisch sehr bedenklich: - Leistungslähmende Auswirkungen auf den Unterricht - Teilweise Entstehung von Konkurrenzsituationen und Prüfungsangst - Gefahr der Manipulation durch die Note als Disziplinierungsmittel à Validität verletzt, da Verhalten statt Leistung gemessen wird!

6.2. Ermittlung Schulnoten werden in der Regel durch schriftliche Arbeiten, mündliche Prüfungen und Mitarbeitsnoten („Eindrucksnoten“) ermittelt. Anzahl, Zeitpunkte, Inhalte und Gewichtung solcher Prüfungen sind im Einzelnen durch Erlasse (Lehrplan...) geregelt. 6.3. Gütekriterien und Kritik Anhand der Gütekriterien wird die Kritikwürdigkeit der Schulnoten deutlich vor Augen geführt. Im Folgenden wird deshalb die Erfüllung der Hauptgütekriterien bei der Notengebung genauer betrachtet.

a) Objektivität: Objektivität wäre nur bei standardisierten Formen der Aufgabenstellung / Beantwortung und technischer Auswertung vollständig gegeben. à In der Schule allenfalls geminderte Objektivität: Note wäre nur dann objektiv, wenn gleiche Leistung von verschiedenen Lehrern gleich beurteilt wird.

Gründe für mangelnde Objektivität: - Uneinheitliche Bewertungskriterien (Unterschiedliche Vorstellung der Lehrer, inwieweit z. B. Schriftbild und Rechtschreibfehler in Aufsatzbeurteilung eingehen sollten) - Wesentliche Kriterien der Beurteilung nicht eindeutig definierbar (z. B. Klarheit d. Stils) à „Halo-Effekt“, d. h. man schreibt Person mit schlechter Handschrift unbewusst auch schlechten Sprachstil zu. - Persönlichkeit des Lehrers à Beurteilungsfehler möglich - Kennen des Beurteilten à Eindrücke, Erfahrungen, Stereotype mindern Objektivität - Empirische Untersuchungen haben gezeigt, dass Lehrer - auf unterschiedlichen Strengeniveaus urteilen - die Notenskala unterschiedlich ausschöpfen - sich in der Differenziertheit der Notengebung unterscheiden - unterschiedliche Kriterien bei Bewertung der Arbeiten zugrundelegen

Page 65: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

65

Verbesserungsmöglichkeiten: - Erarbeitung eines Kriterienkatalogs vor der Bewertung - Möglichst viele Leistungsüberprüfungen - Mehrere Bewerter / Lehrer sollten eine Arbeit beurteilen à sichereres Urteil

b) Reliabilität: Hohe Reliabilität (Grad der Messgenauigkeit) liegt vor, wenn man einen Test häufig durchführt und mehrmals das gleiche Ergebnis erzielt. (z. B. Schulaufgabe zweimal hintereinander, gleiches Ergebnis).

Gründe für mangelnde Reliabilität: - In Prüfungssituation spielen auch Zufall, Konzentrationsmangel, Leichtsinn, Motivation, Wohlbefinden... eine Rolle. à Schulnoten geben selten genauen Aufschluss über tatsächliches Wissen des Schülers, sonder über in einmaliger Situation reproduziertes Wissen. - Bei Mathearbeit bei wiederholter Beurteilung von 24 Lehrkräften im Abstand von 3 Monaten ergab sich zischen 1. und 2. Bewertung nur Korrelation von 0,46.

c) Validität: Die Validität von Schulnoten macht eine Aussage darüber, inwieweit diejenigen Leistungen notenmäßig bewertet werden, die vom Test bewertet werden sollen.

Gründe für mangelnde Validität sind beispielsweise die Mitbewertung von Schriftbild, äußerer Form und Rechtschreibung bei der Aufsatzbeurteilung, die eigentlich nicht Kriterien eines guten Aufsatzes sind, oder Fragen in Klassenarbeiten, die im Unterricht nicht behandelt wurden.

Bei der Notengebung muss man zwischen den verschiedenen Arten der Validität (vgl. auch Kap. 2) unterscheiden: Inhaltsvalidität: Die Aufgabenstellung in einer Klassenarbeit ist in dem Maß inhaltlich valide, in dem sie dem zu überprüfenden Stoffgebiet entspricht.

Gründe für mangelnde Inhaltsvalidität: - Es ist kaum möglich, ausschließlich das zu überprüfende Stoffgebiet zu testen. (Grundwissen: z. B. Grundlagen in Rechtschreibung...) - Inhaltsvalidität ist nur zu erreichen, wenn ein Test operationalisierbare Lernziele überprüft, was aber nicht bei allen im Lehrplan formulierten Lernzielen der Fall ist (z. B. Entwicklung von Musikverständnis...). Vorhersagevalidität: Schulnoten sollten - um empirisch valide zu sein - Prognosen über den weiteren schulischen Lebensweg (z. B. Gymnasium...), Bildungsweg (z. B. Studium...) oder berufliche Ausbildung geben können. Nach Ingenkamp (1976) ergaben Untersuchungen, dass 33 % der Schüler mit „geeignetem“ bzw. „sehr geeignetem“ Übertrittszeugnis aus der Grundschule die Vorhersage in keine tatsächlich erfolgreiche Schullaufbahn im Gymnasium umsetzen konnten. Es ergab sich außerdem, dass die Abiturnote lediglich eine Korellation von 0,19 bis 0,49 mit dem Studienerfolg (Abschluss des Examens) zeigt. à Notengebung erfüllt Vorhersagevalidität nicht besonders gut.

Gründe für mangelnde Vorhersagevalidität: Es gibt viele andere Faktoren (außer Schulnoten), die über einen erfolgreichen Übertritt von Grundschule auf Gymnasium bzw. Studienerfolg entscheiden: Entwicklung der Persönlichkeit (Pubertät), Qualität der Vermittlung, neue Umgebung,...

Page 66: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

66

Kriterienbezogene Validität: Die kriterienbezogene Validität sagt etwas darüber aus, inwieweit die Schulnote Aufschluss darüber gibt, ob das Unterrichtsziel erreicht wurde. Sie ist höher, wenn das Lernziel operationalisierbar ist (In Mathetests ist sie mit Kriterien wie Rechenweg, -fehler, -ergebnis leichter zu gewährleisten als in der Aufsatzbeurteilung), wenn also bestimmte, vorab definierte bzw. stillschweigend anerkannte Kriterien Maßstab für die Beurteilung sind.

Gründe für mangelnde kriterienbezogene Validität: - Beurteilungskriterien sind oft nur vage bestimmt - Bei Aufsatzbeurteilung (Was ist guter / schlechter Aufsatz?) und im Sport (Individueller Einsatz / körperliche Voraussetzungen mit einbeziehen?) besonders schwierig - Unterschiedliche Auffassungen (bedingt durch unterschiedliche Ausbildung, fachdidaktische Positionen, verschiedene Fortbildungen, berufliche Erfahrung...) gehen in die Bewertung mit ein.

Insgesamt:

Noten sind ein fester Bestandteil der Schule, der einige wichtige Funktionen hat. Notengebung ist jedoch mit schwerwiegenden Problemen behaftet: Wie benotet man gerecht / objektiv? Nach welchen Kriterien wird benotet? Wie soll mit Prüfungsangst umgegangen werden?...

Page 67: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

67

7. Evaluation Definition nach Rossi und Freemann (1993): Evaluation ist die systematische Anwendung sozialwissenschaftlicher Forschungsmethoden (von der Planungsphase bis hin zur Entwicklung und Umsetzung eines Programms) zur Beurteilung des Konzepts, des Designs, der Umsetzung und des Nutzens sozialer Interventionsprogramme. Allgemein: Evaluation hat etw. mit dem systemat. Bewerten von Handlungsalternativen zu tun. 7.1. Methoden schulbezogener Evaluation Beispiele: Standardisierte Fragebögen

- Fragebogen zum Lernverhalten vor einem Leistungstest - Fragebogen zum Verhalten in der Gruppe nach einer Projektarbeit - Schüler-Fragebogen zur Selbstbewertung der Methodenkompetenz /

der Sozialkompetenz/ der Sachkompetenz / der Arbeitsorganisation / des Umgangs mit Konflikten / sprachlicher Fertigkeiten

- Schüler-Fragebogen zur Analyse von Lernproblemen / zur Beurteilung des Lehrers / zur Beurteilung des Klassenklimas

- Fragebogen für Eltern - Lehrer-Fragebogen zu den Arbeitsbedingungen / zum Unterrichtsverhalten

Offene Befragungen - Kurzbefragung zur Einschätzung des Unterrichts durch die Schüler - Befragung zur Selbstbewertung des eigenen Arbeitsprozesses in der Freiarbeit - Befragung zur Projektevaluation - Klassen-Soziogramm - Fachlehrer-Befragung zu Klassenauffälligkeiten

Sonstige Methoden - Beobachtungsbogen zur Methodenkompetenz / Sozialkompetenz / Sachkompetenz - Tagebuch für Grundschüler

7.2. Ergebnisse aus internationalen Schulleistungsvergleichen 7.2.1. PISA Allgemeines zu Pisa ² PISA: „Programme for International Student Assessment (= Bewertung)“ ² Von der OECD initiiert (Organization for Economic Cooperation and Development

= Organisation für wirtschaftliche Zusammenarbeit und Entwicklung) ² Wichtige Entscheidungen werden im „PISA Governing Board“ (PGB) getroffen, in dem

jeder Teilnehmerstaat eine Stimme hat. Die Bundesrepublik Deutschland wird im PGB durch Vertreter des Bundes und der Länder repräsentiert

² Die internationale Koordination des Projekts wird von einem internationalen Konsortium unter Federführung des ACER (Australian Council for Educational Research) betrieben

² Bei PISA werden weltweit Schülerleistungen erfasst und international verglichen. Ziel der Studie: in den beteiligten Ländern Kompetenzen von 15-jährigen Jugendlichen (à Ende der Pflichtschulzeit) erfassen.

Page 68: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

68

² PISA liefert Informationen über die Ergebnisse des Lehrens und Lernens in unterschiedlichen Bildungssystemen und deren Qualität.

² Erstmals 2000 durchgeführt, angelegt auf 3 Testzyklen: 2000 – 2003 – 2006, dabei jeweils ein Schwerpunkt (eingerahmt):

fächerübergreifende + Kompetenzen

(z.B. Problemlösen) ² Um Testergebnisse auf die Voraussetzungen in den Teilnehmerländern beziehen zu können,

werden Hintergrundmerkmale erhoben: Merkmale von Elternhaus, Unterricht und Schule. Teilnehmende Staaten PISA 2006

Methoden zur Datenerhebung ² multiple-choice-Aufgaben & Fragen für die eigene Antworten ausgearbeitet werden müssen ² Kontextfragebögen: geben Zusatzinfos zum sozialen Umfeld der Kinder und der Schule Ziele / Anliegen von PISA: ² vergleichende Daten über Leistungsfähigkeit der einzelnen Bildungssysteme (Stär. u. Schwä.) ² Hinweise für die Erklärung dieser Stärken und Schwächen ² nützliche Hinweise für Schulpolitik, Fachdidaktik sowie Lehreraus- und weiterbildung ² wichtiger Beitrag für die Qualitätsentwicklung in den Schulen PISA analysiert Zusammenhänge zwischen Leistungsergebnissen und Merkmalen von Jugendlichen und Schulen: à Inwieweit gelingt es den einzelnen Staaten, den Schülern Basiskompetenzen zu vermitteln, die Voraussetzung für eine erfolgreiche schulische Laufbahn oder berufliche Tätigkeit sowie die gesellschaftlich Teilhabe sind? à nicht nur Abfrage von bloßem Faktenwissen, sondern Schwerpunkt auf Erkennen von Zus.hängen, Wissen situationsgerecht anwenden und wirklichkeitsnahe Aufgaben bewältigen Konzeptwissen und Prozesswissen (wissen, dass…) (wissen, wie…) d.h. Umsetzung von schulischem Wissen in praktische Aufgaben und Probleme

Argentinien Aserbeidschan Australien* Belgien* Brasilien Chile Dänemark* Deutschland* Estland Finnland* Frankreich* Griechenland* Hongkong-China Indonesien Irland* Island* Israel Italien* Japan* Jordanien

Kanada* Kasachstan Katar Kirgisistan Kolumbien Korea* Kroatien Lettland Liechtenstein Litauen Luxemburg* Macau-China Mexiko* Neuseeland* Niederlande* Norwegen* Österreich* Polen* Portugal* Rumänien

Russische Föderation Schweden* Schweiz* Serbien und Montenegro Slovenien Slowakische Republik* Spanien* Taiwan (R.O.C.) Thailand Tschechische Republik* Türkei* Tunesien Ungarn* Uruguay USA* Vereinigtes Königreich* * an PISA 2006 teilnehmende OECD-Mitgliedstaaten

Page 69: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

69

Durchführung: ² zuerst Feldversuch bzw. Testdurchführung ² Aufgaben von (inter)nationalen Expertengruppen entwickelt ² zunächst Auswahl der zu untersuchenden Schulen nach einem Zufallsverfahren,

danach Ziehen der SchülerInnen innerhalb der ausgewählten Schulen per Zufall PISA 2006: ² Zur Durchführung von Vergleichen auf internationaler Ebene: an 230 Schulen werden je 25

15-jährige SchülerInnen getestet. à Stichprobengröße von maximal 5.750 SchülerInnen ² Zusätzlich nimmt Deutschland an der internationalen Option der klassenbasierten Testung

teil à in jeder der 230 Schulen werden zwei komplette neunte Klassen getestet. à liefert Stichprobengröße von ca. 8.500 SchülerInnen (zusätzlich zu den 5750)

² Für einen Ländervergleich innerhalb Deutschlands wird außerdem eine nation. Ergänzungs- stichprobe aus ca. 1.500 Schulen getestet. Pro Schule werden 38 Jugendliche getestet, also insgesamt ca. 57.000 SchülerInnen.

Ablauf der Tests an einer Schule ² Für die Vorbereitung der Testdurchführung bestimmt jede Schule einen sog.

Schulkoordinator à Ansprechperson für SchülerInnen und Eltern ² Die Tests werden von geschulten TestleiterInnen durchgeführt. 1 – 2 Testtage an den

Schulen.(1. Tag: Bearbeitung der internationalen Aufgaben, 2. Tag: Bearbeitung der nationalen Ergänzungen(PISA-E)). Bearbeitungszeit der Tests: je etwa 120 Min. .

² An allen Schulen: während der Testzeit auch Fragebögen ausfüllen. Den SchülerInnen werden außerdem Fragebögen ausgehändigt, die sich an die Eltern richten.

² Anonyme Bearbeitung à nicht Leistung einzelner SchülerInnen sondern „Erträge“ von schulischen Systemen sollen überprüft werden

² Teilnahme freiwillig, schriftliche Einwilligungserklärung der Eltern erforderlich Zeitplan bei PISA 2006: Januar 2006: Information der ausgewählten Schulen über PISA 2006 März 2006: Information der ausgewählten SchülerInnen sowie der LehrerInnen April 2006: Durchführung der Tests am vereinbarten Termin durch Testleiter und Schulkoordinator Naturwissenschaftliche Kompetenz ² SchülerInnen sollen erworbenes Wissen situationsgerecht anwenden können ² Aufgaben aus den Bereichen Physik, Chemie, Biologie und Geowissenschaften

(z.B. Wärmeleitfähigkeit, Reaktionsgeschwindigkeit, Zelle, Kontinentalverschiebung,…) ² Nicht bloßes Abfragen, sondern Anwendung auf wirklichkeitsnahe naturwissenschaftliche

Fragen aus dem Alltag Mathemathische Kompetenz ² Grundverständnis von Mathematik und ihrer Bedeutung in unserer kulturellen und

technischen Welt nötig ² Kenntnisse aus dem Matheunterricht aktiv und situationsbezogen nutzen ² Anwendungssituationen: privater und schulischer Bereich, einfache wissenschaftliche Fragen

oder Problemstellungen. Lesekompetenz ² Lesekompetenz heißt mehr als Informationen aus Texten entnehmen zu können

à aktive Auseinandersetzung mit Texten (nicht nur verstehen - Inhalte behalten und sich zu eigen machen) ² Aspekte der Lesekompetenz bzw. des Textverständnisses:

Informationen ermitteln – textbezogenes Interpretieren – Reflektieren und Bewerten ² PISA untersucht vor allem die Fähigkeit, geschriebene Texte unterschiedlicher Textarten

(kontinuierl. Texte: z.B. amtliche Dokumente, Lehrbücher, Erzählung, Darlegung und nicht-kontinuierl. Texte:

Page 70: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

70

z.B. Diagramme, Tabellen,…) in ihren Aussagen, ihren Absichten und ihrer Form zu verstehen und in einen größeren Zusammenhang einordnen zu können.

² Lesekompetenz wird als notwendige Voraussetzung für eine erfolgreiche Teilnahme am gesellschaftlichen Leben angesehen.

Fächerübergreifende Kompetenzen ² Vgl. Schlüsselqualifikationen (fachliche, personale und soziale) ² Fächerübergreifende Problemlösefähigkeiten (z.B. Papier und Bleistift-Aufgaben, aber auch

computergestützte Verfahren) ² Untersuchung der kognitiven und motivationalen Voraussetzungen selbstregulierten Lernens Schülerfragebogen ² Die Bedingungen, unter denen Schülerinnen und Schüler aufwachsen, leben und lernen,

beeinflussen das Lernen innerhalb und außerhalb der Schule. Deshalb erfasst PISA mit dem Schülerfragebogen auch Informationen über die soziale Herkunft der Schülerschaft.

² Diese sind eine Voraussetzung, um faire nationale oder internationale Vergleiche von Schülerkompetenzen durchführen zu können.

² Bearbeitungsdauer: 20 – 30 Min Fragen zu: ² Unterrichtsqualität / Schulklima ² Lernaktivitäten der SchülerInnen ² Familiärer / sozialer Hintergrund ² Persönliche und biographische Merkmale ² Bindung an die Altersgruppe ² Freizeitaktivitäten Elternfragebogen ² Befragung der Eltern: welche Bedeutung wird den Naturwissenschaften für Ausbildung und

berufliche Zukunft der Jugendlichen zugemessen? ² Weitere Fragen betreffen die Einschätzung der Schule durch die Eltern. Schul(leiter)fragebogen ² Merkmale der Schule, der Schul- und Unterrichtsorganisation wirken sich ebenfalls auf die

Leistungen von SchülerInnen aus. ² Schulleitungen sollen Angaben zu den Rahmenbedingungen der Schule (Größe etc.) und

vorhandenen Ressourcen (Lehrkräfte, Computerausstattung etc.) machen. ² Bearbeitungsdauer: 30 Min. Lehrerfragebogen ² Neben den Schulleitungen werden auch LehrerInnen der naturwissenschaftlichen

Fachrichtungen sowie der Mathematik zu ihren internen Fortbildungen, der Zusammenarbeit im Kollegium und ihrem Unterricht befragt.

Inhaltlicher Schwerpunkt von PISA 2006 ² liegt auf der Untersuchung des naturwissenschaftlichen Verständnisses.

(à 50 % der Fragen aus den Bereichen Physik, Chemie, Biologie und Geowissenschaften.) ² Je 25 % der Aufgaben aus den Bereichen Lesen und Mathematik. ² Zusätzlich Untersuchte Kompetenz: Informationstechnologie ² Neuerung in PISA 2006: Erfassung sog. motivationaler Einstellungen und Orientierungen.

à im Anschluss an die Bearbeitung von vielen Testaufgaben wird gefragt, inwieweit der angesprochene naturwissenschaftliche Bereich persönlich bedeutsam bzw. interessant ist

Page 71: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

71

Ergebnisberichte Ende 2007 werden die ersten Berichte über die internationalen Vergleiche vorliegen. Die Ergebnisse des Bundesländervergleichs werden im Herbst 2008 veröffentlicht. àDeshalb stelle ich die Ergebnisse von 2000 und 2003 dar: Ergebnisse von Pisa 2000 ² Schwerpunkt: Lesekompetenz; fächerübergreif.: Voraussetzungen für selbstständiges Lernen

(z.B. Lernstrategien, Lernbereitschaft, Interessen, Ausdauer,…) Lesen: ² OECD-Mitttelwert: 500 Pkte à D: 484 Pkte (durchschnittl. Lesekompetenz dt. SchülerInnen liegt zw.

Kompetenzstufe II und III; I = Elementarstufe, V = Expertenstufe) ² Abstand zur internationalen Spitzengruppe beträchtlich; besonders beim Reflektieren und

Bewerten schneiden dt. SchülerInnen schlecht ab ² Freude am Lesen in D vergleichsweise gering ausgeprägt ² Streuung zw. Leistungsstärksten u. –schwächsten in D am breitesten ² Leistungsunterschiede zw. Schulformen in D:

- an Gymnasien Leseleistung mit 585 Pkten deutlich über OECD-Durchschnitt (500) - Realschulen: 494 Pkte - Hauptschulen: nur 394 Pkte! - integrierte Gesamtschulen: 459 Pkte - Problem: HauptschülerInnen: 25% nicht in der Lage, Aufgaben niedrigster Kompetenzstufe zu lösen, nur 43% erreichen Kompetenzstufe II

² Soziale Herkunft und Bildungsbeteiligung: - in Gym. viele Kinder aus Oberschicht - Kinder von ungelernten Arbeitern besuchen v. a. Hauptschule - à insg. sind Chancen eines Arbeiterkindes, statt RS das Gym zu besuchen, 4x geringer als die eines Oberschicht-Kindes

Mathe: ² D unterm OECD-Durchschnitt auf Platz 20 von 31 ² Spitzengruppe sehr klein, aber 25% rechnet auf Kompetenzstufe I (Grundschulniveau) ! ² Ursachen: z.B. Mathematische. Kompetenz hängt eng mit Lesekompetenz zusammen Naturwissenschaften: ² D unterm OECD-Durchschnitt auf Platz 20 von 31 ² 25% der SchülerInnen erreichen nur Stufe I, nur 3,4% erreichen Stufe V ² Ursachen:

- gesellschaftliche Wertschätzung von Naturwissenschaften - Stellenwert der nw. Fächer im Schulsystem - Art u. Organisation d. nw. Unterrichts à noch zu wenig problem- u. anwendungsorientiert

Ergebnisse von Pisa 2003 ² Verbesserung in allen 3 Kompetenzbereichen im Vgl. zu 2000 ² Leistungsunterschiede zw. Jugendlichen mit und ohne Migrationshintergrund (in allen Staaten!) Mathe: - Mädchen im Schnitt niedrigerer Kompetenzwert - Starke Kopplung zw. sozialer Herkunft, Bildungsbeteiligung und Kompetemzerwerb Lesen: Mädchen haben gegenüber Jungen klaren Vorsprung bei der Lesekompetenz Naturwissenschaften: Kein statistisch signifikanter Unterschied zw. Jungen und Mädchen Problemlösen: - D signifikant über dem OECD-Durchschnitt - auffällig: bessere Ergebnisse im Problemlösen (513 Pkte) als in Mathe (503 Pkte) Umgang mit Computern: im Vgl. zu 2000 Steigerung des regelmäßigen PC-Einsatzes im Unterricht, aber dennoch relativ gering

Page 72: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

72

PISA-E (nationale Stichprobenergänzung) ² Beschluss der Kultusminister der Länder an internationaler PISA Studie teilzunehmen, diese

aber national zu erweitern à ermöglicht Vergleich innerhalb der Bundesländer & Aussagen über die einzelnen Schulformen und Schularten

² Zielgruppe: 15-jährige (Problem: 15-jährige verteilen sich in D über mehrere Schuljahrgänge à Erweiterung der Stichprobe in jeder Schule um etwa 10 SchülerInnen der 9. Jgst., um Aussagen über den Bildungsstand gegen Ende der Sekundarstufe I treffen zu können)

² PISA 2000: Stichprobe von 219 auf 1466 Schulen erhöht (à insg. ca. 50000 Schüler) ² PISA 2003: Stichprobe von 216 auf 1516 Schulen erhöht ² PISA 2006: Stichprobe von 230 auf ca. 1500 Schulen erhöht PISA und Gütekriterien Reliabilität (Zuverlässigkeit): Gefahr bei Multiple-Choice-Fragen, dass richtige Antwort nur zufällig angekreuzt wird Validität (Gültigkeit): Hängt eng mit Reliabilität zusammen (misst PISA wirklich die Basiskompetenz 15-jähriger?) Objektivität: ² Vergleichbarkeit der Durchführungsbedingungen durch vorab geschulte TestleiterInnen

(Instruktionen werden nach genauem Ablaufplan verlesen) ² Bei freien Antworten: präziser Kriterienkatalog zur Beurteilung der Richtigkeit, viele Beisp. ² Test wird nicht durch jeweilige Klassenleiter korrigiert ² Stichproben unter internat. Aufsicht (unabhängige Beobachter protokollieren Testdurchführung) Probleme bei der Testkonstruktion bei internationalem Schulleistungsvergleich ² Andere Kulturen andere Wissensdomänen ² Lehrplan- und Unterrichtsvalidität der Tests 7.2.2. Weitere Studien

PISA ist nicht die einzige Studie, in der mit Hilfe von Large-Scale-Assessment-Verfahren internationale Vergleichsuntersuchungen zu spezifischen Kompetenzen in bestimmten Altersstufen durchgeführt werden:

• PIRLS/IGLU (Progress in International Reading Literacy Study / Internationale Grundschul-Lese-Untersuchung): testet international vergleichend das Leseverständnis von SchülerInnen der 4. Jahrgangsstufe

• CivEd (Civic Education Study): untersucht politische Bildung und demokratisches Bewusstsein und Handeln bei 14-jährigen SchülerInnen.

• DESI (Deutsch-Englisch-Schülerleistungen-International): untersucht die Leistungen von Neuntklässern in der Beherrschung der deutschen und der englischen Sprache.

• TIMSS (Third International Mathematics and Science Study): untersucht zum ersten Mal gleichzeitig Mathematik- und Naturwissenschaftsleistungen von Schlüsseljahrgängen in der Grundschule (TIMSS/Population I), in der Sekundarstufe I (TIMSS/Population II) und Sekundarstufe II (TIMSS/Population III),

Page 73: Zusammenfassung Bereich V · 2013-11-10 · Universität Regensburg EWS-Examen im Frühjahr 2006 Psychologie schriftlich nach LPO I neu Carmen Möbius, Christine Trübswetter, Susanne

73

Ausführliches Beispiel: Internationaler Schulleistungsvergleich: TIMSS

² 1993 von IEA (International Association for the Evaluation of Educational Achievement) eingeleitet. ² Untersuchung der mathematisch-naturwissenschaftl. Leistungen von Schülern in bis zu 45

Ländern, in 3 Altersgruppen: o TIMMS I: 3. und 4. Schuljahr (ohne Deutschland) o TIMMS II: 7. und 8. Schuljahr (ohne Baden- Württemberg),1993/94 und 1994/95 o TIMMS III: 12. und 13. Schuljahr (Oberstufenstudie, alle 16 Bundesländer, ohne

die fernöstlichen Spitzenreiter von TIMMS II, Gymnasium und berufliche Voll- und Teilzeitschulen), 1995 und 1996

Ergebnisse von TIMMS III: Schwedische und niederländische Gymnasiasten schnitten am Besten ab. Deutsche Abiturienten: Mathe auf Platz 13, Naturwissenschaften auf Platz 12 (von je 16). à gymnasiale Oberstufe galt in der Presse als die Schwachstelle des deutschen Schulsystems.

Aber: Es wurden Leistungen miteinander verglichen, die nicht vergleichbar sind.

• Bei dt Schülern: Gymnasiasten und Berufsschüler getestet. Nur 25% aus der Oberstufe. In anderen Ländern: Vorselektion (Niederlande: 43% aus der Oberstufe, Schweden 66%, in Russland wurden Berufsschüler ganz ausgeschlossen).

• Frankreich ließ nur Schüler einer Art hochspezialisierten Oberstufe untersuchen und erreichte Platz 1 in "advanced mathematics". (Vergleichbar, wenn Deutschland nur Schüler des LKs Mathe testen hätte lassen, nicht aber Schüler anderer Kurse (z.B.GKs))

• Die getesteten Leistungen sind curricular nicht valide. Es wurde nicht geprüft, ob das hier Getestete überhaupt Gegenstand der jeweiligen Lehrpläne war. (z.B.: TIMMS enthält keine Aufgaben zur Stochastik und dt. Berufsschülern wurden Aufgaben gestellt, denen sie auf Grund ihres Bildungsweges noch nicht begegnet sind).

Fazit: Dies ist ein Vergleich der eher schlechteren Art. Man veranstaltete einen Wettbewerb, der eigentlich gar keiner ist. (Wie wenn ein Zehnkämpfer in der Disziplin Kugelstoßen gegen einen Kugelstoßer antritt). Dies spiegelt sich auch bei den Ergebnissen wieder:

• TIMMS II: Österreich liegt deutlich vor BRD; Tschechien 1. Platz • TIMMS III: Österreich hinter BRD, Tschechien ganz hinten

Deutsche Fassung und Ergebnisse von TIMMS II und TIMMS III:

• Landesgefälle von 11/2 Jahren Lernfortschritt zw. Bayern & NRW (schon in der Mittelstufe). • Schüler des LKs Mathe in Baden-Württemberg bei TIMMS III besser als bayerische.

Festlegung einer einheitl. Skalierung (Mittelwert: 500 Punkte, Standardabweichung: 100):

• Erreichte Schüler bei TIMMS II Fähigkeitsniveau von 400 Punkten à beherrscht Grundrechenarten im Bereich kleiner Zahlen ; 80% bis 90% der Schüler lagen über diesem Niveau, aber 15% nicht Ende der 7. Klasse und 11 % nicht Ende der 8. Klasse.

• 450 Punkte: gleichnamige Brüche können addiert und einfache algebraische Terme verstanden werden. Ende der 8. Klasse beherrschen dies 25% nicht.

• 500 ist Mittelwert à Verständnis für die zentralen Stoffe der 6. bis 8. Jahrgangsstufe, (z.B. einfache lineare Gleichungen, Terme mit einer Unbekannten, einfache Termumformungen, elementare geometrische Darstellungen) 50 % erreichten dieses Ziel.

• 550 Punkte: Sicheres Beherrschen schwierigerer Stoffe wie komplexere lineare Gleichungen, Rechnen mit Brüchen, anspruchsvollere Geometrie. 30% nach der 8. Klasse erreichen dieses Ziel.

• Über 600 Punkte: Niveau, das Mathematiklehrer anstreben. Nur 17% erreichten es.