Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen:...

22
Institut für Bildungsevaluation Assoziiertes Institut der Universität Zürich Standardisierte Erfassung der sprachlichen Kompetenzen im Fachbereich «Texte schreiben» Kurzbericht zuhanden des Pilotprojekts «Neugestaltung 3. Sek» und der Projektleitung der Bildungsdirektion des Kantons Zürich Urs Moser & Florian Keller Zürich, 27. April 2009

Transcript of Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen:...

Page 1: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

Institut für Bildungsevaluation Assoziiertes Institut

der Universität Zürich

Standardisierte Erfassung der sprachlichen Kompetenzen im Fachbereich «Texte schreiben» Kurzbericht zuhanden des Pilotprojekts «Neugestaltung 3. Sek» und der Projektleitung der Bildungsdirektion des Kantons Zürich

Urs Moser & Florian Keller

Zürich, 27. April 2009

Page 2: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

2

Inhalt

1 Ausgangslage ......................................................................................... 3

2 Durchführung.......................................................................................... 3

3 Beurteilung der Texte.............................................................................. 4

4 Beurteilungszuverlässigkeit..................................................................... 8

5 Berechnung der Testergebnisse .............................................................. 9

6 Kompetenzen und Textbeispiele ........................................................... 11

7 Ergebnisse............................................................................................. 17

7.1 Ergebnisse nach Geschlecht .......................................................... 17

7.2 Ergebnisse nach Abteilungen ........................................................ 17

7.3 Ergebnisse nach Klassen ............................................................... 18

8 Fazit ...................................................................................................... 19

Page 3: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

3

1 Ausgangslage

Im Rahmen des Pilotversuchs «Neugestaltung des 9. Schuljahrs» wird das computerge-stützte Testsystem «Stellwerk» zur schultypenunabhängigen Leistungsbeurteilung einge-setzt. Die Stellwerk-Tests werden ausschliesslich am Computer gelöst. Es handelt sich um adaptive Tests, die sich den Fähigkeiten der Schülerinnen und Schüler anpassen. Adaptive Tests haben den Vorteil, dass die Schülerinnen und Schüler in der Regel mit Aufgaben getestet werden, die weder viel zu schwierig noch viel zu einfach sind. Die Auswahl der Testaufgaben wird durch einen Algorithmus gesteuert. Während die Schülerinnen und Schüler die Testaufgaben bearbeiten, werden vom Testsystem laufend ihre Fähigkeiten eingeschätzt. Sobald sich in der Schätzung der Fähigkeiten keine grossen Änderungen mehr abzeichnen, wird der Test abgebrochen und das definitive Testergebnis festgehalten.

Adaptive Testsysteme haben gegenüber traditionellen «Papier-und-Bleistift-Tests» den Vorteil, dass die Objektivität bei der Testdurchführung gesichert ist – sofern keine techni-schen Probleme auftreten – und dass der Computer bei der Korrektur keine Fehler macht. Die fehlerlose Korrektur des Computers hat allerdings auch Nachteile. Computergestützte Tests prüfen vorwiegend reproduktive Fähigkeiten, weil ausführliche Antworten auf offe-ne Fragen oder Texte vom Computer meist nicht in der gewünschten Art und Weise korri-giert und bewertet werden können. Produktive Fähigkeiten können deshalb am Computer nicht getestet werden. Aus diesem Grund hat die Projektleitung des Pilotversuchs «Neu-gestaltung des 9. Schuljahrs» das Institut für Bildungsevaluation der Universität Zürich mit der Durchführung eines Schreibanlasses zur Erfassung der sprachlichen Kompetenzen im Bereich «Texte schreiben» beauftragt.

2 Durchführung

Die Durchführung des Schreibanlasses fand am 15. und 16. Januar 2009 statt. Insgesamt verfassten 1204 Schülerinnen und Schüler der Pilotschulen einen Text. Zur Wahl standen drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer Schulen» und (3) «Der Fernseher kommt!». Die Themen wurden vom Institut für Bildungsevaluation in Zusammenarbeit mit zwei Lehrpersonen entwickelt. Thema 1 wurde von 33 Prozent der Schülerinnen und Schüler gewählt, Thema 2 von 40 Prozent und The-ma 3 von 27 Prozent. Alle drei Themen waren für Mädchen und Knaben gleich attraktiv beziehungsweise wurden von Mädchen und Knaben gleich häufig gewählt.

Die Themen wurden den Schülerinnen und Schülern mit kurzen Texten, die auf Zeitungsar-tikeln basieren, vorgestellt. Danach wurden jeweils drei Aufgaben gestellt. Zuerst musste der Inhalt des Textes in vier Sätzen zusammengefasst werden. Mit der zweiten Aufgabe wurde von den Schülerinnen und Schülern ein argumentativer Text verlangt. Beispielswei-se mussten die Fragen «Was spricht für einen Fernseher im Zimmer? Was spricht dage-gen?» beantwortet werden. Die dritte Aufgabe bestand darin, eigene Beobachtungen und Erfahrungen zum Thema zu formulieren.

Im Sinne einer standardisierten schriftlichen Anleitung wurden die Schülerinnen und Schü-ler zu folgendem Vorgehen aufgefordert:

Page 4: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

4

Der Fernseher kommt!

Bearbeite zu diesem Thema die drei Aufgaben auf den folgenden Seiten. Du gehst wie folgt vor: • Lies die drei Aufgaben zuerst durch. • Schreibe dann die Texte zu den zwei Aufgaben auf ein Notizpapier. • Korrigiere den Entwurf. • Achte auf die Rechtschreibung und schreibe so, dass deine Texte gut lesbar sind. • Schreibe danach deine Texte zu den zwei Aufgaben auf die ausgeteilten Blätter. • Du darfst den Duden beziehungsweise das Wörterbuch benutzen.

Die Texte der Schülerinnen und Schüler mussten von den Lehrpersonen kopiert und dem Institut für Bildungsevaluation zur Korrektur und Beurteilung zugestellt werden. Die Er-gebnisse in Form einer Punktzahl wurden anschliessend den Lehrpersonen von der Firma «Cybersystems», die im Projekt «Stellwerk» für die Informatik zuständig ist, auf dem In-ternet zur Verfügung gestellt. Ab Freitag, 13. Februar 2009, waren die Ergebnisse im Be-reich «Texte schreiben» für die Lehrpersonen beziehungsweise für die Schülerinnen und Schüler auf dem Internet einsehbar.

3 Beurteilung der Texte

Zur Beurteilung der Texte wurde ein Kriterienraster entsprechend bisheriger Erfahrungen mit der Korrektur von Texten und auf der Grundlage der Testtheorie entwickelt. Der Krite-rienraster wurde in Anlehnung an den Zürcher Textanalyseraster von Nussbaumer & Sie-ber (1994)1 entwickelt, wobei aus testtheoretischen Überlegungen nur ein Teil dieser Kri-terien berücksichtigt und in adaptierter Form eingesetzt wurde. Das Beurteilungsverfahren entspricht einem analytischen Vorgehen, bei dem verschiedene Aspekte eines Textes nach verbal formulierten Abstufungen bewertet werden (Analytical Scoring)2. Die Beurteilung bezieht sich auf die kommunikativen und linguistischen Fähigkeiten. Zusätzlich wurden im Sinne einer ganzheitlichen Bewertung (Holistic Scoring)3 die Verständlichkeit, der Sprach-stil und das ästhetische Wagnis beziehungsweise die Kreativität beurteilt.

Tabelle 3.1 zeigt die Kriterien zur Beurteilung der kommunikativen Fähigkeiten. Aufgabe 1 verlangte die Zusammenfassung des Zeitungsartikels in vier Sätzen. Beurteilt wurde, ob die Vorgabe von vier Sätzen eingehalten wurde und ob die Hauptaussage des Textes in der Zusammenfassung enthalten war. Aufgabe 2 verlangte Antworten auf drei Fragen. Bei dieser Aufgabe wurde auch beurteilt, ob die Argumente in einen zusammenhängenden 1 Nussbaumer, M. & Sieber, P. (1994). Texte analysieren mit dem Zürcher Textanalyseraster. In P. Sieber

(Hrsg.), Sprachfähigkeiten – besser als ihr Ruf und nötiger denn je! Ergebnisse aus einem Forschungs-projekt (S. 141–186). Aarau: Sauerländer.

2 Weigle, S. C. (2002). Assessing Writing. Cambridge. Cambridge University Press. 3 Weigle, S. C. (2002). Assessing Writing. Cambridge. Cambridge University Press.

Page 5: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

5

Text eingebettet wurden (Textform). Aufgabe 3 verlangte, dass Beobachtungen und Erfah-rungen aus dem Alltag erwähnt wurden. Ebenfalls bewertet wurde die Textlänge.

Tabelle 3.2 zeigt die Kriterien zur Beurteilung der linguistischen Fähigkeiten. Tabelle 3.3 zeigt drei Kriterien, die für eine Gesamtbeurteilung genutzt wurden. Die Kriterien wurden jeweils auf die Texte zu allen drei Aufgaben angewendet.

Tabelle 3.1: Kriterien zur Beurteilung der kommunikativen Fähigkeiten

Beurteilungskriterium Quantitative Abstufungen Prozent- anteil Texte Trennschärfe

Aufgabe 1: Zusammenfassung

– Wiedergabe des Inhaltes nicht erfüllt 9% 0.41 teilweise erfüllt 51% erfüllt 40%

– Hauptaussage keine Hauptaussage erwähnt 3% 0.39 eine Hauptaussage erwähnt 5% zwei bis drei Hauptaussagen erwähnt 31% vier Hauptaussagen erwähnt 61%

Aufgabe 2: Fragen beantworten

– Was spricht dafür? nicht beantwortet 8% 0.40 teilweise beantwortet 47% vollständig beantwortet 45%

– Was spricht dagegen? nicht beantwortet 9% 0.41 teilweise beantwortet 53% vollständig beantwortet 38%

– Was könnten Befürchtungen von nicht beantwortet 13% 0.39 Lehrpersonen und Eltern sein? teilweise beantwortet 44% vollständig beantwortet 43%

Aufgabe 2: Textform

– Anfang nicht vorhanden 35% 0.62 teilweise vorhanden 23% vollständig vorhanden 42%

– Ende nicht vorhanden 42% 0.63 teilweise vorhanden 36% vollständig vorhanden 22%

Aufgabe 3: Beobachtungen und Erfahrungen – Beobachtungen/Erfahrungen nicht erfüllt 2% 0.43 teilweise erfüllt 20% erfüllt 78%

Aufgabe 1– 3: Textlänge – Textlänge weniger als eine halbe Seite 1% 0.57 eine halbe Seite 1% eine Seite 12% eineinhalb Seiten 35% mehr als eineinhalb Seiten 51%

Page 6: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

6

Tabelle 3.2: Kriterien zur Beurteilung der linguistischen Fähigkeiten

Beurteilungskriterium Qualitative Abstufungen Prozentanteil Texte

Trennschärfe

Aufgabe 2

– Textstruktur Textkerne (unverbunden) 17% 0.76 eindimensionaler Text (logische Verkettung) 40% mehrdimensionaler Text (gegliedert) 34% mehrdimensionaler Text (abgeschlossen) 9%

Aufgabe 3 – Textstruktur Textkerne (unverbunden) 9% 0.57 eindimensionaler Text (logische Verkettung) 53% mehrdimensionaler Text (gegliedert) 34% mehrdimensionaler Text (abgeschlossen) 13%

Aufgaben 1 bis 3 – Wortwahl einfach, simpel 4% 0.42 adäquat 94% elaboriert, herausragend, überraschend 2%

– Gross- und Kleinschreibung kaum beherrscht 15% 0.47 teilweise beherrscht 37% nahezu fehlerfrei 48%

– Rechtschreibung insgesamt kaum beherrscht 24% 0.51 teilweise beherrscht 47% nahezu fehlerfrei 29%

– Satzzeichen rudimentär vorhanden (Punkt, kein Komma) 31% 0.52 meist korrekte Satzzeichensetzung 50% (nahezu) fehlerfrei 19%

– Grammatik: Fallformen kaum beherrscht 10% 0.52 teilweise beherrscht 26% nahezu fehlerfrei 64%

– Syntax: Satzverbindung keine, einfache Sätze 3% 0.60 immer gleich 73% abwechslungsreich 25%

– Syntax: allgemein teilweise korrekte Sätze 5% 0.68 einfache korrekte Sätze 41% komplexe korrekte Sätze (HS und NS) 54%

Tabelle 3.3: Kriterien zur Gesamtbeurteilung

Beurteilungskriterium Qualitative Abstufungen Prozentanteil Texte Trennschärfe

– Verständlichkeit nicht verständlich: unklare Aussagen 3% 0.66 grösstenteils verständlich 47% gut verständlich 51%

– Sprachstil sprachlich unsicher 12% 0.78 klar, aber einfache Sprachstrukturen 59% sprachlich gewandt 27% sprachlich sehr gewandt, ausdrucksstark 2%

– Ästhetisches Wagnis/Kreativität wagt wenig, einfache Lösung 6% 0.67 wagt etwas, Kreativität erkennbar 61% wagt viel, kreativ 33% unerwartete Ideen, ausgesprochen kreativ 1%

Page 7: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

7

Die Kriterien wurden jeweils anhand von zwei, drei, vier oder fünf Kategorien umschrie-ben. Das heisst, dass je nach Kriterium zwischen 0 und 4 Punkten erreicht werden konn-ten. Insgesamt konnten 49 Punkte erreicht werden. Die einzelnen Kriterien wurden gleich wie Testaufgaben behandelt und einer Itemanalyse nach der klassischen Testtheorie un-terzogen.

In der ersten Spalte der Tabellen 3.1, 3.2 und 3.3 befindet sich die Bezeichnung des Beur-teilungskriteriums, in der zweiten Spalte die qualitative oder quantitative Abstufung zur Beurteilung des Textes anhand des Kriteriums. In der dritten Spalte befindet sich der Pro-zentanteil der Texte, denen die Ausprägung des Kriteriums zugeordnet wurde. In 4 Pro-zent der Texte war beispielsweise bei der ersten Aufgabe der Inhalt des Textes nicht wie-dergegeben, in 22 Prozent der Texte war der Inhalt des Textes nur teilweise zusammenge-fasst (siehe Tabelle 1).

In der vierten Spalte der Tabellen 3.1, 3.2 und 3.3 sind die Angaben zur Trennschärfe des Kriteriums enthalten. Der Trennschärfekoeffizient zeigt bei einem Test, inwiefern eine Aufgabe Schülerinnen und Schüler mit hohem Gesamtwert von Schülerinnen und Schülern mit niedrigem Gesamtwert trennt. Angewendet auf die Beurteilung von Texten zeigt die Trennschärfe, wie gut die Punktzahl eines Kriteriums mit der Gesamtbeurteilung überein-stimmt. Ein hoher Trennschärfekoeffizient zeigt, dass gute Texte anhand des Kriteriums positiv und schlechte Texte eher negativ beurteilt werden. Ein niedriger Trennschärfekoef-fizient (um 0) besagt, dass gute und schlechte Texte anhand des Kriteriums gleich oder ähnlich beurteilt werden, und ein negativer Koeffizient bedeutet, dass gute Texte anhand des Kriteriums oft negativ, schlechte oft positiv beurteilt werden. Der Trennschärfekoeffi-zient sollte nicht kleiner als rit = 0.30 sein.

Die Reliabilität beziehungsweise die Messgenauigkeit erreicht ein Cronbach-Alpha von α = 87, was darauf hinweist, dass die Beurteilungskriterien ziemlich konsistent angewen-det wurden und sich relativ gut eigneten, um zuverlässig zwischen guten und weniger guten Texten zu unterscheiden4.

Die Itemanalyse zeigt, dass die Kriterien zur Beurteilung der linguistischen Kompetenzen sowie jene zur Gesamtbeurteilung wesentlich besser zwischen guten und weniger guten Texten beziehungsweise Schülerinnen und Schülern differenzieren als die Kriterien zu den kommunikativen Kompetenzen. Besonders gross ist die Differenzierung bei der Beurtei-lung der Textstruktur und des Sprachstils.

Am strengsten beurteilt wurden der Wortschatz, der Sprachstil und die Textstruktur (be-ziehungsweise eher selten erreichten die Schülerinnen und Schüler bei diesen Kriterien die höchste Punktzahl). Am mildesten beurteilt beziehungsweise eher gut erfüllt wurden das Kriterium «Verständlichkeit» sowie die Gross- und Kleinschreibung.

4 Bei einmaliger Testvorgabe wird zur Berechnung der Reliabilität der Koeffizient «Cronbach-Alpha» ver-

wendet. Lienert, G. A. & Raatz, U. (1994). Testaufbau und Testanalyse. Basel: Beltz.

Page 8: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

8

4 Beurteilungszuverlässigkeit

Die Texte wurden von zwei erfahrenen Lehrpersonen mit Germanistikstudium (Rater) nach den vorgegebenen Kriterien korrigiert und beurteilt. Die beiden Rater arbeiten bereits seit mehreren Jahren am Institut für Bildungsevaluation bei der Korrektur von Texten mit und sind im Korrigieren von Texten nach dem vorgegeben Kriterienkatalog versiert. Das Kor-rekturteam wurde bewusst klein gehalten, sodass die Standardisierung der Beurteilung dank gemeinsamer Absprache und regelmässiger Kontrolle hochgehalten werden konnte.

In einer ersten Schulungsphase wurde der Kriterienkatalog auf seine Tauglichkeit über-prüft. Anhand einer repräsentativen Auswahl von Texten wurde zudem ein gemeinsamer Beurteilungsmassstab gesucht. Im Anschluss an diese Phase wurden zwanzig Texte dop-pelt korrigiert und Abweichungen bei der Beurteilung diskutiert. Die Überprüfung der un-abhängigen Beurteilung der gleichen Texte führte zu keinen grossen Differenzen zwischen den beiden beurteilenden Personen.

Während der gesamten Korrekturphase wurden insgesamt 120 Texte doppelt korrigiert, um die Beurteilungsübereinstimmung ständig zu überprüfen. Abweichungen in der Beur-teilung wurden laufend diskutiert mit dem Ziel, die Beurteilungsübereinstimmung (Inter-Rater-Reliabilität) hochzuhalten. Tabelle 4.1 enthält Informationen zur Beurteilungsüber-einstimmung von insgesamt 120 doppelt korrigierten Texten. In der zweiten Spalte ist pro Kriterium angegeben, wie hoch die Übereinstimmung in Prozent ist.

Tabelle 4.1: Prozentuale Übereinstimmung und Inter-Rater-Reliabilität

Beurteilungskriterium Überein-stimmung

Abweichung: 1 Punkt

Abweichung: 2 Punkte

Kappa

Aufgabe 1: Zusammenfassung 77% 23% 0.59

Aufgabe 2: Fragen beantworten 91% 9% 0.81

Aufgabe 3: Beobachtungen, Erfahrungen 66% 34% 0.50

Aufgabe 3: Textlänge 94% 6% 0.93

Aufgabe 2: Textstruktur 67% 33% 0.62

Aufgabe 3: Textstruktur 73% 26% 1% 0.80

Wortwahl 70% 27% 3% 0.56

Gross- und Kleinschreibung 82% 17% 1% 0.79

Satzzeichen 59% 39% 2% 0.52

Rechtschreibung insgesamt 75% 24% 1% 0.59

Grammatik: Fallformen 64% 36% 0.49

Syntax: Satzverbindungen 86% 13% 1% 0.83

Syntax: allgemein 63% 33% 4% 0.67

Verständlichkeit 74% 26% 0.72

Sprachstil 76% 24% 0.65

Ästhetisches Wagnis/Kreativität 72% 28% 0.72

Page 9: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

9

Die prozentuale Übereinstimmung ist bei der Beurteilung der Textlänge am höchsten, bei der Beurteilung der Satzzeichen am geringsten. Indem die Anzahl der Übereinstimmungen berechnet und am Anteil der zufälligen Übereinstimmung relativiert wird, kann auch das statistische Zusammenhangsmass «Kappa» zur Bestimmung der Beurteilungsüberein-stimmung berechnet werden (Tabelle 4.1, Spalte 5)5. Der Kappa-Koeffizient kann Werte zwischen –1 und +1 annehmen. Der maximale Wert wird bei totaler Übereinstimmung erreicht. Bei einer systematisch gegensätzlichen Einstufung wird der Wert negativ. Das Kappa hängt unter anderem auch von der Anzahl Abstufungen eines Kriteriums ab. Liegt das Kappa > 0.70, dann wird die Übereinstimmung als gut bezeichnet. Bei verschiedenen Kriterien liegt das Kappa allerdings unter 0.70.

Ein Blick auf die vollständige Übereinstimmung zeigt, dass das Kappa relativ schnell tief wird. Damit sich die unterschiedlichen Beurteilungsmassstäbe für die Schülerinnen und Schüler nicht negativ auswirken, müssen bestimmte Verzerrungen bei der Berechnung der Ergebnisse berücksichtigt werden.

5 Berechnung der Testergebnisse

Dass der gleiche Text trotz vorgegebener Kriterien, Schulungsphase und ständiger Kontrol-le von mehreren Personen nicht immer gleich beurteilt wird, ist aufgrund des Interpreta-tionsspielraums bei offen gestellten Aufgaben zu erwarten. Wie kann aber verhindert wer-den, dass systematische Unterschiede bei der Beurteilung von Texten keine negativen Folgen auf die Ergebnisse der Schülerinnen und Schüler haben?

Unterschiedliche Beurteilungsmassstäbe können mit verschieden schwierigen Testaufga-ben verglichen werden: Je strenger ein Kriterium von einer beurteilenden Person (Rater) angewendet wird, desto schwieriger ist die Aufgabe für die Schülerinnen und Schüler. Beurteilt beispielsweise Person A systematisch strenger als Person B, dann ist dies natür-lich für all jene Schülerinnen und Schüler ungerecht, deren Text von Person A beurteilt wird. Wird die Strenge oder Milde in der Beurteilung der Texte bei der Berechnung der Testergebnisse nicht berücksichtigt, dann ist beispielsweise der gleiche Schreibanlass je nach beurteilender Person entweder etwas einfacher oder etwas schwieriger.

Bei der Beurteilung eines Textes bestimmen vier Faktoren das Testergebnis: (1) Die Fähig-keit der Schülerin oder des Schülers. Leistungsstärkere Schülerinnen und Schüler erhalten eine höhere Beurteilung als leistungsschwächere. (2) Die Schwierigkeit des Kriteriums (Item). Ein Kriterium ist dann schwierig, wenn die Schülerinnen und Schüler bei der An-wendung des Kriteriums generell eher niedrige Beurteilungen erhalten. Dies trifft bei-spielsweise für das Kriterium «Textaufbau» zu. (3) Die Strenge oder Milde der beurteilen-den Person (Rater). Die Kriterien werden von den Ratern jeweils nicht exakt gleich inter-pretiert. (4) Das Thema (Task). Texte zu spezifischen Themen werden nicht immer gleich streng beurteilt.

5 Zuerst wird der Anteil der beobachteten Übereinstimmungen P0 berechnet (Diagonale in einer k mal k-

Felder-Tafel). Danach wird aufgrund der Zeilen- und Spaltensummen der Anteil aller zufälligen Überein-stimmungen Pe bestimmt. Kappa entspricht der Differenz zwischen P0 – Pe über 1 – Pe . [Bortz, J. (1993). Statistik für Sozialwissenschaftler. Berlin: Springer. (S. 538)].

Page 10: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

10

Die Fähigkeit der Schülerinnen und Schüler, die Beurteilungsstrenge der Rater und das Thema bestimmen das Ergebnis der Schülerinnen und Schüler. Sie werden deshalb als Facetten der Urteilssituation aufgefasst und bei der Berechnung der Ergebnisse berück-sichtigt6. Mit der Anwendung der Item-Response-Theorie ist es möglich, die Beurteilungs-strenge der beurteilenden Personen sowie das Thema ins Testmodell einzubeziehen und bei der Berechnung der Ergebnisse entsprechend zu berücksichtigen. Ein solches Vorgehen wird auch als «Multi-Faceted Measurement» oder als «Multi-Facetten-Modell» bezeich-net7. Die beurteilenden Personen (Rater) und die Themen (Task) werden als Facetten eines mehrdimensionalen Testmodells betrachtet, sodass sich die mangelnde Beurteilungsüber-einstimmung nicht negativ auf das Ergebnis der Schülerinnen und Schüler auswirkt8.

Die Analyse zeigt, dass die beiden beurteilenden Personen (Rater) bei der Beurteilung sehr nahe beieinander liegen (Anhang 1 und 2). Die beiden Zahlen «1» und «2» in der Spalte «+rater» liegen relativ nahe beieinander. Die Tabelle im Anhang 2 zeigt, dass die Diffe-renz bei der Beurteilung der gleichen Texte bei rund 0.12 Logits liegt, was bei der Berech-nung der Ergebnisse der Schülerinnen und Schüler berücksichtigt wird. Auch die Wahl des Themas ist eher von untergeordneter Bedeutung. Das Thema «Der Fernseher kommt!» wurde etwas milder, das Thema «Striktes Handyverbot an Urdorfer Schulen» etwas stren-ger beurteilt als das Thema «Jung, trendig – und verschuldet» (Anhang 2).

Abbildung 5.1: Verteilung der Testergebnisse

0%

10%

20%

30%

40%

400

SD=1

500

Mittelwert

600

SD=1

700

SD=2

800

SD=3

200

SD=3

300

SD=2

0%

10%

20%

30%

40%

0%

10%

20%

30%

40%

400

SD=1

500

Mittelwert

600

SD=1

700

SD=2

800

SD=3

200

SD=3

300

SD=2

Die Anwendung der Item-Response-Theorie (Multi-Facetten-Modell) bei der Berechnung der Ergebnisse führte dazu, dass die Testrohwerte (Anzahl Punkte) in die standardisierte Normalverteilung transformiert werden mussten. Dabei wurden die Testrohwerte so trans-formiert, dass – analog der Stellwerk-Skala – der Mittelwert 500 Punkte und die Stan-dardabweichung 100 Punkte betragen (vgl. Abbildung 5.1). Diese Skala hat die Eigen-

6 Eckes, T. (2004). Facetten des Sprachtestens: Strenge und Konsistenz in der Beurteilung sprachlicher

Leistungen. In A. Wolff, T. Ostermann & C. Chlosta (Hrsg.), Integration durch Sprache (S. 485–518). Regensburg: Fachverband Deutsch als Fremdsprache.

7 McNamara, T. F. (1996). Measuring Second Language Performance. London: Longman. 8 Rost, J. (2003). Lehrbuch Testtheorie – Testkonstruktion. Bern: Hans Huber.

Page 11: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

11

schaft, dass rund 68 Prozent der Ergebnisse zwischen 400 und 600 Punkten liegen, rund 95 Prozent zwischen 300 und 700 Punkten und nahezu alle Ergebnisse zwischen 200 und 800 Punkten. Die Anzahl Punkte zeigt den Schülerinnen und Schülern, wie gut sie inner-halb der Vergleichsgruppe – 1204 Schülerinnen und Schüler, die den Text geschrieben haben – abgeschnitten haben.

6 Kompetenzen und Textbeispiele

Die Anwendung der Item-Response-Theorie hat auch den Vorteil, dass sich die Schwierig-keiten der Kriterien und die Fähigkeiten der Schülerinnen und Schüler auf derselben Skala beziehungsweise mit demselben Massstab abbilden lassen. Zwischen den Fähigkeiten der Schülerinnen und Schüler und den Beurteilungskriterien wird eine Beziehung hergestellt9. Tabelle 6.1 zeigt zusammenfassend, welche Schreibkompetenzen innerhalb eines be-stimmten Intervalls vorhanden sind.

Tabelle 6.1: Kompetenzbeschreibungen nach Punkteintervallen

Punkteintervall Kompetenzbeschreibungen

200 bis 300 Punkte Die Texte sind sehr kurz (weniger als eine Seite), aber grösstenteils verständlich. Die Zu-sammenfassung enthält zwei bis drei Aussagen und gibt den Inhalt teilweise korrekt wie-der. Die Vorgabe zur Anzahl Sätze der Zusammenfassung wird nicht eingehalten. Die Rechtschreibung wird nicht beachtet. Die sprachliche Ausdrucksweise wird als unsicher beurteilt und die Texte bestehen aus einfachen Textkernen, die nicht miteinander verbun-den sind.

301 bis 400 Punkte Die Texte sind jeweils eine Seite lang. Die kommunikativen Erwartungen sind teilweise erfüllt. Das heisst, dass die gestellten Fragen zum Teil im Text beantwortet wurden. Die Gross- und Kleinschreibung wird teilweise korrekt angewendet.

401 bis 500 Punkte Die Texte sind jeweils etwa eineinhalb Seiten lang. Sie sind gut verständlich und enthalten einfache, korrekte Sätze. Anfang und Ende der Texte sind teilweise vorhanden und die Textelemente werden sachlogisch miteinander verbunden. Die Rechtschreibung wird teil-weise beherrscht. Satzzeichen und Fallformen werden meist korrekt angewendet.

501 bis 600 Punkte Die kommunikativen Aufgaben werden vollständig gelöst. Die Fragen werden im Text beantwortet und die Zusammenfassung entspricht dem erwarteten Umfang. Die Gross- und Kleinschreibung wird korrekt angewendet. Die Argumente werden im Text verbunden und kreative Ansätze sind feststellbar.

601 bis 700 Punkte Die Texte umfassen mehr als eineinhalb Seiten und sind sowohl in Bezug auf die Recht-schreibung als auch in Bezug auf die Satzzeichen nahezu fehlerfrei. Die Texte enthalten komplexe korrekte Sätze, sind sprachlich gewandt und kreativ.

701 bis 800 Punkte Die Texte haben einen klaren Aufbau und sind in sich abgeschlossen. Die Texte sind ausge-sprochen kreativ und überzeugen durch eine überraschende Wortwahl. Sie sind ausdrucks-stark und werden als sprachlich gewandt beurteilt.

9 Moser, U. (2006). Wie werden die Ergebnisse in den Stellwerk-Tests interpretiert? Von den Testergebnis-

sen zu einer professionellen Beurteilung der Kompetenzen der Schülerinnen und Schüler. (www.stellwerk-check.ch)

Page 12: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

12

Die Intervalle sind hierarchisch aufgebaut. Das bedeutet für die Interpretation der Ergeb-nisse, dass Schülerinnen und Schüler, die ein Intervall erreichen (beispielsweise 501 bis 600 Punkte), nicht nur die Fähigkeiten des Intervalls 501 bis 600 Punkte vorweisen, son-dern auch über alle Fähigkeiten der darunterliegenden Intervalle verfügen. Wenn bei-spielsweise ein Text mit 650 Punkten beurteilt wurde, dann gilt für diesen Text selbstver-ständlich auch, dass die Satzzeichen meist korrekt angewendet werden.

Textbeispiel 1 zeigt den Text eines Schülers, der im Schreibanlass 200 Punkte erreicht hat. Im Text beschreibt der Schüler, wie in der Teilaufgabe 3 gefordert, seine persönlichen Erfahrungen zum Thema «Jung, trendig – und verschuldet». Der Text ist zwar sehr kurz, aber grösstenteils verständlich und logisch aufgebaut. Die Sätze sind vollständig und wer-den jeweils mit einem Punkt beendet. Am Satzanfang wird zudem die Grossschreibung beachtet.

Textbeispiel 1: 200 Punkte «Jung, trendig – und verschuldet», Teilaufgabe 3

Die sprachliche Ausdrucksweise ist allerdings vergleichsweise begrenzt. Der Text besteht aus drei Sätzen, die alle mit «ich» beginnen und die nicht miteinander verbunden werden. Nur einmal wird eine Konjunktion («aber») verwendet, um – inhaltlich falsch – zwei Hauptsätze miteinander zu verknüpfen. Die Rechtschreibung, insbesondere Dehnungen und Schärfungen werden noch kaum beachtet. Der Sprachstil ist insgesamt noch unsicher und sehr nahe bei der mündlicher Kommunikation. So werden häufig alltagssprachliche Füllwörter und Floskeln wie «ja», «ich meine» oder «aber» eingesetzt. Gewisse Fehler in der Wortwahl («in Schulden gehen») und in der Konjugation der Verben («hilfe im Haus-halt») deuten zudem auf ungenügende Deutschkenntnisse hin.

Textbeispiel 2 zeigt einen Text zum Thema «Striktes Handyverbot an Urdorfer Schulen», der ebenfalls mit 200 Punkten bewertet wurde. Auch dieser Text ist sehr kurz, aber mit gutem Willen verständlich. Hinderlich für die Verständlichkeit des Texts ist zum einen das völlige Fehlen von Satzzeichen. Nur einmal wird ein Komma gesetzt, um zwei Sätze von-einander abzutrennen. Zum anderen wird die Rechtschreibung kaum beachtet. 10 der 34 Wörter sind orthografisch falsch geschrieben. Die Gross- und Kleinschreibung ist hingegen fehlerfrei und auch alle Substantive werden korrekt geschrieben.

Page 13: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

13

Insgesamt sind die sprachlichen Ausdrucksmöglichkeiten noch sehr limitiert. Dies gilt so-wohl für die Wortwahl – im ganzen Text kommen beispielsweise nur drei Substantive vor (dreimal «Handy», zweimal «Musik», einmal «Schule») – als auch für den schriftlichen Ausdruck, der sich stark an umgangssprachlicher Kommunikation und an schweizerdeut-schen Ausdrucksformen («eso» für «so», «lossen» für «hören», «baren» für «ein paar» / «einige») orientiert.

Textbeispiel 2: 200 Punkte «Striktes Handyverbot an Urdorfer Schulen», Teilaufgabe 3

Textbeispiel 3 wurde mit 379 Punkten beurteilt. Auch dieser Text ist mit nur einem logi-schen Argument und drei Sätzen sehr kurz. Im Vergleich zu den Textbeispielen 1 und 2 ist die Rechtschreibung in diesem Text hingegen nahezu fehlerlos. Auch die Satzzeichen wer-den teilweise korrekt angewendet.

Textbeispiel 3: 379 Punkte «Jung, trendig – und verschuldet», Teilaufgabe 3

Der Sprachstil ist einfach, aber klar. Mit Wörtern wie «vielleicht», «und», «doch» und «nur» werden Bezüge zwischen den Sätzen und Teilsätzen hergestellt. Zudem wird ein eingeschobener Relativsatz als Stilelement eingesetzt.

Page 14: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

14

Die Wortwahl ist weiterhin sehr einfach und besteht im Wesentlichen aus den bereits im Titel verwendeten Wörtern «jung», «trendig» und «verschuldet» beziehungsweise deren Substantivierungen. Eine kreative sprachliche Umsetzung der Inhalte ist noch nicht mög-lich.

Textbeispiel 4 zeigt einen Text, der mit 580 Punkten beurteilt wurde. Die gestellten kom-munikativen Aufgaben, Beobachtungen und Erfahrungen zum Thema Handyverbot an der Schule zu beschreiben, werden klar erfüllt. Die Rechtschreibung wird teilweise, aber noch nicht vollständig beherrscht. Auch die Satzzeichensetzung ist noch rudimentär und Kom-mas werden gar keine gesetzt. Dies behindert den Lesefluss insbesondere deshalb, weil die Sätze oft aus mehreren Teilsätzen bestehen, die mit Konjunktionen wie «dass» oder «weil» logisch verknüpft werden.

Textbeispiel 4: 580 Punkte «Striktes Handyverbot an Urdorfer Schulen», Teilaufgabe 3

Page 15: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

15

Neuartig im Vergleich zu den Textbeispielen 1 bis 3 sind jedoch die erkennbaren Ansätze eines Textaufbaus: Der Text beginnt mit einem Einstieg, beschreibt anschliessend die be-obachtete Situation heute und führt mit dem stilistisch eleganten Einschub «denke ich» zu einer Einschätzung der Zukunft.

Das Textbeispiel 5 zeigt einen Text zum Thema «Jung, trendig – und verschuldet», der mit 800 Punkten beurteilt wurde. Der Text ist ein ausdrucksstarker Bericht einer persönlichen Erfahrung, der in sich abgeschlossen ist und sich durch einen klaren Aufbau auszeichnet. Die Syntax ist komplex und Rechtschreibung sowie Satzzeichensetzung sind nahezu feh-lerlos.

Textbeispiel 5: 800 Punkte «Jung, trendig – und verschuldet», Teilaufgabe 3

Herausragend an dieser gänzlich im Präteritum gehaltenen Erzählung sind aber vor allem ihre stilistische Kreativität und ihr sprachlicher Variantenreichtum. So werden Satzkon-struktionen mit Konjunktiv- und Passivformulierungen und sogar einer Fragestellung in der direkten Rede sprachlich gewandt und stimmungsvoll in den Text eingebaut. Mit Wör-tern wie «Werbetrick», «Allerdings», «Kolleginnen» und «Konsequenzen» zeigt auch die Wortwahl überraschende Elemente.

Textbeispiel 6 zeigt einen weiteren Text, der mit 800 Punkten bewertet wurde. Auch die-ser Text zeichnet sich durch einen klaren Aufbau aus: Ausgehend von persönlichen Erfah-rungen zum eigenen Konsumverhalten führt der Text zu gesamtgesellschaftlichen Be-

Page 16: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

16

obachtungen und mündet letztlich in die Frage, wie die Welt von der Dummheit befreit werden kann. Gleichzeitig werden durch Formulierungen wie «ich bemerke oft …» und «ich sehe es so …» immer wieder Bezüge zur Perspektive des Autors hergestellt und so die Individualität der Beobachtungen betont.

Textbeispiel 6: 800 Punkte «Jung, trendig – und verschuldet», Teilaufgabe 3

Neben dem inhaltlich kreativen Umgang mit der gestellten Aufgabe überzeugt der Text auch durch seine nahezu fehlerfreie Rechtschreibung und die sprachlich gewandte Umset-zung. Komplexe Satzkonstruktionen mit unter anderem integrierter indirekter Rede und

Page 17: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

17

mit Ausrufe- und Fragesätzen werden abwechslungsreich mit Konjunktionen und Interro-gativpronomen wie «wie», «jedoch», «damit», «welche» und «wenn» verknüpft. Auch der Wortschatz geht mit Wörtern wie beispielsweise «existiert», «genial», «global» und «ankurbeln» sowie Ausdrücken wie «in Form von», «unter dem Joch von» und «ich frage mich» deutlich über die Kompetenzen der übrigen Schülerinnen und Schüler hinaus.

7 Ergebnisse

7.1 Ergebnisse nach Geschlecht Abbildung 7.1 zeigt die Verteilung der Ergebnisse nach Geschlecht. Der Mittelwert der Mädchen liegt bei 522 Punkten, der Mittelwert der Knaben bei 478 Punkten. Die Differenz von 44 Punkten ist statistisch signifikant und von mittlerer Bedeutung. Die Geschlechter-differenzen sind allerdings nicht in allen Schultypen gleich gross. Während die Differenzen zwischen Knaben und Mädchen in den Abteilungen C im Durchschnitt 19 Punkte betra-gen, liegen sie in den Abteilungen B mit 34 Punkten und in den Abteilungen A mit 28 Punkten etwas höher.

Abbildung 7.1: Ergebnisse nach Geschlecht

0%

10%

20%

30%

40%

50%

<200 200-300 301-400 401-500 501-600 601-700 701-800 >800

Mädchen

Knaben

7.2 Ergebnisse nach Abteilungen Abbildung 7.2 zeigt die Ergebnisse nach den Abteilungen (Schultypen). Die Verteilungs-kurven wurden aufgrund der Anzahl Schülerinnen und Schüler gebildet. Dadurch wird ersichtlich, dass der grösste Teil der Schülerinnen und Schüler (698 Schülerinnen und Schüler) in der Abteilung A, ein ebenfalls grosser Teil in der Abteilung B (470 Schülerinnen und Schüler) und nur ein sehr kleiner Anteil in Abteilung C (67 Schülerinnen und Schüler) unterrichtet wurde.

Page 18: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

18

Die Verteilungskurven entsprechen den Erwartungen. Die Texte der Schülerinnen und Schüler der Abteilungen A wurden am häufigsten mit 501 bis 600 Punkten beurteilt (Mit-telwert = 547 Punkte). Die Texte der Schülerinnen und Schüler der Abteilungen B wurden am häufigsten mit 401 bis 500 Punkten beurteilt (Mittelwert = 455 Punkte). Die Texte der Schülerinnen und Schüler der Abteilung C wurden ebenfalls am häufigsten mit 401 bis 500 Punkten beurteilt (Mittelwert = 410 Punkte).

Abbildung 7.2: Dreiteilige Sekundarschule nach Abteilungen

0

100

200

300

400

<200 200-300 301-400 401-500 501-600 601-700 701-800 >800

Anza

hl S

chül

erin

nen

und

Schü

ler

Abteilung AAbteilung BAbteilung C

Die Verteilungskurven zeigen, welche Vorteile eine schultypenunabhängige Beurteilung dank eines objektiven Verfahrens für einzelne Schülerinnen und Schüler haben kann. Rund ein Viertel der Schülerinnen und Schüler der Abteilung C schreiben Texte, deren Beurtei-lung über dem Mittelwert der Abteilung B liegt, rund 10 Prozent der Schülerinnen und Schüler der Abteilung B schreiben Texte, die über dem Mittelwert der Abteilung A liegen. Die Texte der Schülerinnen und Schüler der Abteilung C wurden nur unwesentlich tiefer beurteilt als jene der Abteilung B.

7.3 Ergebnisse nach Klassen Abbildung 7.3 zeigt die Ergebnisse der beteiligten Klassen nach Abteilung (A, B und C). Die individuellen Testergebnisse wurden zu einem Klassenmittelwert zusammengefasst und sind in der Abbildung als Quadrat, Punkt oder Dreieck dargestellt.

Die Klassenmittelwerte der Abteilungen C liegen zwischen rund 324 und 461 Punkten (insgesamt 9 Klassen), die Mittelwerte der Abteilungen B liegen zwischen rund 324 und 517 Punkten (insgesamt 32 Klassen) und die Mittelwerte der Abteilungen A liegen zwi-schen rund 424 und 597 Punkten (insgesamt 34 Klassen). Auch die Verteilung der Klas-

Page 19: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

19

senmittelwerte zeigt, wie sinnvoll eine schultypenunabhängige Beurteilung sein kann. Insgesamt zeigt sich zwar auch bei der Verteilung der Klassenmittelwerte das erwartete Bild. Die Klassen der Abteilung A erreichen in der Regel bessere Ergebnisse als jene der Abteilung B und die Klassen der Abteilung B erreichen in der Regel bessere Ergebnisse als jene der Abteilung C. Allerdings ist die Leistungsstreuung zwischen den Klassen innerhalb einer Abteilung so gross, dass sich die Klassen aufgrund ihrer Mittelwerte nicht eindeutig einer Abteilung zuweisen lassen.

Abbildung 7.3: Klassenmittelwerte nach Abteilung

200

300

400

500

600

700

800

SEK C SEK B SEK A

8 Fazit

Die Durchführung des Schreibanlasses der Klassen des Pilotversuchs «Neugestaltung des 9. Schuljahres» verlief ohne organisatorische oder technische Probleme.

Den Schülerinnen und Schülern standen drei Themen zur Verfügung, zu denen drei Aufga-ben gestellt wurden. Aufgabe 1 verlangte, dass die Schülerinnen und Schüler den vorge-gebenen Text in vier Sätzen zusammenfassten. Aufgabe 2 verlangte, dass die Schülerin-nen und Schüler einen argumentativen Text zum Thema verfassten. Aufgabe 3 verlangte, dass die Schülerinnen und Schüler eigene Beobachtungen und Erfahrungen zum Thema beschrieben.

Die Beurteilungsübereinstimmung der beiden Rater (Lehrpersonen) kann insgesamt als gut beurteilt werden. Die unabhängige Korrektur gleicher Texte durch zwei Personen führ-te zu einer durchschnittlichen Inter-Rater-Reliabilität von 0.67 (Kappa-Koeffizient). Dieser Koeffizient ist insgesamt höher als im letzten Jahr.

Die Wahl der Themen hatte für die Beurteilung der Texte nahezu keine Bedeutung. Sämt-liche Themen wurden von Knaben und Mädchen gleich häufig gewählt. Insgesamt wurde

Page 20: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

20

das Thema «Striktes Handyverbot an Urdorfer Schulen» von 40 Prozent, das Thema «Jung, trendig – und verschuldet» von 33 Prozent und das Thema «Der Fernseher kommt!» von 27 Prozent der Schülerinnen und Schüler gewählt.

Dank der Anwendung der Item-Response-Theorie konnten die leicht unterschiedlichen Beurteilungsmassstäbe der Rater bei der Berechnung der Ergebnisse der Schülerinnen und Schüler korrigiert werden, sodass eine zuverlässige und faire Beurteilung möglich wurde und einzelne Schülerinnen und Schüler nicht etwa aufgrund der korrigierenden Person oder des gewählten Themas benachteiligt waren.

Die Ergebnisrückmeldung auf der transformierten Skala (Mittelwert = 500 Punkte und Standardabweichung = 100 Punkte) darf nicht darüber hinwegtäuschen, dass die Ergeb-nisse unabhängig von den anderen Testergebnissen der Stellwerk-Tests zu interpretieren sind. Mittelwert und Standardabweichung beziehen sich ausschliesslich auf die 1263 be-teiligten Schülerinnen und Schüler des Pilotversuchs des Kantons Zürich.

Im Gegensatz zum adaptiven Testsystem Stellwerk, das die Ergebnisse ständig auf der gleichen, geeichten Skala (mit einheitlicher Metrik) ausweist, muss die Skala bei einem Schreibanlass bei jeder Durchführung wieder neu berechnet beziehungsweise erstellt wer-den. Sowohl die Schwierigkeit der Texte als auch die Massstäbe der korrigierenden Lehr-personen werden bei der nächsten Durchführung nicht exakt gleich sein. Allerdings kön-nen die Punktzahlen durchaus über die Jahre hinweg anhand von Textbeispielen illustriert werden.

Die durchschnittlichen Ergebnisse der Schülerinnen und Schüler der drei Abteilungen A, B und C entsprechen den Erwartungen. Der Mittelwert der Abteilung A liegt bei rund 550 Punkten, jener der Abteilung B bei 450 Punkten und jeder der Abteilung C bei 410 Punk-ten. Die Darstellung der Ergebnisse nach Abteilungen zeigt aber auch, dass sich die schul-typenunabhängige Beurteilung für einen grossen Teil der Schülerinnen und Schüler lohnt, denn die Überschneidung der Verteilungskurven der Ergebnisse ist ebenfalls – wie erwar-tet – gross. Die schultypenunabhängige Beurteilung entspricht deshalb einer wertvollen Zusatzinformation, sowohl für die Schülerinnen und Schüler als auch für die Lehrpersonen und die Eltern. Denn entscheidend für die Beurteilung ist einzig der Text, nicht aber der Schultyp oder die besuchte Klasse.

Page 21: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

21

Anhang 1 ================================================================================

Analyse Schreibanlass Zürich 2009 Tue Feb 10 14:24 2009 MAP OF LATENT DISTRIBUTIONS AND RESPONSE MODEL PARAMETER ESTIMATES ================================================================================ Terms in the Model (excl Step terms) +rater +thema +item -------------------------------------------------------------------------------------- | | | | | | | | | | | | | | | | | | | | | | | | 4 | | | | | | | | | | | | | | | | | | | | X| | | | | | | | 3 | | | | X| | | | XX| | | | X| | | | XX| | | | XXX| | | | XXXX| | | | 2 XXXX| | | | XXX| | | | XXXXXX| | | | XXXXXX| | |20 | XXXXXX| | |21 | XXXXXXXX| | |12 | XXXXXXXXX| | |7 10 | 1 XXXXXXXXX| | |8 16 | XXXXXXXXXX| | | | XXXXXXXX| | | | XXXXXXX| | | | XXXXXXXX| | |6 15 | XXXXXXXXX| | | | XXXXXXX| |3 | | 0 XXXXXXXXXX|2 |1 | | XXXXXXXX|1 |2 |5 | XXXXXX| | |4 13 | XXXX| | |2 | XXXX| | |3 | XXXX| | |14 17 | XX| | | | -1 XX| | |18 | XX| | |1 | X| | |11 | X| | | | X| | |19 | X| | |9 | X| | | | -2 | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | -3 | | | | | | | | | | | | | | | | ====================================================================================== Each 'X' represents 7.4 cases ======================================================================================

Page 22: Standardisierte Erfassung der sprachlichen Kompetenzen im ...00000000-6709-e114... · drei Themen: (1) «Jung, trendig – und verschuldet» und (2) «Striktes Handyverbot an Urdorfer

22

Anhang 2 ================================================================================

Analyse Schreibanlass Zürich 2009 Tue Feb 10 14:24 2009 TABLES OF RESPONSE MODEL PARAMETER ESTIMATES ================================================================================ TERM 1: rater ------------------------------------------------------------------------------------------ VARIABLES UNWEIGHTED FIT WEIGHTED FIT --------------- ----------------------- ----------------------- rater ESTIMATE ERROR^ MNSQ CI T MNSQ CI T ------------------------------------------------------------------------------------------ 1 1 0.059 0.012 0.99 ( 0.90, 1.10) -0.3 0.98 ( 0.90, 1.10) -0.4 2 2 -0.059* 0.012 1.06 ( 0.86, 1.14) 0.9 1.06 ( 0.86, 1.14) 0.8 An asterisk next to a parameter estimate indicates that it is constrained Separation Reliability Not Applicable Chi-square test of parameter equality = 22.43, df = 1 ^ Quick standard errors have been used ================================================================================ TERM 2: thema ------------------------------------------------------------------------------------------ VARIABLES UNWEIGHTED FIT WEIGHTED FIT --------------- ----------------------- ----------------------- thema ESTIMATE ERROR^ MNSQ CI T MNSQ CI T ------------------------------------------------------------------------------------------ 1 Verschuldet 0.015 0.014 0.88 ( 0.86, 1.14) -1.7 0.88 ( 0.86, 1.14) -1.7 2 Fernseher -0.138 0.013 0.89 ( 0.87, 1.13) -1.8 0.89 ( 0.87, 1.13) -1.7 3 Handyverbot 0.123* 0.020 1.03 ( 0.85, 1.15) 0.4 0.99 ( 0.84, 1.16) -0.1 -------------------------------------------------------------------------------- An asterisk next to a parameter estimate indicates that it is constrained Separation Reliability = 0.984 Chi-square test of parameter equality = 106.44, df = 2, Sig Level = 0.000 ^ Quick standard errors have been used ================================================================================ TERM 3: item ------------------------------------------------------------------------------------------ VARIABLES UNWEIGHTED FIT WEIGHTED FIT --------------- ----------------------- ----------------------- item ESTIMATE ERROR^ MNSQ CI T MNSQ CI T ------------------------------------------------------------------------------------------ 1 A1_2 -1.170 0.036 1.41 ( 0.92, 1.08) 8.9 1.18 ( 0.90, 1.10) 3.3 2 A1_3 -0.351 0.038 1.16 ( 0.92, 1.08) 3.8 1.17 ( 0.93, 1.07) 4.2 3 F_2_1 -0.542 0.038 1.21 ( 0.92, 1.08) 4.7 1.18 ( 0.93, 1.07) 4.4 4 F_2_2 -0.239 0.038 1.19 ( 0.92, 1.08) 4.5 1.21 ( 0.93, 1.07) 5.2 5 F_2_3 -0.150 0.036 1.35 ( 0.92, 1.08) 7.8 1.34 ( 0.93, 1.07) 8.1 6 F_2_4_1 0.491 0.033 1.05 ( 0.92, 1.08) 1.2 1.06 ( 0.93, 1.07) 1.5 7 F_2_4_2 1.123 0.034 0.93 ( 0.92, 1.08) -1.9 0.97 ( 0.93, 1.07) -0.8 8 F_2_5 1.042 0.033 0.79 ( 0.92, 1.08) -5.6 0.80 ( 0.92, 1.08) -5.6 9 F_3_1 -1.728 0.042 1.04 ( 0.92, 1.08) 1.0 1.06 ( 0.89, 1.11) 1.1 10 F_3_2 1.117 0.037 1.01 ( 0.92, 1.08) 0.2 1.03 ( 0.92, 1.08) 0.7 11 L_4_1 -1.242 0.040 0.77 ( 0.92, 1.08) -6.2 0.81 ( 0.93, 1.07) -5.6 12 L_4_2 1.231 0.051 0.69 ( 0.92, 1.08) -8.5 0.89 ( 0.78, 1.22) -0.9 13 L_4_3_1 -0.208 0.035 1.28 ( 0.92, 1.08) 6.4 1.19 ( 0.93, 1.07) 4.8 14 L_4_3_2 -0.721 0.037 1.06 ( 0.92, 1.08) 1.5 1.06 ( 0.91, 1.09) 1.3 15 L_4_3_3 0.501 0.035 1.13 ( 0.92, 1.08) 3.1 1.12 ( 0.93, 1.07) 3.2 16 L_4_4 0.983 0.036 1.10 ( 0.92, 1.08) 2.4 1.10 ( 0.93, 1.07) 2.5 17 L_4_5 -0.618 0.042 0.83 ( 0.92, 1.08) -4.5 0.83 ( 0.91, 1.09) -4.1 18 L_4_6 -1.000 0.039 0.78 ( 0.92, 1.08) -5.9 0.84 ( 0.92, 1.08) -4.5 19 L_4_8 -1.511 0.035 1.15 ( 0.92, 1.08) 3.5 1.19 ( 0.91, 1.09) 4.0 20 L_4_9 1.529 0.037 0.69 ( 0.92, 1.08) -8.4 0.70 ( 0.92, 1.08) -8.0 21 L_4_10 1.465* 0.169 0.85 ( 0.92, 1.08) -3.8 0.84 ( 0.92, 1.08) -4.0 -------------------------------------------------------------------------------- An asterisk next to a parameter estimate indicates that it is constrained Separation Reliability = 0.999 Chi-square test of parameter equality = 13664.42, df = 20, Sig Level = 0.000 ^ Quick standard errors have been used