Wann sollte getestet werden?

Click here to load reader

download Wann sollte getestet werden?

of 52

description

Wann sollte getestet werden?. (1) Feststellung des Förderbedarfs Einsatz von Tests, wenn Vergleich mit Altersgruppe nötig (z.B. „Wie gut sind die Rechtschreibkenntnisse im Vergleich zu Gleichaltrigen) um Entscheidung zu treffen (2) Lern-/Entwicklungsprozess, Förderung - PowerPoint PPT Presentation

Transcript of Wann sollte getestet werden?

  • Wann sollte getestet werden?(1) Feststellung des FrderbedarfsEinsatz von Tests, wenn Vergleich mit Altersgruppe ntig (z.B. Wie gut sind die Rechtschreibkenntnisse im Vergleich zu Gleichaltrigen) um Entscheidung zu treffen(2) Lern-/Entwicklungsprozess, FrderungWiederholte Testung in greren Zeitabstnden, um Lernfortschritte mit Altersgruppe zuverlssig vergleichen zu knnen

  • Definition eines TestsEin Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persnlichkeitsmerkmale mit dem Ziel einer mglichst quantitativen Aussage ber den relativen Grad der individuellen Merkmalsausprgung. (Lienert, 1969).Bei einem Test handelt es sich um ein spezielles psychologisches Experiment mit dem Ziel, vergleichende Aussagen ber Personen abzuleiten. (Rost 1996)

  • BestandteileHandbuch / ManualAngaben zum Testgegenstand (Konstrukt), Testentwicklung, Gtekriterien, Durchfhrung, Auswertunganweisungen, NormentabellenTesthefte, Aufgabenmaterialien, TestbogenAuswertungsschablonen, Protokollbogen, Auswertungsbogen

  • Beispiel: Intelligenztest CFT 20Wei, R. H. (1998). Grundintelligenztest Skala 2 CFT 20. 4. Aufl., Gttingen, HogrefeAltersbereich: Schler 8,5 18 JahreFr Erwachsene mit einfacher Schulbildung (20-70 J)Erfasst die fluide IntelligenzIst ein produktorientiertes Verfahren, d.h., es werden keine Prozedurmerkmale des Problemlsens erfasst, sondern Menge und Geschwindigkeit

  • Fluide IntelligenzIntelligenz im Sinne eines wissensfreien (kulturfreien) Intelligenztests ist eine kognitive Ressource, welche die Geschwindigkeit und Qualitt von Informationsverarbeitungsprozessen beeinflusstIhre basalen Komponenten sind vermutlich:Reizverarbeitung (z.B. Differenzierung)InformationsverarbeitungsgeschwindigkeitKurzzeitgedchtnisVerfgbarkeit elementarer Vergleichsprozesse und Heuristiken

    Neurobiologische Anstze werden hier neue Methoden zur Messung der Basisintelligenzfaktoren hervorbringen

  • DurchfhrungProband bekommt Testheft und Antwortbogen ausgehndigtVL liest Instruktion fr Beispiele etc., vorPB betrachtet Aufgaben im Testheft und notiert die seiner Ansicht nach richtige Antwort auf dem AntwortbogenVL beendet die Bearbeitung einer Aufgabengruppe, wenn die vorgeschriebene Testzeit vorbei istVL nimmt den AntwortbogenVL zhlt mit Hilfe der Auswertungsschablone die Zahl der richtigen Antworten pro Block (Rohwert)VL trgt diese Rohwerte auf Rckseite des Antwortbogens einVL liest anhand der Normwerte-Tabelle (im Manual) fr jeden Rohwert den angegebenen IQ-Wert, bzw. Prozentrang abFertig

  • Wie funktioniert so ein Ding?Testtheorie und hnliche Unannehmlichkeiten

  • TesttheorienEin Test ist nur ein psychologisches Experiment, aus dessen Ergebnissen vergleichende Aussagen ber Personen abgeleitet werden knnen, wenn seiner Konstruktion eine Theorie zugrunde gelegt ist, die angibt, wie Testergebnis und zu messendes Merkmal zusammenhngen

  • TesttheorieEinem Test muss eine Theorie zugrunde liegen, die beschreibt, wie Testverhalten und psychisches Merkmal zusammenhngen und wie dieser Zusammenhang berechnet wirdTest-verhaltenPersonen-Test-Testauswertungmerkmalbeeinflutverhalten

  • vergleichende Aussage ber 2 Personen (z.B. a ist intelligenter als b, oder Person a hat einen negativen, Person b einen positiven Attributionsstil)

    Person a und Person b bearbeiten einen Test (z.B. Analogieaufgaben, Bewertung eigener Leistung)

    TheorieTheorie ber das Antwort-verhalten der Personen in diesen Situationen (mit Hilfe eines Testmodells)

    Empirie Population von Personen, Menge von Situationen, Menge von Verhaltensweisen DatenErgebnis

  • Es gibt zwei derartige Theorien:Klassische Testtheorie (KT)Probabilistische Testtheorie (Item Response Theory, IRT; auch: Rasch-Modell)

  • Item[aitem]

    ist die Bezeichnung fr die einzelne Aufgabe in einem Testoder fr die einzelne Frage in einem Fragebogen

  • Skala(1) Mehrere Items, die dieselbe Eigenschaft/Fhigkeit erfassenJe mehr Items gelst/beantwortet werden, desto strker ist die Eigenschaft/Fhigkeit ausgeprgt

    (2) Die Antwortskala eines Items, z.B.: Stimme zu stimme teilweise zu stimme nicht zu [2,1,0]

    Oder allgemeiner: Richtige Lsung / Falsche Lsung [0,1]

  • ItemeigenschaftenSchwierigkeit:Prozentsatz der Leute, die eine Aufgabe lsen (bzw. eine bestimmte Antwort geben)Trennschrfe:Informationsgehalt eines ItemsWie gut stellt es Unterschiede zwischen Personen fest?

  • Klassische Testtheorie

    Rohwert = wahrer Testwert + Messfehler

    X = T + E

    T = Wahrer Testwert = Fhigkeit

    Probabilistische Testtheorie

    Wahrscheinlichkeit einer Antwort = Funktion latenter Fhigkeit und Itemeigenschaften

    P(x) = F(Theta, bi)

  • Klassische Testtheorie

    X = T + E

    Der Messfehler E besteht aus zuflligen Fehlereffekten

    Messfehler E und wahrer Testwert (Fhigkeit) T sind unabhngig

    Itemeigenschaft Trennschrfe wird aus X abgeleitet. Man kann sie nicht fr ein einzelnes Item bestimmen

    Ein einzelnes Item stellt keine zuverlssige Schtzung einer Fhigkeit dar

    Probabilistische Testtheorie

    P(x) = F(T, bi)

    Die Beziehung zwischen Fhigkeit und Antwortwahrscheinlichkeit wird durch eine spezielle Itemfunktion dargestelltMessfehler = Anpassungsgte des Modell

    Itemeigenschaften Schwierigkeit und Trennschrfe sind Teil der Itemfunktion

    Ein Item stellt einen Schtzer fr eine bestimmte Fhigkeitsausprgung auf einem bestimmten Wahrscheinlichkeitsniveau dar

  • KT vrs. IRTKlassische Testtheorie (KT)

    Test muss aus mehreren Items bestehenDie Items mssen unterschiedlich schwer seinDie Items mssen mglichst trennscharf seinEine Schwierigkeitsstufe muss durch mehrere Items reprsentiert werden

    Alle Probanden mssen alle Items (zu) beantworten (versuchen)

    Probabilistische Testtheorie (IRT)

    Test muss aus mehreren Items bestehenDie Items mssen unterschiedlich schwer seinDie Items mssen mglichst trennscharf seinEine Schwierigkeitsstufe kann durch ein einzelnes Items reprsentiert werden

    Jeder Proband muss nur so viele Items beantworten, wie es seiner Fhigkeit entspricht=> Adaptives Testen mglich

  • Adaptives Testen

  • CFT 20Der CFT-20 ist auf der Basis der klassischen Testtheorie konstruiert und evaluiert wordenMit ihm ist kein adaptives Testen mglichEin adaptiver Intelligenztest fr unsere Klientel ist der AID (Allgemeines Intelligenz Diagnosticum)

  • Auswahlkriterien fr die Eignungeines Test

    Konstrukt (z.B. Intelligenz)TestgtekriterienAngemessenheit der Normierung

  • TestgtekriterienUm die Kriterien wissenschaftliches Routineverfahren, bzw. psychologisches Experiment erfllen zu knnen, muss ein diagnostisches Verfahren bestimmte Bedingungen erfllen:

    ObjektivittReliabilittValiditt

  • ObjektivittDie Erfassung, Auswertung und Interpretation der Testdaten ist unabhngig von subjektiven Faktoren (z.B. Vorurteilen, Einstellungen, Erwartungshaltungen, Verflschungstendenzen)

    Dies trifft in hohem Mae fr Leistungstests (Intelligenztests, Konzentrationstest, etc.) zuDe facto kann diese Forderung aber nicht von jedem Test erfllt werden. So sind z.B. Persnlichkeitstests nicht vllig verflschungs-sicher

  • Konstruktion eines klassischen TestsKonstruktion eines Itempools: Viele Items, von denen man (begrndet) annimmt, dass ihre Lsung (Beantwortung) die (nicht direkt beobachtbare) Zieleigenschaft reprsentiert

    Vorgabe an Stichprobe (mglichst gro)

  • Konstruktion eines klassischen TestsStatistische Analysen:Prfung, welche Items eine Dimension bilden (Homogenitt, interne Validitt)Prfung der Itemschwierigkeit (Zahl der Personen, die ein Item lsen)Zusammenfassung der homogenen Items mit steigender Schwierigkeit zu einem Test (oder Subtest)Normierung

  • 5 Items aus dem KFT

  • ReliabilittReliabilitt: Zuverlssigkeit

    Hierunter versteht man die Messgenauigkeit eines Tests

    Wie wiederholbar sind die Ergebnisse?Bis zu welchem Grad lassen sich die Eigenschaften zweier Personen unterscheiden?

  • Bestimmung der Reliabilitt eines TestsRe-Test-Reliablitt :Bestimmung des statistischen Zusammenhangs (Korrelation) zwischen zwei aufeinanderfolgenden MessungenSplit-Half-Reliabilitt:Korrelation zwischen zwei Hlften der Items eines TestsCronbachs Alpha:Mittelwert der Korrelationen zwischen allen Einzelitems

    Ausreichende Reliabilitt: r: = .75 (.75: andere Notation fr 0,75)Gute Reliabilitt: r = .90

    Probleme: Die Messgenauigkeit kann nur fr mehrere Items (Skala, Test, Subtest) bestimmt werden, nicht fr EinzelitemsDaher liefert ein Test, der nicht vollstndig durchgefhrt wurde, keine zuverlssige MessungJe mehr Items ein Test (Subtest, Skala) enthlt, desto genauer wird er

  • Reliabilittssteigerung durch Testverlngerung

  • KonfidenzintervalleDie Reliabilitt gibt nicht nur an, wie genau ein Test im allgemeinen misst

    Mit ihrer Hilfe kann man das sog. Konfidenzintervall (auch. Vertrauensintervall) eines Testergebnisses berechnen

  • Das Konfidenzintervall gibt an, mit welcher Wahrscheinlichkeit der wahre Testwert in einem bestimmten Bereich von beobachteten Testergebnissen liegtZ.B:IQ (Testergebnis) = 9895%-Konfidenzintervall:= 93-103D.h.: Mit einer Wahrscheinlichkeit von 95% liegt der wirkliche IQ zwischen 93 und 103

  • ValidittValiditt: GltigkeitMisst ein Test das, was er messen soll?

    Zusammenhang zwischen dem Testergebnis und anderen Kriterien fr das ZielverhaltenSkalenaufbau und struktur entspricht dem psychologischen Wissen ber das zu messende Konstrukt

  • Bestimmung der Validitt eines TestsAugenschein- / ExpertenvalidittEntsprechen die Items dem Forschungsstand ber das zu messende Merkmal?Interne Validitt:Entspricht die Dimensionalitt der Subtests den theoretisch zu erwartenden Dimensionen?Ist die Zuordnung zwischen Items und Dimensionen sinnvoll?Methode: FaktorenanalysenExterne Validitt:Bestimmung des Zusammenhangs (Korrelationen) zwischen dem Testergebnis und anderen Kriterien fr das messende Verhaltenkologische Validitt:Ist die Art, in der das Merkmal gemessen wird, geeignet, Aussagen ber das Verhalten in Realsituationen zu treffen?

  • NormierungSowohl ein klassischer als auch ein nach dem IRT-Modell konstruierter Test gelten fr die Stichprobe(n), auf deren Basis die Prfstatistiken berechnet wurden.Um sinnvolle Vergleiche innerhalb verschiedener Teilpopulationen (z.B. Mnner/Frauen, Altersgruppen, Bildungsschichten, etc.) vornehmen zu knnen, mssen getrennte Tabellen erstellt werdenDazu muss bestimmt werden, welche Kriterien fr die Aufteilung in Teilpopulationen sinnvoll ist

  • DefinitionenStatistischer Normalbereich: -1 SD bis 1 SDBereich um den MittelwertEntspricht 68,2 % der Population

    SD (Standardabweichung ist ein abstraktes Ma)Es gibt verschiedene Umrechung (Transformationen) der Rohwerte in einen anschaulicheren WertZ-Wert, T-Wert, Abweichungs-IQ, Prozentrang

  • z-WertDer sog. z-Wert gibt die Abweichung eines individuellen Testergebnisses vom Mittelwert anMittelwert: 0Abstand: Standardabweichung (mittlere Abweichung der Testwerte)Negative z-Werte: unter dem MittelwertPositive z-Werte: ber dem MittelwertNormalbereich: -1 bis +1

  • T-WerteDer T-Wert ist eine Transformation des z-WertsEr reprsentiert die exakt gleiche Information, nmlich die Abweichung eines Testergebnisses vom Mittelwert, gemessen in StandardabweichungenEr ist aber so transformiert, dass die Zahlen etwas anschaulicher sindMittelwert der Verteilung: t-Wert = 50, SD=10Normalbereich: 40 - 60

  • Sinn?Z-Werte und t-Werte haben durchaus einen Sinn: Da sie standardisierte, verteilungs-unabhngige Kennwerte sind, kann man die z- und t-Werte unterschiedlicher Tests miteinander vergleichenWar die erste Messung vor einem Jahr besser oder schlechter als die aktuelle Messung?Z.B. Ist der Proband im Lesen besser als im Schreiben?Dagegen lassen sich Rohwerte oder Prozentrnge von Tests NICHT unmittelbar miteinander vergleichen

  • Um zwei Testwerte (des gleichen Tests, z.B. Wiederholungsmessung) vergleichen zu knnen, muss man allerdings bercksichtigen, dass auch z-, T- und IQ-Werte messfehlerbehaftet sindDies wird beim Vergleich bercksichtigt, indem man die sog. kritische Differenz bestimmtDie kritische Differenz hngt von der Reliabilitt des Tests abKrit. Diff = 1.96 * 10 * Wurzel aus (2 * [1-Reliabilitt])Sie gibt an, um wie viele T-Wert-Punkte zwei T-Werte auseinander liegen mssen, um tatschlich einen Unterschied darzustellen

  • Vergleich zweier unterschiedlicher TestsVergleich der t-Werte aus zwei verschiedenen Tests:Dkrit= 1,96 * 10* Wurzel (2-[ReliaTest1 + ReliaTest2])Dkrit = 1,96 * 10 * SQR(2-[.86+.92])Dkrit = 19,6 * SQR(0,22)Dkrit = 9.2In diesem Fall mssen sich die beiden T-Werte um 9,2 (bzw. abgerundet: 9) unterscheiden, um wirklich einen bedeutsamen Unterschied darzustellenDas muss man leider wirklich per Hand rechnen, da es in den Testhandbchern nicht enthalten ist

  • ProzentrangProzentrang gibt an, welcher Prozentsatz der Vergleichsgruppe ein gleich gutes oder schlechteres Ergebnis erzielt habenNormalbereich: abhngig von der Standardabweichung und Verteilungsform des Tests (d.h., der konkreten Rohwerteverteilung)15,8 % - 84%PR ist sehr anschaulich, aber weniger informativ als z- oder T-Werte

    hal