Wann sollte getestet werden?

Wann sollte getestet werden?(1) Feststellung des FrderbedarfsEinsatz von Tests, wenn Vergleich mit Altersgruppe ntig (z.B. Wie gut sind die Rechtschreibkenntnisse im Vergleich zu Gleichaltrigen) um Entscheidung zu treffen(2) Lern-/Entwicklungsprozess, FrderungWiederholte Testung in greren Zeitabstnden, um Lernfortschritte mit Altersgruppe zuverlssig vergleichen zu knnen

Definition eines TestsEin Test ist ein wissenschaftliches Routineverfahren zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persnlichkeitsmerkmale mit dem Ziel einer mglichst quantitativen Aussage ber den relativen Grad der individuellen Merkmalsausprgung. (Lienert, 1969).Bei einem Test handelt es sich um ein spezielles psychologisches Experiment mit dem Ziel, vergleichende Aussagen ber Personen abzuleiten. (Rost 1996)

BestandteileHandbuch / ManualAngaben zum Testgegenstand (Konstrukt), Testentwicklung, Gtekriterien, Durchfhrung, Auswertunganweisungen, NormentabellenTesthefte, Aufgabenmaterialien, TestbogenAuswertungsschablonen, Protokollbogen, Auswertungsbogen

Beispiel: Intelligenztest CFT 20Wei, R. H. (1998). Grundintelligenztest Skala 2 CFT 20. 4. Aufl., Gttingen, HogrefeAltersbereich: Schler 8,5 18 JahreFr Erwachsene mit einfacher Schulbildung (20-70 J)Erfasst die fluide IntelligenzIst ein produktorientiertes Verfahren, d.h., es werden keine Prozedurmerkmale des Problemlsens erfasst, sondern Menge und Geschwindigkeit

Fluide IntelligenzIntelligenz im Sinne eines wissensfreien (kulturfreien) Intelligenztests ist eine kognitive Ressource, welche die Geschwindigkeit und Qualitt von Informationsverarbeitungsprozessen beeinflusstIhre basalen Komponenten sind vermutlich:Reizverarbeitung (z.B. Differenzierung)InformationsverarbeitungsgeschwindigkeitKurzzeitgedchtnisVerfgbarkeit elementarer Vergleichsprozesse und Heuristiken

Neurobiologische Anstze werden hier neue Methoden zur Messung der Basisintelligenzfaktoren hervorbringen

DurchfhrungProband bekommt Testheft und Antwortbogen ausgehndigtVL liest Instruktion fr Beispiele etc., vorPB betrachtet Aufgaben im Testheft und notiert die seiner Ansicht nach richtige Antwort auf dem AntwortbogenVL beendet die Bearbeitung einer Aufgabengruppe, wenn die vorgeschriebene Testzeit vorbei istVL nimmt den AntwortbogenVL zhlt mit Hilfe der Auswertungsschablone die Zahl der richtigen Antworten pro Block (Rohwert)VL trgt diese Rohwerte auf Rckseite des Antwortbogens einVL liest anhand der Normwerte-Tabelle (im Manual) fr jeden Rohwert den angegebenen IQ-Wert, bzw. Prozentrang abFertig

Wie funktioniert so ein Ding?Testtheorie und hnliche Unannehmlichkeiten

TesttheorienEin Test ist nur ein psychologisches Experiment, aus dessen Ergebnissen vergleichende Aussagen ber Personen abgeleitet werden knnen, wenn seiner Konstruktion eine Theorie zugrunde gelegt ist, die angibt, wie Testergebnis und zu messendes Merkmal zusammenhngen

TesttheorieEinem Test muss eine Theorie zugrunde liegen, die beschreibt, wie Testverhalten und psychisches Merkmal zusammenhngen und wie dieser Zusammenhang berechnet wirdTest-verhaltenPersonen-Test-Testauswertungmerkmalbeeinflutverhalten

vergleichende Aussage ber 2 Personen (z.B. a ist intelligenter als b, oder Person a hat einen negativen, Person b einen positiven Attributionsstil)

Person a und Person b bearbeiten einen Test (z.B. Analogieaufgaben, Bewertung eigener Leistung)

TheorieTheorie ber das Antwort-verhalten der Personen in diesen Situationen (mit Hilfe eines Testmodells)

Empirie Population von Personen, Menge von Situationen, Menge von Verhaltensweisen DatenErgebnis

Es gibt zwei derartige Theorien:Klassische Testtheorie (KT)Probabilistische Testtheorie (Item Response Theory, IRT; auch: Rasch-Modell)

Item[aitem]

ist die Bezeichnung fr die einzelne Aufgabe in einem Testoder fr die einzelne Frage in einem Fragebogen

Skala(1) Mehrere Items, die dieselbe Eigenschaft/Fhigkeit erfassenJe mehr Items gelst/beantwortet werden, desto strker ist die Eigenschaft/Fhigkeit ausgeprgt

(2) Die Antwortskala eines Items, z.B.: Stimme zu stimme teilweise zu stimme nicht zu [2,1,0]

Oder allgemeiner: Richtige Lsung / Falsche Lsung [0,1]

ItemeigenschaftenSchwierigkeit:Prozentsatz der Leute, die eine Aufgabe lsen (bzw. eine bestimmte Antwort geben)Trennschrfe:Informationsgehalt eines ItemsWie gut stellt es Unterschiede zwischen Personen fest?

Klassische Testtheorie

Rohwert = wahrer Testwert + Messfehler

X = T + E

T = Wahrer Testwert = Fhigkeit

Probabilistische Testtheorie

Wahrscheinlichkeit einer Antwort = Funktion latenter Fhigkeit und Itemeigenschaften

P(x) = F(Theta, bi)

Klassische Testtheorie

X = T + E

Der Messfehler E besteht aus zuflligen Fehlereffekten

Messfehler E und wahrer Testwert (Fhigkeit) T sind unabhngig

Itemeigenschaft Trennschrfe wird aus X abgeleitet. Man kann sie nicht fr ein einzelnes Item bestimmen

Ein einzelnes Item stellt keine zuverlssige Schtzung einer Fhigkeit dar

Probabilistische Testtheorie

P(x) = F(T, bi)

Die Beziehung zwischen Fhigkeit und Antwortwahrscheinlichkeit wird durch eine spezielle Itemfunktion dargestelltMessfehler = Anpassungsgte des Modell

Itemeigenschaften Schwierigkeit und Trennschrfe sind Teil der Itemfunktion

Ein Item stellt einen Schtzer fr eine bestimmte Fhigkeitsausprgung auf einem bestimmten Wahrscheinlichkeitsniveau dar

KT vrs. IRTKlassische Testtheorie (KT)

Test muss aus mehreren Items bestehenDie Items mssen unterschiedlich schwer seinDie Items mssen mglichst trennscharf seinEine Schwierigkeitsstufe muss durch mehrere Items reprsentiert werden

Alle Probanden mssen alle Items (zu) beantworten (versuchen)

Probabilistische Testtheorie (IRT)

Test muss aus mehreren Items bestehenDie Items mssen unterschiedlich schwer seinDie Items mssen mglichst trennscharf seinEine Schwierigkeitsstufe kann durch ein einzelnes Items reprsentiert werden

Jeder Proband muss nur so viele Items beantworten, wie es seiner Fhigkeit entspricht=> Adaptives Testen mglich

Adaptives Testen

CFT 20Der CFT-20 ist auf der Basis der klassischen Testtheorie konstruiert und evaluiert wordenMit ihm ist kein adaptives Testen mglichEin adaptiver Intelligenztest fr unsere Klientel ist der AID (Allgemeines Intelligenz Diagnosticum)

Auswahlkriterien fr die Eignungeines Test

Konstrukt (z.B. Intelligenz)TestgtekriterienAngemessenheit der Normierung

TestgtekriterienUm die Kriterien wissenschaftliches Routineverfahren, bzw. psychologisches Experiment erfllen zu knnen, muss ein diagnostisches Verfahren bestimmte Bedingungen erfllen:

ObjektivittReliabilittValiditt

ObjektivittDie Erfassung, Auswertung und Interpretation der Testdaten ist unabhngig von subjektiven Faktoren (z.B. Vorurteilen, Einstellungen, Erwartungshaltungen, Verflschungstendenzen)

Dies trifft in hohem Mae fr Leistungstests (Intelligenztests, Konzentrationstest, etc.) zuDe facto kann diese Forderung aber nicht von jedem Test erfllt werden. So sind z.B. Persnlichkeitstests nicht vllig verflschungs-sicher

Konstruktion eines klassischen TestsKonstruktion eines Itempools: Viele Items, von denen man (begrndet) annimmt, dass ihre Lsung (Beantwortung) die (nicht direkt beobachtbare) Zieleigenschaft reprsentiert

Vorgabe an Stichprobe (mglichst gro)

Konstruktion eines klassischen TestsStatistische Analysen:Prfung, welche Items eine Dimension bilden (Homogenitt, interne Validitt)Prfung der Itemschwierigkeit (Zahl der Personen, die ein Item lsen)Zusammenfassung der homogenen Items mit steigender Schwierigkeit zu einem Test (oder Subtest)Normierung

5 Items aus dem KFT

ReliabilittReliabilitt: Zuverlssigkeit

Hierunter versteht man die Messgenauigkeit eines Tests

Wie wiederholbar sind die Ergebnisse?Bis zu welchem Grad lassen sich die Eigenschaften zweier Personen unterscheiden?

Bestimmung der Reliabilitt eines TestsRe-Test-Reliablitt :Bestimmung des statistischen Zusammenhangs (Korrelation) zwischen zwei aufeinanderfolgenden MessungenSplit-Half-Reliabilitt:Korrelation zwischen zwei Hlften der Items eines TestsCronbachs Alpha:Mittelwert der Korrelationen zwischen allen Einzelitems

Ausreichende Reliabilitt: r: = .75 (.75: andere Notation fr 0,75)Gute Reliabilitt: r = .90

Probleme: Die Messgenauigkeit kann nur fr mehrere Items (Skala, Test, Subtest) bestimmt werden, nicht fr EinzelitemsDaher liefert ein Test, der nicht vollstndig durchgefhrt wurde, keine zuverlssige MessungJe mehr Items ein Test (Subtest, Skala) enthlt, desto genauer wird er

Reliabilittssteigerung durch Testverlngerung

KonfidenzintervalleDie Reliabilitt gibt nicht nur an, wie genau ein Test im allgemeinen misst

Mit ihrer Hilfe kann man das sog. Konfidenzintervall (auch. Vertrauensintervall) eines Testergebnisses berechnen

Das Konfidenzintervall gibt an, mit welcher Wahrscheinlichkeit der wahre Testwert in einem bestimmten Bereich von beobachteten Testergebnissen liegtZ.B:IQ (Testergebnis) = 9895%-Konfidenzintervall:= 93-103D.h.: Mit einer Wahrscheinlichkeit von 95% liegt der wirkliche IQ zwischen 93 und 103

ValidittValiditt: GltigkeitMisst ein Test das, was er messen soll?

Zusammenhang zwischen dem Testergebnis und anderen Kriterien fr das ZielverhaltenSkalenaufbau und struktur entspricht dem psychologischen Wissen ber das zu messende Konstrukt

Bestimmung der Validitt eines TestsAugenschein- / ExpertenvalidittEntsprechen die Items dem Forschungsstand ber das zu messende Merkmal?Interne Validitt:Entspricht die Dimensionalitt der Subtests den theoretisch zu erwartenden Dimensionen?Ist die Zuordnung zwischen Items und Dimensionen sinnvoll?Methode: FaktorenanalysenExterne Validitt:Bestimmung des Zusammenhangs (Korrelationen) zwischen dem Testergebnis und anderen Kriterien fr das messende Verhaltenkologische Validitt:Ist die Art, in der das Merkmal gemessen wird, geeignet, Aussagen ber das Verhalten in Realsituationen zu treffen?

NormierungSowohl ein klassischer als auch ein nach dem IRT-Modell konstruierter Test gelten fr die Stichprobe(n), auf deren Basis die Prfstatistiken berechnet wurden.Um sinnvolle Vergleiche innerhalb verschiedener Teilpopulationen (z.B. Mnner/Frauen, Altersgruppen, Bildungsschichten, etc.) vornehmen zu knnen, mssen getrennte Tabellen erstellt werdenDazu muss bestimmt werden, welche Kriterien fr die Aufteilung in Teilpopulationen sinnvoll ist

DefinitionenStatistischer Normalbereich: -1 SD bis 1 SDBereich um den MittelwertEntspricht 68,2 % der Population

SD (Standardabweichung ist ein abstraktes Ma)Es gibt verschiedene Umrechung (Transformationen) der Rohwerte in einen anschaulicheren WertZ-Wert, T-Wert, Abweichungs-IQ, Prozentrang

z-WertDer sog. z-Wert gibt die Abweichung eines individuellen Testergebnisses vom Mittelwert anMittelwert: 0Abstand: Standardabweichung (mittlere Abweichung der Testwerte)Negative z-Werte: unter dem MittelwertPositive z-Werte: ber dem MittelwertNormalbereich: -1 bis +1

T-WerteDer T-Wert ist eine Transformation des z-WertsEr reprsentiert die exakt gleiche Information, nmlich die Abweichung eines Testergebnisses vom Mittelwert, gemessen in StandardabweichungenEr ist aber so transformiert, dass die Zahlen etwas anschaulicher sindMittelwert der Verteilung: t-Wert = 50, SD=10Normalbereich: 40 - 60

Sinn?Z-Werte und t-Werte haben durchaus einen Sinn: Da sie standardisierte, verteilungs-unabhngige Kennwerte sind, kann man die z- und t-Werte unterschiedlicher Tests miteinander vergleichenWar die erste Messung vor einem Jahr besser oder schlechter als die aktuelle Messung?Z.B. Ist der Proband im Lesen besser als im Schreiben?Dagegen lassen sich Rohwerte oder Prozentrnge von Tests NICHT unmittelbar miteinander vergleichen

Um zwei Testwerte (des gleichen Tests, z.B. Wiederholungsmessung) vergleichen zu knnen, muss man allerdings bercksichtigen, dass auch z-, T- und IQ-Werte messfehlerbehaftet sindDies wird beim Vergleich bercksichtigt, indem man die sog. kritische Differenz bestimmtDie kritische Differenz hngt von der Reliabilitt des Tests abKrit. Diff = 1.96 * 10 * Wurzel aus (2 * [1-Reliabilitt])Sie gibt an, um wie viele T-Wert-Punkte zwei T-Werte auseinander liegen mssen, um tatschlich einen Unterschied darzustellen

Vergleich zweier unterschiedlicher TestsVergleich der t-Werte aus zwei verschiedenen Tests:Dkrit= 1,96 * 10* Wurzel (2-[ReliaTest1 + ReliaTest2])Dkrit = 1,96 * 10 * SQR(2-[.86+.92])Dkrit = 19,6 * SQR(0,22)Dkrit = 9.2In diesem Fall mssen sich die beiden T-Werte um 9,2 (bzw. abgerundet: 9) unterscheiden, um wirklich einen bedeutsamen Unterschied darzustellenDas muss man leider wirklich per Hand rechnen, da es in den Testhandbchern nicht enthalten ist

ProzentrangProzentrang gibt an, welcher Prozentsatz der Vergleichsgruppe ein gleich gutes oder schlechteres Ergebnis erzielt habenNormalbereich: abhngig von der Standardabweichung und Verteilungsform des Tests (d.h., der konkreten Rohwerteverteilung)15,8 % - 84%PR ist sehr anschaulich, aber weniger informativ als z- oder T-Werte

hal

Wann sollte getestet werden?

Documents

Transcript of Wann sollte getestet werden?