Einführung in sozialwissenschaftliche Skalen-, Index- und ... · PDF fileDr. Wolfgang...

Dr. Wolfgang Langer – IV Methoden der empirischen Sozialforschung I – SoSe 2000 1

Einführung in sozialwissenschaftliche Skalen-, Index- undTypenkonstruktion

Quellen: 1. Friedrichs, J.: Methoden der empirischen Sozialforschung. Op-laden: Westdeutscher Verlag, 1990, S.172 - 188

2. Holm, K.: Die Gültigkeit sozialwissenschaftlichen Messen.In: Ders.(ed.): Die Befragung 4. München:Francke, 1976, S. 123 - 133

3. Rost, J.: Lehrbuch Testtheorie, Testkonstruktion. Bern:Huber 1996

4. Schnell, R., Hill, P.B.,& Esser, E.:Methoden der empirischen Sozialforschung.München: Oldenbourg, 1999(6)

5. Sixtl, F.: Skalierungsverfahren: Grundzüge und ausge-wählte Methoden sozialwissenschaftlichen Mes-sens. In: K.Holm (ed.): Die Befragung 4. Mün-chen: Francke, 1976, S. 9 - 95

Die Skalenbildung verfolgt zwei wichtige Ziele, erstens die Verbesserung derZuverlässigkeit der Messung durch den Einsatz einer Vielzahl von Items (Aus-sagen), die dasselbe messen sollen und zweitens der Reduktion der in dieserVielzahl von Items / Aussagen (Variablen) enthaltenen Informationen auf mög-lichst einen Skalen- oder Indexwert.Bei der Skalenkonstruktion sieht sich der Forscher mit einer Vielzahl von Pro-blem konfrontiert:1. Ist die gemessene Einstellung ein- oder mehrdimensional ?2. Welches Skalierungsmodell ist angemessen ?3. Welche Abstände bestehen zwischen den einzelnen Punkten einer Ein-

stellungsdimension ?4. Wie stabil sind die Items und ihre Ordnung in einer Skala über Zeiträume

hinweg ?

Zunächst erfolgt die Darstellung einfacher Skalierungsverfahren, wie sie in denSozialwissenschaften zumeist angewendet werden. Hieran schließt sich eineEinführung in die Konstruktion von Indizes und Typologien an.Bei den Skalierungsmethoden liegt der Schwerpunkt der Vorstellung auf denRang-, Thurstone-, Likert- und Guttman-Verfahren. In weitere Auswertungs-methoden wie der probabilistischen Testtheorie führt Rost (1996) kenntnisreichund praxisbezogen ein.


1. Einfache Verfahren der Rangskalierung:

Bogardus Skalierung der "subjektiven sozialen Distanz" bei vorgegebenenRangplätzen

Vor der Hintergrund der vom Chicagoer Stadtsoziologen Park formuliertenDistanztheorie entwickelte Bogardus seine Skalierung der sozialen Distanz zuFremdgruppen. Seine Absicht bestand darin, Verhaltensintentionen der Befragtengegenüber anderen Personen oder Gruppen zu erfassen. Hierbei ordnete er die zurFremdgruppe gehörenden Aussagen dergestalt, daß sie kontinuierlich die zweiPole der geringsten und größten Distanz verbinden. In ihrer ursprünglichenFassung bestand die Skala aus 7 Aussagen (Items), die mit der folgenden In-struktion für den Befragten versehen waren:

Instruktion:

Für jede der unten aufgeführten Rassen oder Nationalitäten kreisen Sie bitte jedenLebensbereich ein, zu der Sie ein durchschnittliches Mitglied dieser Rasse oderNationalität (weder den Besten noch den Schlechtesten, den Sie kennen) zulassenwürden. Antworten Sie bitte völlig spontan, ohne lange nachzudenken !

Ich würde ... Juden Neger

sie in meine Familie einheiraten lassen. 1 1

sie in meinen persönlichen Freundeskreisaufnehmen.

2 2

sie als Nachbarn in meiner Straße akzep-tieren.

3 3

sie als Kollegen an meinem Arbeitsplatzdulden.

4 4

sie Staatsbürger meines Landes werdenlassen.

5 5

sie nur als Besucher in meinem Landdulden.

6 6

ihnen die Einreise in mein Land verwei-gern.

7 7


Der Skalenwert 1 und 7 als Pole bilden die niedrigste bzw. die größte sozialeDistanz ab. Da jeder Befragte mehr als eine Antwort geben kann, indem er diejeweiligen Items auswählt, benötigen wir ein Verfahren, um diese zusammen-zufassen. Bogardus hat hierfür die Mittelwertsberechnung vorgeschlagen. DiePunktwerte der vom Befragten befürworteten Verhaltensweisen hat der Forscheraufzusummieren und anschließend durch sieben zu teilen. Je näher der resultie-rende Mittelwert einer Person dem Wert 1 näherkommt, desto geringer ist seineDistanz zu vorgegebenen Fremdgruppe. Seine Präferenz für den Pol der „Ein-heirat in die eigene Familie“ ließe sich als Vorurteilslosigkeit interpretieren.Hingegen steigt mit der Annäherung an den Punktwert 7 die Distanz kontinuier-lich an, was auf eine offene Bekundung der Vorurteile gegenüber der Fremd-gruppe schließen läßt. Bogardus unterstellte ausdrücklich bei der Konstruktion seiner Skala zwei An-nahmen: Alle sieben Items messen erstens die vorgegebene Zieldimension „So-ziale Distanz gegenüber der Fremdgruppe X“. Zweitens entspricht die von ihmmit Hilfe der ganzzahligen Punktwerte 1 bis 7 vorgenommene Gewichtung derItems den wahren Intensitätsunterschieden auf der latenten Dimension. BeideAnnahmen konnte er mit den statistischen Hilfsmitteln seiner Zeit nicht über-prüfen.

Skalierung bei nicht vorgegebenen Rangplätzen

Die vorgegebenen Items lassen sich hinsichtlich ihrer Zieldimension in eineraufsteigenden Rangfolge eindeutig sortieren. Die entsprechenden Rangplätzekann der Forscher entweder selbst willkürlich festsetzen, wie dies Bogardus getanhat, oder er versucht, mit Hilfe der Rangplatzskalierung eine empirisch fundierteRangordnung zu identifizieren. Hierbei entspricht der mit Hilfe einer Untersu-chung ermittelte "durchschnittliche" Rangplatz dem "Punktwert" des Items aufder Skala der Zieldimension. Wir erhalten durch dieses Vorgehen eine Skala mitrein ordinalem Meßniveau.Wie können Sie als Forscher die Rangfolge ihrer Items auf der Zieldimensionbestimmen?

Methode: Rangskalierung

1. Schreiben Sie jedes Item auf eine einzelne Karteikarte.2. Mischen Sie die Karten gut durch.3. Bitte Sie Ihre Versuchsperson (Vp) die auf den Karten enthaltenen Aus-

sagen von der schwächsten bis zur stärksten Aussage aufsteigend zu


sortieren.3.1 Wählen Sie zunächst das schwächste und das stärkste Item aus.3.2 Sortieren Sie die anderen Items zwischen diesen beiden Polen ein.

Auswertung: Berechnen Sie für jedes Item den durchschnittlichen Rangplatz.Sollte eine Vp zwei Items gleichrangig eingeordnet haben, so verkoden Sie beideItems mit dem Mittelwert ihrer aufeinanderfolgenden theoretischen Rangplätze.Wenn beispielsweise bei einer sechsstufigen Rangfolge zwei Items den Platz 4zugewiesen bekommen, tragen Sie als Rangwert 4,5 ein. Alle höher angeordnetenItems müssen natürlich dann um einen Rangplatz nach oben verschoben werden.

Beispiel für eine Rangskalierung:

Quelle: Eurobarometer Nr. 30

Skala: "Restriktive Ausländerpolitik gegenüber Türken"

Frage: Es gibt verschiedene politische Zielvorstellungen zur Anwesenheitvon Türken in der Bundesrepublik Deutschland. Welche politischeLinie sollte Ihrer Meinung nach von der Bundesregierung langfristigverfolgt werden ?

Instruktion:

Sehr geehrter Teilnehmer, Sehr geehrte Teilnehmerin !

Bei der folgenden Aufgabe geht es ausdrücklich nicht darum Ihre persönlicheEinstellung zu Türken zu erfassen, sondern wir bitten Sie darum, die sechsfolgenden Aussagen zur Ausländerpolitik hinsichtlich der Stärke der in ihnenzum Ausdruck kommenden Diskriminierung zu sortieren. Denken Sie daran, wirwollen nicht Ihre Einstellung zu Türken erfassen, sondern wir bitten Sie lediglichdarum, Ihr Urteil über die Stärke der in den Aussagen enthaltenen Diskriminie-rung abzugeben.

1. Lesen Sie sich in aller Ruhe alle sechs Aussagen zur Ausländerpolitikgegenüber Türken durch.

2. Wählen Sie die am meisten diskriminierende Politikvariante aus und wei-sen Sie ihr den Rangplatz 6 zu.


3. Wählen Sie die am wenigsten diskriminierende Politikvariante aus undweisen Sie ihr den Rangplatz 1 zu.

4. Ordnen Sie die verbleibenden 4 Politikvarianten zwischen den in Punkt 2und 3 festgelegten Polen dergestalt ein, daß sie hinsichtlich der in ihnenenthaltenen Diskriminierungsstufen eine Rangfolge bilden.

5. Sollte Sie sich bei zwei Aussagen als in gleichem Maße diskriminierendansehen, vergeben Sie bitte zwei identische Rangplatznummern.

Aussagen zur Ausländerpolitik:

Die Bundesregierung sollte ....Rang-platz

- ... nur diejenigen Türken zurückschicken, die nicht zum wirt-schaftlichen Wachstum der Bundesrepublik beitragen.

- ... nur diejenigen Türken zurückschicken, die keine Auf-enthaltserlaubnis besitzen.

- ... keinen von den Türken zurückschicken, die heute in derBundesrepublik leben.

- ... nur diejenigen Türken in ihr Heimatland zurückschicken, dienicht in der Bundesrepublik geboren sind.

- ... alle Türken in ihr Heimatland zurückschicken, auch diejeni-gen, die in der Bundesrepublik geboren sind.

- ... nur diejenigen Türken zurückschicken, die hier Verbrechenoder schwere kriminelle Delikte begangen haben.


Im Sommersemester 1995 führte ich diese Rangskalierung mit 35 Studenten desMethoden-I-Kurses durch. Nach der Anwendung der Regel für „verknüpfteRangsplätze“ erhielt ich die folgende Datentabelle:

Probnr Not working Illegals None back Back notborn here

All back Criminals

1 5,0 2,0 1,0 3,0 6,0 4,0

2 5,0 3,0 1,0 4,0 6,0 2,0

3 5,0 2,0 1,0 4,0 6,0 3,0

4 5,0 3,0 1,0 4,0 6,0 2,0

5 5,0 4,0 1,0 3,0 6,0 2,0

6 5,0 3,0 1,0 4,0 6,0 2,0

7 5,0 2,0 1,0 4,0 6,0 3,0

8 5,0 2,0 1,0 4,0 6,0 3,0

9 4,5 3,0 1,0 4,5 6,0 2,0

10 4,5 3,0 1,0 4,5 6,0 2,0

11 6,0 3,0 2,0 5,0 4,0 1,0

12 6,0 3,0 2,0 5,0 4,0 I,0

13 4,0 5,0 1,0 3,0 6,0 2,0

14 6,0 3,0 1,0 4,0 5,0 2,0

15 6,0 3,5 1,0 3,5 5,0 2,0

16 4,0 2,0 1,0 3,0 6,0 5,0

17 4,0 2,0 1,0 5,0 6,0 3,0

18 5,0 3,0 1,0 4,0 6,0 2,0

19 5,0 3,0 1,0 4,0 6,0 2,0

20 5,0 2,0 1,0 4,0 6,0 3,0

21 4,0 2,0 1,0 5,0 6,0 3,0

22 5,0 3,0 1,0 4,0 6,0 2,0

23 5,0 2,0 1,0 4,0 6,0 3,0

24 5,0 3,0 1,0 4,0 6,0 2,0

25 5,0 3,0 1,0 3,0 6,0 3,0

26 5,0 4,0 1,0 3,0 6,0 2,0

27 5,0 4,0 1,0 3,0 6,0 2,0


Probnr Not working Illegals None back Back notborn here

All back Criminals

4,91 ,54 5,00

2,86 ,74 3,00

1,09 ,26 1,00

3,96 ,69 4,00

5,80 ,53 6,00

2,39 ,83 2,00

Die Bundesregierungsollte Türken ...zurück, die nicht arbeiten

zurück, keineAufenthaltserlaubnis

zurück, keinen einzigen

zurück, nicht in BRDgeboren

zurück, alle Türken

zurück, Straffällige

MittelwertStandardabweichung Median

28 5,0 3,0 1,5 5,0 5,0 1,5

29 4,5 3,0 1,5 4,5 6,0 1,5

30 4,0 2,5 1,0 5,0 6,0 2,5

31 4,5 2,0 1,0 4,5 6,0 3,0

3 2 5,0 2,0 1,0 3,0 6,0 4,0

33 5,0 3,0 1,0 4,0 6,0 2,0

34 5,0 4,0 1,0 3,0 6,0 2,0

35 5,0 3,0 1,0 4,0 6,0 2,0

Die Bundesregierung sollte ....

Not working: nur diejenigen Türken zurückschicken, die nicht zum wirtschaftlichen Wachstum der Bun-desrepublik beitragen.

Illegals: nur diejenigen Türken zurückschicken, die keine Aufenthaltserlaubnis haben.None back: keinen von den Türken zurückschicken, die heute in der Bundesrepublik leben.Not born here: nur diejenigen Türken in ihr Heimatland zurückschicken, die nicht in der Bundesrepublik

geboren sind.Back all: alle Türken in ihr Heimatland zurückschicken, auch diejenigen, die in der Bundesrepublik

geboren sind.Criminals: nur diejenigen Türken zurückschicken, die hier Verbrechen oder schwere kriminelle Delik-

te begangen haben.

Für die sechs zu skalierenden Items erhielt ich folgende durchschnittliche undmittlere Rangplätze, wobei letztere zwischen den sechs Items präzise diskriminie-ren:


Die Streuung der mittleren Rangplätze läßt sich mit Hilfe des von John Tukeyentwickelten Box-Whiskers-Plot anschaulich darstellen. Der dicke Balken in derMitte jeder Rubrik markiert jeweils den mittleren Rangplatz, an dem genau 50%der vergebenen Ränge liegen. Die untere bzw. obere Begrenzung des Kastenmarkiert jeweils die untere bzw. obere Quartilsgrenze, an der jeweils 25% bzw.75% der verteilten Ränge liegen. Die beiden äußeren waagerechten Begrenzungs-striche markieren den 10% bzw. 90% Bereich der Verteilung. Punkte , die miteinem Kreis bzw. Stern versehen sind, liegen außerhalb des 1,5 bzw. 3-fachenInterquartilsabstand. Die Betrachtung des Box-Plots ergibt, daß lediglich dieItems „Straffällige“ und „Illegale“ sich in der Wahrnehmung ihrer Intensität aufSeiten der Befragten leicht überschneiden. Ob dies Überschneidung statistischrelevant ist, läßt sich mit Hilfe des Mediantest oder der Berechnung von Ver-trauenintervallen für die Mediane überprüfen. Diese Art von Fragen sind aberGegenstand der Veranstaltung Methoden III.


2. Methode des Paarvergleiches (Thurstone´s law of comparati-ve judgement")

Ähnlich wie bei der Rangskalierung wird die Versuchsperson (Vp) gebeten, einUrteil über die Reizintensität von Items / Aussagen abzugeben. Im Unterschiedzur Rangskalierung hat die Vp aber nicht die Gesamtheit der Items vor Augen,sondern sie wird gebeten, jeweils zwei Aussagen zu vergleichen. Ihre Aufgabebesteht jetzt darin, festzustellen, ob dier erste Aussage stärker, intensiver odergrößer als die zweite ist. In unserem Falle, ob die erste Variante der Ausländer-politik eine größeres Ausmaß an Diskriminierung beinhaltet als die zweite. Beiinsgesamt 6 Items sind (6 * (6-1)) / 2 Paarvergleiche möglich, d.h. insgesamtmüssen 15 Paarvergleiche durchgeführt werden. Anschließend lassen sich dieAussagen in einer Rangfolge ordnen. Soll diese Rangfolge auf eine metrischeSkala übertragen werden, so müssen Zusatzannahmen eingeführt werden, wieSIXTL (1967) ausführlich darstellt.

Beispiel: Paarvergleich der Items zur Ausländerpolitik gegenüber Türken.

Nachteil: Im Vergleich zur einfachen Rangskalierung ist der Paarvergleichsehr aufwendig.

3. Likert-Skala (Methode der summierten Beobachtung)

Diese Form der Vorgabe von Antwortkategorien und ihrer anschließenden Skalie-rung wird vor allem bei der Fragebatterien verwendet. Hierbei wird das Ausmaßder Zustimmung eines Befragten über die Vorgabe von verbalen Ankern undnummerischen Werten gemessen. Bei einer fünfstufigen Skala lauten die Anwort-vorgaben beispielsweise folgendermaßen:


Antwortformate der Likert-Skala

Nummerisch: Verbal: Zeichen:

1 Ich stimme stark zu ++

2 Ich stimme zu +

3 Ich bin neutral(teils/teils)

0

4 Ich lehne es ab -

5 Ich lehne es stark ab --

9 Ich weiß nicht (oderAntwortverweigerung)

Definitionsgemäß verfügt die Likert-Skala über ein intervallskaliertes Meßni-veau, da die Abstände zwischen ihren nummerischen Werten eindeutig definiertsind. Daher empfiehlt HOLM (1974) ausdrücklich die Verwendung von Likert-Skalen als Antwortformate. Aufgrund ihres Meßniveaus eignen sie sich be-sonders gut für multivariate statistische Analyseverfahren wie die Faktoren-analyse. Diese spezielle Verfahren gestattet es, zu überprüfen, ob die zu einer"Batterie" gehörenden Items wirklich nur ihre Zieldimension messen oder obsich hinter ihnen noch eine weitere Fremddimension verbirgt.Will man diejenigen Antworten eines Probanden, die er auf eine Batterie gegebenhat, zu einem Index zusammenfassen, so muß man sich zunächst der richtigenPolung der einzelnen Items versichern. Oftmals werden Items "negativ formu-liert" um der "Tendenz zum Jahsagen" des Probanden entgegenzuwirken. Hatman die Antworten dieser "Testitems" in Richtung der Zieldimension gedreht, sokann man den Summenwert des Probanden über alle Antworten dieser Batteriebilden. Nur dieser Summenwert fließt dann in die weiteren statistischen Analysenein.

Likertskalen erfreuen sich in der Umfrageforschung größster Beliebtheit, wobeisie in unterschiedlichen Formaten (4er, 5er, 7er oder mehrstufig) eingesetztwerden. Seit Beginn der achtziger Jahre enthält die Allgemeine Bevölkerungs-umfrage in den Sozialwissenschaften, welche die prägnante Abkürzung ALL-BUS trägt, eine 7-stufige Likertskala zur Messung von Gastarbeiter- bzw. Aus-länderfeindlichkeit. Sie besteht aus vier Items, die der folgende Auszug desALLBUS 96 Fragebogens dokumentiert:


Alle vier Items messen in derselben Richtung die geäußerte Ausländerfeindlich-keit. Eine Drehung einzelner Items ist daher nicht erforderlich. Der Gesamtpunkt-wert für jeden Befragten auf der Skala „Ausländerfeindlichkeit“ ergibt aus derSumme seiner Einzelantworten auf den vier vorgegebenen Items. Weigert er sich,eines der Items zu beantworten, so resultiert hieraus ein fehlender Wert, der zumAusschluß des Befragten von der Bildung des Gesamtpunktwertes („score“) führt.Hinter der offensichtlich einfachen Summenbildung verbergen sich meßtheoreti-sche Annahmen, die oftmals in Vergessenheit geraten sind. Schnell, Hill & Esser(1999, S. 435) haben sie in ihrem Anhang A klar herausgearbeitet. Bei der ein-fachen Summenbildung unterstellt der Forscher implizit eine parallele Item-charakteristik, die von folgenden Bedingungen ausgeht:

1. Alle Items messen gleichermaßen gut ihre Zieldimension (latentes Kon-strukt)

2. Die Meßfehler aller Items sind gleichgroß und stochastisch voneinanderunabhängig. D.h., sie korrelieren nicht miteinander.


Bei der eigentlichen Datenanalyse gelangt vor allem das kongenerische Meßmo-dell zur Anwendung. Es unterstellt ebenfalls unabhängige Meßfehler, die in ihrerStärke variieren dürfen. Dies trifft ebenfalls für die Stärke zu, mit der jedes Itemdas gemeinsame Konstrukt mißt. Sowohl die explorative also auch die konfirma-torische Faktorenanalyse basieren auf diesem spezifischen Meßmodell , das KarlG. Jöreskog (1973) für die Analyse linearer Strukturgleichungen (Linear Struc-tural Relationships) entwickelt hat. Dieses Modell soll das folgende Beispielveranschaulichen, das den Kontakt zu Ausländern und die Xenophobie als latente


Variablen, auch Konstrukte oder Faktoren genannt, enthält. In Sinne Gordon W.Allport hat ein Forscher untersucht, ob der Kontakt zur Fremdgruppe zu einerbedeutsamen Reduktion der geäußerten Ausländerfeindlichkeit führt. Hierbeiunterstellt er, daß das Kontaktniveau als unabhängiges, exogenes Kontrukt unddie Xenophobie als abhängiges, endogenes Konstrukt fungieren.

Nach einer Schätzung mit dem Programm LISREL 8.30 erhält er folgendeLadungs- und Pfadkoeffizienten:


4. Guttman-Skala

Der Grundgedanke dieses Verfahren lautet, daß die Items einer Skala eine kumu-lative Ordnung aufweisen, so daß im Idealfall Personen, die eine bestimmte Fragebejahen, alle höhere Ränge auf einer Skala haben als Personen, welche die glei-che Frage verneinen. Diese Form der Skalierung geht von einer Rangordnung derPersonen anhand ihrer Antworten auf die Fragen aus, so daß man am Rang einerPerson direkt ablesen kann, welche Items sie bejaht bzw. abgelehnt hat. IhrVorteil besteht darin, daß sich ihre Eindimensionalität direkt per Augenscheinüberprüfen überprüfen läßt.

Annahmen: 1. Die Items verfügen über eine monotone Funktion, d.h., wenndie Ja- in Nein-Antworten umschlagen bleiben sie bei Neinund vice versa.

2. Die Items und Personen bilden ein gemeinsames Kontinuum.

Beispiel: Reiss-Skala zur Messung der "vorehelichen sexuellen Freizügigkeit"auf dem Kontinuum "restriktiv-permissiv". (Friedrichs 1990, S.180ff.)

„REISS hat eine GUTTMAN-Skala mit zwölf Items entwickelt, hielt jedoch inspäteren Untersuchungen die reduzierte Form mit nur sieben Items für ausrei-chend. Die Items werden nachfolgend in der Form für den Mann wiedergegeben;die Form für die Frau ist entsprechend.

l. Ich finde, daß Petting für den Mann vor der Ehe erlaubt ist, wenn er verlobtist.

Stimme zu: stark - mittel - wenig Lehne ab : stark - mittel - wenig 2. Ich finde Petting für den Mann vor der Ehe erlaubt, wenn er seine Partnerin

liebt. Stimme zu: stark - mittel - wenig Lehne ab: stark-mittel -wenig 3. Ich finde Petting für den Mann vor der Ehe erlaubt, wenn er für seine

Partnerin starke Zuneigung empfindet. Stimme zu : stark - mittel - wenig Lehne ab: stark - mittel - wenig 4. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor der

Ehe erlaubt sind, wenn er verlobt ist. Stimme zu: stark - mittel - wenig Lehne ab : stark - mittel - wenig


5. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor derEhe erlaubt sind, wenn er seine Partnerin liebt.Stimme zu: stark - mittel - wenig Lehne ab: stark - mittel - wenig

6. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor der

Ehe erlaubt sind, wenn er für seine Partnerin starke Zuneigung empfindet. Stimme zu : stark - mittel - wenig Lehne ab: stark - mittel - wenig

7. Ich finde, daß uneingeschränkte Sexualbeziehungen für den Mann vor derEhe erlaubt sind, auch wenn er keine besonders starke Zuneigung für seinePartnerin empfindet.Stimme zu: stark - mittel - wenig Lehne ab: stark - mittel - wenig“

Für seine Auswertung hat Reiss die Antworten der Befragten gemäß der Zu-stimmung / Ablehnung dichotomisiert. Er erhält für seine Items folgendes idealty-pisches Skalogramm, wenn die Voraussetzungen der Guttman-Skala vollständigerfüllt wären.

Ein Skalenwert gibt an, welche Items eine Person bejaht und welche sie verneinthat; der Skalenwert «3» gibt beispielsweise präzise Auskunft über die bejahtenItems (1-5) und die verneinten (6 u. 7). Es muß demnach Umschlagpunkte geben,an denen die Ja-Antworten in Nein-Antworten umschlagen.Der zweite Vorteil einer Skalogramm-Analyse ist die Prüfung auf Eindimensiona-lität. Um solche Prüfung vorzunehmen, müssen die Antworten der Personen auf


die Items möglichst jene Anordnung erreichen, die im Beispiel der Skala vonREISS erreicht war. Im einfachen Falle einer Bejahung oder Ablehnung der Items(also keiner differenzierten Antwortvorgaben) sind folgende Arbeitsschritteerforderlich:

1. Erstellung eines Skalogramms, d. h. einer Matrix, in deren Spalten dieItems und in deren Zeilen die Antworten der Befragten stehen. Zweck-mäßig ist es, dabei a) die Items nach der Häufigkeit ihrer Bejahung zurangordnen und b) die Personen danach zu ordnen, in welchem Maße siealle, einen Teil oder kein Item bejaht haben.

2. Daraus ergibt sich, wenn die bislang nur unterstellte Skala auch vorhandenist, ein Parallelogramm. Eine Reihe von Fällen (= Reaktionsmuster derBefragten) wird sich-nicht rangordnen lassen. Man verschiebt daher dieAnordnung der Items und die der Personen solange, bis sich eine Ordnungergibt, die möglichst wenig Ausnahmen hat. Dafür ist in Tabelle 7 einvereinfachtes Beispiel aufgeführt. Um die Umschlagpunkte zu ermittelnsind mehrere Verfahren möglich. Wendet man die Cornell-Technik an, soergibt sich eine redet gute Annäherung an das ideale Muster (Tab. 8).Ferner wurden folgende Regeln angewendet: Die Items und Befragtenwerden solange umgeordnet, bis Umschlagpunkte entstehen, die zu einemMinimum an Fehlern führen. Befragte mit gleichen Antwortmustern wer-den zusammengefaßt. Sollte ein Item zahlreiche Fehler aufweisen, nimmtman es aus der Skala heraus. Ergeben sich mehrere Anordnungen der Itemsbei gleicher Fehlerzahl, dann bleibt nur eine semantische Analyse derItems.

3. Da es eine perfekte Übereinstimmung der empirischen Ergebnisse, d. h. derReaktionsmuster der Befragten mit dem Modell, nicht gibt, wird die Annä-herung an das Modell durch die Zahl der Abweichungen vom idealenMuster berechnet. Sie ist ein Maß für die Skalierbarkeit der Items wie derPersonen. Es gibt an, wie groß die Wahrscheinlichkeit ist, aus dem Punkt-wert einer Person auf der Skala ihre Reaktionen zu erschließen oder zureproduzieren. Dieser Koeffizient der Reproduzierbarkeit (coefficient ofreproducibility) wird gebildet aus:

Rep. � 1 �

Zahl der FehlerZahl der Items�Zahl der Befragten

Der Koeffizient sollte mindestens 0,90 betragen.


Verwendet man Items mit mehr als zwei Antwortkategorien, ist das Vorgehenkomplizierter: 1. Man gewichtet die Kategorien jedes Items (z. B. 0,1 ,2, 3),2. berechnet anhand der vorläufigen Ordnung der Items den Score pro Person

über alle Items,3. rangordnet die Personen nach ihren Scores. Ergibt sich eine, gemessen am Modell, große Zahl von Fehlern, so wird

man4. Kategorien einzelner Items zusammenfassen und/oder viele Fehler produ-

zierende Items ganz ausscheiden. Es wird dann5. den zusammengefaßten Kategorien der Items eine neue Gewichtung gege-

ben (z. B. 0,1, 2) und das Verfahren ab (2) wiederholt. Um diese Prozessezu vereinfachen, sind alternative Verfahren vorgeschlagen worden (vgl.TORGERSON 1958, S. 321 f.).


Zusammenfassend: Die GUTTMAN-Skala unterstellt ein gemeinsames Kontinu-um von Items und Befragten. Sie erbringt eine Rangordnung, hat also ordinaleSkalenqualität. Über die Distanz zwischen den Personen resp. Items ist nichtsausgesagt. Die Anordnung ist nicht frei von Willkür, da in einigen Fällen ent-schieden werden muß, welcher Teil eines Musters «falsch» ist. Tendenzfell steigtmit der Zahl der Items die Differenziertheit der Skala, doch steigen auch a) dieZahl der nicht mit dem Modell zu vereinbarenden Antwortmuster und b) derAufwand beträchtlich. Daher haben die meisten gebräuchlichen GUTT-MAN-Skalen nicht mehr als zehn Items. Die Skala ist wahrscheinlich nur eineenge Stichprobe aus dem Universum der möglichen Items. Die Anordnung derItems sollte bei Verwendung der gleichen Skala nicht von Studie zu Studievariiert werden, da ein soldfies Vorgehen wahrscheinlich die Reaktionsmusterbeeinflußt. GUTTMAN (1966, S. 89) selbst schreibt, daß die Items als Stich-probe aus dem «Universum» und die Rangordnung der Personen nicht über


Zeitpunkte hinweg stabil sein müssen. Die Skala ist, wie alle anderen auch,relativ.“

Die Bildung von Indizes in den Sozialwissenschaften

Ein einzelner Indikator reicht für die Operationalisierung eines theoretischenBegriff genau dann nicht aus, wenn entweder der Begriff der soziologischenTheorie selbst mehrdimensional ist oder der einzelne Indikator nicht hinreichendgenau die theoretische Dimension messen kann. Beide Problem lassen sich mitHilfe der bereits vorgestellten Skalierungsverfahren oder der Indexkonstruktionzumindest weitgehend beheben. Bei beiden handelt es sich um Auswertungs- undnicht um Datenerhebungs- oder Meßverfahren.Schnell, Hill & Esser (1999, S. 160) definieren den Index folgendermaßen:„Unter einem ‚Index‘ wird eine Zusammenfassung von mehreren Einzelindikato-ren zu einer neuen Variablen verstanden.“ Indizes gelangen immer an zur An-wendung, wenn eine soziologische Theorie einen Begriff verwendet, der von sichaus mehrdimensional ist, aber die Theorie selbst eine gemeinsame latente Varia-ble unterstellt. Ein Index wird dann aus den Indikatoren für jede der einzelnenDimensionen gebildet.Zu den klassischen theoretischen Begriffen der Soziologie, die mehrdimensionalsind, gehört derjenigen der „sozialen Schicht“. Eine denkbare Explikation dersozialen Schicht könnte die Dimensionen „Bildung“, „Einkommen“ und „berufli-che Stellung“ (Berufsposition) umfassen. Alle drei Subdimensionen müssen fürdie Operationalisierung getrennt gemessen und anschließend zu einer neuenVariablenzusammengefaßt werden. Bei letzterer handelt es sich dann um deneigentlichen Schichtindex. Bei seiner Konstruktion sieht sich der Forscher mitzwei Problemen konfrontiert.

1. Welche Dimensionen sollen in die Indexbildung eingehen?2. Wie sollen die ausgewählten und gemessenen Dimensionen miteinander

kombiniert werden?

Die ausgewählten Dimensionen des Begriffs spannen einen „Merkmalsraum“auf, der im Falle der „sozialen Schicht“ drei Achsen aufweist. Jeder Befragte, fürden Angaben auf den erhobenen Indikatoren der drei theoretischen Dimensionenvorliegen, kann im Merkmalsraum eindeutig lokalisiert werden, wie ihn Schnell,Hill & Esser (1999, S. 161) darstellen.


Wenn der Forscher durch seine theoretischen Analysen festgelegt hat, welcheDimensionen er in seinem Index einbezieht und er ihre Indikatoren erhoben hat,stellt sich für ihn die Frage, wie er die Werte der verschiedenen Indikatoren zueinem Index zusammenfassen soll. Hierbei hat er bestimmte Kombinationen derIndikatorvariablen zusammenzuziehen, wie sich am Beispiel des Schichtungs-index von Scheuch und Daheim verdeutlichen läßt.

„SCHEUCH/DAHEIM (1970:102-103) verwendeten für ihren 1961 zuerst einge-setzten Schichtungsindex die genannten drei Dimensionen Bildung, Einkommenund Berufsposition. SCHEUCH/DAHEIM unterschieden bei der Berufsposition17 verschiedene Ausprägungen, 12 Nettoeinkommensgruppen und 11 verschiede-ne Ausprägungen der Schulbildung. Damit sind 17 * 12 * 11 = 2244 verschiedeneKombinationen möglich. Diese 2244 Kombinationen sollen durch den Index sozusammengefaßt werden, daß erstens nur wenige verschiedene Indexwerte ent-stehen und zweitens die Abfolge der Indexwerte der theoretischen Variablen"Sozialprestige" entspricht. Allgemein faßt ein Index einige Kombinationen desMerkmalsraumes (Typen) zu neuen Kombinationen zusammen. Indexkonstruk-tion kann daher als "Reduktion des Merkmalsraumes" aufgefaßt werden. Für dieZusammenfassung verschiedener Typen zu einem Indexwert unterscheidet LA-ZARSFELD (1937:127-128) drei Gründe:

1. Bestimmte Typen kommen gar nicht oder so selten vor, daß eine getrennteBehandlung nicht gerechtfertigt werden kann ("functional reduction");


2. Durch unterschiedliche Gewichtung der Indexvariablen werden verschie-dene Kombinationen zusammengefaßt ("arbitrary numerical reduction");

3. Die Zusammenfassung erscheint theoretisch sinnvoll ("pragmatic reduc-tion").

Als SCHEUCH/DAHEIM ihren Index konstruierten, gab es noch kaum Akademi-kerarbeitslosigkeit. Die Kombination "Abgeschlossenes Hochschulstudium,angelernter Arbeiter, Nettoeinkommen 700-799 DM" dürfte kaum aufgetretensein und liefert damit ein Beispiel für "functional reduction".Auch ein Beispiel für "arbitrary numerical reduction" läßt sich bei der Kon-struktion des Schichtindex finden. Die drei Variablen des Index wurden klassifi-ziert und je nach Ausprägung mit verschiedenen Punktwertem versehen. DaSCHEUCH/DAHEIM (1970:70) die Variable "Berufsprestige" für die Bestim-mung des Sozialprestige für wichtiger als die beiden anderen Variablen hielten,konnten durch Berufsprestige maximal 30 Punkte und durch die beiden anderenVariablen jeweils maximal 20 Punkte erreicht werden. Sie unterschieden 17Berufspositionen von „ungelernte Arbeite“ (=1 Punkt) bis "führende Selbständi-ge" (=30 Punkte), 12 Nettoeinkommensgruppen von "unter 149 DM" (=1 Punkt)bis "2000 DM und mehr` (=20 Punkte) sowie 11 Schulbildungsniveaus von"Volksschule, unvollständig" (=0 Punkte) bis "Hochschule mit Abschluß" (=20Punkte). Die Punkte auf diesen drei Dimensionen wurden zum Schichtindexaddiert. Der Index wurde in 6 Gruppen von "untere Unterschicht" (=0-14 Punkte)bis "Oberschicht" (=50 und mehr Punkte) eingeteilt.Durch die Konstruktion eines Index werden allgemein verschiedene Kombinatio-nen der Indikatorvariablen gleichgesetzt. Bei dem Schichtungsindex kann z. B.der Wert "38" (= mittlere Mittelschicht) sowohl durch einen höchstqualifiziertenFacharbeiter (=13 Punkte) mit einem Nettoeinkommen zwischen 1000 und 1499DM (=16 Punkte) und mittlerer Reife (=9 Punkte) als auch durch einen kleinenSelbständigen (=15 Punkte) mit einem Einkommen zwischen 1500 und 1999 DM(=19 Punkte) und Volksschule mit Lehre (=4 Punkte) erreicht werden. Durch dieunterschiedliche Gewichtung der Variablen erreichen also verschiedene Kombi-nationen der Indikatorvariablen dieselben Punktwerte: Ebendies ist "arbitrarynumerical reduction".Als Beispiel für eine Zusammenfassung aus theoretischen Gründen könnte einIndex der "Zufriedenheit mit der Lebenssituation" aus einem Indikator zur "Zu-friedenheit im Beruf` und einem Indikator zur "Zufriedenheit mit privaten Le-bensverhältnissen" gebildet werden. Die beiden Kombinationen "beruflich zu-frieden, privat unzufrieden" und "beruflich unzufrieden, privat zufrieden" könn-ten zu "teilweise unzufrieden" zusammengefaßt werden. Der "theoretische"


Grund für die Zusammenfassung besteht hier lediglich aus der Unfähigkeit, ohneweitere Informationen (z. B. ob subjektiv eher Zufriedenheit im Beruf oder privatwichtig ist), eine Unterscheidung zwischen den beiden Typen in Hinsicht auf"allgemeine Zufriedenheit" vornehmen zu können.Die Beispiele sollten verdeutlicht haben, daß für ein gegebenes Indexproblem inder Regel mehr als eine Lösung existiert. Die Festlegung der Abfolge der Merk-malskombinationen erfolgt willkürlich und kann nur durch Außenkriterien legiti-miert werden (Messungen mit Indizes werden auch als "willkürliche Messung"bezeichnet). Am Beispiel des Schicht-Index kann das Außenkriterium z. B. ineinem Vergleich zwischen dem Index und einer Einschätzung durch "Experten"bestehen. In der Regel kann ein Index allerdings selten formal "validiert", son-dern nur mit seiner theoretischen oder empirischen Nützlichkeit legitimiertwerden.Die Zusammenfassung verschiedener Typen zu einem Indexwert ist also überwie-gend ebenfalls eine rein theoretische Arbeit. Bisher ist nur ansatzweise erwähntworden, wie eine Zuordnung von Zahlenwerten zu Objekten technisch erfolgt.Man kann Indizes dadurch bilden, daß man tatsächlich für jede mögliche Kombi-nation der Werte der Indexvariablen explizit einen Indexwert durch eine Tabellefestlegt ("Einem XYZ-Typ entspricht ein Indexwert von 23"). Einfacher ist es,wenn eine einfache Zuordnungsregel angegeben werden kann, mit der den Ele-menten des Merkmalsraumes Zahlen zugeordnet werden können. Nach der Formder Zuordnungsregel werden u.a. additive, multiplikative und gewichtete Indizesunterschieden.“ (Schnell, Hill & Esser 1999, S.163ff.)

Bildung einer Typologie in den Sozialwissenschaften

Nehmen die Variablen, die den Merkmalsraum aufspannen, nur wenige ver-schiedene Werte an, so kann der Forscher ihre Kombinationen gleichermaßen ineiner Tabelle darstellen. Diese mehrdimensionale Tabelle, die auf einer Kombina-tion aller Kategorien von zwei und mehr Variablen beruht, bezeichnen Schnell,Hill & Esser (1999, S. 162) als „Typologie“. „Eine Typologie besteht aus derGesamtheit aller verschiedenen Kombinationen (Typen) der zugrundeliegendenVariablen“. Zur Veranschaulichung haben sie eine Typologie des politischenEngagements entwickelt, das auf den beiden Variablen Parteimitgliedschaft undpolitisches Engagement basiert.


„Abbildung 4-8 zeigt ein Beispiel für eine Typologie politischen Engagements.„Funktionär“, „Apathischer“ usw. werden hier als Namen für bestimmte Typen,also bestimmte Kombinationen der zugrundeliegenden Variablen aufgefaßt.Ähnliche Typenbegriffe wie „totale Institutionen“, „Feudalismus“ usw. werden inder soziologischen Theoriebildung sehr häufig verwendet. Solche Begriffe lassensich als Elemente nicht explizierter Typologien auffassen, da die Dimensionen,die der Typologie zugrunde liegen, meist nicht eindeutig angegeben werden. Umsolche Begriffe für die empirische Forschung nutzbar zu machen, müssen diezugrundeliegenden Dimensionen erst theoretisch hergeleitet werden.

Diese theoretische Herleitung der einer Typologie zugrundeliegenden Dimensio-nen wird als "Rekonstruktion des Merkmalsraumes" (vgl. ZIEGLER 1973:15)oder "Substruktion" (LAZARSFELD 1937:132) bezeichnete .Die Bestimmung der Dimensionen, die in den Index eingehen sollen, ist eine reintheoretische Arbeit. Es gibt keine objektiven Gütekriterien, die eine Beurteilungerlauben würden, ob alle relevanten Dimensionen eines Begriffs berücksichtigtwurden bzw. ob die berücksichtigten Dimensionen tatsächlich relevant sind.Lediglich die theoretische Fruchtbarkeit einer solchen Analyse läßt sich manch-mal beurteilen.“(a.a.O.)

Eine der bekanntesten Typologien hat Inglehart mit seiner Differenzierung vonWertorientierung entwickelt. Sie basiert in ihrer ursprünglichen Form auf einerRangskalierung politischer Ziele, die er a priori bestimmten Werttypen zu ge-


ordnet hat. Beispielsweise findet sich im Eurobarometer Nr. 30 aus dem Jahre1988 folgende Frageformulierung:

„128. Es gibt im Augenblick eine Reihe von Diskussionen, was die Ziele derBundesrepublik Deutschland in den nächsten 10 bis 15 Jahren sein sollten. Aufdieser Liste sind einige Ziele aufgeführt, denen verschiedene Leute den Vorrangeinräumen würden.

1. Aufrechterhaltung von Sicherheit und Ordnung in der Nation

2. Verstärktes Mitspracherecht der Menschen bei wichtigen Regierungsent-scheidungen

3. Kampf gegen steigende Preise

4. Schutz der freien Meinungsäußerung

Würden Sie mir bitte sagen, welches davon Sie selbst für das wichtigste auflängere Sicht halten?

Und was halten Sie für das zweitwichtigste?“ (EMNID 1988, S. 4)

Für die Zuordnung zu den Werttypen „Postmaterialisten“, „Materialisten“ sowieden „Mischtyp“ hat Inglehart folgende „theoriegeleitete“ Zuordnungsvorschriftentwickelt.


Inglehart verwendet seine Typologie, um mit Hilfe gepoolter Querschnittsdatendie Veränderung der Wertorientierung weltweit zu untersuchen. In seinem 1997erschienen Buch „Modernization and Postmodernization“ hat er die Verschiebungder Wertorientierung weg von der materiellen hin zu den postmateriellen Zielenverglichen. Hierfür hat er die Differenz der Prozentwerte von bekennendenPostmaterialisten und Materialisten pro Land gebildet. Als Datenbasis hat er inEuropa die Eurobarometer-Untersuchungen Februar 1970 vs. Herbst 1992 und inden USA die „national election surveys“ 1972 vs. 1992 verwendet. In allenbetrachteten Ländern zeichnet sich zum zweiten Vergleichszeitpunkt ein deutli-ches Überwiegen der Postmaterialisten ab, die beim ersten Zeitpunkt noch deut-lich in der Minderheit gewesen sind. (a.a.O., S. 140)

In der obigen Abbildung scheint die Veränderung des Wertebewußtsein derBevölkerung zwischen 1970 und 1994 dramatisch zu sein. Diese Befunde er-weisen sich aber als fraglich, wenn ihre externe Validität genauer geprüft wird.Die von Inglehart verwendeten Items erfassen zwar die „key issues“ der politi-schen Arena in den frühen siebziger Jahren, aber dieses Itemuniversum hat


spätestens seit Ende der siebziger Jahre beachtliche Veränderungen erfahren. Esfehlen eindeutig die politischen Ziele der Friedensbewahrung, des Umwelt-schutzes und der Bekämpfung der Massenarbeitslosigkeit. Daher können die vonInglehart festgestellten Veränderungen auf die Fehlspezifikation seines Issue-setsAnfang der neunziger Jahre zurückzuführen sein.

Wie läßt sich die Zuverlässigkeit einer Skala überprüfen?

Lamnek (1988, S. 160f.) faßt die gängigen Verfahren zur Ermittlung der Reliabi-lität oder Zuverlässigkeit einer Skala folgendermaßen zusammen:

„1. Das Test-Retest-Verfahren Kann man davon ausgehen, daß ein Test innerhalb eines bestimmten Zeitraumeswiederholt werden kann, ohne daß sich das zu messende Merkmal verändert hatund ohne daß Einflüsse des Meßinstrumentes auf das zu messende Merkmalmöglich sind, so bietet der Vergleich beider Testergebnisse ein Maß für dieZuverlässigkeit des Tests. Die Berechnung eines Korrelationskoeffizientenzwischen erstem und zweitem Test wäre eine Maßzahl zur Bestimmung derReliabilität. In diesem Falle wird der Korrelationskoeffizient als Stabilitäts-koeffizient bezeichnet, weil er die Stabilität des Meßinstrumentes über einenbestimmten zeitlichen Abstand hinweg angibt. 2. Die Split-half-Methode (Testhalbierung) Hierbei wird ein Test in statistisch zufällig gewonnene Hälften geteilt und einerStichprobe von Probanden vorgelegt. Durch die statistische Zufälligkeit sollerreicht werden, daß in beiden Testhälften Aufgaben zu den gleichen Dimensio-nen und mit gleichem Schwierigkeitsgrad enthalten sind. . . . Diese beidenTesthälften werden den Probanden vorgelegt, so daß für jeden Probanden zweiTestergebnisse vorliegen. Die Korrelation beider Testergebnisse liefert denKoeffizienten der internen Konsistenz und gibt den Grad der Zuverlässigkeit an.Ein hoher Korrelationskoeffizient entspricht also einem hohen Maß an Reliabili-tät der beiden Tests. 3. Die Methode der äquivalenten Formen (Paralleltest) Entwickelt man zu einem Objektbereich nicht - wie normalerweise üblich - nur


Cronbach �s � �k�r

1 � (k � 1)�r� [0 ;1 ]

Legende:

k: Anzahl der Itemsr: Durchschnittliche Interkorrelation der Items

ein Testverfahren, sondern versucht man die zu messenden Variablen durch zweiunabhängig voneinander konstruierte Erhebungsinstrumente zu operationalisie-ren, so bieten beide Testverfahren in gegenseitiger Kontrolle die Möglichkeit, dieTestergebnisse miteinander zu vergleichen und von daher auf Zuverlässigkeit derMeßresultate zu schließen. Der Korrelationskoeffizient zwischen den Meßwertender beiden Testformen gibt das Ausmaß der Meßwertübereinstimmung an, mißtalso die Zuverlässigkeit der beiden Tests und wird als Äquivalenzkoeffizientbezeichnet. 4. Die Konsistenzmethode Sie ist die extremtypische Weiterführung der Split-half-Methode. Dabei wird DerTest in ebenso viele Elemente unterteilt wie Items vorhanden sind. Durch dieKorrelation dieser untereinander wird ein Reliabilitätskoeffizient berechnet", denCronbach für die Schätzung der internen Konsistenz einer additiven Itemskala -ihrer Reliabilität - entwickelt hat. Sein Reliabilitätskoeffizienten � (alpha) ist aufden Wertebereich von Null bis Eins normiert. Bevor der Forscher die Reliabili-tätsanalysen durchführen kann, muß er zuerst alle Items in die gleiche Richtungpolen, d.h., alle “gedrehten Items” müssen in Richtung der Zieldimension reko-diert werden. Cronbach geht davon aus, daß alle Items gleichzeitig dieselbeZieldimension messen sollen (“Paralleltest”) und über dieselbe Varianz verfügen.

Cronbach’s � läßt sich interpretieren als die quadrierte Interkorrelation zwischenden durch die Messung ermittelten und den “wahren” Skalenwerten. Es handeltsich beim ihm um eine Schätzung der Untergrenze der Genauigkeit des Mess-vorgangs. Je höher die durchschnittliche Interkorrelation ausfällt und je mehrItems zur Messung der Zieldimension verwendet werden, desto höher ist dieReliabilität der Messung. Von einer reliablen Messung unserer Zieldimensionkönnen wir ausgehen, wenn das Cronbach’s � den Wert von 0,70 bei Felduntersu-chungen überschreitet.


Hinsichtlich des angewandten Meßverfahrens unterstellt Cronbach die Tau-Äquivalenz der einzelnen Indikatoren. Dies bedeutet, daß die Items alle gleicher-maßen gut die Zieldimension messen müssen und sich lediglich bei den Meß-fehlern unterscheiden dürfen.

Wie läßt sich die Validität einer summativen Itemskala überprü-fen?

Mit der Validitätsüberprüfung summativer Itemskalen hat sich Holm (1976, S.126 - 133) sehr intensiv auseinandergesetzt und die wichtigsten Verfahren hierzuvorgestellt:

„2.1. Formale Gültigkeit als Hinweis auf inhaltliche Gültigkeit

Wenn für die Items einer Fragebatterie ermittelt wurde, daß sie auf nur einergemeinsamen Dimension messen, dann, so kann argumentiert werden, müßte esschon ein seltsamer Zufall sein, wenn das nicht die Zieldimension, sondernirgendeine andere Dimension wäre. Bei der Formulierung der einzelnen Fragender Batterie hat der Sozialforscher in jedem einzelnen Fall eine intuitive Dimen-sionsüberprüfung vorgenommen. Wenn die gesamte Fragebatterie (beispiels-weise) "Berufszufriedenheit" messen soll, dann hat er beim Entwickeln undFormulieren der einzelnen Fragen jedes Mal intuitiv überprüft, ob sie auf derZieldimension "Berufszufriedenheit" messen. Wenn nun durch einen relativzuverlässigen Kalkül (eben die Faktorenanalyse) ermittelt wurde, daß alle odersehr viele der formulierten Fragen auf einer gemeinsamen Dimension messen,dann müßte sich der Sozialforscher systematisch bei der intuitiven Dimensions-prüfung aller Items geirrt haben. Und das scheint sehr unwahrscheinlich zu sein.Aber auszuschließen ist ein derartiger systematischer Irrtum nicht. Es könnte etwasein, daß der Sozialforscher den Begriff "Berufszufriedenheit" definiert hat als"Zufriedenheit eines Arbeiters, die er in seinem Beruf in seinem Betrieb emp-fängt". Das wäre eine zweidimensionale Definition, die "Berufszufriedenheit" (imengeren und eigentlichen Sinne) und "Betriebszufriedenheit" umfaßt. Dabeikönnte es nun geschehen, daß der Sozialforscher ausschließlich oder überwiegendItems formuliert, die "Betriebszufriedenheit" messen. Obwohl seine Fragebatterieeindimensional ist, mißt sie dann, unbemerkt, nicht auf der Zieldimension, son-dern auf einer anderen Dimension. Die Ursache für einen derartigen systemati-schen Irrtum liegt also wesentlich im Bereiche der Theorie- und Be-griffs-Konstruktion; genauer: in der dimensionalen Auflösung des Forschungs-


gegenstandes.

2.2. Expertenvalidierung Bei der Methode der "Validierung durch Experten" (engl. "expert validity") legtder Sozialforscher die zu überprüfende Fragebatterie (deren formale Gültigkeit erzuvor ermittelt hat) Experten vor. Experten sind dabei Personen, die bezüglichder Untersuchungsdimension ein größeres Wissen besitzen als der Sozialforscher.Soll z.B. eine Fragebatterie zur Messung der Schulzufriedenheit von Kindern aufihre inhaltliche Gültigkeit getestet werden, dann werden Lehrer um ihr Urteil überdie Items der Fragebatterie gebeten. Eine derartige Methode ist deswegen unbe-friedigend, weil die Experten in der Regel nicht aufgrund objektiven Wissens ihrGültigkeitsurteil abgeben, sondern aufgrund ihrer Intuition. Diese Methode kannin manchen Fällen sogar zu krassen Fehlurteilen führen. So können etwa Lehreraufgrund fixierter Vorurteile über Kinder die vorgelegte Fragebatterie falscheinschätzen. Experten stehen immer in der Gefahr, "betriebsblind" zu werden undauf ihrem Gebiet mit eingeübten Vorurteilen zu operieren. Das gilt jedoch weni-ger für Fälle, wo objektives Wissen und objektive Kontrollen möglich sind. Sokann die Expertenvalidierung als Methode der Gültigkeitsermittlung durchaussinnvoll sein, wenn etwa eine Fragebatterie des technischen Wissens von Arbei-tern entwickelt werden soll. Hier könnten etwa Betriebsingenieure als Experteneingesetzt werden.

2.3. Bekannte Vergleichsgruppen ("known groups") Bei der Methode des "Vergleichs mit bekannten Gruppen" (engl. "knowngroups") legt der Sozialforscher seine Fragebatterie Personengruppen vor, vondenen er weiß, daß sie in der Meßdimension sehr hohe bzw. sehr niedrige Werteeinnehmen. Bei der Validierung einer "Mental-Health-Skala"(eine Frage-Batterie,mit der die geistig-seelische Gesundheit/Krankheit von Menschen gemessenwerden soll) legten J. G. Manis u.a. ( 1963) eine 22-Item-Skala folgenden Befrag-tengruppen vor:

1. Patienten eines Hospitals für geistig-seelisch Kranke, 2. Patientendieses Hospi-tals, die (als geheilt) entlassen werden sollten, 3. "normalen" College-Studenten,4. "normalen" Einwohnern eines kleinen Dorfes (Stichprobe) und 5. "normalen"Einwohnern einer Stadt (Stichprobe).


Wenn die Skala tatsächlich auf der Dimension der "Mental Health" mißt, dannmüssen sich die Patienten (Gruppe 1 ) von den geheilten Patienten (Gruppe 2)und den Nicht-Patienten (Gruppen 3, 4, 5) signifikant unterscheiden. Das warauch der Fall. Die gefundenen Mittelwerte für die 5 Gruppen waren folgende (jehöher der Punktwert, um so schlechter die "Mental Health"): Gruppe: (1) (2) (3) (4) (5) Mittelwert auf Skala: 6,1 2,8 3,6 2,8 3,2 Der Unterschied der ersten Gruppe zu jeder der 4 anderen war hoch signifikant( p = .001 ). Die Methode der "bekannten Vergleichsgruppen" besteht also darin,die zu validierende Skala mindestens 2 Gruppen vorzulegen, von denen manweiß, daß sie unterschiedliche mittlere Skalenwerte erzielen. Die gefundenenarithmetischen Mittelwerte werden dann mit einem Signifikanztest (t- oderz-Test) daraufhin untersucht, ob sie sich signifikant unterscheiden.Die "kritische Stelle" dieser Methode ist natürlich das Wissen um die wahrenWerte der zu untersuchenden Gruppen auf der wahren, aber nicht wahrnehmbarenDimension. Dieses Wissen beruht lediglich auf Plausibilität, aber nicht auf einemempirischen Beweis. Bei obigen Skalenwerten war überraschend, daß die Patien-ten, die entlassen werden sollten (Gruppe 2), sich nicht von den "normalen"Gruppen unterschieden, teilweise sogar "gesünder" waren als diese. Die Autorendeuteten diese Erscheinung als mangelhafte Trennschärfe der Skala. Hier wirdalso folgendes Prinzip sichtbar: Wenn die zu validierende Skala für 2 (odermehrere) bekannte Vergleichsgruppen keine unterschiedlichen Zahlenwerteliefert, dann muß das nicht notwendigerweise an der mangelnden inhaltlichenGültigkeit liegen, es kann auch an der mangelnden Trennschärfe liegen. Einnegatives Ergebnis bei der Methode der "bekannten Vergleichsgruppen" kannalso zweifach interpretiert werden, ein positives weist jedoch auf gute inhaltlicheGültigkeit hin (und daneben natürlich auch auf eine gute Trennschärfe der Skala).

2.4. Vergleich mit anderen unabhängigen Kriterien ("independent crite-ria")

Eine theoretische Dimension ist immer mehrfach operationalisierbar. Für jedetheoretische Dimension existieren mehrere Indikatoren. Schichtzugehörigkeitkann etwa dadurch festgestellt werden, daß man die materiellen Besitzgüter derMenschen ermittelt - aber unter Umständen auch dadurch, daß man ihren Sprach-stil feststellt.Um die schulische Zufriedenheit eines Schülers zu ermitteln, kann man ihm 1.


eine Einstellungs-Skala vorlegen (die Items enthält wie "wenn ich morgensaufwache und weiß, daß ich zur Schule muß, dann habe ich immer irgendwieAngst") oder 2. eine Liste mit alternativen Handlungen vorlegen (wie: "Was wäreDir lieber, einen Vormittag lang in die Schule zu gehen oder einen Vormittaglang im Regen herumzulaufen?") oder 3. dadurch daß man die Häufigkeit desKrankseins feststellt.Die Methode des "Vergleichs mit anderen unabhängigen Kriterien" besteht nundarin, die zu validierende Fragebatterie, z.B. die Einstellungs-Skala, mit anderenmöglichen Indikatoren derselben Dimension (Präferenz bei alternativen Hand-lungen, Häufigkeit des Krankseins) zu vergleichen (zu korrelieren), wobei dieseanderen Indikatoren anderer Art sein sollen, d.h. einer anderen Klasse von For-schungsinstrumenten angehören sollen. So sollte etwa die zu validierende Fra-gebatterie nicht mit einer anderen (konkurrierenden) Fragebatterie verglichenwerden. Ein anderes Beispiel für diese Validierungsmethode wäre etwa: Werte,die mit einer Skala der Arbeitszufriedenheit für die Arbeiter eines Betriebesermittelt werden, werden mit der Zahl der Beschwerden, die die Arbeiter ein-reichten, verglichen (korreliert). Skala und Beschwerden sind zwei voneinanderunabhängige Indikatoren ein und derselben Dimension

2.5. "Construct validity"

Die Methoden der Expertenvalidierung, der Validierung durch "bekannte Ver-gleichsgruppen" und durch Vergleichen mit anderen Kriterien beruhen nicht aufirgendwelchen theoretischen Reflexionen über das Gültigkeitsproblem. Sie sindplausibel. Die Methode jedoch, die im folgenden beschrieben wird, beruht aufeiner Theorie der inhaltlichen Gültigkeit, die allerdings selten expliziert wird. Inder amerikanischen Sozialforschung wird diese Methode "construct validity"(bzw. "construct validation") genannt.Empirische Untersuchungen verfolgen immer auch den Zweck, Theorien übereinen bestimmten Gegenstandsbereich zu überprüfen. Wenn also eine Skala dazubestimmt ist, auf einer bestimmten Dimension zu messen, dann ist diese Dimen-sion in einer Theorie eingebaut. Sie hat innerhalb dieser Theorie den Status einerunabhängigen oder einer abhängigen Variablen. Aus dieser Einordnung derDimension in eine Theorie folgt die Möglichkeit, die Skala zu benennen, d.h. ihreinhaltliche Gültigkeit zu beurteilen. Der Ablauf der "construct validation" istfolgender:


1. Der Sozialforscher hat hinsichtlich einer Meßdimension eine Fragebatterieentwickelt. Die formale Gültigkeit (Eindimensionalität) der Items ist gesi-chert.

2. Die Meßdimension muß, wie bereits oben gesagt, in eine Theorie eingebet-

tet sein, d.h. sie muß Bestandteil einer explizit formulierten Hypothesesein. Sie muß also zumindest mit einer anderen Dimension hypothetischverbunden sein. Beispiel: Die zu messende Dimension sei "Arbeitszufrie-denheit", die andere Dimension "Dogmatismus". Die Hypothese lautet "jegeringer die Arbeitszufriedenheit, um so stärker der Dogmatismus".

3. Die "andere" Dimension (Dogmatismus) muß meßbar sein, d.h. für dieandere Dimension muß auch ein Meßinstrument entwickelt werden.

4. Die an einer repräsentativen Stichprobe gewonnenen Daten für die Meßdi-mension (Arbeitszufriedenheit) und die "andere" Dimension (Dogmatis-mus) müssen sich so verhalten, wie es die Hypothese prognostiziert; fürdas Beispiel heißt das: Arbeitszufriedenheit und Dogmatismus müssen(negativ) miteinander korrelieren.

5. Wenn die Hypothese bestätigt wird, d.h. wenn die Prognose, die in derHypothese formuliert wird, durch das empirische Material erfüllt wird undwenn für die Skala der "anderen" Dimension die inhaltliche Gültigkeit(durch andere vorausgegangene Untersuchungen) gesichert ist, dann darffür die Skala der eigentlichen Meßdimension inhaltliche Gültigkeit be-ansprucht werden. Kurz: Wird die Hypothese bestätigt und ist eine derbeiden Skalen auf ihre inhaltliche Gültigkeit überprüft, dann darf auch dieandere Skala als gültig erachtet werden.

6. Welcher Schluß darf gezogen werden, wenn nun das empirische Materialdie Hypothese bestätigt, die Skala für die "andere" Dimension (Dogmatis-mus) jedoch ebenfalls noch nicht auf ihre inhaltliche Gültigkeit überprüftwurde?

Der Schluß ist im Grunde genommen derselbe wie oben unter Punkt 5. Wenn dieHypothese bestätigt wurde, dann besteht eine annehmbare Wahrscheinlichkeit,daß die beiden Skalen auch auf jenen Dimensionen messen, von denen in derHypothese gesprochen wird. Mit einer gewissen Sicherheit darf die inhaltlicheGültigkeit beider Skalen behauptet werden - wenn auch diese Sicherheit wohlgeringer ist als in dem unter Punkt 5 beschriebenen Fall. Ist die Kausalhypothese


richtig und sind die verwendeten Skalen gültig, dann müssen die Skalen kovariie-ren, d.h. miteinander korrelieren. Das ist das, was beobachtbar ist.Der umgekehrte Fall: Ist die Kausalhypothese falsch oder ist eine der beidenSkalen nicht gültig, dann werden die beiden Skalen nicht kovariieren. Es gibt nunjedoch noch einen anderen Grund, warum der Schluß auf die Gültigkeit der Skalanicht zwingend ist.Es könnte etwa sein, daß die Items der zu überprüfenden Skala nicht die Arbeits-zufriedenheit erfassen, sondern die "Einstellung zur Firma, der man angehört". Esmag nun sein, daß der Dogmatismusgrad eines Arbeitnehmers seine Einstellungzur Firma determiniert, so daß auch für diese beiden Dimensionen eine (negative)Korrelation der Meßdaten zu erwarten ist. Allgemein formuliert: Die "andere"Dimension (Dogmatismus) ist innerhalb der Theorie nicht nur mit der angezieltenMeßdimension (Arbeitszufriedenheit), sondern auch mit wieder anderen Dimen-sionen (wie "Einstellung zur Firma") hypothetisch verbunden. Eine hypothesen-konforme Korrelation der empirischen Daten ist also kein absolut sicherer Beweisfür die Gültigkeit der zu überprüfenden Skala.

7. Ein letztes sehr wichtiges Problem der Theorie der inhaltlichen Gültigkeitist noch zu klären. Es liegt eine große Versuchung für den Sozialforscherdarin, die Hypothesen so zu formulieren, daß sie durch das empirischeMaterial bestätigt werden - und zwar nachdem er die empirische Arbeitgeleistet hat und bestimmte Korrelationen gefunden hat.

Eine derartige Methode ist nicht zulässig, wenn gefordert wird, daß die Theoriededuktiv gewonnen werden muß, d.h. wenn die Theorie aus einer Theorie mitgrößerem Allgemeinheitsgrad abgeleitet werden muß. Hypothesen können dannnicht mehr ad hoc "willkürlich" formuliert werden. Oder anders formuliert:Werden bestimmte Hypothesen formuliert (die dann zur Gültigkeitsbestimmungvon Skalen verwendet werden sollen), dann muß nachgewiesen werden, daß dieseHypothesen aus Sätzen einer allgemeineren Theorie deduktiv gewonnen werdenkönnen. (Dieser Prozeß wird üblicherweise dann nicht "Deduktion", sondern"Reduktion" genannt.) Damit diese allgemeinere Theorie nicht ebenfalls ad hocerfunden wird, muß die weitere Forderung aufgestellt werden, daß diese sichbereits bewährt hat. Diese hier in Punkt 8 formulierte Bedingung mag sicherlichihre wissenschaftslogische Berechtigung haben; sie ist jedoch so restriktiv, daß esnicht verwunderlich ist, daß sich keine Untersuchung nennen läßt, die dieseBedingung eindeutig erfüllt. Die Sozialwissenschaften sind ohnehin arm anexplizierten Theorien, und deduktive Theorien sind gerade erst in der Entwick-lung begriffen.Bei den beiden im folgenden beschriebenen Methoden der "concurrent" und der


"predictive validity" handelt es sich um Techniken, die als Spezialfälle der "con-struct validity" betrachtet werden können. Bei der "concurrent validity" wirdaufgrund einer bestimmten Theorie eine Prognose über das manifeste Verhaltenvon Personen geleistet. Angenommen, es sei eine Skala des Autoritarismusentwickelt worden. Diese Skala gilt es zu validieren. Es liegt eine Theorie vor, inder Aussagen über den Zusammenhang von autoritärer Einstellung und Formenmanifesten Handelns gemacht werden.

Wird die Autoritarismusskala beispielsweise auf Schullehrer angewendet, dannkönnen gemäß der Theorie folgende Prognosen über manifestes Verhalten gelei-stet werden:

Aggressive Akte gegen Schwache: Unter den Lehrern mit hohen Autoritarismus-werten werden mehr Personen angetroffen werden, die sich gegen Schüler ausniedrigen sozialen Schichten mit einflußlosen Eltern aggressiv verhalten, alsunter denen, die niedrige Autoritarismusgrade besitzen.Bedingungslose Unterwerfung unter den Mächtigen: Unter den stark autoritärenLehrern werden mehr Personen angetroffen werden, die sich starr an den von derBehörde und dem Rektor vorgegebenen Lehrplan halten.Um die Autoritarismus-Skala zu validieren, müssen also noch die beiden Dimen-sionen 1. Verhalten gegen Schüler aus niedrigen sozialen Schichten und 2. Unter-werfung unter den vorgegebenen Lehrplan empirisch ermittelt werden. Danachkönnen Korrelationen berechnet werden. Werden die in den beiden obigen Aus-sagen gemachten Prognosen bestätigt, dann darf die Autoritarismus-Skala alsinhaltlich gültig behauptet werden. Dabei gilt natürlich die Regel: Die Sicherheitder Behauptung wächst, je mehr verschiedene Personengruppen (Lehrer, Sol-daten, Werkmeister usw.) auf diese Weise erfolgreich befragt werden. Die "con-current validity" ist insofern eine Spielart der "construct validity" als bei ihr die"anderen Dimensionen", über die aufgrund einer vorhandenen Theorie Prognosengeleistet werden, in manifestem Verhalten und nicht wieder etwa in psychischenDimensionen bestehen. Im Idealfall braucht dieses manifeste Verhalten nureinfach beobachtet zu werden, so daß also für die empirische Erfassung dieserDimensionen keine Instrumente (Fragen, Indizes, Skalen, Teste usw.), die ihrer-seits wieder Zuverlässigkeits- und Gültigkeitsprobleme aufwerfen, entwickelt undangewendet werden müssen.Dieser Idealfall wird jedoch selten gegeben sein. Auch für die Beobachtung mußgewissermaßen ein Instrument - ein Beobachtungsplan mit bestimmten Beobach-tungskriterien - entwickelt werden, der dann Gültigkeitsprobleme aufwirft.

Die "concurrent validity" ist also in der Regel keine bessere Methode der Gültig-


keitsermittlung als die normale Methode der "construct validity", bei der einePrognose hinsichtlich "anderer" latenter Dimensionen geleistet wird. 2.7. "Predictive validity" Bei der "cancurrent validity" wird ein manifestes Verhalten prognostiziert, daszeitgleich gegeben ist. Ein bestimmtes Maß an durchschnittlicher Arbeitszufrie-denheit der Belegschaft eines Betriebes geht (zeitgleich) einher mit einer be-stimmten Anzahl von Beschwerden. Wird zukünftiges manifestes Verhaltenprognostiziert, dann wird eine "predictive validity" geleistet. Zwischen "predicti-ve" und "concurrent validation" besteht also kein prinzipieller Unterschied.Beispiele für die "predictive validation" sind etwa: Es wird ein Leistungstestdurchgeführt und eine bestimmte Leistung in einer zukünftigen Situation vor-ausgesagt. Trifft die Voraussage ein, dann darf der Leistungstest als inhaltlichgültig betrachtet werden. Oder: Durch eine bestimmte Skala wird festgestellt, daßdie Arbeitszufriedenheit von bestimmten Arbeitern sehr gering ist. Es wirdprognostiziert, daß ein erheblicher Anteil dieser Arbeiter den Betrieb bald verlas-sen werde. Dieser Art der "predictive validity", bei der ein zukünftiges Handelnprognostiziert wird, liegt eine Theorie zugrunde, die über den Zusammenhangzwischen einer latenten Disposition und einer manifesten Handlung Aussagenmacht; insofern ist also auch die "predictive validity" eine Spielart der "constructvalidity". Eine Schwierigkeit besteht nun darin, daß selten ein direkter und mono-kausaler Zusammenhang zwischen Disposition und zukünftigem Handeln besteht.Das setzt jedoch voraus, daß eine umfassende Theorie über den betreffendenGegenstandsbereich vorliegt. Wo das nicht der Fall ist, ist die "predictive validi-ty" eine mehr oder weniger ungeeignete Methode der Validierung.“ (a.a.O.)

Einführung in sozialwissenschaftliche Skalen-, Index- und ... · PDF fileDr. Wolfgang...

Documents

Transcript of Einführung in sozialwissenschaftliche Skalen-, Index- und ... · PDF fileDr. Wolfgang...