Gewichtungsverfahren in der empirischen Sozialforschung ... · PDF fileDie Simulation soll...

Gewichtungsverfahren in der

empirischen Sozialforschung.

Resultate Monte-Carlo-simulierter

Redressment-Prozeduren

MARK LUTTER

Diplomarbeit, Universität Duisburg-Essen, 2005

Gewichtungsverfahren

in der empirischen Sozialforschung. Resultate

Monte-Carlo-simulierter

Redressment-Prozeduren.

Diplomarbeit

im Fach Empirische Sozialforschung

des integrierten Diplom II - Studiengangs

Sozialwissenschaften

an der

Universität Duisburg-Essen,

Campus Duisburg.

Erstgutachter: Prof. Dr. Frank Faulbaum

Zweitgutachterin: Prof. Dr. Petra Stein

vorgelegt von Mark Lutter

Duisburg, im Februar 2005

2

Inhaltsverzeichnis

1. Einleitung ....................................................................................... 05

2. Designbasierte Gewichtungsverfahren ........................................08

2.1 Theoretische Grundlage: Der Horvitz-Thompson-Schätzer ............08

2.2 Designbasierte Gewichtungsverfahren in der Praxis .......................15

2.2.1 Die Transformationsgewichtung am Beispiel:

Gewichtung nach der ‚reduzierten Haushaltsgröße’

bei ADM-Stichproben ......................................................... 16

2.2.2 Die Proportionalisierungsmethode am Beispiel:

Die Ost-West-Gewichtung der Sozialforschungs-

umfrage ALLBUS ............................................................... 18

3. Modellbasierte Gewichtungsverfahren ....................................... 20

3.1 Theoretische Grundlage: Die Regressionsschätzung ...................... 21

3.2 Modellbasierte Gewichtungsverfahren in der Praxis ...................... 29

3.2.1 Die Gewichtung nach dem Redressment-Prinzip ................29

3.2.2 Gewichtungsverfahren in der Wahlforschung .....................33

3.2.3 Gewichtung von Web-Surveys nach der

Propensity-Score Technik ....................................................36

3.2.4 Gewichtung zur Korrektur von Nonresponse ......................43

4. Die empirische Überprüfung der Auswirkungen einer Redressment-Gewichtung mittels Monte-Carlo-Simulation .....49

4.1 Zielsetzung und Vorgehensweise ................................................... 49

4.2 Zur Durchführung ........................................................................... 51

4.2.1 Konstruktion der Population ............................................... 53

4.2.2 Konstruktion des Gewichtungsmerkmals „Geschlecht“ ..... 54

4.3 Simulation 1: Auswirkungen der Redressment-Gewichtung auf

die Schätzung von Mittelwerten ......................................................56

4.3.1 Ziehung der Stichproben und Implementierung des

Gewichtungsverfahrens .......................................................56

4.3.2 Ergebnisauswertung ............................................................ 57

4.3.2.1 Vergleich der Erwartungswerte .............................. 57

3

4.3.2.2 Vergleich der Varianzen ......................................... 61

4.3.2.3 Vergleich der Differenzen zum wahren Wert ........ 65

4.3.2.4 Vergleich der Konfidenzintervalle ......................... 66

4.3.3 Zwischenfazit 1 ................................................................... 68

4.4 Simulation 2: Implementierung einer weiteren Gewichtungs-

Variablen ......................................................................................... 69




4.4.2 Zwischenfazit 2 ................................................................... 74

4.5 Simulation 3: Auswirkungen der Redressment-Gewichtung

auf die Schätzung von Korrelationskoeffizienten ........................... 74

4.5.1 Ergebnisauswertung . .......................................................... 76




4.5.2 Zwischenfazit 3 ................................................................... 80

4.6 Simulation 4: Auswirkungen der Redressment-Gewichtung

auf die Schätzung von Mittelwerten unter Berücksichtigung

systematischer Nonresponse-Effekte .............................................. 81





4.6.1.4 Vergleich der Konfidenzintervalle ......................... 90

4.6.2 Zwischenfazit 4 ................................................................... 92

5. Schlussfolgerungen ....................................................................... 93

Anhang 1 .............................................................................................. 97

Anhang 2............................................................................................... 98

4

Anhang 3............................................................................................... 99

Anhang 4............................................................................................... 102

Literaturverzeichnis ............................................................................104

Erklärung .............................................................................................110

5

1. Einleitung

Die Gewichtung von Stichproben, insbesondere von Umfragen, soll

Gegenstand dieser Arbeit sein. Von zentralem Interesse sind dabei sowohl die

theoretischen Grundlagen und Voraussetzungen einer effizienten Gewichtung

als auch konkrete Praxisanwendungen verschiedener Gewichtungsstrategien.

Darüber hinaus soll die Leistungsfähigkeit einer Redressment-Gewichtung

mittels Monte-Carlo-Simulation analysiert werden. Das Redressment-Prinzip

ist die praxisübliche Anpassung von Stichprobenverteilungen an Eckdaten der

amtlichen Statistik. Bei vielen Umfragen in der Markt- und Sozialforschung

gehört dieses Verfahren zum methodologischen Standardrepertoire seitens der

durchführenden Institute. Viele Nutzer von Survey-Daten stehen dem

Verfahren jedoch mit einiger Skepsis gegenüber. Oft wird der Vorwurf laut,

dass diese Prozeduren Nonsampling-Fehler nur kaschieren, nicht aber

beheben. Ziel der Simulationsstudie soll es sein, die Bedingungen zu

demonstrieren, unter denen die Redressment-Gewichtung zum wirksamen

Instrument in der empirischen Sozialforschung wird.

Im Allgemeinen versteht man unter „Gewichtung“ in der empirischen

Sozialforschung den Versuch, die „Repräsentativität“ einer Stichproben-

erhebung zu erhöhen. Unter „Repräsentativität“ wird ein möglichst hoher Grad

an Konkordanz der Erhebungsvariablen mit ihren Pendants in der

Zielpopulation begriffen.

Im technischen Sinne bedeutet die Stichprobengewichtung, dass der

komplette Antwortvektor einer Untersuchungseinheit mit einem

multiplikativen Faktor versehen wird. Es entsteht damit im Datensatz eine

neue (Gewichtungs-)Variable, die jedem Element fall- bzw. zeilenweise ihr

entsprechendes Gewicht zuordnet. Dadurch gehen Messwerte von

Befragungspersonen mit veränderter relativer Bedeutsamkeit in die

Berechnung von Stichprobenkennwerten (Merkmalsummen, Mittelwerte,

Varianzen, Kovarianzen etc.) ein.

Insgesamt existieren zahlreiche Prozeduren der Gewichtung, die sich in

zwei Kategorien zusammenfassen lassen: die designbasierten und die

modellbasierten Gewichtungsverfahren.

Jede designbasierte Gewichtung resultiert aus der konkreten

Stichprobenanlage und dient dem Ausgleich designbedingter Verzerrungen. Im

Unterschied zur modellbasierten Gewichtung ist ihre Verwendung gemäß der

6

Stichprobentheorie unerlässlich, da nur durch sie erwartungstreue, d.h.

unverzerrte Schätzer möglich sind.

Zu den modellbasierten Gewichtungsverfahren zählen alle Methoden,

die nicht durch das Stichprobendesign legitimiert werden. Diese Prozeduren

verfolgen zwei Ziele: Zum einen können sie durch Varianzreduktion die

Präzision („precision“) einer Schätzung erhöhen und zum anderen können sie

Verzerrungen ausgleichen, die nicht direkt auf den Prozess der

Stichprobenziehung zurückzuführen sind wie z.B. systematischen Non-

response, Non-Coverage oder Effekte der Befragungsart („nonsampling

errors“). Durch diese Bias-Reduktion können sie die Exaktheit („accuracy“)

einer Schätzung verbessern.

Modellbasierte Prozeduren zeichnen sich in erster Linie dadurch aus,

dass ihrer Anwendung diverse Modellannahmen vorausgesetzt sind. Dazu

gehört die regressionsanalytische Modellierung der Schätzfunktion durch

zusätzliche, für die Ebene der Population gültige Informationen. Theoretische

Grundlage dafür bilden die aus der Stichproben- und Schätztheorie bekannten

Regressionsschätzer. Daneben existieren modellbasierte Methoden, die ihre

Legitimation von verschiedenen, hypothesengeleiteten „Ad-Hoc-Modellen“

erhalten. Der Erfolg einer solchen Prozedur hängt dabei von der empirischen

Gültigkeit der aufgestellten Hypothesen ab.

Die designbasierte Gewichtung steht in Kapitel 2 im Fokus des

Interesses. Es sollen dort sowohl ihre stichprobentheoretischen Grundlagen

(Kapitel 2.1) als auch ihre Anwendung in der Umfragepraxis anhand zweier

Beispiele dargelegt werden (Kapitel 2.2).

In Kapitel 3 werden die modellbasierten Gewichtungsverfahren

thematisiert. Zunächst erörtern wir in Kapitel 3.1 die theoretischen Grundlagen

und Voraussetzungen der Regressionsschätzung, anschließend diskutieren wir

in Kapitel 3.2 verschiedene Anwendungen der modellbasierten Gewichtung in

der Umfragepraxis. Direkte pragmatische Adaption der Regressionsschätzung

stellt dabei die Gewichtungsmethode nach dem sog. Redressment-Prinzip dar

(Kapitel 3.2.1). Bei der sog. Rückerinnerungsgewichtung in der

Wahlforschung (Kapitel 3.2.2), der Gewichtung von Web-Surveys nach der

Propensity-Score-Methode (Kapitel 3.2.3) und den Strategien zur

Korrekturgewichtung von Unit-Nonresponse-Effekten (Kapitel 3.2.4) handelt

es sich um Anwendungsbeispiele, bei denen gleichzeitig diverse

hypothesengeleitete Modellannahmen eine Rolle spielen.

7

Nach diesem ersten Abschnitt der Arbeit soll in einem experimentellen

Teil überprüft werden, wie sich eine Gewichtung nach dem Redressment-

Prinzip konkret auf die Qualität von Stichprobendaten auswirkt (Kapitel 4).

Dies geschieht mittels Monte-Carlo-Simulation, bei der aus einer artifiziell

erzeugten Population immer wieder (einfache) Zufallsstichproben gezogen

werden. Jedes Mal wird der ungewichtete und der (nach dem Redressment-

Prinzip) gewichtete Schätzer berechnet und in einer Kennwerte-Datei

abgespeichert. Anschließend soll der Vergleich der Häufigkeitsverteilung

dieser Kennwerte Aufschluss geben über Präzision und Akkuratesse der

gewichteten Schätzung.

Die Simulation soll dabei unter verschiedenen, für die Umfragepraxis

relevanten Szenarien erfolgen. Dazu gehört, dass neben gewichteten

Mittelwerten (vgl. Kapitel 4.3 und 4.4) auch gewichtete Korrelations-

koeffizienten (vgl. Kapitel 4.5) untersucht werden. Dazu gehört weiter, dass

die Gewichtung unter verschiedenen Modellgüte-Szenarien im Sinne einer

unterschiedlich hohen Korrelation zwischen Gewichtungs- und Unter-

suchungsmerkmal analysiert wird.

Für eine realitätsnahe Simulation sollte vor allem auch die Möglichkeit

systematischer Ausfallerscheinungen in Betracht gezogen werden. Dies soll in

Kaptitel 4.6 geschehen. Dort geht es um die Erforschung der wichtigen Frage,

unter welchen Bedingungen das Redressment-Prinzip in der Lage ist,

Nonresponse-Verzerrungen auszugleichen.

In einem zusammenfassenden, letzten Kapitel sollen dann die

wichtigsten Implikationen dieser Simulationsstudie zusammengetragen werden

(Kapitel 5).

8

2. Designbasierte Gewichtungsverfahren

Generell gilt die Prämisse, dass jede Stichprobe auf wahrscheinlichkeits-

theoretischer Grundlage gewichtet werden muss.

Stichproben auf „wahrscheinlichkeitstheoretischer Grundlage“ sind

solche, die nach den Regeln der Zufalls- oder Wahrscheinlichkeitsauswahl

realisiert wurden. Sie liegt dann vor, wenn – um mit den Worten von Neurath

(1962: 266) einen intuitiven Zugang zu finden – „das Auswahlverfahren im

Wesentlichen eine Parallele darstellt zur blinden Auswahl einer Anzahl von

Kugeln aus einer gutdurchgemischten Urne“ (Hervorhebungen im Original).

Die maßgebliche Eigenschaft der Wahrscheinlichkeitsauswahl besteht darin,

dass jedem Element der Grundgesamtheit eine von Null verschiedene,

bekannte Wahrscheinlichkeit zugeordnet ist, in die Stichprobe zu gelangen.

Die designbasierte Gewichtung erfolgt dabei stets dergestalt, dass bei

der Berechnung eines Stichprobenkennwertes jedes Element mit dem

Kehrwert seiner Auswahlwahrscheinlichkeit multipliziert wird. Da sich die

Auswahlwahrscheinlichkeit direkt aus dem gewählten Stichprobendesign

ergibt, wird diese Form der Gewichtung üblicherweise als ‚Designgewichtung’

bezeichnet.

Die theoretische Rechtfertigung für dieses Vorgehen ergibt sich aus der

klassischen Stichproben- und Schätztheorie. Die relevanten theoretischen

Aspekte der designbasierten Gewichtung sollen, bevor auf einige

Anwendungen in der Praxis eingegangen wird, im folgenden Kapitel skizziert

werden.

2.1 Theoretische Grundlage: Der Horvitz-Thompson-Schätzer1

Kern- und Kristallisationspunkt einer jeden designbasierten Gewichtung bildet

die Logik des sog. „Horvitz-Thompson-Quotienten-Schätzers“ (im Folgenden

abgekürzt mit: „HTQ-Schätzer“). Diese besagt schlichtweg folgendes: Für eine

unverzerrte Schätzung eines Populationsparameters wird jeder Messwert mit 1 Die nachfolgend dargestellten Konzepte basieren im Wesentlichen auf den Ausführungen der Lehrbücher Hansen/Hurvitz/Madow (1953), Cochran (1972), Särndal/Swensson/Wretman (1997) und Lohr (1999). Das Prinzip des Horvitz-Thompson-Schätzers findet sich im Original beschrieben bei Horvitz/Thompson (1952).

9

dem Inversen seiner Auswahlwahrscheinlichkeit multipliziert. Die nachfolgend

dargestellten Konzepte sollen dies konkretisieren.

Gegeben sei eine finite Population U={1,..,N}, sowie die

Merkmalswerte {y1,y2,...,yN} des interessierenden Merkmals Y. Zwei

Populationsparameter, die üblicherweise durch Stichprobenuntersuchungen

geschätzt werden sollen, sind der Gesamtwert aller Merkmalswerte

∑= U kyt (1)

sowie das arithmetische Mittel aller Merkmalswerte

NtyU = (2)

Bei einer Stichprobenauswahl auf wahrscheinlichkeitstheoretischer Grundlage

wird ein Sample S vom Umfang n aus U gezogen. Die

Auswahlwahrscheinlichkeit kπ ist für jedes Element k von Null verschieden

und durch das gewählte Design a priori bekannt. Die Gewichtung eines jeden

Merkmalwertes der Stichprobe mit dem Kehrwert seiner

Auswahlwahrscheinlichkeit ergibt die HTQ-Schätzer

für das Populationstotal

∑= S kk

ytππ1ˆ (3)

bzw. für den Populationsmittelwert

NtyUπˆ = (4)

Die Stärke der Gewichtung hängt nun, wie es sich aus (3) direkt ergibt, von

der reziproken Auswahlchance ab: je größer die Auswahlwahrscheinlichkeit π

für ein Element, desto geringer fällt sein Variablenwert bei der Berechnung

eines Kennwertes ins Gewicht. Umgekehrt gilt: Je geringer dessen Chance,

10

desto größer ist seine relative Wichtigkeit. Ergo: Sind Elemente in der

Stichprobe aufgrund des verwendeten Designs durch höhere

Auswahlwahrscheinlichkeiten über-, bzw. durch niedrigere unterrepräsentiert,

sorgt die Gewichtung für einen entsprechenden Ausgleich dieser

(designabhängigen) Verzerrung. Ein Praxisbeispiel für die Gewichtung nach

(3) wäre die Gewichtung bei ADM-Stichproben nach der sog. ‚reduzierten

Haushaltsgröße’. Diese steht in Kapitel (2.2.1) zur Diskussion.

Wie sich zeigen lässt, liefert der HTQ-Schätzer eine erwartungstreue,

„unverzerrte“ Schätzfunktion des Populationsparameters (vgl. z.B.

Särndal/Swensson/Wretman 1997: 42). Das bedeutet, dass der Mittelwert aller

berechneten Schätzer (= Erwartungswert) bei ceteris paribus wiederholten

Stichprobenschätzungen genau den Wert trifft, der sich bei einer Totalzählung

der Elemente aus U ergibt. Ein Maß für die Exaktheit oder die Verzerrung

eines Schätzers ist der Abstand zwischen Erwartungswert und tatsächlichem

Populationswert, der ‚Bias’. Da die Schätzfunktion unverzerrt ist („unbiased“),

gilt damit:

Bias( πt ) = E( πt ) – t = 0 (5a)

bzw.

Bias( Uy ) = E( Uy ) - Uy = 0 (5b)

Die Erwartungstreue ist eine erstrebenswerte statistische Eigenschaft. Sie

garantiert, dass die Stichprobenkennwerte im landläufigen Sinne als

'repräsentativ' für die definierte Grundgesamtheit anzusehen sind, sofern

Verzerrungen, die nicht auf den Prozess der reinen Stichprobenziehung

zurückzuführen sind (‚nonsampling errors’), außer Acht gelassen werden.

Ein Maß für die Präzision eines Schätzers ist die Varianz. Sie ist

allgemein definiert als die Summe der quadratischen Abstände aller möglichen

Schätzer vom Erwartungswert, geteilt durch ihre Anzahl. Für eine präzise

Schätzung sollte sie möglichst klein sein. Sie lässt sich, darauf wird noch

eingegangen, durch verschiedene Maßnahmen wie Prä- oder Poststratifikation,

verringern.

11

Bei Vorliegen einer einfachen Zufallsauswahl (‚simple random

sampling’) sind die Auswahlwahrscheinlichkeiten für alle Elemente gleich und

ergeben sich mit πk = π = n/N. Dieser Wert besagt, welcher Bruchteil der

Gesamtheit in die Stichprobe gelangt und wird daher „Auswahlsatz“

(‚sampling fraction’) genannt. Der Kehrwert des Auswahlsatzes wird

üblicherweise „Hochrechnungsfaktor“ genannt und bildet nun nach Logik des

HTQ-Schätzers das Gewicht der Merkmalswerte bei einfacher Zufallsauswahl.

Wie nachfolgend (6) zeigt, entspricht damit der HTQ-Schätzer für das

Populationstotal dem N-fachen des Stichprobenmittelwertes:

ssk

ksyN

Nnyyt ⋅=== ∑∑ /

1ˆπ

(6)

Für den HTQ-Schätzer des Populationsmittelwertes bedeutet dies, dass es der

Stichprobenmittelwert selbst ist, der als HTQ-Schätzer fungiert. Dies zeigt

nachfolgend (7):

ss

U yN

yNNty =

⋅==

ˆˆ (7)

Jede Realisierung einer einfachen Zufallsstichprobe produziert demnach eine

selbstgewichtende Stichprobe: die Merkmalswerte können direkt und ohne

vorherige Manipulation in die Berechnung von Kennwerten eingehen.

Im Rahmen der Zufälligkeit der Auswahl kann es bei der einfachen

Zufallsstichprobe durchaus möglich sein, dass diverse Subgruppen einer

heterogenen Gesamtheit nicht adäquat genug erfasst werden. Dies kann sich

negativ auf die Qualität der Stichprobenschätzung auswirken. Um dem

entgegenzuwirken, lässt sich die heterogene Grundgesamtheit vor der Auswahl

in Schichten einteilen, die - bezüglich des interessierenden Merkmals -

homogen sind. Damit lassen sich Schätzungen von deutlich erhöhter Präzision

erzielen.

Dies ist der Fall der geschichteten Auswahl. Dort partitionieren wir die

Grundgesamtheit U={1,...,N} in H paarweise schnittfremde Schichten Uh. Dies

geschieht vor jeder Stichprobenauswahl. Die Anzahl der Elemente von Uh ist

mit Nh bezeichnet. Es gilt damit:

12

∑=

=H

hhNN

1

(8)

bzw. H

hhUU

1=

= wobei Ui ∩ Uj = φ, i ≠ j (9)

Alle Teilgesamtheiten Uh werden als eigene Grundgesamtheiten angesehen, in

denen unabhängig voneinander separate Wahrscheinlichkeitsauswahlen

durchgeführt werden. So ist es beispielsweise möglich - den entsprechenden

Erfordernissen im Feld nachkommend - innerhalb jeder Schicht mit

unterschiedlichen Designs zu arbeiten.

Der zu schätzende Populationsgesamtwert bildet nun die Summe der

einzelnen, schichtinternen Totale:

∑∑∑∑== ∈

===H

hh

H

h Ukk

Uk tyyt

h 11 (10)

Das Prinzip des HTQ-Schätzers gilt hierbei in gleicher Weise. Allerdings

verwendet man jetzt je Schicht die reziproken Auswahlwahrscheinlichkeiten

der Merkmalsträger als Gewichtungsfaktoren. Die Summe der einzelnen,

schichtinternen HTQ-Schätzer bildet dann dementsprechend den Schätzer für

die Gesamtpopulation:

∑=

=H

hhtt

1

ˆˆπ (11)

Innerhalb jeder Schicht soll nun eine einfache Zufallsauswahl vom Umfang nh

durchgeführt werden (‚stratified simple random sampling’). Analog zu (8)

ergibt sich der Gesamtumfang der Stichprobe aus ∑=

=H

hhnn

1

. Den geschätzten

Gesamtwert t erhalten wir folglich als Summe der einzelnen, schichtinternen

HTQ-Schätzer:

13

∑=

=H

hSh h

yNt1

ˆ (12)

Dabei ist ∑=h

hS

hkS nyy / der Stichprobenmittelwert pro Schicht. Für das

geschätzte arithmetische Mittel U

y resultiert daraus, dass die einzelnen

schichtinternen Stichprobenmittelwerte mit dem relativen Umfang Nh/N der

Schicht multipliziert werden:

hU S

H

h

h yNN

Nty ∑

=

==1

ˆˆ (13)

Das eigentliche, schichtspezifische Designgewicht 1/π ist hieraus nicht auf

Anhieb ersichtlich. Dennoch ist es in (12) und (13) enthalten. Dies soll

deutlich gemacht werden, indem (12) etwas ausführlicher formuliert wird:

∑∑∑= ∈=

==H

h Skk

h

hH

hSh

h

hhy

nNyNt

11

ˆ (14)

Wie hieraus erkennbar, wird tatsächlich jeder Merkmalswert mit dem Inversen

seiner Auswahlwahrscheinlichkeit gewichtet. Für das oben angeführte Design

bedeutet dies, dass die Elemente mit 1/π = Nh/nh multipliziert werden, was dem

relativen Verhältnis von konkretem Schichtumfang Nh zu schichtspezifischem

Stichprobenumfang nh entspricht. Ist dieses Verhältnis exakt ausgewogen in

dem Sinne, dass jeder Schicht eine genaue Anzahl von Fällen entnommen

wird, die in Relation strikt dem tatsächlichem Anteil der Schicht an der

Gesamtheit entspricht, dann gehen alle Merkmalswerte unabhängig ihrer

Schichtzugehörigkeit mit gleichem Gewicht in die Auswertung ein. Es gilt

dann Nh/nh = N/n. Dies ist der Fall der proportional geschichteten

Stichprobenauswahl. Der geschätzte Gesamtmittelwert U

y entspricht dann

dem einfachen arithmetischen Mittel für alle ausgewählten Merkmalswerte.

Die Stichprobe ist damit selbstgewichtend. Bei disproportionaler Auswahl

jedoch, d.h. dann, wenn die entnommene Fallzahl pro Schicht genau nicht dem

14

tatsächlichen Anteil der Schicht an der Gesamtheit entspricht, bekommen alle

Messwerte eines Teilkollektivs ihr spezifisches Schichtgewicht Nh/nh

zugewiesen. Dadurch werden designbedingte Disproportionalitäten der

Stichprobe automatisch ausgeglichen, da eben Merkmalswerte von Mitgliedern

einer über- oder unterrepräsentierten Schicht mit einem dazu umgekehrt

proportional geringerem, respektive höherem Gewicht in die Berechnung von

Schätzern eingehen. Damit ist gewährleistet, dass Auswertungen auf der

Gesamtebene unverzerrt durchgeführt werden können. In der Praxis nennt sich

diese Art der Designgewichtung ‚Proportionalisierung’. Ein praxisnahes

Beispiel, auf das in Kapitel (2.2.2) eingegangen wird, liefert die Ost-West-

Gewichtung der Sozialforschungsumfrage ALLBUS.

Sinn und Zweck jeglicher Schichtung liegt nun, wie bereits angedeutet, in der

erhöhten Präzision im Sinne einer reduzierten Varianz des Schätzers. Damit ist

gemeint, dass der geschichtete Schätzer bei wiederholter Stichprobenziehung

aus der gleichen Grundgesamtheit im Durchschnitt geringer um seinen

Erwartungswert streut als der Schätzer bei einfacher Auswahl. Mit einer

verringerten Varianz ist insbesondere immer dann zu rechnen, wenn das

Schichtungsmerkmal die Population in Bezug auf das interessierende Merkmal

in homogene Schichten einteilt. Dies ist gegeben, wenn Schichtungs- und

Untersuchungsmerkmal sehr stark kovariieren.

Zur Normierung von Gewichten lässt sich folgendes sagen. Die Summe aller

Gewichte in der Stichprobe ist (zunächst) gleich dem Umfang der

Grundgesamtheit, d.h. es gilt:

Nn

ii =∑

=1/1 π (15)

Damit repräsentiert nun jeder Messwert i in der Stichprobe genau 1/πi Werte in

der Population. Das Sample wird damit sozusagen „auf Populationsebene“

hochgerechnet.

Die Gewichte können aber – je nach Design und Auswahlsatz – zum

Teil sehr große Werte annehmen. Findet sich etwa bei der geschichteten,

einfachen Auswahl innerhalb einer Schicht ein Verhältnis von Nh/nh =

500.000/500, dann wird jeder Merkmalswert dieser Schicht mit dem Faktor

15

500.000/500 = 10.000 hochgerechnet. Das bedeutet, jeder Messwert der

Stichprobe steht für 10.000 Fälle in der Gesamtheit.

Im Allgemeinen ist man an solch hohen Zahlenwerten der

Gewichtungsfaktoren nicht interessiert. Die Gewichtungsfaktoren können nun

so normiert werden, dass ihre Summe nicht mehr dem Umfang der

Grundgesamtheit, sondern z.B. dem Stichprobenumfang (oder einer beliebigen

anderen Größe) entspricht. Dafür werden alle Gewichte mit einer

entsprechenden Konstanten, einem Normierungsfaktor, versehen. Um die

Gewichte „auf Fallzahl“ zu normieren, werden sie mit dem Faktor n/N

erweitert:

nNn n

ii =∑

=1/1 π (16)

Auf diese Weise ändert sich zwar ihr numerischer Wert, nicht aber ihre

Bedeutung. Ihr Effekt bleibt unberührt, d.h. die Änderung der relativen

Wichtigkeit der Merkmalswerte wird in ihrer Richtung nicht verändert.

In der Umfragepraxis ist es üblich, Fallgewichte derart zu normieren.

Beispielsweise werden die Gewichtungsfaktoren des Ost-West-Gewichts der

Sozialforschungsumfrage ALLBUS solchermaßen normiert (vgl. Kapitel

2.2.2).

2.2 Designbasierte Gewichtungsverfahren in der Praxis

Den Ausführungen bei Rösch (1994: 9) folgend, lassen sich in der Praxis zwei

Arten der Designgewichtung unterscheiden: die Transformationsgewichtung

und die Proportionalisierung. Unter ‚Transformationsgewichtung’ verstehen

wir die designbedingte Nivellierung divergierender Auswahlchancen nach der

Gesetzmäßigkeit des HTQ-Schätzers. Die ‚Proportionalisierung’ entspringt

dabei der gleichen Logik, bezeichnet aber den Ausgleich unterschiedlicher

Auswahlchancen aufgrund disproportional geschichteter Auswahl. Ein

Beispiel für eine Transformationsgewichtung liefert die bei ADM-Stichproben

16

gängige Gewichtung mit der ‚reduzierten Haushaltsgröße’.2 Ein Beispiel für

die Proportionalisierungsmethode gibt das in der Allgemeinen

Bevölkerungsumfrage der Sozialwissenschaften (ALLBUS) zur Anwendung

kommende, sog. Ost-West-Gewicht. Beide Prozeduren sollen nun in den

nachfolgenden zwei Kapiteln näher beleuchtet werden.

2.2.1 Die Transformationsgewichtung am Beispiel: Gewichtung nach der

‚reduzierten Haushaltsgröße’ bei ADM Stichproben

Damit bei ADM Stichproben unverzerrte Schätzungen von

Populationsparametern auf der Personenebene möglich werden, muss der

Theorie nach eine Gewichtung mit der reduzierten Haushaltsgröße zwecks

Ausgleich divergierender Auswahlchancen durchgeführt werden (vgl. z.B.

Braun et. al. 1993). Diese Maßnahme resultiert aus der konkreten ADM-

Stichprobenanlage, die Personen mit einer zur (reduzierten) Haushaltsgröße

umgekehrt proportionalen Wahrscheinlichkeit für die Stichprobe auswählt. Die

theoretische Rechtfertigung dafür liefert die Logik des klassischen Horvitz-

Thompson-Schätzers.

Das ADM-Design ist ein dreistufiger Stichprobenplan zur Erhebung

bevölkerungsrepräsentativer Personenstichproben in der Bundesrepublik

Deutschland.3 Angewandt wird es von allen professionellen Umfrageinstituten,

die dem Arbeitskreis deutscher Marktforschungsinstitute (ADM) angehören.

So ist z.B. der Großteil der seit 1980 im zweijährigen Turnus durchgeführten

Querschnittserhebungen der Sozialforschungsumfrage ALLBUS nach diesem

Design erhoben worden.4 Auf der ersten Auswahlstufe werden zunächst

Wahlbezirke mit einer Wahrscheinlichkeit proportional zu ihrer Größe

ausgewählt, anschließend werden innerhalb der gezogen Bezirke Haushalte

mittels Random-Route-Verfahren ermittelt. Auf diese Weise liefert das ADM-

Design auf der zweiten Auswahlstufe, der Haushaltsebene, eine selbst-

2 Das Adjektiv ‚reduziert’ bedeutet, dass nur die Anzahl der Personen im Haushalt, die in die definierte Grundgesamtheit fallen, relevant ist, also z.B. alle volljährigen Haushaltsmitglieder. 3 Für eine detaillierte Beschreibung des ADM-Stichprobendesigns vgl. Arbeitsgemeinschaft ADM-Stichproben und Bureau Wendt (1994) sowie Hoffmeyer-Zlotnik (1997). 4 Dies gilt für die ALLBUS-Stichproben der Jahre 1980 bis 1992 und 1998. Die übrigen Erhebungen sind (selbstgewichtende) Einwohnermelderegisterstichproben (vgl. Koch et. al. 2001: 8). Einen komparativen Überblick beider Stichprobenarten bietet Koch (1997).

17

gewichtende Stichprobe. Sofern keine systematischen Auswahlverzerrungen in

der Feldphase auftreten, besitzt damit jeder Haushalt in der BRD die gleiche

Chance, für die Stichprobe ausgewählt zu werden. Auf der dritten

Auswahlstufe, der Personenebene, gilt dies jedoch nicht mehr. Die

Auswahlwahrscheinlichkeit einer Person hängt dann umgekehrt proportional

von der (reduzierten) Größe des Haushalts ab, aus der diese Person ausgewählt

wird. Denn Personen aus großen Haushalten haben geringere, Personen aus

kleinen Haushalten größere Chancen, in die Stichprobe zu gelangen. Die

Wahrscheinlichkeit, eine Person aus einem sechsköpfigen Haushalt

auszuwählen, beträgt beispielsweise 1/6. Bei einem Single-Haushalt beträgt sie

Eins. Genau hier greift das Transformationsgewicht: Die Merkmalswerte

werden nach der Logik des HTQ-Schätzers mit dem Inversen ihrer

Auswahlwahrscheinlichkeit gewichtet. Jeder Messwert wird daher mit seiner

(reduzierten) Haushaltsgröße multipliziert. Das bedeutet konkret, dass

Merkmalswerte von Personen aus Single-Haushalten einfach, Merkmalswerte

von Personen aus sechsköpfigen Familien sechsfach in die Berechnung von

Kennwerten eingehen. Die designbedingten Stichprobenverzerrungen aufgrund

heterogener Auswahlchancen werden damit behoben. Das Sample wird somit

auch für die Personenebene repräsentativ und es können unverzerrte,

personenbezogene Stichprobenkennwerte berechnet werden.

Dieses Vorgehen rechtfertigt die Stichprobentheorie. In der Praxis

existieren jedoch gewisse Problematiken. Das reale Problem liegt in der

Tatsache, dass die zur Umgewichtung benötigte Variable ‚Haushaltsgröße’

selbst bestimmten Verzerrungen unterliegt (vgl. Hartmann/Schimpl-Neimanns

1992). Denn das ADM Design liefert nur rein theoretisch eine

haushaltsrepräsentative Stichprobe. Aus erhebungstechnischen Gründen sind

z.B. große Haushalte etwas überrepräsentiert (vgl. Wasmer/Koch/Wiedenbeck

1991: 40). Diese Verzerrungen sind jedoch aufgrund ihrer Geringfügigkeit

noch ignorierbar. Allerdings potenzieren sie sich in der Feldphase durch

systematische Response- und Nonresponse-Mechanismen bestimmter

Haushaltstypen. So sind z.B. Ein-Personen-Haushalte deutlich schwieriger zu

erreichen. Denn einerseits sind dies in der Regel jüngere Singles, die aufgrund

von Berufstätigkeit und erhöhter Mobilität öfter ausfallen, andererseits sind

dies z.B. alleinstehende, ältere Menschen, die womöglich aufgrund größerer

Kriminalitätsfurcht weniger häufig bei einer Befragung kooperieren.

Demgegenüber sind Mitglieder großer Haushalte ungleich leichter zu

18

erreichen. Hierbei handelt es sich meist um herkömmliche, hausgebundene

Familienstrukturen mit Kindern, die höhere Antreffwahrscheinlichkeiten

aufgrund ihrer erhöhten Häuslichkeit besitzen. Wie Hartmann (1990: 18) und

Hartmann/Schimpl-Neimanns (1992: 320) dokumentieren, ist im ALLBUS die

Häufigkeitsverteilung der Variable ‚Haushaltsgröße’ im Vergleich zur

amtlichen Statistik tatsächlich stark verzerrt. Die Autoren berichten, dass z.B.

der Anteil der Ein-Personen-Haushalte im ALLBUS 1986, 1988 und 1990 im

Schnitt um 26 bis 31 Prozent unterschätzt ist. Gehen nun Personen aus großen

Haushalten entsprechend ihrem Gewicht höherwertig in die Berechnung von

Kennwerten ein, dann verstärkt die Gewichtung diese Disproportionalität noch

weiter. Statt der eigentlich bezweckten „Entzerrung“ führt dies zur Verzerrung

in allen Variablen, die mit der Haushaltsgröße in Verbindung stehen. Rothe

(1994) konnte im Vergleich mit dem Mikrozensus bei drei von vier

designgewichteten soziodemografischen Variablen des ALLBUS 1986

Verzerrungen statt Verbesserungen nachweisen. Ähnliche Ergebnisse können

auch Hartmann und Schimpl-Neimanns (1992: 322f.) für die Variablen Alter,

Geschlecht und Familienstand beim ALLBUS 1986, 1988 und 1990

bestätigen.

Die theoretisch zwar korrekte Anwendung der Designgewichtung mit

der reduzierten Haushaltsgröße führt demnach zu einer ‚systematischen

Verzerrung der systematischen Verzerrung.’ Seit 1990 verzichtet daher ZUMA

auf die Empfehlung eines solchen Gewichts für den ALLBUS und überlässt

die Entscheidung über eine Verwendung dem Anwender (vgl.

Wasmer/Koch/Wiedenbeck 1991: 45).

2.2.2 Die Proportionalisierungsmethode am Beispiel: Die Ost-West-

Gewichtung der Sozialforschungsumfrage ALLBUS

Die Gewichtung nach der Proportionalisierungsmethode entspringt der

gleichen Logik wie die Transformationsgewichtung. Auch sie gewichtet

Merkmalswerte mit dem Inversen ihrer Inklusionswahrscheinlichkeit, um

damit Verzerrungen aufgrund heterogener Auswahlchancen auszugleichen.

Die unterschiedlichen Auswahlchancen resultieren hier aber aufgrund einer

gewollten Über- bzw. Unterrepräsentierung bestimmter Gruppen von

19

Untersuchungseinheiten durch disproportional geschichtete Auswahl. Dabei

entnimmt man jeder Schicht eine Anzahl von Fällen, die in Relation genau

nicht dem Anteil der Schicht an der Gesamtheit entspricht. Eine solche

Disproportionalität bei der Auswahl ermöglicht die bessere Erfassung

spezieller Populationen und bewirkt zudem – sofern die Grundgesamtheit

bezüglich der interessierenden Merkmale in homogene Schichten eingeteilt

wurde – eine zum Teil erheblich präzisere Schätzung von

Populationsparametern im Vergleich zur einfachen Auswahl. Im

Sozioökonomischen Panel (SOEP) sind beispielsweise die in Deutschland

lebenden Ausländer bewusst überrepräsentiert, um Aussagen von höherer

Validität dieser Spezialpopulation zu garantieren (Pischner 1994: 167). Auch

die Sozialforschungsumfrage ALLBUS arbeitet (seit 1991) mit einem solchen

disproportionalen Stichprobenansatz (vgl. Bandilla/Gabler/Wiedenbeck 1992).

Dort sind ostdeutsche Bundesbürger überproportional zum Anteil an der

Gesamtheit vertreten. Um diese Disproportionalität wieder auszugleichen,

werden die Angaben der Ost- bzw. Westdeutschen entsprechend ihrem

Schichtgewicht herunter- respektive heraufgewichtet.5 Das Schichtgewicht

wird aus dem Inversen des Auswahlsatzes pro Schicht, d.h. mit Nh/nh,

konstruiert (vgl. Formel 14). Für den ALLBUS 1992 berechnen sich

beispielsweise die Gewichte für die West- bzw. Oststichprobe wie folgt (vgl.

Gabler 1994a: 78):6

1982,12400

2,524562,64719

3548=⋅=⋅

West

West

nN

Nn

bzw.

5856,0114812263

2,647193548

=⋅=⋅Ost

Ost

nN

Nn

Zu beachten ist, dass die Gewichte hier zusätzlich mit dem Normierungsfaktor

n/N versehen sind, sodass ihre Summe dem Stichprobenumfang entspricht

(vgl. Formel 16).

5 Eine solche Gewichtung ist natürlich immer nur dann vonnöten, wenn Analysen für die Gesamtebene, d.h. über alle Schichten hinweg erstellt werden sollen. Die Proportionalisierung erübrigt sich, sofern die Angaben der Ost- und Westdeutschen separat ausgewertet werden. 6 Die Zahlen beziehen sich jeweils auf die Personenebene.

20

3. Modellbasierte Gewichtungsverfahren

Ziel einer jeden Gewichtung ist, wie bereits erläutert, die Verbesserung der

„Repräsentativität“ oder „Maßstabstreue“ einer Stichprobe. Damit erst

unverzerrte Schätzungen möglich werden, muss der Theorie nach immer eine

Designgewichtung vorgeschaltet werden. Darüber hinaus ist es jedoch

prinzipiell möglich, die Schätzung noch weitergehend zu verbessern. Dies

geschieht durch lineare Modellierung der Schätzfunktion anhand von

Zusatzinformationen, die für die Populationsebene zuverlässig vorliegen. Im

Gegensatz zur einfachen, gewissermaßen „freien“ Schätzung findet sich für

dieses Vorgehen die Bezeichnung „gebundene“ Schätzung, da Informationen

über die Population in die stichprobenbasierte Schätzung eingebunden werden

und zur Präzisierung der Schätzung beitragen sollen. Dabei fließen (implizit

oder explizit) bestimmte Modellannahmen in die Konstruktion des Schätzers

ein. Modellbasiertes Gewichten bedeutet nun, dass die Gewichtung

unmittelbar den zugrundegelegten Annahmen folgt.

Die nachfolgend beschriebenen Prozeduren lassen sich unterscheiden in

modellunterstützte und modellabhängige Verfahren. Erstere könnten dabei

eher als modellgeleitet charakterisiert werden, in dem Sinne, dass ein

zutreffendes Modell zur Verbesserung der Schätzung durch Varianzreduktion

führt, ein nicht zutreffendes Modell aber zu keiner Verzerrung im Sinne eines

größeren Bias führt. Dies ist beispielsweise bei den Prozeduren der Fall, die

sich direkt aus der Regressionsschätzung ergeben. Bei den modellabhängigen

Prozeduren unterliegt man dagegen dem Risiko eines Vabanque - Spiels: Der

Erfolg der Prozedur steht und fällt mit der Richtigkeit des formulierten

Modells. Entweder ist das Modell imstande, sich an die in der Realität

herrschenden Prozesse adäquat anzupassen, so dass damit eine deutlich

verbesserte Schätzung von Populationsparametern möglich wird oder die

Realität wird falsch modelliert, sodass es dadurch zu einer dramatischen

Verzerrung statt zur Verbesserung der Schätzung kommt. Eher

modellabhängige Prozeduren finden wir beispielsweise bei diversen Ad-Hoc-

Gewichtungsmethoden für Wahlprognosen oder bei der Adjustierung von

Online-Stichproben nach der Propensity-Score-Technik (vgl. Kap. 3.2.2 und

3.2.3).

21

3.1 Theoretische Grundlage: Die Regressionsschätzung

Die Genauigkeit einer Schätzung kann gegenüber der einfachen, „freien“

Schätzung verbessert werden, indem Informationen aus der Population mit in

die Konstruktion eines Schätzers einfließen. Dies sind Informationen, welche

entweder für jedes Element vollständig oder nur teilweise, dann aber auf

Aggregatebene vollständig für die Ebene der Population vorliegen. Typische

derartige Informationen sind in der empirischen Sozialforschung Variablen

wie Geschlecht, Altersklassen, Haushaltsgröße oder Gemeindegrößeklassen.

Diese Informationen sind entweder der amtlichen Statistik, d.h. dem

Mikrozensus entnommen oder im Frame, d.h. in der Auswahlgrundlage frei

verfügbar (z.B. bei Registerstichproben).

Die Grundannahme dabei ist die, dass die Informationen der

Hilfsvariablen mit den interessierenden Untersuchungsmerkmalen möglichst

kovariieren. Das bedeutet, dass die Hilfsvariablen bereits a priori

Informationen über die interessierenden Merkmale mit sich bringen. Ist die

Korrelation sehr hoch, so kann es, im Vergleich zur einfachen Schätzung, zu

einem erheblichen Präzisionsgewinn kommen. Eine gewisse Ähnlichkeit zur

geschichteten Stichprobenauswahl zeichnet sich hier ab: Denn auch dort

werden aus dem Frame verfügbare Hilfsinformationen über die Population

genutzt. Dann allerdings zur konkreten Realisierung des Designs, indem die

Hilfsvariablen als Stratifizierungsmerkmale die Allokation der Gesamtheit

ermöglichen. Auch bei der geschichteten Auswahl sind dann präzisere

Schätzungen möglich, wenn Hilfs-, d.h. Stratifizierungsmerkmal und

Untersuchungsvariable kovariieren. Eine solche Kovariation beider Merkmale

bedeutet, dass die Population durch die Stratifizierung in homogene Schichten

eingeteilt wird. Homogenität meint, dass innerhalb einer Schicht hinsichtlich

des Untersuchungsmerkmals eine geringe Streuung herrscht. Ähnlich verhält

es sich bei der gebundenen Schätzung: Ist die Hilfsvariable imstande, die

Population in homogene Gruppen im Hinblick auf die interessierenden

Merkmale einzuteilen, so führt die gebundene Hochrechnung zu einer

Varianzreduktion und damit zum Präzisionsgewinn. Der große Unterschied zur

geschichteten Stichprobenauswahl liegt jedoch darin begründet, dass die

Informationen der Hilfsvariablen bei der Regressionsschätzung explizit in die

Konstruktion des Schätzers einfließen. Dies geschieht im Regelfall durch die

Regression der Hilfsvariablen auf die Untersuchungsvariable als Bestandteil

22

der Schätzfunktion. In Anlehnung an die Terminologie aus Kapitel 2.1 soll das

Populationstotal t, sowie der Populationsmittelwert Uy des Untersuchungs-

merkmals Y geschätzt werden. Die Merkmale Xj seien dabei die Hilfsvariablen,

deren Werte auf Populationsebene bekannt sind. Der Regressionsschätzer für

das Total nimmt dann in seiner allgemeinen Schreibweise folgende Form an

(vgl. Särndal/Swensson/Wretman 1997: 225):

∑=

−+=J

jxjxjjy ttBtt

1)ˆ(ˆˆˆ

ππ (17)

Dabei sind πyt und πxt die aus der Stichprobe gewonnenen HTQ-Schätzer für

die Totale der Untersuchungs- und der Hilfsvariablen. xjt ist das tatsächliche,

aus verlässlicher Quelle bekannte Populationstotal der j-ten Hilfsvariablen.

JBB ˆ,...,ˆ1 sind die (aus der Stichprobe geschätzten) Regressionskoeffizienten,

die sich aus der Regression der J Hilfsvariablen auf die Untersuchungsvariable

ergeben.

Mit dieser Schreibweise kann der Regressionsschätzer aufgefasst werden als

‚normaler’ HTQ Schätzer für das Total πyt bei freier Hochrechnung plus einen

durch das Regressionsmodell entstandenen Korrekturfaktor, der die Schätzung

um den Wert ∑=

−J

jxjxjj ttB

1)ˆ(ˆ

π korrigiert. Dieser Term nimmt den Wert Null

genau dann an, wenn das zugrundegelegte Modell Regressionskoeffizienten

von Null produziert. Dies ist natürlich dann der Fall, wenn keine Kovariation

zwischen Untersuchungs- und Hilfsvariable existiert. Übrig bleibt dann der

normale HTQ-Schätzer für das Total, so als hätte es kein Regressionsmodell

gegeben.

Zur weiteren Beschreibung der Logik des Regressionsschätzers und seinen

Eigenschaften soll er im Folgenden in vereinfachter, jedoch algebraisch

äquivalenter Form zu (17) dargestellt werden. Zugrundegelegt wird dabei ein

einfaches Regressionsmodell mit nur einer einzigen Hilfsvariablen. Der

Schätzer für das Populationstotal nimmt nun folgende Gestalt an (vgl.

Särndal/Swensson/Wretman 1997: 272):

23

)]~(ˆ~[ˆSUS xxByNt −+= (18)

Analog zu (18) ergibt sich für den Regressionsschätzer des

Populationsmittelwertes:

)~(ˆ~/ˆˆSUSU xxByNty −+== (19)

Dabei sind Sy~ und Sx~ die jeweils designgewichteten Stichprobenmittelwerte,

also die einfachen HTQ-Schätzer für die beiden Variablen Y und X.

Liegt zudem eine einfache Zufallsauswahl vor, so vereinfacht sich der

Regressionsschätzer noch weiter, wie hier am Beispiel des geschätzten

Populationsmittelwert gezeigt werden soll:

)(ˆˆSUSU xxByy −+= (20)

Benötigt werden demnach lediglich die einfachen arithmetischen Mittel Sy und

Sx für die Stichprobenebene und Ux für die Populationsebene. Die

Individualwerte der Hilfsvariablen müssen demnach nicht für jede Einheit der

Zielpopulation bekannt sein, sondern nur in der Aggregatform Ux .

Bei der klassischen Kleinste-Quadrate-Regressionsschätzung ergibt sich der

Koeffizient B mit B = OLS = Cov(X,Y)/Var(Y), also dem Quotienten aus der

Stichprobenkovarianz beider Merkmale und der Stichprobenvarianz des

Merkmals Y. Dies muss nicht zwangsweise so sein: Der Koeffizient kann z.B.

auch als Erfahrungswert gewählt werden, sofern sich bereits aus früheren

Erhebungen ein konstanter Wert ergeben hat.

Für drei bestimmte Werte ergeben sich aus (20) folgende Spezialfälle (vgl.

Cochran 1972: 227):

24

Für B =1 ergibt sich der Differenzenschätzer:

)(ˆSUSU xxyy −+= (21)

Für B = S

S

xy

ergibt sich der Verhältnisschätzer:

US

SSU

S

SSU x

xyxx

xyyy =−+= )(ˆ (22)

bzw.

S

USU x

xyy =ˆ (23)

Für B = 0 ergibt sich der HTQ-Schätzer bei einfacher Hochrechnung:

SU yy =ˆ (24)

Der Differenzen- und der Verhältnisschätzer sind also Spezialfälle des

Regressionsschätzers. Die Anwendung des Regressionsschätzers mit B=OLS

empfiehlt sich genau dann, wenn Hilfs- und Untersuchungsvariablen am

besten durch ein lineares Regressionsmodell beschrieben werden können. Der

Differenzenschätzer sollte dann Anwendung finden, wenn Grund zur Annahme

besteht, dass der Regressionskoeffizient nahe bei Eins liegt. Der

Verhältnisschätzer ist dagegen dann sinnvoll, wenn die Werte der Hilfs- und

Untersuchungsvariablen möglichst eng um eine (Regressions-)Gerade streuen,

die durch den Ursprung geht.

Der Verhältnisschätzer nimmt nun eine Sonderstellung ein, da er Dreh-

und Angelpunkt einer jeglichen Gewichtung nach dem sog. Redressment

Verfahren ist. Dies ist die in der Praxis gängige, nachträgliche Adjustierung

von Stichprobenverteilungen an Daten der amtlichen Statistik. Diese

25

Standardprozedur der Umfragepraxis entspricht stichprobentheoretisch einer

Verhältnisschätzung bei nachträglich geschichteter Stichprobe.

Nachträgliche Schichtung meint, dass der Datensatz a posteriori

anhand von G Gruppenmerkmalen geschichtet wird.7

In seiner allgemeinen Form nimmt der nachträglich geschichtete

Verhältnisschätzer für das Populationstotal folgende Gestalt an (vgl.

Särndal/Swensson/Wretman 1997: 7.7.1, 270):

∑=

=G

ggxg Btt

1

ˆˆ (25)

mit:

∑=gU kxg xt als das bekannte Populationstotal der Hilfsvariablen

und ∑∑

=g

g

S kk

S kk

g x

yB

π

π

/

/ˆ als den Regressionskoeffizienten des

zugrundegelegten Verhältnismodells (dabei jeweils Gg ,...,1= ).

Unter Simple-Random-Sampling ergibt sich daraus für das Total:

∑ ∑∑

=

=G

g S k

S k

xg

g

g

x

ytt

1

ˆ (26)

bzw.

Sg

UgG

gSgg x

xyNt ∑

=

=1

ˆ (27)

Für die Schätzung des Mittelwertes ergibt sich unmittelbar:

∑=

==G

g Sg

UgSg

gU x

xy

NN

Nty

1

ˆˆ (28)

7 Die Praxis des Redressments zeigt, dass die zur nachträglichen Schichtung herangezogenen Gruppenmerkmale mit den für das Verhältnismodell benutzten Kategorien einer nominalskalierten Hilfsvariablen Xj in der Regel ausnahmslos identisch sind.

26

Falls der Umfang Ng unbekannt ist, kann er durch N·ng/n geschätzt werden

(vgl. Lohr 1999: 268; Särndal/Swensson/Wretman 1997: 267). Der Schätzer

(28) nimmt dann folgende Form an:

∑=

=G

g Sg

UgSg

gU x

xy

nn

y1

ˆ (29)

Innerhalb jeder der G Subgruppen wird der (mit dem relativen Umfang der

Schicht gewichtete) Stichprobenmittelwert Sgy mit dem gruppenspezifischen

Gewichtungsfaktor gg SU xx / erweitert. Dieses Vorgehen entspricht der aus der

Praxis bekannten Redressment-Adaptionstechnik nach dem „Soll-durch-Ist-

Prinzip“ (Rothe/Wiedenbeck 1994: 51f). „Soll-durch-Ist“ bezieht sich dabei

auf den Quotienten gg SU xx / , d.h. auf das Verhältnis von tatsächlichem

Mittelwert („Soll“) zum Stichprobenmittelwert („Ist“) der Hilfsvariablen.

Sofern das Sample bezüglich der Hilfsvariablen in allen Gruppen repräsentativ

ist, d.h. maßstabsgetreu in dem Sinne, dass das Stichprobenmittel und das

tatsächliche Mittel übereinstimmen, produziert dieses Verhältnis einen

Gewichtungsfaktor von Eins. Sind dagegen Mittelwerte der Hilfsvariablen in

den Gruppen unter- oder überschätzt, dann entstehen demgemäß

Gewichtungsfaktoren oberhalb respektive unterhalb von Eins.

Der große Vorteil einer Regressionsschätzung gegenüber der einfachen

Schätzung liegt nun im Präzisionsgewinn. Denn sofern das zugrundegelegte

Regressionsmodell sehr gut auf die Daten passt, kommt es zu einer

bedeutsamen Reduktion der Varianz im Sinne einer geringeren Variabilität des

Schätzers über alle möglichen Stichproben. Eine hohe Modellgüte ist immer

dann gegeben, wenn Untersuchungs- und Hilfsvariable hoch korrelieren.

Es erhebt sich die wichtige Frage, wie hoch die Korrelation sein muss,

damit es zum erhofften Präzisionsgewinn kommt. Wann genau ist die

Präzision der gebundenen Schätzung höher als die der einfachen, freien

Schätzung? Cochran (1972: 198) hat für den Verhältnisschätzer gezeigt, dass

seine Varianz genau dann geringer ist, wenn, unter der Voraussetzung, dass

27

die Variationskoeffizienten beider Variablen annähernd gleich sind, die

Korrelation zwischen Hilfs- und Untersuchungsmerkmal größer als 0,5 ist.

Beweis (nach Cochran 1972: 198): Die Varianz des einfachen HTQ-

Schätzers für den Populationsmittelwert SU yy =ˆ (Formel 7) bei einfacher

Zufallsauswahl beträgt:

2)1(1)ˆ( yU SNn

nyV −= mit: ∑

=

−−

=N

iUiy yy

NS

1

2 )(1

1

Die Varianz des einfachen Verhältnisschätzers für den Populationsmittelwert

S

USU x

xyy =ˆ (Formel 23) beträgt:

)2)(1(1)ˆ( 222xyxyU SrSSBS

Nn

nyV −+−=

mit: ∑=

−−

=N

iUiy yy

NS

1

2 )(1

1 ; ∑=

−−

=N

iUix xx

NS

1

2 )(1

1

;U

U

xyB = ),( YXCovSrS xy =

Der Verhältnisschätzer ist genau dann präziser, wenn seine Varianz kleiner ist.

Es muss also gelten:

2222 2 yxyxy SSrSSBS <−+

Dies ist dann der Fall, wenn

)/(21

U

y

U

x

yS

xSr >

Conclusio: Für eine effiziente Verhältnisschätzung muss die Korrelation

zwischen X und Y größer sein als ½, sofern U

y

U

x

yS

xS / in etwa bei Eins liegt.

28

Die Präzision der Verhältnisschätzung hängt damit von der Höhe der

Korrelation, sowie von dem möglichst gleichen Streuungsverhältnis beider

Merkmale ab. Für den Regressionsschätzer gilt darüber hinaus, dass er immer

präziser ist als der Verhältnisschätzer (vgl. Cochran 1972: 237f.).

Zu den statistischen Eigenschaften der Regressionsschätzer zählt, dass sie, wie

sich zeigen lässt, für große Stichproben asymptotisch erwartungstreu sind (vgl.

Cochran 1972: 237). Das bedeutet, ihr Erwartungswert trifft mit wachsendem

Stichprobenumfang im Mittel annähernd den tatsächlichen Populations-

parameter. Der Bias ist somit nahezu Null.

Hinzu kommt, dass die Regressionsschätzer auch dann noch annähernd

unverzerrt sind, wenn Hilfs- und Untersuchungsmerkmal nicht oder nur

schwach korrelieren und das zugrundegelegte (Regressions- oder Verhältnis-)

Modell folglich falsch spezifiziert ist. Die Erwartungstreue der Schätzfunktion

bleibt von der Güte des Modells völlig unberührt. Dazu Särndal/Swen-

sson/Wretman (1997: 239):

“We do not require that the model be ‘true’ in the sense of correctly depicting some process by which the population data may have been generated. We only believe that the population data are well described by the assumed model, the regression estimator normally will bring about a large variance reduction, as compared to the π estimator [einfacher HTQ-Schätzer, Anm. d. Verf.]. If the population is not well described by the model, the improvement on the π estimator may be modest, but the regression estimator still guarantees approximate unbiasedness. For these reasons, the regression estimator is said to be model assisted, but not model dependent.” (Hervorhebungen durch den Verfasser)

Ohne Frage besitzt diese Eigenschaft insbesondere für den Praxisfall wichtige

Implikationen: Bei gängigen Mehrthemenumfragen in der Markt- und

Sozialforschung ist die Korrelation zwischen Hilfs- d.h. Gewichtungsvariable

und Untersuchungsmerkmal oft nur sehr gering. Dies hat – darauf wird noch

eingegangen – beispielsweise Schnell (1993) gezeigt. Der Schätzer bleibt

dennoch unabhängig der Modellgüte weiterhin unverzerrt. Im Simulationsteil

dieser Arbeit wird diese Eigenschaft anschaulich demonstriert.

29

3.2 Modellbasierte Gewichtungsprozeduren in der Praxis

3.2.1 Die Gewichtung nach dem Redressment-Verfahren

Unter der Titulierung „Redressment“ werden in der Markt- und

Sozialforschung alle Prozeduren zur Adjustierung von Stichproben an

Eckdaten der amtlichen Statistik verstanden. Es werden dabei die

Ausprägungen bestimmter Variablen der Stichprobe, deren Verteilungsprofile

für die Ebene der Gesamtpopulation bekannt sind, an diese angepasst. Damit

erhält man eine (quasi-)'repräsentative' Stichprobe, die mit der

Grundgesamtheit in den zur Adaption herangezogenen Variablen vollständig

übereinstimmt. Die Schlüsselannahme dabei ist die, dass diese Prozedur auch

die Verteilungen der anderen Erhebungsvariablen, deren Verteilungsprofile in

der Population gerade nicht bekannt sind, näher an diese heranbringt.

Dieses in der Praxis gängige Standardgewichtungsverfahren entspringt

nun genau, wie im vorigen Kapitel bereits diskutiert, einer

Verhältnisschätzung bei nachträglich geschichteten Stichproben.

Gebräuchliche Synonyme für dieses Verfahren finden sich in der

sozialwissenschaftlichen Literatur zur Umfragepraxis mit Begriffen wie

„Anpassungsgewichtung“, „Strukturgewichtung“, „Nachgewichtung“,

„Zellgewichtung“, „Nachträgliche Schichtung“, „Demografiegewichtung“

oder „Raking“ (vgl. z.B. Gabler/Hoffmeyer-Zlotnik/Krebs 1994). Der Begriff

„Raking“ nimmt dabei in dieser Aufzählung eine Sonderstellung ein, wie im

Folgenden näher erläutert werden soll.

Die Adaptionstechnik ist dabei denkbar einfach und funktioniert nach

dem bereits erwähnten „Soll-durch-Ist“ Prinzip. Zunächst werden die

Hilfsvariablen, auf deren Basis die Anpassung stattfinden soll, bestimmt. Bei

Umfragen in der Markt- und Sozialforschung sind dies in aller Regel

(kategoriale oder klassierte) Variablen wie Lebensalter, Geschlecht,

Gemeindegrößeklassen, Regierungsbezirk etc. Falls nicht im Frame verfügbar,

werden diese Informationen aus der amtlichen Statistik, d.h. aus dem

Mikrozensus gewonnen. Der Datensatz wird dann anhand dieser Merkmale

aufgeteilt, d.h. nachträglich geschichtet. Dabei sind die Gruppen identisch mit

den Merkmalsausprägungen der Hilfsvariablen bzw., sofern mehrere

Hilfsvariablen vorliegen, sind sie deckungsgleich mit den Zellen der

kreuztabulierten Merkmalsausprägungen der Hilfsvariablen. Es entstehen

30

damit Gruppen, nach denen die Stichprobe angepasst werden kann. Jede

Untersuchungseinheit findet sich dabei in exakt einer Anpassungszelle wieder.

Anschließend wird z.B. nach Formel (29) der Schätzer für den

Populationsmittelwert berechnet. Das Soll-durch-Ist Verhältnis SgUg xx / bildet

dann pro Anpassungszelle den Gewichtungsfaktor, der den Elementen

innerhalb jeder Zelle zugespielt wird.

Die Angaben der Referenzdaten aus dem Frame oder der amtlichen

Statistik müssen dabei absolut verlässlich für die Ebene der Population sein.

Dies stellt eine Grundvoraussetzung für eine unverzerrte Schätzung dar. Wird

der Mikrozensus als Referenzquelle benutzt, so müssen die Adaptionsvariablen

der konkreten Stichprobe auf möglichst gleiche Art und Weise erhoben

worden sein. Denn nur bei direkter Vergleichbarkeit durch tunlichst identische

Frageformulierungen, sowie gleiche Antwortkategorien, wird eine unverzerrte

Anpassung möglich. Dies sollte, zumindest bei sozialstrukturellen

Anpassungsmerkmalen, keine Probleme bereiten, da auf Basis der ZUMA-

Standarddemografie bereits ein gültiger Konsens zur standardisierten und

damit vergleichbaren Abfrage demografischer und sozialstatistischer

Merkmale in der Bundesrepublik Deutschland geschaffen wurde (vgl.

Statistisches Bundesamt 1999).

Die Referenzdaten der amtlichen Statistik beruhen zwar selbst auf

Stichprobenschätzungen und sind insofern mit einem Auswahlfehler behaftet.

Sie können aber dennoch als konsistent-zuverlässige Schätzungen der

unbekannten Populationswerte betrachtet werden. Denn in Anbetracht der

Tatsache, dass der jährlich erhobene Mikrozensus mit einem Auswahlsatz von

1 Prozent der Bevölkerung eine extrem große, zudem aufgrund der

herrschenden Auskunftspflicht nahezu voll ausgeschöpfte Zufallsstichprobe

der Bevölkerung ist, bietet keine andere Investigation verlässlichere

Bevölkerungsdaten. Außerdem wird der Mikrozensus (ebenfalls durch

entsprechende Redressment-Prozeduren) ständig an die laufende

Bevölkerungsfortschreibung angepasst, in der z.B. standesamtliche Daten wie

Geburts- und Sterbefälle erfasst werden.8

8 Für einen Überblick über Geschichte, Rahmenbedingungen und Relevanz des Mikrozensus für sozialwissenschaftliche Zwecke vgl. Hartmann (1989). Zum Stichprobenplan des Mikrozensus bis 1989 vgl. ausführlich Esser et. al. (1989). Zur Hochrechnung desselben ab 1990 vgl. Heidenreich (1994).

31

Vergleicht man darüber hinaus, so wie es Hartmann (1990) getan hat,

den Mikrozensus auf Kongruenz mit den Daten der Volkszählung, der

Bundesanstalt für Arbeit, der Hochschulstatistik und anderen zur Validierung

tauglichen Quellen der amtlichen Statistik, so zeigen sich insgesamt gute

Deckungsgleichheiten in den Randverteilungen verschiedener Merkmale (vgl.

Hartmann 1990).

Der Mikrozensus eignet sich also sehr gut als zuverlässige

Referenzquelle zur Anpassung von bevölkerungsrepräsentativen Umfrage-

daten.

Bei der Anpassung nach dem Soll-durch-Ist Prinzip treten in der Praxis

jedoch folgende konkrete Probleme auf: So ist es möglich, dass die Anzahl der

Fälle in den Anpassungszellen der Stichprobe zu gering ist. Dies ist meist dann

der Fall, wenn mehrere Gewichtungsvariablen kombiniert werden. Aufgrund

eines zu geringen Stichprobenumfangs innerhalb der Zellen wäre ein daraus

berechneter Soll-durch-Ist-Schätzer verzerrt (vgl. Rothe/Wiedenbeck 1994:

54). Darüber hinaus können einige oder viele Zellen unbesetzt bleiben. Damit

ist immer dann zu rechnen, wenn die kombinierten Merkmalstableaus der

Anpassungsvariablen sehr viele Zellen aufweisen. Bei der Media-Analyse

1986 wurden beispielsweise für die Personenstichprobe sechs demografische

Variablen zur Anpassungsgewichtung herangezogen (vgl. Rothe/Wiedenbeck

1994: 55): Alter (7 Klassen), Geschlecht (2 Klassen), Haushaltsgröße (6

Klassen), Regierungsbezirk (31 Klassen) und die Gemeindegröße nach

Boustedt (7 Klassen). Die Kombination dieser Merkmale ergibt Kreuztabellen

mit insgesamt 7x2x6x31x7x7 = 127596 Anpassungszellen. Nach Formel (29)

wird innerhalb jeder dieser Zellen eine eigene Soll-durch-Ist Prozedur

durchgeführt. Es bedarf keiner besonderen Betonung, dass etwa bei einer

gängigen Stichprobengröße von 3000 Fällen etliche Zellen in der Stichprobe

unbesetzt bleiben. Eine Soll-durch-Ist-Anpassung bliebe dann unmöglich, da

der „Ist“-Wert der Stichprobenanpassungszelle Null wäre und die Division

durch Null nicht definiert ist. Um dem Nullzellenproblem aus dem Weg zu

gehen, finden Strategien Anwendung, die unter dem Oberbegriff „Raking“

zusammengefasst werden. Die Anpassungszellen werden dann nicht für alle

Merkmale gleichzeitig, sondern nacheinander für mehrere Teilkombinationen

der Merkmale gebildet, also beispielsweise zuerst die Kombination Alter mal

Geschlecht, dann Alter mal Haushaltsgröße, dann Regierungsbezirk mal

32

Gemeindegröße, usw.9 Kombiniert werden die Variablen in der Weise, dass

ausschließlich Teiltafeln ohne Nullzellen entstehen. Bleiben hinterher immer

noch Zellen mit zu gering besetzter Fallzahl übrig, werden sie zu größeren

fusioniert. Der Nachteil dieser Vorgehensweise liegt nun darin, dass eine

Untersuchungseinheit nicht mehr in genau eine Anpassungszelle fällt. Nun

besetzt sie pro Teiltafel eine Zelle. Dadurch muss die Gewichtung iterativ

durchgeführt werden, denn die Anpassung der einen Teiltafel beeinflusst nun

die Anpassung der anderen. Ein Algorithmus wird herangezogen, der iterativ

die einzelnen Teilkombinationen miteinander verrechnet. Das Prinzip

funktioniert folgendermaßen: Zunächst wird die erste Teilkombination der

Merkmale zur Adaption herangezogen und entsprechend nach der Soll-durch-

Ist-Prozedur angepasst. Die daraus berechneten Anpassungsgewichte fließen

dann in die zweite Teilkombination ein. Auch diese wird entsprechend an ihre

Sollwerte angepasst. Die wiederum daraus resultierenden Gewichte fließen

dann in die dritte Teilkombination, diese wird wieder angepasst, es entstehen

neue Gewichte, die nächste Teilkombination wird herangezogen, usf.

Nachdem alle Teiltafeln angepasst wurden, wird die gesamte Prozedur erneut

mit der ersten wiederholt. Dies geschieht solange, bis sich die

Gewichtungsfaktoren an einen konstanten Wert angenähert haben und/oder ein

vorgegebenes Kriterium zum Abbruch führt (vgl. Rothe 1994: 65). Diese

Strategie der iterativen Annäherung wird allgemein Iterative Proportional

Fitting (IPF) genannt und geht in seinem Ursprung zurück auf die Arbeit von

Deming/Stephan (1940), die eine Anpassungsprozedur an die Randsummen

externer Solltafeln beschreiben. Sofern nämlich nicht für alle Zellen die

„Soll“-Werte aus der Population bekannt sind, sondern nur die Randsummen,

bleibt die Möglichkeit, die Iterationen mit den Randhäufigkeiten

durchzuführen. Insgesamt sind zahlreiche Variationen des beschriebenen

Grundalgorithmus entwickelt worden. Einen Überblick bietet Rösch (1994)

und Gabler (1994b). Ein bekanntes Verfahren ist das „Hoch-

rechnungsverfahren nach dem Prinzip des minimalen Informationsverlustes“,

das auf Merz (1983) zurückgeht. Dieses Verfahren verarbeitet ebenso nur die

Randsummen der Anpassungszellen. Zur Anwendung kommt es z.B. bei der

Einkommens- und Verbrauchsstichprobe des Statistischen Bundesamtes 1998

(vgl. Statistisches Bundesamt 2001).

9 Diese Kombination ist fiktiv. Für das konkrete Vorgehen bei der Media-Analyse 1986 vgl. die Rekonstruktion bei Rothe/Wiedenbeck (1994: 56ff).

33

3.2.2 Gewichtungsverfahren in der Wahlforschung

Ein weiteres Beispiel der modellbasierten Gewichtung in der Praxis liefert die

bei Umfragen zum politischen Meinungsklima übliche Gewichtung nach der

sog. Rückerinnerungsfrage.10 Dabei werden zur Vorhersage des nächsten

Wahlergebnisses („Sonntagsfrage“) normalerweise die Informationen des

amtlichen Ergebnisses der letzten Wahl und die Angaben der

Rückerinnerungsfrage für eine Redressment-ähnliche „Soll-durch-Ist-

Anpassung“ an die aktuell erhobenen Daten verwendet. Technisch gesprochen

kommen dabei sowohl Verhältnis- als auch Differenzenschätzer zum Einsatz,

als auch Kombinationen derselben. Rein rechnerisch werden dabei die bei der

Rückerinnerung unterschätzten Parteien im Vergleich zum letzten amtlichen

Ergebnis hochgewichtet, sowie vice versa, in der Erinnerung überschätzte

Parteien heruntergewichtet (vgl. Diekmann 1996: 366; Noelle-Neumann 1996:

292ff.)

Erfahrungsgemäß sind die Vorhersagen institutsübergreifend oftmals

erstaunlich präzise. Dies liegt offenkundig an der sehr hohen Modellgüte der

benutzten Prozeduren. Schließlich ist im Regelfall mit einer vergleichbar sehr

hohen Korrelation zwischen Hilfs- und Untersuchungsvariable, d.h. zwischen

Rückerinnerungs- und Sonntagsfrage zu rechnen. Darüber hinaus existiert nur

eine einzige Untersuchungsvariable, auf die die Modellannahmen abgestimmt

sein müssen. Dies ist ein großer Vorteil gegenüber gängigen

Mehrthemenumfragen in der Sozialforschung und spricht für die Anwendung

der Regressionsschätzung bei Wahlprognosen.

Dennoch bestehen auch in der Wahlforschung einige Probleme. Dazu

gehört, dass die Rückerinnerungsfrage aufgrund psychologischer

Erinnerungslücken und Diffusionsmechanismen verzerrt sein kann. Dadurch

sind neben dem zugrundegelegten Regressions- oder Verhältnismodell weitere

Modellannahmen erforderlich. Eine unterstellte Hypothese dabei ist, dass „die

Rückerinnerungsverzerrung in Richtung und Stärke dem Bias der

Sonntagsfrage entspricht.“ (Diekmann 1996: 367).11

Das Problem dabei ist, wie Max Kaase im Rheinischen Merkur 07/1987

ausführt, dass derart gewichtete Prognosen die Wirkung haben, „diese mehr in 10 Dies ist die retrospektiv gestellte Frage danach, welche Partei bei der letzten Wahl gewählt wurde. 11 Diekmann (1996) nennt deswegen diese Form der Gewichtung auch „Hypothesen-gewichtung.“

34

die Nähe der traditionell zu erwartenden Wahlergebnisse zu rücken“ und

„damit gerade die eigentlich interessante Nachricht [zu verfälschen]: Wie

nämlich zu einem bestimmten Zeitpunkt die Stimmung der Bevölkerung

bezüglich der politischen Parteien aussieht“ (Rheinischer Merkur 07 / 1987,

zitiert nach Ulmer 1989: 88). Auch bei Zeitreihen zum politischen

Meinungsklima bewirkt die Rückerinnerungsgewichtung in der Regel eine

Glättung der Kurvenverläufe. Wie Krauß (1994: 155) feststellt, fällt die

Glättung umso stärker aus, je höher der politische Indikator mit dem

Rückerinnerungsmerkmal korreliert ist. Dadurch könnten, wie Krauß weiterhin

anmerkt, Schwankungen in der politischen Stimmung in ihrem Ausmaß

unterschätzt werden (vgl. Krauß 1994: 157).

Hinzu kommt, dass speziell Wahlprognosen zahlreichen weiteren

Fehlerquellen unterliegen. So haben die Prognoseinstitute mit „Verzerrungen“

zu kämpfen, die durch spontane Protestwähler, gewandte Wechselwähler,

meinungslose Ad-Hoc-Wähler und Nichtwähler ausgelöst werden. Obendrein

können unvorhersehbare Ereignisse wie z.B. Naturkatastrophen oder

terroristische Anschläge die politische Wetterlage und damit auch die Gunst

des Wählers kurzfristig beeinflussen. Zur Korrektur solcher Fehler werden

dann seitens der Institute weitere Ad-Hoc-Gewichte eingebaut. Dabei können

verschiedenste Hypothesen über den Einfluss diverser tagesaktueller

Geschehnisse oder der Präferenzen bestimmter Wählergruppen auf die

Wahlprognose eine Rolle spielen (vgl. Kostede 1990). Bei der

Hypothesengenerierung kommen dann teils Erfahrungswerte, teils fundierte

wissenschaftliche Erkenntnisse zum Tragen. Die Fälle im Datensatz werden

dann dergestalt hoch- oder heruntergewichtet, dass der zugrundegelegten

Hypothese Rechnung getragen wird. Dabei wird natürlich unterstellt, dass die

herangezogenen Hypothesen empirische Gültigkeit besitzen.

Das folgende Beispiel vermittelt einen Eindruck für diese

Vorgehensweise: Aus wissenschaftlicher Analyse heraus hat man z.B. starken

Grund zur Annahme, dass Briefwähler traditionell eher dem politisch liberalen

Spektrum zugeordnet werden können und deshalb eher „schwarz-gelb“ als

„rot-grün“ favorisieren.12 Dann wird man bei Wahlprognosen auf Basis von

12 Ellermann (2004: 271) konstatiert tatsächlich, dass Briefwähler eher der FDP zugewandt sind. Auf Basis ihrer Analyse der Parteipräferenzen von Briefwählern aller bundesdeutschen Wahlen seit 1956 stellt sie fest, dass „zwischen der Präferenz für ein bestimmtes Wahlverfahren (Urnenwahl/Briefwahl) und der Präferenz für eine Partei ein Zusammenhang besteht“.

35

sog. „Exit Polls“, also Befragungen von Wählern am Wahlabend unmittelbar

nach der Wahl mit simulierten Urnen, die Anteilswerte von Union und FDP

etwas heraufgewichten, um den Stimmanteilen der bei Exit Polls per

definitionem nicht erfassten Gruppe der Briefwähler gerecht zu werden.13 Die

Einfluss-Stärke dieser Gewichtung wird dabei natürlich in Relation dem Anteil

der Briefwähler an der Gesamtwählerschaft entsprechen müssen.

Fehlen fundierte wissenschaftliche Erkenntnisse, wird auch die

„Erfahrung“ des Demoskopen zur Hypothesengenerierung benutzt. Sofern die

zugrundegelegten Hypothesen solcher Bereinigungsmethoden empirisch

zutreffend sind, können damit die Vorhersagen der Wahlergebnisse deutlich

verbessert werden. Sofern sie nicht zutreffen, ist womöglich mit

Fehlprognosen zu rechnen. Die Gewichtungsmethoden sind deswegen als

modellabhängig zu bezeichnen.

Aufgrund der proprietären Methodik wird auf eine genaue

Dokumentation der Berechnungsformeln seitens der kommerziell

ausgerichteten Institute verzichtet. Die konkreten Gewichtungs-Rezepturen

werden wie Staatsgeheimnisse aufs Strengste gehütet. Selbst die Rohdaten

werden, mit Ausnahme von Forschungsgruppe Wahlen, nicht publiziert (vgl.

Ulmer 1989: 89). Man kann nur vermuten, welche genauen Annahmen den

Prozeduren zu Grunde liegen. Infolgedessen gestaltet sich die externe,

objektiv-wissenschaftliche Überprüfung solcher Ad-Hoc-Transformationen

äußerst schwierig (vgl. Diekmann 1996: 367).

Generell muss stark differenziert werden zwischen der kommerziellen

und der akademischen Wahlforschung. Die akademische Wahlforschung stellt

ihre formulierten Modelle der interessierten Fachöffentlichkeit zur Verfügung.

Beispielhaft hierfür wäre ein Prognosemodell der Wissenschaftler Gschwend

und Norpoth zu nennen, welches auf substantielle Erkenntnisse der

Wahlforschung zurückgreift. Deren Modell berücksichtigt neben kurzfristigen

Einflussfaktoren wie Popularitätswerte des Bundeskanzlers auch lang- und

mittelfristige Einflussfaktoren. Dazu gehört der langfristige Wählerrückhalt

der Regierungsparteien, gemessen am Mittel der jeweils letzten drei

Bundestagswahlen sowie die Dauer der aktuellen Regierungsperiode zur

Modellierung von Abnutzungserscheinungen (vgl. Gschwend/Norpoth 2001).

Dieses Modell wurde anhand vergangener Wahlen der letzten Jahrzehnte

13 Zur Methode von Exit-Poll-Befragungen vgl. Noelle-Neumann (1996: 297).

36

validiert und weiterentwickelt und konnte erstmals - laut Aussage der

Entwickler - seine Leistungskraft für die Prognose des Wahlausgangs der

Bundestagswahl 2002 erfolgreich unter Beweis stellen (vgl.

Gschwend/Norpoth 2002).

3.2.3 Gewichtung von Web-Surveys nach der Propensity-Score Technik

Die Anzahl internetbasierter Erhebungen in der empirischen Markt- und

Sozialforschung nimmt in jüngster Zeit ohne Zweifel stetig zu.14 Ihre

gesteigerte Popularität erklärt sich unverkennbar aus der Tatsache, dass ihre

Anwendung augenscheinlich eine Reihe großer Vorteile bietet. So ist die

Umsetzung und Durchführung einer Online-Befragung technisch

unkompliziert, flexibel einsetzbar und gewissermaßen „für jedermann“

realisierbar. Ferner lassen sich in äußerst kurzer Zeit sehr hohe Fallzahlen

gewinnen. Die vergleichsweise enorme Zeit- und Kostenersparnis in allen

Bereichen der Erhebung sucht seines Gleichen. Nicht zuletzt eröffnen

weitreichende graphische und multimediale Möglichkeiten der

Fragebogengestaltung neue, bis dato unerahnte Optionen für experimentelle

und quasi-experimentelle Fragebogendesigns (vgl. Couper 2000: 465)

Kurzum: Die innovativen Möglichkeiten der Internetbefragung befördern die

empirische Forschung auf direktem Wege in ein neues Zeitalter.

Bei allen Pluspunkten, die der neuen Methodik zugesprochen werden

muss, gilt es noch einige nicht unerhebliche Probleme aus dem Weg zu

räumen. Die größte Aufgabe stellt dabei die richtige Auswahl der

Befragungspersonen dar. Insbesondere bei Online-Befragungen mit dem

Anspruch, bevölkerungsrepräsentativ zu sein, muss die Aussagekräftigkeit

solcher Daten relativiert werden. Internetumfragen sind hauptsächlich in

zweierlei Hinsicht verzerrt. Problematisch ist einerseits die Zugangs-

Verzerrung, die sich durch den derzeit nicht flächendeckenden Internetzugang

von Befragungspersonen ergibt und andererseits die Teilnahmeverzerrung bei

selbstrekrutierter, non-probabilistischer Auswahl.

14 Für einen Überblick internetbasierter Erhebungen vgl. Couper (2000), Dillman (2000), Couper, Traugott, Lamias (2001).

37

Die Zugangs-Verzerrung ist ein Problem des Noncoverage. Die

angestrebte Grundgesamtheit (z.B. die allgemeine Bevölkerung) stimmt bei

Online-Befragungen nur ungenügend mit der Auswahlgesamtheit überein.

Eine Umfrage kann dann nur schwerlich repräsentativ für die gesamte

Bevölkerung sein, wenn nur eine Teilmenge daraus, nämlich die Gesamtheit

der Internetnutzer, Auswahlgrundlage ist.

Das Ausmaß dieser Verzerrung liegt deutlich auf der Hand. In der

BRD liegt die derzeitige Internetdichte bei knapp 53 Prozent (vgl. N-Onliner

Atlas 2004).15 Gänzlich unproblematisch wäre es, wenn diese Teilpopulation

eine unverzerrte Zufallsauswahl aus der Gesamtbevölkerung darstellen würde.

Dies ist offenkundig nicht der Fall. Die Internetgemeinde unterscheidet sich

von der Gesamtheit zum Teil erheblich. In wichtigen soziodemographischen

Merkmalen wie Geschlecht, Altersstruktur und Bildungsniveau sind die

Unterschiede besonders eklatant. So sind die Internetnutzer in Deutschland

überwiegend männlich, deutlich jünger als der Durchschnitt und formal besser

gebildet (vgl. N-Onliner Atlas 2004). Zu ähnlichen Ergebnissen für die USA

kommt auch Couper (2000: 472). Unnötig zu betonen, dass langfristig zwar die

Chance einer flächendeckenden Internetpenetration – ähnlich der

Telefondichte – besteht. Dennoch ist derzeit eine online-erhobene Be-

völkerungsbefragung systematisch verzerrt. Bestimmte Bevölkerungsgruppen

haben eine hohe, andere eine nur sehr geringe und wieder andere gar keine

Chance, in die Stichprobe zu gelangen.

Die zweite Verzerrungsmöglichkeit ist die Teilnahme-Verzerrung. Sie

tritt auf bei selbstrekrutierten Internetumfragen, d.h. Umfragen, bei denen die

Teilnehmer nicht ausgewählt werden, sondern sich selbst aktiv für die

Teilnahme an einer Umfrage entscheiden. Diese non-probabilistische Form der

(Selbst-)Auswahl stellt die zur Zeit am häufigsten im Netz zu findende Form

der Online-Befragung dar. Dies resultiert sicherlich aus dem Umstand, dass es

derzeit noch kein ausreichend bewährtes, auf möglichst

wahrscheinlichkeitstheoretischer Grundlage basierendes Auswahlverfahren

gibt. Schließlich existiert für das Internet weder eine dem

Einwohnermeldeamtsregister vergleichbare Auswahlgrundlage, noch eine dem

beim ADM-Design gängigen Random-Route-Protokoll nahekommendes 15 Es sei hier angemerkt, dass diese Angabe nur als grobe Annäherung zu verstehen ist. Schätzungen der Internetdichte unterliegen zahlreichen Fehlerquellen. Sie unterscheiden sich in der Regel sehr stark voneinander u.a. aufgrund hoher Fluktuation des Zugangs, wie auch definitorischer Differenzen (vgl. Couper 2000: 468f).

38

Verfahren, noch können Email- oder IP-Adressen wirkungsvoll generiert

werden. Dennoch gibt es Versuche, Online-Wahrscheinlichkeitsauswahlen zu

ermöglichen. Couper (2001: 477ff) liefert eine umfassende Typisierung der

gängigen Online-Auswahlverfahren und beschreibt u. a. die Möglichkeiten der

probabilistischen Auswahl. Dazu gehört auch der bereits in den ADM-

Standards aufgenommene Versuch, Online-Umfragen auf Basis offline-

rekrutierter „Access“-Panels durchzuführen (vgl. ADM et. al. 2001; Couper

2000: 488ff.). Hierbei wird im Rahmen einer traditionellen, auf

wahrscheinlichkeitstheoretischer Grundlage basierender Offline-Umfrage

zunächst das Vorhandensein eines Internetzugangs und die Bereitschaft zur

Teilnahme an einer zukünftigen Internetbefragung erfasst. Dadurch wird eine

Auswahlgrundlage von potentiellen Internetnutzern – das Access-Panel –

geschaffen. Der Vorteil dieser Vorgehensweise liegt darin begründet, dass zum

einen auf jeder Stufe die Auswahlwahrscheinlichkeiten bekannt sind und zum

anderen recht detaillierte Aussagen getroffen werden können über das Ausmaß

von Nonresponse und Noncoverage.16 Zudem lassen sich Erkenntnisse über

typische, prädiktive Eigenschaften der Nonrespondenten gewinnen. Diese

Informationen könnten dann zur entsprechenden Korrekturgewichtung von

Nonresponse-Effekten genutzt werden.17

Bei den gängigen non-probabilistischen Online-Erhebungen liegt die

Rekrutierung von Befragungspersonen in der Selbstselektion der Teilnehmer.

Der Anreiz zur Teilnahme soll dabei durch entsprechend platzierte Werbung

(Werbebanner im Internet, Pop-Up-Fenster, Werbung in Print-, Radio- und

TV-Medien, etc.) und/oder anreizbietende Entlohnungssysteme (Gewinnspiele,

Bonuspunkte, Einkaufsgutscheine, etc.) forciert werden. Daraus resultiert das

in der Umfrageforschung wohlbekannte Problem der Selbstselektion, welches

prinzipiell bei allen Umfragen auf freiwilliger Teilnahmebasis (z. B. besonders

bei postalischer Befragung) auftritt. Hinzu kommt hier, dass zum einen keine

16 Ob jedoch mit diesen Panels ein großer Schritt in Richtung „Repräsentativität“ der Internetnutzer erreicht wird, bleibt vorerst abzuwarten. Bandilla et al. (2003) konnten zwar für ihre Untersuchung mit Daten des ISS (International Social Survey) feststellen, dass diese Methodik gewiss nicht für die Ebene der Gesamtbevölkerung, durchaus aber für Gruppen mit hoher Internetpenetration (wie z.B. höher gebildete Personen) repräsentative Daten erzeugt. Wie jedoch Faas (2003b) im Rahmen seiner Untersuchung konstatiert, müssen „Online-Umfragen auf Basis von Access Panels nicht zwangsläufig Ergebnisse liefern, die Repräsentativität für alle Internet-Nutzer für sich beanspruchen können“ (72, Hervorhebung im Original). Beispielsweise sind die Mitglieder solcher Panels häufig besonders versierte Internetnutzer, während hingegen unerfahrene Nutzer systematisch unterrepräsentiert sind. 17 Vgl. dazu den nachfolgenden Abschnitt über die Möglichkeiten zur Korrekturgewichtung von systematischen Ausfalleinflüssen.

39

Zufallsauswahl vorgeschaltet wurde und zum anderen die Entscheidung zur

Teilnahme in einem sehr viel stärkeren Maße mit dem

Untersuchungsgegenstand korreliert sein kann. Denn begreifen wir die

Entscheidung zur Teilnahme (nach Esser 1986) als Kosten-Nutzen-Abwägung

eines rational handelnden Akteurs, dann ist gerade die Teilnahme an einer

Internetbefragung, zusätzlich zu den gängigen Kosten, belastet mit monetären

Kosten in Form von Internetnutzungsgebühren. Eine Teilnahme lässt sich dann

oftmals nur durch ein starkes persönliches Interesse am Untersuchungsthema

erklären. Gerade die Abhängigkeit zwischen Bereitschaft zur Teilnahme und

persönlichen Interesse am Thema der Untersuchung kann zu nicht

unproblematischen Einseitigkeiten in den Ergebnissen einer Befragung führen.

Weitere Probleme sind darin zu sehen, dass sich z.B. keinerlei

Informationen über Art und Umfang von Nonresponse gewinnen lassen. Auch

die Auswahlwahrscheinlichkeiten sind schlichtweg unbekannt. Zudem ist

oftmals die mehrfache Ausfüllung eines Fragebogens durch die gleiche Person

nicht kontrollierbar. Damit wird jegliche design- oder modellbasierte

Gewichtung zur Ausbesserung dieser Effekte zu einem schwierigen

Unterfangen.

Eine Alternative bietet die Gewichtung auf Basis geschätzter Internet-

Teilnahme-Wahrscheinlichkeiten, den sog. Propensity-Scores. Allgemein sind

‚Propensity-Scores’ geschätzte Wahrscheinlichkeiten für die Zugehörigkeit zu

einer Gruppe (z.B. die Gruppe der Internetnutzer, die Teilnehmer an einem

Experiment oder einer Umfrage). Diese werden anhand eines Kausalmodells

(realisiert z.B. durch logistische Regression) mittels verschiedener Kovariaten

geschätzt. Diese Methode geht ursprünglich zurück auf die Vorarbeit zunächst

von Cochran (1968), dann von Rosenbaum und Rubin (1983, 1984).

Anwendung findet sie z.B. auch bei Surveys zur Korrektur von Unit-

Nonresponse (vgl. dazu näheres in Kapitel 3.2.4). Die Propensity-Score-

Adjustierung im Kontext von Web-Surveys beschreiben z.B. Danielsson

(2002) und Lorenc (2004).

Für die Behebung von Online-Verzerrungen wurde diese Methode

erstmals bei internetbasierten Wahlprognosen angewandt von George

Terhanian und seinen Mitarbeitern bei dem US-Meinungsforschungsinstitut

Harris Interactive (Lorenc 2004: 1f). Diese Gewichtungsmethode war laut

eigener Aussage des Unternehmens ausschlaggebend für die erfolgreiche

40

Vorhersage des Wahlergebnisses der amerikanischen Präsidentschaftswahl im

Jahr 2000 (Faas 2003a: 134).

Die Vorgehensweise einer Propensity-Score-Gewichtung bei Online-

Datensätzen erfolgt prinzipiell folgendermaßen (vgl. Danielsson 2002; Lorenc

2004). Zunächst ist ein Offline-Datensatz vonnöten, in dem der

Internetzugang als binärcodierte Variable vorliegt. Nun wird mittels (meist)

logistischer Regression die Wahrscheinlichkeit für das Ereignis

„Internetzugang vorhanden“ geschätzt. Als erklärende Variablen fungieren

dafür in der Regel diverse soziodemografische Merkmale als auch

verschiedene Einstellungsvariablen, die mit dem Merkmal „Internetzugang“

kovariieren. Daraus geht für jedes Element die geschätzte Internetzugangs-

Wahrscheinlichkeit hervor. Dies sind die Propensity-Scores. Anhand der

Verteilung dieser Wahrscheinlichkeiten im Offline-Sample wird auf die

tatsächliche Wahrscheinlichkeitsverteilung der Propensity-Scores in der

Population geschlossen. Anschließend werden Gewichtungsklassen nach den

Gruppen gebildet, deren Mitglieder innerhalb einer Gruppe möglichst

homogene Propensity-Scores aufweisen. Im Online-Datensatz wird nun jedes

Mitglied einer so erstellten Gruppe mit dem Inversen der (mittleren)

gruppenspezifischen Propensity-Score gewichtet.

Die Propensity-Score kann somit als geschätzte Response-

Wahrscheinlichkeit für die Teilnahme an einer Web-Befragung angesehen

werden. Ihr Kehrwert gleicht die Verzerrungen in einer Art Quasi-

Designgewichtung aus.

Aufgrund der kommerziellen Nutzung ist bei Harris Interactive die

genaue Rezeptur dieser Methode, d.h. welche Variablen konkret als

Kovariaten fungieren, nicht exakt dokumentiert (vgl. Danielsson 2002: 7).

Ein deutsches, ebenfalls proprietäres und daher minder dokumentiertes

Beispiel der Propensity-Score Gewichtung findet sich bei den Online-Surveys

der ‚Perspektive Deutschland’ – Befragung.18 ‚Perspektive Deutschland’ ist

eine selbstrekrutierte, non-probabilistische Online-Befragung. Seit 2001 wird

sie jährlich durchgeführt und fokussiert dabei hauptsächlich auf

gesellschaftspolitisch relevante Themen. Laut definierter Grundgesamtheit

erhebt sie den ehrgeizigen Anspruch, bevölkerungsrepräsentativ für die 16-

69jährigen zu sein. Diesem Anspruch soll durch Propensity-Score-

18 Vgl.: www.perspektive-deutschland.de (URL vom 01.09.2004)

41

Adjustierung Rechnung getragen werden (vgl. Projektbroschüre Perspektive

Deutschland 2004).

Die einzige zugängliche Quelle über die genaue Adaption dieser

Methode findet sich in einem bis dato unveröffentlichten Konzeptpapier (vgl.

Börsch-Supan et. al. 2003). Die gesamte Adjustierungsprozedur besteht aus

folgenden Schritten: Zunächst wird parallel neben der Online-Befragung eine

identische Offline-Studie nach traditioneller Methodik durchgeführt. Die

Daten der z.B. durch Random-Route-Protokoll und CAPI realisierten Offline-

Studie werden als Referenzdaten später zur Schätzung der Response-

Wahrscheinlichkeiten benötigt. Da auch das traditionelle Sample verzerrt sein

kann, wird es zuvor mittels Standard-Redressment-Gewichtung an

entsprechende Zensus-Daten angepasst.

Anschließend wird versucht, die Internetzugangsverzerrung

auszugleichen. Dafür muss die Internetnutzungswahrscheinlichkeit mittels

Propensity-Score-Technik geschätzt werden. Im Offline-Fragebogen ist

demzufolge abgefragt, ob ein Internetanschluss der befragten Person zur

Verfügung steht. Die Schätzung der Wahrscheinlichkeit geschieht nun für

jedes Individuum anhand eines Probit-Modells durch im Offline-Fragebogen

erhobene Prädiktoren wie diverse Einstellungskonstrukte (z.B.

Risikobereitschaft) als auch durch soziodemografische Merkmale. Die so

individuell geschätzten Teilnahmewahrscheinlichkeiten sind die Propensity-

Scores. Anschließend werden mit Respekt zur geschätzten Propensity-Score

homogene Gruppen gebildet; der Kehrwert der gruppenspezifisch mittleren

Propensity-Score bildet das Online-Korrekturgewicht. Damit bekommen

Personen der Online Stichprobe in Abhängigkeit ihrer Gruppenzugehörigkeit

ein spezifisches Gewicht zugewiesen. Konkret kann dies bedeuten, dass

Gruppenmitglieder mit geringerer Zugangswahrscheinlichkeit wie z.B. ältere,

formal niedrig gebildete Frauen proportional dazu hochgewichtet werden.

In einem letzten Schritt soll die Teilnahme-Verzerrung ausgeglichen

werden. Zunächst muss dafür die Teilnahmewahrscheinlichkeit geschätzt

werden. Diese kann nun nicht wie im vorherigen Schritt direkt bestimmt

werden, da es keine reliablen Angaben zu den Beweggründen einer

selbstselektierten Teilnahme geben kann. Denn es gibt keine binäre

Gruppenvariable, die zwischen Teilnehmern und Nicht-Teilnehmern

diskriminiert. Die Gewichte werden stattdessen ermittelt, indem der komplette,

bereits propensity-gewichtete Variablenset der Online-Stichprobe mittels

42

Redressment-Anpassung nach einem Iterative-Proportional-Fitting Verfahren

mit dem der Offline Stichprobe angepasst wird (vgl. Börsch-Supan et. al.

2003).

Führt diese Methode tatsächlich zu einer verbesserten Schätzung und

„repräsentativen“ Daten? Ein Problem bereitet sicherlich das parallele, offline

administrierte Referenzsample. Diese Daten gelten als Populationswerte; aus

ihnen sollen die Propensity-Scores geschätzt werden. Diese Daten sind aber

nicht fehlerfrei. Wie andere Stichprobendaten auch sind sie mit Fehlern

behaftet, die dadurch entstehen, dass nur eine zufällige Auswahl aus der

Gesamtheit befragt wird („sampling errors“), mit Fehlern, die aufgrund des

verwendeten Stichprobendesigns resultieren („design effect“; vgl. Kish 1965)

und mit Fehlern, die nicht auf die durch den Prozess der Auswahl entstehende

zufällige Variabilität von Stichprobe zu Stichprobe zurückzuführen sind wie

z.B. Nonresponse, Noncoverage oder Messfehler („nonsampling errors“).

Daneben sind weitere Verzerrungseffekte denkbar, die sich aus der

Gleichsetzung von Daten ergeben, die mit zwei unterschiedlichen

Instrumenten erhoben wurden: Offline-Umfragen sind in der Regel

intervieweradministriert, Online-Umfragen dagegen ausschließlich

selbstadministriert. Im ersten Fall können durch den Interviewer

Anwesenheits-Effekte, wie die soziale Erwünschtheit oder die Akquieszenz,

im zweiten Fall Abwesenheits-Effekte, z.B. intellektuelle oder emotionale

Verständnisprobleme auftreten. So kamen beispielsweise Schonlau et. al.

(2004) bei ihrem Vergleich einer propensity-gewichteten Online Erhebung mit

einer identischen, durch Random-Digit-Dialing (RDD) realisierten

Telefonbefragung nur bei 8 von 37 Fragen auf nichtsignifikante

Antwortdifferenzen. Auf mögliche negative response-to-media Effekte

zwischen Online und Offline Stichproben weisen Miller/Panjikaran (2001) hin.

Die Autoren verglichen ebenfalls eine propensity-score-gewichtete Online-

Umfrage mit einer RDD-Telefonbefragung und führten gefundene

Diskrepanzen bei der Vergabe von „Weiß-Nicht“-Antworten auf die einerseits

oral (Telefon), andererseits visuell (Online) offerierte Darstellung des

Fragebogens zurück.

Die direkte Vergleichbarkeit beider Samples scheint also problematisch

zu sein. Ein Indiz für die Brauchbarkeit dieser Gewichtungsmethode zeigt

jedoch die erfolgreiche Vorhersage der US-Präsidentschaftswahl durch die

Online-Umfrage von Harris Interactive im Jahr 2000. Gerade Wahlprognosen

43

bieten ja die einzigartige Möglichkeit der unmittelbaren Überprüfbarkeit der

Prognosen durch den tatsächlichen Wahlausgang. Ob allerdings diese Methode

auch bei der jüngsten Wahlprognose für die US-Präsidentschaftswahl im

September 2004 Erfolg brachte, ist dem Verfasser nicht bekannt.

Im Wesentlichen hängt jedoch der Erfolg dieser Methode stark von der

richtigen Schätzung der Response-Wahrscheinlichkeiten ab. Dies wiederum

hängt davon ab, ob das verwendete Schätzmodell richtig spezifiziert wurde,

d.h. ob die Wahl der in das Kausalmodell eingehenden unabhängigen

Variablen und die Aufteilung der Gruppen richtig war. Lorenc (2004) konnte

durch Simulation zeigen, dass die Gewichtung nach der Propensity-Score

teilweise erheblich zur Reduzierung von Stichprobenverzerrungen führen

kann, sofern von den gewählten Modellvariablen genügend Erklärungskraft

zur Vorhersage der Responsewahrscheinlichkeiten ausgeht. Fehlen jedoch

wichtige erklärende Variablen im Kausalmodell, kommt es zu einer ungleich

größeren Verzerrung. Dieses Ergebnis macht die starke Modellabhängigkeit

der Prozedur nur allzu deutlich, zeigt aber auch, dass dieser innovativen

Methode – ein richtig spezifiziertes Modell vorausgesetzt – ein enormes

Potential innewohnt.

3.2.4 Gewichtung zur Korrektur von Nonresponse19

Nonresponse kann als eines der Hauptprobleme bei Umfragen angesehen

werden. Seit den siebziger Jahren lassen sich weltweit zunehmend geringere

Ausschöpfungsquoten bei kommerziellen, als auch bei akademischen Surveys

feststellen. Groves et. al. (2004: 184ff.) konstatieren diesen Trend für die USA;

Schnell (1997: 71ff.) für die Bundesrepublik Deutschland. Eine ausführliche

Diskussion über den aktuellen Forschungsstand bezüglich Nonresponse in

Surveys bietet Groves (1989), Groves et. al. (2002, 2004: 169ff.), Schnell

19 Wenn im folgenden mit dem Begriff Nonresponse gearbeitet wird, sei damit ausschließlich der sog. Unit-Nonresponse gemeint. Unit-Nonresponse meint, dass das für die Stichprobe ausgewählte Objekt vollständig ausfällt, d.h. in der Datenmatrix fehlt ein vollständiger Antwortvektor. Der Item-Nonresponse, also das Fehlen nur einzelner Angaben (missing values), bleibt hier explizit außen vor. Strategien zur Korrektur von Item-Nonresponse , sog. Imputationstechniken, finden hier demnach keine Berücksichtigung. Für einen Überblick der verschiedenen Techniken vgl. Little/Rubin (1987: 60ff.); Särndal/Swensson/Wretman (1997: 589ff); Lohr (1999: 272ff).

44

(1997) sowie Koch/Porst (1998). Einen Rational-Choice-basierten Ansatz zur

theoretischen Erklärung von Nonresponse skizziert Esser (1986).

Nonresponse kann vernachlässigt werden, sofern es sich - nach der

Klassifikation von Little/Rubin (1987: 14f.) - um missing data completely at

random (MCRA) handelt. Hierbei ist der Mechanismus, der die Ausfälle

produziert („missing data mechanism“), gänzlich unkorreliert mit allen

Untersuchungs- wie Hilfsvariablen. Die erhaltene Nettostichprobe stellt dann

eine reine, unverzerrte Zufallsauswahl aus der Gesamtheit dar.

Sofern der Nonresponse-Mechanismus nur mit den Hilfsvariablen,

nicht aber mit den Untersuchungsvariablen korreliert ist, kann der

Ausfalleinfluss ebenfalls vernachlässigt werden in dem Sinne, dass der

Mechanismus durch ein explizites Modell erklärt werden kann. Der

Ausfallmechanismus ist dann missing at random (MAR) innerhalb nach

Werten der Hilfsvariablen gebildeten Subgruppen.

Beide Fälle von Nonresponse, MCAR und MAR, werden daher als

ignorable Nonresponse zusammengefasst (vgl. Little/Rubin 1987 14f.).

Da insbesondere bei sehr hohen Ausfallraten von 40 – 50 % nicht

davon ausgegangen werden kann, dass es hinsichtlich der

Untersuchungsvariablen keinerlei Unterschiede zwischen respondierenden und

nicht respondierenden Untersuchungseinheiten gibt, wird in den meisten Fällen

weder MCAR, noch MAR zutreffen. Der Nonresponse-Mechanismus ist dann

als non-ignorable zu bezeichnen.

Nichtignorierbarer Nonresponse führt zu diversen

Stichprobenverzerrungen. Der folgende Gedanke soll diesen Fall

verdeutlichen: Die Teilnahme an einer Umfrage sei mit der Höhe des

Einkommens korreliert. Das bedeutet, Personen mit hohem Einkommen sind

der Tendenz nach weniger dazu bereit, ihre kostbare Zeit für ein stellenweise

ein- bis zweistündiges Interview herzugeben.20 Die Stichprobenauswahl wird

verzerrt sein: Personen der höheren Einkommensklassen sind systematisch

unterrepräsentiert. Doch damit nicht genug. Insgesamt ist mit weiteren

Verzerrungen zu rechnen. Denn Personen mit hohem Einkommen sind

tendenziell eher hoch gebildet, vermehrt männlich, eher älter als jünger, in

höherem Maße verheiratet als geschieden, präferieren voraussichtlich andere 20 So beträgt z.B. im 1998er ALLBUS die durchschnittliche Dauer eines Interviews 54,5 Minuten mit einer Standardabweichung von 15,4 und einer Spannweite von 235 Minuten. Ähnliche Werte finden sich für den ALLBUS 1996 und den DJI-Survey 1997 (Quelle: Eigene Berechnungen).

45

Parteien, teilen vermutlich andere Wertorientierungen, leben andere Lebens-

und Konsumstile und geben insgesamt andere Antworten als Personen mit

mittlerem oder unterdurchschnittlichem Einkommen.

Kurz gesagt, alle Erhebungsvariablen, die mit der verzerrten Variablen

‚Einkommen’ kovariieren, werden mitverzerrt. Hinzu kommt, dass Ausfälle

nicht allein von einem Merkmal wie ‚Einkommen’ abhängen:

„Bei Befragungen fehlen (aus unterschiedlichen Gründen) üblicherweise marginale, ‚extreme’ und ‚abweichende’ bzw. ‚unkonventionelle’ Populationsanteile, Personen sowohl aus über- wie unterprivilegierten Lebenslagen sowie solche, die aus eher grundsätzlichen Erwägungen eine Beteiligung an Umfragen (einschließlich solcher der amtlichen Statistik) ablehnen“ (Esser 1986: 38).

Neben Personen der hohen und niedrigen Einkommensklassen sind dies, wie

bereits Scheuch (1962: 334) anmerkte, in besonderem Maße soziale Gruppen

wie alte und junge Menschen, Angehörige von Minoritäten, Berufstätige,

Frauen und Großstadtbewohner. Als weitere Prädiktoren für Nonresponse

erweisen sich sozio-ökonomische Statusmerkmale wie Bildung und

Schichtzugehörigkeit. In vielen Bevölkerungsumfragen sind demnach

Personen aller mittleren Statusklassen überrepräsentiert. Von Scheuch (1962)

als „Middle-Class-Bias“ umschrieben, wird dieses Phänomen heute auf das

Bildungsniveau zurückgeführt (vgl. Schnell 1997: 202; Schräpler 2000: 119).

Die maßgeblichen Ausfallgründe liegen in der Verweigerung des

Interviews oder in der Nicht-Erreichbarkeit der Zielperson.21

Daneben üben bestimmte Situationsmerkmale und sogar

Interviewereffekte einen Einfluss auf die Kooperationsbereitschaft von

Befragungspersonen aus. Koch (1991) und Schräpler (2000: 144f) weisen

beispielsweise einen Zusammenhang zwischen bestimmten Merkmalen der

Interviewerperson (Geschlecht, Schulabschluss und Alter) und der

Teilnahmebereitschaft der Befragungsperson am Interview nach. So haben

weibliche Interviewer mit mittlerem Schulabschluss die höchsten Chancen auf

Kooperationsbereitschaft seitens der Zielperson zu stoßen.

Die Ausfallquote hängt auch vom Erhebungsinstrument ab.

Beispielsweise stellen Gabler und Häder (1997) anhand des Vergleichs von

21 Dies sind nur die Hauptkategorien (vgl. Böltken 1976: 203f.). Weitere finden sich bei Cochran (1972: 420) oder auch Esser (1986).

46

Stichprobenverteilungen einer telefonischen und einer persönlich-mündlichen

Eurobarometer-Umfrage mit Referenzdaten des Mikrozensus fest, dass ältere

Frauen bei der face-to-face-Befragung z.T. erheblich unter-, hingegen bei der

Telefonstudie deutlich überrepräsentiert sind. Auch hier wird man nur

schwerlich abstreiten können, dass die mit Ausfällen behafteten Merkmale

‚Alter’ und ‚Geschlecht’ keinerlei Einfluss auf noch weitere

Untersuchungsvariablen nehmen.

Eine hohe Ausfallquote wird also in den meisten Fällen zu

nichtignorierbaren, systematischen Verzerrungen führen. Das Ausmaß der

Verzerrung hängt direkt ab von der Stärke des Zusammenhangs zwischen

Nonresponse-Mechanismen und Untersuchungsmerkmalen.

Zuverlässige Schlüsse von der Stichprobe auf die Grundgesamtheit sind

dann nicht mehr garantiert. Die klassischen Techniken der Inferenzstatistik,

wie z.B. die Konstruktion von Konfidenzintervallen, berücksichtigen einen

solchen nonsampling error nicht. Sie beziehen sich nur auf die Teilpopulation

der Respondenten, nicht jedoch auf alle Elemente der Grundgesamtheit.

Welche Möglichkeiten zur Minimierung dieser negativen Effekte

stehen zur Verfügung? Neben diversen Maßnahmen vor und während der

Feldphase, wie z.B. der besonderen Schulung der Interviewer, der Erhöhung

der Kontaktversuche und der Wahl des richtigen Erhebungsverfahrens gehört

vor allem die modellbasierte Gewichtung zur bedeutsamen Strategie für den

Umgang mit dem Nonresponse-Problem. Dafür werden nach verschiedenen

Kriterien Modellannahmen über das tatsächliche (unbekannte) Antwort- und

Nonresponseverhalten der Untersuchungseinheiten entworfen.

Ein brauchbares Modell beschreiben Särndal/Swensson/Wretman

(1997: 578), dass sie response homogeneity group (RHG) – Modell nennen.

Die Stichprobe wird dabei in Gruppen zerlegt, von denen man (hypothetisch)

annimmt, dass die Elemente innerhalb der Gruppen gleiche, konstante

Antwortwahrscheinlichkeiten besitzen. Des Weiteren liegt die Modellannahme

zugrunde, dass innerhalb der gebildeten Klassen der Nonresponse-

Mechanismus nicht systematisch, sondern zufällig erfolgt. Dies entspricht der

Annahme, dass die fehlenden Antwortvektoren missing at random (MAR) sind

(vgl. Särndal/Swensson/Wretman 1997: ebenda) .

Sofern die Gruppen mit den Anpassungszellen einer Redressment-

Prozedur übereinstimmen, dann ist, wie Särndal/Swensson/Wretman (1997:

585) zeigen, das RHG Modell identisch mit der in der Praxis üblichen

47

Verhältnisschätzung bei nachträglich geschichteten Stichproben (“ratio

estimator with weighting class adjustments”). Mit anderen Worten: Das

Standard-Redressment geht dann in ein Nonresponse-Korrekturverfahren unter

der Modellannahme homogener Antwortgruppen (RHG) über.

Nach welchen Kriterien sind die Anpassungsgruppen zu bilden? Die

Gruppen sollten so gewählt werden, dass der RHG- bzw. MAR-Annahme

möglichst Rechnung getragen wird. Aus Gründen der Pragmatik sind dies in

der Praxis meist verfügbare Gruppen- bzw. Gewichtungsvariablen wie Alter,

Geschlecht, Nationalität oder Gemeindegrößeklassen.

Eine sehr vielversprechende Möglichkeit wäre es, die Gruppen über die

Propensity-Score-Technik zu ermitteln. Auf diese Technik wurde bereits im

Kontext von Web-Surveys eingegangen (vgl. Kapitel 3.2.3). Die

Funktionsweise ist hier ähnlich.22 Falls die Teilnahme (Response) als

dichotome, binärcodierte Variable im Datensatz vorliegt, kann die individuelle

Response-Wahrscheinlichkeit (Propensity-Score) durch eine (z.B. logistische)

Regression der Response-Variablen auf unabhängige, erklärende Variablen

geschätzt werden. Die Gewichtungsgruppen werden dann so gebildet, dass

innerhalb der Gruppen möglichst homogene (geschätzte) Response-Raten

herrschen. Eine Studie, in der diese Technik zur Anwendung kommt,

beschreiben Groves et. al. (2004: 328).

Diese Methode kann sich besonders ergiebig bei Längsschnittdaten

erweisen, da dort in der Regel bereits en détail zahlreiche Informationen über

Nonrespondenten aus früheren Wellen bekannt sein dürften. Im SOEP werden

beispielsweise in ähnlicher Weise entsprechende Anpassungsgruppen mit

homogener Response-Wahrscheinlichkeit ermittelt (vgl. Pirschner 1994).

Insgesamt jedoch hängt der Erfolg der Gewichtung von der Richtigkeit

der getroffenen Modellannahmen ab, d.h. vor allem von den richtig

spezifizierten Gruppen, die den Datensatz so einteilen, dass innerhalb der

Gruppen die MAR-Annahme annähernd erfüllt ist.

Wie Bethlehem (1988, 2002) zeigen kann, lassen sich dann die

ausfallbedingten Verzerrungen gänzlich reduzieren: Unter einem

systematischen Nonresponse-Einfluss liegt beispielsweise der Bias des

22 Zur Propensity-Score-Technik im Kontext von Nonresponse vgl. Little/Rubin (1987: Kapitel 4.4.2, 56ff.). Für einen zusammenfassenden Überblick vgl. Rosenbaum (2002: 295ff.).

48

geschätzten Mittelwertes (bei freier Hochrechnung) ungefähr in der

Größenordnung (vgl. Bethlehem 2002: Ausdruck 1.2.3, S. 276):

pYpCovyyEyB UUU

),()ˆ()ˆ( ≈−= (30)

Dabei ist pk die Response-Wahrscheinlichkeit für jedes Element k; p ist die

durchschnittliche Response-Wahrscheinlichkeit aller Elemente und ),( YpCov

ist die Populationskovarianz zwischen der Response-Wahrscheinlichkeit und

der Untersuchungsvariablen Y. Daraus folgt nun, dass der Schätzer Uy genau

dann unverzerrt ist, wenn die Korrelation zwischen Untersuchungsvariable und

Responsemechanismus Null ist. Je größer jedoch der Zusammenhang zwischen

Response-Wahrscheinlichkeit und Untersuchungsvariable, desto größer ist

auch der Nonresponse-Bias. Des Weiteren hängt die Verzerrung auch von der

Ausschöpfungsquote ab: Je höher die Ausschöpfung einer Stichprobe, desto

höher liegt die durchschnittliche Response-Wahrscheinlichkeit p und desto

kleiner wird der Bias.

Wird der Datensatz nun in Gruppen eingeteilt, dann liegt, wie sich

zeigen lässt, der Bias des (nachträglich geschichteten) Schätzers für den

Mittelwert in der Größenordnung (vgl. Bethlehem 2002, Ausdruck 2.2.3,

S.277):

g

gG

ggU p

YpCovn

nyB

),(1)ˆ(1∑=

= (31)

Der Bias ist nun genau dann Null, wenn die Gruppen so gewählt werden, dass

innerhalb der Gruppen die Korrelation zwischen Response-Mechanismus und

Untersuchungsmerkmal Null ist.

Sofern also im Rahmen eines Redressments der Datensatz derart

geschickt aufgeteilt wird, dass innerhalb der Gruppen ),( YpCov = 0 herrscht,

kann der Nonresponse-Bias eliminiert werden.

Ziel der nachfolgenden Simulationsstudie soll u.a. sein, die Auswirkungen

eines praxisgängigen Redressments als Nonresponse-Korrekturgewichtung zu

analysieren (vgl. Kapitel 4.6). Dabei sollen genau zwei Modelle berücksichtigt

49

werden: ein Szenario mit ),( YpCov = 0 innerhalb der Gruppen und eines mit

),( YpCov ≠ 0 innerhalb der Gruppen.

4. Die empirische Überprüfung der Auswirkungen einer

Redressment-Gewichtung mittels Monte-Carlo-Simulation

4.1 Zielsetzung und Vorgehensweise

Die nachfolgende Simulationsstudie verfolgt das Ziel, die Gewichtung nach

dem Redressment-Prinzip mit dem Fall der Nichtgewichtung unter

verschiedenen, praxisrelevanten Aspekten zu vergleichen. Das praxisgängige

Verfahren des Redressments ist, wie bereits erörtert, identisch mit einer

Verhältnisschätzung bei nachträglich geschichteten Stichproben. Eine

wesentliche Grundvoraussetzung für die Effektivität einer Verhältnisschätzung

im Sinne einer Reduktion der Stichprobenvariabilität des Schätzers stellt die

Korrelation zwischen Hilfs- und Untersuchungsvariable dar. Diese sollte

möglichst größer als 0,5 sein (vgl. Cochran 1972: 198). Im Falle einer

Redressment-Gewichtung sollten demnach die Anpassungskategorien der

Gewichtungsvariablen homogen sein in Bezug auf das interessierende

Merkmal, denn genau dies entspräche einer hohen Korrelation zwischen

Gewichtungs- und Untersuchungsmerkmal. In der Praxis ist dies meist nicht

der Fall. Beispielsweise hat Schnell (1993: 20) anhand einer

Korrelationsanalyse mit Daten des ALLBUS 1980 herausgefunden, dass

typische Standardgewichtungsvariablen im Durchschnitt nur äußerst gering mit

den Untersuchungsvariablen der Mehrthemenumfrage korreliert sind. Dazu

Schnell (1993: 23):

„Zusammenfassend muss festgestellt werden, dass die Erklärungskraft der demographischen Variablen Alter, Geschlecht und Bundesland für die meisten in sozialwissenschaftlichen Surveys erhobenen Variablen sehr gering ist. Nichts deutet darauf hin, dass dies für andere demographische Variablen als Gewichtungsvariablen anders wäre. Die Annahme der Homogenität von Gewichtungsklassen in Hinsicht auf interessierende Variablen ist somit falsch.“

50

Es drängt sich nun die Frage auf, wie sich eine Gewichtung auf die Qualität

der Daten auswirkt, wenn – wie es die Regel zu sein scheint – die

Voraussetzungen für ihre Effektivität nicht erfüllt sind.

In der folgenden Studie soll zunächst die Gewichtung unter

verschiedenen Szenarien der Modellgüte (hoch, mittel, schwach) simuliert

werden. Dafür werden Untersuchungsvariablen erzeugt, die einmal hoch,

mittelmäßig und schwach mit der Gewichtungsvariable in Verbindung stehen.

Insbesondere dem Fall der schwachen Modellgüte, d.h. Gewichtungs- und

Untersuchungsmerkmal korrelieren nur sehr schwach miteinander, soll

besondere Aufmerksamkeit geschenkt werden, um möglichst die für die

Umfragepraxis relevanten Aspekte zu extrahieren.

Im Fokus des Interesses steht dabei einerseits der Effekt einer

Gewichtung auf die Schätzung von Anteils- oder Mittelwerten, andererseits

auf die Schätzung von Korrelationskoeffizienten.

Darüber hinaus soll untersucht werden, wie sich eine Redressment-

Gewichtung auf die Datenqualität auswirkt, wenn die Stichprobe mit

systematischen Ausfällen behaftet ist. In diesem Fall geht die Redressment-

Prozedur in eine Nonresponse-Korrekturgewichtung über, die implizit

zusätzliche Annahmen über die Struktur der Daten, insbesondere über den

Mechanismus der Ausfälle, aufstellt. Zu diesen Annahmen gehört, dass der

Nonresponse-Mechanismus innerhalb der Anpassungskategorien des

Redressments als missing at random (MAR) angenommen werden kann. Jede

Redressment-Gewichtung impliziert demnach, dass der Nonresponse lediglich

mit den zur Adaption herangezogenen Hilfsvariablen, nicht aber mit den

Untersuchungsvariablen selbst korreliert ist. Diese Annahme dürfte jedoch in

den meisten Fällen unrealistisch sein. Das konkrete Verhalten eines

gewichteten Schätzers soll deswegen unter der Konstruktion zweier Szenarien

des systematischen Ausfalls analysiert werden, nämlich einmal bei korrekter

sowie völlig falscher MAR-Annahme.

51

4.2 Zur Durchführung23

Die Simulation erfolgt nach der sog. Monte-Carlo-Methode. Das Monte-Carlo-

Prinzip beschreibt Mooney (1997: 2) folgendermaßen:

„Monte Carlo simulation offers an alternative to analytical mathematics for understanding a statistic´s sampling distribution and evaluating its behavior in random samples. Monte Carlo simulation does this empirically using random samples from known populations of simulated data to track a statistic´s behavior. The basic concept is straightforward: If a statistic´s sampling distribution is the density function of the values it could take on in a given population, then its estimate is the relative frequency distribution of the values of that statistic that were actually observed in many samples drawn from that population. Because it usually is impractical for social scientist to sample actual data multiple times, we use artificially generated data that resemble the real thing in relevant ways. The recent availability of high-speed computers makes this approach now widely practical for the first time in history.” (Hervorhebungen im Original)

Für unsere Zwecke werden in einem solchem Monte-Carlo-Massenexperiment

insgesamt 10000 Stichproben jeweils vom Umfang n = 100 immer wieder aus

der gleichen, artifiziell erzeugten Population gezogen. Jedes Mal werden dabei

zwei Schätzer berechnet. Zum einen der ungewichtete Schätzer bei freier

Hochrechnung; zum anderen derselbe, aber nach dem Soll-durch-Ist Prinzip

gewichtete, nachträglich geschichtete (Verhältnis-)Schätzer. Die dann

entstehenden zwei Häufigkeitsverteilungen der je 10000 berechneten

ungewichteten wie gewichteten Stichprobenkennwerte nähern sich nun an die

(nur theoretisch bekannten) tatsächlichen Stichprobenverteilungen beider

Schätzer an. Damit lassen sich dann die statistischen Verteilungseigenschaften

beider Schätzer analysieren und vergleichen. Die Mittelwerte dieser

Häufigkeitsverteilungen stellen Annäherungen an die Erwartungswerte dar; die

Streuung der Verteilungen approximiert die Varianz des Schätzers. Es lässt

sich somit u.a. die Effizienz der Schätzer untersuchen.

Allgemein setzt sich die Qualität eines Schätzers aus zwei

Bestandteilen zusammen.

Die erste Komponente ist die Präzision (engl. „precision“) der

Schätzung. Diese misst sich in dem Grad der Abweichung der wiederholt

23 Alle mit dem Computer durchgeführten Simulationen und Berechnungen wurden mit der Statistik-Software SPSS realisiert (vgl. SPSS Inc. 2001a). Alle relevanten Prozeduren wurden programmiert mittels SPSS-Syntax-Sprache (vgl. SPSS Inc. 2001b).

52

berechneten Stichprobenkennwerte vom Erwartungswert. Dies ist die Varianz

oder deren Quadratwurzel, die Standardabweichung der

Stichprobenkennwerteverteilung. Die Standardabweichung einer

Stichprobenverteilung ist besser bekannt als der „Standardfehler des

Schätzers“.

Die zweite Komponente betrifft die Richtigkeit oder Exaktheit (engl.

„accuracy“) der Schätzung. Das Maß dafür ist der Bias, also der Abstand

zwischen Erwartungswert und Populationswert. Eine Schätzung ist dann

verzerrt, wenn sie im Mittel nicht den wahren Wert trifft, wenn also der Bias

nicht Null ist.

Beide Komponenten beziehen sich in gewisser Weise auf die

Genauigkeit einer Schätzung. Folgerichtig nennt Cochran (1972: 31f.) die erste

Komponente „Wiederholungsgenauigkeit“ und die zweite Komponente

„Treffgenauigkeit“.24 Für die Zusammenfassung beider Gütekriterien bietet

sich ein Gesamtfehlermaß an, welches Auskunft über die Gesamtgenauigkeit

einer Schätzung gibt. Dies ist der sog. „mittlere quadratische Gesamtfehler“,

der MSE („mean square error“). Er ist definiert als (vgl. Lohr 1999: 28):

MSE = (Standardfehler)2 + (Bias)2 (32)

Falls ein Schätzer erwartungstreu, d.h. „unbiased“ ist, dann reicht die

Dokumentation der Varianz oder des Standardfehlers zur Qualitätsabschätzung

aus, da in dem Fall:

MSE = (Standardfehler)2 (33)

Anhand dieser Gütekriterien können in der nachfolgenden Simulationsstudie

beide Schätzer, der ungewichtete und der gewichtete, miteinander verglichen

werden. Es kann nun nachgeprüft werden, unter welchen Voraussetzungen die

Gewichtung der Daten zur Verbesserung und unter welchen Voraussetzungen

die Gewichtung zur Verschlechterung der Schätzung führt.

24 Wenn salopp von „der Genauigkeit“ die Rede ist, dann ist damit im Allgemeinen die „Wiederholungsgenauigkeit“ gemeint.

53

4.2.1 Konstruktion der Population

Zunächst wird künstlich eine Population erzeugt, aus der später die

Stichproben gezogen werden sollen. Der Umfang der Population soll 100000

Fälle betragen. Bei einer Stichprobengröße von je 100 Fällen entspricht dies

einem Auswahlsatz von 0,1 Prozent. Die artifiziell erzeugten

Populationsvariablen sollen dabei eine vorgegebene Korrelationsmatrix

besitzen. Dies geschieht mit einem in SPSS programmierten Syntax-Code. Mit

diesem ist es möglich, beliebig verteilte Zufallsvariablen in exakt

vorgegebener Korrelation zu erzeugen. Dieser Code ist eine vom Verfasser

leicht modifizierte Version eines von David C. Howell und Lawrence Gordon

übernommenen SPSS-Programms.25 Das Programmprinzip funktioniert

folgendermaßen:26 Zunächst werden sieben standardnormalverteilte

Zufallsvariablen erstellt. Dies geschieht mit einem in SPSS implementierten

COMPUTE-Befehl, welcher auf Basis eines Pseudo-Zufallszahlen-Generators

für jeden der 100000 Fälle einen zufälligen Variablenwert aus einer

normalverteilten Grundgesamtheit ausgibt.

Die Zufallsvariablen korrelieren zunächst (zufällig) nahe Null. Durch

geeignete Linearkombinationen dieser Variablen können nun daraus neue

Zufallsvariablen mit einer vorgegebenen Korrelationsmatrix erzeugt werden.

Voraussetzung dafür ist aber, dass sie zunächst gänzlich unkorreliert sind. Dies

wird erreicht, indem die sieben Variablen einer Hauptkomponentenanalyse

unterzogen werden, wobei genau sieben zu extrahierende Faktoren vorgegeben

werden. Anschließend werden die Faktorwerte der sieben Faktoren berechnet

und als Variablen abgespeichert. Mit den Faktorwerten ergeben sich dann

sieben neue Variablen, die exakt voneinander unabhängig sind. Diese nennen

wir X1,...,X7. Nun wird die gewünschte Korrelationsmatrix R vorgegeben (vgl.

Abb. 1). Mathematische Grundlage zur Erzeugung korrelierter Daten ist die

sog. Cholesky-Zerlegung.27 Mittels der Cholesky-Zerlegung wird die Matrix R

in das Produkt einer unteren und einer oberen Dreiecksmatrix zerlegt: R=AAT .

25 Der Originalcode ist frei zugänglich unter http://www.uvm.edu/~dhowell/StatPages/More_Stuff/CorrGen2.html (URL vom 18.11.2004). 26 Der gesamte Programmcode ist in Anhang 1 abgedruckt. 27 Zur Cholesky-Zerlegung im Zusammenhang mit der Erzeugung korrelierter Daten vgl. Mooney (1997: 47f.), Liebl (1995: 49ff.) sowie die Beschreibungen im Internet unter http://www.uvm.edu/~dhowell/StatPages/More_Stuff/Gener_Correl_Numbers.html (URL vom 18.11.2004) und http://www.lehre.fhw-berlin.de/fineng/korrproz.htm (URL vom 18.11.2004).

54

Die Koeffizienten der unteren Dreiecksmatrix A berechnen sich gemäß:

7,...,11

1

2 =

−= ∑

−

=

iarai

kikiiii (34)

7,...,11 1

1+=

−= ∑

−

=

ijaara

ai

kikjkji

iiji (35)

Die korrelierten Zufallsvariablen Y1,...,Y7 erhalten wir nun als Spalten der

Matrix Y=XAT, d.h. Yi=ai1X1+...+ai7X7. Im Anschluss daran wird das Zentrum

und die Streuung der Variablen adjustiert, indem die Variablen Y1,...,Y7

jeweils mit der gewünschten Standardabweichung multipliziert werden und

dazu der gewünschte Mittelwert addiert wird. Dies ist möglich, da die

Variablen standardisiert vorliegen und entspricht einer Rückrechnung der Z-

Transformation. Für alle Variablen wird ein Mittelwert von 1800 mit einer

Standardabweichung von 500 gewählt. Dies sind die „wahren“ Parameter, die

es später zu schätzen gilt.

Abb. 1: vorgegebene Populationskorrelationsmatrix der

Untersuchungsvariablen NR1-NR7

1,840 1,560 ,710 1,400 ,630 ,220 1,200 ,150 ,430 ,190 1,050 ,150 ,280 ,160 ,350 1

-,110 -,150 -,080 -,150 -,180 -,200 1

Korrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach PearsonKorrelation nach Pearson

NR1_1NR2_1NR3_1NR4_1NR5_1NR6_1NR7_1

NR1_1 NR2_1 NR3_1 NR4_1 NR5_1 NR6_1 NR7_1

4.2.2 Konstruktion des Gewichtungsmerkmals „Geschlecht“

Aus dem Populationsdatensatz wird nun eine weitere Variable erzeugt, nach

deren Verteilung die Stichproben gewichtet werden sollen. Dies ist die binär

codierte Gewichtungsvariable „Geschlecht.“ Diese Variable soll nun so erstellt

werden, dass sie in unterschiedlich starker Korrelation mit den

Untersuchungsvariablen in Verbindung steht. Dazu wird sie direkt aus

55

Variable NR1 erzeugt, indem ihre Werte dichotomisiert auf eine neue Variable

aufgeteilt werden.28 Dadurch, dass die Variable „Geschlecht“ nun unmittelbar

aus NR1 entstanden ist, steht sie mit den Untersuchungsvariablen in einem

bestimmten korrelativen Verhältnis zueinander. Wie Abbildung 2 zeigt,

variiert die Korrelation mit den ersten sechs Untersuchungsvariablen zwischen

0,798 und 0,039.29

Abb. 2: Korrelation der Gewichtungsvariablen „Geschlecht“ mit den

Untersuchungsvariablen NR1-NR6.

Geschlecht Modellgüte NR1 ,798 Hoch NR2 ,670 NR3 ,448 Mittel NR4 ,318 NR5 ,160 Schwach

NR6 ,039

N = 100000

In der Praxis der Umfrageforschung dürfte - darauf lassen die Ergebnisse bei

Schnell (1993) schließen - eher letzteres Szenario, d.h. durchweg schwache

Beziehungen zwischen Gewichtungs- und Untersuchungsvariable

vorherrschend sein. Durch diese Konstruktion bietet sich nun die Möglichkeit,

die Auswirkungen einer unterschiedlich starken Korrelation zwischen

Gewichtungs- und Untersuchungsmerkmal auf die Präzision der Schätzung hin

zu untersuchen.

Die Häufigkeitsverteilung der Variable Geschlecht gestaltet sich durch

die Dichotomisierung so, dass sich für die Frauen ein Anteil von 52,1 Prozent

und für die Männer ein Anteil von 47,9 Prozent in der Population ergibt. Dies

sind die „Soll“-Werte, nach denen später jede gezogene Stichprobe angepasst

wird (vgl. Abb. 3).

28 vgl. die entsprechende RECODE-Prozedur in Anhang 1. 29 Variable NR7 bleibt außen vor, da aus ihr später die weitere Gewichtungsvariable „Alter“ kreiert wird.

56

Abb. 3: Häufigkeitsverteilung von Geschlecht in der Population

47859 47,952141 52,1

100000 100,0

mwGesamt

GültigHäufigkeit Prozent

4.3 Simulation 1: Auswirkungen der Redressment-Gewichtung auf die

Schätzung von Mittelwerten

4.3.1 Ziehung der Stichproben und Implementierung des

Gewichtungsverfahrens

Für den Prozess der wiederholten Stichprobenziehungen wurde ebenfalls ein

entsprechendes SPSS-Syntax-Programm erstellt.30 Das Programm folgt

folgendem algorithmischen Prinzip:

Vorab wird in einem ersten Schritt der Populationsdatensatz in den

Prozessor geladen. Anschließend wird daraus eine einfache Zufallsstichprobe

vom Umfang n = 100 gezogen. Nun werden die erforderlichen ungewichteten

Statistiken berechnet und in einer Datei festgehalten. Dies sind jeweils der

Mittelwert und die Standardabweichung der sechs Untersuchungsvariablen.

Danach wird die Stichprobe nach dem Redressment-Prinzip gewichtet. Zur

Adaption wird dafür die Variable „Geschlecht“ herangezogen. Dazu wird aus

den Stichprobendaten jeweils der Anteilswert („Ist“-Wert) der Männer und der

Frauen berechnet und anschließend mit dem aus der Population bekannten

„Soll“-Wert (vgl. Abb. 3) ins Verhältnis gesetzt.31 Als nächstes werden die

gewichteten Statistiken aller sechs Untersuchungs-variablen berechnet und

ebenfalls abgespeichert. Die gesamte Prozedur wird nun in eine Schleife

eingebettet, sodass erneut mit dem ersten Schritt gestartet werden kann.

30 Der gesamte Programm-Code findet sich in Anhang 2 abgedruckt. Der Verfasser bedankt sich an dieser Stelle bei Lars Ninke für wertvolle Anregungen und nützliche Hilfen bei der Syntax-Programmierung. 31 Dazu muss die Variable Geschlecht Dummy-codiert vorliegen.

57

Insgesamt läuft dieser Algorithmus 10000 mal durch, d.h. es werden je 10000

gewichtete und ungewichtete Stichprobenkennwerte berechnet und in einer

Kennwerte-Datei abgespeichert.32

Technisch erfolgt die Gewichtung dergestalt, dass im Datensatz eine

Gewichtungsvariable kreiert wird, die die gruppenspezifischen Soll-durch-Ist-

Werte enthält und diese den Frauen bzw. Männern der Stichprobe zuspielt. Für

die Berechnung des gewichteten Mittelwertes bedeutet dies, dass jedes

Element yk mit seinem gruppenspezifischen Gewichtungsfaktor Ugx / Sgx

gewichtet wird. Die Berechnung entspricht damit jeweils exakt Formel (29):

Sg

UgG

g Skk

G

g Sg

UgSg

gU x

xy

nxx

ynn

yg

∑∑∑= ∈=

==11

1ˆ (29)

mit:

G Anzahl der Gewichtungsklassen (hier: G=2 Gruppen:

Männer, Frauen)

n Umfang der Stichprobe (hier: n = 100)

Ugx Anzahl der Frauen bzw. Männer in der Population

(„Soll“-Wert)

Sgx Anzahl der Frauen bzw. Männer in der Stichprobe

(„Ist“-Wert) 4.3.2 Ergebnisauswertung

4.3.2.1 Vergleich der Erwartungswerte

Die Histogramme der empirischen Stichprobenkennwerteverteilungen der je

10000 gewichteten und ungewichteten Mittelwerte sind in Abb. 4a dargestellt.

Wie nicht anders zu erwarten, sind sie normalverteilt. Dies geht rein analytisch

aus dem Zentralen Grenzwertsatz hervor. In Abbildung 4b sind für alle

32 Für die Ziehung der 10000 Stichproben inklusive Implementierung der Gewichtung und Berechnung der Kennwerte benötigt der benutzte Computer mit 1,4 Gigahertz Prozessorleistung und 256 Megabyte Arbeitsspeicher in etwa 20 Stunden Rechenzeit.

58

Untersuchungsvariablen die Mittelwerte der Stichprobenverteilungen

dargestellt. Diese ‚Mittelwerte der Mittelwerte’ sind als empirisch ermittelte

Schätzwerte der (tatsächlichen) Erwartungswerte der Schätzer zu verstehen.

Aufgrund der hohen Zahl der gezogenen Stichproben (10000) können sie als

recht gute Näherungswerte betrachtet werden. Die ebenfalls bereits analytisch

bewiesene Erwartungstreue bzw. approximative Erwartungstreue beider

Schätzer kann somit durch die Simulation gewissermaßen empirisch bestätigt

werden: Der Mittelwert aller 10000 Stichprobenmittelwerte liegt jeweils um

1800. Dies gilt sowohl für den ungewichteten, als auch für den gewichteten

Schätzer über alle sechs Untersuchungsvariablen hinweg (vgl. Abb. 4b). Ein

durchgeführter Z-Test (Gauß-Test) mit dem Testwert 1800 zeigt, dass

durchweg alle approximierten Erwartungswerte lediglich zufällig, d.h.

nichtsignifikant vom tatsächlichen Wert abweichen (vgl. Abb. 4c). Daneben

zeigt ein T-Test für gepaarte Stichproben, dass die Differenzen untereinander,

d.h. zwischen den jeweils gewichteten und ungewichteten Erwartungswerten

allesamt nichtsignifikant sind (vgl. Abb. 4d). Dies lässt darauf schließen, dass

die Gewichtung im Durchschnitt derart geringe Differenzen zwischen den

Erwartungswerten produziert, dass diese nicht aufgrund der Gewichtung,

sondern aufgrund von zufallsbedingten Einflüssen entstanden sein müssen.

Eine Gewichtung beeinflusst demnach die Erwartungstreue des Schätzers in

keiner Weise: Unabhängig der Güte des Modells bleibt der gewichtete

Schätzer gleichermaßen unverzerrt; ein Bias existiert nicht.

Abb. 4a: Histogramme der ungewichteten und gewichteten Mittelwerte aus

den 10000 gezogenen Stichproben für die Variablen NR1 bis NR6

- ungewichtet -

NR1_a Mittelwerte ungewichtet

2020,0

1980,0

1940,0

1900,0

1860,0

1820,0

1780,0

1740,0

1700,0

1660,0

1620,0

2000

1000

0

Std.abw. = 49,58 Mittel = 1800,5

N = 10000,00

- gewichtet -

NR1_b Mittelwerte gewichtet

1950,0

1930,0

1910,0

1890,0

1870,0

1850,0

1830,0

1810,0

1790,0

1770,0

1750,0

1730,0

1710,0

1690,0

1600

1400

1200

1000

800

600

400

200

0

Std.abw. = 30,12 Mittel = 1800,1

N = 10000,00

59


2000,0

1960,0

1920,0

1880,0

1840,0

1800,0

1760,0

1720,0

1680,0

1640,0

1600,0

2000

1000

0

Std.abw. = 49,16 Mittel = 1800,9

N = 10000,00


1950,0

1930,0

1910,0

1890,0

1870,0

1850,0

1830,0

1810,0

1790,0

1770,0

1750,0

1730,0

1710,0

1690,0

1670,0

1650,0

1200

1000

800

600

400

200

0

Std.abw. = 36,79 Mittel = 1800,5

N = 10000,00


1980,0

1960,0

1940,0

1920,0

1900,0

1880,0

1860,0

1840,0

1820,0

1800,0

1780,0

1760,0

1740,0

1720,0

1700,0

1680,0

1660,0

1640,0

1620,0

1600,0

2000

1000

0

Std.abw. = 50,09 Mittel = 1800,6

N = 10000,00


1950,0

1930,0

1910,0

1890,0

1870,0

1850,0

1830,0

1810,0

1790,0

1770,0

1750,0

1730,0

1710,0

1690,0

1670,0

1650,0

1630,0

1000

800

600

400

200

0

Std.abw. = 45,32 Mittel = 1800,3

N = 10000,00


2000,0

1960,0

1920,0

1880,0

1840,0

1800,0

1760,0

1720,0

1680,0

1640,0

1600,0

2000

1000

0

Std.abw. = 49,10 Mittel = 1800,9

N = 10000,00


1980,0

1960,0

1940,0

1920,0

1900,0

1880,0

1860,0

1840,0

1820,0

1800,0

1780,0

1760,0

1740,0

1720,0

1700,0

1680,0

1660,0

1640,0

1620,0

2000

1000

0

Std.abw. = 46,75 Mittel = 1800,7

N = 10000,00


2000,0

1980,0

1960,0

1940,0

1920,0

1900,0

1880,0

1860,0

1840,0

1820,0

1800,0

1780,0

1760,0

1740,0

1720,0

1700,0

1680,0

1660,0

1640,0

1620,0

2000

1000

0

Std.abw. = 50,56 Mittel = 1800,5

N = 10000,00


2000,0

1980,0

1960,0

1940,0

1920,0

1900,0

1880,0

1860,0

1840,0

1820,0

1800,0

1780,0

1760,0

1740,0

1720,0

1700,0

1680,0

1660,0

1640,0

1620,0

2000

1000

0

Std.abw. = 50,17 Mittel = 1800,4

N = 10000,00

60


1980,0

1940,0

1900,0

1860,0

1820,0

1780,0

1740,0

1700,0

1660,0

1620,0

1580,0

2000

1000

0

Std.abw. = 50,05 Mittel = 1800,6

N = 10000,00


2000,0

1960,0

1920,0

1880,0

1840,0

1800,0

1760,0

1720,0

1680,0

1640,0

1600,0

2000

1000

0

Std.abw. = 50,26 Mittel = 1800,5

N = 10000,00

Abb. 4b: approximierte Erwartungswerte der ungewichteten und gewichteten

Stichprobenmittelwerte für die Variablen NR1 bis NR6

1795

1800

1805

ungewichtet 1800,481 1800,854 1800,555 1800,881 1800,483 1800,647

gewichtet nachGeschlecht

1800,125 1800,516 1800,276 1800,712 1800,374 1800,538

1 2 3 4 5 6

Abb. 4c: Z-Test mit dem Vorgabewert μ0 = 1800

Testwert = 1800

-ungewichtet –

- gewichtet -

T df Sig. (2-seitig) T Df Sig. (2-seitig) NR1 ,970 9999 ,332 ,415 9999 ,678 NR2 1,738 9999 ,082 1,402 9999 ,161 NR3 1,108 9999 ,268 ,608 9999 ,543 NR4 1,795 9999 ,073 1,523 9999 ,128 NR5 ,954 9999 ,340 ,746 9999 ,456 NR6 1,293 9999 ,196 1,071 9999 ,284

61

Abb. 4d: T-Test für gepaarte Stichproben Gepaarte Differenzen T df Sig.

(2-seitig)

Mittelwert der

paarweisen Differenzen

Standard-abweichung

der paarweisen Differenzen

Standard-fehler der

Mittelwert-differenzen

95% Konfidenzintervall

der mittleren Differenz

Untere Obere Paar

1 NR1a Mittelwerte

ungewichtet - NR1b Mittelwerte gewichtet

,356022 39,7759988 ,3977600 -,423667 1,135712 ,895 9999 ,371

Paar 2

NR2a Mittelwerte ungewichtet - NR2b Mittelwerte gewichtet

,338244 33,5979635 ,3359796 -,320344 ,996832 1,007 9999 ,314

Paar 3


,279130 22,7599534 ,2275995 -,167011 ,725271 1,226 9999 ,220

Paar 4


,169365 16,7412347 ,1674123 -,158797 ,497527 1,012 9999 ,312

Paar 5


,108541 9,2961227 ,0929612 -,073682 ,290764 1,168 9999 ,243

Paar 6


,108720 5,4900745 ,0549007 ,001103 ,216336 1,980 9999 ,058

4.3.2.2 Vergleich der Varianzen

In Abb. 5a sind jeweils die Streuungen der Stichprobenverteilungen anhand

der Standardabweichungen zu sehen. Dies sind gleichzeitig die Standardfehler

der Schätzfunktionen. Während die Standardfehler der ungewichteten

Variablen allesamt um den Wert 50 liegen, wird deutlich, dass die gewichtete

Schätzung bei hoher Korrelation zwischen Untersuchungs- und

Anpassungsmerkmal (NR1-NR2) eine eindeutig geringere Variation ihrer

Kennwerteverteilung liefert. Die Standardfehler des gewichteten Schätzers

sind dort um ein Vielfaches geringer. Im Durchschnitt ist also mit deutlich

präziseren Schätzungen zu rechnen. Auch bei mittelmäßiger Modellgüte (NR3-

NR4) ist der Standardfehler des gewichteten Schätzers noch geringer. Bei

schwacher bzw. keiner Korrelation zwischen Untersuchungs- und

Anpassungsmerkmal sind die Streuungen beider Verteilungen annähernd

gleich (NR5-NR6).

62

Abb. 5a: Standardabweichung der Mittelwertverteilungen (= Standardfehler)

für alle sechs Untersuchungsvariablen; jeweils für den

ungewichteten wie gewichteten Fall

0

10

20

30

40

50

60

ungewichtet 49,58086 49,15502 50,0855 49,10282 50,56124 50,05179


30,11661 36,79356 45,32411 46,74771 50,16565 50,25813

1 2 3 4 5 6

Der enorme Präzisionsgewinn wird auch durch die Gegenüberstellung der

Mittelwertverteilungen anhand ihrer Boxplots verdeutlicht. In Abbildung 5b

sind sie exemplarisch für drei ausgewählte Untersuchungsvariablen (NR1,

NR3 und NR6) dargestellt. Anschaulich ist der Einfluss der Modellgüte auf die

Präzision der Schätzung erkennbar. Bei hoher Modellgüte (Variable NR1)

streuen die mittleren 50 Prozent der gewichteten Mittelwerte sehr viel enger

um das Zentrum der Verteilung als die ungewichteten. Die beiden Boxplots

sind hingegen bei schwacher Modellgüte (Variable NR6) nahezu identisch.

Abb. 5b: Boxplots der Mittelwerte für die exemplarischen Variablen NR1,

NR3, NR6; jeweils ungewichtet u. gewichtet

1000010000N =

NR1

gewichtetungewichtet

2100

2000

1900

1800

1700

1600

1000010000N =

NR3


2100

2000

1900

1800

1700

1600

1500

1000010000N =

NR6


2100

2000

1900

1800

1700

1600

1500

63

Die Variation der Kennwerteverteilung stellt ein Gütekriterium für die

Genauigkeit der Schätzung dar: Je geringer die Streuung, desto näher liegt der

Schätzer im Durchschnitt am Erwartungswert und desto präziser ist die

Schätzung. Im Allgemeinen ist von zwei erwartungstreuen Schätzfunktionen

diejenige als wirksamer bzw. effizienter zu bezeichnen, deren Varianz kleiner

ist (Bamberg/Baur 1998: 148). Das Verhältnis beider Varianzen zueinander

kann, z.B. nach Diehl/Arbinger (1990: 45), als „relative Effizienz“ bezeichnet

werden. Mit der relativen Effizienz wird die Streuung der gewichteten

Mittelwertverteilung mit der Streuung der ungewichteten ins Verhältnis

gesetzt:

)(/)( tungewichtegewichtet XVarXVarRE = (36)

Das Inverse dieser Maßzahl berechnet sich mit: REInvers = 1/ RE. Mit dieser

Maßzahl erhalten wir nun für unsere Zwecke eine Art inkrementellen Index,

der den Präzisionszuwachs (oder gegebenenfalls die Präzisionsabnahme) der

gewichteten Schätzung gegenüber der einfachen zum Ausdruck bringt.

In Abbildung 6 sind die Werte beider Maßzahlen für alle

Untersuchungsvariablen zusammengetragen. An dem Inversen der relativen

Effizienz ist nun ablesbar, dass bei hoher Modellgüte die Varianz der

gewichteten Mittelwertverteilung um das 2,72-fache (Variable NR1) bzw.

1,78-fache (Variable NR2) geringer ist als die Varianz der ungewichteten

Mittelwertverteilung. Bei mittlerer Modellgüte sind die Varianzen immerhin

noch um das 1,22-fache bzw. 1,10-fache (für Variable NR3 bzw. NR4)

geringer. Bei schwacher Modellgüte sind die Varianzen annähernd gleich. Für

Variable NR6, bei der die Modellgüte besonders schwach ist, ist die Varianz

der gewichteten Verteilung sogar leicht größer.

Abb. 6: Relative Effizienz und Inverse relative Effizienz der Schätzer für die

Variablen NR1 – NR6

Relative Effizienz

)(/)( tungewichtegewichtet XVarXVar=

Relative Effizienz (Invers)

Modell- güte

NR1 0,3690 2,7103 hoch NR2 0,5603 1,7848 NR3 0,8189 1,2211 mittel NR4 0,9064 1,1033 NR5 0,9844 1,0158 schwach NR6 1,0088 0,9918

64

Dieses Ergebnis demonstriert abermals sehr gut, dass die gewichtete

Schätzung bei hoher und mittlerer Modellgüte zu einem teils drastischen

Präzisionsgewinn führt. Bei schwacher Modellgüte ist die Präzision ungefähr

gleich, bzw. leicht geringer.

Eine schwache Modellgüte bedeutet in erster Linie folgendes: Die

Schätzung bleibt durch die Prozedur der Gewichtung im Wesentlichen

unbeeinflusst. Denn sofern das Gewichtungsmerkmal unkorreliert ist mit dem

Untersuchungsmerkmal, wird die Anpassung nach dem einen Merkmal

unbedeutend sein für das andere Merkmal. Die Simulationsergebnisse

vermögen dies zu unterstreichen, denn im Folgenden werden die gewichteten

und ungewichteten Mittelwerte jeweils in einem Streudiagramm abgetragen

(vgl. Abbildung 7).

Abb. 7: Streudiagramme und Korrelationen (Pearsons r) zwischen den gewichteten

und ungewichteten Mittelwertverteilungen der Variablen NR1-NR6


20001900180017001600

NR

1_a

Mitt

elw

erte

ung

ewic

htet

2100

2000

1900

1800

1700

1600

r = 0,597


20001900180017001600

NR

2_a

Mitt

elw

erte

ung

ewic

htet

2100

2000

1900

1800

1700

1600

r = 0,730


20001900180017001600

NR

3_a

Mitt

elw

erte

ung

ewic

htet

2000

1900

1800

1700

1600

1500

r = 0,891


20001900180017001600

NR

4_a

Mitt

elw

erte

ung

ewic

htet

2100

2000

1900

1800

1700

1600

r = 0,940


20001900180017001600

NR

5_a

Mitt

elw

erte

ung

ewic

htet

2100

2000

1900

1800

1700

1600

r = 0,983


2100200019001800170016001500

NR

6_a

Mitt

elw

erte

ung

ewic

htet

2000

1900

1800

1700

1600

1500

r = 0,994

65

Klar ersichtlich ist hierbei, dass mit abnehmender Modellgüte die Punkte im

Streudiagramm immer näher an eine Gerade rücken. Die Korrelation zwischen

beiden Verteilungen ändert sich demgemäß von „mittelmäßig“ mit 0,597 bis

„nahezu perfekt“ mit 0,994. Je schwächer also das implizierte Modell, desto

weniger werden die Mittelwerte der Unter-suchungsvariablen durch die

Gewichtung beeinflusst. Die Gewichtung hat dann also fast keine Auswirkung

auf die mit ihr unkorrelierten Untersuchungs-variablen. Bei hoher Modellgüte

jedoch entfernen sich die Punkte im Diagramm von der Geraden, was bedeutet,

dass die Gewichtung zu größeren Veränderungen in den

Untersuchungsvariablen führt.

4.3.2.3 Vergleich der Differenzen zum wahren Wert

Der große Vorteil der simulierten Stichprobenziehung liegt darin, dass die

„wahren“ Werte, d.h. die tatsächlichen Populationsparameter, bekannt sind.

Jetzt stellt sich die Frage, in wie viel Prozent der gezogenen Stichproben die

gewichtete Schätzung Werte produziert hat, die im Vergleich zur

Nichtgewichtung näher am wahren Wert liegen. Dazu wird für jeden der

10000 berechneten Stichprobenmittelwerte der Abstand zum tatsächlichen

Wert (= 1800) erfasst. Anschließend wird in einer neuen, binärcodierten

Variablen abgetragen, ob sich die gewichtete oder die ungewichtete Schätzung

näher am wahren Wert befindet. Die Ergebnisse sind in Abbildung 8

dargestellt. Auch hier wird deutlich, dass eine hohe Modellgüte für die

Wirksamkeit der Gewichtung entscheidend ist. Die Differenz des gewichteten

Schätzers zum wahren Wert fällt im Vergleich zum ungewichteten bei den

Variablen NR1 und NR2 in 68 bzw. 63 Prozent der gezogenen Stichproben

kleiner aus. Bei mittlerer Modellgüte (NR3 u. NR4) ist dies in 57 bzw. 55

Prozent der gezogenen Stichproben der Fall und bei schlechter Modellgüte

(NR5 u. NR6) halten sich beide Schätzer die Waage: In jeweils ca. 50 Prozent

der gezogenen Stichproben kommt es zur verbesserten Schätzung durch

Gewichtung.

66

Abb. 8: Führt die Gewichtung zur verbesserten Schätzung?

Prozentsatz der gezogenen Stichproben, bei

denen der gewichtete Schätzer näher am wahren

Wert liegt

NR1 68,7% NR2 63,7% NR3 57,6% NR4 55,6% NR5 51,6% NR6 49,2%

graphisch dargestellt (absolute Häufigkeiten)

Anzahl der Schätzungen mit geringerer Differenz

zum wahren Wert

NR6 gewichtete Schät

NR6 ungewichtete Sch











Sum

me

8000

7000

6000

5000

4000

3000

2000

4.3.2.4 Vergleich der Konfidenzintervalle

Aufgrund der Kenntnis der wahren Werte kann darüber hinaus geprüft werden,

wie sich die Konfidenzintervalle der Mittelwerte pro Stichprobe verhalten. Es

erhebt sich die nicht uninteressante Frage, in wie viel Prozent der gezogenen

Stichproben die Konfidenzintervalle den wahren Parameter überdecken oder

nicht. Dazu wird aus jeder gezogenen Stichprobe nicht nur der

Stichprobenmittelwert, sondern auch die Stichprobenstandardabweichung

berechnet. Diese jeweils durch die Quadratwurzel des Stichprobenumfangs

dividiert, ergibt den (aus der Stichprobe geschätzten) Standardfehler des

Mittelwertes. Das 1,96-fache des Standardfehlers ist wiederum der

Stichprobenfehler für ein 5%-Fehlerniveau. Subtrahieren bzw. addieren wir

diesen Wert zum Stichprobenmittelwert, so erhalten wird die untere bzw. die

obere Grenze des 95%-Konfidenzintervalls. Diese Grenzen werden nun in der

Kennwerte-Datei für jede einzelne gezogene Stichprobe festgehalten. Damit

können die je 10000 berechneten Konfidenzintervalle der gewichteten und der

ungewichteten Mittelwerte anhand ihrer Überdeckungshäufigkeiten

miteinander verglichen werden. In Abbildung 9a und 9b sind die Ergebnisse

festgehalten.

67

Abb. 9a: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle

Ungewichtet

Gewichtet Diskrepanz der Überdeckungs-

häufigkeiten (gewichtet-

ungewichtet)

nicht-überdeckend

(in %)

überdeckend

(in %)

nicht-überdeckend

(in %)

überdeckend

(in %) NR1 5,3 94,7 NR1 0,1 99,9 5,2 NR2 4,8 95,2 NR2 0,9 99,2 4,0 NR3 5,2 94,8 NR3 3,2 96,8 2,0 NR4 5,1 94,9 NR4 3,9 96,1 1,2 NR5 5,6 94,5 NR5 5,4 94,7 0,2 NR6 5,0 95,0 NR6 5,2 94,9 -0,1

Abb. 9b: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle

- graphisch dargestellt (Werte gerundet)

Überdeckungshäufigkeiten der 95%-Intervalle

(in Prozent)

NR6 gewichtet

NR6 ungewichtet

NR5 gewichtet

NR5 ungewichtet

NR4 gewichtet

NR4 ungewichtet

NR3 gewichtet

NR3 ungewichtet

NR2 gewichtet

NR2 ungewichtet

NR1 gewichtet

NR1 ungewichtet

100

99

98

97

96

95

94

93

95959594

96

95

97

95

99

95

100

95

Es zeigt sich, dass die Gewichtung auch hierbei deutliche Vorteile bietet.

Während die berechneten Intervalle der ungewichteten Mittelwerte allesamt

(NR1 bis NR6) in etwa der normativen Vorgabe von 95 Prozent

Überdeckungswahrscheinlichkeit gerecht werden, ist erkennbar, dass die

Intervalle der gewichteten Mittelwerte bei hoher Modellgüte diese Vorgabe

großzügig überschreiten: Bei Variable NR1 überdecken 99,9 Prozent der

Intervalle den wahren Wert; bei Variable NR2 sind es 99,2 Prozent, bei

Variable NR3 96,8 und bei Variable NR4 immerhin noch 96,1 Prozent der

Intervalle. Erst bei schwacher Modellgüte (NR5 und NR6) gleichen sich die

Häufigkeiten einander an, wobei die gewichtete Variable NR6 0,1 Prozent

weniger Intervalle aufweist, die den wahren Wert überdecken, als die

ungewichtete Variable NR6.

68

4.3.3 Zwischenfazit 1

Anhand der durchgeführten Simulationsstudie lassen sich zwei wichtige

Erkenntnisse für die Gewichtung nach dem Soll-durch-Ist-Prinzip festhalten.

Erstens führt die Gewichtung bei hohem Modell-Fit zu einer enormen

Präzisionssteigerung. Dies äußert sich unmittelbar in einer geringeren Streuung

der Stichprobenkennwerteverteilung des gewichteten Schätzers. Bei Vorliegen

nur einer einzigen, konkreten Stichprobe bedeutet dies im Schnitt eine

geringere Differenz zum wahren Wert, eine kleinere Stichprobenvarianz und

einen kleineren Standardfehler. Dies wiederum bewirkt engere Grenzen eines

Vertrauensintervalls und damit im Gesamten eine verbesserte, präzisere

Schätzung. Die Konfidenzintervalle der gezogenen Stichproben sind darüber

hinaus nicht nur kleiner, sie überdecken auch häufiger als vorgegeben den

wahren Wert. Im Falle der hohen Modellgüte sind dies immerhin nahezu 100

Prozent der berechneten Intervalle.

Das einzige Manko ist lediglich darin zu sehen, dass bei schlechter

Modellgüte mit einer leichten Varianzvergrößerung zu rechnen ist, worunter

dann die Präzision minimal zu leiden hat. Wie jedoch gezeigt werden konnte,

ist dies nur bei einer äußerst geringen Korrelation bzw. Nullkorrelation

zwischen Gewichtungs- und Untersuchungsmerkmal (Variable NR6) der Fall.

Zweitens konnte durch die Monte-Carlo-Simulation die Tatsache

bestätigt werden, dass der gewichtete Schätzer unabhängig der Modellgüte

ebenso erwartungstreu ist wie der ungewichtete. Ist also der Modell-Fit

schlecht in dem Sinne, dass die Gewichtungsvariable gänzlich unkorreliert ist

mit der Untersuchungsvariablen, dann führt dies in keiner Weise zu einer

verzerrten Schätzung. In der Konsequenz bedeutet dies für die Praxis, dass die

Gewichtung nach dem Redressment-Prinzip zunächst bedingungslos

empfohlen werden kann, sofern alle anderen systematischen Fehlerquellen

ausgeschlossen werden können.

69

4.4 Simulation 2: Implementierung einer zweiten Gewichtungs-

variablen

Um die Simulationsstudie im Gesamten näher an die in der Praxis

vorherrschenden Prozesse heranzubringen, soll nun das Monte-Carlo-

Experiment unter Hinzufügung einer weiteren Gewichtungsvariablen

wiederholt werden. Dies soll die Variable „Alter“ sein. Konstruiert wird sie im

Populationsdatensatz aus der übriggebliebenen Variablen NR7. Diese Variable

ist zunächst normalverteilt und korreliert nur gering mit allen anderen

Untersuchungsvariablen (vgl. die Korrelationsmatrix aus Abb. 1). Nun wird

aus den Werten dieser Variablen eine neue, trichotome Variable gebildet.

Diese soll die Variable „Alter“ mit den drei Klassen „jung“, „mittel“, und „alt“

darstellen. Die Klassengrenzen werden mehr oder weniger willkürlich so

gewählt, dass 26 Prozent der 100000 Fälle in der Population in die Kategorie

„jung“, 49 Prozent in die Kategorie „mittel“ und 24 Prozent in die Klasse „alt“

fallen. Die Anpassungskategorien der Soll-durch-Ist-Gewichtung ergeben sich

dann aus den Zellen der Kreuztabelle der Merkmalskombination beider

Anpassungsvariablen „Geschlecht“ und „Alter“ zusammen. Diese „Soll“-Tafel

ist in Abbildung 10 abgedruckt:

Abb. 10: „Soll“ - Tafel der Merkmalskombination Alter / Geschlecht

Anzahl

11122 23779 12958 4785915177 25697 11267 5214126299 49476 24225 100000

mw

Geschlecht

Gesamt

jung mittel altAlter in drei Klassen

Gesamt

Jede dieser Anpassungszellen bildet nun den Soll-Wert, nach dem die

Stichproben angepasst werden. Die Berechnung des gewichteten Mittelwertes

entspricht dann wiederum in exakter Weise Formel (29), jedoch diesmal mit

G=6 Anpassungsgruppen.

Die Korrelation der Variablen „Alter“ mit allen

Untersuchungsvariablen ist nun, dadurch dass „Alter“ unmittelbar aus NR7

konstruiert wurde, durchweg gering (vgl. Abbildung 11). Auch die Korrelation

beider Gewichtungsvariablen untereinander ist mit 0,08 äußerst gering. Dies

70

entspricht nahezu dem Praxisfall, bei dem „Alter“ im Regelfall weder hoch mit

„Geschlecht“ oder anderen Gewichtungsvariablen, noch im Schnitt sehr stark

mit typischen Untersuchungsvariablen korreliert ist (vgl. Schnell 1993).

Nun werden analog zum ersten Durchgang erneut 10000 Stichproben

gezogen und jedes Mal die ungewichteten und gewichteten Mittelwerte der

sechs Untersuchungsvariablen berechnet. Der dafür erforderliche SPSS

Programmcode für diese Prozedur findet sich in Anhang 3 abgedruckt.

Abb. 11: Korrelation der Gewichtungsvariablen Alter/Geschlecht mit den

Untersuchungsvariablen NR1-NR6

Alter

Geschlecht

Modellgüte

(gilt für Geschlecht)

NR1 ,099 ,798 Hoch NR2 ,136 ,670

NR3 ,073 ,448 Mittel NR4 ,136 ,318

NR5 ,162 ,160 schwach NR6 ,179 ,039

N = 100000

4.4.1 Ergebnisauswertung


Zu den Ergebnissen lässt sich vorwegnehmend sagen, dass sie in ihrer

Richtung große Ähnlichkeit zum ersten Durchlauf mit nur einer

Gewichtungsvariablen aufweisen: Auch hier zeichnen sich die

normalverteilten Stichprobenkennwerteverteilungen zunächst dadurch aus,

dass ihr Mittelwert den tatsächlichen Wert annähernd trifft (vgl. Abb. 12a).

Die hier ersichtlichen Differenzen der Erwartungswerte zum tatsächlichen

Mittelwert (1800) sind zudem (über alle Variablen hinweg) nicht signifikant

(vgl. Z-Test in Abb. 12b). Die ungewichteten als auch die gewichteten

71

Schätzer sind demnach erwartungstreu. Diese Eigenschaft wurde bereits

analytisch bestätigt und konnte empirisch in der ersten Simulation und nun

auch unter Beifügung einer weiteren Gewichtungsvariablen in der zweiten

Simulation demonstriert werden. Wichtig dabei ist die Erkenntnis, dass die

Erwartungstreue auch dann noch gegeben ist, wenn insgesamt eine schlechte

Modellgüte vorliegt. Diese Erkenntnis unterstreicht der durchgeführte T-Test

für gepaarte Stichproben (vgl. Abb. 12c). Dort sind die Differenzen zwischen

den jeweils gewichteten und ungewichteten Erwartungswerten allesamt (auf

hohem Niveau) als nicht signifikant ausgezeichnet. Das lässt darauf schließen,

dass die gefundenen Differenzen zwischen den Erwartungswerten so gering

sind, dass sie nicht aufgrund der Gewichtung, sondern aufgrund von

zufallsbedingten Einflüssen entstanden sein müssen. Es kann demnach

unabhängig der Modellgüte des Gewichtungsverfahrens mit erwartungstreuen

Schätzern gerechnet werden. Auch die Gewichtung mit zwei

Anpassungsmerkmalen beeinflusst die Unverzerrtheit des Schätzers nicht.

Abb. 12a: approximierte Erwartungswerte der ungewichteten und gewichteten

Stichprobenmittelwerte für die Variablen NR1 bis NR6

1795

1800

1805

ungewichtet 1799,595 1799,813 1799,838 1799,866 1799,568 1799,481

gewichtet nach Alter &Geschlecht

1799,693 1799,901 1799,908 1799,887 1799,4 1799,467

1 2 3 4 5 6

Abb. 12b: Z-Test mit dem Vorgabewert μ0 = 1800

Testwert = 1800

-ungewichtet - - gewichtet -

T Df Sig. (2-seitig)

T df Sig. (2-seitig)

NR1 -,807 9999 ,420 -,987 9999 ,324 NR2 -,374 9999 ,708 -,259 9999 ,795 NR3 -,323 9999 ,747 -,200 9999 ,841 NR4 -,269 9999 ,788 -,234 9999 ,815 NR5 -,871 9999 ,384 -1,204 9999 ,229 NR6 -1,047 9999 ,295 -1,062 9999 ,288

72

Abb. 12c: T-Test bei gepaarten Stichproben

Gepaarte Differenzen T df Sig. (2-seitig)

Mittelwert der

paarweisen Differenzen

Standard-abweichung


Standard-fehler der

Mittelwert-differenzen

95% Konfidenzintervall

der mittleren Differenz

Untere Obere Paar

1 NR1a Mittelwerte

ungewichtet – NR1b Mittelwerte gewichtet

-,0976 40,33286 ,40333 -,8882 ,6930 -,242 9999 ,809

Paar 2

NR2a Mittelwerte ungewichtet – NR2b

Mittelwerte gewichtet

-,0886 34,61636 ,34616 -,7672 ,5899 -,256 9999 ,798

Paar 3



-,0693 24,68873 ,24689 -,5533 ,4146 -,281 9999 ,779

Paar 4



-,0210 20,19064 ,20191 -,4168 ,3748 -,104 9999 ,917

Paar 5



,1674 16,17841 ,16178 -,1498 ,4845 1,034 9999 ,301

Paar 6



,0145 14,91266 ,14913 -,2779 ,3068 ,097 9999 ,923


Die Streuungen der Stichprobenkennwerteverteilungen, in Abb. 13 anhand der

Standardabweichungen der Mittelwertverteilungen (=Standardfehler)

dargestellt, zeigen ebenfalls große Ähnlichkeiten zum ersten Durchlauf: Mit

steigender Modellgüte steigt auch der Präzisionsgewinn.

Abb. 13: Streuung (Standardabweichung) der Mittelwertverteilungen für alle

sechs Untersuchungsvariablen; jeweils für den ungewichteten wie

gewichteten Fall

0

20

40

60

ungew ichtet 50,14004 50,04318 50,07244 49,89137 49,6315 49,53303

gew ichtet nach Alter &Geschlecht

31,12758 38,02815 46,05645 48,34836 49,83771 50,19305

1 2 3 4 5 6

73

Vergleichen wir die Effizienz beider Gewichtungsverfahren, so zeigt sich, dass

sie in Abhängigkeit der Modellgüte für beide Verfahren gleichförmig verläuft,

dabei insgesamt bei der Gewichtung nach zwei Merkmalen etwas geringer

ausfällt (vgl. Abb. 14).

Abb. 14: Relative Effizienz (Invers) der Schätzer für die Variablen NR1 –

NR6; jeweils für beide Gewichtungsverfahren

Gewichtet nach Geschlecht Gewichtet nach Alter & Geschlecht

Relative Effizienz

(Invers)

Relative Effizienz

(Invers)

NR1 2,7103 2,5946 NR2 1,7848 1,7317 NR3 1,2211 1,1820 NR4 1,1033 1,0648 NR5 1,0158 0,9917 NR6 0,9918 0,9739

- graphisch dargestellt -

Relative Effizienz (Invers)

NR6NR5NR4NR3NR2NR1

3,0

2,0

1,0

0,0

3,0

2,5

2,0

1,5

1,0

,5

0,0

Gewichtet nach

Geschlecht & Alter

Geschlecht

74


Es bleibt festzuhalten, dass die Ergänzung um eine weitere

Gewichtungsvariable das ursprüngliche Bild nicht wesentlich verändert. Die

Präzisionskraft der Prozedur hängt auch weiterhin von der möglichst hohen

Korrelation (mindestens) einer Gewichtungsvariablen ab. Die Hinzufügung

einer mit den Untersuchungsvariablen insgesamt schwach in Verbindung

stehenden Gewichtungsvariablen bewirkt im Ganzen lediglich eine leichte

Mäßigung des Präzisionsgewinns. Für den Fall, dass beide Adaptionsvariablen

nur schwach mit den Untersuchungsvariablen korrelieren, kommt es zu einer

leichten Varianzvergrößerung. Unabhängig davon bleibt jedoch noch einmal

zu betonen, dass die (approximative) Erwartungstreue des gewichteten

Schätzers in jedem Fall garantiert bleibt.


Schätzung von Korrelationskoeffizienten

Speziell in der Sozialforschung ist der Forscher bekanntlich weniger an der

Schätzung von konkreten Mittel- oder Anteilswerten interessiert, als vielmehr

an der konfirmatorischen Überprüfung theoretisch vermuteter

Beziehungsstrukturen zwischen Variablen. Dies geschieht durch geeignete

statistische Modellierung. Ein breites Angebot der statistischen Modellanalyse

steht dem Anwender dafür zur Verfügung. Dieses reicht von der Konstruktion

einfacher Regressionsmodelle bis hin zur Betrachtung theoretischer Gebäude

mittels Kovarianzstrukturanalysen.

Kovarianzen bzw. Korrelationskoeffizienten stellen dabei immer

Kernpunkte jeglicher Analyse von Beziehungsstrukturen dar. Es drängt sich

nun die Frage auf, inwiefern eine Gewichtung sich auf die Schätzung von

Korrelationskoeffizienten auswirkt. Mit welchen Effekten ist für ein

aufgestelltes Regressionsmodell zu rechnen, wenn die Stichprobe gewichtet

wird?

Die meisten „Modellbauer“ unter den Sozialforschern argumentieren,

dass eine Gewichtung von Merkmalswerten für die Konstruktion eines

Regressionsmodells irrelevant ist. Dies soll durch folgendes Beispiel

75

verdeutlicht werden (vgl. Groves et. al. 2004: 389). Angenommen, y folgt der

Theorie nach aus x. Eine einfache Modellgleichung der Gestalt

iii exy ++= 10 ββ wird benutzt, um diese Theorie an der Empirie zu testen.

Nun sind beispielsweise die Stichprobendaten dahingehend verzerrt, dass

ältere Personen über- und jüngere Personen unterrepräsentiert sind. Sie

müssten eigentlich, zwecks Nivellierung dieser Verzerrung, entsprechend nach

„Alter“ gewichtet werden. Der an der Überprüfung seiner Theorie orientierte

„Modellbauer“ würde dem jedoch entgegenhalten, dass das Modell falsch

spezifiziert ist, wenn „Alter“ die Regression zwischen x und y beeinflusst. Eine

Gewichtung würde sich erübrigen, sofern der Einfluss des Merkmals „Alter“

auf die Variablen x und y im Modell explizite Berücksichtigung findet.

Dennoch, sofern ein solcher Einfluss im Modell nicht berücksichtigt

wird, bleibt die Frage offen: Wie wirkt sich unsere Redressment-Gewichtung

auf die Schätzung eines Korrelationsmodells aus? Sind

Korrelationskoeffizienten generell robust oder anfällig gegenüber gewichteten

Daten? Inwieweit spielt die Korrelation zwischen den Gewichtungsvariablen

und den im Korrelationsmodell verwendeten Untersuchungsvariablen auf die

Schätzung der Modellkoeffizienten eine Rolle?

Die nachfolgende Simulation soll nun den konkreten Einfluss einer

Redressment-Gewichtung unter zwei Aspekten näher untersuchen. Dazu

werden zwei bivariate Test-Modelle erstellt: Modell 1 ist die Korrelation

zwischen den Untersuchungsvariablen NR1 und NR3. Auf Populationsebene

beträgt sie 0,56. Modell 2 ist der Zusammenhang zwischen Variable NR5 und

NR6, deren Produkt-Moment-Korrelationswert in der Population bei 0,35 liegt.

Dies sind die Parameter, die es im Folgenden zu schätzen gilt.

Die Simulationstechnik ist dabei identisch mit der vorangegangenen

Simulation, d.h. die konstruierte Population, die Monte-Carlo-Methode der

Stichprobenziehung und die Gewichtung der Daten ändern sich nicht. Die zu

schätzenden Kennwerte sind mit Respekt zur Vorgabe nun nicht Mittelwerte,

sondern die zwei Korrelationskoeffizienten beider Modelle. Die

Modellvariablen NR1 und NR3 (Modell 1) bzw. NR5 und NR6 (Modell 2)

werden für die Analyse deswegen ausgewählt, weil sie zum einen jeweils

beide sehr hoch (Modell 1) und zum anderen beide sehr niedrig (Modell 2) mit

der Gewichtungsvariablen „Geschlecht“ korrelieren (vgl. Abb. 2)

76

Analog zur ersten Simulation werden erneut jeweils 10000 Stichproben

der Größe 100 aus der Population gezogen. Jedes Mal wird für beide Modelle

der Korrelationswert für die ungewichtete und gewichtete Stichprobe

berechnet und in einer Kennwerte-Datei abgespeichert. Die Gewichtung

erfolgt in zweifacher Weise: Zuerst wird der Datensatz nach ‚Geschlecht’

gewichtet, anschließend simultan nach der Kombination ‚Geschlecht’ und

‚Alter’. Die sich nun ergebenden, normalverteilten Stichproben-

kennwerteverteilungen der Korrelationskoeffizienten werden nun miteinander

verglichen.



Es zeigt sich zunächst in Abbildung 16a und 16b, dass die ‚wahren’

Korrelationskoeffizienten (Modell 1 = 0,56 und Modell 2 = 0,35) durch die

Mittelwerte der Stichprobenverteilungen gleichermaßen „gut“, jedoch nicht

„exakt“ reproduziert werden. Insgesamt sind die Stichprobenverteilungen

leicht linksschief, was womöglich damit zusammenhängt, dass die Verteilung

bei Korrelationskoeffizienten generell langsamer gegen die Normalverteilung

konvergiert und diese dann auch nur approximativ erreicht.

Abb. 16a: Histogramme ungewichteten und gewichteten Korrelations-

koeffizienten beider Modelle; jeweils für beide Modelle &

gewichtet nach beiden Verfahren

Modell 1 - ungewichtet

,750,700

,650,600

,550,500

,450,400

,350,300

,250

1600

1400

1200

1000

800

600

400

200

0

Std.abw. = ,07 Mittel = ,557

N = 10000,00

Modell 1 - gew. n. G

,750,700

,650,600

,550,500

,450,400

,350,300

,250

1600

1400

1200

1000

800

600

400

200

0


N = 10000,00

Modell 1 - gew. n. A & G

,775,725

,675,625

,575,525

,475,425

,375,325

,275,225

1600

1400

1200

1000

800

600

400

200

0


N = 10000,00

77

Modell 2 - ungewichtet

,625,575

,525,475

,425,375

,325,275

,225,175

,125,075

,025-,025

1200

1000

800

600

400

200

0


N = 10000,00

Modell 2 - gew. n. G

,650,600

,550,500

,450,400

,350,300

,250,200

,150,100

,050,000

-,050

1200

1000

800

600

400

200

0


N = 10000,00

Modell 2 - gew. n. A & G

,625,575

,525,475

,425,375

,325,275

,225,175

,125,075

,025-,025

1200

1000

800

600

400

200

0


N = 10000,00

Abb. 16b: (appr.) Erwartungswerte für beide Modelle

Ungewichtet Gewichtet nach

Geschlecht Gewichtet nach

Alter & Geschlecht

Anzahl der Stichproben

(appr.) Erwartungs-

wert

Standard- fehler

(appr.) Erwartungs-

wert

Standard- fehler

(appr.) Erwartungs-

wert

Standard- fehler

Modell 1 10000 0,5574 0,06898 0,5588 0,06901 0,5587 0,07066

Modell 2 10000 0,3482 0,08859 0,3481 0,08902 0,3484 0,09102

Konkret lässt sich insbesondere für Modell 1 feststellen, dass beide

Gewichtungsverfahren eine leicht bessere Annäherung an den wahren Wert

liefern als die ungewichteten Stichproben. Die Erwartungstreue scheint jedoch

für die ungewichteten Schätzer, als auch teilweise für die gewichteten nicht

vollständig erreicht worden zu sein. Zumindest zeigen die Ergebnisse des Z-

Tests mit dem Vorgabewert 0,56 bzw. 0,35, dass die hier geschätzten

Erwartungswerte sich zum Teil signifikant vom tatsächlichen Wert

unterscheiden (vgl. Abb. 16c). Dies gilt in beiden Modellen für den

ungewichteten Fall, nicht jedoch durchgängig für den gewichteten. Unter

Modell 1 sind die Differenzen auf dem 5%-Niveau für beide Gewichtungsarten

nicht mehr signifikant (Sig.: 0,09 und 0,06), unter Modell 2 nur für die

Gewichtung nach Alter & Geschlecht (Sig.: 0,072). Dies deutet darauf hin,

dass die gewichteten, und insbesondere die nach beiden Merkmalen

gewichteten Schätzungen weniger verzerrt sind. Insgesamt müssen die

Ergebnisse des Z-Tests doch mit Vorsicht betrachtet werden. Bei einer solch

hohen Stichprobengröße von 10000 können bereits sehr kleine Differenzen zu

signifikanten Differenzen werden. Deswegen kann hier mit diesem Ergebnis

78

keineswegs bestätigt werden, dass die ungewichtete Schätzfunktion des

Korrelationskoeffizienten eine verzerrte sei. Es lässt sich hier jedoch soviel

festhalten: Unter Modell 1 erhalten wir durch die Gewichtung

Erwartungswerte, die näher am tatsächlichen Wert liegen. Die Differenzen

zwischen den ungewichteten und gewichteten Erwartungswerten sind dabei

sogar so groß, dass sie signifikant sind. Dieses Ergebnis zeigt der T-Test für

gepaarte Stichproben, auch wenn hier wieder die Ergebnisse aus bekannten

Gründen mit Vorsicht zu lesen sind (vgl. Abb. 16d).

Abb. 16c: Z-Tests für beide Modelle

-3,723 9999 ,000-1,695 9999 ,090-1,884 9999 ,060

Modell 1 - ungewichtetModell 1 - gew. n. GeschlechtModell 1 - gew. n. Alter & Geschl.


Testwert = 0.56

-2,026 9999 ,043-2,133 9999 ,033-1,800 9999 ,072

Modell 2 - ungewichtetModell 2 - gew. n. GeschlechtModell 2 - gew. n. Alter & Geschlecht


Testwert = 0.35

Abb. 16d: T-Test für gepaarte Stichproben Gepaarte Differenzen T Df Sig. (2-

seitig) Mittelwert


Standard-abweichu

ng der paarweise

n Differenz

en

Standard-fehler der

Mittel-wert-

differenzen

95% Konfidenz-intervall der

mittleren Differenz

Untere Obere Paar

1 Modell 1: „ungewichtet“

– „gewichtet n. Geschlecht“

-,0014 ,00518 ,00005 -,0015 -,0013 -26,99 9999 ,000

Paar 2

Modell 1: „ungewichtet“ – „gewichtet n. Alter &

Geschlecht“

-,0012 ,01591 ,00016 -,0015 -,0009 -7,775 9999 ,000

Paar 3

Modell 2: „ungewichtet“ – „gewichtet n.

Geschlecht“

,0001 ,00867 ,00009 -,0001 ,0003 1,201 9999 ,230

Paar 4

Modell 2: „ungewichtet“ – „gewichtet n. Alter &

Geschlecht“

-,0002 ,02122 ,00021 -,0006 ,0003 -,735 9999 ,463

79


Vergleicht man nun die Streuungen der jeweils gewichteten und ungewichteten

Verteilungen miteinander, so fällt auf, dass die gewichteten Verteilungen

allesamt leicht höhere Varianzen aufweisen. Dies ist erkennbar an den

Standardfehlern aus Abb. 16b, sowie an der in Abb. 17 dargestellten relativen

Effizienz. Dabei streut die Stichprobenverteilung der nach dem Merkmal

Geschlecht gewichteten Kennwerte zwar höher als die Verteilung der

ungewichteten Kennwerte, aber die Differenz ist sehr klein. Die Werte der

relativen und der Inversen relativen Effizienz liegen alle äußerst nahe bei Eins

(vgl. die ersten zwei Spalten in Abb. 17). Dagegen weisen die Verteilungen der

nach Alter und Geschlecht gewichteten Stichproben höhere Varianzen auf. So

liegt die Varianz bei Modell 1 um das 1,04-fache und bei Modell 2 um das

1,05-fache höher als bei einfacher Hochrechnung (vgl. die letzten Spalten in

Abb. 17). Insgesamt kann also insbesondere bei der Gewichtung mit zwei

Merkmalen mit einem leichten Präzisionsverlust gerechnet werden.

Abb. 17: relative Effizienz und Inverse relative Effizienz der Schätzer für

beide Modelle & Gewichtungsarten

Gewichtet nach Geschlecht Gewichtet nach Alter & Geschlecht Relative Effizienz

)(/)( tungewichtegewichtet XVarXVar= Relative Effizienz

(Invers) Relative Effizienz

)(/)( tungewichtegewichtet XVarXVar= Relative Effizienz

(Invers) Modell 1 1,0010 0,9990 1,0494 0,9530 Modell 2 1,0098 0,9903 1,0557 0,9473

Bei aller Kennzeichnung der Ungleichheiten zwischen Gewichtung und

Nichtgewichtung sollten die Gemeinsamkeiten nicht vergessen werden. Denn

die Streuungsunterschiede der Verteilungen sind nur äußerst gering, wie dies

die Betrachtung der Boxplots in Abb. 18 deutlich zu unterstreichen vermag.

Abb. 18: Boxplots der Stichprobenverteilungen beider Modelle

100001000010000N =

Modell 1

gew. n. A & G

gew. n. G

ungewichtet

,9

,8

,7

,6

,5

,4

,3

,2

,1

100001000010000N =

Modell 2

gew. n. A&G

gew. n. G

ungewichtet

,8

,6

,4

,2

0,0

-,2

80


Wir berechnen nun die exakte Differenz aller geschätzten

Korrelationskoeffizienten zum tatsächlichen Populationswert und vergleichen

jeweils die Abstände der gewichteten und ungewichteten Koeffizienten. Nun

ist erkennbar, in wie viel Prozent der gezogenen Stichproben der gewichtete

oder der ungewichtete Datensatz Schätzungen hervorgebracht hat, die näher

am wahren Wert liegen. Abbildung 19 zeigt, dass die Gewichtung nach dem

Merkmal Geschlecht im Vergleich zur Nichtgewichtung in 59,9 Prozent

(Modell 1) bzw. in 55,8 Prozent (Modell 2) der gezogenen Stichproben

Schätzungen mit geringerer Differenz zum wahren Wert ergeben. Gewichtet

man die Stichproben jedoch nach der Merkmalskombination Alter und

Geschlecht, so findet sich nur noch in 48,2 bzw. 47,1 Prozent (Modell 1 bzw.

2) der Fälle eine Verbesserung der Schätzung gegenüber der Nichtgewichtung.

Die geringe Varianzvergrößerung bei der simultanen Gewichtung nach zwei

Merkmalen äußert sich also in einer geringeren Häufigkeit von präziseren

Stichprobenziehungen.

Abb. 19: Prozentsatz der gezogenen Stichproben, bei denen der gewichtete

Schätzer näher am wahren Wert liegt


Es zeigt sich, dass unter Modell 1 (hohe Modellgüte) die Gewichtung nach

Geschlecht als auch die Gewichtung nach Alter und Geschlecht weniger

„verzerrte“ Erwartungswerte hervorgebracht hat. Unter Modell 2 (schlechte

Gewichtet nach Geschlecht

Gewichtet nach Alter & Geschlecht

Mod2 Gew.(A&G)besser

Mod2 Gew.(G) besser

Mod1 Gew.(A&G)besser

Mod1 Gew.(G) besser

Abso

lute

Häu

figke

iten

6200

6000

5800

5600

5400

5200

5000

4800

4600

4400

4714

5578

4824

5991

Modell 1 59,9 % 48,2 % Modell 2 55,8 % 47,1 %

81

Modellgüte) erweist sich sogar der geschätzte Erwartungswert für die

Gewichtung nach beiden Merkmalen als derjenige Wert, welcher die beste

Annäherung an den wahren Wert aufwies. Dennoch, betrachtet man die

Varianzen, dann scheint insbesondere die Beifügung eines zweiten

Gewichtungsmerkmals einen leicht negativen Einfluss auf die Präzision im

Sinne einer Varianzvergrößerung zu haben.

Dessen ungeachtet zeigt dieses Ergebnis im Gesamten, dass der

Einfluss einer Redressment-Gewichtung auf die Präzision der Schätzung bei

Korrelationskoeffizienten weniger stark ist als bei Mittelwerten. Die

gewichtete Schätzung von Korrelationskoeffizienten offenbart sich damit

insgesamt als etwas „robuster“ gegenüber dem Einfluss einer Gewichtung.


Schätzung von Mittelwerten unter Berücksichtigung

systematischer Nonresponse-Effekte

Die im vorherigen Abschnitt zugrundegelegten Simulationsmodelle

berücksichtigten den Einfluss systematischer Ausfälle auf die

Parameterschätzungen nicht. Alle berechneten Schätzer – gewichtet wie

ungewichtet – waren demnach unverzerrt. In einem weiteren Experiment

sollen nun explizit diverse Mechanismen des Unit-Nonresponse einbezogen

werden. Untersucht werden soll nun, inwieweit die simulierte Redressment-

Gewichtung den durch systematischen Ausfall entstandenen „Schaden“

beheben kann.

Mit Verzerrungen in den Untersuchungsvariablen ist immer dann zu

rechnen, wenn die Teilnahmewahrscheinlichkeit mit den interessierenden

Merkmalen korreliert ist. Bildet man nun für eine Redressment-Gewichtung im

Datensatz Anpassungsgruppen, dann ist die Gewichtung insbesondere dann

äußerst sinnvoll, wenn die Gruppierung so erfolgt, dass innerhalb der Gruppen

die Korrelation zwischen der Teilnahmewahrscheinlichkeit und den

interessierenden Merkmalen auf Null gebracht wird.

Unter Nonresponse verfolgt die Gewichtung zwei Ziele: Wie sonst

auch kann sie die Präzision der Schätzung durch Varianzreduktion erhöhen,

sofern Gewichtungs- und Untersuchungsmerkmale ausreichend stark

82

korrelieren. Hinzu kommt, dass sie einen ausfallbedingten Bias korrigieren

kann, sofern der Ausfallmechanismus innerhalb der Anpassungsgruppen

möglichst missing at random (MAR) ist.

Orientiert man sich an der Praxis, so sind zwei Szenarien des

Redressments als Nonresponsekorrektur denkbar: Entweder sind die An-

passungsklassen der Gewichtungsvariablen so gewählt, dass tatsächlich MAR

unterstellt werden kann (Szenario 1) oder die Gruppen sind so gewählt, dass

sie der Annahme nicht gerecht werden (Szenario 2).

Beide Szenarien sollen nun simuliert und anschließend miteinander

verglichen werden. Die Modellierung des Nonresponse-Mechanismus

geschieht dabei folgendermaßen. Im Populationsdatensatz wird zunächst eine

Indikatorvariable erstellt, die für jedes Element angibt, ob es zur Gruppe der

Teilnehmer oder zur Gruppe der Nichtteilnehmer gehört. Die Zuordnung

geschieht dabei über ein Bernoulli-Experiment, welches mit einer

vorgegebener Wahrscheinlichkeit jedem Element entweder die Zahl 1 für

„Response“ oder die Zahl 0 für „Nonresponse“ zuordnet.33 Realisiert wird dies

über eine entsprechende COMPUTE-Anweisung zur Erzeugung Bernoulli-

verteilter Zufallsvariablen (vgl. Programmcode in Anhang 4).

Für Szenario 1 wird dazu in jeder einzelnen Anpassungszelle der

Merkmalskombination Alter/Geschlecht ein eigenes Bernoulli-Experiment mit

vordefinierter Wahrscheinlichkeit durchgeführt. Jede Gewichtungsklasse

bekommt nun ihre eigene (konstante) Responsequote zugewiesen (vgl. Abb.

A1 in Anhang 4). Durch diese Vorgehensweise ist nun gewährleistet, dass

innerhalb der Anpassungsklassen der Responsemechanismus mit den

Untersuchungsvariablen nahezu unkorreliert ist (vgl. Abb. 20).

Für Szenario 1 haben wir damit MAR-Daten hergestellt, d.h. die

Reponse-Wahrscheinlichkeit korreliert mit den Gewichtungsvariablen, nicht

aber direkt mit den Untersuchungsvariablen.34 Der negative Effekt von

Nonresponse auf die Qualität der Schätzungen kann nun durch die Gewichtung

kontrolliert werden, es herrscht ignorable Nonresponse.

33 Bei den späteren Stichprobenziehungen können dann entsprechend nur Fälle mit Response = 1 ausgewählt werden. Programmtechnisch geschieht dies über eine entsprechende Filterung. 34Eine Korrelation mit den Untersuchungsvariablen besteht jedoch indirekt. Dadurch, dass nämlich die Gewichtungsvariablen mit den Untersuchungsvariablen mehr oder weniger stark korrelieren, beeinflusst der (mit den Gewichtungsvariablen korrelierte) Response auch indirekt die Untersuchungsvariablen mehr oder weniger stark. Das bedeutet, dass insbesondere die Variablen NR1 und NR2 (hohe Korrelation mit den Gewichtungsmerkmal „Geschlecht“) durch den Ausfallmechanismus verzerrt sein werden.

83

Abb. 20: Korrelation der Response-Variable mit den Untersuchungsvariablen

innerhalb der Anpassungszellen (Szenario 1)

Altersklassen

1 2 3 Geschlecht m Response Response Response

NR1 ,001 NR1 -,008 NR1 ,001 NR2 -,006 NR2 ,003 NR2 ,006 NR3 ,002 NR3 ,002 NR3 ,009 NR4 ,001 NR4 -,002 NR4 ,007 NR5 ,009 NR5 -,003 NR5 -,004 NR6 -,008 NR6 -,003 NR6 ,006

w Response Response Response NR1 ,009 NR1 -,006 NR1 -,011 NR2 ,011 NR2 -,008 NR2 -,003 NR3 ,008 NR3 -,010 NR3 -,014 NR4 ,004 NR4 -,011 NR4 -,004 NR5 ,012 NR5 -,015 NR5 -,011 NR6 ,004 NR6 -,001 NR6 ,001

Zur Modellierung von Szenario 2 werden die Response-Wahrscheinlichkeiten

nun genau nicht auf die Merkmalskombination der Gewichtungsvariablen

Alter und Geschlecht verteilt, sondern auf andere, noch zu erstellende

Gruppen. Dafür werden aus den Ausgangsvariablen NR5 und NR6 im

Populationsdatensatz durch entsprechende Klassifikation der Merkmalswerte

zwei neue Variablen, eine dichotome und eine trichotome, erstellt. Die

Merkmalskombination dieser beiden Variablen bildet nun die

Verteilungsgrundlage der Responsewahrscheinlichkeiten. Jetzt herrscht

innerhalb der Gewichtungsklassen der Kombination Alter/Geschlecht keine

Nullkorrelation zwischen der Response-Variablen und den

Untersuchungsvariablen (vgl. Abb. 21).

Abb. 21: Korrelation der Response-Variable mit den Untersuchungsvariablen

innerhalb der Anpassungszellen (Szenario 2)

Altersklassen

1 2 3 Geschlecht m Response Response Response

NR1 -,024 NR1 -,027 NR1 -,015 NR2 -,053 NR2 -,043 NR2 -,031 NR3 -,095 NR3 -,088 NR3 -,071 NR4 -,054 NR4 -,042 NR4 -0,17 NR5 -,138 NR5 -,131 NR5 -,081 NR6 -,268 NR6 -,245 NR6 -,190

w Response Response Response NR1 -,007 NR1 -,014 NR1 -,026 NR2 -,037 NR2 -,053 NR2 -,048 NR3 -,089 NR3 -,105 NR3 -,090 NR4 -,042 NR4 -,051 NR4 -,040 NR5 -,132 NR5 -,137 NR5 -,103 NR6 -,292 NR6 -,291 NR6 -,266

84

Der Nonresponse-Mechanismus ist nun non-ignorable. Das zweite Szenario

simuliert damit den Fall, der in der Praxis womöglich häufiger anzutreffen ist.

Bei der Analyse der Simulationsergebnisse soll daher diesem Fall besondere

Aufmerksamkeit geschenkt werden.

Die in Abbildung 20 und 21 dargestellten Werte beziehen sich auf die

Korrelationen innerhalb der Gewichtungsklassen. Lässt man den

Populationsdatensatz ungruppiert, dann beschreibt die Korrelation zwischen

der Response-Variablen und den Untersuchungsvariablen die Stärke der zu

erwartenden Verzerrung in den Parameterschätzungen (vgl. Abb. 22). Die

Mittelwerte in Abb. 22 beziehen sich nun auf die Teilpopulation der

Respondenten, d.h. diejenigen Fälle, bei denen die Response-Variable den

Wert 1 aufweist. Es zeigt sich nun, dass unter dem ersten Szenario die

Korrelation besonders für die ersten Untersuchungsvariablen sehr hoch ist, im

zweiten Szenario für die letzten Variablen. Dementsprechend finden sich, wie

anhand der Mittelwerte erkennbar, die höchsten Abweichungen der

Mittelwerte vom „wahren“ Wert (1800) in Szenario 1 besonders bei den

ersten, in Szenario 2 bei den letzteren Untersuchungsvariablen.

Abb. 22 Korrelation zwischen Response und Untersuchungsvariablen auf der

Gesamtebene; Mittelwerte aller Untersuchungsvariablen für die

Fälle mit einem Response-Wert von 1; jeweils für beide Szenarien

Szenario 1

Korrelation mit

„Response“

Anzahl der Fälle mit

Response=1

Mittelwert (für Fälle mit

Response = 1)

NR1 -0,153 79923 1761,72 NR2 -0,136 79923 1765,93 NR3 -0,090 79923 1777,57 NR4 -0,075 79923 1781,31 NR5 -0,048 79923 1787,87 NR6 -0,035 79923 1791,30

Es soll also nun untersucht werden, inwieweit sich die Gewichtung unter den

zwei konstruierten Szenarien verhält. Für beide Szenarien werden nun jeweils

Szenario 2

Korrelation

mit „Response“

Anzahl der Fälle mit

Response=1

Mittelwert (für Fälle mit

Response = 1)

NR1 -0,025 70661 1791,88 NR2 -0,048 70661 1784,56 NR3 -0,091 70661 1770,80 NR4 -0,051 70661 1783,56 NR5 -0,132 70661 1757,53 NR6 -0,268 70661 1713,55

85

wiederum 10000 Stichproben nach dem bereits bekannten Prinzip gezogen.35

Jedes Mal wird erst der ungewichtete, dann der nach Geschlecht, sowie der

nach Alter und Geschlecht gewichtete Mittelwert berechnet.



In Abbildung 23a und 23c sind für beide Szenarien und für alle sechs

Untersuchungsvariablen die geschätzten Erwartungswerte, d.h. die Mittelwerte

der Stichprobenverteilungen, dargestellt. In Abbildung 23b und 23c ist jeweils

der Bias wiedergegeben. An den dort zu sehenden Werten der ungewichteten

Mittelwertverteilungen ist nun für beide Szenarien deutlich das Ausmaß der

ausfallbedingten Verzerrung erkennbar: Die ungewichteten Mittelwerte aller

Untersuchungsvariablen weichen mehr oder weniger stark vom tatsächlichem

Wert (1800) ab. Dies gilt unter Szenario 1 in besonderem Maße für die ersten,

unter Szenario 2 verstärkt für die letzteren Variablen. Die (ungewichtete)

Schätzfunktion ist nur noch erwartungstreu für die Gesamtheit der Teilnehmer,

nicht aber für alle Elemente in der Zielpopulation. Geradezu frappierend sind

die Ergebnisse der gewichteten Mittelwertverteilungen in Szenario 1: Die

Mittelwerte liegen dort für alle Untersuchungsvariablen trotz systematischer

Ausfallverzerrungen nahezu am wahren Mittelwert von 1800 (vgl. Abb. 23a).

Dies gilt für die Gewichtung nach Geschlecht, und mehr noch, für die

Gewichtung nach Alter und Geschlecht. Unter den Voraussetzungen von

Szenario 1 stellt damit die Gewichtung eine erhebliche Verbesserung

gegenüber der Nichtgewichtung dar, da sie imstande ist, die Nonresponse-

Verzerrung adäquat auszugleichen. Der Nonresponse-Bias reduziert sich

nahezu auf Null (vgl. Abb. 23b)

In der Praxis stellt es jedoch einen Regelfall dar, dass die Verhältnisse

mehr oder weniger stark von den in Szenario 1 herrschenden, idealen

Bedingungen abweichen. Diesen Fall illustriert das zweite Szenario. Dort sind

35 Dabei wird so vorgegangen, dass jeweils eine einfache Zufallsauswahl aus der Subpopulation aller „Respondenten“ gezogen wird. Dadurch werden die Elemente automatisch nach ihrer vordefinierten Response-Wahrscheinlichkeit gezogen.

86

die Gewichtungsvariablen aufgrund des herrschenden Nonresponse-

Mechanismus gerade nicht imstande, innerhalb der Anpassungsklassen

Nullkorrelation herzustellen.

Wie die Simulationsergebnisse für Szenario 2 in Abb. 23c zu erkennen

geben, kann die Nonresponse-Verzerrung durch die Gewichtung tatsächlich

nicht ausgeglichen werden. Die simulierten Erwartungswerte sind allesamt

verzerrt. Doch eines fällt auf: Die gewichteten, und erneut insbesondere die

nach Alter und Geschlecht gewichteten Mittelwerte liegen für alle sechs

Untersuchungsvariablen im Durchschnitt näher am tatsächlichen Wert als die

ungewichteten Mittelwerte. Der Bias wird durch die Gewichtung folglich zwar

nicht ganz eliminiert, zumindest aber reduziert (vgl. Abb. 23d)

Abb. 23a: (appr.) Erwartungswerte aller sechs Untersuchungsvariablen für

Szenario 1

1700

1720

1740

1760

1780

1800

1820

Szenario 1

ungewichtet 1760,98 1765,68 1777,78 1781,86 1788,67 1791,8

gewichtet nach Geschlecht 1798,55 1797,28 1798,91 1796,84 1796,43 1793,82

gewichtet nach Alter & Geschlecht 1799,9 1800,75 1800,62 1800,92 1800,91 1800,64

1 2 3 4 5 6

Abb. 23b: Bias für alle sechs Untersuchungsvariablen - Szenario 1

87

-40

-30

-20

-10

0

10B

IAS

- Sze

nario

1

ungewichtet -39,02 -34,32 -22,22 -18,14 -11,33 -8,2


-1,45 -2,72 -1,09 -3,16 -3,57 -6,18


-0,1 0,75 0,62 0,92 0,91 0,64

1 2 3 4 5 6

Abb. 23c: (appr.) Erwartungswerte aller sechs Untersuchungsvariablen für

Szenario 2

1700

1720

1740

1760

1780

1800

1820

Szenario 2

ungewichtet 1792,58 1785,13 1770,41 1784,19 1757,22 1713,35



1 2 3 4 5 6

Abb. 23d: Bias für alle sechs Untersuchungsvariablen - Szenario 2

88

-100

-80

-60

-40

-20

0B

IAS

- Sze

nario

2

ungewichtet -7,42 -14,87 -29,59 -15,81 -42,78 -86,65


-4,06 -12,06 -27,74 -14,48 -42,15 -86,52


-3,35 -10,55 -27,2 -12,49 -39,67 -83,72

1 2 3 4 5 6


Betrachten wir nun die Streuungen der Mittelwertverteilungen – in Abb. 24a

und 24b durch die Standardfehler dargestellt - so fällt auf, dass auch hier die

Präzision der Schätzung von der Korrelationsstärke zwischen Gewichtungs-

und Untersuchungsmerkmal, d.h. also von der Güte des Modells, abhängt.

Während bei allen Untersuchungsvariablen die Varianz des ungewichteten

Schätzers konstant einem Wert folgt, gilt für beide Szenarien gleichermaßen,

dass bei hoher und mittelmäßiger Modellgüte (Variablen NR1 bis NR4) mit

einem Präzisionsgewinn im Sinne einer verringerten Varianz für die

gewichteten Schätzer zu rechnen ist.

Deutlich wird hier wiederum die Unabhängigkeit der Modellgüte von

der Verzerrung der Schätzergebnisse. Unter den Idealbedingungen von

Szenario 1 variiert der Präzisionsgewinn in Abhängigkeit der Modellgüte,

gleichzeitig ergeben sich aber für alle Untersuchungsvariablen

verzerrungsfreie, erwartungstreue mittlere Schätzer nahe dem tatsächlichen

Wert. Bei schwacher Modellgüte kommt es zwar zu einer leichten

Varianzvergrößerung für die Gewichtung nach beiden Merkmalen, der Bias

reduziert sich dennoch auf nahezu Null. Bei hoher Modellgüte liegt der

Gewinn zusätzlich zur Bias-Reduktion in einer bedeutsamen Varianzreduktion.

89

Abb. 24a: Standardabweichung der Mittelwertverteilungen (=Standardfehler)

für alle sechs Untersuchungsvariablen – Szenario 1

0

10

20

30

40

50

60

ungewichtet 50,11 49,94 50,13 49,77 50,51 50,41



1 2 3 4 5 6

Abb. 24b: Standardabweichung der Mittelwertverteilungen (=Standardfehler)

für alle sechs Untersuchungsvariablen – Szenario 2

0

10

20

30

40

50

60

ungewichtet 49,66 49,55 49,61 50,35 49,46 47,42



1 2 3 4 5 6

Sind die Bedingungen wie in Szenario 2 nicht ideal, so erhält man bei

hoher Modellgüte zwar präzise Schätzungen mit geringerer Varianz, der

Schätzer kann trotz allem nicht von seiner Verzerrung befreit werden. Dessen

90

ungeachtet stellt das Redressment im zweiten Szenario aber immer noch eine

wesentliche Verbesserung gegenüber der Nichtgewichtung dar.


In der folgenden Analyse wird wiederum für jede einzelne gezogene Stich-

probe die Differenz des ungewichteten und des nach beiden Verfahren

gewichteten Schätzers zum tatsächlichen Wert (=1800) berechnet.

Anschließend lässt sich der Prozentsatz der Stichproben ermitteln, bei denen

die Gewichtung im Vergleich zur Nichtgewichtung Schätzwerte näher am

Populationswert hervorgebracht hat. Die Ergebnisse sind in Abb. 25a und 25b

dargestellt. Es zeigt sich für beide Szenarien sehr klar, dass in Abhängigkeit

der Modellgüte die Gewichtung deutlich mehr Stichproben mit geringerer

Differenz zum wahren Wert erzeugt hat.

Abb. 25a: Prozentsatz der gewichteten Stichproben, deren Schätzer näher am

wahren Wert liegen – Szenario 1

01020304050607080

Szenario 1


75,29 70,14 61,27 59,42 54,3 49,82

gewichtet nachAlter & Geschlecht

73,27 66,33 55,92 52,61 47,53 46,57

1 2 3 4 5 6

Abb. 25b: Prozentsatz der gewichteten Stichproben, deren Schätzer näher am

wahren Wert liegen – Szenario 2

91

01020304050607080

Szenario 2


68,39 63,51 58,68 56,73 54,52 50,5

gewichtet nachAlter & Geschlecht

67,67 62,72 55,68 54,25 54,59 57,7

1 2 3 4 5 6

4.6.1.3 Vergleich der Konfidenzintervalle

Im Einzelfall, d.h. wenn nur eine einzige gezogene Stichprobe vorliegt, übt die

Varianz eines Schätzers direkten Einfluss auf die Präzision der Schätzung

dahingehend aus, dass sie die Breite eines Konfidenzintervalls vergrößert oder

verkleinert. Wir betrachten nun in unserem Experiment jede einzelne gezogene

Stichprobe und prüfen, ob das für jeden Schätzer sich ergebende 95%-

Konfidenzintervall jeweils tatsächlich in 95 Prozent der gezogenen

Stichproben den „wahren“ Populationsmittelwert von 1800 überdeckt oder

nicht. Abbildung 26a und 26b zeigt die Ergebnisse für beide Szenarien.

Abb. 26a: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle –

Szenario 1

92

50556065707580859095

100

Szenario 1

ungewichtet 87,45 89,14 92,33 93,07 93,84 94,09


99,85 98,87 96,87 95,44 94,41 94,1

gewichtet nach Alter& Geschlecht

99,6 98,24 95,28 93,98 92,66 92,81

1 2 3 4 5 6

Abb. 26b: Überdeckungshäufigkeiten der 95%-Konfidenzintervalle –

Szenario 2

50556065707580859095

100

Szenario 2

ungewichtet 94,43 93,86 90,75 93,07 85,9 56,05


99,78 98,46 93,33 94,25 86,15 56,31


99,77 98,48 92,73 93,94 86,55 58,32

1 2 3 4 5 6

Für den ungewichteten Fall wird deutlich, dass aufgrund der Nonresponse-

Verzerrung die normative Vorgabe von 95 Prozent oft nicht eingehalten wird.

Dies gilt für diejenigen Untersuchungsvariablen, bei denen der Bias besonders

hoch ist. Unter Szenario 1 sind dies vornehmlich die ersten, unter Szenario 2

die letzten Variablen. Für den gewichteten Fall zeichnet sich nun erneut in

Abhängigkeit der Modellgüte ein enormer Genauigkeitsgewinn ab. So können

für beide Szenarien bei hoher Modellgüte (NR1 und NR2)

Überdeckungshäufigkeiten weit über der 95-Prozent-Vorgabe erzielt werden

(jeweils 98 bis 99 Prozent), wohingegen bei denselben Variablen im

ungewichteten Fall lediglich 87-89 % (Szenario 1) bzw. 93-94 % (Szenario 2)

der berechneten Intervalle den wahren Wert überdecken. Selbst unter Szenario

93

2 liefert der gewichtete Schätzer über alle Untersuchungsvariablen hinweg

durchgehend höhere Überdeckungshäufigkeiten als der ungewichtete Schätzer.


Abschließend ist als Gesamtfehlermaß in Abb. 27a und 27b jeweils für beide

Szenarien der MSE (vgl. Formel 32) dargestellt. Deutlich wird, dass der

Gesamtfehler in beiden Szenarien durchweg für den gewichteten Schätzer

kleiner ist. Einzige Ausnahme findet sich in Szenario 1 bei den Variablen NR5

und NR6. Dort führt die Varianzvergrößerung der gewichteten Schätzung zu

einem geringfügig höherem MSE.

Abb. 27a: Mean Square Error; Szenario 1

0

1000

2000

3000

4000

5000

MSE

- Sz

enar

io 1

ungewichtet 4033,57 3671,87 3006,75 2806,11 2679,63 2608,41


954,44 1424,92 2062,35 2296,74 2553,91 2620,86


1122,93 1671,74 2422,01 2661,34 2917,91 2932,63

1 2 3 4 5 6

Abb. 27b: Mean Square Error; Szenario 2

94

0

5000

10000

15000M

SE -

Szen

ario

2

ungewichtet 2521,17 2676,32 3336,72 2785,08 4276,42 9756,88


940,04 1557,7 2806,22 2529,06 4204,16 9754,33


977,19 1574,37 2876,13 2546,23 4061,72 9333,24

1 2 3 4 5 6

Im Gesamten bleibt die bemerkenswerte Erkenntnis festzuhalten, dass die

„korrekte“ Gewichtung nach Szenario 1 zusätzlich zur Varianzreduktion auch

einen Nonresponse-Bias vollständig reduzieren kann. Die „falsche“

Gewichtung nach Szenario 2 führt im gleichen Maße zur Varianzreduktion und

produziert darüber hinaus Schätzer, die im Vergleich zur Nichtgewichtung

weniger verzerrt sind.

Damit stellt die Redressment-Gewichtung, auch bei nicht erfüllter

MAR-Annahme, immer noch eine wesentliche Verbesserung gegenüber dem

Verzicht auf Korrekturgewichtung dar.

5. Schlussfolgerungen

Die Ergebnisse dieser Arbeit sollen nun noch einmal im Gesamten

zusammengefasst werden.

Zunächst verglichen wir den nach dem Redressment-Prinzip

gewichteten Schätzer mit dem Fall der Nichtgewichtung ohne

Berücksichtigung systematischen Ausfalls. Die Stichprobe stellte dabei eine

reine, unverzerrte Zufallsauswahl aus der Gesamtheit dar. Es herrschte

gewissermaßen MCAR.

Unter diesen Bedingungen können wir folgende Ergebnisse festhalten:

Der ungewichtete Schätzer ist unverzerrt - sein Erwartungswert trifft den

tatsächlichen Populationswert. Ein Redressment ist für eine Bias-Reduktion

95

unnötig, denn es existiert kein Bias. Dennoch leistet das Redressment, unter

den Voraussetzungen einer möglichst hohen Korrelation zwischen

Gewichtungs- und Untersuchungsmerkmal, eine teilweise beachtliche

Reduktion der Schätzervarianz und trägt somit zu einem (zum Teil enormen)

Präzisionsgewinn – bei gleichzeitig weiterhin bestehender Erwartungstreue -

bei. Definieren wir also „Effizienz“ als statistische Eigenschaft eines Schätzers

mit maximaler Präzision, so muss festgestellt werden, dass bei hoher

Modellgüte der ungewichtete Schätzer – ganz im Gegensatz zum gewichteten -

diese Eigenschaft nicht besitzt. Bei schwacher Modellgüte jedoch, d.h. dann

wenn Gewichtungsmerkmal und Untersuchungsmerkmal schwach korrelieren,

kommt es - insbesondere unter Beifügung eines weiteren

Gewichtungsmerkmals – zur geringfügigen Varianzvergrößerung und damit zu

einem minimalen Verlust in der Präzision des gewichteten Schätzers.

Für die Gewichtung von Korrelationskoeffizienten können insgesamt

ähnliche Ergebnisse festgestellt werden, wobei dort der Einfluss einer

Gewichtung im Gesamten geringer zu sein scheint. Generell gilt noch einmal

darauf hinzuweisen, dass für die Überprüfung von Beziehungsstrukturen sich

die Gewichtung dann erübrigt, sofern das aufgestellte Kausalmodell alle

Effekte, also auch solche, die sonst durch Gewichtung ausgebessert werden

sollen, einschließt.

Im zweiten Simulationsmodell wurde nun versucht, den Einfluss

systematischer Ausfälle mit zu berücksichtigen. Dafür wurden zwei Szenarien

konstruiert; beim ersten war die MAR-Annahme tatsächlich erfüllt, beim

zweiten nicht.

Aus den Ergebnissen lassen sich folgende Punkte festhalten: Sofern der

Nonresponse-Mechanismus tatsächlich der MAR-Annahme folgt, führt das

Redressment zu einer vollständigen Bias-Reduktion. Der Einfluss von

Nonresponse ist dann perfekt kontrollierbar. Zusätzlich kommt es – sofern

hohe Modellgüte herrscht – zum Präzisionsgewinn im Sinne einer

Varianzreduktion. Ist die MAR-Annahme (Szenario 2) mehr oder weniger

stark verletzt, so zeigt sich, dass dann immer noch – in Abhängigkeit der

Modellgüte – die Varianz reduziert wird, eine Verzerrung jedoch nicht

ausgeglichen wird. Dennoch kommt es im Vergleich zur Nichtgewichtung im

Mittel zu einer besseren Annäherung an den wahren Wert. Der Bias wird zwar

nicht ganz behoben, aber zumindest etwas entschärft.

96

Sofern also unter dem Einfluss systematischer Ausfälle die MCAR-

Annahme nicht mehr gilt, hängt der Erfolg einer Redressment-Gewichtung

davon ab, inwieweit die Kombination der vorhandenen Gewichtungsvariablen

die MAR-Annahme erfüllen kann. Ist diese Annahme erfüllt, so ist ein

Nonresponse-Effekt perfekt kontrollierbar, ist sie verletzt, so kann – je nach

Grad der Annäherung an die MAR-Annahme - der Effekt durch die

Gewichtung zumindest gelindert werden.

Es bleibt die Frage zu diskutieren, ob die Redressment-Gewichtung ein

sinnvolles Verfahren für die Umfragepraxis ist. Dazu lässt sich folgendes

festhalten: Jedem Redressment liegt die empirisch mehr oder weniger

zutreffende Annahme zugrunde, dass innerhalb der Gewichtungsklassen

MAR-Daten vorliegen. Diese Annahme mag falsch sein. Jede

Nichtgewichtung impliziert jedoch, dass der Nonresponse gänzlich MCAR ist.

Diese Annahme mag ebenso illusorisch, wenn nicht gar naiv sein. Das Sample

wird dann so behandelt, als gäbe es keinen Nonresponse-Effekt. Man folgt

damit implizit dem deterministischen Modell, dass sich die Respondenten in

den interessierenden Merkmalen absolut nicht von den Non-Respondenten

unterscheiden. Sharon Lohr (1999: 272) warnt daher alle Skeptiker jeglicher

Korrekturgewichtung: „making no adjustments is itself a model about the

nature of the nonresponse.”

Die vorliegende Simulation erhebt nicht den Anspruch, gewissermaßen als

„experimentum crucis“, die bedingungslose Anwendung des Redressments für

die Umfragepraxis zu legitimieren. Schließlich wird ein Redressment-Modell

in concreto niemals die MAR-Annahme perfekt erfüllen können; auch ist die

Annahme utopisch, dass innerhalb der Klassen tatsächlich homogene, gar

konstante Responsemechanismen herrschen. Ferner ist nicht abzuschätzen,

welchen Einfluss diverse iterative Raking-Prozeduren auf die Qualität der

Gewichtung ausüben.

Es konnte aber die auf analytischer Ebene eindeutige Tatsache

demonstriert werden, dass – auch unter dem Einfluss systematischer

Ausfallerscheinungen - eine Redressment-Prozedur nicht modellabhängig,

sondern modellunterstützt ist, in dem Sinne, dass auch eine „falsche“

Modellannahme trotzdem keine erheblichen Verschlechterungen von

Schätzergebnissen mit sich bringt. Vielmehr besteht gegenüber dem

deterministischen Modell der Nichtgewichtung zumindest die Chance, dass es

97

zur Korrektur ausfallbedingter Einflüsse kommt, sofern die Gruppen geschickt

gewählt sind.

Es erhebt sich damit vielmehr die Frage, nicht ob, sondern wie, d.h. nach

welchen Gruppen, gewichtet werden soll. Um möglichst der MAR-Annahme

gerecht zu werden, scheint insbesondere die Gruppenbildung auf Basis der

Propensity-Scores eine aussichtsreiche Methode zu sein.

Unstrittig bleibt weiter, dass bei gravierenden Erhebungsfehlern in der

Feldphase auch die gewichtete Stichprobe nur ein mäßiges Surrogat einer

Repräsentativerhebung bleiben kann. Aus Gründen der Seriosität empfiehlt

sich daher für die wissenschaftliche Praxis, insbesondere bei kritischen

Ergebnissen, stets die ungewichteten Ergebnisse mit zu publizieren. Auch

lohnt der Vergleich der Varianzen zwecks Abschätzung der Effizienz. Im

Sinne einer wissenschaftlichen Nachvollziehbarkeit empfiehlt es sich darüber

hinaus, auf eine exakte Dokumentation der verwendeten Gewichtungs-

prozeduren nicht zu verzichten.

98

Anhang 1: SPSS Syntax-Programm zur Generierung korrelierter Daten.

Set workspace = 512000. new file. input program. SET SEED random. loop #i = 1 to 100000. do repeat response = r1 to r7. COMPUTE response = rv.normal(0,1). end repeat. end case. end loop. end file. end input program. list case. Save outfile = "c:\DataOut.sav". Factor /variables r1 to r7 /analysis r1 to r7 /print correlation extraction /criteria Factors(7) Iterate(25) /extraction pc /rotation norotate /save reg(all). Save outfile = "c:\DataOut.sav". Matrix. Get X /File = "c:\DataOut.sav" /Variables = fac1_1 to fac7_1. Compute R = {1.0, .84, .56, .40, .20, .05, -.11; .84, 1.0, .71, .63, .15, .15, -.15; .56, .71, 1.0, .22, .43, .28, -.08; .40, .63, .22, 1.0, .19, .16, -.15; .20, .15, .43, .19, 1.0, .35, -.18; .05, .15, .28, .16, .35, 1.0, -.20; -.11, -.15, -.08, -.15, -.18, -.20, 1.0}. Compute NewX = X*chol(R). Save NewX /outfile = */variables = nr1 to nr7. End matrix. Recode nr1 (-10 thru -.05=0) (-.050000000001 thru 10=1) into sex_w . recode sex_w (1=0) (0=1) into sex_m. compute nr1_1 = nr1*500 + 1800. compute nr2_1 = nr2*500 + 1800. compute nr3_1 = nr3*500 + 1800. compute nr4_1 = nr4*500 + 1800. compute nr5_1 = nr5*500 + 1800. compute nr6_1 = nr6*500 + 1800. compute nr7_1 = nr7*500 + 1800. exe. Save outfile='c:\population_01.sav' /compressed.

99

Anhang 2: SPSS Programm der Monte Carlo Simulation – unter Berücksichtigung der Gewichtungsvariablen Geschlecht

define maxiterate (). set miterate = 10000. show miterate. !enddefine. maxiterate. DEFINE repsam (). !DO !doover = 1 !TO 10000. GET FILE='F:\Mark'+' Lutter\studium\diplomarbeit\Simulation\sim01\population_01.sav'. weight off. set seed = random. FILTER OFF. USE ALL. SAMPLE 100 from 100000. title "WEIGHT OFF". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 sex_w sex_m /STATISTICS=MEAN STDDEV . sort cases by sex_w. compute newvar1=1. exe. create newvar2=csum(newvar1). exe. create newvar3=csum(sex_m). exe. compute mean_m=newvar3/newvar2. exe. rank var=newvar2 (D) /rank /print=no /ties=mean. ren var (rnewvar2 = newvar5). formats newvar5 (f8). do if (newvar5>1). recode newvar2 (else=sysmis). end if. exe. compute mmean=newvar3/newvar2. exe. RMV /valid=smean(newvar2) /mean_m=smean(mmean). compute neuvar1=1. exe. create neuvar2=csum(neuvar1). exe. sort cases by sex_m. create neuvar3=csum(sex_w). exe. compute mean_w=neuvar3/neuvar2. exe. rank var=neuvar2 (D) /rank /print=no /ties=mean. ren var (rneuvar2 = neuvar5). formats neuvar5 (f8). do if (neuvar5>1). recode neuvar2 (else=sysmis). end if. exe. compute wmean=neuvar3/neuvar2. exe. RMV /valid2=smean(neuvar2) /mean_w=smean(wmean). ***SOLL DURCH IST**** if (sex_m = 1) weisex = 0.47859/mean_m. if (sex_w = 1) weisex = 0.52141/mean_w. exe.

100

weight by weisex. title "WEIGHT ON". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 sex_w sex_m /STATISTICS=MEAN STDDEV . weight off. SAVE OUTFILE='F:\data_out_01.sav' /COMPRESSED. !DOEND. !ENDDEFINE. repsam. script 'F:\Mark Lutter\studium\ScriptSyntax\001Anmerkungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\002 Titel löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\003 Warnungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\008 Verarbeitete Fälle löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\007 Statistiken löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\004 Log löschen.sbs'.

Anhang 3: SPSS Programm der Monte Carlo Simulation – unter Berücksichtigung der Gewichtungsvariablen Alter & Geschlecht

DEFINE repsam (). !DO !doover = 1 !TO 10000. GET FILE='D:\diplomarbeit\Simulation\sim05\pop_norm_sim05_01.sav'. weight off. set seed = random. FILTER OFF. USE ALL. SAMPLE 100 from 100000. exe. title "WEIGHT OFF". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 /STATISTICS=MEAN STDDEV . corr / var = nr1_1 with nr3_1 / var = nr5_1 with nr6_1 . SAVE OUTFILE='d:\sample_out_sim_05.sav' /COMPRESSED. ****Mittelwert für Alter1 & Sex_w = 0. FILTER OFF. USE ALL. SELECT IF(sex_w=0). EXECUTE . sort cases by alter1 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter1). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100.

101

exe. RMV /m_a1sw0=smean(a1m). SAVE OUTFILE='d:\mean_a1sw0.sav' /keep = m_a1sw0 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter1 & Sex_w = 1. FILTER OFF. USE ALL. SELECT IF(sex_w=1). EXECUTE . sort cases by alter1 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter1). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a1sw1=smean(a1m). SAVE OUTFILE='d:\mean_a1sw1.sav' /keep = m_a1sw1 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=2 & Sex_w = 0. FILTER OFF. USE ALL. SELECT IF(sex_w=0). EXECUTE . sort cases by alter2 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter2). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a2sw0=smean(a1m). SAVE OUTFILE='d:\mean_a2sw0.sav' /keep = m_a2sw0 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=2 & Sex_w = 1. FILTER OFF. USE ALL. SELECT IF(sex_w=1). EXECUTE . sort cases by alter2 (D). compute age1=1. exe. create age2=csum(age1).

102

exe. create age3=csum(alter2). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a2sw1=smean(a1m). SAVE OUTFILE='d:\mean_a2sw1.sav' /keep = m_a2sw1 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=3 & Sex_w = 0. FILTER OFF. USE ALL. SELECT IF(sex_w=0). EXECUTE . sort cases by alter3 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter3). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a3sw0=smean(a1m). SAVE OUTFILE='d:\mean_a3sw0.sav' /keep = m_a3sw0 /COMPRESSED. get file = 'd:\sample_out_sim_05.sav'. ****Mittelwert für Alter=3 & Sex_w = 1. FILTER OFF. USE ALL. SELECT IF(sex_w=1). EXECUTE . sort cases by alter3 (D). compute age1=1. exe. create age2=csum(age1). exe. create age3=csum(alter3). exe. rank var=age2 (D) /rank /print=no /ties=low. ren var (rage2 = age6). exe. do if (age6>1). recode age3 (else=sysmis). end if. exe. compute a1m=age3/100. exe. RMV /m_a3sw1=smean(a1m). SAVE OUTFILE='d:\mean_a3sw1.sav' /keep = m_a3sw1 /COMPRESSED.

103

get file = 'd:\sample_out_sim_05.sav'. MATCH FILES /FILE=* /FILE='D:\mean_a1sw0.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a1sw1.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a2sw0.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a2sw1.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a3sw0.sav'. EXECUTE. MATCH FILES /FILE=* /FILE='D:\mean_a3sw1.sav'. EXECUTE. RMV /m_a1sw0 = smean(m_a1sw0) /m_a1sw1 = smean(m_a1sw1) /m_a2sw0 = smean(m_a2sw0) /m_a2sw1 = smean(m_a2sw1) /m_a3sw0 = smean(m_a3sw0) /m_a3sw1= smean(m_a3sw1). **** SOLL DURCH IST *******************. if (a3=1 & sex_w=0) w = 0.11122/m_a1sw0. if (a3=1 & sex_w=1) w = 0.15177/m_a1sw1. if (a3=2 & sex_w=0) w = 0.23779/m_a2sw0. if (a3=2 & sex_w=1) w = 0.25697/m_a2sw1. if (a3=3 & sex_w=0) w = 0.12958/m_a3sw0. if (a3=3 & sex_w=1) w = 0.11267/m_a3sw1. exe. weight by w. title "WEIGHT ON". DESCRIPTIVES VARIABLES= nr1_1 to nr7_1 /STATISTICS=MEAN STDDEV . corr / var = nr1_1 with nr3_1 / var = nr5_1 with nr6_1 . weight off. SAVE OUTFILE='d:\sample_out_sim_05_a.sav' /COMPRESSED. !DOEND. !ENDDEFINE. repsam. script 'F:\Mark Lutter\studium\ScriptSyntax\001Anmerkungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\002 Titel löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\003 Warnungen löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\008 Verarbeitete Fälle löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\007 Statistiken löschen.sbs'. script 'F:\Mark Lutter\studium\ScriptSyntax\004 Log löschen.sbs'.

104

Anhang 4 SPSS-Programmcode zur Response-Modellierung

Abb. A1: vordefinierte Response-Wahrscheinlichkeiten

Altersklassen

1 2 3 Geschlecht m 0,70 0,45 0,95

w 0,99 0,90 0,50 ***Die Response-Wahrscheinlichkeiten werden auf die Anpassungszellen der ***Merkmalskombination Alter (a3) und Geschlecht (sex_w) verteilt. do if (a3=1 & sex_w=0). set seed = 1234567890. compute response = rv.bernoulli(.70). else if (a3=1 & sex_w=1) . set seed = 1234567890. compute response = rv.bernoulli(.45). else if (a3=2 & sex_w=0) . set seed = 1234567890. compute response = rv.bernoulli(.95). else if (a3=2 & sex_w=1) . set seed = 1234567890. compute response = rv.bernoulli(.99). else if (a3=3 & sex_w=0) . set seed = 1234567890. compute response = rv.bernoulli(.90). else if (a3=3 & sex_w=1) . set seed = 1234567890. compute response = rv.bernoulli(.50). end if. exe. */Nur Elemente mit Response = 1 können für die Stichprobe ausgewählt werden: FILTER OFF. USE ALL. SELECT IF(response=1). EXECUTE .

Literatur

ADM Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V., ASI Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V., BVM Berufsverband Deutscher Markt- und Sozialforscher e.V., D.G.O.F. Deutsche Gesellschaft für Online-Forschung e.V. (2001): Standards zur Qualitätssicherung für Online-Befragungen, zit. nach: http://www.adm-ev.de/pdf/Onlinestandards_D.pdf (URL vom 22.09.2004). Arbeitsgemeinschaft ADM-Stichproben und Bureau Wendt (1994): Das ADM Stichprobensystem (Stand 1993), in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 188-203. Bamberg, G., Baur, F. (1998): Statistik, 10. überarb. Aufl., München. Bandilla, W., Gabler, S., Wiedenbeck, M. (1992): Methodenbericht zum DFG-Projekt ALLBUS Baseline-Studie 1991, ZUMA-Arbeitsbericht 92/04, Mannheim. Bandilla,W., Bosnjak, M., Altdorfer, P. (2003): Survey administration effects? A comparison of web-based and traditional written self-administered surveys using the ISSP environment module, Social Science Computer Review 21: 235-243. Bethlehem, J.G. (1988): Reduction of the nonresponse bias through regression estimation, Journal of Official Statistics 4, 251-260. Bethlehem, J.G. (2002): Weighting nonresponse adjustments based on auxiliary information, in: Groves, R.M., Dillman, D.A., Eltinge, J.L., Little, R.J.A. (eds.): Survey Nonresponse, New York, 275-288. Böltken, F. (1976): Auswahlverfahren, Stuttgart. Börsch-Supan, A., Elsner, D., Faßbender, H., Kiefer, R., McFadden, D., Winter, J. (2003): How to make internet surveys representative: A case study of a new two-step weighting procedure, unveröffentlichtes Konzeptpapier, Version vom 14.09.2003. Braun, M., Eilinghoff, C., Gabler, S., Wiedenbeck, M. (1993): Methodenbericht zur „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1992, ZUMA-Arbeitsbericht 93/01, Mannheim. Cochran, W. G. (1968): The effectiveness of adjustment by subclassification in removing bias in observational studies, Biometrics 24: 205–213. Cochran, W.G. (1972): Stichprobenverfahren, Berlin. Couper, M.P. (2000): Web surveys. A review of issues and approaches, Public Opinion Quarterly 64: 464-494.

105

Couper, M. P., Traugott, M.W., Lamias, M. J. (2001): Web survey design and administration, Public Opinion Quarterly 65: 250–253. Crawford, S. D., Couper, M. P., Lamias, M. J. (2001): Web surveys: perceptions of burden, Social Science Computer Review 19(2): 146–162. Danielsson, S. (2002): The propensity score and estimation in nonrandom surveys - an overview, Research Report no 18 from the project "Modern statistical survey methods", Department of Statistics, University of Linköping, zit. nach: http://www.statistics.su.se/modernsurveys/publ/11.pdf (URL vom 22.09.2004). Deming, W.E., Stephan, F.F. (1940): On a least squares adjustment of a sampled frequency table when the expected marginal totals are known, Annals of Mathematical Statistics 11: 427-444. Diekmann, A. (1996): Empirische Sozialforschung, Grundlagen, Methoden, Anwendungen, 2. Auflage, Reinbek bei Hamburg. Diehl, J.M., Arbinger, R. (1990): Inferenzstatistik, Eschborn bei Frankfurt / Main.

Dillman, D. A. (2000): Mail and Internet Surveys. The Tailored Design Method, New York.

Ellermann, S. (2004): Die Bedeutung der Briefwähler bei der Bundestagswahl 2002, in: van Deth, J. W., Roller, E.: Die Bundestagswahl 2002: Analysen der Wahlergebnisse und des Wahlkampfes, Wiesbaden, 249-277. Esser, H. (1986): Über die Teilnahme an Befragungen, ZUMA-Nachrichten 18: 38-47. Esser, H., Grohmann, H., Müller, W., Schäffer, H.-A. (1989): Mikrozensus im Wandel, Wiesbaden. Faas, T. (2003a): Umfragen im Umfeld der Bundestagswahl 2002: Offline und Online im Vergleich, ZA-Informationen 52: 120-135. Faas, T. (2003b): Offline rekrutierte Access Panels: Königsweg der Online-Forschung?, ZUMA-Nachrichten 53: 58-76. Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.) (1994): Gewichtung in der Umfragepraxis, Opladen. Gabler, S. (1994a): ALLBUS-Baseline-Studie 1991 und ALLBUS 1992: Ost-West-Gewichtung der Daten, ZUMA-Nachrichten 35, 77-81. Gabler, S. (1994b): Eine allgemeine Formel zur Anpassung an Randtabellen, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 88-105. Gabler, S., Häder, S. (1997): Wirkung von Gewichtungen bei Face-to-Face und Telefonstichproben. Eurobarometerexperiment 1994, in: Gabler, S.,

106

Hoffmeyer-Zlotnik, J.H.P. (Hrsg.): Stichproben in der Umfragepraxis, Opladen, 221-245. Groves, R. M. (1989): Survey errors and survey costs, New York. Groves, R.M., Dillman, D.A., Eltinge, J.L., Little, R.J.A. (eds.) (2002): Survey Nonresponse, New York. Groves, R.M., Fowler, F.-J., Couper, M.P, Lepkowski, J.M., Singer, E., Tourangeau, R. (eds.) (2004): Survey Methodology, Wiley Series in Survey Methodology, Hoboken, New Jersey.

Gschwend, Th., Norpoth, H. (2001): Wenn am nächsten Sonntag …: Ein Prognosemodell für Bundestagswahlen, in: Kaase, M., Klingemann, H.-D. (Hrsg.): Wahlen und Wähler: Analysen aus Anlass der Bundestagswahl 1998, Opladen, 471-500.

Gschwend, Th., Norpoth, H. (2002): Die beste Wahlprognose. Warum eine Methode erfolgreicher war als alle anderen, Financial Times Deutschland vom 24.09.2002: 16.

Hansen, M.H., Hurvitz, W.N., Madow, W.G. (1953): Sample Survey Methods and Theory, Vol. I & II, New York. Hartmann, P.H. (1989): Der Mikrozensus als Datenquelle für die Sozialwissenschaften, ZUMA-Nachrichten 24: 6-25. Hartmann, P.H. (1990): Wie repräsentativ sind Bevölkerungsumfragen? Ein Vergleich des ALLBUS und des Mikrozensus, ZUMA-Nachrichten 26: 7-30. Hartmann, H., Schimpl-Neimanns, B. (1992): Sind Sozialstrukturanalysen mit Umfragedaten möglich? Kölner Zeitschrift für Soziologie und Sozialpsychologie 44: 315-340. Heidenreich, H.-J. (1994): Hochrechnung des Mikrozensus ab 1990, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 112-123. Horvitz, D. G. & Thompson, D. J. (1952): A generalization of sampling without replacement from a finite universe, Journal of the American Statistical Association 47: 663 – 685. Kish, L. (1965): Survey Sampling, New York. Koch, A. (1991): Zum Zusammenhang von Interviewermerkmalen und Ausschöpfungsquoten, ZUMA-Nachrichten 28: 41-53. Koch, A. (1997): ADM-Design und Einwohnermelderegister-Stichprobe. Stichprobenverfahren bei mündlichen Bevölkerungsumfragen, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P. (Hrsg.): Stichproben in der Umfragepraxis, Opladen, 99-116.

107

Koch, A., Porst, R. (eds.) (1998): Nonresponse in Survey Research, ZUMA-Nachrichten Spezial 4, Mannheim. Koch, A., Wasmer, M., Harkness, J., Scholz, E. (2001): Konzeption und Durchführung der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften” (ALLBUS) 2000, ZUMA-Methodenbericht 2001/05, Mannheim.

Kostede, N. (1990): Der unerforschte Wähler, Die Zeit 48/1990, zit. nach: Bundeszentrale für politische Bildung - Online: http://www.bpb.de/popup_grafstat.html?url_guid=0QV1CL (URL vom 17.09.2004). Liebl, F. (1995): Simulation. Problemorientierte Einführung, 2. Auflage, München. Little, R.J.A., Rubin, D.B. (1987): Statistical analysis with missing data, New York. Lohr, S. (1999): Sampling: Design and Analysis, Pacific Grove, CA. Lorenc, B. (2003). Effectiveness of weighting by stratification on the propensity score using double samples. Research report 2003: 10, Department of statistics, University of Stockholm, zit. nach: http://gauss.stat.su.se/site/modernsurveys/modern21.pdf (URL vom 22.09.2004). Lorenc, B. (2004): Propensity score weighting with double samples: a simulation study. Research Report 2004: 22, Department of statistics, University of Stockholm, zit. nach: http://gauss.stat.su.se/site/modernsurveys/modern22.pdf (URL vom 22.09.2004). Merz, J. (1983): Die konsistente Hochrechnung von Mikrodaten nach dem Prinzip des minimalen Informationsverlustes, Allgemeines Statistisches Archiv 67: 342-366. Miller, T.W., Panjikaran, K.J. (2001): Studies in comparability: The Propensity Scoring Approach, A. C. Nielsen Center for Marketing Research, University of Wisconsin–Madison, Madison, WI. Mooney, Ch.Z. (1997): Monte Carlo Simulation, Sage University Paper series on Quantitative Applications in the Social Sciences, 07-116, Thousand Oaks, CA. N-Onliner Atlas (2004): Pressemitteilung vom 23.07.2004, zit. nach: http://www.nonliner-atlas.de/pdf/pressemitteilungen/ 2004_06_23_NONLINER_Atlas_zE.pdf (URL vom 22.09.2004). Neurath, P. (1962): Grundbegriffe und Rechenmethoden der Statistik für Sozialwissenschaftler, in: König, R. (Hrsg.): Handbuch der Empirischen Sozialforschung, Erster Band, Stuttgart, 241-308.

108

Noelle-Neumann, E., Petersen, Th. (1996): Alle, nicht jeder. Einführung in die Methoden der Demoskopie, München. Pischner, R. (1994): Quer- und Längsschnittgewichtung des Sozio-oekonomischen Panels, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 166-187. Projektbroschüre Perspektive Deutschland (2004): Pressemitteilung, zit. nach: http://www.perspektive-deutschland.de/files/presse_2004/Perspektive-Deutschland_Projektbroschuere_2004.pdf (URL vom 21.09.2004). Rösch, G. (1994): Kriterien einer nationalen Bevölkerungsstichprobe, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 7-26. Rosenbaum, P. R. (2002): Observational studies, 2nd ed., New York. Rosenbaum, P.R., Rubin, D.B. (1984): Reducing bias in observational studies using subclassification on the propensity score, Journal of the American Statistical Association 79: 516-524. Rosenbaum, P.R., Rubin, D.B. (1983): The central role of the propensity score in observational studies for causal effects, Biometrika 70: 41-55. Rothe, G. (1994): Wie (un)wichtig sind Gewichtungen? Eine Untersuchung am ALLBUS 1986, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 62-87. Rothe, G., Wiedenbeck, M. (1994): Stichprobengewichtung: Ist Repräsentativität machbar?, in: Gabler, S., Hoffmeyer-Zlotnik, J.H.P., Krebs, D. (Hrsg.): Gewichtung in der Umfragepraxis, Opladen, 46-61. Särndal, C.-E., Swensson, B., Wretman, J. (1997): Model assisted survey sampling, 4th printing, New York. Scheuch, E. (1962): Auswahlverfahren in der Sozialforschung, in: König, R. (Hrsg.): Handbuch der Empirischen Sozialforschung, Erster Band, Stuttgart, 309-347. Schnell, R. (1993): Die Homogenität sozialer Kategorien als Voraussetzung für „Repräsentativität“ und Gewichtungsverfahren, Zeitschrift für Soziologie 22: 16-32. Schnell, R. (1997): Nonresponse in Bevölkerungsumfragen, Opladen. Schonlau, M., Zapert. K., Simon, L. P., Haynes-Sanstad, K., Marcus, S. M., Adams, J., Spranca, M. Kan, H., Turner, B., Berry, S. H. (2004): A comparison between responses from a propensity-weighted web survey and an identical RDD survey, Social Science Computer Review 22: 128-138. Schräpler, J.-P. (2000): Was kann man am Beispiel des SOEP bezüglich Nonresponse lernen?, ZUMA-Nachrichten 46: 117-149.

109

SPSS Inc. (2001a): SPSS for Windows, Version 11.0.1, Computer-Software, Chicago. SPSS Inc. (2001b): SPSS 11.0 Syntax Reference Guide, Chicago. Statistisches Bundesamt (1999): Demografische Standards, 3. Auflage, Wiesbaden. Statistisches Bundesamt (2001): Das Stichprobenverfahren der Einkommens- und Verbrauchsstichprobe 1998, Methodenberichte, Heft 1/2001, Wiesbaden. Ulmer, F. (1989): Der Lotteriecharakter des repräsentativen Querschnittes. Wahlprognosen und Meinungsumfragen und der Ablasshandel mit Prozentzahlen, Zeitschrift für Markt-, Meinungs- und Zukunftsforschung, 30/31, Tübingen. Wasmer, M., Koch, A., Wiedenbeck, M. (1991): Methodenbericht zur „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1990, ZUMA-Arbeitsbericht 91/13, Mannheim.

110

Gewichtungsverfahren in der empirischen Sozialforschung ... · PDF fileDie Simulation soll...

Documents

Transcript of Gewichtungsverfahren in der empirischen Sozialforschung ... · PDF fileDie Simulation soll...